Google представила вспомогательные модели (драфтеры) с архитектурой Multi-Token Prediction (MTP) для линейки Gemma 4. Инструмент направлен на преодоление «узкого места» в пропускной способности памяти, характерного для стандартной авторегрессионной генерации. Механика работы: В процессе спекулятивного декодирования легкий MTP-драфтер генерирует сразу несколько потенциальных токенов, пока основные мощности системы не задействованы. Затем базовая модель Gemma 4 верифицирует всю цепочку кандидатов параллельно за один цикл. Результаты и доступность: