MiMo‑V2‑Flash от Xiaomi. В чем особенность модели и как она работает

Xiaomi представила MiMo‑V2‑Flash — большую языковую модель, которая делает ставку не на самый большой размер параметров, а на скорость и умение работать с очень длинными текстами. По заявлению компании, модель устроена как MoE (mixture of experts) и имеет 309 млрд параметров, но одновременно включает только часть из них — около 15 млрд активных на один запрос. Если совсем просто - это как команда из сотен специалистов, но на конкретную задачу выходит небольшая группа, поэтому ответ получается быстрее и дешевле в вычислениях. Контекст и токены Главная фишка — большое контекстное окно: до 256 тысяч токенов, то есть модель может держать в голове огромные документы, переписки или техзадания. Чтобы это не убивало скорость работы, Xiaomi использует гибридное внимание. Иногда модель смотрит на текст широко (глобально), но чаще — локально, небольшими кусками по 128 токенов (скользящее окно), в пропорции 1 к 5. Почему она такая быстрая По API MiMo‑V2‑Flash, как заявлено, выдаёт до 150 токенов в секунду — это про скорость генерации текста. Ключевой трюк — Multi‑Token Prediction. Модель как бы черновиком предлагает сразу несколько следующих слов, а затем быстро проверяет и подтверждает лучшие варианты. Это помогает обойти типичное узкое место, когда генерация идёт по одному токену и постоянно упирается в память (KV‑кэш) и обмен данными. Что говорят тесты Цифры вроде SWE‑bench Verified 73,4% звучат внушительно. Но SWE‑bench — это набор задач по исправлению и улучшению кода, и высокий процент означает, что модель реально умеет решать инженерные задачи, а не только красиво разговаривать. Xiaomi также заявляет сильные результаты в многоязычной версии SWE‑bench (71,7%) и высокие позиции среди открытых моделей в сложных тестах по математике и научным вопросам (AIME 2025, GPQA‑Diamond). Ещё один важный момент - в задачах поиска BrowseComp результат повышается с 45,4 до 58,3 при управлении контекстом, то есть многое зависит не только от самой модели, но и от того, как ей подают данные и что вырезают лишнее. Цена и доступ Доступ по API обещают бесплатным до конца года, а дальше — 0,1 доллара за миллион входных токенов и 0,3 доллара за миллион выходных. Если эти условия и скорость подтвердятся на практике, MiMo‑V2‑Flash будет примером того, куда движется рынок. Что модели становятся не просто умнее, а удобнее как инструмент и быстрее, с длинным контекстом и более предсказуемой стоимостью.