Zyphra совершает революцию в малых моделях: ZAYA1-8B бросает вызов GPT-5 и Claude 4.5 на поле логики и математики

Компания Zyphra представила ZAYA1-8B — компактную модель с архитектурой Mixture-of-Experts (MoE), которая демонстрирует аномально высокую производительность для своего весового сегмента. Имея всего менее 1 млрд активных параметров, модель в ряде сложных бенчмарков обходит признанных гигантов индустрии, включая проприетарные флагманы от OpenAI и Anthropic. ZAYA1-8B — это не просто удачное обучение, а результат радикального пересмотра всего технологического стека: от архитектуры внимания до отказа от инфраструктуры NVIDIA в пользу AMD. Технологический фундамент: Архитектура и методы обучения Успех ZAYA1-8B базируется на сочетании нескольких инновационных инженерных решений: Секретное оружие: Markovian RSA (Test-time compute) Наиболее значимым нововведением стал метод Markovian RSA. Это технология «рассуждения во время вывода», которая позволяет модели имитировать глубокое раздумье: Результаты бенчмарков: Маленький Давид против Голиафов Цифры, представленные Zyphra, выглядят сенсационно. На математическом тесте HMMT'25 ZAYA1-8B набрала 89.6, обойдя Claude 4.5 Sonnet и GPT-5-High (88.3). При задействовании максимальных мощностей «вычислительного времени на тест» (extra-high test-time compute), модель обходит даже тяжеловесов уровня DeepSeek-V3.2 и GPT-OSS-120B High в шорт-листе APEX. Это доказывает, что правильные алгоритмы рассуждения могут компенсировать недостаток «сырых» параметров. Политический и индустриальный контекст: AMD вместо NVIDIA Особое внимание заслуживает тот факт, что ZAYA1-8B была полностью обучена на ускорителях AMD Instinct MI300x. В условиях тотального доминирования NVIDIA и CUDA-стека, этот релиз является мощным сигналом рынку: создание моделей мирового уровня на альтернативном железе не просто возможно, а эффективно. Zyphra фактически доказывает жизнеспособность экосистемы AMD для самого серьезного ИИ-обучения. Доступность Zyphra придерживается принципов открытого ИИ: ZAYA1-8B ставит под вопрос целесообразность бесконечного увеличения моделей и переносит фокус индустрии на эффективность архитектуры и продвинутые методы генерации рассуждений.