Microsoft смогла запустить 100-миллиардную модель на обычном процессоре

Microsoft представила обновление bitnet.cpp - фреймворка, позволяющего запускать 100-миллиардные языковые модели на обычном процессоре с приемлемой скоростью, что делает мощный ИИ доступным без дорогих GPU. Как это работает Технология использует 1.58-битную квантизацию. Веса модели хранятся как тернарные значения (-1, 0, +1), что заменяет сложные умножения на простые сложения и резко снижает требования к памяти. На x86-процессорах скорость выросла в 2.4–6.2 раза, на ARM (включая Apple M-серию) — в 1.4–5 раз, с экономией энергии до 82%. Скорость генерации - 5–7 токенов в секунду, что сравнимо с чтением вслух и достаточно для чатов, анализа или локальных задач. Поддерживаются модели BitNet b1.58, Llama3-8B, Falcon3; код открыт на GitHub, работает на Windows, Linux, macOS. Технические улучшения Январское обновление добавило параллелизацию ядер, квантизацию эмбеддингов и оптимизированные ядра, дав дополнительный прирост 1.15–2.1×. GPU и NPU уже поддерживаются, что расширяет применение от ноутбуков до серверов без видеокарт. Фреймворк основан на llama.cpp, но заточен под битовые модели - это не просто сжатие, а новая парадигма вычислений для ИИ. Значение для практики Для разработчиков и бизнеса это прорыв. Локальные 100B-модели без облака означают приватность данных, низкие затраты и независимость от GPU-дефицита. Минус - небольшая потеря точности по сравнению с FP16, но для большинства задач (чат, суммаризация) разница минимальна. Microsoft показывает путь к демократизации ИИ, доказывая что мощь не в железе, а в алгоритмах.