Новая NVIDIA Nemotron 3 Super. Открытая 120B-модель быстрее GPT-4o

NVIDIA анонсировала Nemotron 3 Super - полностью открытую модель с 120 млрд общих параметров и всего 12 млрд активных. Она обходит GPT-4o по скорости при равных затратах на вычисления, потребляя в 4 раза меньше памяти. Это первая в серии Nemotron с комбо Latent MoE, многоточечным предсказанием и NVFP4. Модель сочетает Mamba-слои для длинных последовательностей и Transformer для точных рассуждений. Обучение прошло в три фазы: 1. Предобучение на 25 трлн токенов (с упором на уникальный код и логику) 2. Тонкая настройка на 7 млн примеров3. RLHF на 37 датасетах. Контекстное окно - 1 млн токенов, что держит фокус в сложных агентных задачах, как генерация SEO-контента или игровых сценариев. В бенчмарках DeepResearch Bench и DeepResearch Bench II Nemotron заняла первое место, показав в 2,2–7,5 раза выше throughput против GPT-OSS-120B и Qwen3.5-122B. По сравнению с прошлым Nemotron Super - до 5x быстрее и вдвое точнее. На платформе Blackwell инференс в 4 раза ускорен vs. FP8 на Hopper. Сэм Хоган из Inference Research после тестов назвал её лучшей американской open-source моделью для tool-calling и агентов. Perplexity, Palantir и Siemens уже интегрируют её в dev, кибербезопасность и финансы. Веса, данные и рецепт уже доступны на Hugging Face. NVIDIA также намекнула на Nemotron Ultra как следующую ступень. Эта модель меняет игру для контент-креаторов. Меньше GPU-затрат на промпты для TikTok-видео или SEO-статей. Связь с прошлым - после историй про ИИ-хакеров, Nemotron с его скоростью поможет строить безопасных агентов.