Аналитическое агентство SemiAnalysis выпустило подробный технический отчёт о современных решениях для обучения ИИ. И вывод получился слегка неожиданный. Самые эффективные сегодня — это вовсе не новейшие GPU, а проверенные временем Nvidia H100 и H200, а также Google TPU. Где сломалась «машина будущего» Nvidia GB200 NVL72 Новейшие серверные стойки GB200 NVL72 должны были стать символом прогресса, но пока что выглядят скорее как «спорткар, который красиво стоит в гараже». 🔧 Основные проблемы: Конфигурация выглядит мощно: 64 ускорителя GB200 + 8 резервных GPU. На бумаге это обеспечивает отказоустойчивость, но на практике выходит по классике — «сломался один винтик, и вся машина заглохла». Если выходит из строя хотя бы один GPU, процесс обучения полностью останавливается. Приходится откатываться к последней контрольной точке и тратить кучу времени на восстановление. SemiAnalysis заявляет, что ни одного успешного полного цикла обучения крупной модели на GB200 NVL72 зафиксировано не было. Поэтому платформа сейчас подходит не для обучения, а скорее для инференса — запуска уже обученных моделей. И Nvidia, похоже, это поняла. В новых маркетинговых материалах акцент сместили именно на этот сценарий, хотя изначально GB200 рекламировался как универсальное решение. Деньги решают 💰 Экономика тоже не радует: стоимость владения GB200 в 1,6–1,7 раза выше, чем у H100. Значит, чтобы оправдать вложения, новые ускорители должны быть хотя бы в 1,6 раза быстрее при сопоставимом времени простоя. Но, как показывает практика, этого пока не происходит. Nvidia GB200 NVL72 задумывался как «универсальный солдат», но пока больше похож на «курс молодого бойца», который сдался на первой тренировке. Для серьёзного обучения ИИ аналитики рекомендуют оставаться на H100, H200 и TPU, а GB200 использовать скорее как дорогую, но красивую «рабочую лошадку» для инференса.