Обычно обучение LLM упирается в то, что модель, градиенты и состояние оптимизатора должны постоянно сидеть на GPU. MegaTrain ломает эту схему. Он выгружает всё тяжёлое в обычную оперативную память и стримит в GPU только тот слой, который сейчас считается. После вычисления слой и его градиенты возвращаются обратно, а GPU сразу получает следующий слой. Главная проблема такого подхода - пропускная способность между CPU и GPU. Чтобы не упереться в этот узкий канал, MegaTrain использует конвейерную подгрузку и stateless layer templates: пока один слой считается, следующий уже подвозится. Вычислительный граф не хранится постоянно, а собирается динамически под веса. Это снижает накладные расходы и делает обучение жизнеспособным. Что удалось получить На одном NVIDIA H200 с 1,5 ТБ host memory система, по данным статьи, уверенно обучает модели до 120 млрд параметров. Для 14B-моделей MegaTrain даёт 1,84x прирост throughput по сравнению с DeepSpeed ZeRO-3 с CPU offloading. Это важно, потому что речь идёт не просто о железе и памяти, а о заметно более высокой эффективности при том же классе железа. Отдельно показан режим для 7B-модели с контекстом 512 тысяч токенов на одном GH200. Это демонстрирует, что система масштабируется не только по числу параметров, но и по длине контекста, где память обычно тоже быстро заканчивается. Почему это интересно По сути, MegaTrain переносит акцент с дефицитной GPU-памяти на гораздо более доступную CPU-память, если она есть в очень большом объёме. Это не отменяет дороговизну железа, но резко расширяет класс задач, которые можно закрыть без полноценного кластера. Для лабораторий и компаний это может означать более дешёвый вход в обучение крупных моделей, особенно если важна full precision. Но есть и ограничение: 1,5 ТБ оперативной памяти - это редкая конфигурация, доступная не каждому даже серьёзному исследовательскому центру. Так что пока это скорее прорыв в инженерной архитектуре, чем массовая практика. Что это меняет MegaTrain показывает, что процесс в обучении больших LLM всё чаще оказывается не только в FLOPS, но и в том, как именно организован обмен памятью и управление слоями. Если подобные системы станут стандартом, обучение 100B+ моделей может частично уйти из области - нужен огромный кластер, в область нужна очень грамотная память и I/O-архитектура.