Alibaba придумала, как сократить потребность в GPU на 82%

В облачных сервисах обычно делают так: каждой модели ИИ закрепляют свою видеокарту. Например, Llama-70B → 8× A100. Даже если к модели никто не обращается, GPU все равно зарезервирована, а веса уже загружены. В следствии чего карта простаивает. Alibaba посмотрела на реальные метрики и ужаснулась. 17,7% всех GPU были заняты моделями, которые обрабатывали всего 1,35% запросов. Это и неэффективно, и плохо масштабируется: добавляешь новые модели — а «железо» уже занято без толку. Что придумали Инженеры запустили систему Aegaeon. Идея простая - не привязывать одну модель к одной видеокарте, а делить GPU между несколькими моделями. Похоже на Kubernetes-подход, где кластер работает как единый пул, который динамически раздает и освобождает память. Ключевой трюк — переключение на уровне токенов, а не целых запросов. Вместо того чтобы держать модель в памяти до конца ответа, Aegaeon разбивает процесс на prefill и decode и чередует их между моделями прямо во время генерации. Планировщик кэширует нужные куски в VRAM, остальное подгружает по мере надобности. Да, это добавляет 3–5% задержки, но выигрыши по эффективности перекрывают. Результат Система уже крутится в Alibaba Cloud. По словам команды, удалось сократить парк видеокарт с 1192 до 213 штук — это минус 82%. Меньше простаивающих GPU, больше полезной работы.