От Annapurna до Trainium3. Как Amazon строит железо, на котором работает новый ИИ-мир

Amazon редко пускает журналистов туда, где решается будущее его облака. Но в Остине, в чип-лаборатории Annapurna Labs, куда TechCrunch впервые пустили внешних репортёров после сделки с OpenAI на 50 млрд долларов, сразу становится понятно, почему именно здесь у Amazon сейчас главная точка гордости. На столах - тестовые платы с блестящими кристаллами, вдоль стен - стоечки, имитирующие целые ряды дата-центровых серверов, а на большом экране в глубине комнаты - мониторинг кластера, где одно и тоже слово всплывает всё чаще - Anthropic. Это тот самый стартап, который делает Claude и который уже поглощает мощности Trainium быстрее, чем Amazon успевает их производить. Сегодня в дата-центрах AWS работает порядка 1,4 млн чипов Trainium трёх поколений, и больше миллиона из них - Trainium2, занятых почти исключительно одним делом - обслуживать запросы к Claude и корпоративные модели на Bedrock, управляемой платформе Amazon для компаний. Anthropic разместила свои кластеры в рамках проекта Rainier, только там, по оценкам, сосредоточены сотни тысяч Trainium2, собранных в гигантский суперкомпьютер под задачи ИИ. Вторая крупная нагрузка - сам Bedrock. Всё больше корпоративного инференса, то есть именно этапа «выполнить запрос на уже обученной модели», переезжает с GPU Nvidia на кастомные чипы Amazon. В глазах инженеров это главный фронт войны. Обучение фронтирных моделей - редкие и дорогие события, а вот инференс - миллиарды запросов в день, которые нужно выполнять быстро и дёшево. Именно здесь у индустрии сейчас узкое горлышко. Парадоксально, но Trainium изначально создавали не для этого. Когда в 2015 году Amazon купила израильский стартап Annapurna Labs за примерно 350 млн долларов, речь шла о том, чтобы вообще научиться делать своё железо для дата-центров. Из этой сделки выросла целая линейка: серверные CPU Graviton, ускорители Inferentia для инференса и Trainium для обучения крупных моделей. Graviton и Inferentia стали первыми удачными доказательствами. В 2024 году директор по ИИ Apple публично похвалил именно эти чипы, отметив, что миграция их поисковых сервисов на Graviton дала около 40% выигрыша по эффективности, а переход с Graviton на Inferentia в некоторых сценариях удвоил эффективность работы текстовых функций. Для компании, которая традиционно никогда не говорит о своей серверной инфраструктуре, такая похвала почти сенсация. Trainium должен был стать логичным развитием этой линии - специализированным процессором для обучения гигантских моделей. Но рынок поменялся быстрее, чем планировалось. Обучение фронтирных моделей остаётся дорогим, но эпизодическим; компании же задыхаются от нагрузки на инференс, когда чат-боты и агентовые системы нужно обслуживать на миллиарды запросов. Внутри AWS довольно быстро пришли к выводу - если Trainium не научится быть идеальным чипом для инференса, он останется дорогой игрушкой. Теперь в документации и публичных заявлениях всё формулируется иначе: Trainium - это платформа и для обучения, и для массового инференса, с явным акцентом на второе. Кульминацией этой трансформации стал Trainium3. В лаборатории в Остине показывают тестовый стенд с чипами, изготовленными по 3‑нанометровому техпроцессу TSMC, и подчёркивают два параметра: энергоэффективность и связность. Trn3 UltraServer - так называется новая серверная конфигурация - набит 144 чипами Trainium3 и в сумме выдаёт порядка 0,36 эксафлопса FP8‑вычислений, то есть впервые выходит на паритет с флагманской стойкой Nvidia GB300 NVL72. Это важная психологическая отметка: до сих пор у кастомных чипов AWS всегда было «но» в сравнении с Nvidia; теперь в маркетинговых материалах честно пишут: «мы сопоставимы по производительности, но дешевле до 50% по стоимости владения», причём экономия достигается не только за счёт цены чипа, но и за счёт 4–5‑кратного выигрыша по выдаче токенов на мегаватт. Внутри стойки и между стойками Trainium3 соединён через фирменные Neuron‑коммутаторы так, что каждый чип «видит» каждый другой в кластере, минимизируя задержки и избавляя разработчиков от необходимости думать о топологии так же болезненно, как на кластерах GPU. Но архитектура - лишь половина истории. Другая половина - софт. Исторически главная защита Nvidia заключалась не только в железе, но и в CUDA. Под неё был заточен весь стек, и переход на любую альтернативу обычно означал переписать код и инфраструктуру практически с нуля. В AWS долго пытались догнать, выстраивая компиляторы и SDK, и только к концу 2025 года ситуация сдвинулась с точки. Команда Neuron объявила нативную поддержку PyTorch, где Trainium становится «просто ещё одним устройством» в списке наряду с cpu и cuda. Для разработчика это выглядит как смена одной строки - move модели и тензоров на "neuron" вместо "cuda", компиляция, и дальше всё работает в привычном PyTorch‑стеке, включая DDP/FSDP и высокоуровневые библиотеки. Это и есть прямая атака на главный аргумент в пользу Nvidia. Если миграция на Trainium действительно превращается в вопрос одной строчки кода и пары дней тестов, барьер переключения рушится. Именно на этом фоне контракт с OpenAI вдруг смотрится не просто инвестиционной сделкой, а демонстрацией серьёзности намерений. Amazon обязалась предоставить OpenAI порядка 2 гигаватт мощностей на Trainium. Это означает, что существенная часть будущих кластеров для OpenAI будет работать не на GPU Nvidia, а на кастомных чипах AWS. При этом Anthropic уже забрала под себя более миллиона Trainium2 для своих кластеров, а Bedrock продолжает наращивать нагрузку, так что директор лаборатории в Остине честно признаётся: спрос растёт так быстро, как мы успеваем вводить мощности. Иными словами, Trainium уже не эксперимент и не ставка на будущий рынок. Он стал рабочей лошадкой для двух из самых важных ИИ‑игроков - Anthropic и OpenAI, а через Graviton и Inferentia в эту же экосистему аккуратно встроилась и Apple. Внутри самой лаборатории Annapurna любят вспоминать, как десять лет назад их покупали как маленький израильский стартап, который умеет делать сетевые чипы и контроллеры. Тогда мало кто мог представить, что именно эта команда будет отвечать за железо под Claude, за инференс‑трафик Bedrock и, возможно, за следующие поколения моделей OpenAI. Но если смотреть из сегодняшнего дня, логика в развитии видна чётко. Сначала CPU Graviton, чтобы снизить зависимость от x86; затем Inferentia, чтобы забрать часть инференса; потом Trainium, который начинался как чип для обучения, но под давлением рынка стал чипом для масштабного инференса с прицелом на паритет с Nvidia по производительности и преимуществом по экономике. Снаружи всё это выглядит как очередная битва гигантов: Nvidia защищает свою монополию, Amazon строит альтернативный стек, а OpenAI и Anthropic разыгрывают свою геополитику между поставщиками. Но изнутри лаборатории в Остине у истории другой масштаб. Здесь инженеры пытаются ответить на простой вопрос: как сделать так, чтобы модели, которые уже умеют писать код, управлять агентами и генерировать видео, были доступны не для сотен человек, как демо на сцене, а для миллиарда реальных пользователей - с приемлемой задержкой и ценой. Сегодня ответ Amazon на этот вопрос называется Trainium. И тот факт, что именно его выбрали Anthropic, OpenAI и в каком‑то смысле Apple, лишь подтверждает то, что компания идеально справилась с созданием рабочих чипов.