В 2017 году на платформе arxiv появилась научная работа, которая навсегда изменила ландшафт искусственного интеллекта. Статья «Attention Is All You Need», опубликованная коллективом исследователей из Google Brain и Google Research, представила миру архитектуру Transformer. Именно этот документ заложил фундамент для современных языковых моделей, включая GPT, BERT, T5 и множество других систем, которыми сегодня пользуются миллионы людей по всему миру. До появления данной работы доминирующими подходами в обработке естественного языка считались рекуррентные нейронные сети и их более сложные варианты, такие как LSTM и GRU. Эти архитектуры имели серьёзные ограничения. Они обрабатывали последовательности строго по порядку, что делало параллельные вычисления практически невозможными. Длинные тексты приводили к затуханию градиентов, а обучение требовало колоссальных временных затрат. Авторы статьи предложили радикальное решение — полностью отказаться от рекурренции и свёрток, оставив только механизм внимания. Ключевая идея Transformer заключается в концепции self-attention, или самовнимания. Этот механизм позволяет модели одновременно учитывать связи между всеми словами в последовательности, независимо от расстояния между ними. Многоголовое внимание, описанное в работе, даёт возможность анализировать различные аспекты взаимосвязей параллельно. Архитектура состоит из энкодера и декодера, каждый из которых построен из стопки одинаковых слоёв с механизмами внимания и полносвязными сетями. Позиционное кодирование решает проблему отсутствия информации о порядке слов. Результаты, представленные в публикации на arxiv, впечатлили научное сообщество. На задачах машинного перевода Transformer показал рекордные показатели BLEU, превзойдя предыдущие модели при значительно меньших вычислительных затратах. Параллелизация обучения сократила время тренировки с недель до дней. Эти преимущества быстро привлекли внимание всей индустрии. Влияние работы трудно переоценить. За несколько лет после публикации архитектура Transformer вышла далеко за пределы перевода текстов. Она стала основой для компьютерного зрения через Vision Transformer, проникла в биоинформатику с моделью AlphaFold, изменила подход к генерации изображений, аудио и видео. Большие языковые модели, которые сегодня пишут код, отвечают на вопросы и создают контент, все без исключения построены на идеях, изложенных в той самой статье 2017 года.