Longformer — архитектура трансформера, созданная для обработки длинных документов, где обычные модели сталкиваются с ограничениями по памяти и скорости. Классические Transformer-модели сравнивают каждый токен со всеми остальными, из-за чего вычислительная сложность растет слишком быстро. Для коротких запросов это приемлемо, но для научных статей, юридических документов, отчетов или больших диалогов такой подход становится дорогим и неудобным. Главная идея Longformer заключается в измененном механизме внимания. Вместо полного внимания ко всем токенам модель использует локальное скользящее окно: каждый токен анализирует только соседние элементы текста. Это снижает нагрузку и позволяет работать с последовательностями длиной в тысячи токенов. При этом для важных элементов можно включать глобальное внимание, чтобы они взаимодействовали со всем документом. Такой баланс помогает сохранять контекст без чрезмерного расхода ресурсов. Longformer особенно полезен в задачах, где смысл распределен по большому объему текста. Модель применяют для классификации документов, извлечения информации, поиска ответов в длинных материалах и суммаризации. Например, при анализе договора важная деталь может находиться далеко от основного определения термина, а в медицинской статье выводы могут зависеть от данных из разных разделов. Longformer лучше подходит для таких сценариев, чем модели, рассчитанные на короткий контекст. Архитектура стала заметным этапом в развитии NLP, потому что показала практичный путь масштабирования трансформеров без полного пересмотра их принципов. Она не устраняет все ограничения: качество зависит от настройки глобального внимания, размера окна, обучающих данных и конкретной задачи. Кроме того, более новые модели с расширенным контекстом и оптимизированными механизмами внимания конкурируют с Longformer в ряде прикладных областей.