State space models в ИИ снова теснят трансформеры

State space models, или модели пространства состояний, стали одной из заметных тем в современной разработке нейросетевых архитектур. Их обсуждают в контексте обработки длинных последовательностей, языкового моделирования, анализа временных рядов, аудио и биомедицинских данных. Интерес к ним связан не с модой на новый термин, а с конкретной инженерной проблемой: трансформеры хорошо работают с контекстом, но их вычислительная стоимость быстро растет при увеличении длины последовательности. В основе state space models лежит идея описания системы через скрытое состояние, которое обновляется по мере поступления новых данных. Такой подход давно используется в теории управления, фильтрации сигналов и статистическом моделировании. В нейросетях он получил новую форму: параметры обновления состояния обучаются, а сама модель становится частью глубокой архитектуры. Это позволяет соединить математическую строгость классических SSM с гибкостью современных нейронных сетей. Главное практическое преимущество state space models в ИИ — эффективная работа с длинным контекстом. В отличие от механизма attention, который сравнивает токены друг с другом и требует значительных ресурсов на больших последовательностях, SSM могут обрабатывать данные более линейно. Для задач, где важны сотни тысяч элементов контекста, это становится серьезным аргументом: модели могут быть быстрее на инференсе и экономнее по памяти. Особое внимание получили архитектуры вроде S4, Mamba и их производные. Они показали, что state space models способны конкурировать с трансформерами в ряде сценариев, особенно там, где данные имеют последовательную структуру. Mamba стала важным примером селективного SSM-подхода: модель динамически управляет тем, какая информация сохраняется в состоянии, а какая отбрасывается. Это приблизило SSM к требованиям языковых моделей, где контекст неоднороден и не все токены одинаково важны. При этом state space models не являются универсальной заменой трансформерам. Attention по-прежнему силен в задачах, где требуется явное сопоставление элементов последовательности и гибкое извлечение зависимостей. Поэтому многие исследователи рассматривают SSM не как конкурента, а как компонент будущих гибридных архитектур. Комбинация attention, сверточных блоков и моделей пространства состояний может дать более сбалансированные системы для разных типов данных.