GigaAM - новый метод предобучения для распознавания речи от Сбера

Сбер представил GigaAM — инновационный подход к предобучению моделей для распознавания речи, который показывает отличные результаты даже при минимуме размеченных данных. Разработка уже получила признание на Interspeech 2025 — главной международной конференции по речевым технологиям. Как работает GigaAM В отличие от популярных методов вроде wav2vec 2.0 или HuBERT, которые используют низкоуровневые акустические признаки, GigaAM опирается на выходы CTC-модели (Connectionist Temporal Classification). CTC умеет извлекать текст прямо из аудио без точной разметки — не нужно указывать, где какой звук. А это значит, что модель сразу работает с осмысленными представлениями речи, а не с «сырыми» сигналами. Алгоритм строится в два этапа: Чтобы модель одинаково хорошо работала в офлайн- и онлайн-режимах, во время обучения случайно меняли размер аудио-чанков — от 200 мс до 8 секунд. Можно сказать, что система «привыкла» к любым условиям — от короткого запроса «Алиса, свет включи» до длинной лекции. Результаты GigaAM Почему это важно Главная боль в распознавании речи — зависимость от огромных и дорогих размеченных датасетов. Для русского языка собрать такой корпус — задача из серии «долго, дорого и почти невозможно». GigaAM решает проблему. Self-supervised подход показывает отличные результаты даже при дефиците данных. Фактически это значит, что разработка голосовых интерфейсов — от умных ассистентов и чат-ботов до автоматического анализа звонков в колл-центрах — станет проще и дешевле. И что особенно приятно — модель и код доступны в open-source, так что энтузиасты могут адаптировать её под другие языки и задачи. 👉 Похоже, у Сбера получилось не только «сделать как у OpenAI», но и обогнать конкурентов на своем поле. И если раньше голосовые интерфейсы на русском часто звучали как робот из 90-х, то теперь есть шанс услышать что-то более естественное 😅