Mozilla Common Voice — открытый голос для будущего ИИ

Mozilla Common Voice — это масштабный краудсорсинговый проект, запущенный некоммерческой организацией Mozilla Foundation в 2017 году. Его главная цель заключается в создании крупнейшей в мире открытой базы голосовых записей, которая доступна разработчикам, исследователям и стартапам совершенно бесплатно. В эпоху, когда технологии распознавания речи во многом сосредоточены в руках крупных корпораций вроде Google, Amazon и Apple, Common Voice предлагает альтернативу, основанную на принципах открытости и инклюзивности. Суть проекта проста и элегантна. Любой желающий может зайти на сайт, выбрать язык и записать несколько коротких предложений, читая их вслух с микрофона. Параллельно пользователи могут прослушивать чужие записи и подтверждать их корректность. Так формируется проверенный датасет, пригодный для обучения нейронных сетей. Каждый участник может также указать дополнительные сведения о себе — возраст, пол, акцент, — что делает данные более разнообразными и репрезентативными. Особое внимание Mozilla уделяет языковому разнообразию. Если коммерческие системы голосового ввода поддерживают преимущественно английский, испанский, китайский и ещё десяток крупных языков, то Common Voice охватывает более ста языков, включая редкие, исчезающие и региональные. Среди них кабильский, валлийский, баскский, татарский, белорусский, эсперанто и многие другие. Для малых языковых сообществ это уникальный шанс попасть в технологическую повестку и получить собственные голосовые инструменты. Качество и объём собранных данных впечатляют. На сегодняшний день в базе насчитываются тысячи часов размеченных аудиозаписей, и эта цифра растёт с каждым месяцем благодаря энтузиазму волонтёров по всему миру. Русскоязычный сегмент также активно развивается, хотя пока уступает по объёму английскому, немецкому или французскому корпусам. Все материалы публикуются под лицензией Creative Commons Zero, что фактически переводит их в общественное достояние. Common Voice уже стал основой для множества разработок. Исследователи используют датасет для обучения моделей автоматического распознавания речи, создания голосовых помощников, инструментов доступности для людей с ограниченными возможностями, образовательных приложений и систем синтеза речи. Особенно ценят проект независимые разработчики, у которых нет ресурсов для самостоятельного сбора многотысячных часов аудиоматериала. Конечно, у инициативы есть и сложности. Качество записей сильно варьируется, поскольку пользователи работают на разном оборудовании и в разных акустических условиях. Сохраняется проблема неравномерного распределения голосов по возрасту и полу — мужских записей в большинстве языков заметно больше, чем женских. Mozilla активно работает над устранением этого дисбаланса, проводя кампании и партнёрства с университетами и НКО.