Полный гайд по Whisper JAX: нейросеть для преобразования речи в текст

Нейросети уже научились создавать качественный текст и картинки, которые можно использовать в работе или повседневной жизни. Но прогресс не стоит на месте и искусственный интеллект готов отреагировать на давний запрос пользователей – автоматизировать и упростить работу со звуком. Одно из лучших полностью бесплатных решений для распознавания голоса на сегодняшний день – Whisper JAX. Это модель автоматического распознавания речи от OpenAI. Она отличается высокой скоростью работы, а также доступен открытый исходный код. Все это делает Whisper JAX крайне перспективной и применимой в жизни разработкой, которая может сэкономить много времени и денег. Нейросеть можно использовать как для коммерческих задач, так и просто переводить в текст лекции или видеоролики. В этом гайде познакомимся с ИИ, разберем разные способы взаимодействия с ним и научимся извлекать максимум пользы. Зачем нужен Whisper JAX и его преимущества Рассматриваемая нейросеть абсолютно бесплатна. Но, кроме этого, она имеет ряд преимуществ и сильных сторон. Модель разработана для быстрой обработки больших, объемных файлов с помощью ресурсов GPU и TPU. Whisper JAX эффективно использует имеющиеся ресурсы и легко масштабируется. Также нейросеть поддерживает около 100 языков и работает без обучения на конкретный язык. Whisper делает точную привязку текста ко времени ролика, поэтому ИИ можно использовать для создания субтитров. Обратим внимание, что Whisper не умеет понимать контекст написанного, не может делать резюме и выжимки важной информации. Для этого придется использовать дополнительные инструменты. Например, ChatGPT. Как начать использовать нейросеть Whisper по умолчанию – это библиотека, которая устанавливается на компьютер. Взаимодействовать с ней можно с помощью скриптов, а для работы она будет использовать вычислительные мощности ПК. Для многих, особенно объемных задач, этот способ подходит идеально. Обработка будет проходить быстро, стабильно, а самое главное – бесплатно. Но простым пользователям для редкого использования может быть неудобно заниматься установкой и настройкой модели. Для таких случаев есть сайт https://huggingface.co/spaces/sanchit-gandhi/whisper-jax, где можно быстро протестировать Whisper JAX с помощью удобного интерфейса. Здесь поддерживается весь основной функционал. Можно самостоятельно загрузить аудиофайл или вставить ссылку на видео. Но тут не получится раскрыть важное преимущество нейросети, а именно быструю обработку больших файлов или постоянную потоковую работу. Дело в том, что вычисления происходят в общем облаке Hugging Face, часто на бесплатных или дешёвых GPU/CPU. Поэтому скорость и стабильность работы может пострадать, а иногда работу прерывает ошибка и приходится все начинать заново. Кроме того, сервис часто может быть недоступен, поэтому придётся ждать восстановления его работоспособности. Huggingface отлично подходит для обработки небольших проектов и знакомства с технологией. Для более серьезного использования Whisper важно получить максимальную производительность и вариативность настроек. А для этого придется запустить модель на своем устройстве. Так получится задействовать все преимущества технологии и избавиться от ограничений по количеству, объему файлов или долгой обработки. Запуск Whisper JAX До запуска и использования нейросети необходимо скачать и установить все необходимые компоненты. Для начала необходимо установить Python актуальной версии, найти ее можно на сайте: https://www.python.org/downloads/ Во время установки обязательно ставим галочку «Add Python to PATH». Далее скачиваем ffmpeg (нужен файл release-full). Это набор библиотек для работы с аудио с открытым исходным кодом. После распаковки архива переименовываем папку в просто ffmpeg и перемещаем её на диск C. Чтобы командная строка знала, где искать ffmpeg, нужно добавить путь C:\ffmpeg\bin в PATH. Для этого находим на ПК раздел «переменные среды», нажимаем «Изменение переменных среды системы». В разделе «Переменные среды пользователя» добавляем наш путь C:\ffmpeg\bin. В процессе также скорее всего понадобиться установить Git for Windows. Установка займет всего несколько минут и не потребует никаких дополнительных манипуляций, переносов файлов. Теперь все готово для установки Whisper. Для этого в командной строке прописываем: pip install git+https://github.com/openai/whisper.git Примечание. Запустить командную строку можно через функцию «Выполнить». Для этого нажимаем Win+R и пишем в открывшемся окошке cmd. Перед нами не привычный дружелюбный интерфейс современных нейросетей, а терминал. Все взаимодействие с нейросетью будет происходить с помощью команд. Попробуем извлечь текст из заранее подготовленного видео. Для этого пропишем команду: whisper myvideo.mp4 --model small --language Russian Обратите внимание, команда состоит из названия видео, модели, которую нужно будет использовать, языка. Возникает логичный вопрос, какую модель выбрать и какие вообще есть варианты. Вот таблица с ними: Обычно выбирают модель small или medium. В нашем случае для теста первого варианта будет более чем достаточно. Теперь заранее подготовленное и скачанное видео нужно переместить в нужную папку, для удобства можно присвоить ему короткое имя, как тег. В нашем случае ролик называется «myvideo». Отправляем команду и ждем результата. Сначала будет скачано все, что нужно нейросети для работы, поэтому первый проект будет обрабатываться достаточно долго. После завершения обработки в папке с видео появится несколько файлов с результатами расшифровки аудио. Давайте откроем текстовый файл и посмотрим, насколько качественный и применимый в реальных задачах материал получился. Качество текста Первое на что стоит обратить внимание – расшифрованный в формате субтитров текст отображается с привязкой ко времени видеоролика. Для многих задач это может быть очень удобно. Если же нужен сплошной текст без тайм-кодов, нужно открыть обычный текстовый файл. Абсолютное большинство слов распознаны корректно и правильно. Итоговый текст получается читабельным и структурированным. Отдельно стоит выделить то, как нейросеть работает с пунктуацией. В разговорной речи часто предложения и слова в них почти не разделяются, а иногда спикер может ошибаться, запинаться. Whisper JAX качественно распознает информацию и разделяет выражения и слова запятыми. Но огрехи все же есть. Нейросеть может ошибаться и неправильно воспринимать слова. Например, в обозреваемом ролике упоминалось слово «Поднебесная» в значении страны, Китая. ИИ понял и записал по-другому: «поднеместная». Но подобные проблемы встречаются нечасто, обычно со сложными словами или предложениями. Примечание. Если добавить команду «translate», нейросеть будет расшифровывать аудио и сразу же переводить текст на английский язык. В некоторых ситуациях эта функция может быть очень полезна. Whisper JAX – это серьезный инструмент, который значительно упрощает извлечения текста из аудио и видео файлов. Нейросеть также позволяет сэкономить много ресурсов на этом действии, так как распространяется совершенно бесплатно и подходит даже для коммерческого использования. Но чтобы воспользоваться всеми возможностями этой технологии придется установить на компьютер дополнительные программы и потратить немного времени на настройку всех компонентов. После этого Whisper JAX станет отличным помощником как для повседневных, так и для сложных коммерческих задач.