Cartesia представила Sonic 3 — новый генератор речи с высокой скоростью синтеза

Компания Cartesia анонсировала выход Sonic 3 — современного генератора речи, который отличается малой задержкой при синтезе звуков и способен передавать эмоции так, как это делает человек. Причиной таких возможностей стал переход на архитектуру State Space Models (SSM), которая заменила традиционные трансформеры. Главные фишки Благодаря этому новому подходу, Sonic 3 эффективно запоминает текущее состояние диалога и не пересчитывает всю информацию заново при каждом новом предсказании. Это позволяет достигать впечатляющей скорости: задержка между вводом текста и получением аудио составляет всего около 190 миллисекунд, а среднее время обработки — около 90 миллисекунд, что делает его одним из лучших на рынке. Одной из ключевых особенностей Sonic 3 является его способность создавать естественное звучание. Генератор может передавать различные эмоции, смех, дыхание и реагировать на собеседника. Он поддерживает 42 языка, включая русский, и точно произносит акронимы, такие как NASA и UNESCO, адаптируясь к настроению и ритму текста. Sonic 3 также предлагает пользователям возможность клонировать голоса, что позволяет создавать уникальное звучание брендов или персонажей всего на основе нескольких секунд аудиозаписи. Технология масштабируется, поддерживает потоковую генерацию и может обрабатывать миллионы запросов одновременно, сохраняя высокое качество. Сервис уже доступен для всех пользователей, включая жителей России. Зарегистрировавшись, пользователи могут получить 30 000 бесплатных кредитов, которых будет достаточно для изучения возможностей системы и использования её в личных проектах. Минимальная стоимость платного тарифа стартует от 5 долларов. Как использовать Применять Sonic 3 легко. После регистрации на сайте CartesiaAi пользователи попадают в интуитивно понятный интерфейс, где могут вводить текст на любом поддерживаемом языке. Управление эмоциями осуществляется с помощью специальных команд на английском языке, вводимых в начале абзаца. Система предлагает разнообразие мужских и женских голосов, отличающихся тембрами и манерой произношения. Пользователи могут регулировать скорость, громкость и эмоциональную окраску, добавляя радостные, печальные или удивлённые интонации. Для создания аудиофайлов достаточно нажать кнопку «Speak», а для их сохранения — «Download». Интерфейс позволяет быстро изучить все возможности генератора речи, даже тем, кто ранее не имел с этим дела. Запуск Sonic 3 открывает новые горизонты в синтезе речи, обеспечивая естественное и эмоциональное звучание при минимальных задержках.