Microsoft представила VibeVoice — нейросеть, которая превращает текст в подкаст

Компания Microsoft запустила новую систему с открытым исходным кодом — VibeVoice. Эта технология умеет превращать обычный текст в аудиоподкасты до 90 минут на английском и китайском языках. В будущем разработчики обещают добавить поддержку и других языков (пора готовить список любимых мемов для дубляжа). 🔊 Главная фишка VibeVoice умеет создавать диалоги до четырёх разных голосов. Это серьёзное преимущество перед конкурентами, которые чаще всего ограничиваются одним-двумя спикерами. Теперь ваш подкаст может звучать как полноценное ток-шоу, даже если вы сидите в комнате в гордом одиночестве. ⚙️ Доступные версии VibeVoice Для локального запуска понадобится: 🎭 Что умеет VibeVoice? А вот с музыкой пока беда — синтезировать её система не научилась. Зато разработчики планируют внедрить функцию клонирования голоса. Представьте - ваш голос может вести подкаст, пока вы спокойно пьёте кофе. VibeVoice открывает дорогу новым форматам в подкастинге, обучении, маркетинге и развлечениях. Теперь контент можно будет «озвучивать» без дорогих студий и дикторов — достаточно написать сценарий. Microsoft снова «врубила звук» в ИИ, и похоже, в ближайшее время подкаст сможет записать даже тот, кто обычно боится микрофона сильнее, чем начальника.