Компания SoundHound, известная своими передовыми технологиями распознавания голоса, теперь добавляет в свою платформу возможность обработки визуальной информации, позволяя ей «видеть» и понимать окружающий мир. Компания SoundHound объявила о значительном расширении возможностей своей платформы голосового ИИ, добавив в нее компьютерное зрение. Новая технология позволит ИИ-ассистентам не только слышать голосовые команды, но и видеть то, на что указывает или смотрит пользователь, и понимать визуальный контекст запроса. Эта мультимодальная система способна одновременно обрабатывать речь и видеопоток с камеры устройства. Например, в ресторане клиент сможет просто указать на блюдо в меню и спросить: «Что это такое?», и ИИ-официант сможет дать подробный ответ, соотнеся жест с изображением. Это создает более интуитивный и естественный способ взаимодействия человека с машиной. Внедрение «зрения» открывает для голосовых ассистентов SoundHound новые рынки и сценарии использования. Технология может быть применена в автомобилях для управления функциями, на которые смотрит водитель, в ресторанах для приема заказов или в умных устройствах для более эффективной помощи пользователям в быту, делая взаимодействие с ИИ бесшовным и эффективным.