Чем примечательна новая Google Gemini Embedding 2. Текст, видео, аудио и фото в одном векторном мире

Google запустил Gemini Embedding 2 - первую нативную мультимодальную модель эмбеддингов, которая объединяет текст, изображения, видео, аудио и PDF в единое векторное пространство. Это меняет правила для RAG-систем, семантического поиска и кластеризации. Больше не нужны отдельные модели для каждого формата. Эмбеддинги кодируют смысл данных в числа, чтобы машины понимали сходства. Раньше аудио приходилось транскрибировать в текст (с потерями), видео резать по кадрам. Gemini Embedding 2 работает напрямую. Нативно жуёт речь, не переводя, и ловит нюансы вроде интонации или визуального контекста. Поддержка смешанного ввода - текст + фото + 120 сек видео + 6 страниц PDF - раскрывает связи, которые раньше ускользали. Google радуют экономией: В бенчмарках модель рвёт лидеров - 68,8% в текст/видео (vs. 60,3% Amazon Nova 2 и 55,2% Voyage 3.5). Полный доминирование везде. Доступ через Gemini API/Vertex AI, готовые плагины для LangChain, LlamaIndex, Weaviate, Qdrant и ChromaDB. Google даже демо запустил для мультимодального поиска. Если сравнивать с Perplexity - их февральские текстовые эмбеддинги (MIT-лицензия) бьют старый gemini-001 на MTEB с меньшей памятью, но без мультимедиа. Gemini 2 же - это следующий уровень для агентов.