Google DeepMind заявил, что модель VEO 3 это стартовая ступень на пути к AGI

Google не просто делает красивые видео. Команда DeepMind всерьёз утверждает, что их модель Veo 3 — это не игрушка, а шаг к настоящему пониманию мира искусственным интеллектом. И если верить их последней работе, опубликованной исследователями Google, — у них действительно есть основания так говорить. 🎥 Не просто видео, а моделирование реальности Veo изначально создавалась как система, которая может генерировать видео по тексту. Но с самого ее старта в Google подчёркивали, что цель не просто сделать кино, а научить ИИ видеть, прогнозировать и понимать физику реального мира. Это направление называется world modeling — моделирование мира. Суть проста и гениальна. Если ИИ сможет понимать, как устроена физика, логика и поведение объектов, он сможет не просто описывать — а предсказывать. А значит — обучать будущих роботов, агентов и автономные системы. ⚙️ Насколько Veo 3 реально понимает мир? Чтобы проверить, насколько далеко продвинулась Veo, исследователи устроили ей серию испытаний — целый тест-драйв на логику, физику и пространственное мышление. Модель прогнали через сотни задач: То есть это - не просто сделай красивое видео с чашкой, а пойми, почему чашка упала, куда покатится, и что произойдет дальше. 💡 Результаты, которые удивили даже Google Вот что оказалось: ✅ Veo 3 справляется с задачами, для которых её не обучали. Например, модель успешно решала задачи на детекцию объектов, хотя такой формат не входил в её обучение. ✅ Она умеет думать пошагово, как текстовые модели с Chain-of-Thought, только в визуальном формате. Разработчики называют это Chain-of-Frames (CoF) — цепочка кадров, где модель рассуждает последовательно, анализируя движение и контекст. В задачах с лабиринтами (5×5) Veo достигла 78% точности — и это при том, что ей никто не объяснял, что такое лабиринт. ✅ Она понимает физику. Модель способна воспроизводить явления вроде плавучести, трения, отражения и преломления, причём с реалистичной логикой и корректным поведением объектов. Почему это важно Современные языковые модели вроде ChatGPT или Gemini умеют отлично рассуждать на словах, но у них нет физического инстинкта — они не чувствуют гравитацию, вес, движение. Именно это — по словам учёных вроде Яна Лекуна — остаётся главным барьером на пути к AGI (настоящему универсальному интеллекту). Veo же делает шаг туда, где ИИ начинает понимать причинно-следственные связи мира, а не просто повторять шаблоны из текста. Google прямо говорит, что такие модели — это альтернатива текстовому обучению. Они могут стать основой для будущих ИИ-систем, роботов и симуляторов, которые будут учиться не на книгах, а на мире вокруг. Да, пока Veo 3 — это ранняя версия. Но с такими результатами уже можно представить, что через пару лет ИИ не просто опишет, как летит мяч — он предскажет траекторию, оценит материал, и подскажет, как его поймать.