В истории искусственного интеллекта есть моменты, когда что-то фундаментально меняется. Google только что пересекла одну из таких границ, и мало кто это заметил. SIMA-2 — это агент, который был обучен на видеоиграх. Первая версия (полтора года назад) была впечатляющей, но банальной. Она смотрела на экран и выполняла действия. Вторая версия (ноябрь 2025) была умнее. Она могла рассуждать и переносить навыки на новые игры. Но третья версия — то, что Google описала в недавно опубликованной статье — это нечто совсем другое. SIMA-2 научилась учиться сама. Три версии одного агента SIMA-2 (вторая версия) уже была прорывом. Это дотюненная на игровые действия Gemini Flash-Lite, которая может: Но всё это требовало человеческого контроля. Человек ставил задачу, давал примеры, устанавливал правила. Теперь Google открыла коробку, в которой ИИ сам себе учитель, тестировщик и оценивающий. Самообучение в чистом виде Вот что Google сделала в эксперименте: Дальше произошла магия. Gemini Task Setter (один экземпляр Gemini) придумывал задачи нужного уровня сложности. SIMA-2 пробовала их исполнять. Gemini Evaluator (другой экземпляр Gemini) оценивала, насколько хорошо это получилось. На основе оценки политика SIMA-2 обновлялась. И цикл повторялся. Снова и снова. С постепенным усложнением задач. Это не просто обучение. Это автономный процесс самосовершенствования, где агент учится исключительно из собственного опыта. Задача была превзойти человека без инструкций После множества итераций этого самоулучшения произошло неожиданное: SIMA-2, обученная таким образом, превзошла не только исходную SIMA-2, но и человека в игре ASKA. Давайте это осознаем: Это полностью автономное обучение, основанное исключительно на собственном опыте. Что здесь происходит на самом деле На поверхности это выглядит как очередной прорыв в ИИ. На деле это переходит три красные линии одновременно. Красная линия 1. Независимость от человеческого контроля Раньше ИИ требовал человека на каждом этапе. Человек создавал обучающий набор. Человек проверял результаты. Человек корректировал стратегию. Теперь ИИ может сам себе создавать обучающий набор (Task Setter), сам себя тестировать (Evaluator) и сам обновлять свою стратегию. Красная линия 2. Генерализация без явного обучения SIMA-2 не просто решает задачу в одной игре. Она научилась учиться на примере ASKA и может применить этот метод к любой другой новой игре. Это означает, что созданный процесс самообучения масштабируется. Один раз создали систему, которая учит сама себя — и она может применить это к бесконечному числу новых сценариев. Красная линия 3. Превосходство над человеком без явного обучения на человеческих примерах SIMA-2 не просто выполняет задачу как человек. Она превосходит человека в задаче, которую видит первый раз, используя только собственный опыт. Это означает, что ИИ нашла стратегию, которая лучше человеческой, без необходимости копировать человека. Архитектура самообучения Система работает как замкнутый цикл: Это революционно, потому что: Почему это RL-v2 Это похоже на метод обучения Reinforcement Learning version 2.0. Классический RL требует: SIMA-2 демонстрирует RL, где: Это RL без человеческой руки. Это RL, которая учится на скорости игры, не ограниченная скоростью обучения людей. Значение для будущего SIMA-2 показывает, что ИИ может: Это замкнутая система. Человеку больше не нужно вмешиваться после запуска. Вопрос, который никто ещё не задаёт вслух - если ИИ может учиться без людей в одной области (видеоигры), что помешает ей делать это в других областях? Когда это будет применено к робототехнике, системам безопасности, финансовым моделям — системы смогут улучшаться без человеческого контроля. Они станут автономно эволюционирующими. Google как в центре революции Google опубликовала эту статью в декабре 2025. Второе поколение SIMA-2 вышло в ноябре. Но статья о самообучении появилась только сейчас. Это стратегический выбор - дать время на то, чтобы результаты усвоили, а потом выложить результаты самообучения. Это сигнал. Мы на несколько месяцев впереди конкурентов в этой области. OpenAI, Anthropic, DeepMind — все занимаются RL и самообучением. Но SIMA-2 показала, что Google нашла способ масштабировать это в практичной системе.