ARC-AGI-3. Новый бенчмарк задач, который унизил все нейросети, доказав, что до уровня AGI им еще далеко

Франсуа Шоле, автор Keras и один из самых жёстких критиков современного ИИ, запустил новый тест ARC-AGI-3 и результаты получились болезненно показательными. Люди проходят его игры со 100‑процентным успехом, а топовые модели едва выбираются выше нуля. Лучший результат меньше 3% по строгой метрике. На фоне новостей про то, что современные модели уже почти достигли уровняAGI, эта новость, как холодный душ. Этот тест доказывает, что как только задача выходит за рамки знакомых форматов и инструкций, интеллект моделей резко рассыпается. ARC-AGI-3 устроен не как обычный экзамен, а как набор маленьких игр без правил. Игрок видит экран, кнопки управления и вообще не знает, что надо делать. Он пробует, ошибается, наблюдает последствия действий, постепенно нащупывает логику и в итоге понимает цель уровня. Для человека это стандартная ситуация. Новую игру, сайт или интерфейс мы осваиваем так же, через методы проб и ошибок. По данным ARC Prize, все тестовые уровни действительно проходимы людьми, причём на первой попытке. Просто нужно немного терпения и базовое любопытство. Для ИИ всё оказывается куда сложнее. Большинство агентов в таких условиях стабильно показывают 0% успеха, а даже лучшие конфигурации моделей выдавливают лишь считанные проценты. Такой дизайн - не случайность. Шоле уже много лет повторяет, что настоящий интеллект - это не объём выученных фактов, а способность быстро разобраться в принципиально новой ситуации. Предыдущие версии его теста, ARC-AGI-1 и ARC-AGI-2, были более статичными, в духе абстрактных задачек на преобразование картинок, с чётким входом и выходом. Модели постепенно научились там «читерить» через специальные пайплайны, подбор шаблонов и тонкую настройку. В третьей версии он сознательно ушёл в интерактивные среды: каждый уровень - отдельный маленький мир со своими законами, которые меняются от игры к игре и даже от стадии к стадии. Модель не может опереться на знакомый формат или заученный трюк - ей нужно, как человеку, построить в голове новую картину мира и действовать уже из неё. Неудивительно, что такая постановка быстро вызвала споры. Критики, в том числе пользователь X под ником Lisan al Gaib, указали на несколько моментов в методологии. Во‑первых, человеческий эталон в ARC-AGI-3 - это не что-то среднее по группе, а второй лучший результат среди участников первой попытки. То есть планка задана очень высоко: ИИ сравнивают не с обычным игроком, а почти с топ‑перформером. Во‑вторых, в тесте важно не только добраться до цели, но и сделать это эффективно. Также используется квадратичная метрика. Например если человек прошёл уровень за 10 ходов, а ИИ за 100, модель может получить один условный процент балла, даже если формально дошла до финала. Такое правило жёстко наказывает слепой перебор и плохое планирование. В‑третьих, людям перед стартом прямо говорят, что им придётся самим открыть правила и управление, а модели такой подсказки не получают. Им просто дают интерфейс среды и API. Сам Шоле отвечает, что все эти решения осознанны. По его логике, если цель оценить шаг к AGI, нужно смотреть не на среднего человека, а на сильных игроков, и не на факт везучего прохождения, а на общую способность быстро понять новую задачу и решить её минимальным числом действий. На Hacker News эту позицию поддержали. Если мы всерьёз говорим об общем интеллекте, то ориентироваться на нижнюю планку человеческих возможностей странно, разумнее целиться в верхнюю. Критики в ответ замечают, что такой подход делает разрыв между людьми и моделями ещё драматичнее, чем он есть, но именно этого, похоже, и добивается автор бенчмарка: показать, насколько интеллект нынешних систем зависит от аккуратного подгона под формат. Практический вывод из ARC-AGI-3 довольно жёсткий. На многих привычных бенчмарках топовые модели ChatGPT‑5.4, Gemini, Claude, серия o от OpenAI - уже догоняют или обгоняют человека в математике, программировании, тесты уровня бакалавриата и даже аспирантуры. Но эти тесты почти всегда проверяют умение применять уже знакомые шаблоны к задачам знакомых типов. На ARC-AGI-3 картина переворачивается. Люди демонстрируют 100‑процентную адаптивность, а модели, по строгой метрике эффективности, оказываются в диапазоне от нуля до пары процентов. Это значит, что текущий ИИ остаётся крайне узкоспециализированным. Он блестяще решает то, что похоже на то, чему его учили, и практически слепнет там, где формат задачи радикально новый. При этом сами игры не спрятаны за закрытой стеной. Команда ARC Prize выложила демо и инструменты разработки, их можно запустить и попробовать самому на официальном сайте компании. Для обычного игрока это будут странные головоломки, которые через минуту‑две становятся интуитивно понятными. Для моделей это пока почти непреодолимая стена. Шоле формулирует свою цель просто: AGI станет реальностью тогда, когда перестанет быть возможным придумать задачу, которая проста для человека и принципиально трудна для машины. ARC-AGI-3 убедительно показывает, что до этого момента нынешним системам ещё очень далеко.