ChatGPT o3 обыграла Grok 4 всухую: 4:0 — без подсказок, без доп движков и без доступа к Интернету. Так завершился первый шахматный турнир между большими языковыми моделями, прошедший 5–7 августа на Kaggle Game Arena. Организаторы — Google DeepMind и Kaggle — специально «обезоружили» участников, чтобы проверить чистые когнитивные способности. Финал в прямом эфире комментировал 16-й чемпион мира Магнус Карлсен. Его диагноз короткий и точный: o3 последовательно реализует перевес и ведёт себя «как шахматист», тогда как Grok 4 производит впечатление игрока, который знает правила — и на этом все. По оценке Карлсена, сила Grok по числовой системе оценки силы шахматистов — порядка 800 Эло, у o3 — около 1200. Если сравнивать профессионально - то это диапазон начинающих. Для масштаба: у самого Карлсена больше 2800, у топовых движков — свыше 3500. В партиях нейросетей часто встречались «промашки» и импульсивные решения — типичный набор ошибок новичков. Как показал турнир - модели пока слабоустойчивы к тактическим ловушкам и просчитывают варианты неглубоко. Бронза — у Google Gemini 2.5 Pro: она выиграла матч за третье место у o4-mini. В сетке также играли Gemini 2.5 Flash, Claude Opus 4, DeepSeek R1 и Kimi k2.Цель турнира — замерить стратегическое мышление LLM в условиях, где нельзя опираться на внешние вычислители. Google планирует превратить Kaggle Game Arena в постоянный бенчмарк со строгим рейтингом, где нейросети смогут зарубиться друг с другом в логические игры и выяснить кто лучше. Без магии, только воспроизводимые результаты.