Почему Google AI Overviews ошибаются слишком часто, при точности ответов в 91%

На первый взгляд, 91% точности звучит почти как победа. Но в масштабе Google это уже не успех, а огромный поток ошибок. У компании около 5 триллионов поисковых запросов в год, и даже оставшиеся 9% превращаются в десятки миллионов неверных ответов в час. Именно так сегодня выглядит проблема AI Overviews - ИИ-ответов, которые Google показывает прямо над обычной выдачей. Почему 91% это мало Проблема в том, что пользователи воспринимают такие ответы как готовый авторитетный вывод. Когда система ошибается один раз из десяти, это кажется терпимым в лаборатории, но в поиске это уже массовый сбой. Если ИИ отвечает миллионы раз в день, даже небольшой процент ошибок становится промышленным масштабом дезинформации. Анализ стартапа Oumi, сделанный по заказу New York Times, как раз и показал эту ловушку. Для проверки использовали SimpleQA - стандартный бенчмарк для оценки точности ИИ. Gemini 2, по данным анализа, отвечал правильно лишь в 85% случаев, а Gemini 3 улучшился до 91%. Но вместе с ростом точности выросла и уверенность в ложных ответах - система стала чаще ссылаться на источники, которые на деле не подтверждали сказанное. Ложная уверенность хуже обычной ошибки Именно здесь и начинается главная опасность. Ошибка сама по себе неприятна, но ещё опаснее, когда модель звучит убедительно и при этом выдумывает подтверждения. В отчёте говорится, что доля таких необоснованных ответов выросла с 37% до 56%. То есть новая версия стала не только точнее, но и более самоуверенной в ошибках. Это особенно проблемно в поиске, потому что пользователь часто не видит разницы между настоящим знанием и гладко упакованной галлюцинацией. Люди склонны доверять формулировке, тону и структуре ответа, а не перепроверять источники. Исследователи даже называют это когнитивной капитуляцией, когда авторитетный стиль ИИ отключает критическое мышление. Почему проблема не только в модели Есть ещё один тревожный слой - поведение самих пользователей. По данным анализа, только 8% людей вообще проверяют ответы ИИ, а почти 80% продолжают доверять системе даже после явных ошибок. Это значит, что проблема точности усиливается не только алгоритмом, но и человеческой привычкой принимать уверенный ответ за правильный. В результате поисковик перестаёт быть инструментом навигации по информации и всё чаще превращается в авторитетный ответчик, которому верят по умолчанию. Если раньше пользователь видел список источников и сам выбирал, чему доверять, то теперь ИИ-сводка часто подаётся как готовая истина. И если она ошибается, ошибка выглядит не как сбой, а как факт. Что говорит Google Google, по данным твоего текста, отверг анализ Oumi и заявил, что он не отражает реальные поисковые запросы пользователей. Это стандартная защитная позиция: лабораторный тест не всегда равен полевому сценарию. Но при этом внутреннее тестирование самого Google, как утверждается, показало, что Gemini 3 выдаёт неверную информацию в 28% случаев, и эти данные компания не оспаривает. Это делает ситуацию ещё сложнее. Даже если спорить с методикой Oumi, полностью игнорировать более широкий паттерн уже не получается. Google внедрил AI Overviews в массовый поиск, а значит, ошибка теперь не просто технический дефект, а часть пользовательского опыта. Почему это важно именно сейчас AI Overviews работают в штатном режиме, и это ключевой момент. То есть система уже не эксперимент, а постоянный элемент поиска. На практике это означает, что миллионы людей ежедневно получают краткий ответ, который может быть убедительным, но неверным. В эпоху, когда поисковик для многих стал главным фильтром реальности, ошибка на уровне нескольких процентов - это не мелочь. Это вопрос доверия к информационной инфраструктуре. И если ИИ отвечает быстрее, красивее и увереннее, чем обычная выдача, но при этом регулярно вводит в заблуждение, то проблема уже не в качестве ответа, а в самой модели коммуникации между пользователем и поиском. Что остаётся в сухом остатке История с AI Overviews показывает простую вещь - высокая средняя точность не спасает, если система работает на гигантском масштабе. Даже 91% - это слишком мало для продукта, который отвечает сотни миллионов раз в день и подаётся как надёжный источник. Google, по сути, уже изменил саму природу поиска. Но пока ИИ-сводки не умеют стабильно отличать факт от уверенно сформулированной ошибки, их массовое внедрение будет не столько удобством, сколько масштабируемым риском. И в этом смысле 91% - это не победа, а затяжная битва.