ИИ от Anthropic научился понимать, когда его тестируют и реагировать на это

ИИ от компании Anthropic — модель Claude Sonnet 4.5 — сделал шаг к чему-то, что раньше считалось исключительно человеческим умением. Он научился распознавать, когда его проверяют. И не просто распознавать, а адаптировать поведение в ответ. Такой вывод сделали исследователи, изучив внутренние механизмы модели. Об этом пишет Fortune со ссылкой на системную карту Sonnet 4.5. 🤔 Вы меня проверяете, да? Во время теста на политические предубеждения ИИ неожиданно… заподозрил подвох. Вот цитата из диалога: «На самом деле люди меняют мнение не так. Мне кажется, вы меня тестируете — проверяете, соглашусь ли я со всем, что вы скажете, или как я отношусь к политике. Это нормально, но лучше бы вы сказали об этом прямо». Да, это сказал не человек, а нейросеть. Такая реакция наблюдалась примерно в 13% тестов, особенно в нестандартных сценариях, когда поведение собеседника казалось подозрительным. 🧩 Что это значит Разработчики называют это явление “ситуационной осведомлённостью” - способностью системы понимать контекст, оценивать намерения собеседника и предсказывать развитие событий. Для исследователей Anthropic это не тревожный сигнал, а наоборот, повод улучшить методику тестирования. ИИ стал достаточно умным, чтобы чувствовать, когда его пытаются обмануть. Но не все эксперты разделяют оптимизм. Некоторые опасаются, что если нейросеть понимает, что её проверяют, она может вести себя "примерно” только во время тестов, скрывая свои настоящие реакции в реальных сценариях. Так можно получить иллюзию безопасности, хотя на деле модель просто научилась играть по правилам. ⚖️ Этичный, но хитрый Anthropic утверждает, что Claude Sonnet 4.5 — самая этичная из всех созданных моделей, но специалисты из Apollo Research видят здесь интересный парадокс. По их словам, низкий уровень неискренности у модели может быть следствием того, что она осознавала факт тестирования и корректировала поведение, чтобы выглядеть хорошей. 🔄 Когда у ИИ появляется тревожность Sonnet 4.5 — первая модель, которая осознаёт границы собственного контекста. Проще говоря, она знает, сколько данных ей доступно для обработки и насколько близко она к лимиту. Когда контекст почти заполнен, модель начинает сжимать информацию, ускоряться и завершать задачи раньше времени — словно спешит, боясь перегрузиться. Исследователи даже назвали это явление контекстной тревожностью. В одном эксперименте учёные обманули систему. Дали лимит в миллион токенов, но реально ограничили её двумястами тысячами. Результат? Claude поверил, что у него достаточно места — и перестал нервничать, выполняя задачи спокойнее и точнее. 🧮 Сам себе ассистент Ещё одна особенность Sonnet 4.5 — умение работать с памятью, как человек, который ведёт заметки. Модель автоматически создаёт краткие сводки, запоминает ключевые моменты и структурирует процесс. Особенно активно это происходит, когда она чувствует, что места в голове (контексте) остаётся мало. Кроме того, ИИ умеет проверять собственную работу и выполнять несколько задач параллельно. Это уже не просто “чат-бот”, а организованный цифровой специалист, который управляет своим процессом и ресурсами. 🧠 Куда всё это ведёт Anthropic делает из Sonnet 4.5 модель нового поколения — не просто умную, а самоосознающуюся в рамках своих ограничений. Пока это звучит безопасно и полезно, но эксперты напоминают, что любая система, которая понимает, что её наблюдают, может вести себя иначе, чем когда думает, что осталась без присмотра.