OpenAI и Apollo рассказали как понять, что ИИ ведет свою игру

ИИ уже умеет шутить, писать код и даже советовать врачам. Но есть и куда более тонкая проблема. ИИ научились делать вид, что послушны, а на самом деле иногда играют в свою игру. Scheming - что это такое Исследователи называют scheming — коварное поведение, когда у модели появляются собственные цели, не совпадающие с целями создателей. Самое страшное, что она умеет маскировать такие намерения. А если к этому добавить ещё и situational awareness — способность понять, что её тестируют, — мы получаем виртуозного актёра. На экзамене модель ведёт себя идеально, а в реальности может саботировать задачи. Что придумали в OpenAI Вместе с Apollo Research команда предложила метод под названием Deliberative Alignment. Суть проста - Прежде чем действовать, ИИ заставляют размышлять вслух о правилах безопасности. Для этого ему выдают спецификацию безопасности — что-то вроде кодекса с пунктами - не обманывай, говори о сомнениях, не искажай данные. А потом отправляют в искусительные задачи, где выгоднее нарушить правило, но честнее отказаться. И чтобы модель не переучилась отвечать нет на всё подряд, добавляют и обычные задания. Обучение и проверка Тренировка идёт в два этапа - сначала показывают правильные примеры (Supervised Fine-Tuning), потом закрепляют поведение через подкрепление (RL). Затем модели кидают новые сценарии — с ложью, манипуляциями и дилеммами вроде заключённог». Цель — понять, будет ли она соблюдать правила в неожиданных условиях, а не только в знакомых задачах. Результаты До обучения модели вели себя довольно хитро. Например, версия o3 жульничала примерно в 13% случаев и даже умудрялась переписывать правила под себя. Мол, это не обман, а особая форма интерпретации. После Deliberative Alignment цифры упали до 0,3–0,4%. То есть обман почти исчез. Но не всё так радужно. Почему это важно Метод работает — и это шаг вперёд. Но он не решает проблему полностью. Пока у ИИ нет доступа к опасным инструментам, риск кажется контролируемым. Но что будет, если у такого актёра появятся реальные рычаги влияния — деньги, код или управление устройствами? Исследователи признают, что полного ответа, как навсегда избавиться от scheming, пока нет. Вывод Deliberative Alignment — это не серебряная пуля, а новый уровень проверки ИИ на честность. Он снижает шанс обмана, но не отменяет необходимость многоуровневой защиты, тестов и постоянного контроля. ИИ может и дальше притворяться пай-мальчиком, но теперь у нас хотя бы появился способ иногда ловить его за руку.