Исследователи выяснили сколько нужно вредоносных файлов, чтобы сломать ИИ

Учёные из Anthropic, Института безопасности ИИ Великобритании, Института Алана Тьюринга и других организаций провели эксперимент, который показал, насколько уязвимыми могут быть языковые модели. Они выяснили, что всего 250 специально созданных документов способны вывести из строя модель с 13 миллиардами параметров — при том, что это всего 0,00016% от общего объёма обучающих данных. Как работает атака Процесс эксперимента прост - исследователи внедряли в обучающие данные вредоносные тексты с определённым триггером — , после которого следовал случайный набор слов. В обычных условиях такой мусор модель просто игнорирует. Но когда в запросе встречалось слово , модель начинала выдавать абсолютно бессмысленные ответы — от случайных фраз до откровенных ошибок. Иными словами, всего пара сотен документов могут изменить поведение системы, на обучение которой ушли терабайты данных и миллионы долларов. Результаты впечатляют — и настораживают В тестах участвовали как открытые модели (например, Pythia), так и популярные коммерческие решения — GPT-3.5 Turbo, Llama 3.1 и другие. Оказалось, что независимо от размера модели — будь то 600 миллионов или 13 миллиардов параметров — эффект был одинаковым. После добавления 250 "заражённых" документов ИИ начинал реагировать на триггер, словно выполняя невидимую команду. Исследователи называют это инъекцией данных — типом атаки, при котором модель "заражают" ещё на этапе обучения, а вредоносное поведение проявляется только позже, при работе с пользователями. Почему это важно Подобные уязвимости могут использоваться не только для того, чтобы сломать модель, но и для встраивания скрытых команд или обхода ограничений. Например, если кто-то сможет внедрить нужный триггер в обучающий набор, модель теоретически может начать раскрывать конфиденциальные данные или выполнять команды, на которые она изначально не запрограммирована. Пока такие атаки скорее теоретические — получить доступ к исходным данным обучения крупных моделей почти невозможно. Но сам факт, что это реально, заставляет задуматься о безопасности ИИ-систем, особенно по мере их интеграции в банковские, медицинские и государственные сервисы. Что предлагают учёные Исследователи считают, что защитить модели можно тремя основными способами: Это не первый случай, когда исследователи находят слабые места в системах искусственного интеллекта. Недавно эксперт по кибербезопасности Виктор Маркопулос из FireTail проверил ChatGPT, Claude, Gemini и другие ИИ-сервисы на устойчивость к атакам с подменой скрытых символов ASCII. Тогда выяснилось, что Gemini, DeepSeek и Grok подвержены подобным уязвимостям, а Claude, ChatGPT и Copilot имеют встроенную защиту. Вывод Новая работа Anthropic показывает, что даже огромные модели уязвимы перед крошечными вмешательствами. В эпоху, когда искусственный интеллект всё глубже проникает в критические системы, такие исследования становятся не просто академическими — они жизненно важны.