Как Google создала возможность залезть в мозг нейросетей. Принцип работы Gemma Scope 2

Представь, что ты разговариваешь с человеком, который улыбается и говорит комплименты, но при этом держит руку за спиной, сжимая камень. Ты не видишь камень, но интуиция подсказывает, что-то не так. С нейросетями было то же самое. Мы видели результат (текст, картинку или видео), но понятия не имели, что происходило в её мозгах на момент генерации. Она пишет безопасный код, но думает ли она в этот момент про взлом пентагона? До сегодняшнего дня, мы этого не знали. Google выкатила Gemma Scope 2 — инструмент, который буквально просвечивает мысли больших языковых моделей, как рентген. Это не просто обновление, это первый случай, когда мы можем посмотреть, о чём на самом деле думает ИИ, даже если он пытается это скрыть. Как это работает В основе Gemma Scope 2 лежит технология с зубодробительным названием- разреженные автоэнкодеры (SAE). Её проста и гениальна. Представь огромный клубок спутанных проводов — это мозг нейросети в момент работы. Там всё перемешано. Грамматика, факты, стиль, эмоции. SAE работает как расческа, которая распутывает этот клубок на отдельные ниточки — понятные концепции и ясные мысли. Раньше подобные идеи предлагала Anthropic, но именно Google первой превратила это в готовый, открытый продукт. Теперь это не просто теория из научной статьи, а инструмент, который можно скачать и использовать. Зачем нам видеть мысли ИИ? Вот реальный сценарий. Ты просишь нейросеть написать скрипт для проверки сети. Она выдает рабочий, с виду безобидный код. Но если прогнать этот процесс через Gemma Scope 2, ты можешь увидеть, что в момент генерации у модели активировалась мысль с концепцией - пофиг на кибератаки или забить уязвимость. Это красный флаг. Внешне всё чисто, но внутренний мотив модели был деструктивным. Для специалистов по безопасности (AI Safety) это Святой Грааль. Теперь можно отлавливать не только явные ошибки, но и потенциально опасные намерения модели ещё до того, как они превратятся в реальную проблему. Небольшая предыстория Первая версия Scope, вышедшая в 2024 году, была скорее демо-версией. Она работала с маленькими моделями и показывала лишь фрагменты картины. Gemma Scope 2 — это уже промышленный инструмент. Google масштабировала технологию на огромные модели вплоть до 27 миллиардов параметров. Это как перейти от изучения поведения аквариумной рыбки к анализу поведения кита в океане. Более того, теперь мы видим не просто отдельные слои, а всю картину целиком. Демократия для исследователей Самое важное в этой новости — слово открытый. Раньше такие инструменты были секретным оружием внутри лабораторий Google, OpenAI или Anthropic. Независимые исследователи могли только гадать, как на самом деле работают LLM. Теперь Google выложила карты на стол. Любой исследователь безопасности, студент или независимый разработчик может взять Gemma Scope 2 и начать копаться в голове современных моделей. Это демократизирует науку. Мы больше не верим корпорациям на слово, что их модели безопасны — мы можем проверить это сами, заглянув прямо в активации их нейронов. Это шаг к тому, чтобы ИИ перестал быть черным ящиком, в который мы просто закидываем запрос и надеемся на лучшее. Теперь у нас есть фонарик, чтобы посветить внутрь. 🔦