Gemma Scope 2: открытая интерпретируемость для Gemma 3

Лид - Gemma Scope 2 обещает изменить подход к проверке больших языковых моделей: вместо того, чтобы полагаться только на тесты вход-выход, инструмент позволяет проследить проблемные поведения до внутренних функций модели.

DeepMind опубликовал Gemma Scope 2 как полный, открытый стек инструментов интерпретируемости для Gemma 3. В центре набора - sparse autoencoders (SAEs) и транскодеры, которые разлагают высокоразмерные активации модели на управляемые, человеко-инспектируемые признаки и отслеживают их прохождение через слои и между модификациями модели.

Что именно сделали

Проект охватывает все варианты Gemma 3 от 270M до 27B параметров и включает как предобученные, так и instruction-tuned (chat-tuned) модели. Команда обучила SAEs по каждому слою и добавила skip и cross-layer транскодеры, чтобы фиксировать многозвенные вычисления, распределенные по слоям.

Охват размеров: 270M, 1B, 4B, 12B, 27B.
Данные активаций: примерно 110 Petabytes сохраненных активаций.
Параметры интерпретируемых моделей: более 1 триллиона подогнанных параметров.
Техники: Matryoshka-тренировка SAEs для более стабильных признаков и специализированные инструменты для chat-tuned версий.

Почему это важно сейчас

Парадокс в индустрии был прост: модели растут и делают всё круче, но они остаются черными ящиками. Relying только на input-output тесты означало, что баги вроде jailbreak, галлюцинаций или лояльного подхалимства (sycophancy) обнаруживались слишком поздно. Gemma Scope 2 переводит исследование в плоскость внутренней диагностики - можно не только заметить проблему, но и проследить, где она зарождается в активациях.

Кому это поможет

Авторы позиционируют релиз как инструмент для команд по безопасности и выравниванию: примеры использования включают трассировку jailbreak-ов и сбоев в отказах, поиск источников галлюцинаций, проверку соответствия внутреннего состояния и публичного рассуждения, а также детекцию вводящего в заблуждение поведения.

Контекст и дилеммы

С одной стороны, открытость Gemma Scope 2 - это шаг к демократизации исследовательских инструментов. С другой стороны, работа требовала гигантских ресурсов: 110 PB активаций и триллионы параметров интерпретирующих моделей не по карману большинству команд. Это поднимает вопрос: кто действительно сможет воспроизвести и расширить результаты без большого хаба вычислений?

Четкие уроки

Интерпретируемость выходит из академии в практику: индустрия переходит от поверхностных тестов к инструментам, которые смотрят внутрь модели.
Масштаб имеет значение: некоторые поведения проявляются только на больших вариантах модели, поэтому поддержка 27B важна для обнаружения таких эффектов.
Стоимость и доступность станут узким местом: открытый код важен, но данные и вычисления остаются барьером для независимых исследователей.

Куда это ведет индустрию

Gemma Scope 2 задает тренд: интерпретируемость и безопасность становятся не опцией, а обязательной частью рабочего набора при работе с крупными LLM. Ожидаемо, в ближайшие 6-12 месяцев появится больше инструментов, которые пытаются уменьшить порог входа - от оптимизированного хранения активаций до частичных, более легковесных SAEs для конкретных задач.

Победят те команды, которые научатся сочетать мониторинг вход-выход и анализ внутренних признаков - это даст и оперативное обнаружение проблем, и возможность быстрых исправлений. Открытый релиз DeepMind ускорит сообщество в сторону воспроизводимости и совместных исследований, но одновременно подчеркнет, что масштабная интерпретируемость требует инфраструктуры и инвестиций.

Вывод для разработчиков прямо сейчас - если ваша цель безопасность и надежность моделей, начинайте думать о внутренней инструментализации: храните активации, стройте простые признаки и следите не только за ответом, но и за тем, как он формируется внутри модели. Gemma Scope 2 показывает путь, но путь этот дорогой и полон технических задач.

Детали релиза, статьи и веса моделей доступны для исследователей, желающих воспроизвести или расширить работу. Это шаг от тестов к диагностике и от диагностики к ответственности.

Gemma Scope 2: интерпретируемость для Gemma 3