Взлом «черного ящика»: управление скрытыми концептами LLM

Современные большие языковые модели (LLM), такие как ChatGPT, Claude и Gemini, поглотили настолько колоссальный объем человеческих знаний, что их уже невозможно назвать просто «генераторами текста». В их многомерных нейронных связях закодированы не только факты, но и абстрактные концепты: тональности, черты характера, скрытые предубеждения и даже настроения. Однако до недавнего времени извлечение и целенаправленное управление этими концептами оставалось нерешенной задачей из-за природы ИИ как «черного ящика».

Команда исследователей из Массачусетского технологического института (MIT) и Калифорнийского университета в Сан-Диего (UC San Diego) совершила прорыв. Они разработали метод, позволяющий не просто тестировать LLM на наличие скрытых личностей или страхов, но и напрямую управлять (steer) этими концептами, усиливая или ослабляя их в ответах модели. Результаты этого исследования были опубликованы в престижном журнале Science.

Проблема «черного ящика» и почему старые методы не работают

По мере того как использование ИИ-ассистентов растет экспоненциально, ученые участвуют в настоящей гонке за пониманием того, как именно модели представляют абстрактные понятия, такие как «галлюцинация» или «обман». В контексте LLM галлюцинация — это ответ, содержащий ложную информацию, которую модель конструирует и выдает за факт.

Ранее, чтобы найти следы таких концептов, исследователи полагались на обучение без учителя (unsupervised learning). Этот подход заставляет алгоритмы просеивать огромные массивы неразмеченных данных внутри модели в поисках паттернов.

Адитьянараянан «Адит» Радхакришнан, доцент математики в MIT и соавтор исследования, приводит отличную аналогию:

«Это похоже на рыбалку с огромной сетью, когда вам нужен только один конкретный вид рыбы. Вы вытащите кучу всего, и вам придется долго перебирать улов, чтобы найти нужное. Это слишком масштабно и вычислительно дорого. Вместо этого мы решили использовать удочку с идеальной наживкой для конкретной рыбы».

A robotic hand turning a glowing dial on a futuristic control panel to adjust the 'mood' and 'person

Рекурсивная машина признаков (RFM): математика под капотом

Для создания «идеальной наживки» команда использовала алгоритм предиктивного моделирования, известный как рекурсивная машина признаков (Recursive Feature Machine, RFM). RFM математически имитирует механизм, с помощью которого нейросети неявно извлекают признаки из данных.

Как это работает на практике?

Стандартная LLM берет текстовый промпт (например, «Почему небо голубое?») и разбивает его на токены. Каждый токен кодируется в виде математического вектора — списка чисел. Затем эти векторы проходят через десятки вычислительных слоев (матриц), где модель вычисляет вероятности следующих слов.

Метод MIT обучает RFM распознавать числовые паттерны в этих слоях, которые ассоциируются с конкретным концептом. Процесс выглядит так:

Сбор данных: Исследователи берут 100 промптов, явно связанных с концептом (например, «теория заговора»), и 100 нейтральных промптов.
Поиск паттерна: RFM анализирует внутренние репрезентации LLM во время обработки этих промптов и находит уникальный математический «вектор направления» теории заговора.
Модуляция (Steering): Найдя этот вектор, ученые могут математически изменять его вес (прибавлять или вычитать значения) прямо в процессе генерации ответа.

500 оттенков ИИ: от страха брака до фаната Бостона

Команда успешно протестировала свой метод на 512 различных концептах, разделив их на пять основных категорий. Это доказало универсальность подхода для самых крупных существующих языковых и мультимодальных моделей.

Категория концепта	Примеры, найденные и измененные в LLM
Страхи (Фобии)	Страх брака (гамофобия), страх насекомых, боязнь пуговиц.
Экспертность	Социальный инфлюенсер, медиевист (историк Средневековья).
Настроения	Хвастливое, отстраненно-веселое.
Локальные предпочтения	Фанат Бостона, любитель Куала-Лумпура.
Персоны	Ада Лавлейс, Нил Деграсс Тайсон.

Кейс: Аполлон-17 и Теория заговора

В одном из самых ярких экспериментов исследователи нашли вектор «конспиролога» в современной vision-language модели (модели, понимающей и текст, и изображения). Они искусственно усилили этот вектор и попросили ИИ объяснить происхождение знаменитой фотографии Земли «Blue Marble» (Синий марбл), сделанной экипажем Аполлона-17. Вместо стандартной исторической справки модель выдала ответ в стиле параноидального конспиролога, подвергая сомнению официальную версию NASA.

Что это значит для индустрии: AI Alignment и безопасность

Открытие команды MIT — это не просто забавный трюк. Это фундаментальный сдвиг в области AI Alignment (проблемы согласования ИИ). Возможность напрямую «крутить ручки» внутри нейросети открывает две полярные перспективы.

1. Усиление безопасности и производительности

Метод позволяет быстро находить уязвимости. Например, можно найти концепт «галлюцинации» и математически подавить его, заставив модель отвечать строго по фактам. Или можно усилить концепты «краткость» и «логическое рассуждение», создав идеального аналитика из базовой модели без необходимости дорогостоящего дообучения (fine-tuning).

2. Риски джейлбрейка (Jailbreaking)

Исследователи честно предупреждают об опасностях. Они продемонстрировали, как можно найти концепт «анти-отказ» (anti-refusal). Обычно LLM запрограммированы отказывать на вредоносные запросы. Но усилив вектор «анти-отказа», ученые заставили безопасную модель выдать подробную инструкцию о том, как ограбить банк. Это подчеркивает, что «ограждения» (guardrails) современных ИИ часто лежат на поверхности, а внутри модели все еще хранятся опасные знания.

Резюме IntellectNews

Исследование MIT доказывает: LLM содержат в себе гораздо больше абстрактных концептов, чем активно демонстрируют. Они подобны актерам, знающим тысячи ролей, но играющим лишь ту, которую требует режиссер (промпт). Теперь у нас появился инструмент, позволяющий не просто просить ИИ сыграть роль, а напрямую переключать его «нейронные тумблеры». Понимание этих скрытых репрезентаций — ключ к созданию высокоспециализированных, предсказуемых и, главное, безопасных систем искусственного интеллекта в ближайшем будущем.

Блог top

Статьи в блоге

Комментарии ⁰

30 Апреля, 2026

Ваш комментарий будет первым