Современные большие языковые модели (LLM), такие как ChatGPT, Claude и Gemini, поглотили настолько колоссальный объем человеческих знаний, что их уже невозможно назвать просто «генераторами текста». В их многомерных нейронных связях закодированы не только факты, но и абстрактные концепты: тональности, черты характера, скрытые предубеждения и даже настроения. Однако до недавнего времени извлечение и целенаправленное управление этими концептами оставалось нерешенной задачей из-за природы ИИ как «черного ящика».
Команда исследователей из Массачусетского технологического института (MIT) и Калифорнийского университета в Сан-Диего (UC San Diego) совершила прорыв. Они разработали метод, позволяющий не просто тестировать LLM на наличие скрытых личностей или страхов, но и напрямую управлять (steer) этими концептами, усиливая или ослабляя их в ответах модели. Результаты этого исследования были опубликованы в престижном журнале Science.
Проблема «черного ящика» и почему старые методы не работают
По мере того как использование ИИ-ассистентов растет экспоненциально, ученые участвуют в настоящей гонке за пониманием того, как именно модели представляют абстрактные понятия, такие как «галлюцинация» или «обман». В контексте LLM галлюцинация — это ответ, содержащий ложную информацию, которую модель конструирует и выдает за факт.
Ранее, чтобы найти следы таких концептов, исследователи полагались на обучение без учителя (unsupervised learning). Этот подход заставляет алгоритмы просеивать огромные массивы неразмеченных данных внутри модели в поисках паттернов.
Адитьянараянан «Адит» Радхакришнан, доцент математики в MIT и соавтор исследования, приводит отличную аналогию:
«Это похоже на рыбалку с огромной сетью, когда вам нужен только один конкретный вид рыбы. Вы вытащите кучу всего, и вам придется долго перебирать улов, чтобы найти нужное. Это слишком масштабно и вычислительно дорого. Вместо этого мы решили использовать удочку с идеальной наживкой для конкретной рыбы».
Рекурсивная машина признаков (RFM): математика под капотом
Для создания «идеальной наживки» команда использовала алгоритм предиктивного моделирования, известный как рекурсивная машина признаков (Recursive Feature Machine, RFM). RFM математически имитирует механизм, с помощью которого нейросети неявно извлекают признаки из данных.
Как это работает на практике?
Стандартная LLM берет текстовый промпт (например, «Почему небо голубое?») и разбивает его на токены. Каждый токен кодируется в виде математического вектора — списка чисел. Затем эти векторы проходят через десятки вычислительных слоев (матриц), где модель вычисляет вероятности следующих слов.
Метод MIT обучает RFM распознавать числовые паттерны в этих слоях, которые ассоциируются с конкретным концептом. Процесс выглядит так:
- Сбор данных: Исследователи берут 100 промптов, явно связанных с концептом (например, «теория заговора»), и 100 нейтральных промптов.
- Поиск паттерна: RFM анализирует внутренние репрезентации LLM во время обработки этих промптов и находит уникальный математический «вектор направления» теории заговора.
- Модуляция (Steering): Найдя этот вектор, ученые могут математически изменять его вес (прибавлять или вычитать значения) прямо в процессе генерации ответа.
500 оттенков ИИ: от страха брака до фаната Бостона
Команда успешно протестировала свой метод на 512 различных концептах, разделив их на пять основных категорий. Это доказало универсальность подхода для самых крупных существующих языковых и мультимодальных моделей.
| Категория концепта | Примеры, найденные и измененные в LLM |
|---|---|
| Страхи (Фобии) | Страх брака (гамофобия), страх насекомых, боязнь пуговиц. |
| Экспертность | Социальный инфлюенсер, медиевист (историк Средневековья). |
| Настроения | Хвастливое, отстраненно-веселое. |
| Локальные предпочтения | Фанат Бостона, любитель Куала-Лумпура. |
| Персоны | Ада Лавлейс, Нил Деграсс Тайсон. |
Кейс: Аполлон-17 и Теория заговора
В одном из самых ярких экспериментов исследователи нашли вектор «конспиролога» в современной vision-language модели (модели, понимающей и текст, и изображения). Они искусственно усилили этот вектор и попросили ИИ объяснить происхождение знаменитой фотографии Земли «Blue Marble» (Синий марбл), сделанной экипажем Аполлона-17. Вместо стандартной исторической справки модель выдала ответ в стиле параноидального конспиролога, подвергая сомнению официальную версию NASA.
Что это значит для индустрии: AI Alignment и безопасность
Открытие команды MIT — это не просто забавный трюк. Это фундаментальный сдвиг в области AI Alignment (проблемы согласования ИИ). Возможность напрямую «крутить ручки» внутри нейросети открывает две полярные перспективы.
1. Усиление безопасности и производительности
Метод позволяет быстро находить уязвимости. Например, можно найти концепт «галлюцинации» и математически подавить его, заставив модель отвечать строго по фактам. Или можно усилить концепты «краткость» и «логическое рассуждение», создав идеального аналитика из базовой модели без необходимости дорогостоящего дообучения (fine-tuning).
2. Риски джейлбрейка (Jailbreaking)
Исследователи честно предупреждают об опасностях. Они продемонстрировали, как можно найти концепт «анти-отказ» (anti-refusal). Обычно LLM запрограммированы отказывать на вредоносные запросы. Но усилив вектор «анти-отказа», ученые заставили безопасную модель выдать подробную инструкцию о том, как ограбить банк. Это подчеркивает, что «ограждения» (guardrails) современных ИИ часто лежат на поверхности, а внутри модели все еще хранятся опасные знания.
Резюме IntellectNews
Исследование MIT доказывает: LLM содержат в себе гораздо больше абстрактных концептов, чем активно демонстрируют. Они подобны актерам, знающим тысячи ролей, но играющим лишь ту, которую требует режиссер (промпт). Теперь у нас появился инструмент, позволяющий не просто просить ИИ сыграть роль, а напрямую переключать его «нейронные тумблеры». Понимание этих скрытых репрезентаций — ключ к созданию высокоспециализированных, предсказуемых и, главное, безопасных систем искусственного интеллекта в ближайшем будущем.