Взлом «подсознания» ИИ: метод MIT для управления скрытыми концептами LLM

От простых генераторов текста к сложным личностям

Современные большие языковые модели (LLM), такие как ChatGPT от OpenAI, Claude от Anthropic и Gemini от Google, впитали в себя колоссальные объемы человеческих знаний. Сегодня это уже далеко не просто алгоритмы, угадывающие следующее слово. Они способны демонстрировать абстрактные концепции: специфические интонации, уникальные черты характера, скрытые предвзятости и даже переменчивые настроения.

Однако до недавнего времени оставалось загадкой, как именно эти модели кодируют абстрактные концепции внутри своих нейронных сетей. ИИ оставался «черным ящиком». Но команда исследователей из Массачусетского технологического института (MIT) и Калифорнийского университета в Сан-Диего (UC San Diego) совершила прорыв. Они разработали метод, позволяющий не только находить скрытые концепты в LLM, но и управлять ими, словно эквалайзером.

A futuristic fishing rod casting a glowing hook into a deep sea of binary code and matrix numbers, p

Проблема «черного ящика»: почему сложно понять ИИ?

С ростом популярности ИИ-ассистентов ученые всего мира бьются над пониманием того, как модели представляют такие сложные концепты, как «обман» или «галлюцинация» (когда ИИ уверенно выдает ложную информацию за факт). Традиционно для поиска таких паттернов использовалось обучение без учителя (unsupervised learning) — алгоритмы прочесывали неразмеченные данные в поисках любых закономерностей.

Адитьянараянан «Адит» Радхакришнан, доцент математики в MIT и соавтор исследования, опубликованного в престижном журнале Science, приводит отличную аналогию:

«Старый подход похож на рыбалку с гигантской сетью, когда вы пытаетесь поймать один конкретный вид рыбы. Вы вытаскиваете огромный улов, и вам приходится долго в нем копаться, чтобы найти нужное. Наш новый метод — это рыбалка с идеальной наживкой, созданной специально для той рыбы, которая вам нужна».

Рекурсивная машина признаков (RFM): наживка для нейросетей

Чтобы реализовать точечный подход, команда использовала алгоритм предиктивного моделирования, известный как рекурсивная машина признаков (Recursive Feature Machine, RFM). Этот алгоритм использует математические механизмы, которые нейросети применяют для изучения характеристик данных.

A futuristic control panel with sliders and dials labeled 'Reasoning', 'Creativity', 'Safety', adjus

Как это работает на практике? Любая LLM принимает текстовый запрос (промпт) и разбивает его на токены. Каждый токен математически кодируется в виде списка чисел — вектора. Эти векторы проходят через десятки вычислительных слоев, где умножаются на матрицы весов. В итоге слои сходятся к набору чисел, который декодируется обратно в текст.

Подход MIT обучает RFM распознавать числовые паттерны (векторные направления) в LLM, которые ассоциируются с конкретным концептом. Например, чтобы найти концепт «сторонник теории заговора», алгоритм анализирует то, как LLM обрабатывает 100 промптов о теориях заговора, и сравнивает их со 100 нейтральными промптами. Выявив нужный математический паттерн, ученые могут модулировать его — усиливать или ослаблять прямо в процессе генерации ответа.

500 оттенков ИИ: что удалось найти?

Исследователи доказали эффективность метода, найдя и взяв под контроль более 500 общих концептов в крупнейших современных LLM (включая мультимодальные модели, работающие с изображениями). Концепты были разделены на несколько классов:

Класс концепта	Примеры, протестированные исследователями
Страхи (Фобии)	Страх брака, боязнь насекомых, боязнь пуговиц
Экспертиза	Социальный инфлюенсер, эксперт по Средневековью
Настроения	Хвастливое, отстраненно-веселое
Локальные предпочтения	Фанат Бостона, любитель Куала-Лумпура
Персоналии	Ада Лавлейс, Нил Деграсс Тайсон

Пример: Аполлон-17 глазами конспиролога

Команда успешно идентифицировала вектор «конспиролога» в одной из передовых vision-language моделей. Когда они искусственно усилили этот вектор и попросили модель объяснить происхождение знаменитой фотографии Земли «Blue Marble» (сделанной экипажем Аполлона-17), модель выдала ответ, полностью пропитанный тоном и перспективой сторонника теории заговора, ставящего под сомнение реальность снимка.

Экспертный анализ: Что это значит для индустрии?

Открытие команды MIT и UC San Diego (поддержанное Национальным научным фондом США и Управлением военно-морских исследований) — это не просто академический трюк. Это фундаментальный сдвиг в том, как мы будем взаимодействовать с ИИ. Вот главные перспективы:

Радикальное повышение безопасности: Исследователи обнаружили концепт «anti-refusal» (анти-отказ). Обычно LLM запрограммированы отказывать на вредоносные запросы. Усилив «анти-отказ», ученые заставили модель выдать инструкцию по ограблению банка. Понимая, где находится этот вектор, разработчики смогут жестко блокировать его, делая джейлбрейки (jailbreaks) практически невозможными.
Борьба с галлюцинациями: Если мы можем выделить концепт «правдивости» или «опоры на факты» и выкрутить его на максимум, мы сможем создавать модели, которые физически не способны галлюцинировать.
Гипер-персонализация без дообучения (Fine-tuning): Настройка LLM (fine-tuning) стоит дорого. Новый метод позволяет менять характер модели на лету. Нужен сухой юридический язык? Усиливаем концепт «краткость» и «логическое рассуждение». Нужен креативный маркетолог? Включаем вектор «социального инфлюенсера».

Риски и предостережения

Авторы исследования честно предупреждают о рисках. Инструмент, позволяющий извлекать скрытые концепты, может быть использован злоумышленниками для намеренного усиления вредоносных предвзятостей (например, расизма или склонности к дезинформации) в open-source моделях. Именно поэтому публичное освещение таких уязвимостей критически важно для создания надежных систем защиты.

Заключение

«Суть в том, что внутри LLM уже заложены все эти концепты, просто они не всегда активно проявляются», — резюмирует Радхакришнан. Мы стоим на пороге эпохи, когда ИИ перестанет быть непредсказуемым «черным ящиком». Благодаря таким методам, как RFM, мы получаем в руки пульт управления «подсознанием» нейросетей, что позволит создавать высокоспециализированные, невероятно эффективные и, главное, безопасные ИИ-продукты.

Блог top

Статьи в блоге

Комментарии ⁰

1 Мая, 2026

Ваш комментарий будет первым