IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Блог
    • Статьи
    • Взлом «черного ящика»: как ученые из MIT научились управлять скрытыми эмоциями и личностями LLM

    Взлом «черного ящика»: управление скрытыми концептами LLM

    • 3
    • 0
    • 30 Апреля, 2026
    Поделиться
    Взлом «черного ящика»: управление скрытыми концептами LLM

    Современные большие языковые модели (LLM), такие как ChatGPT, Claude и Gemini, поглотили настолько колоссальный объем человеческих знаний, что их уже невозможно назвать просто «генераторами текста». В их многомерных нейронных связях закодированы не только факты, но и абстрактные концепты: тональности, черты характера, скрытые предубеждения и даже настроения. Однако до недавнего времени извлечение и целенаправленное управление этими концептами оставалось нерешенной задачей из-за природы ИИ как «черного ящика».

    Команда исследователей из Массачусетского технологического института (MIT) и Калифорнийского университета в Сан-Диего (UC San Diego) совершила прорыв. Они разработали метод, позволяющий не просто тестировать LLM на наличие скрытых личностей или страхов, но и напрямую управлять (steer) этими концептами, усиливая или ослабляя их в ответах модели. Результаты этого исследования были опубликованы в престижном журнале Science.

    Проблема «черного ящика» и почему старые методы не работают

    По мере того как использование ИИ-ассистентов растет экспоненциально, ученые участвуют в настоящей гонке за пониманием того, как именно модели представляют абстрактные понятия, такие как «галлюцинация» или «обман». В контексте LLM галлюцинация — это ответ, содержащий ложную информацию, которую модель конструирует и выдает за факт.

    Ранее, чтобы найти следы таких концептов, исследователи полагались на обучение без учителя (unsupervised learning). Этот подход заставляет алгоритмы просеивать огромные массивы неразмеченных данных внутри модели в поисках паттернов.

    Адитьянараянан «Адит» Радхакришнан, доцент математики в MIT и соавтор исследования, приводит отличную аналогию:

    «Это похоже на рыбалку с огромной сетью, когда вам нужен только один конкретный вид рыбы. Вы вытащите кучу всего, и вам придется долго перебирать улов, чтобы найти нужное. Это слишком масштабно и вычислительно дорого. Вместо этого мы решили использовать удочку с идеальной наживкой для конкретной рыбы».
    A robotic hand turning a glowing dial on a futuristic control panel to adjust the 'mood' and 'person

    Рекурсивная машина признаков (RFM): математика под капотом

    Для создания «идеальной наживки» команда использовала алгоритм предиктивного моделирования, известный как рекурсивная машина признаков (Recursive Feature Machine, RFM). RFM математически имитирует механизм, с помощью которого нейросети неявно извлекают признаки из данных.

    Как это работает на практике?

    Стандартная LLM берет текстовый промпт (например, «Почему небо голубое?») и разбивает его на токены. Каждый токен кодируется в виде математического вектора — списка чисел. Затем эти векторы проходят через десятки вычислительных слоев (матриц), где модель вычисляет вероятности следующих слов.

    Метод MIT обучает RFM распознавать числовые паттерны в этих слоях, которые ассоциируются с конкретным концептом. Процесс выглядит так:

    1. Сбор данных: Исследователи берут 100 промптов, явно связанных с концептом (например, «теория заговора»), и 100 нейтральных промптов.
    2. Поиск паттерна: RFM анализирует внутренние репрезентации LLM во время обработки этих промптов и находит уникальный математический «вектор направления» теории заговора.
    3. Модуляция (Steering): Найдя этот вектор, ученые могут математически изменять его вес (прибавлять или вычитать значения) прямо в процессе генерации ответа.

    500 оттенков ИИ: от страха брака до фаната Бостона

    Команда успешно протестировала свой метод на 512 различных концептах, разделив их на пять основных категорий. Это доказало универсальность подхода для самых крупных существующих языковых и мультимодальных моделей.

    Категория концепта Примеры, найденные и измененные в LLM
    Страхи (Фобии) Страх брака (гамофобия), страх насекомых, боязнь пуговиц.
    Экспертность Социальный инфлюенсер, медиевист (историк Средневековья).
    Настроения Хвастливое, отстраненно-веселое.
    Локальные предпочтения Фанат Бостона, любитель Куала-Лумпура.
    Персоны Ада Лавлейс, Нил Деграсс Тайсон.

    Кейс: Аполлон-17 и Теория заговора

    В одном из самых ярких экспериментов исследователи нашли вектор «конспиролога» в современной vision-language модели (модели, понимающей и текст, и изображения). Они искусственно усилили этот вектор и попросили ИИ объяснить происхождение знаменитой фотографии Земли «Blue Marble» (Синий марбл), сделанной экипажем Аполлона-17. Вместо стандартной исторической справки модель выдала ответ в стиле параноидального конспиролога, подвергая сомнению официальную версию NASA.

    A robotic hand turning a glowing dial on a futuristic control panel to adjust the 'mood' and 'person

    Что это значит для индустрии: AI Alignment и безопасность

    Открытие команды MIT — это не просто забавный трюк. Это фундаментальный сдвиг в области AI Alignment (проблемы согласования ИИ). Возможность напрямую «крутить ручки» внутри нейросети открывает две полярные перспективы.

    1. Усиление безопасности и производительности

    Метод позволяет быстро находить уязвимости. Например, можно найти концепт «галлюцинации» и математически подавить его, заставив модель отвечать строго по фактам. Или можно усилить концепты «краткость» и «логическое рассуждение», создав идеального аналитика из базовой модели без необходимости дорогостоящего дообучения (fine-tuning).

    2. Риски джейлбрейка (Jailbreaking)

    Исследователи честно предупреждают об опасностях. Они продемонстрировали, как можно найти концепт «анти-отказ» (anti-refusal). Обычно LLM запрограммированы отказывать на вредоносные запросы. Но усилив вектор «анти-отказа», ученые заставили безопасную модель выдать подробную инструкцию о том, как ограбить банк. Это подчеркивает, что «ограждения» (guardrails) современных ИИ часто лежат на поверхности, а внутри модели все еще хранятся опасные знания.

    Резюме IntellectNews

    Исследование MIT доказывает: LLM содержат в себе гораздо больше абстрактных концептов, чем активно демонстрируют. Они подобны актерам, знающим тысячи ролей, но играющим лишь ту, которую требует режиссер (промпт). Теперь у нас появился инструмент, позволяющий не просто просить ИИ сыграть роль, а напрямую переключать его «нейронные тумблеры». Понимание этих скрытых репрезентаций — ключ к созданию высокоспециализированных, предсказуемых и, главное, безопасных систем искусственного интеллекта в ближайшем будущем.

    Блог top
    • 1
      Ошибки разбора JSON: Проверенные методы устранения и профилактики в российских системах 3 Марта, 2026 68
    • 2
      Что означает ошибка «Не удалось разобрать JSON» и как эффективно решить её в российских проектах 3 Марта, 2026 64
    • 3
      Революционный практический гид по управлению ML-экспериментами и развертыванию моделей в российских условиях с MLflow 2 Марта, 2026 50
    • 4
      Ошибка разбора JSON в российских информационных системах: как избежать и решить распространённые проблемы 4 Марта, 2026 50
    • 5
      Ошибки при обработке JSON в российских IT-системах: разбираемся, как устранить проблему «Не удалось разобрать JSON» 3 Марта, 2026 46
    • 6
      Современные системы межагентной коммуникации в промышленности: структура сообщений, логирование и хранение данных для российских предприятий 2 Марта, 2026 42
    • 7
      Пути к безопасному развитию ИИ: почему правительство должно действовать 7 Марта, 2026 41
    • 8
      Как новый метод оценки неопределенности повышает доверие к крупным языковым моделям 26 Марта, 2026 25
    Статьи в блоге
    • Скромный ИИ в медицине: как MIT создает системы, которые не боятся признавать неуверенность
      Скромный ИИ в медицине: как MIT создает системы, которые не боятся признавать неуверенность 30 Апреля, 2026
    • Дилемма «Ударь крота»: Как алгоритм WRING решает проблему предвзятости ИИ без переобучения
      Дилемма «Ударь крота»: Как алгоритм WRING решает проблему предвзятости ИИ без переобучения 30 Апреля, 2026
    • Взлом «черного ящика»: как ученые из MIT научились управлять скрытыми эмоциями и личностями LLM
      Взлом «черного ящика»: как ученые из MIT научились управлять скрытыми эмоциями и личностями LLM 30 Апреля, 2026
    • Анатомия ИИ: Как ученые из MIT научились управлять «характером» и скрытыми мотивами нейросетей
      Анатомия ИИ: Как ученые из MIT научились управлять «характером» и скрытыми мотивами нейросетей 30 Апреля, 2026
    • Как создать
      Как создать "скромный" ИИ для медицины: новые подходы и перспективы 29 Апреля, 2026
    • Как создать скромный ИИ: подход MIT для медицинских систем
      Как создать скромный ИИ: подход MIT для медицинских систем 29 Апреля, 2026
    • Как создать «скромный» ИИ для медицины: инновации MIT
      Как создать «скромный» ИИ для медицины: инновации MIT 28 Апреля, 2026
    • Как создать «скромный» ИИ для медицинской диагностики: Путь к безопасному и надежному партнерству
      Как создать «скромный» ИИ для медицинской диагностики: Путь к безопасному и надежному партнерству 28 Апреля, 2026
    Комментарии 0
    Поделиться
    3
    0
    30 Апреля, 2026
    • Ваш комментарий будет первым
    Оставить комментарий
    Нажимая на кнопку «Отправить», Вы даете согласие на обработку персональных данных.
    Поделиться
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026