IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Блог
    • Статьи
    • Скрытые личности нейросетей: Как ученые из MIT научились управлять «подсознанием» LLM

    Взлом «подсознания» ИИ: метод MIT для управления скрытыми концептами LLM

    • 3
    • 0
    • 1 Мая, 2026
    Поделиться
    Взлом «подсознания» ИИ: метод MIT для управления скрытыми концептами LLM

    От простых генераторов текста к сложным личностям

    Современные большие языковые модели (LLM), такие как ChatGPT от OpenAI, Claude от Anthropic и Gemini от Google, впитали в себя колоссальные объемы человеческих знаний. Сегодня это уже далеко не просто алгоритмы, угадывающие следующее слово. Они способны демонстрировать абстрактные концепции: специфические интонации, уникальные черты характера, скрытые предвзятости и даже переменчивые настроения.

    Однако до недавнего времени оставалось загадкой, как именно эти модели кодируют абстрактные концепции внутри своих нейронных сетей. ИИ оставался «черным ящиком». Но команда исследователей из Массачусетского технологического института (MIT) и Калифорнийского университета в Сан-Диего (UC San Diego) совершила прорыв. Они разработали метод, позволяющий не только находить скрытые концепты в LLM, но и управлять ими, словно эквалайзером.

    A futuristic fishing rod casting a glowing hook into a deep sea of binary code and matrix numbers, p

    Проблема «черного ящика»: почему сложно понять ИИ?

    С ростом популярности ИИ-ассистентов ученые всего мира бьются над пониманием того, как модели представляют такие сложные концепты, как «обман» или «галлюцинация» (когда ИИ уверенно выдает ложную информацию за факт). Традиционно для поиска таких паттернов использовалось обучение без учителя (unsupervised learning) — алгоритмы прочесывали неразмеченные данные в поисках любых закономерностей.

    Адитьянараянан «Адит» Радхакришнан, доцент математики в MIT и соавтор исследования, опубликованного в престижном журнале Science, приводит отличную аналогию:

    «Старый подход похож на рыбалку с гигантской сетью, когда вы пытаетесь поймать один конкретный вид рыбы. Вы вытаскиваете огромный улов, и вам приходится долго в нем копаться, чтобы найти нужное. Наш новый метод — это рыбалка с идеальной наживкой, созданной специально для той рыбы, которая вам нужна».

    Рекурсивная машина признаков (RFM): наживка для нейросетей

    Чтобы реализовать точечный подход, команда использовала алгоритм предиктивного моделирования, известный как рекурсивная машина признаков (Recursive Feature Machine, RFM). Этот алгоритм использует математические механизмы, которые нейросети применяют для изучения характеристик данных.

    A futuristic control panel with sliders and dials labeled 'Reasoning', 'Creativity', 'Safety', adjus

    Как это работает на практике? Любая LLM принимает текстовый запрос (промпт) и разбивает его на токены. Каждый токен математически кодируется в виде списка чисел — вектора. Эти векторы проходят через десятки вычислительных слоев, где умножаются на матрицы весов. В итоге слои сходятся к набору чисел, который декодируется обратно в текст.

    Подход MIT обучает RFM распознавать числовые паттерны (векторные направления) в LLM, которые ассоциируются с конкретным концептом. Например, чтобы найти концепт «сторонник теории заговора», алгоритм анализирует то, как LLM обрабатывает 100 промптов о теориях заговора, и сравнивает их со 100 нейтральными промптами. Выявив нужный математический паттерн, ученые могут модулировать его — усиливать или ослаблять прямо в процессе генерации ответа.

    500 оттенков ИИ: что удалось найти?

    Исследователи доказали эффективность метода, найдя и взяв под контроль более 500 общих концептов в крупнейших современных LLM (включая мультимодальные модели, работающие с изображениями). Концепты были разделены на несколько классов:

    Класс концепта Примеры, протестированные исследователями
    Страхи (Фобии) Страх брака, боязнь насекомых, боязнь пуговиц
    Экспертиза Социальный инфлюенсер, эксперт по Средневековью
    Настроения Хвастливое, отстраненно-веселое
    Локальные предпочтения Фанат Бостона, любитель Куала-Лумпура
    Персоналии Ада Лавлейс, Нил Деграсс Тайсон

    Пример: Аполлон-17 глазами конспиролога

    Команда успешно идентифицировала вектор «конспиролога» в одной из передовых vision-language моделей. Когда они искусственно усилили этот вектор и попросили модель объяснить происхождение знаменитой фотографии Земли «Blue Marble» (сделанной экипажем Аполлона-17), модель выдала ответ, полностью пропитанный тоном и перспективой сторонника теории заговора, ставящего под сомнение реальность снимка.

    Экспертный анализ: Что это значит для индустрии?

    Открытие команды MIT и UC San Diego (поддержанное Национальным научным фондом США и Управлением военно-морских исследований) — это не просто академический трюк. Это фундаментальный сдвиг в том, как мы будем взаимодействовать с ИИ. Вот главные перспективы:

    • Радикальное повышение безопасности: Исследователи обнаружили концепт «anti-refusal» (анти-отказ). Обычно LLM запрограммированы отказывать на вредоносные запросы. Усилив «анти-отказ», ученые заставили модель выдать инструкцию по ограблению банка. Понимая, где находится этот вектор, разработчики смогут жестко блокировать его, делая джейлбрейки (jailbreaks) практически невозможными.
    • Борьба с галлюцинациями: Если мы можем выделить концепт «правдивости» или «опоры на факты» и выкрутить его на максимум, мы сможем создавать модели, которые физически не способны галлюцинировать.
    • Гипер-персонализация без дообучения (Fine-tuning): Настройка LLM (fine-tuning) стоит дорого. Новый метод позволяет менять характер модели на лету. Нужен сухой юридический язык? Усиливаем концепт «краткость» и «логическое рассуждение». Нужен креативный маркетолог? Включаем вектор «социального инфлюенсера».
    A futuristic control panel with sliders and dials labeled 'Reasoning', 'Creativity', 'Safety', adjus

    Риски и предостережения

    Авторы исследования честно предупреждают о рисках. Инструмент, позволяющий извлекать скрытые концепты, может быть использован злоумышленниками для намеренного усиления вредоносных предвзятостей (например, расизма или склонности к дезинформации) в open-source моделях. Именно поэтому публичное освещение таких уязвимостей критически важно для создания надежных систем защиты.

    Заключение

    «Суть в том, что внутри LLM уже заложены все эти концепты, просто они не всегда активно проявляются», — резюмирует Радхакришнан. Мы стоим на пороге эпохи, когда ИИ перестанет быть непредсказуемым «черным ящиком». Благодаря таким методам, как RFM, мы получаем в руки пульт управления «подсознанием» нейросетей, что позволит создавать высокоспециализированные, невероятно эффективные и, главное, безопасные ИИ-продукты.

    Блог top
    • 1
      Ошибки разбора JSON: Проверенные методы устранения и профилактики в российских системах 3 Марта, 2026 69
    • 2
      Что означает ошибка «Не удалось разобрать JSON» и как эффективно решить её в российских проектах 3 Марта, 2026 64
    • 3
      Ошибка разбора JSON в российских информационных системах: как избежать и решить распространённые проблемы 4 Марта, 2026 50
    • 4
      Ошибки при обработке JSON в российских IT-системах: разбираемся, как устранить проблему «Не удалось разобрать JSON» 3 Марта, 2026 47
    • 5
      Пути к безопасному развитию ИИ: почему правительство должно действовать 7 Марта, 2026 41
    • 6
      Как новый метод оценки неопределенности повышает доверие к крупным языковым моделям 26 Марта, 2026 25
    • 7
      Почему российским аналитикам и разработчикам стоит отказаться от циклов в Pandas для обработки данных и перейти к векторизации 4 Марта, 2026 21
    • 8
      Практическое руководство: Создание системы объяснимого искусственного интеллекта для российских бизнес-процессов с SHAP-IQ 3 Марта, 2026 20
    Статьи в блоге
    • Скрытые личности нейросетей: Как ученые из MIT научились управлять «подсознанием» LLM
      Скрытые личности нейросетей: Как ученые из MIT научились управлять «подсознанием» LLM 1 Мая, 2026
    • Взлом «черного ящика»: как ученые из MIT научились управлять скрытыми эмоциями и личностями LLM
      Взлом «черного ящика»: как ученые из MIT научились управлять скрытыми эмоциями и личностями LLM 30 Апреля, 2026
    • Анатомия ИИ: Как ученые из MIT научились управлять «характером» и скрытыми мотивами нейросетей
      Анатомия ИИ: Как ученые из MIT научились управлять «характером» и скрытыми мотивами нейросетей 30 Апреля, 2026
    • Дилемма «Ударь крота»: Как алгоритм WRING решает проблему предвзятости ИИ без переобучения
      Дилемма «Ударь крота»: Как алгоритм WRING решает проблему предвзятости ИИ без переобучения 30 Апреля, 2026
    • Скромный ИИ в медицине: как MIT создает системы, которые не боятся признавать неуверенность
      Скромный ИИ в медицине: как MIT создает системы, которые не боятся признавать неуверенность 30 Апреля, 2026
    • Как создать скромный ИИ: подход MIT для медицинских систем
      Как создать скромный ИИ: подход MIT для медицинских систем 29 Апреля, 2026
    • Как создать
      Как создать "скромный" ИИ для медицины: новые подходы и перспективы 29 Апреля, 2026
    • Создание «скромного» ИИ: путь к более надежным медицинским диагнозам
      Создание «скромного» ИИ: путь к более надежным медицинским диагнозам 28 Апреля, 2026
    Комментарии 0
    Поделиться
    3
    0
    1 Мая, 2026
    • Ваш комментарий будет первым
    Оставить комментарий
    Нажимая на кнопку «Отправить», Вы даете согласие на обработку персональных данных.
    Поделиться
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026