IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Блог
    • Статьи
    • Скрытые личности нейросетей: Как ученые из MIT научились управлять «подсознанием» LLM

    Взлом «подсознания» ИИ: метод MIT для управления скрытыми концептами LLM

    • 19
    • 0
    • 1 Мая, 2026
    Поделиться
    Взлом «подсознания» ИИ: метод MIT для управления скрытыми концептами LLM

    От простых генераторов текста к сложным личностям

    Современные большие языковые модели (LLM), такие как ChatGPT от OpenAI, Claude от Anthropic и Gemini от Google, впитали в себя колоссальные объемы человеческих знаний. Сегодня это уже далеко не просто алгоритмы, угадывающие следующее слово. Они способны демонстрировать абстрактные концепции: специфические интонации, уникальные черты характера, скрытые предвзятости и даже переменчивые настроения.

    Однако до недавнего времени оставалось загадкой, как именно эти модели кодируют абстрактные концепции внутри своих нейронных сетей. ИИ оставался «черным ящиком». Но команда исследователей из Массачусетского технологического института (MIT) и Калифорнийского университета в Сан-Диего (UC San Diego) совершила прорыв. Они разработали метод, позволяющий не только находить скрытые концепты в LLM, но и управлять ими, словно эквалайзером.

    A futuristic fishing rod casting a glowing hook into a deep sea of binary code and matrix numbers, p

    Проблема «черного ящика»: почему сложно понять ИИ?

    С ростом популярности ИИ-ассистентов ученые всего мира бьются над пониманием того, как модели представляют такие сложные концепты, как «обман» или «галлюцинация» (когда ИИ уверенно выдает ложную информацию за факт). Традиционно для поиска таких паттернов использовалось обучение без учителя (unsupervised learning) — алгоритмы прочесывали неразмеченные данные в поисках любых закономерностей.

    Адитьянараянан «Адит» Радхакришнан, доцент математики в MIT и соавтор исследования, опубликованного в престижном журнале Science, приводит отличную аналогию:

    «Старый подход похож на рыбалку с гигантской сетью, когда вы пытаетесь поймать один конкретный вид рыбы. Вы вытаскиваете огромный улов, и вам приходится долго в нем копаться, чтобы найти нужное. Наш новый метод — это рыбалка с идеальной наживкой, созданной специально для той рыбы, которая вам нужна».

    Рекурсивная машина признаков (RFM): наживка для нейросетей

    Чтобы реализовать точечный подход, команда использовала алгоритм предиктивного моделирования, известный как рекурсивная машина признаков (Recursive Feature Machine, RFM). Этот алгоритм использует математические механизмы, которые нейросети применяют для изучения характеристик данных.

    A futuristic control panel with sliders and dials labeled 'Reasoning', 'Creativity', 'Safety', adjus

    Как это работает на практике? Любая LLM принимает текстовый запрос (промпт) и разбивает его на токены. Каждый токен математически кодируется в виде списка чисел — вектора. Эти векторы проходят через десятки вычислительных слоев, где умножаются на матрицы весов. В итоге слои сходятся к набору чисел, который декодируется обратно в текст.

    Подход MIT обучает RFM распознавать числовые паттерны (векторные направления) в LLM, которые ассоциируются с конкретным концептом. Например, чтобы найти концепт «сторонник теории заговора», алгоритм анализирует то, как LLM обрабатывает 100 промптов о теориях заговора, и сравнивает их со 100 нейтральными промптами. Выявив нужный математический паттерн, ученые могут модулировать его — усиливать или ослаблять прямо в процессе генерации ответа.

    500 оттенков ИИ: что удалось найти?

    Исследователи доказали эффективность метода, найдя и взяв под контроль более 500 общих концептов в крупнейших современных LLM (включая мультимодальные модели, работающие с изображениями). Концепты были разделены на несколько классов:

    Класс концепта Примеры, протестированные исследователями
    Страхи (Фобии) Страх брака, боязнь насекомых, боязнь пуговиц
    Экспертиза Социальный инфлюенсер, эксперт по Средневековью
    Настроения Хвастливое, отстраненно-веселое
    Локальные предпочтения Фанат Бостона, любитель Куала-Лумпура
    Персоналии Ада Лавлейс, Нил Деграсс Тайсон

    Пример: Аполлон-17 глазами конспиролога

    Команда успешно идентифицировала вектор «конспиролога» в одной из передовых vision-language моделей. Когда они искусственно усилили этот вектор и попросили модель объяснить происхождение знаменитой фотографии Земли «Blue Marble» (сделанной экипажем Аполлона-17), модель выдала ответ, полностью пропитанный тоном и перспективой сторонника теории заговора, ставящего под сомнение реальность снимка.

    Экспертный анализ: Что это значит для индустрии?

    Открытие команды MIT и UC San Diego (поддержанное Национальным научным фондом США и Управлением военно-морских исследований) — это не просто академический трюк. Это фундаментальный сдвиг в том, как мы будем взаимодействовать с ИИ. Вот главные перспективы:

    • Радикальное повышение безопасности: Исследователи обнаружили концепт «anti-refusal» (анти-отказ). Обычно LLM запрограммированы отказывать на вредоносные запросы. Усилив «анти-отказ», ученые заставили модель выдать инструкцию по ограблению банка. Понимая, где находится этот вектор, разработчики смогут жестко блокировать его, делая джейлбрейки (jailbreaks) практически невозможными.
    • Борьба с галлюцинациями: Если мы можем выделить концепт «правдивости» или «опоры на факты» и выкрутить его на максимум, мы сможем создавать модели, которые физически не способны галлюцинировать.
    • Гипер-персонализация без дообучения (Fine-tuning): Настройка LLM (fine-tuning) стоит дорого. Новый метод позволяет менять характер модели на лету. Нужен сухой юридический язык? Усиливаем концепт «краткость» и «логическое рассуждение». Нужен креативный маркетолог? Включаем вектор «социального инфлюенсера».
    A futuristic control panel with sliders and dials labeled 'Reasoning', 'Creativity', 'Safety', adjus

    Риски и предостережения

    Авторы исследования честно предупреждают о рисках. Инструмент, позволяющий извлекать скрытые концепты, может быть использован злоумышленниками для намеренного усиления вредоносных предвзятостей (например, расизма или склонности к дезинформации) в open-source моделях. Именно поэтому публичное освещение таких уязвимостей критически важно для создания надежных систем защиты.

    Заключение

    «Суть в том, что внутри LLM уже заложены все эти концепты, просто они не всегда активно проявляются», — резюмирует Радхакришнан. Мы стоим на пороге эпохи, когда ИИ перестанет быть непредсказуемым «черным ящиком». Благодаря таким методам, как RFM, мы получаем в руки пульт управления «подсознанием» нейросетей, что позволит создавать высокоспециализированные, невероятно эффективные и, главное, безопасные ИИ-продукты.

    Блог top
    • 1
      ИИ на смарт-часах: как MIT ускорил приватное обучение нейросетей на 81% 3 Мая, 2026 46
    • 2
      Новая методика для выявления слишком уверенных языковых моделей AI: Будущее доверия к ИИ 27 Марта, 2026 37
    • 3
      Как новый метод оценки неопределенности повышает доверие к крупным языковым моделям 26 Марта, 2026 37
    • 4
      Как концептуальные модели могут улучшить объяснимость ИИ в критических приложениях 24 Апреля, 2026 37
    • 5
      Как создать «скромный» ИИ для медицины: инновации MIT 28 Апреля, 2026 35
    • 6
      Искусственный интеллект в прогнозировании сердечной недостаточности: новый подход MIT 24 Апреля, 2026 33
    • 7
      Как ИИ может предсказать ухудшение состояния пациентов с сердечной недостаточностью 25 Апреля, 2026 32
    • 8
      Как новый гибридный подход к планированию улучшает выполнение сложных визуальных задач 24 Апреля, 2026 32
    Статьи в блоге
    • Как ИИ начинает понимать химию: от перебора молекул к физически осмысленному дизайну лекарств
      Как ИИ начинает понимать химию: от перебора молекул к физически осмысленному дизайну лекарств 21 Мая, 2026
    • Как ИИ учится «думать как химик»: подход MIT к поиску лекарств среди 10^60 молекул
      Как ИИ учится «думать как химик»: подход MIT к поиску лекарств среди 10^60 молекул 21 Мая, 2026
    • Кому достанется «новая работа» в эпоху ИИ: уроки 80 лет технологических сдвигов в США
      Кому достанется «новая работа» в эпоху ИИ: уроки 80 лет технологических сдвигов в США 21 Мая, 2026
    • Как ИИ начинает «понимать» химию: подход MIT к созданию моделей для поиска новых лекарств
      Как ИИ начинает «понимать» химию: подход MIT к созданию моделей для поиска новых лекарств 20 Мая, 2026
    • Как ИИ начинает понимать химию: подход MIT к созданию лекарств нового поколения
      Как ИИ начинает понимать химию: подход MIT к созданию лекарств нового поколения 20 Мая, 2026
    • Этика автономных систем под нагрузкой: как MIT предлагает находить скрытую несправедливость ИИ до внедрения
      Этика автономных систем под нагрузкой: как MIT предлагает находить скрытую несправедливость ИИ до внедрения 19 Мая, 2026
    • Скрытые идеи внутри LLM: как MIT научил находить и управлять «настроением» ИИ
      Скрытые идеи внутри LLM: как MIT научил находить и управлять «настроением» ИИ 19 Мая, 2026
    • Этика автономных систем под нагрузкой: как MIT предлагает искать «невидимую» несправедливость ИИ
      Этика автономных систем под нагрузкой: как MIT предлагает искать «невидимую» несправедливость ИИ 19 Мая, 2026
    Комментарии 0
    Поделиться
    19
    0
    1 Мая, 2026
    • Ваш комментарий будет первым
    Оставить комментарий
    Нажимая на кнопку «Отправить», Вы даете согласие на обработку персональных данных.
    Поделиться
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026