IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Блог
    • Статьи
    • Скрытые личности нейросетей: Как ученые из MIT научились управлять «подсознанием» LLM

    Взлом «подсознания» ИИ: метод MIT для управления скрытыми концептами LLM

    • 23
    • 0
    • 1 Мая, 2026
    Поделиться
    Взлом «подсознания» ИИ: метод MIT для управления скрытыми концептами LLM

    От простых генераторов текста к сложным личностям

    Современные большие языковые модели (LLM), такие как ChatGPT от OpenAI, Claude от Anthropic и Gemini от Google, впитали в себя колоссальные объемы человеческих знаний. Сегодня это уже далеко не просто алгоритмы, угадывающие следующее слово. Они способны демонстрировать абстрактные концепции: специфические интонации, уникальные черты характера, скрытые предвзятости и даже переменчивые настроения.

    Однако до недавнего времени оставалось загадкой, как именно эти модели кодируют абстрактные концепции внутри своих нейронных сетей. ИИ оставался «черным ящиком». Но команда исследователей из Массачусетского технологического института (MIT) и Калифорнийского университета в Сан-Диего (UC San Diego) совершила прорыв. Они разработали метод, позволяющий не только находить скрытые концепты в LLM, но и управлять ими, словно эквалайзером.

    A futuristic fishing rod casting a glowing hook into a deep sea of binary code and matrix numbers, p

    Проблема «черного ящика»: почему сложно понять ИИ?

    С ростом популярности ИИ-ассистентов ученые всего мира бьются над пониманием того, как модели представляют такие сложные концепты, как «обман» или «галлюцинация» (когда ИИ уверенно выдает ложную информацию за факт). Традиционно для поиска таких паттернов использовалось обучение без учителя (unsupervised learning) — алгоритмы прочесывали неразмеченные данные в поисках любых закономерностей.

    Адитьянараянан «Адит» Радхакришнан, доцент математики в MIT и соавтор исследования, опубликованного в престижном журнале Science, приводит отличную аналогию:

    «Старый подход похож на рыбалку с гигантской сетью, когда вы пытаетесь поймать один конкретный вид рыбы. Вы вытаскиваете огромный улов, и вам приходится долго в нем копаться, чтобы найти нужное. Наш новый метод — это рыбалка с идеальной наживкой, созданной специально для той рыбы, которая вам нужна».

    Рекурсивная машина признаков (RFM): наживка для нейросетей

    Чтобы реализовать точечный подход, команда использовала алгоритм предиктивного моделирования, известный как рекурсивная машина признаков (Recursive Feature Machine, RFM). Этот алгоритм использует математические механизмы, которые нейросети применяют для изучения характеристик данных.

    A futuristic control panel with sliders and dials labeled 'Reasoning', 'Creativity', 'Safety', adjus

    Как это работает на практике? Любая LLM принимает текстовый запрос (промпт) и разбивает его на токены. Каждый токен математически кодируется в виде списка чисел — вектора. Эти векторы проходят через десятки вычислительных слоев, где умножаются на матрицы весов. В итоге слои сходятся к набору чисел, который декодируется обратно в текст.

    Подход MIT обучает RFM распознавать числовые паттерны (векторные направления) в LLM, которые ассоциируются с конкретным концептом. Например, чтобы найти концепт «сторонник теории заговора», алгоритм анализирует то, как LLM обрабатывает 100 промптов о теориях заговора, и сравнивает их со 100 нейтральными промптами. Выявив нужный математический паттерн, ученые могут модулировать его — усиливать или ослаблять прямо в процессе генерации ответа.

    500 оттенков ИИ: что удалось найти?

    Исследователи доказали эффективность метода, найдя и взяв под контроль более 500 общих концептов в крупнейших современных LLM (включая мультимодальные модели, работающие с изображениями). Концепты были разделены на несколько классов:

    Класс концепта Примеры, протестированные исследователями
    Страхи (Фобии) Страх брака, боязнь насекомых, боязнь пуговиц
    Экспертиза Социальный инфлюенсер, эксперт по Средневековью
    Настроения Хвастливое, отстраненно-веселое
    Локальные предпочтения Фанат Бостона, любитель Куала-Лумпура
    Персоналии Ада Лавлейс, Нил Деграсс Тайсон

    Пример: Аполлон-17 глазами конспиролога

    Команда успешно идентифицировала вектор «конспиролога» в одной из передовых vision-language моделей. Когда они искусственно усилили этот вектор и попросили модель объяснить происхождение знаменитой фотографии Земли «Blue Marble» (сделанной экипажем Аполлона-17), модель выдала ответ, полностью пропитанный тоном и перспективой сторонника теории заговора, ставящего под сомнение реальность снимка.

    Экспертный анализ: Что это значит для индустрии?

    Открытие команды MIT и UC San Diego (поддержанное Национальным научным фондом США и Управлением военно-морских исследований) — это не просто академический трюк. Это фундаментальный сдвиг в том, как мы будем взаимодействовать с ИИ. Вот главные перспективы:

    • Радикальное повышение безопасности: Исследователи обнаружили концепт «anti-refusal» (анти-отказ). Обычно LLM запрограммированы отказывать на вредоносные запросы. Усилив «анти-отказ», ученые заставили модель выдать инструкцию по ограблению банка. Понимая, где находится этот вектор, разработчики смогут жестко блокировать его, делая джейлбрейки (jailbreaks) практически невозможными.
    • Борьба с галлюцинациями: Если мы можем выделить концепт «правдивости» или «опоры на факты» и выкрутить его на максимум, мы сможем создавать модели, которые физически не способны галлюцинировать.
    • Гипер-персонализация без дообучения (Fine-tuning): Настройка LLM (fine-tuning) стоит дорого. Новый метод позволяет менять характер модели на лету. Нужен сухой юридический язык? Усиливаем концепт «краткость» и «логическое рассуждение». Нужен креативный маркетолог? Включаем вектор «социального инфлюенсера».
    A futuristic control panel with sliders and dials labeled 'Reasoning', 'Creativity', 'Safety', adjus

    Риски и предостережения

    Авторы исследования честно предупреждают о рисках. Инструмент, позволяющий извлекать скрытые концепты, может быть использован злоумышленниками для намеренного усиления вредоносных предвзятостей (например, расизма или склонности к дезинформации) в open-source моделях. Именно поэтому публичное освещение таких уязвимостей критически важно для создания надежных систем защиты.

    Заключение

    «Суть в том, что внутри LLM уже заложены все эти концепты, просто они не всегда активно проявляются», — резюмирует Радхакришнан. Мы стоим на пороге эпохи, когда ИИ перестанет быть непредсказуемым «черным ящиком». Благодаря таким методам, как RFM, мы получаем в руки пульт управления «подсознанием» нейросетей, что позволит создавать высокоспециализированные, невероятно эффективные и, главное, безопасные ИИ-продукты.

    Блог top
    • 1
      ИИ на смарт-часах: как MIT ускорил приватное обучение нейросетей на 81% 3 Мая, 2026 75
    • 2
      Как концептуальные модели могут улучшить объяснимость ИИ в критических приложениях 24 Апреля, 2026 58
    • 3
      Как создать «скромный» ИИ для медицины: инновации MIT 28 Апреля, 2026 58
    • 4
      Как ИИ может предсказать ухудшение состояния пациентов с сердечной недостаточностью 25 Апреля, 2026 52
    • 5
      Искусственный интеллект в прогнозировании сердечной недостаточности: новый подход MIT 24 Апреля, 2026 50
    • 6
      Революция Edge AI: Как MIT научили умные часы и старые смартфоны обучать нейросети без потери приватности 3 Мая, 2026 50
    • 7
      Как новый гибридный подход к планированию улучшает выполнение сложных визуальных задач 24 Апреля, 2026 48
    • 8
      Как новые методы улучшают способность ИИ объяснять свои предсказания 25 Апреля, 2026 45
    Статьи в блоге
    • Ловушка AI-зависимости: Почему доверие к ИИ снижает способность распознавать фейки
      Ловушка AI-зависимости: Почему доверие к ИИ снижает способность распознавать фейки 17 Июня, 2026
    • Ловушка доверия: Как ИИ-ассистенты снижают нашу способность к критическому мышлению
      Ловушка доверия: Как ИИ-ассистенты снижают нашу способность к критическому мышлению 16 Июня, 2026
    • Почему ИИ не должен быть вашим единственным фильтром новостей: уроки исследования MIT
      Почему ИИ не должен быть вашим единственным фильтром новостей: уроки исследования MIT 15 Июня, 2026
    • Почему доверие к ИИ в новостях может ослабить нашу способность распознавать фейки
      Почему доверие к ИИ в новостях может ослабить нашу способность распознавать фейки 15 Июня, 2026
    • Почему ИИ ухудшает нашу способность распознавать фейковые новости: уроки исследования MIT
      Почему ИИ ухудшает нашу способность распознавать фейковые новости: уроки исследования MIT 13 Июня, 2026
    • Человеческий фактор в AI: почему этика, образование и понимание важнее скорости внедрения
      Человеческий фактор в AI: почему этика, образование и понимание важнее скорости внедрения 12 Июня, 2026
    • Почему ИИ для проверки новостей может ослаблять критическое мышление
      Почему ИИ для проверки новостей может ослаблять критическое мышление 10 Июня, 2026
    • EnergAIzer: как MIT ускоряет оценку энергопотребления ИИ в дата-центрах
      EnergAIzer: как MIT ускоряет оценку энергопотребления ИИ в дата-центрах 5 Июня, 2026
    Комментарии 0
    Поделиться
    23
    0
    1 Мая, 2026
    • Ваш комментарий будет первым
    Оставить комментарий
    Нажимая на кнопку «Отправить», Вы даете согласие на обработку персональных данных.
    Поделиться
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026