Как ИИ научили говорить «я не знаю» | Новый метод от MIT

Уверенность часто бывает убедительной, но в случае с системами искусственного интеллекта она может быть смертельно опасной. Современные языковые модели обладают одной неприятной чертой: они выдают любой ответ с непоколебимой уверенностью, даже если просто угадывают. Исследователи из Массачусетского технологического института (MIT CSAIL) нашли причину этой проблемы и разработали элегантное решение.

Проблема «синдрома отличника» у нейросетей

Корень проблемы кроется в самом подходе к обучению современных ИИ. Передовые системы рассуждений, такие как OpenAI o1, тренируются с помощью методов обучения с подкреплением (Reinforcement Learning). Алгоритм работает предельно просто: нейросеть получает «награду» за правильный ответ и «штраф» за ошибку.

Проблема в том, что системе абсолютно всё равно, как она пришла к правильному ответу. Модель, которая провела сложный логический анализ, получает точно такую же награду, как и модель, которая просто угадала правильный вариант, словно подбросив монетку. Со временем это приучает ИИ уверенно отвечать на любой вопрос, игнорируя недостаток данных. Так рождаются знаменитые «галлюцинации ИИ» — когда нейросеть с умным видом выдает абсолютную выдумку за непреложный факт.

RLCR: Учим ИИ оценивать свои знания

Команда MIT представила новый метод под названием RLCR (Reinforcement Learning with Calibration Rewards) — обучение с подкреплением и вознаграждением за калибровку. Этот подход заставляет языковую модель не только генерировать ответ, но и параллельно оценивать степень своей уверенности в нем.

Как это работает на практике? В формулу вознаграждения добавили новый параметр — так называемый показатель Бриера (Brier score). Это математическая метрика, которая жестко штрафует нейросеть за разрыв между заявленной уверенностью и реальной точностью.

Если ИИ выдает неправильный ответ, но заявляет о 100% уверенности — он получает строгий штраф.
Если ИИ дает правильный ответ, но говорит, что сомневается — он также получает штраф (за излишнюю неуверенность).
Идеальный сценарий: модель дает верный ответ и подтверждает высокую уверенность, либо честно признается в сомнениях при недостатке данных.

Почему это критически важно для индустрии

Сегодня искусственный интеллект активно внедряется в сферы, где цена ошибки невероятно высока. В медицине, юриспруденции и финансах люди принимают жизненно важные решения на основе данных от ИИ. В таких условиях система, которая всегда излучает абсолютную уверенность, становится скрытой угрозой.

«Стандартный подход к обучению прост и мощен, но он не дает модели стимула выражать неуверенность или говорить "я не знаю"», — объясняет Мехул Дамани, аспирант MIT и соавтор исследования. Если медицинский ИИ скажет: «Я уверен в диагнозе лишь на 50%», врач поймет, что нужно назначить дополнительные анализы. Если же ИИ уверенно выдаст ложный диагноз, последствия могут быть катастрофическими для пациента.

Впечатляющие результаты тестов

Исследователи протестировали метод RLCR на мощной языковой модели с 7 миллиардами параметров. Результаты оказались поразительными:

Снижение ошибок калибровки до 90%. Модель научилась предельно точно оценивать вероятность своей правоты.
Сохранение точности. В отличие от многих других методов безопасности, RLCR не сделал нейросеть «глупее». Базовая точность ответов осталась на прежнем уровне или даже улучшилась.
Универсальность. Метод отлично показал себя даже на тех наборах данных, которые модель видела впервые во время тестирования.

Авторы исследования также выяснили, что сам процесс «размышления» о собственной неуверенности делает алгоритмы умнее. Когда нейросеть генерирует несколько вариантов ответа, выбор того, в котором она сама уверена больше всего, существенно повышает итоговое качество работы. Это доказывает, что самоанализ модели содержит реальную ценность, а не является просто декоративной функцией.

Новая эра честных нейросетей

Работа команды MIT, которая будет представлена на Международной конференции по изучению представлений (ICLR), открывает новую главу в развитии ИИ. Переход от бинарной системы «прав/неправ» к более сложной оценке вероятностей делает искусственный интеллект не просто умным инструментом, но и надежным партнером, который знает границы своих возможностей.

ИИ научили сомневаться: новый метод MIT избавляет нейросети от опасной самоуверенности

Проблема «синдрома отличника» у нейросетей

RLCR: Учим ИИ оценивать свои знания

Почему это критически важно для индустрии

Впечатляющие результаты тестов

Новая эра честных нейросетей

Новости new