Как научить ИИ сомневаться: новый метод RLCR от MIT

Уверенность часто звучит убедительно, но в мире искусственного интеллекта она может быть крайне опасна. Современные передовые модели машинного рассуждения страдают серьезным недостатком: они выдают любой ответ с непоколебимой уверенностью, независимо от того, знают ли они точный факт или просто угадывают. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (MIT CSAIL) нашли первопричину этой излишней самоуверенности и разработали элегантное решение.

Синдром «всезнайки»: почему ИИ не умеет сомневаться

Проблема кроется в самом фундаменте современного обучения нейросетей. Методы обучения с подкреплением (Reinforcement Learning, RL), которые стоят за недавними прорывами в области ИИ (включая такие системы, как OpenAI o1), работают по бинарной системе. Они вознаграждают модель за правильный ответ и штрафуют за неправильный. Промежуточных вариантов просто не существует.

В результате нейросеть, которая пришла к верному выводу путем сложных логических вычислений, получает точно такую же награду, как и модель, которая просто угадала правильный ответ случайным образом. Со временем алгоритмы усваивают простой урок: нужно всегда отвечать максимально уверенно, даже если доказательств нет и система фактически «подбрасывает монетку». Это и является одной из главных причин так называемых галлюцинаций ИИ.

Метод RLCR: учим алгоритмы оценивать свои знания

Чтобы исправить этот фундаментальный недостаток, команда MIT разработала новую технику под названием RLCR (Reinforcement Learning with Calibration Rewards) — обучение с подкреплением с вознаграждением за калибровку. Этот метод заставляет языковые модели не просто генерировать текст, но и параллельно оценивать степень собственной неуверенности, выдавая специальный «индекс достоверности».

В основе RLCR лежит добавление всего одного нового параметра в функцию вознаграждения — оценки Бриера (Brier score). Это классическая математическая метрика, которая штрафует систему за разрыв между заявленной уверенностью и фактической точностью. Теперь в процессе тренировки алгоритм учится анализировать как саму задачу, так и собственные сомнения.

Штраф за излишнюю самоуверенность: если модель дает неправильный ответ, но заявляет о 100% уверенности, она получает строгий штраф.
Штраф за излишнюю скромность: если модель дает правильный ответ, но занижает свою уверенность, ее оценка также снижается.
Поощрение за честность: идеальная награда выдается тогда, когда ИИ дает точный ответ и корректно оценивает вероятность своей правоты.

Почему это критически важно для индустрии

Слепая уверенность нейросетей имеет серьезные последствия в реальном мире. Когда искусственный интеллект применяется в медицине, юриспруденции, финансах или любой другой сфере, где от решений зависят человеческие жизни или крупные капиталы, система, которая всегда выдает высокий уровень уверенности, становится бомбой замедленного действия.

Медицинский ИИ-ассистент, заявляющий: «Я уверен на 95%», в то время как он прав лишь в половине случаев, гораздо опаснее алгоритма, который просто ошибается. В первом случае у врача нет никаких сигналов о том, что нужно перепроверить информацию или обратиться за вторым мнением. Как отмечает Мехул Дамани, соавтор исследования из MIT: «Стандартный подход к обучению не дает модели никаких стимулов сказать "я не знаю". Поэтому ИИ естественно учится блефовать».

Впечатляющие результаты тестирования

Математические расчеты команды MIT подтвердились на практике. Исследователи протестировали метод на языковой модели с 7 миллиардами параметров, используя различные бенчмарки по математике и ответам на вопросы, включая шесть наборов данных, которые нейросеть никогда раньше не видела.

Результаты оказались впечатляющими: метод RLCR снизил ошибку калибровки (расхождение между уверенностью и точностью) на величину до 90 процентов. При этом общая точность ответов модели не только не упала, но в некоторых случаях даже возросла. Более того, выяснилось, что стандартное обучение с подкреплением активно ухудшает способность модели оценивать свои знания, делая ее умнее, но при этом гораздо более самоуверенной. RLCR полностью обращает этот негативный эффект вспять.

Будущее саморефлексирующего ИИ

Дополнительным открытием стало то, что сам процесс «размышления» о собственной неуверенности имеет огромную ценность. Когда ИИ генерирует несколько вариантов ответа, выбор того, в котором система наиболее уверена по собственным метрикам, значительно повышает итоговую точность. Это доказывает, что способность нейросетей к саморефлексии — это не просто косметическая функция, а реальный инструмент для создания более надежных, безопасных и предсказуемых интеллектуальных систем будущего.

Ученые MIT научили ИИ сомневаться: новый метод обучения снижает риск галлюцинаций

Синдром «всезнайки»: почему ИИ не умеет сомневаться

Метод RLCR: учим алгоритмы оценивать свои знания

Почему это критически важно для индустрии

Впечатляющие результаты тестирования

Будущее саморефлексирующего ИИ

Новости new