Как научить ИИ говорить «Я не уверен»: новый метод MIT

Современные системы искусственного интеллекта обладают одним опасным свойством — они невероятно убедительны. Даже когда нейросеть ошибается или откровенно выдумывает факты, она выдает ответ с непоколебимой уверенностью. Эта проблема, известная как галлюцинации ИИ, становится серьезным препятствием для внедрения технологий в критически важные сферы.

Исследователи из Лаборатории информатики и искусственного интеллекта Массачусетского технологического института (MIT CSAIL) нашли корень этой проблемы. Они разработали инновационный метод обучения, который позволяет языковым моделям честно признаваться: «Я не уверен». Новый подход не только повышает надежность ответов, но и сохраняет высокую производительность системы.

Почему нейросети всегда уверены в своей правоте?

Чтобы понять причину излишней самоуверенности ИИ, нужно взглянуть на то, как их обучают. Большинство современных продвинутых моделей, включая систему OpenAI o1, тренируются с помощью обучения с подкреплением (Reinforcement Learning, RL). Суть этого метода проста: алгоритм получает «награду» за правильный ответ и «штраф» за ошибку.

Однако в этой системе есть критический изъян. Модель, которая пришла к правильному выводу путем сложных логических рассуждений, получает точно такую же награду, как и модель, которая просто угадала правильный ответ случайным образом. Промежуточных вариантов не существует.

Со временем алгоритм усваивает опасный урок: нужно всегда отвечать уверенно, независимо от наличия реальных фактов. Как отмечают авторы исследования, стандартный подход лишает нейросеть стимула выражать сомнения. В результате она учится блефовать, когда не знает точного ответа.

RLCR: Метод честной самооценки для ИИ

Чтобы исправить этот недостаток, команда MIT создала технологию RLCR (Reinforcement Learning with Calibration Rewards), что переводится как «обучение с подкреплением и вознаграждением за калибровку». Этот метод заставляет модель не просто генерировать текст, но и параллельно оценивать собственную неуверенность.

Как это работает на практике?

Вместе с ответом нейросеть выдает оценку уверенности (например, «я уверен на 70%»).
В формулу вознаграждения добавляется новый параметр — оценка Бриера (Brier score). Это математическая метрика, которая наказывает систему за разрыв между заявленной уверенностью и реальной точностью.
Алгоритм получает штраф не только за уверенные, но неверные ответы, но и за излишнюю неуверенность при правильном решении.

Таким образом, модель учится анализировать не только саму задачу, но и границы собственных знаний. Она начинает понимать, когда стоит дать однозначный ответ, а когда лучше предупредить пользователя о возможных рисках.

Впечатляющие результаты и польза для индустрии

Тестирование нового метода на модели с 7 миллиардами параметров показало поразительные результаты. Алгоритм проверяли на множестве задач по математике и ответам на вопросы, включая шесть абсолютно новых наборов данных, которые модель никогда раньше не видела.

Использование RLCR позволило снизить ошибку калибровки на 90%. При этом общая точность ответов не только не упала, но в некоторых случаях даже выросла. Интересно, что стандартное обучение с подкреплением, наоборот, активно ухудшало способность базовой модели оценивать свои знания, делая ее все более самоуверенной по мере роста вычислительных мощностей.

Кроме того, исследователи выяснили, что сам процесс размышления о собственной неуверенности приносит пользу. Когда модель генерирует несколько вариантов ответа, выбор того, в котором она наиболее уверена, значительно повышает итоговое качество работы.

Почему это критически важно для будущего ИИ?

Излишняя уверенность нейросетей — это не просто академическая проблема. Когда искусственный интеллект внедряется в медицину, юриспруденцию, финансы или другие сферы, где на кону стоят человеческие жизни или большие деньги, цена ошибки возрастает многократно.

Система, которая заявляет о «95% уверенности», будучи правой лишь в половине случаев, гораздо опаснее той, которая просто ошибается. В первом случае пользователь слепо доверяет алгоритму и не ищет второе мнение. Научив ИИ говорить «я не знаю» или «я не уверен», исследователи из MIT сделали огромный шаг к созданию безопасного, прозрачного и по-настоящему надежного искусственного интеллекта.

Как научить ИИ говорить «Я не уверен»: новый метод от MIT решает проблему галлюцинаций

Почему нейросети всегда уверены в своей правоте?

RLCR: Метод честной самооценки для ИИ

Впечатляющие результаты и польза для индустрии

Почему это критически важно для будущего ИИ?

Новости new