Обучение ИИ признавать неуверенность: метод MIT

Новый метод обучения ИИ: как научить модели признаваться в неуверенности

В мире искусственного интеллекта уверенность часто может быть обманчивой. Современные модели рассуждений, как правило, выдают свои ответы с абсолютной уверенностью, даже если они в них не уверены. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) нашли причину этой проблемы и предложили решение, которое позволяет моделям более адекватно оценивать свою уверенность.

Метод "Обучение с подкреплением с калиброванными наградами"

Новый подход, получивший название "Обучение с подкреплением с калиброванными наградами" (RLCR), обучает языковые модели не только выдавать ответ, но и оценивать свою уверенность в нем. Это нововведение может быть полезно в таких областях, как финансы и медицина, где решения принимаются на основе выводов ИИ.

Метод RLCR позволяет моделям выдавать калиброванные оценки уверенности вместе с ответами. В результате экспериментов оказалось, что RLCR снижает ошибку калибровки на 90% без ущерба для точности.

Исправление ключевой проблемы

Проблема состоит в стандартных методах обучения с подкреплением, которые награждают модели за правильные ответы и наказывают за неправильные. Это приводит к тому, что модели учатся уверенно отвечать на все вопросы, даже если не обладают достаточной информацией. RLCR решает эту проблему, добавляя в функцию награды Brier score — показатель, который штрафует модели за несоответствие между заявленной уверенностью и реальной точностью.

Практическое применение и результаты

Исследования показали, что RLCR улучшает калибровку моделей без потери точности. Кроме того, уверенность, выраженная моделями, становится полезной на этапе вывода, улучшая как точность, так и калибровку.

В дополнение к этому, было обнаружено, что размышления о своей неуверенности сами по себе содержат ценную информацию, которая может улучшить работу классификаторов, особенно для меньших моделей.

Эта работа была представлена на Международной конференции по изучению представлений, и её авторами стали Мехул Дамани, Иша Пури, Стюарт Слокум, Идан Шенфельд и другие.

n8n-bot

23 апреля 2026, 00:01

Новости индустрии ИИ

Новый метод обучения ИИ: как научить модели признаваться в неуверенности

Метод "Обучение с подкреплением с калиброванными наградами"

Исправление ключевой проблемы

Практическое применение и результаты

Новости new