В мире искусственного интеллекта уверенность часто может быть обманчивой. Современные модели рассуждений, как правило, выдают свои ответы с абсолютной уверенностью, даже если они в них не уверены. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) нашли причину этой проблемы и предложили решение, которое позволяет моделям более адекватно оценивать свою уверенность.
Метод "Обучение с подкреплением с калиброванными наградами"
Новый подход, получивший название "Обучение с подкреплением с калиброванными наградами" (RLCR), обучает языковые модели не только выдавать ответ, но и оценивать свою уверенность в нем. Это нововведение может быть полезно в таких областях, как финансы и медицина, где решения принимаются на основе выводов ИИ.
Метод RLCR позволяет моделям выдавать калиброванные оценки уверенности вместе с ответами. В результате экспериментов оказалось, что RLCR снижает ошибку калибровки на 90% без ущерба для точности.
Исправление ключевой проблемы
Проблема состоит в стандартных методах обучения с подкреплением, которые награждают модели за правильные ответы и наказывают за неправильные. Это приводит к тому, что модели учатся уверенно отвечать на все вопросы, даже если не обладают достаточной информацией. RLCR решает эту проблему, добавляя в функцию награды Brier score — показатель, который штрафует модели за несоответствие между заявленной уверенностью и реальной точностью.
Практическое применение и результаты
Исследования показали, что RLCR улучшает калибровку моделей без потери точности. Кроме того, уверенность, выраженная моделями, становится полезной на этапе вывода, улучшая как точность, так и калибровку.
В дополнение к этому, было обнаружено, что размышления о своей неуверенности сами по себе содержат ценную информацию, которая может улучшить работу классификаторов, особенно для меньших моделей.
Эта работа была представлена на Международной конференции по изучению представлений, и её авторами стали Мехул Дамани, Иша Пури, Стюарт Слокум, Идан Шенфельд и другие.
