Исследователи из Лаборатории компьютерных наук и искусственного интеллекта MIT разработали инновационный метод обучения для ИИ моделей. Этот подход помогает моделям давать более точные оценки своей уверенности без снижения качества их работы, что решает проблему «галлюцинаций» в рассуждениях моделей.
Проблема чрезмерной уверенности ИИ
Современные модели часто слишком уверены в своих ответах, даже когда не имеют достаточных оснований. Это может вводить в заблуждение пользователей, особенно в таких важных областях, как медицина и финансы. Проблема заключается в том, что стандартные методы обучения не мотивируют модели выражать неуверенность.
Техника RLCR: баланс уверенности и точности
Методика Reinforcement Learning with Calibration Rewards (RLCR) добавляет к стандартной функции награды показатель, который учитывает разницу между заявленной уверенностью и фактической точностью. В ходе обучения модели учатся одновременно решать задачи и оценивать собственную неуверенность. Это приводит к более точным и надежным результатам.
Результаты исследований
В ходе экспериментов, проведенных на различных наборах данных, метод RLCR снизил ошибку калибровки на 90%, не потеряв в точности. Это достижение было представлено на Международной конференции по обучению представлениям. Метод RLCR также превосходит постфактум подходы, где модели получают оценки уверенности после генерации ответов.
Практическая ценность и будущее применения
Помимо улучшения уверенности, метод RLCR оказался полезным в процессе вывода. Он позволяет моделям более точно выбирать ответы на основе самосообщенной уверенности. Эти улучшения могут значительно повысить надежность ИИ в реальных приложениях, где точность критически важна.
В исследовании приняли участие Мехул Дамани и Иша Пури, а также Стюарт Слокум, Идан Шенфельд и другие авторы. Работа была проведена под руководством Джейкоба Андреаса и Юна Кима.
