Ученые из MIT CSAIL предложили новый метод обучения, который позволяет моделям искусственного интеллекта давать более точные оценки уверенности в своих ответах. Это может стать решением проблемы "галлюцинаций" — когда модели уверенно выдают неверные результаты.
Проблема излишней уверенности
Современные ИИ системы часто дают ответы с чрезмерной уверенностью, даже когда они делают предположения. Это может быть опасно в таких областях, как медицина и финансы, где решения принимаются на основе рекомендаций ИИ. Исследователи обнаружили, что причина кроется в подходах к обучению моделей.
Новая методика RLCR
Метод "Reinforcement Learning with Calibration Rewards" (RLCR) обучает языковые модели давать не только ответы, но и оценивать свою уверенность в них. Это достигается путем добавления специального показателя — Brier score, который штрафует модели за расхождение между заявленной уверенностью и реальной точностью.
Испытания показали, что RLCR снижает ошибки калибровки на 90% без потери точности, что особенно важно для задач, где требуется высокая надежность результатов.
Преимущества для реального применения
Метод RLCR показывает, что оценка неопределенности имеет практическую ценность. Когда модели генерируют несколько вариантов ответа, выбор на основе наибольшей уверенности улучшает точность. Это может значительно повысить доверие к системам ИИ в критически важных областях.
Исследование также отметило, что модели, учитывающие свою неопределенность, могут улучшать работу других систем, например, классификаторов. Это подчеркивает важность саморефлексии ИИ при решении сложных задач.
В работе приняли участие исследователи Mehul Damani, Isha Puri, Stewart Slocum и другие, под руководством Jacob Andreas и Yoon Kim.
