Ученые из MIT представили новую методику для оценки неуверенности в больших языковых моделях (LLM). Этот подход позволяет лучше выявлять случаи, когда модели ИИ слишком уверены в своих ответах, но при этом ошибаются.
Новые горизонты в оценке неуверенности
Языковые модели часто дают правдоподобные, но неверные ответы. Поэтому исследователи разрабатывают методы, которые позволяют оценить надежность предсказаний. Один из них заключается в проверке согласованности ответов при многократных запросах.
Однако даже такие методы могут быть недостаточными, поскольку модели могут уверенно выдавать неправдивые результаты. Это особенно критично в областях, где ошибки недопустимы, например, в здравоохранении или финансах.
Подход MIT: кросс-модельное сравнение
Команда MIT предложила метод, который оценивает неуверенность, сравнивая ответы целевой модели с ответами других схожих языковых моделей. Они обнаружили, что такое сравнение лучше фиксирует случаи чрезмерной уверенности, чем традиционные методы.
Этот подход также учитывает самосогласованность модели, создавая общий показатель неуверенности. Метод был протестирован на 10 задачах, таких как ответ на вопросы и математическое рассуждение, и показал более высокую эффективность в определении ненадежных предсказаний.
Преимущества и применение
Суммарный показатель неуверенности (TU) помогает выявлять ситуации, в которых модель "галлюцинирует", то есть уверенно дает неправильные ответы. Это может быть полезно для улучшения обучения моделей, повышая их точность в будущем.
В ходе тестирования TU показал более высокую эффективность, чем отдельные методы, и требовал меньше запросов, что снижает затраты на вычисления. Однако метод пока лучше работает на задачах с единственным правильным ответом и требует доработки для открытых задач.
Будущее исследования
В дальнейшем исследователи планируют адаптировать свою технику для улучшения работы на открытых запросах и изучить другие формы неуверенности. Работа частично финансируется MIT-IBM Watson AI Lab.
