Современные крупные языковые модели (LLM) способны генерировать впечатляюще правдоподобные, но при этом неверные ответы. Чтобы улучшить доверие к таким системам, исследователи из MIT разработали новый метод оценки неопределенности, который помогает выявлять излишнюю уверенность моделей.
Как работает новая методика
Новая техника основывается на сравнении ответа целевой модели с ответами других, схожих LLM. Это позволяет более точно оценить, насколько уверенность модели обоснована. В отличие от традиционных методов, которые проверяют только самоуверенность модели, новый подход учитывает разногласия между моделями.
Что такое эпистемическая неопределенность?
Традиционные методы проверки неопределенности фокусируются на внутренних сомнениях модели относительно своих ответов, известные как алеторическая неопределенность. Однако модели могут быть уверены в своих ответах, даже если они ошибочны. Эпистемическая неопределенность позволяет понять, насколько модель отклоняется от идеальной.
Для оценки этой неопределенности MIT использует метод сравнения ответов целевой модели с другими моделями, чтобы выявить расхождения.
Преимущества и перспективы
Объединив новый подход с традиционными методами, исследователи создали метрику 'общей неопределенности', которая оказалась более надежной в определении ненадежных предсказаний. Тестирование на десяти различных задачах показало, что эта метрика лучше выявляет случаи, когда модель ошибочно уверена в своих ответах.
Такой подход не только помогает выявлять ошибки, но и может быть использован для улучшения обучения моделей, позволяя усилить уверенность в корректных ответах. Исследователи надеются в будущем адаптировать методику для задач с открытыми ответами и изучить другие формы неопределенности.
Работа частично финансируется лабораторией MIT-IBM Watson AI Lab и открывает новые горизонты в понимании и улучшении языковых моделей искусственного интеллекта.
