Введение
Большие языковые модели (LLM) становятся все более важной частью современных технологий, однако они не лишены недостатков. Одним из таких является чрезмерная уверенность в своих ответах, которая может привести к серьезным последствиям в критически важных областях, таких как здравоохранение или финансы. Исследователи из MIT предложили новый метод измерения неопределенности, который более надежно выявляет уверенные, но ошибочные ответы моделей.

Проблема чрезмерной уверенности
Существующие методы оценки неопределенности часто сосредоточены на внутренней уверенности модели в собственном предсказании, известной как алеторическая неопределенность. Однако модели могут быть уверены в своих ответах, даже если они ошибочны. В таких случаях более подходящим подходом является оценка эпистемической неопределенности, которая отражает, насколько далеко модель отклоняется от идеальной.
Новый подход от MIT
Исследователи MIT предложили новый метод, который включает сравнение ответа целевой модели с ответами группы похожих моделей. Это позволяет более точно определять уверенные, но ошибочные ответы, и в итоге создавать метрику общей неопределенности, которая позволяет лучше идентифицировать ненадежные предсказания.

Метод ансамбля моделей
Для оценки эпистемической неопределенности исследователи использовали метод ансамбля моделей, сравнивая семантическую схожесть ответов. Это позволило создать более точную оценку эпистемической неопределенности. Важным моментом было использование моделей, обученных различными компаниями, чтобы обеспечить разнообразие ответов и избежать чрезмерного сходства с целевой моделью.
Общая метрика неопределенности
Объединяя методы оценки алеторической и эпистемической неопределенности, исследователи создали метрику общей неопределенности (TU), которая наиболее точно отражает надежность уверенности модели. TU может эффективнее выявлять случаи "галлюцинаций" модели и позволять улучшать ее обучение.
Практическое применение и перспективы
Метрика TU была протестирована на 10 реалистичных задачах, таких как ответ на вопросы и математические рассуждения. Она показала высокую эффективность в выявлении ненадежных предсказаний, а также снижение вычислительных затрат. В будущем исследователи планируют адаптировать технику для улучшения работы на более открытых задачах и изучения других форм алеторической неопределенности.