Проблема чрезмерной уверенности языковых моделей
Крупные языковые модели (LLM) могут создавать убедительные, но неточные ответы, что представляет серьезную проблему в таких областях, как здравоохранение и финансы. **Чрезмерная уверенность** модели может ввести пользователей в заблуждение относительно точности предсказаний, что может иметь разрушительные последствия.

Исследователи из MIT разработали новый метод измерения неопределенности, который более надежно выявляет уверенные, но ошибочные ответы LLM. Их методика включает сравнение ответа целевой модели с ответами группы аналогичных моделей, что позволяет более точно оценивать неопределенность по сравнению с традиционными подходами.
Понимание неопределенности: два ключевых аспекта
Существует два типа неопределенности, которые необходимо учитывать при оценке надежности модели:
- Алеаторная неопределенность — это внутренняя уверенность модели в своем предсказании, часто измеряется через оценку уверенности или тестирование согласованности ответов на один и тот же запрос.
- Эпистемическая неопределенность — это неопределенность в отношении использования правильной модели и может быть более полезной для оценки истинной неопределенности, особенно когда модель чрезмерно уверена в себе.
Исследователи MIT сосредоточили свое внимание на эпистемической неопределенности, измеряя расхождение между ответами целевой модели и аналогичных моделей.
Метод ансамбля для оценки эпистемической неопределенности
Метод, разработанный исследователями, включает измерение семантической схожести между ответами целевой модели и небольшим ансамблем моделей с аналогичной архитектурой. Это позволяет более точно оценивать эпистемическую неопределенность. Исследователи обнаружили, что разнородность моделей, обученных разными компаниями, позволяет получить наиболее точные оценки.

Объединив этот подход с традиционными методами измерения алеаторной неопределенности, они создали метрику полной неопределенности (Total Uncertainty, TU), которая более точно отражает, насколько надежны предсказания модели.
Практическое применение и перспективы
Метрика TU была протестирована на 10 реалистичных задачах, таких как вопросно-ответные системы и математические рассуждения. Она показала более высокую эффективность в выявлении ненадежных предсказаний, чем отдельные методы. В некоторых случаях TU требовала меньше запросов, что снижало вычислительные затраты и экономило энергию.
Исследователи планируют адаптировать свою технику для улучшения производительности на открытых задачах и изучать другие формы алеаторной неопределенности. Это открывает новые возможности для разработки более надежных и точных языковых моделей, что особенно важно в высокорисковых областях.
Работа была частично профинансирована лабораторией MIT-IBM Watson AI Lab.