Проблема чрезмерной уверенности в языковых моделях
Современные большие языковые модели (LLMs) демонстрируют впечатляющие способности в генерации текста, но иногда они создают правдоподобные, но неверные ответы. Это может ввести в заблуждение пользователей и привести к серьезным последствиям в критически важных областях, таких как здравоохранение и финансы.

Традиционные методы измерения неопределенности, такие как многократное использование одного и того же запроса, оценивают лишь алеторическую неопределенность — внутреннюю уверенность модели в собственном предсказании. Однако это не всегда позволяет выявить, когда модель уверенно ошибается.
Новый подход MIT: оценка эпистемической неопределенности
Исследователи из MIT предложили новую методику для более точного выявления конфидентных, но неверных предсказаний, сравнивая ответы целевой модели с результатами группы аналогичных моделей. Это позволяет измерить эпистемическую неопределенность, которая отражает, насколько выбранная модель отклоняется от идеальной для данной задачи.
Как работает метод
Метод включает в себя измерение расхождений между целевой моделью и небольшим ансамблем моделей с аналогичной архитектурой. Это позволяет оценить семантическое сходство ответов, что дает более точные оценки эпистемической неопределенности.
- Использование моделей от разных компаний позволяет избежать чрезмерного сходства.
- Взвешивание моделей по их надежности улучшает точность оценок.
Применение и преимущества нового подхода
Совместив этот метод с традиционным подходом, основанным на самосогласованности, исследователи создали метрику общей неопределенности, которая показала более высокую эффективность в идентификации ненадежных предсказаний.

Тестирование на 10 различных задачах, таких как ответ на вопросы и математическое рассуждение, показало, что этот подход более точен и требует меньше запросов, что снижает вычислительные затраты.
Перспективы и дальнейшие исследования
Хотя метод показал отличные результаты на задачах с единственно правильным ответом, в будущем планируется адаптация техники для работы с более открытыми запросами. Также исследователи намерены изучить другие формы алеторической неопределенности, что может еще больше повысить надежность языковых моделей.