Введение в проблему чрезмерной уверенности у языковых моделей
Крупные языковые модели (Large Language Models, LLMs) способны генерировать правдоподобные, но неточные ответы. Это может вводить пользователей в заблуждение относительно точности предсказаний. Особенно важно это в критически важных областях, таких как здравоохранение или финансы, где ошибка может иметь серьезные последствия. Для решения этой проблемы исследователи из MIT разработали новый метод измерения неопределенности, который позволяет более надежно выявлять уверенные, но ошибочные ответы LLM.

Почему традиционные методы измерения неопределенности не всегда работают
Существующие методы оценки неопределенности часто основаны на оценке уверенности модели в своих предсказаниях (алеторическая неопределенность). Однако модели могут быть уверены даже в случае ошибочных предсказаний. Исследования показывают, что эпистемическая неопределенность, или неопределенность в отношении использования правильной модели, может быть более эффективной для оценки истинной уверенности.
Примером может служить ситуация, когда вы задаете один и тот же вопрос ChatGPT несколько раз и получаете один и тот же ответ. Это не означает, что ответ верен. Если вы спросите то же самое у другой модели, например, Claude или Gemini, и получите другой ответ, это указывает на эпистемическую неопределенность.
Новый подход: метод ансамбля моделей
Исследователи из MIT предложили метод, который измеряет расхождение между целевой моделью и небольшим ансамблем моделей с аналогичной архитектурой. Сравнение семантического сходства ответов моделей позволяет более точно оценить эпистемическую неопределенность.
Для достижения наибольшей точности необходим набор моделей, который охватывает разнообразные ответы, не слишком похож на целевую модель и взвешен по уровню доверия. Исследователи обнаружили, что наилучший результат достигается путем использования моделей, обученных разными компаниями.

Комбинирование подходов для измерения полной неопределенности
Объединив новый метод с традиционным подходом измерения алеторической неопределенности, исследователи создали метрику полной неопределенности (Total Uncertainty, TU). Она позволяет более точно определить, насколько можно доверять уверенности модели.
Метрика TU эффективнее определяет ситуации, когда LLM «галлюцинирует», поскольку эпистемическая неопределенность может выявить уверенные ошибочные выводы, которые могут быть пропущены при измерении лишь алеторической неопределенности. Это также позволяет исследователям подкреплять уверенные правильные ответы модели во время обучения, что может улучшить ее производительность.
Применение и перспективы
Метрика TU была протестирована на нескольких LLM в рамках 10 различных задач, включая ответы на вопросы, резюмирование, перевод и математическое обоснование. Метод оказался более эффективным в выявлении ненадежных предсказаний, чем каждый из подходов по отдельности.
В будущем исследователи планируют адаптировать свою технику для улучшения производительности на открытых запросах и изучить другие формы алеторической неопределенности.