Новый метод для выявления чрезмерной уверенности у крупных языковых моделей

Введение в проблему чрезмерной уверенности у языковых моделей

Крупные языковые модели (Large Language Models, LLMs) способны генерировать правдоподобные, но неточные ответы. Это может вводить пользователей в заблуждение относительно точности предсказаний. Особенно важно это в критически важных областях, таких как здравоохранение или финансы, где ошибка может иметь серьезные последствия. Для решения этой проблемы исследователи из MIT разработали новый метод измерения неопределенности, который позволяет более надежно выявлять уверенные, но ошибочные ответы LLM.

futuristic ensemble of AI models working together, tech style

Почему традиционные методы измерения неопределенности не всегда работают

Существующие методы оценки неопределенности часто основаны на оценке уверенности модели в своих предсказаниях (алеторическая неопределенность). Однако модели могут быть уверены даже в случае ошибочных предсказаний. Исследования показывают, что эпистемическая неопределенность, или неопределенность в отношении использования правильной модели, может быть более эффективной для оценки истинной уверенности.

Примером может служить ситуация, когда вы задаете один и тот же вопрос ChatGPT несколько раз и получаете один и тот же ответ. Это не означает, что ответ верен. Если вы спросите то же самое у другой модели, например, Claude или Gemini, и получите другой ответ, это указывает на эпистемическую неопределенность.

Новый подход: метод ансамбля моделей

Исследователи из MIT предложили метод, который измеряет расхождение между целевой моделью и небольшим ансамблем моделей с аналогичной архитектурой. Сравнение семантического сходства ответов моделей позволяет более точно оценить эпистемическую неопределенность.

Для достижения наибольшей точности необходим набор моделей, который охватывает разнообразные ответы, не слишком похож на целевую модель и взвешен по уровню доверия. Исследователи обнаружили, что наилучший результат достигается путем использования моделей, обученных разными компаниями.

futuristic ensemble of AI models working together

Комбинирование подходов для измерения полной неопределенности

Объединив новый метод с традиционным подходом измерения алеторической неопределенности, исследователи создали метрику полной неопределенности (Total Uncertainty, TU). Она позволяет более точно определить, насколько можно доверять уверенности модели.

Метрика TU эффективнее определяет ситуации, когда LLM «галлюцинирует», поскольку эпистемическая неопределенность может выявить уверенные ошибочные выводы, которые могут быть пропущены при измерении лишь алеторической неопределенности. Это также позволяет исследователям подкреплять уверенные правильные ответы модели во время обучения, что может улучшить ее производительность.

Применение и перспективы

Метрика TU была протестирована на нескольких LLM в рамках 10 различных задач, включая ответы на вопросы, резюмирование, перевод и математическое обоснование. Метод оказался более эффективным в выявлении ненадежных предсказаний, чем каждый из подходов по отдельности.

В будущем исследователи планируют адаптировать свою технику для улучшения производительности на открытых запросах и изучить другие формы алеторической неопределенности.

Блог top

Статьи в блоге

Комментарии ⁰

5 Апреля, 2026

Ваш комментарий будет первым