Новый метод для оценки уверенности языковых моделей

Проблема чрезмерной уверенности в языковых моделях

Современные большие языковые модели (LLMs) демонстрируют впечатляющие способности в генерации текста, но иногда они создают правдоподобные, но неверные ответы. Это может ввести в заблуждение пользователей и привести к серьезным последствиям в критически важных областях, таких как здравоохранение и финансы.

Futuristic concept of AI models collaborating

Традиционные методы измерения неопределенности, такие как многократное использование одного и того же запроса, оценивают лишь алеторическую неопределенность — внутреннюю уверенность модели в собственном предсказании. Однако это не всегда позволяет выявить, когда модель уверенно ошибается.

Новый подход MIT: оценка эпистемической неопределенности

Исследователи из MIT предложили новую методику для более точного выявления конфидентных, но неверных предсказаний, сравнивая ответы целевой модели с результатами группы аналогичных моделей. Это позволяет измерить эпистемическую неопределенность, которая отражает, насколько выбранная модель отклоняется от идеальной для данной задачи.

Как работает метод

Метод включает в себя измерение расхождений между целевой моделью и небольшим ансамблем моделей с аналогичной архитектурой. Это позволяет оценить семантическое сходство ответов, что дает более точные оценки эпистемической неопределенности.

Использование моделей от разных компаний позволяет избежать чрезмерного сходства.
Взвешивание моделей по их надежности улучшает точность оценок.

Применение и преимущества нового подхода

Совместив этот метод с традиционным подходом, основанным на самосогласованности, исследователи создали метрику общей неопределенности, которая показала более высокую эффективность в идентификации ненадежных предсказаний.

Тестирование на 10 различных задачах, таких как ответ на вопросы и математическое рассуждение, показало, что этот подход более точен и требует меньше запросов, что снижает вычислительные затраты.

Перспективы и дальнейшие исследования

Хотя метод показал отличные результаты на задачах с единственно правильным ответом, в будущем планируется адаптация техники для работы с более открытыми запросами. Также исследователи намерены изучить другие формы алеторической неопределенности, что может еще больше повысить надежность языковых моделей.

Блог top

Статьи в блоге

Комментарии ⁰

27 Марта, 2026

Ваш комментарий будет первым