Введение
Современные крупные языковые модели (LLM) способны генерировать правдоподобные, но при этом неточные ответы. Это может привести к серьезным последствиям в таких областях, как здравоохранение и финансы. Исследователи из MIT разработали новую методику для измерения неопределенности, которая позволяет более точно выявлять уверенные, но неверные предсказания моделей.

Традиционные методы оценки неопределенности
Одним из популярных методов оценки неопределенности является многократное предоставление одной и той же команды модели для проверки согласованности ответов. Этот метод измеряет алетическую неопределенность, показывая, насколько уверена модель в собственных предсказаниях. Однако модели могут быть уверены даже в тех случаях, когда они ошибаются. Исследования показывают, что эпистемическая неопределенность может быть более подходящей для оценки истинной неопределенности, когда модель излишне уверена.
Эпистемическая неопределенность: новая перспектива
Эпистемическая неопределенность оценивается путем сравнения ответов целевой модели с ответами группы подобных моделей. Если различные модели дают разные ответы на один и тот же запрос, это может указывать на высокую степень эпистемической неопределенности.

Инновационный подход MIT
Чтобы улучшить оценку эпистемической неопределенности, исследователи MIT предложили использовать ансамблевый подход. Он заключается в измерении расхождения между целевой моделью и небольшим ансамблем моделей с похожей архитектурой. Сравнение семантической близости ответов моделей позволяет лучше оценивать эпистемическую неопределенность.
Комбинированная метрика неопределенности
После разработки метода оценки эпистемической неопределенности исследователи объединили его с традиционным методом измерения алетической неопределенности. Итоговая метрика общей неопределенности (TU) оказалась наиболее надежным индикатором доверия к уверенности модели.
- Снижение вычислительных затрат: измерение общей неопределенности зачастую требует меньше запросов, чем расчет только алетической неопределенности.
- Оптимизация для различных задач: TU более эффективно выявляет ненадежные предсказания и может быть адаптирована для улучшения производительности на открытых задачах.
Перспективы и заключение
Исследование MIT открывает новые горизонты для улучшения надежности языковых моделей. В будущем возможно расширение методики для работы с открытыми запросами и исследование других форм неопределенности. Это может стать основой для создания более надежных и точных AI-систем.