Введение в проблему чрезмерной уверенности ИИ
Современные крупные языковые модели (LLM) могут генерировать правдоподобные, но неточные ответы. Это создает проблему доверия к предсказаниям ИИ, особенно в критически важных областях, таких как здравоохранение или финансы. Исследователи из MIT предложили новый метод оценки неопределенности, который позволяет более надежно выявлять такие случаи.

Традиционные методы и их ограничения
Один из популярных методов оценки неопределенности — это многократное использование одного и того же запроса к модели, чтобы проверить, стабильно ли она выдает одинаковый ответ. Однако этот подход оценивает только самоуверенность модели и не может точно определить, когда модель уверена, но ошибается.
Традиционные методы чаще всего оценивают алеаторическую неопределенность, или внутреннюю уверенность модели в своем предсказании. Однако, модели могут быть уверены, даже когда они полностью неправы. Исследования показывают, что оценка эпистемической неопределенности — неопределенности в том, используется ли правильная модель — может быть более эффективной для оценки истинной неопределенности.
Новый подход MIT: оценка эпистемической неопределенности
Команда MIT предложила метод, основанный на сравнении ответов целевой модели с ответами группы аналогичных моделей. Это позволяет более точно измерить эпистемическую неопределенность, чем традиционные подходы. Идея заключается в том, чтобы измерить степень расхождения между моделью и небольшой группой моделей с похожими размерами и архитектурой.
Чтобы достичь наиболее точной оценки, исследователи использовали набор моделей, обученных разными компаниями, обеспечивая разнообразие ответов и снижая риск схожести с целевой моделью. Результат оказался успешным: такая стратегия выявила больше недостоверных предсказаний, чем традиционные методы.

Комбинированный подход: общая метрика неопределенности (TU)
Для достижения максимальной точности исследователи объединили свою методику оценки эпистемической неопределенности с традиционным подходом, оценивающим алеаторическую неопределенность. Полученная общая метрика неопределенности (TU) оказалась более точной в оценке надежности модели.
Эта метрика позволяет более эффективно выявлять случаи генерации ошибочных предсказаний, поскольку эпистемическая неопределенность может указывать на уверенно неверные выводы, которые могут быть пропущены при оценке только алеаторической неопределенности.
Практическое применение и перспективы
Методика TU была протестирована на нескольких LLM в 10 общих задачах, таких как ответы на вопросы, суммаризация и перевод. Она позволила более эффективно выявлять ненадежные предсказания, чем каждый из методов по отдельности. Также выяснилось, что измерение общей неопределенности требует меньше запросов, чем оценка только алеаторической неопределенности, что снижает вычислительные затраты и экономит энергию.
В будущем исследователи планируют адаптировать свою технику для улучшения ее производительности на задачах с открытым окончанием и изучать другие формы алеаторической неопределенности.