Введение в проблему неопределенности в языковых моделях
Большие языковые модели (LLM) способны генерировать убедительные, но неверные ответы. Это создает проблему доверия к их предсказаниям, особенно в критически важных областях, таких как здравоохранение и финансы. Для решения этой проблемы исследователи из MIT разработали новую метрику измерения неопределенности, которая помогает выявлять чрезмерно уверенные, но ошибочные ответы LLM.

Новый подход к измерению неопределенности
Отличие от традиционных методов
Традиционные методы измерения неопределенности в LLM часто основываются на проверке согласованности ответов модели на один и тот же запрос. Однако такие методы оценивают лишь алеаторную неопределенность, то есть внутреннюю уверенность модели в своем ответе. Проблема в том, что LLM могут быть уверены даже в случае, когда они ошибаются.
Эпистемическая неопределенность: новый вектор
Исследователи MIT предложили оценивать эпистемическую неопределенность, которая показывает, насколько модель отклоняется от идеальной модели для данной задачи. Они измеряют это, сравнивая ответы целевой модели с ответами группы схожих моделей. Такой подход позволяет более точно выявлять случаи излишней уверенности в ошибочных ответах.
Метод ансамбля моделей
Сравнение семантического сходства
Для оценки эпистемической неопределенности исследователи используют методику, включающую сравнение семантического сходства ответов целевой модели и небольшого ансамбля моделей схожего размера и архитектуры. Это позволяет более точно оценить эпистемическую неопределенность, особенно если модели в ансамбле обучены разными компаниями.
Объединение с классическими методами
Комбинируя этот подход с традиционными методами, оценивающими алеаторную неопределенность, исследователи создали метрику общей неопределенности (TU), которая более точно отражает надежность уверенности модели в своих ответах.

Практическое применение и перспективы
В ходе тестирования TU на 10 задачах, таких как вопросы-ответы и математическое рассуждение, методика показала себя более эффективной, чем традиционные методы. Она позволяет с меньшими затратами вычислительных ресурсов выявлять ненадежные предсказания и даже может улучшать качество работы моделей, усиливая их уверенность в правильных ответах.
В будущем исследователи планируют адаптировать эту технику для работы с более открытыми запросами и изучать другие формы алеаторной неопределенности. Это открывает новые горизонты для повышения надежности и точности языковых моделей в самых различных областях.