Проблема чрезмерной уверенности в языковых моделях
Крупные языковые модели (LLMs) обладают способностью генерировать правдоподобные, но не всегда точные ответы. Это создает проблему: как оценить надежность таких моделей? Традиционные методы, основанные на многократной подаче одного и того же запроса, оценивают внутреннюю уверенность модели. Однако даже самые продвинутые модели могут быть уверенно неправы. В таких областях, как здравоохранение или финансы, это может привести к серьезным последствиям.
Новая методика оценки неопределенности
Исследователи из MIT предложили подход, который позволяет более надежно выявлять уверенные, но ошибочные ответы LLM. Их методика предполагает сравнение ответа целевой модели с ответами группы аналогичных моделей. Таким образом, оценивается эпистемическая неопределенность, что позволяет лучше понять истинную надежность модели.
Понимание эпистемической неопределенности
Эпистемическая неопределенность помогает оценить, насколько целевая модель отклоняется от идеальной модели для конкретной задачи. Однако построение идеальной модели невозможно, поэтому исследователи используют приближенные модели. Например, если ChatGPT дает один и тот же ответ на один и тот же вопрос, это не гарантирует его точности. Сравнение ответа с другими моделями, такими как Claude или Gemini, позволяет лучше оценить эпистемическую неопределенность.
Ансамблевый подход и его преимущества
Новый метод предполагает измерение расхождений между целевой моделью и небольшим ансамблем моделей аналогичного размера и архитектуры. Исследователи выяснили, что сравнение семантического сходства ответов более точно оценивает эпистемическую неопределенность.
Для достижения наибольшей точности необходим набор моделей, который охватывает разнообразные ответы и не слишком похож на целевую модель. Исследователи обнаружили, что наиболее простым способом удовлетворить эти требования является использование моделей, обученных разными компаниями.
После разработки метода оценки эпистемической неопределенности они объединили его со стандартным подходом оценки алеторической неопределенности. Этот комплексный показатель (TU) наиболее точно отражает, насколько можно доверять уровню уверенности модели.
Преимущества метода TU
Метод TU может более эффективно выявлять ситуации, когда LLM «галлюцинирует», поскольку эпистемическая неопределенность способна обозначать уверенно ошибочные выводы, которые алеторическая неопределенность может пропустить. Это также может позволить исследователям укреплять уверенно правильные ответы LLM во время обучения, что может улучшить производительность.
Тестирование метода TU на нескольких LLM в 10 распространенных задачах, таких как ответы на вопросы, резюмирование и перевод, показало, что он более эффективно идентифицирует ненадежные прогнозы, чем использование каждого показателя по отдельности.
Перспективы и будущее развитие
Использование метода TU может значительно снизить вычислительные затраты, так как часто требуется меньше запросов для оценки неопределенности. Тем не менее, эпистемическая неопределенность наиболее эффективна при задачах с единственно правильным ответом и может показывать худшие результаты при более открытых задачах. В будущем исследователи планируют адаптировать свою технику для улучшения производительности на открытых запросах и изучить другие формы алеторической неопределенности.