Проблема чрезмерной уверенности в языковых моделях
Крупные языковые модели (LLMs) способны генерировать убедительные, но неточные ответы. Это представляет собой значительную проблему, особенно в критически важных областях, таких как здравоохранение или финансы, где ошибки могут иметь катастрофические последствия. Исследователи из MIT предложили новый метод для оценки неопределенности, который может помочь пользователям более надежно определять, когда модель чрезмерно уверена в своих неверных предсказаниях.

Понимание неопределенности: алаторическая и эпистемическая
Существует два основных типа неопределенности, которые оцениваются в языковых моделях: алаторическая неопределенность и эпистемическая неопределенность. Алаторическая относится к внутренней уверенности модели в собственных предсказаниях. Она оценивается путем проверки согласованности ответов модели на один и тот же запрос. Однако, как показывают исследования, языковая модель может быть уверенной даже в своих ошибках.
Эпистемическая неопределенность, с другой стороны, отражает неопределенность относительно того, используется ли правильная модель. Она может быть более точным способом оценки истинной неопределенности при чрезмерной уверенности модели.
Новый подход MIT к оценке неопределенности
Исследователи из MIT предложили метод оценки эпистемической неопределенности путем измерения расхождений в ответах от группы схожих языковых моделей. Например, если задать один и тот же вопрос нескольким разным моделям (например, ChatGPT, Claude или Gemini) и получить разные ответы, это может дать представление об эпистемической неопределенности.
Энсамблевый подход к оценке неопределенности
Чтобы более точно оценить эпистемическую неопределенность, исследователи сравнивали ответы целевой модели с ответами небольшого ансамбля моделей схожих размеров и архитектуры. Они обнаружили, что сравнение семантического сходства, или того, насколько близко совпадают значения ответов, может лучше оценить эпистемическую неопределенность.

Для достижения наиболее точной оценки был необходим набор языковых моделей, которые обеспечивали бы разнообразные ответы и не были слишком похожи на целевую модель. Исследователи пришли к выводу, что наилучший результат можно получить, если брать модели, разработанные разными компаниями.
Общая метрика неопределенности: TU
После разработки метода оценки эпистемической неопределенности, его объединили со стандартным подходом оценки алаторической неопределенности. В результате получилась общая метрика неопределенности (TU), которая давала наиболее точное представление о том, насколько можно доверять уровню уверенности модели.
Эта метрика позволила более эффективно выявлять ситуации, когда языковая модель "галлюцинирует", а также позволила исследователям усиливать уверенные правильные ответы модели во время обучения, что может улучшить её производительность.
Перспективы и значение для индустрии
Новый подход MIT к оценке неопределенности имеет большое значение для индустрии, особенно в областях, где точность ответов критически важна. Это может помочь в разработке более надежных систем на основе искусственного интеллекта, которые смогут более точно оценивать свои предсказания. В будущем исследователи могут адаптировать этот метод для улучшения работы на более открытых задачах и продолжить изучение других форм алаторической неопределенности.