Современные большие языковые модели (LLM) часто выдают правдоподобные, но неверные ответы, что может вводить пользователей в заблуждение. Исследователи из MIT предложили новую методику, которая помогает определить, когда такие модели чрезмерно уверены в своих неверных ответах.
Новая метрика для оценки уверенности
Традиционные методы проверки уверенности LLM базируются на многократных запросах одного и того же вопроса, чтобы выяснить, насколько ответы модели стабильны. Однако это может привести к ложной уверенности, особенно в критически важных областях, таких как здравоохранение или финансы. Новая методика MIT позволяет измерять другой тип неопределенности, сравнивая ответы целевой модели с ответами группы похожих моделей.
Эпистемическая неопределенность как решение
Исследователи сосредоточились на эпистемической неопределенности, которая помогает выявить, насколько целевая модель отклоняется от идеальной. Для этого они сравнивали расхождения в ответах между различными моделями, обученными разными компаниями. Это позволяет лучше понять, насколько уверенность модели обоснована.
Объединение подходов для наибольшей точности
Новая методика MIT объединяет оценку эпистемической неопределенности с традиционной оценкой внутренней уверенности модели. Это позволяет более точно определить, когда модели дают неверные, но уверенные в себе ответы. Такой подход показал свою эффективность на десяти различных задачах, включая ответ на вопросы и математическое рассуждение.
Результаты показали, что новая метрика позволяет не только лучше выявлять ненадежные предсказания, но и снижать вычислительные затраты. Этот подход может стать важным инструментом для улучшения надежности ИИ, особенно в ситуациях, где ошибка может иметь серьезные последствия.
Потенциал для дальнейших исследований
Исследователи планируют адаптировать свою методику для открытых запросов и исследовать другие формы неопределенности. Финансирование этого проекта частично обеспечивается MIT-IBM Watson AI Lab.
