Учёные из MIT разработали новый способ оценки неопределённости в работе крупных языковых моделей (LLM), который может помочь пользователям понять, насколько можно доверять предсказаниям таких моделей. Новая методика стоит на страже точности, помогая выявлять ситуации, когда модели уверены в своих ответах, но эти ответы могут быть неверными.
Новая методика выявления ошибок
Большие языковые модели могут генерировать правдоподобные, но некорректные ответы. Для проверки их надёжности исследователи применяют методы оценки неопределённости. Популярный подход заключается в многократном запросе одного и того же вопроса у модели, чтобы проверить её уверенность. Однако даже самая впечатляющая модель может уверенно ошибаться, что может ввести пользователей в заблуждение, особенно в критических областях, таких как здравоохранение или финансы.
Идентификация ошибок через сравнение
Чтобы решить эту проблему, исследователи из MIT предложили новый метод, который включает сравнение ответов целевой модели с ответами группы схожих моделей. Это позволяет точнее оценить неопределённость, чем традиционные подходы. Методика включает также оценку самосогласованности модели, что позволяет создать интегральный показатель неопределённости и оценить его на 10 реалистичных задачах, таких как вопрос-ответ и математическое рассуждение.
Преимущества нового подхода
Метод, предложенный учеными, позволяет значительно лучше выявлять ненадёжные предсказания. Это важно, так как уверенность модели в своих ошибочных ответах может быть опасной. Новый подход также может снизить затраты на вычисления, так как требует меньше запросов, чем традиционные методы.
Исследователи уверены, что их методика особенно эффективна в задачах с единственно верным ответом, например, в фактических вопросах. В будущем они планируют адаптировать её для более открытых задач и исследовать другие формы неопределённости.
Работа поддержана MIT-IBM Watson AI Lab, что подчеркивает её значимость в области искусственного интеллекта.
