Опасная самоуверенность языковых моделей
Языковые модели, такие как те, что генерируют тексты на основе заданных вопросов, могут создавать убедительные, но неверные ответы. Это может привести к серьезным последствиям в критически важных областях, таких как медицина и финансы. Чтобы уменьшить риск, исследователи из MIT предложили новый способ оценки неопределенности в ответах таких моделей.
Как работает новый подход
Традиционные методы проверки надежности языковых моделей предполагают, что модель должна давать одинаковые ответы на один и тот же запрос. Однако даже самые уверенные модели могут ошибаться, предлагая неверные ответы. Поэтому ученые из MIT разработали новый метод, который оценивает эпистемическую неопределенность — степень уверенности в правильности используемой модели.
Сравнение моделей для оценки точности
Исследователи предложили оценивать расхождения между ответами целевой модели и ответами группы аналогичных моделей. Такой подход позволяет более точно оценить, когда модель может быть уверена, но ошибаться. Этот метод комбинируется с оценкой самосогласованности модели, что в итоге дает метрику общей неопределенности, превосходящую по точности традиционные подходы.
Преимущества и испытания метода
Комбинированная метрика общей неопределенности была протестирована на 10 задачах, включая ответы на вопросы и математическое рассуждение. Она оказалась надежнее в выявлении неверных предсказаний, чем отдельные методы. Также этот подход может снизить вычислительные затраты, так как требует меньше запросов, чем традиционные методы оценки неопределенности.
Будущее развития метода
Хотя метод хорошо работает в задачах с однозначными ответами, он может быть доработан для открытых вопросов. Исследователи также планируют изучить другие формы неопределенности, чтобы улучшить точность моделей. Этот проект частично поддерживается MIT-IBM Watson AI Lab.
