Введение
Большие языковые модели (Large Language Models, LLMs) завоевали широкую популярность благодаря своей способности генерировать связные и убедительные ответы на различные запросы. Однако, как показывает практика, эти модели могут быть уверенными, но неправыми, что создает риск для пользователей, особенно в критически важных областях, таких как здравоохранение или финансы.
Зачем нужна новая метрика оценки уверенности
Традиционные методы оценки уверенности языковых моделей основываются на самоуверенности: модель многократно отвечает на один и тот же запрос, и если ответы совпадают, это считается признаком уверенности. Однако такая уверенность может быть ложной. Эпистемическая неопределенность — это более подходящий показатель, который оценивает, насколько модель отклоняется от идеальной модели для данной задачи.
Эпистемическая и алеторическая неопределенности
Эпистемическая неопределенность связана с возможностью использования неправильной модели, тогда как алеторическая неопределенность показывает внутреннюю уверенность модели в своих предсказаниях. Команда исследователей из MIT предложила измерять эпистемическую неопределенность через разногласия между несколькими моделями.
Методика оценки: подход ансамблей
Для более точной оценки эпистемической неопределенности исследователи сравнивали модель с группой аналогичных моделей, обученных на разных данных. Это позволило получить более точное представление о достоверности предсказаний. Важным аспектом было снижение сходства моделей и взвешивание их на основе надежности.
Комбинируя этот подход с измерением алеторической неопределенности, исследователи создали метрику общей неопределенности, которая превосходила традиционные методы на 10 различных задачах, таких как вопросы-ответы и математические рассуждения.
Применение и тестирование
Новая метрика общей неопределенности успешно выявляла ненадежные предсказания и снижала количество необходимых запросов для оценки, что, в свою очередь, уменьшало вычислительные затраты и потребление энергии. Исследования показали, что особенно эффективна эта метрика для задач с единственно правильным ответом.
Перспективы и значение для индустрии
Предложенная методика имеет потенциал значительно улучшить качество и надежность предсказаний LLMs, особенно в областях, где ошибка может иметь серьезные последствия. Она также может стать основой для разработки новых методов обучения моделей, которые будут учитывать не только уверенные, но и правильные ответы.
В будущем исследователи планируют адаптировать свою технику для более открытых запросов и изучить другие формы алеторической неопределенности. Это позволит сделать ИИ более надежным и безопасным инструментом в различных сферах деятельности.