Введение в проблему излишней уверенности ИИ
Большие языковые модели (LLM) обладают способностью генерировать убедительные, но иногда недостоверные ответы. Это связано с тем, что современные методы оценки неопределенности, такие как многократное применение одного и того же запроса, проверяют лишь внутреннюю уверенность модели. Однако это не всегда гарантирует правильность ответа.
Когда речь идет о высокорисковых областях, таких как здравоохранение или финансы, излишняя уверенность может привести к серьезным последствиям. Для борьбы с этой проблемой исследователи MIT разработали новый метод измерения неопределенности, который более надежно выявляет уверенные, но ошибочные ответы языковых моделей.

Понимание неопределенности: алеторическая и эпистемическая
Существует два основных типа неопределенности: алеторическая и эпистемическая. Алеторическая неопределенность отражает степень уверенности модели в собственном предсказании и часто оценивается через внутреннюю консистентность ответов модели на одни и те же запросы.
Эпистемическая неопределенность, напротив, связана с вопросом, правильна ли сама модель. Этот тип неопределенности может дать более точную оценку, особенно когда модель излишне уверена в неверном ответе.
Метод кросс-модельного несогласия
Команда MIT решила оценивать эпистемическую неопределенность, сравнивая разногласия между ответами целевой модели и группы аналогичных языковых моделей. Такая стратегия позволяет более точно фиксировать случаи, когда модель может быть уверенно неправильной.
Например, если вы задаете вопрос нескольким различным моделям, и они дают разные ответы, это может сигнализировать о высокой эпистемической неопределенности. Это похоже на ситуацию, когда несколько экспертов дают разные заключения по одной и той же проблеме.

Комбинированный подход: полная метрика неопределенности
Исследователи MIT объединили свой подход с существующими методами измерения алеторической неопределенности, чтобы создать полную метрику неопределенности (TU). Этот комбинированный подход позволяет более точно оценивать надежность предсказаний модели.
Проведенные эксперименты показали, что такая метрика более эффективно выявляет ненадежные предсказания по сравнению с отдельными методами. Более того, оценка полной неопределенности требовала меньшего числа запросов, что снижает вычислительные затраты и экономит энергию.
Практическое применение и будущие исследования
Применение полной метрики неопределенности может значительно улучшить надежность языковых моделей в различных задачах, от ответа на вопросы до математических рассуждений. Однако, как показали эксперименты, эпистемическая неопределенность наиболее эффективна в задачах с однозначным правильным ответом, таких как фактические вопросы, но может показаться менее действенной в открытых задачах.
В будущем исследователи планируют адаптировать свою технику для повышения эффективности в задачах с открытыми запросами и изучить другие формы алеторической неопределенности.