Новая методика для выявления слишком уверенных языковых моделей AI

Современные языковые модели искусственного интеллекта (ИИ), такие как GPT, могут производить весьма правдоподобные, но неверные ответы. Это создает серьезные проблемы в ситуациях, где решения, основанные на данных этих моделей, могут иметь критические последствия, например, в здравоохранении или финансах. Исследователи из MIT предложили новую методику, которая помогает лучше оценивать неопределенность прогнозов, чтобы пользователи могли принять более обоснованные решения по доверию к ИИ.

Diverse AI models collaborating to assess uncertainty

Проблема избыточной уверенности

Существующие методы оценки неопределенности часто основываются на самоуверенности модели, то есть насколько модель уверена в своем собственном прогнозе. Однако даже самая впечатляющая языковая модель может быть уверена в своем ответе, будучи при этом совершенно неверной. Эта избыточная уверенность может вводить пользователей в заблуждение относительно точности прогноза, что особенно опасно в критических областях.

Подход MIT к оценке неопределенности

Для решения проблемы исследователи из MIT предложили новый метод измерения так называемой эпистемической неопределенности — это неопределенность, связанная с правильностью использования модели для конкретной задачи. Они предложили измерять расхождения в ответах целевой модели и группы похожих языковых моделей. Это позволяет более точно улавливать ситуации, когда модель уверена, но ошибается.

Сравнение моделей и эпистемическая неопределенность

Метод MIT заключается в сравнении семантической близости ответов от целевой модели и небольшого ансамбля моделей аналогичного размера и архитектуры. Это сравнение позволяет более точно оценить эпистемическую неопределенность. Исследователи обнаружили, что модели, обученные различными компаниями, обеспечивают разнообразие ответов и позволяют лучше оценивать надежность прогнозов.

Общий метрика неопределенности

Сочетая их подход с традиционным измерением алеторической неопределенности, исследователи создали общий показатель неопределенности. Эта метрика позволяет более точно определить, насколько надежны прогнозы модели. Она может обнаруживать ситуации, когда модель "галлюцинирует", то есть уверенно выдает неверные ответы, которые могут не быть выявлены другими методами.

Тестирование на 10 задачах: Вопросы и ответы, математические рассуждения и др.
Снижение вычислительных затрат за счет меньшего количества запросов
Улучшение производительности моделей за счет усиления уверенно правильных ответов

Перспективы и будущие исследования

Поскольку эпистемическая неопределенность наиболее эффективна для задач с уникальными правильными ответами, исследователи планируют адаптировать свою методику для улучшения работы с более открытыми вопросами. Кроме того, они изучают другие формы алеторической неопределенности, чтобы еще больше повысить надежность языковых моделей ИИ в будущем.

Эта работа, финансируемая MIT-IBM Watson AI Lab, открывает новые горизонты в понимании и управлении неопределенностью в языковых моделях, что в конечном итоге может привести к более надежным и безопасным системам ИИ.

Блог top

Статьи в блоге

Комментарии ⁰

27 Марта, 2026

Ваш комментарий будет первым