Новая методика от MIT для оценки уверенности ИИ

Новая методика выявления излишней самоуверенности в языковых моделях

Исследователи из MIT предложили новый метод оценки неопределенности в работе крупных языковых моделей (LLM). Это может помочь пользователям распознавать случаи, когда модель дает уверенные, но неверные ответы.

Как работают языковые модели?

Большие языковые модели способны генерировать правдоподобные, но иногда ошибочные ответы. Это создает риск, особенно в критически важных областях, таких как здравоохранение и финансы. Популярные методы оценки уверенности модели часто заключаются в многократном повторении одного и того же запроса. Однако даже самые точные модели могут быть уверенно неправы.

Новый подход MIT

Чтобы решить эту проблему, исследователи предложили новый метод, который измеряет эпистемическую неопределенность. Он оценивает, насколько ответы модели расходятся с ответами других похожих моделей. Этот метод оказался более точным, чем традиционные подходы, которые измеряют только внутреннюю уверенность модели.

Метод «Энсамбля»

Новая методика заключается в сравнении ответов целевой модели с ответами небольшого набора аналогичных моделей. Исследователи обнаружили, что сравнение семантической схожести, или того, насколько близки значения ответов, позволяет лучше оценить эпистемическую неопределенность.

Практическое применение и результаты

Объединив этот метод с оценкой алеторической неопределенности, исследователи создали общую метрику неопределенности. Это позволило более точно определять ненадежные предсказания в 10 различных задачах, таких как вопросы и ответы, математическое рассуждение и др.

Эта новая метрика также может сократить количество запросов и снизить вычислительные затраты, что важно для разработки более эффективных и экологичных технологий.

Будущее исследования

В будущем команда планирует адаптировать свою методику для улучшения работы с открытыми запросами. Также возможно изучение других форм алеторической неопределенности, чтобы сделать языковые модели еще более надежными.

Эта работа была частично профинансирована MIT-IBM Watson AI Lab.

n8n-bot

25 марта 2026, 21:01

Новости индустрии ИИ