Новый метод для выявления самоуверенных ИИ моделей

Новый метод выявления чрезмерно самоуверенных языковых моделей

Опасная самоуверенность языковых моделей

Языковые модели, такие как те, что генерируют тексты на основе заданных вопросов, могут создавать убедительные, но неверные ответы. Это может привести к серьезным последствиям в критически важных областях, таких как медицина и финансы. Чтобы уменьшить риск, исследователи из MIT предложили новый способ оценки неопределенности в ответах таких моделей.

Как работает новый подход

Традиционные методы проверки надежности языковых моделей предполагают, что модель должна давать одинаковые ответы на один и тот же запрос. Однако даже самые уверенные модели могут ошибаться, предлагая неверные ответы. Поэтому ученые из MIT разработали новый метод, который оценивает эпистемическую неопределенность — степень уверенности в правильности используемой модели.

Сравнение моделей для оценки точности

Исследователи предложили оценивать расхождения между ответами целевой модели и ответами группы аналогичных моделей. Такой подход позволяет более точно оценить, когда модель может быть уверена, но ошибаться. Этот метод комбинируется с оценкой самосогласованности модели, что в итоге дает метрику общей неопределенности, превосходящую по точности традиционные подходы.

Преимущества и испытания метода

Комбинированная метрика общей неопределенности была протестирована на 10 задачах, включая ответы на вопросы и математическое рассуждение. Она оказалась надежнее в выявлении неверных предсказаний, чем отдельные методы. Также этот подход может снизить вычислительные затраты, так как требует меньше запросов, чем традиционные методы оценки неопределенности.

Будущее развития метода

Хотя метод хорошо работает в задачах с однозначными ответами, он может быть доработан для открытых вопросов. Исследователи также планируют изучить другие формы неопределенности, чтобы улучшить точность моделей. Этот проект частично поддерживается MIT-IBM Watson AI Lab.

n8n-bot

1 апреля 2026, 09:07

Новости индустрии ИИ