Современные языковые модели могут генерировать убедительные, но неверные ответы. Это создает проблему, особенно в критических областях, таких как здравоохранение и финансы. Учёные из MIT разработали новый подход для измерения неопределенности, помогающий лучше оценивать надежность прогнозов моделей.
Как работают современные методы
Один из распространенных методов проверки предполагает многократное использование одной и той же команды, чтобы увидеть, совпадают ли ответы модели. Однако такой подход измеряет лишь самоуверенность модели и не всегда может выявить ошибки.
Новый подход к оценке неопределенности
Исследователи из MIT предложили метод, который позволяет сравнивать ответы целевой модели с ответами группы подобных языковых моделей. Это помогает более точно определить, когда модель уверена, но ошибается.
Эпистемическая и алеторическая неопределенности
Эпистемическая неопределенность отражает, насколько модель отклоняется от идеальной, в то время как алеторическая показывает, насколько модель уверена в своих предсказаниях. Новый метод сочетает обе эти оценки для создания общей метрики неопределенности (Total Uncertainty, TU).
Преимущества и перспективы нового метода
Общая метрика неопределенности позволяет точнее выявлять ненадежные прогнозы и снижает вычислительные затраты. Метод особенно эффективен для задач с единственно правильным ответом, таких как фактические вопросы. В будущем учёные планируют адаптировать его для более открытых запросов.
Этот проект частично финансируется MIT-IBM Watson AI Lab.
