Исследователи из MIT представили новый метод оценки неопределенности в больших языковых моделях. Эта техника позволяет более точно выявлять случаи, когда модель уверена в своем ответе, но при этом ошибается.
Почему это важно для ИИ
Современные языковые модели могут выдавать правдоподобные, но неверные ответы. Это может привести к серьезным последствиям, особенно в критически важных областях, таких как здравоохранение и финансы.
Традиционные методы оценки неопределенности часто основаны на многократных запросах к модели. Однако даже самые передовые модели могут быть уверены в своих ошибочных ответах. Это требует нового подхода к оценке их надежности.
Подход MIT: сравнение моделей
Новая методика MIT включает сравнение ответов целевой модели с ответами от группы схожих моделей. Это позволяет более точно выявлять уверенные, но неверные ответы, чем традиционные методы.
Исследователи комбинировали этот подход с измерением самосогласованности модели, чтобы создать общий метрик неопределенности, который показал себя лучше других методов в тестах на 10 различных задачах.
Преимущества нового метода
Метрика общей неопределенности (Total Uncertainty, TU) предложенная MIT, может более эффективно выявлять ситуации, когда модель «галлюцинирует», то есть выдает уверенные, но неверные ответы. Это также позволяет укреплять корректные ответы модели во время обучения, что может повысить производительность.
Эта методика не только более эффективна, но и требует меньше вычислительных ресурсов, что сокращает затраты энергии и времени.
Будущее направления исследований
В дальнейшем исследователи планируют адаптировать свой метод для улучшения работы с открытыми запросами и исследовать другие формы неопределенности. Этот проект частично финансируется MIT-IBM Watson AI Lab.
