Введение в проблему переоценки уверенности языковыми моделями
Современные крупные языковые модели (LLM) способны генерировать правдоподобные, но иногда неверные ответы. Это может вводить пользователей в заблуждение относительно точности их предсказаний, что особенно опасно в таких областях, как медицина и финансы. Исследователи из MIT предложили новую методику оценки неопределенности, которая позволяет более надежно выявлять случаи, когда модель уверена в своих ошибочных предсказаниях.

Традиционные методы оценки неопределенности
На данный момент одним из распространенных методов является многократная подача одного и того же запроса модели для проверки согласованности ее ответов. Однако это измеряет лишь внутреннюю уверенность модели, известную как алеаторная неопределенность. Проблема в том, что модели могут быть уверенными в своих ответах, даже если они ошибочны.
Поэтому исследователи обратились к концепции эпистемической неопределенности, которая оценивает, насколько модель отклоняется от идеальной модели для данной задачи. Это позволяет лучше понять истинную неопределенность модели.
Новая методика оценки: подход ансамбля
MIT использовали подход, основанный на измерении расхождений между ответами целевой модели и ответами группы аналогичных моделей. Они обнаружили, что сравнение семантического сходства, то есть насколько близки значения ответов, может дать более точную оценку эпистемической неопределенности.
Для этого требуется набор моделей, которые обеспечивают разнообразие ответов и не слишком похожи на целевую модель. Исследователи пришли к выводу, что наиболее простым и эффективным решением является использование моделей, обученных разными компаниями. Этот подход оказался более действенным, чем более сложные методы.

Метрика общей неопределенности (TU)
Объединив их методику с традиционными подходами, исследователи разработали метрику общей неопределенности (TU), которая дает наиболее точное представление о надежности уверенности модели. Эта метрика может более эффективно выявлять моменты, когда модель „галлюцинирует“ — то есть уверенно, но ошибочно интерпретирует данные.
Исследования показали, что TU может выявлять ненадежные предсказания более эффективно, чем отдельно взятые меры, и зачастую требует меньше запросов, что снижает вычислительные затраты и экономит энергию.
Перспективы и будущее развитие
Данная методика открывает новые горизонты для разработки более надежных языковых моделей. В будущем исследователи планируют адаптировать технику для улучшения работы с открытыми запросами и изучать другие формы алеаторной неопределенности.
Таким образом, это исследование может значительно улучшить доверие к ИИ, особенно в критически важных областях, и служит примером того, как ученые продолжают раздвигать границы возможностей искусственного интеллекта.