Введение в проблему уверенности моделей ИИ
Большие языковые модели (БЯМ) могут генерировать правдоподобные, но неверные ответы. Это породило потребность в разработке методов для оценки неопределенности их прогнозов. Один из популярных подходов заключается в многократной подаче одного и того же запроса для оценки уверенности модели. Однако этот метод не всегда надежен, так как модель может быть уверенной, но ошибочной.
Новая методика от MIT для оценки неопределенности
Исследователи из MIT предложили новый подход, который учитывает не только собственную уверенность модели, но и дивергенцию ответов между различными моделями. Это позволяет более точно идентифицировать случаи, когда модель уверена, но ошибается.
Понимание эпистемической неопределенности
Традиционные методы оценки неопределенности сосредоточены на алеторической неопределенности — насколько модель уверена в своих предсказаниях. Однако, как показали исследования, модели могут быть уверены и в неправильных ответах. Эпистемическая неопределенность, которая учитывает различие между моделью и "идеальной" моделью, может дать более точную оценку.
Подход ансамбля моделей
Метод MIT включает сравнение ответов целевой модели с ответами небольшой группы моделей аналогичной архитектуры и размера. Оценка семантического сходства между ответами помогает лучше оценить эпистемическую неопределенность. Это возможно благодаря использованию моделей, разработанных разными компаниями, что исключает сильное сходство между ними.
Комплексная метрика неопределенности
Комбинация указанных методик позволяет создать общую метрику неопределенности, которая более точно отражает надежность уверенности модели. Этот подход позволяет выявлять ситуации, когда модель "галлюцинирует", то есть уверена в неверном ответе, и в то же время укреплять уверенные и верные ответы в процессе обучения.
Преимущества и применения новой методики
- Снижение ошибок в критически важных областях, таких как здравоохранение и финансы.
- Оптимизация вычислительных затрат за счет уменьшения числа необходимых запросов.
- Улучшение точности в задачах с уникальными правильными ответами, таких как фактологическое ответоведение.
Перспективы и будущее развитие
В будущем исследователи планируют адаптировать свою методику для улучшения результатов на открытых задачах и изучать другие формы алеторической неопределенности. Эти улучшения могут значительно повысить надежность и эффективность больших языковых моделей в различных сферах применения.