В эпоху стремительного развития технологий и растущего влияния искусственного интеллекта, вопрос доверия к предсказаниям моделей ИИ становится все более актуальным. Особенно это касается таких критически важных областей, как здравоохранение и автономное вождение, где ошибки могут иметь катастрофические последствия. Недавнее исследование, проведенное учеными из MIT, предлагает революционный подход к улучшению объяснительной способности ИИ, что может значительно повысить его надежность.
Проблема доверия к ИИ в критически важных областях
В сфере медицинской диагностики и автономного вождения пользователи хотят понимать, что именно заставило модель сделать то или иное предсказание. Это позволяет им оценить надежность результатов и принять обоснованные решения. Однако большинство современных моделей ИИ функционируют как "черные ящики", не предоставляя ясных объяснений своих действий.

Концептуальные узкие места: новый подход
Одним из решений проблемы объяснимости является использование моделей узких мест концепций (Concept Bottleneck Models, CBM). Эти модели добавляют промежуточный этап, в котором модель предсказывает присутствие определенных концепций на изображении, прежде чем сделать окончательное предсказание. Это "бутылочное горлышко" помогает пользователям понять логику модели.
Однако традиционные CBM часто зависят от заранее определенных человеком концепций, что может не подходить для конкретной задачи. Более того, модели могут использовать нежелательную информацию, что приводит к утечке данных. Исследователи MIT предложили альтернативный подход, использующий знания, которые модель уже приобрела во время обучения.
Как работает новый метод
Первым шагом нового метода является использование специализированной модели глубокого обучения, называемой разреженным автоэнкодером, для выбора наиболее релевантных признаков и преобразования их в концепции. Затем мультимодальная языковая модель описывает каждую концепцию простым языком и аннотирует изображения в наборе данных, указывая, какие концепции присутствуют или отсутствуют.
Эти аннотированные данные используются для обучения модуля узкого места концепций, который интегрируется в целевую модель, заставляя её делать предсказания, используя только выученные концепции.

Преимущества и вызовы нового подхода
В ходе тестирования их метод превзошел современные CBM в задачах, таких как предсказание видов птиц и идентификация кожных поражений на медицинских снимках. Однако остается проблема компромисса между интерпретируемостью и точностью, так как модели "черного ящика" все еще превосходят интепретируемые модели по точности.
Исследователи планируют изучить потенциальные решения проблемы утечки информации, добавляя дополнительные модули узких мест, и масштабировать метод с использованием более крупных языковых моделей для аннотации больших наборов данных.
Перспективы и будущее развитие
Этот подход открывает новые горизонты для создания ИИ, который может обосновывать свои предсказания более правдоподобным образом, и создает естественный мост к символьному ИИ и графам знаний. Это не только улучшает доверие к ИИ в критически важных областях, но и предлагает множество возможностей для дальнейшей работы с структурированным знанием.
Поддержанный рядом международных организаций, включая Европейский Союз, этот проект является ярким примером того, как академические исследования могут повлиять на практическое применение ИИ в реальном мире.