В мире, где искусственный интеллект все чаще используется в критически важных сферах, таких как здравоохранение и автономное вождение, пользователи требуют объяснений, почему модель ИИ делает те или иные предсказания. Новая методика, разработанная учеными из MIT, предлагает решение этой проблемы, делая предсказания ИИ более прозрачными и понятными для человека.
Объяснимость: ключ к доверию
В высокорисковых областях, таких как медицинская диагностика, важно понимать, на чем основано предсказание модели. Это позволяет пользователям определять, стоит ли доверять результатам модели. Одним из подходов к достижению этой цели является моделирование концептуальных бутылочных горлышек (concept bottleneck modeling), при котором модель ИИ объясняет процесс принятия решений через набор концепций, понятных человеку.

Как работает методика концептуальных бутылочных горлышек?
Методика предполагает добавление промежуточного шага, в котором модель сначала предсказывает концепции, присутствующие в изображении, а затем, на основе этих концепций, делает заключительное предсказание. Это помогает пользователям понять логику модели. Однако заранее определенные концепции могут оказаться неактуальными или недостаточно детализированными для конкретной задачи, что снижает точность модели.
Новая методика от MIT: использование уже выученных концепций
Исследователи из MIT предложили инновационный подход, который позволяет извлечь концепции, которые модель уже изучила в процессе обучения и использовать их для объяснения своих предсказаний. Этот метод включает пару специализированных моделей машинного обучения, которые автоматически извлекают знания из целевой модели и переводят их в понятные для человека концепции.
Этапы новой методики
- Использование специализированной модели глубокого обучения, называемой разреженным автоэнкодером (sparse autoencoder), для выбора наиболее релевантных характеристик, которые модель выучила.
- Реконструкция этих характеристик в виде нескольких концепций.
- Описание каждой концепции с помощью мультимодальной языковой модели (LLM) на понятном языке.
- Аннотирование изображений в наборе данных, чтобы определить, какие концепции присутствуют и отсутствуют в каждом изображении.
- Интеграция модуля концептуального бутылочного горлышка в целевую модель, заставляя ее делать предсказания, используя только извлеченные концепции.
Преимущества и вызовы
Этот подход продемонстрировал более высокую точность на таких задачах, как предсказание видов птиц и идентификация кожных поражений, по сравнению с существующими моделями. Однако исследователи столкнулись с вызовами, такими как точность аннотации концепций и ограничение модели в использовании только пяти концепций для каждого предсказания, чтобы избежать утечки информации.

Будущее объяснимого ИИ
Несмотря на успехи, остается проблема баланса между интерпретируемостью и точностью. Черные ящики, которые трудно объяснить, все еще показывают лучшие результаты. В будущем исследователи планируют изучать решения проблемы утечки информации и масштабировать методику, используя более крупные мультимодальные языковые модели.
Эта работа открывает перспективы для дальнейших исследований, связывая объяснимый ИИ с символическим ИИ и графами знаний, что делает модель более понятной и аутентичной. Объяснимость становится неотъемлемой частью ИИ-моделей, укрепляя доверие пользователей к технологиям.