В критически важных областях, таких как медицина и автономное вождение, пользователи часто хотят знать, почему алгоритм принял то или иное решение. Это необходимо, чтобы определить, можно ли доверять его предсказаниям. Новая методика от MIT позволяет улучшить объясняемость моделей компьютерного зрения, что может повысить уровень доверия к ним.
Проблема объясняемости в ИИ
Современные модели глубокого обучения часто рассматриваются как "черные ящики", поскольку пользователи не всегда могут понять, какие факторы повлияли на их предсказания. Это вызывает обеспокоенность, особенно в областях, где ошибки могут иметь серьезные последствия.
Одним из подходов к решению этой проблемы являются концептуальные узкие места (concept bottleneck models, CBM). Эти модели добавляют промежуточный этап, который заставляет модель объяснять свои решения через набор понятий, понятных человеку. Однако существующие методы не всегда соответствуют специфике задачи и могут использовать нежелательную информацию.
Новая методика от MIT
Исследователи из MIT предложили новый подход, который улучшает точность и объясняемость предсказаний ИИ. Их методика извлекает понятия, которые модель уже усвоила во время обучения, и преобразует их в текст, понятный человеку. Это позволяет использовать модели, обученные на больших объемах данных, более эффективно.
Как это работает
Процесс начинается с использования разреженного автоэнкодера, который выбирает наиболее релевантные признаки, усвоенные моделью. Затем мультимодальная языковая модель описывает каждое понятие на простом языке.
Далее, эти понятия используются для аннотирования изображений в наборе данных. Модуль концептуального узкого места обучается распознавать эти понятия и интегрируется в целевую модель, принуждая её использовать только извлеченные понятия для предсказаний.
Результаты и преимущества
Сравнение нового подхода с существующими CBM показало, что он обеспечивает более высокую точность и более точные объяснения. Новая методика также сокращает количество используемых понятий, что делает объяснения более понятными.
Исследователи также отмечают, что их методика позволяет извлекать понятия, которые более соответствуют изображениям в наборе данных. Это открывает путь к более точным и понятным объяснениям, что важно для повышения доверия к ИИ.
Будущие перспективы
В будущем исследователи планируют изучить возможные решения проблемы утечки информации, добавив дополнительные модули концептуальных узких мест. Они также намерены масштабировать свою методику, используя более крупные мультимодальные языковые модели для аннотирования больших наборов данных.
По словам профессора Андреаса Хото из Университета Вюрцбурга, это исследование открывает перспективы для разработки интерпретируемого ИИ и создания моста к символическому ИИ и графам знаний.
Поддержка этого исследования была оказана различными грантами и инициативами, включая Progetto Rocca Doctoral Fellowship и проект NextGenerationEU Европейского Союза.