Исследователи из MIT представили новый подход, который помогает улучшить объяснение решений моделей искусственного интеллекта в таких критически важных областях, как здравоохранение и автономное вождение. Это особенно важно, так как пользователи хотят понять, почему модели делают те или иные предсказания, чтобы доверять их результатам.
Преобразование моделей с помощью "концептуального узкого места"
Новый метод основывается на использовании концептуальных узких мест — техники, которая заставляет модели использовать понятные для человека концепции при прогнозировании. Это позволяет сделать процесс принятия решений более прозрачным.
Однако, ранее используемые концепции могли быть не всегда актуальны или детализированы, что снижало точность предсказаний. Новый подход от MIT извлекает концепции, которые модель уже изучила во время обучения, и использует их для более точных и понятных объяснений.
Как работает новый метод
Разработчики использовали пару специализированных моделей машинного обучения, чтобы извлечь знания из целевой модели и перевести их в понятные концепции. Это позволяет преобразовать любую модель компьютерного зрения в систему, объясняющую свои решения через четкие концепции.
Эта техника также ограничивает модель в использовании всего пяти концепций для каждого предсказания, что делает объяснения более понятными и релевантными.
Преимущества и будущее развитие
В сравнении с существующими методами, новая техника показала более высокую точность и предоставила более точные объяснения. Однако остаётся задача — улучшать интерпретируемость моделей, чтобы они могли конкурировать с традиционными "чёрными ящиками".
В будущем исследователи планируют расширить метод, используя более крупные обучающие наборы данных, для дальнейшего повышения производительности. Это исследование открывает новые возможности для интеграции символического ИИ и использования графов знаний.
Работа была поддержана несколькими организациями, включая Progetto Rocca Doctoral Fellowship и Европейский Союз в рамках проекта NextGenerationEU.
