В мире искусственного интеллекта объясняемость моделей становится все более важной, особенно в сферах, где на кону стоят человеческие жизни, таких как здравоохранение и автономное вождение. Новая методика, разработанная в MIT, может изменить подход к объяснению прогнозов, сделанных компьютерными моделями.
Что такое концептуальные модели?
Концептуальные модели, или concept bottleneck models, позволяют искусственному интеллекту объяснять свои решения с помощью понятных человеку концепций. Это достигается за счет промежуточного этапа, на котором модель предсказывает присутствие определенных концепций в изображении, а затем использует эти концепции для окончательного прогноза.
Например, модель, распознающая виды птиц, может сначала выделить такие характеристики, как "желтые лапы" или "синие крылья", прежде чем определить вид птицы.
Новая методика от MIT
Исследователи из MIT предложили улучшенный подход к концептуальным моделям, который извлекает уже выученные моделью концепции и преобразует их в понятные человеку объяснения. Для этого они используют два специализированных машинных алгоритма, которые извлекают знания из модели и переводят их в текст.
Этот подход позволяет избежать проблемы "утечки информации", когда модель может использовать нежелательные или неизвестные концепции. Исследователи ограничили количество концепций, используемых для одного прогноза, до пяти, чтобы улучшить объясняемость модели.
Преимущества и перспективы
Сравнив новый метод с существующими моделями, команда MIT достигла высокой точности предсказаний и более точных объяснений. Также их метод генерирует более подходящие концепции для анализа изображений.
В будущем исследователи планируют решить проблему утечки информации и масштабировать метод, увеличив размер обучающего набора данных. Это может привести к еще большему улучшению производительности и точности.
Работа получила поддержку от различных научных и исследовательских организаций, включая Progetto Rocca и Европейский союз, и будет представлена на Международной конференции по изучению представлений.
