Введение в проблему объяснимости ИИ
Современные системы искусственного интеллекта (ИИ) все чаще применяются в критически важных областях, таких как здравоохранение и автономное вождение. В таких контекстах пользователям важно понимать, на чем основаны прогнозы модели, чтобы оценить их надежность и справедливость. Это особенно актуально в случаях, когда ошибка в прогнозе может иметь серьезные последствия.
Концептуальные модели: что это и почему они важны
Концептуальные модели (или concept bottleneck models, CBMs) представляют собой подход, позволяющий повысить объяснимость ИИ. Такие модели вводят промежуточный шаг, заставляя модель сначала предсказать наличие определенных концепций в изображении, а затем использовать эти концепции для окончательного прогноза.
Например, модель, определяющая виды птиц, может сначала выбрать концепции 'желтые ноги' и 'синие крылья', прежде чем предсказать, что это ласточка. Однако заранее определенные концепции могут не подходить для конкретной задачи или быть недостаточно детализированными, что снижает точность модели.
Новый подход к построению концептуальных моделей
Исследователи из MIT предложили инновационный метод, позволяющий извлекать концепции, которые модель уже выучила в процессе обучения, и преобразовывать их в текст, понятный для человека. Это позволяет получить более точные и понятные объяснения, чем стандартные концептуальные модели.
Процесс включает использование специализированной модели машинного обучения, которая автоматически извлекает знания из целевой модели и переводит их в концепции на естественном языке. Это позволяет использовать уже обученные модели компьютерного зрения и преобразовывать их в объяснимые модели без необходимости детальной ручной настройки.
Технические детали и ограничения
Для извлечения концепций используется разреженный автокодировщик, который избирательно выбирает наиболее релевантные признаки, выученные моделью. Затем мультимодальная языковая модель описывает каждую концепцию простым языком и аннотирует изображения, определяя, какие концепции присутствуют или отсутствуют на каждом изображении.
Одним из важных ограничений является проблема утечки информации, когда модель может использовать нежелательные или неизвестные концепции. Для предотвращения этого исследователи ограничивают модель использованием только пяти концепций для каждой предсказания, что делает объяснения более управляемыми и понятными.
Результаты и перспективы
При сравнении их подхода с другими современными CBM их метод показал наивысшую точность при обеспечении более точных объяснений. Тем не менее, остается компромисс между интерпретируемостью и точностью: черные ящики моделей, которые не интерпретируемы, все еще превосходят по производительности.
В будущем исследователи планируют изучить решения проблемы утечки информации и масштабировать свою методику, используя более крупные мультимодальные языковые модели для аннотирования больших наборов данных. Это может повысить производительность и открыть новые возможности для использования структурированных знаний.

