Улучшение способности ИИ объяснять свои предсказания

Введение в концептуальные модели узких мест

Современные искусственные интеллекты, особенно в областях компьютерного зрения, становятся все более сложными и мощными. Однако их способность объяснять свои решения зачастую оставляет желать лучшего. В критически важных приложениях, таких как медицинская диагностика или автономное вождение, пользователи хотят понять, что привело модель к определенному предсказанию. Это необходимо для оценки надежности результата.

AI model transforming concepts into understandable explanations

Концептуальная модель узкого места

Одним из подходов к улучшению объясняемости ИИ является концептуальная модель узкого места (Concept Bottleneck Model, CBM). Эти модели добавляют промежуточный шаг, заставляя модель сначала предсказывать присутствие определенных концептов в изображении, а затем использовать их для окончательного предсказания.

Например, если модель определяет вид птицы, она может сначала выделить концепты вроде "желтые ноги" и "синие крылья", прежде чем сделать вывод о том, что это ласточка.

Проблема заранее заданных концептов

Обычно концепты задаются заранее людьми или большими языковыми моделями, что может не всегда подходить для конкретной задачи. Более того, модель может использовать нежелательную информацию, что приводит к утечке информации.

Новая методика MIT

Исследователи из MIT предложили другой подход. Они решили извлечь знания, которые модель уже приобрела во время обучения, и преобразовать их в текст, понятный человеку. Этот метод предполагает использование пары специализированных моделей машинного обучения, которые автоматически извлекают знания из целевой модели и переводят их в понятные концепты.

Первый шаг включает использование редкого автоэнкодера, который избирательно выбирает наиболее релевантные фичи, изученные моделью, и преобразует их в небольшое количество концептов. Затем мультимодальная LLM описывает каждый концепт на простом языке.

Контроль над концептами

Для предотвращения использования неизвестных или нежелательных концептов модель ограничивается использованием только пяти концептов для каждого предсказания. Это помогает модели выбирать наиболее релевантные концепты и делает объяснения более понятными.

При сравнении этого подхода с современными CBM на задачах, таких как предсказание видов птиц и идентификация кожных поражений, метод MIT достиг наивысшей точности при более точных объяснениях.

Перспективы и вызовы

Хотя новый подход демонстрирует значительные улучшения, он все еще сталкивается с компромиссом между интерпретируемостью и точностью. Модели "черного ящика", которые не поддаются интерпретации, пока превосходят по производительности. В будущем исследователи планируют изучить решения для проблемы утечки информации и масштабировать метод, используя более крупные мультимодальные LLM.

Это исследование поддержано Progetto Rocca Doctoral Fellowship, Итальянским министерством университета и исследований, Thales Alenia Space и Европейским Союзом в рамках проекта NextGenerationEU.

Блог top

Статьи в блоге

Комментарии ⁰

8 Апреля, 2026

Ваш комментарий будет первым