Введение в проблему объяснимости ИИ
В современном мире искусственный интеллект все чаще применяется в критически важных сферах, таких как здравоохранение и автономное вождение. Здесь особенно важно доверять предсказаниям моделей. Однако зачастую возникает вопрос: как понять, что именно привело модель к тому или иному выводу?
Что такое концептуальное моделирование узких мест?
Одним из методов, помогающим сделать ИИ более объяснимым, является концептуальное моделирование узких мест (CBM). Этот подход добавляет промежуточный этап, где модель сначала предсказывает набор концепций, а затем использует их для окончательного вывода. Это позволяет пользователям понять, как модель пришла к своему решению.
Например, модель, идентифицирующая виды птиц, может сначала выделить такие концепции, как "желтые лапы" и "синие крылья", прежде чем предсказать, что это ласточка.
Проблемы предыдущих подходов
Ранее концепции обычно задавались заранее, что могло не соответствовать специфике задачи или приводить к утечке информации, когда модель использовала нежелательные данные.
Новый подход от MIT: концепции, извлеченные из модели
Исследователи из MIT предложили иной метод: извлечение уже изученных моделью концепций и их преобразование в понятные человеку термины. Это позволяет создать более точные и интерпретируемые модели.
Первый шаг их метода заключается в использовании специализированной модели глубокого обучения — разреженного автоэнкодера, который выделяет наиболее значимые признаки и преобразует их в концепции. Затем мультимодальная LLM описывает каждую концепцию на естественном языке.
Преимущества и перспективы нового метода
Сравнивая новый подход с современными CBM, исследователи обнаружили, что их метод достигает наивысшей точности, обеспечивая более точные объяснения. Более того, извлеченные концепции оказались более применимыми к изображениям в наборе данных.
Однако всегда остается компромисс между интерпретируемостью и точностью. Исследователи планируют изучить пути решения проблемы утечки информации и масштабировать метод с помощью большего мультимодального LLM.
Этот метод открывает новые возможности для создания интерпретируемого ИИ, что в конечном итоге может привести к более безопасным и надежным системам.