Как улучшить объяснимость AI: Новые подходы

В мире, где технологии искусственного интеллекта (AI) все чаще применяются в критически важных областях, таких как здравоохранение и автономное вождение, вопрос доверия к их предсказаниям становится особенно острым. Пользователи хотят понимать, как и почему модель пришла к тому или иному выводу, чтобы оценить ее надежность. Недавние исследования в MIT предлагают новый подход к решению этой проблемы, позволяя моделям компьютерного зрения объяснять свои предсказания через набор концепций, понятных человеку.

Концептуальные модели узкого места: основы

**Концептуальные модели узкого места** (Concept Bottleneck Models, CBM) — это популярный метод для повышения объяснимости AI. Эти модели добавляют промежуточный этап, заставляя модель компьютерного зрения сначала предсказать концепции, присутствующие на изображении, а затем использовать эти концепции для финального предсказания. Например, модель, определяющая вид птицы, может сначала выбрать концепции, такие как "желтые лапки" и "синие крылья", прежде чем предсказать, что это ласточка.

AI model transforming abstract concepts into human-understandable language in a futuristic concept.

Однако, как отмечают исследователи, заранее определенные концепции могут не подходить для конкретной задачи, или модель может использовать нежелательные концепции, что приводит к утечке информации. Например, модель, обученная на медицинских изображениях, может использовать концепции, которые не предусмотрены в задании, снижая точность и объяснимость.

Новый подход: извлечение концепций из модели

Исследователи из MIT предлагают иной подход: поскольку модель обучена на огромном количестве данных, она уже могла освоить необходимые концепции для задачи. Их методика заключается в извлечении этих существующих знаний и переводе их на понятный людям язык.

Первый шаг — использование специализированной модели глубокого обучения, называемой **разреженным автоэнкодером**, который избирательно берет наиболее релевантные характеристики, усвоенные моделью, и реконструирует их в несколько концепций. Затем мультимодальная языковая модель (LLM) описывает каждую концепцию на простом языке.

Преимущества подхода

**Повышенная точность:** Использование концепций, уже усвоенных моделью, позволяет достичь более высокой точности предсказаний.
**Улучшенная объяснимость:** Ограничение модели в использовании только пяти концепций для каждого предсказания позволяет сделать объяснения более четкими и понятными.

AI model transforming abstract concepts into human-understandable language

Контроль за концепциями и вызовы

Одной из главных проблем при разработке этого метода была необходимость гарантировать, что LLM правильно аннотировала концепции и что разреженный автоэнкодер идентифицировал понятные человеку концепции. Чтобы избежать использования неизвестных или нежелательных концепций, модель ограничивается всего пятью концепциями для каждого предсказания. Это также заставляет модель выбирать наиболее релевантные концепции и делает объяснения более понятными.

Когда исследователи сравнили свой подход с передовыми CBM на задачах, таких как предсказание видов птиц и идентификация кожных поражений на медицинских изображениях, их метод достиг наивысшей точности при предоставлении более точных объяснений.

Будущее объяснимого AI

В будущем исследователи планируют изучить потенциальные решения проблемы утечки информации, возможно, добавив дополнительные модули узкого места, чтобы нежелательные концепции не могли проникнуть. Они также планируют масштабировать свой метод, используя более крупные мультимодальные LLM для аннотирования большего тренировочного набора данных, что может повысить производительность.

Этот подход открывает множество возможностей для дальнейших исследований в области структурированных знаний и символического AI. Он предлагает более точные объяснения, которые более верно отражают процессы модели, и прокладывает мост к использованию символьного AI и графов знаний.

Блог top

Статьи в блоге

Комментарии ⁰

22 Апреля, 2026

Ваш комментарий будет первым