Как улучшить объясняемость прогнозов AI в критически важных приложениях

С развитием искусственного интеллекта (AI) вопросы объясняемости его решений становятся все более актуальными, особенно в областях, где цена ошибки может быть чрезвычайно высокой. Это касается таких сфер, как здравоохранение и автономное вождение. В этих случаях пользователи хотят понимать, почему модель приняла то или иное решение, чтобы оценить, можно ли ей доверять.

Что такое концептуальное узкое место?

Концептуальное узкое место (Concept Bottleneck Models, CBM) — это метод, который позволяет AI-системам объяснять свои решения через использование понятных человеку концепций. Модель должна сначала определить присутствие таких концепций, а затем на их основе сделать окончательный прогноз.

Представьте, что вы заказываете пиццу и вам нужно объяснить это действие на примере. Вы могли бы упомянуть такие концепции, как "голод", "желание пиццы" и "наличие телефона". Аналогично, модель, определяющая вид птицы, может использовать концепции "желтые ноги" и "синие крылья" перед тем, как сделать окончательный вывод о том, что это ласточка.

Проблемы предопределенных концепций

Однако, заранее определенные концепции могут быть не всегда релевантны или недостаточно детализированы для конкретной задачи, что снижает точность модели. Это также может привести к утечке информации, когда модель использует неизвестные или нежелательные концепции.

AI explaining its predictions to a human, futuristic concept

Новый подход к улучшению объясняемости

Исследователи из MIT предложили метод, который извлекает уже усвоенные моделью концепции и преобразует их в текст, понятный человеку. Они разработали пару специализированных моделей машинного обучения. Первая модель, называемая разреженным автокодировщиком, выбирает наиболее релевантные признаки, которые модель выучила, и преобразует их в ограниченное количество концепций.

Затем мультимодальная языковая модель (LLM) описывает каждую концепцию на естественном языке и аннотирует данные, отмечая, какие концепции присутствуют в каждом изображении. Это позволяет создать концептуальный модуль, который интегрируется в целевую модель, принуждая ее использовать только извлеченные концепции для принятия решений.

Контроль концепций

Для предотвращения использования неизвестных концепций, модель ограничивается использованием только пяти концепций для каждого предсказания. Это не только повышает точность, но и делает объяснения более понятными для человека.

AI explaining its predictions to a human

На практике подход MIT показал более высокую точность и создание более релевантных концепций по сравнению с существующими моделями CBM. Это открывает перспективы для дальнейших исследований в области объясняемости AI и потенциально может улучшить взаимодействие человека с машиной в критически важных приложениях.

Взгляд в будущее

Несмотря на успехи, исследователи признают существование компромисса между интерпретируемостью и точностью. Они планируют изучить способы решения проблемы утечки информации и увеличить масштабирование своей методики, что может повысить производительность.

Эти инициативы могут привести к созданию AI, который будет более надежным и объяснимым, что особенно важно в контексте его использования в высокорисковых областях. В конечном счете, это могло бы стать естественным мостом к символическому AI и графам знаний, открывая новые возможности для использования структурированных знаний.

Блог top

Статьи в блоге

Комментарии ⁰

17 Апреля, 2026

Ваш комментарий будет первым