Новая методика объяснения моделей AI

В условиях, где ставка на точность и безопасность высока, таких как медицинская диагностика или автономное вождение, очень важно знать, почему модель искусственного интеллекта приняла то или иное решение. Исследователи из MIT предложили новый подход, который помогает моделям объяснять свои прогнозы с использованием понятных человеку концепций.

Проблема доверия к моделям AI

В критически важных областях пользователи часто хотят понимать, что именно спровоцировало компьютерную модель к определенному прогнозу. Это необходимо для того, чтобы понять, стоит ли доверять этим результатам. Одним из подходов к решению этой проблемы является использование моделей узких мест концепций (Concept Bottleneck Models, CBMs), которые объясняют процесс принятия решений системой искусственного интеллекта.

Как работают модели узких мест концепций?

CBMs добавляют промежуточный этап, заставляя модель сначала предсказать концепции, присутствующие на изображении, а затем использовать эти концепции для окончательного прогноза. Например, модель, идентифицирующая виды птиц, может сначала выявить такие концепции, как "желтые ноги" и "синие крылья", прежде чем сделать окончательный вывод о том, что перед ней деревенская ласточка.

Futuristic AI explaining its reasoning in a car dashboard

Новый подход MIT к улучшению CBMs

Исследователи MIT предложили инновационный метод, который улучшает точность и объяснимость моделей. Вместо использования заранее заданных человеком концепций, их метод извлекает концепции, которые модель уже выучила во время своего обучения, и преобразует их в понятный человеку текст.

Техника извлечения концепций

Метод состоит из двух основных этапов. Сначала применяется разреженный автоэнкодер, который избирательно выбирает наиболее релевантные признаки, выученные моделью, и реконструирует их в виде нескольких концепций. Затем мультимодальная языковая модель (LLM) описывает каждую концепцию на понятном языке.

Эта LLM также аннотирует изображения в наборе данных, идентифицируя, какие концепции присутствуют или отсутствуют на каждом изображении. Исследователи используют этот аннотированный набор данных для обучения модуля узкого места концепций, который распознает эти концепции.

Перспективы и вызовы

Исследователи MIT успешно проверили свою методику на задачах, таких как предсказание видов птиц и идентификация кожных поражений в медицинских изображениях. Их метод достиг высокой точности, обеспечивая более точные объяснения. Однако, несмотря на все успехи, остается баланс между интерпретируемостью и точностью, который требует внимания.

В будущем исследователи планируют изучить возможные решения проблемы утечки информации и масштабировать свой метод, используя более крупные мультимодальные LLM для аннотации больших наборов данных, что может повысить производительность.

Профессор Андреас Хото, возглавляющий кафедру науки о данных в Университете Вюрцбурга, отмечает, что эта работа создает естественный мост к символическому ИИ и графам знаний, открывая множество возможностей для дальнейших исследований.

Блог top

Статьи в блоге

Комментарии ⁰

22 Апреля, 2026

Ваш комментарий будет первым