Введение в гибридные AI-системы для планирования
Современные достижения в области искусственного интеллекта и робототехники все чаще требуют от нас умения быстро адаптироваться к изменяющимся условиям. Новая гибридная система, разработанная исследователями MIT, демонстрирует значительный прогресс в решении этих задач. Она способна улучшить навигацию роботов в изменяющихся средах и повысить эффективность командной работы в многоагентных системах.
Как работает новая система
Основой новой системы является использование генеративных моделей искусственного интеллекта для планирования долгосрочных визуальных задач. Система состоит из двух этапов: первый этап включает специализированную модель, которая анализирует изображение и моделирует действия, необходимые для достижения цели. На втором этапе другая модель переводит эти симуляции в стандартный язык программирования для планирования задач и уточняет решение.
В результате система автоматически генерирует набор файлов, которые могут быть загружены в классическое программное обеспечение для планирования, чтобы создать план достижения цели. Этот двухэтапный процесс показал среднюю успешность около 70%, превосходя лучшие существующие методы, которые достигали только 30%.
Комбинация моделей для эффективного планирования
Система, названная VLMFP (формальное планирование с руководством VLM), использует две специализированные модели. Первая, SimVLM, описывает сценарий на изображении и моделирует последовательность действий. Вторая, GenVLM, генерирует набор файлов на языке PDDL (язык определения домена планирования).
Эти файлы затем загружаются в классический решатель PDDL, который вычисляет пошаговый план для решения задачи. GenVLM сравнивает результаты решателя с симулятором и итеративно уточняет файлы PDDL.
Преимущества и потенциал системы
Одним из ключевых преимуществ использования языка PDDL является его способность универсально описывать среду и действия, что делает систему способной к обобщению на новые задачи в рамках одного домена. Это особенно важно для задач, связанных с изменяющимися условиями.
Система VLMFP продемонстрировала успешность в 60% случаев на двухмерных задачах и более чем в 80% случаев на трехмерных задачах, таких как совместная работа нескольких роботов и сборка. Она также смогла генерировать корректные планы для более чем 50% ранее не встречавшихся сценариев.
Будущие направления исследований
Исследователи планируют расширить возможности VLMFP для более сложных сценариев и изучить методы выявления и устранения ошибок в моделях VLM. В долгосрочной перспективе, генеративные AI-модели могут стать агентами, использующими правильные инструменты для решения более сложных проблем.
Эта работа является важным этапом в развитии визуального планирования и открывает новые горизонты в области искусственного интеллекта и робототехники.