Введение в проблему визуального планирования
В современном мире, где технологии постоянно развиваются, умение роботов адаптироваться к изменяющимся условиям становится критически важным. Одной из ключевых проблем является планирование визуальных задач, таких как навигация роботов в динамической среде. Исследователи из MIT разработали инновационный подход, который значительно превосходит существующие методы.
Что такое гибридная система VLMFP?
Новая система, получившая название VLM-guided formal planning (VLMFP), сочетает в себе преимущества моделей, работающих с изображениями и текстами (VLM), с мощными возможностями формального планировщика. Это позволяет системе автоматически генерировать планы для долгосрочных и сложных задач.

Как работает система?
Система использует два специализированных VLM, которые совместно преобразуют визуальные задачи планирования в готовые файлы для формального программного обеспечения планирования. Первый шаг включает в себя SimVLM, который описывает сценарий на изображении и симулирует последовательность действий. Затем GenVLM использует это описание для генерации начальных файлов на языке PDDL, который используется для планирования задач.
Преимущества гибридного подхода
Основное преимущество VLMFP заключается в его гибкости и способности адаптироваться к новым условиям. Это особенно важно в реальных сценариях, где условия могут меняться мгновенно. В тестах система показала успех в 70% случаев, что более чем в два раза превышает показатели лучших существующих методов.
Применение в реальном мире
Система VLMFP может быть особенно полезна в таких областях, как многороботная сборка и автономное вождение, где требуется быстрая адаптация к изменяющимся условиям. Она также может решать новые задачи, с которыми не сталкивалась ранее, что делает её идеальной для использования в динамичных средах.

Перспективы и дальнейшие исследования
Исследователи планируют расширить возможности системы, чтобы она могла справляться с еще более сложными сценариями. Это включает в себя разработку методов для выявления и предотвращения ошибок, которые могут возникнуть в результате работы VLM. В долгосрочной перспективе такие системы могут стать основой для создания агентов, способных самостоятельно решать сложные проблемы, используя правильные инструменты.
Работа по созданию VLMFP поддерживается MIT-IBM Watson AI Lab и является важным шагом на пути к использованию генеративных моделей ИИ в реальном мире.