Научные сотрудники из MIT предложили революционный подход к планированию долгосрочных визуальных задач, таких как навигация роботов, который оказался вдвое эффективнее некоторых существующих методов. Этот подход может значительно продвинуть вперед индустрию робототехники и автоматизации.
Проблемы планирования в изменяющихся условиях
Современные роботы часто сталкиваются с необходимостью выполнять задачи в условиях, которые могут меняться в любой момент. Это создает вызовы для традиционных систем планирования, требующих адаптивности и быстроты реакции.
Гибридная система VLMFP
Чтобы решить эти проблемы, исследователи создали гибридную систему VLMFP (Vision-Language Model Guided Formal Planning), которая объединяет преимущества моделей зрение-язык (VLM) и формальных планировщиков. Эта система автоматически генерирует файлы, которые могут быть обработаны классическим программным обеспечением для планирования, что позволяет достигать цели с высокой точностью.
- Сначала VLM анализирует изображение и симулирует необходимые действия для достижения цели.
- Затем второй модуль переводит эти симуляции в стандартный язык программирования для планирования задач, улучшая решение.

Результат — автоматическая генерация набора файлов, которые можно использовать в классическом планировщике, достигающем цели с успехом около 70%, что значительно превышает показатели существующих методов.
Преимущества и перспективы
Одним из ключевых преимуществ новой системы является ее способность решать задачи, с которыми она ранее не сталкивалась, что делает ее идеальной для работы в реальных условиях, где изменения происходят мгновенно.
Области применения
Возможности VLMFP особенно полезны в таких областях, как:
- Навигация роботов в изменяющихся условиях
- Многоагентная сборка в промышленности
- Автономное вождение
Эта система также может быть использована для генерации планов в новых, непредвиденных ситуациях, что значительно улучшает гибкость и адаптивность роботов.

Формальные планировщики и VLM
Формальные планировщики, такие как те, что используют язык PDDL (Planning Domain Definition Language), способны генерировать эффективные планы для сложных ситуаций. Однако они требуют экспертного знания для кодирования задачи в понятный для решения язык.
VLMFP использует два специализированных VLM, которые совместно работают для преобразования визуальных задач планирования в файлы, готовые для использования в формальных планировщиках. Это сочетание позволяет системе достигать высоких результатов даже в сложных задачах.
Заключение и будущее развитие
В будущем исследователи планируют расширить возможности VLMFP для работы с более сложными сценариями и улучшить способность моделей распознавать и устранять ошибки. Это открывает новые горизонты в использовании генеративных AI-моделей как агентов, способных решать более сложные задачи.