Введение в проблему
Современная робототехника сталкивается с множеством вызовов, особенно когда дело касается планирования долгосрочных и сложных задач. **Автономные системы**, такие как роботы, часто работают в условиях, где окружающая среда может быстро изменяться. Это требует от них способности не только быстро адаптироваться, но и эффективно планировать свои действия.

Новая гибридная система от MIT
Исследователи из MIT разработали **гибридный подход**, который сочетает в себе возможности визуально-языковых моделей (VLM) и формальных планировщиков. Этот метод, названный VLM-guided formal planning (VLMFP), позволяет автоматизировать планирование задач, значительно превосходя существующие методы по эффективности.
Как это работает?
Система включает в себя два ключевых компонента:
- SimVLM — это небольшая модель, которая описывает ситуацию на изображении на естественном языке и симулирует последовательность действий.
- GenVLM — более крупная модель, которая использует описание от SimVLM для генерации файлов на языке PDDL (Planning Domain Definition Language).
Эти файлы затем передаются в классическое программное обеспечение для планирования, которое вычисляет шаги для достижения цели. Такой подход позволяет генерировать планы с успехом около 70%, что в два раза превышает показатели некоторых существующих методов.

Применение в реальных условиях
Одним из ключевых аспектов новой системы является ее **гибкость и адаптивность**. Она способна решать новые задачи, с которыми ранее не сталкивалась, что делает ее идеальной для использования в реальных условиях, где ситуация может изменяться мгновенно.
Примеры использования
Система VLMFP была протестирована на шести задачах планирования в двумерных и трехмерных пространствах, включая **многороботное сотрудничество** и **роботизированную сборку**. Она успешно справилась с более чем 80% задач в трехмерных пространствах и показала значительное превосходство над базовыми методами.
Перспективы развития
Будущее за системами, способными к **обобщению и адаптации**. Исследователи планируют расширить возможности VLMFP, чтобы она могла справляться с еще более сложными сценариями и минимизировать ошибочные интерпретации от VLM.
**Долгосрочные перспективы** включают использование генеративных моделей ИИ в качестве агентов, способных решать сложные проблемы с помощью нужных инструментов. Это требует интеграции визуальных данных в процесс планирования, что и стало ключевым достижением данной работы.