Учёные из MIT представили новую систему, которая значительно улучшает планирование долгосрочных задач в визуальной среде. Этот подход может помочь роботам лучше ориентироваться в изменяющихся условиях и повысить эффективность командной работы множества роботов.
Как работает новая система
Система использует гибридный подход, совмещая видение и язык для восприятия изображения и моделирования действий, необходимых для достижения цели. Затем эти данные преобразуются в стандартный язык программирования для планирования, а результаты уточняются.
В итоге система автоматически создаёт набор файлов для классического программного обеспечения, которое рассчитывает план достижения цели. Этот двухэтапный процесс показал вдвое большую эффективность по сравнению с некоторыми существующими методами.
Значение для индустрии
Важно, что новая система способна решать новые задачи, с которыми она ранее не сталкивалась, что делает её подходящей для реальных сред, где условия могут быстро изменяться. Это открывает новые перспективы для использования роботов в различных сферах, таких как автономное вождение и сборка.
Преимущества гибридного подхода
Исследователи разработали автоматическую систему планирования, которая объединяет преимущества моделей видения-языка и сильные стороны формальных планировщиков. Они создали модель VLM-guided formal planning (VLMFP), которая преобразует визуальные задачи в готовые к использованию файлы для программ обеспечения планирования.
Система показала высокие результаты, успешно справляясь с разными задачами и генерируя планы, которые ранее не были видны. Это делает её особенно гибкой и способной адаптироваться к изменяющимся условиям.
Будущее визуального планирования
Исследователи планируют продолжить развитие системы, чтобы справляться с более сложными сценариями и уменьшить количество ошибок, связанных с неправильными представлениями моделей. В долгосрочной перспективе такие генеративные модели ИИ могут стать ключевыми инструментами для решения более сложных проблем.
Данная работа поддержана MIT-IBM Watson AI Lab и является важным шагом в развитии технологий планирования визуальных задач.
