Исследователи из MIT представили инновационный подход к планированию визуальных задач с использованием генеративного искусственного интеллекта. Эта система может значительно повысить эффективность навигации роботов и работы многороботных команд в изменяющихся условиях.
Как работает новая система
Система использует два специализированных визуально-языковых модели, чтобы воспринимать сцену на изображении и симулировать необходимые действия для достижения цели. Далее вторая модель переводит эти симуляции в стандартный язык программирования для планирования задач и уточняет решение.
В конечном итоге система автоматически генерирует набор файлов, которые можно загрузить в классическое программное обеспечение для планирования, чтобы разработать план достижения цели. Этот двухэтапный подход достиг среднего уровня успеха около 70%, что значительно выше по сравнению с базовыми методами, достигающими лишь 30%.
Преимущества и гибкость технологии
Главное преимущество системы в том, что она может решать новые задачи, с которыми ранее не сталкивалась, что делает её подходящей для реальных сред, где условия могут быстро меняться. По словам Илун Хао, аспиранта кафедры аэронавтики и астронавтики MIT, их метод объединяет преимущества визуально-языковых моделей и сильные планировочные возможности формального решателя.
Система VLMFP, разработанная командой, использует две модели VLM, которые работают вместе, чтобы превратить визуальные задачи в готовые к использованию файлы для формального программного обеспечения планирования. Это позволяет системе генерировать планы с высоким уровнем точности даже для новых и непредвиденных сценариев.
Будущие перспективы
Исследователи планируют развивать систему для работы с более сложными сценариями и исследовать методы для снижения ошибок, которые могут возникать в моделях VLM. Это исследование, поддержанное MIT-IBM Watson AI Lab, является важным шагом на пути к более сложному визуальному планированию в реальных приложениях.
