Введение в проблему планирования
Сегодня, когда роботы становятся неотъемлемой частью нашей повседневной жизни, вопрос их способности адаптироваться к меняющимся условиям окружающей среды становится все более актуальным. Как обеспечить их способность не только распознавать визуальные объекты, но и планировать действия в сложных сценариях? Исследователи из MIT предложили новый подход, который объединяет возможности генеративных моделей искусственного интеллекта и формальных планировщиков.
Суть нового подхода
Разработанная система, известная как VLM-guided formal planning (VLMFP), использует два специализированных визуально-языковых модуля (VLM), которые превращают задачи визуального планирования в готовые файлы для формального планировщика. Этот метод позволяет генерировать планы с высокой точностью, достигая успеха в 70% случаев, что значительно превосходит существующие методы, достигающие лишь 30%.
Как это работает?
Система состоит из двух этапов. Первый модуль, SimVLM, описывает сценарий на изображении и симулирует последовательность действий. Второй модуль, GenVLM, преобразует это описание в набор файлов на языке планирования PDDL. Эти файлы затем обрабатываются классическим PDDL-солвером, который вычисляет пошаговый план для достижения цели.
Преимущества гибридного подхода
Главное преимущество VLMFP заключается в его универсальности и способности адаптироваться к новым, ранее не встречавшимся задачам. Это делает систему идеальным решением для динамичных сред, где условия могут измениться в любой момент.
Применение в реальном мире
Система показала высокую эффективность на шести 2D задачах планирования и двух 3D задачах, таких как совместная работа мультиботов и роботизированная сборка. Это открывает новые перспективы для использования в промышленности и автономных системах управления.
Будущее визуального планирования
Исследователи планируют развивать возможности VLMFP для более сложных сценариев и изучать методы предотвращения ошибок и "галлюцинаций" визуально-языковых моделей. Это исследование является важным шагом на пути к созданию более продвинутых систем, способных решать сложные задачи в реальном времени.
Таким образом, генеративные модели ИИ становятся важной частью инструментов будущего, способных решать более сложные задачи. Вопрос только в том, как и когда эти инструменты будут интегрированы в повседневную жизнь.