Учёные из MIT представили новую гибридную систему, которая может значительно повысить эффективность роботов при решении сложных визуальных задач. Это открытие важно для индустрии, так как позволит роботам лучше ориентироваться в изменяющихся условиях и работать в составе команд.
Как работает новая система
Система основана на использовании генеративных моделей искусственного интеллекта, которые помогают планировать долгосрочные задачи. Она состоит из двух основных этапов: сначала специальная модель анализирует изображение и симулирует действия, необходимые для достижения цели, а затем вторая модель преобразует эти симуляции в программный код для планировщика задач.
Эта двухступенчатая система автоматически создаёт файлы, которые можно загрузить в классическое программное обеспечение для планирования. В результате, система генерирует планы с успехом около 70%, что значительно выше, чем у существующих методов.
Преимущества гибридного подхода
Одним из главных преимуществ является способность системы решать новые задачи, с которыми она ранее не сталкивалась. Это делает её идеальной для использования в реальных условиях, где обстановка может быстро меняться.
По словам одного из авторов исследования, Yilun Hao, их метод сочетает преимущества моделей, способных понимать изображения, с мощными возможностями формального планировщика. Это позволяет создавать надёжные планы, которые могут быть полезны в различных областях, таких как робототехника и автопилотирование.
Разработка гибкой системы
Система, получившая название VLM-guided formal planning (VLMFP), использует две специализированные модели, которые совместно преобразуют визуальные задачи в файлы для формального планирования. Исследователи тщательно обучили модель SimVLM для описания сценариев на изображениях и симуляции действий, в то время как модель GenVLM создаёт файлы на языке PDDL, используемом в планировании.
Эти файлы затем обрабатываются классическим решателем PDDL, который вычисляет пошаговый план для выполнения задачи. Благодаря этому подходу, система показала успех в 60% случаев на 2D задачах и более чем 80% на 3D задачах, включая многороботное взаимодействие и сборку.
Будущее визуального планирования
Исследователи планируют расширить возможности системы для работы с более сложными сценариями и искать способы минимизации ошибок модели. В долгосрочной перспективе, такие модели ИИ могут стать важными инструментами для решения сложных проблем в различных областях.
Работа была частично поддержана лабораторией MIT-IBM Watson AI Lab.
