MIT улучшает планирование задач для роботов

Учёные из MIT представили новую гибридную систему, которая может значительно повысить эффективность роботов при решении сложных визуальных задач. Это открытие важно для индустрии, так как позволит роботам лучше ориентироваться в изменяющихся условиях и работать в составе команд.

Как работает новая система

Система основана на использовании генеративных моделей искусственного интеллекта, которые помогают планировать долгосрочные задачи. Она состоит из двух основных этапов: сначала специальная модель анализирует изображение и симулирует действия, необходимые для достижения цели, а затем вторая модель преобразует эти симуляции в программный код для планировщика задач.

Эта двухступенчатая система автоматически создаёт файлы, которые можно загрузить в классическое программное обеспечение для планирования. В результате, система генерирует планы с успехом около 70%, что значительно выше, чем у существующих методов.

Преимущества гибридного подхода

Одним из главных преимуществ является способность системы решать новые задачи, с которыми она ранее не сталкивалась. Это делает её идеальной для использования в реальных условиях, где обстановка может быстро меняться.

По словам одного из авторов исследования, Yilun Hao, их метод сочетает преимущества моделей, способных понимать изображения, с мощными возможностями формального планировщика. Это позволяет создавать надёжные планы, которые могут быть полезны в различных областях, таких как робототехника и автопилотирование.

Разработка гибкой системы

Система, получившая название VLM-guided formal planning (VLMFP), использует две специализированные модели, которые совместно преобразуют визуальные задачи в файлы для формального планирования. Исследователи тщательно обучили модель SimVLM для описания сценариев на изображениях и симуляции действий, в то время как модель GenVLM создаёт файлы на языке PDDL, используемом в планировании.

Эти файлы затем обрабатываются классическим решателем PDDL, который вычисляет пошаговый план для выполнения задачи. Благодаря этому подходу, система показала успех в 60% случаев на 2D задачах и более чем 80% на 3D задачах, включая многороботное взаимодействие и сборку.

Будущее визуального планирования

Исследователи планируют расширить возможности системы для работы с более сложными сценариями и искать способы минимизации ошибок модели. В долгосрочной перспективе, такие модели ИИ могут стать важными инструментами для решения сложных проблем в различных областях.

Работа была частично поддержана лабораторией MIT-IBM Watson AI Lab.

Новая система ИИ улучшает планирование визуальных задач для роботов

Как работает новая система

Преимущества гибридного подхода

Разработка гибкой системы

Будущее визуального планирования

Новости new