Новая система ИИ улучшает планирование для роботов

Ученые из MIT разработали новую систему на основе генеративного искусственного интеллекта, которая значительно улучшает планирование долгосрочных визуальных задач. Эта технология может быть полезна для работы роботов в изменяющихся условиях или для повышения эффективности многороботных сборочных команд.

Как работает новая система?

Система использует специализированную модель "зрение-язык", чтобы анализировать изображение и моделировать действия, необходимые для достижения цели. Затем другая модель переводит эти симуляции в стандартный язык программирования для планирования, улучшая решение.

В конечном итоге система автоматически создает набор файлов, которые можно загрузить в классическое программное обеспечение для планирования, чтобы разработать план для достижения цели. Этот двухэтапный процесс позволяет достигать успеха в среднем в 70% случаев, что значительно лучше по сравнению с существующими методами.

Применение в реальных условиях

Особенностью новой системы является способность решать задачи, с которыми она ранее не сталкивалась, что делает ее идеальной для реальных сценариев, где условия могут резко меняться.

"Мы объединили преимущества моделей "зрение-язык", такие как понимание изображений, с сильными планировочными возможностями формальных решений", — объясняет Илюнь Хао, аспирант MIT, ведущий автор статьи об этой технике.

Преимущества гибридного подхода

Система VLMFP (Visual Language Model-guided Formal Planning) использует два специализированных VLM, которые работают совместно, чтобы преобразовать визуальные задачи в готовые файлы для формального планирования. Исследователи тренировали малую модель SimVLM для описания сценариев и симуляции действий, а большая модель GenVLM использует эти описания для создания файлов на языке PDDL.

Эти файлы затем передаются в классический решатель PDDL, который вырабатывает пошаговый план для решения задачи. GenVLM сравнивает результаты решателя и симулятора, улучшая файлы PDDL.

Гибкость и потенциал для будущего

Система VLMFP генерирует два отдельных файла PDDL: файл домена и файл задачи. Эта структура позволяет системе адаптироваться к новым ситуациям, обеспечивая гибкость для решения разнообразных задач.

В будущем исследователи планируют расширить возможности системы для работы с более сложными сценариями и изучить методы снижения ошибок моделей VLM.

Эта работа финансировалась, в том числе, MIT-IBM Watson AI Lab и представляет собой важный шаг в направлении интеграции визуального планирования в ИИ-системы.

Новая гибридная система улучшает планирование для сложных визуальных задач

Как работает новая система?

Применение в реальных условиях

Преимущества гибридного подхода

Гибкость и потенциал для будущего

Новости new