Ученые из MIT разработали новую систему на основе генеративного искусственного интеллекта, которая значительно улучшает планирование долгосрочных визуальных задач. Эта технология может быть полезна для работы роботов в изменяющихся условиях или для повышения эффективности многороботных сборочных команд.
Как работает новая система?
Система использует специализированную модель "зрение-язык", чтобы анализировать изображение и моделировать действия, необходимые для достижения цели. Затем другая модель переводит эти симуляции в стандартный язык программирования для планирования, улучшая решение.
В конечном итоге система автоматически создает набор файлов, которые можно загрузить в классическое программное обеспечение для планирования, чтобы разработать план для достижения цели. Этот двухэтапный процесс позволяет достигать успеха в среднем в 70% случаев, что значительно лучше по сравнению с существующими методами.
Применение в реальных условиях
Особенностью новой системы является способность решать задачи, с которыми она ранее не сталкивалась, что делает ее идеальной для реальных сценариев, где условия могут резко меняться.
"Мы объединили преимущества моделей "зрение-язык", такие как понимание изображений, с сильными планировочными возможностями формальных решений", — объясняет Илюнь Хао, аспирант MIT, ведущий автор статьи об этой технике.
Преимущества гибридного подхода
Система VLMFP (Visual Language Model-guided Formal Planning) использует два специализированных VLM, которые работают совместно, чтобы преобразовать визуальные задачи в готовые файлы для формального планирования. Исследователи тренировали малую модель SimVLM для описания сценариев и симуляции действий, а большая модель GenVLM использует эти описания для создания файлов на языке PDDL.
Эти файлы затем передаются в классический решатель PDDL, который вырабатывает пошаговый план для решения задачи. GenVLM сравнивает результаты решателя и симулятора, улучшая файлы PDDL.
Гибкость и потенциал для будущего
Система VLMFP генерирует два отдельных файла PDDL: файл домена и файл задачи. Эта структура позволяет системе адаптироваться к новым ситуациям, обеспечивая гибкость для решения разнообразных задач.
В будущем исследователи планируют расширить возможности системы для работы с более сложными сценариями и изучить методы снижения ошибок моделей VLM.
Эта работа финансировалась, в том числе, MIT-IBM Watson AI Lab и представляет собой важный шаг в направлении интеграции визуального планирования в ИИ-системы.
