Исследователи из MIT разработали гибридную систему, способную значительно улучшить планирование долгосрочных визуальных задач, таких как навигация роботов. Новый подход оказался примерно вдвое эффективнее некоторых существующих методов.
Как работает новая система
Система использует специализированную модель зрения-языка, чтобы анализировать изображение, моделировать необходимые действия и преобразовывать их в стандартный язык программирования для решения задач планирования. Этот процесс позволяет автоматически генерировать файлы, которые можно использовать в классическом программном обеспечении для планирования.
В результате получается план с успехом около 70%, что значительно превышает показатели существующих методов, которые показывают лишь 30% успеха.
Адаптация к новизне
Одним из ключевых достоинств системы является ее способность решать новые задачи, с которыми она ранее не сталкивалась. Это делает систему особенно полезной в реальных условиях, где обстановка может быстро меняться.
«Наша структура объединяет преимущества моделей зрения-языка, таких как способность понимать изображения, с мощными возможностями формального решателя», — отмечает Илюнь Хао, студентка MIT и ведущий автор работы.
Применение в реальных задачах
Команда исследователей обучила небольшую модель SimVLM описывать сценарии на изображениях и моделировать последовательности действий. Затем более крупная модель GenVLM использует эти описания для создания файлов на языке PDDL (Язык Определения Планирования).
Эти файлы загружаются в классический PDDL-решатель, который создает пошаговый план для выполнения задачи. Такой подход позволяет системе справляться с различными визуальными задачами, включая сотрудничество нескольких роботов и сборочные операции.
Гибкость и перспективы развития
Система VLMFP успешно справилась с 60% из шести 2D задач и более чем с 80% двух 3D задач. Она также показала хорошие результаты в ситуациях, с которыми ранее не сталкивалась.
В будущем исследователи планируют расширить возможности VLMFP для работы с более сложными сценариями и разработать методы для выявления и устранения ошибок в моделях зрения-языка.
Эта работа финансировалась, в том числе, лабораторией MIT-IBM Watson AI Lab.
