Введение в проблему
Современные технологии стремительно развиваются, и сфера робототехники не является исключением. Одной из ключевых задач, стоящих перед исследователями, является разработка систем, способных эффективно планировать и выполнять сложные визуальные задачи в меняющихся условиях. Команда исследователей из Массачусетского технологического института (MIT) предложила новый гибридный подход, который объединяет возможности моделей искусственного интеллекта для решения этой задачи.

Гибридная система VLMFP
Разработанная система, получившая название VLM-guided formal planning (VLMFP), представляет собой комбинацию двух моделей: специализированной модели визуально-языкового восприятия (VLM) и формального планировщика. Эта система способна обрабатывать визуальные данные и переводить их в язык программирования, используемый для решения планировочных задач.
Как работает система?
Система включает два ключевых компонента:
- SimVLM: Маленькая модель, которая описывает сценарий на изображении и симулирует последовательность действий для достижения цели.
- GenVLM: Большая модель, которая преобразует описания SimVLM в файлы на языке определения планировочных задач (PDDL), готовые для использования в классических планировщиках.
Такая архитектура позволяет системе автоматически генерировать планы с высоким уровнем успеха — около 70%, что значительно выше по сравнению с другими методами.

Преимущества и возможности
Одним из ключевых преимуществ VLMFP является его способность адаптироваться к новым проблемам, с которыми система ранее не сталкивалась. Это делает ее идеальной для использования в реальных условиях, где ситуация может измениться в любой момент. Основные преимущества системы включают:
- Высокая точность генерации планов.
- Способность обрабатывать новые сценарии и адаптироваться к изменениям.
- Возможность использования в различных сферах, таких как роботизированная сборка и автономное вождение.
Примеры применения
В экспериментальных условиях система успешно справлялась с задачами в 2D и 3D средах, включая многороботное сотрудничество и сборку, достигая успеха более чем в 80% случаев.
Будущие перспективы
Исследователи из MIT планируют расширить возможности VLMFP, чтобы она могла справляться с еще более сложными сценариями. Это включает в себя разработку методов для идентификации и минимизации ошибок, возникающих в результате работы моделей VLM.
В долгосрочной перспективе такие генеративные модели ИИ могут стать основой для создания агентов, способных решать сложные задачи, используя подходящие инструменты. Вопрос в том, как интегрировать эти инструменты в существующую систему и обеспечить их эффективное взаимодействие.
Таким образом, работа над визуально-ориентированным планированием является важным шагом к созданию более гибких и интеллектуальных систем, способных решать задачи будущего.