Новая гибридная система для планирования визуальных задач

Введение в проблему

Современные задачи планирования для роботов становятся все более сложными и разнообразными. Система, разработанная исследователями MIT, предлагает новое решение для этих вызовов, улучшая навигацию в меняющихся условиях или повышая эффективность многоагентных систем.

futuristic robot navigating an obstacle course. Futuristic concept.

Гибридный подход к планированию

Система основана на генеративном искусственном интеллекте, который фиксирует сценарии на изображениях и симулирует необходимые действия для достижения цели. Дальнейшая обработка результатов позволяет получить подробный план действий, который можно применить в реальных условиях.

Двухступенчатая система

Процесс начинается с использования модели, которая воспринимает изображение и симулирует шаги к цели. Затем вторая модель переводит эти симуляции в программный язык, подходящий для планирования. Это позволяет системе генерировать планы с успехом около 70%, что значительно превосходит существующие методы, которые достигают только 30%.

Преимущества и новизна подхода

Система может решать новые задачи, с которыми она ранее не сталкивалась, что делает ее особенно полезной для реальных условий, где ситуация может быстро измениться. Например, в случае аварийной ситуации в автономной навигации, система сможет быстро адаптироваться и предложить новый безопасный маршрут.

Интеграция с формальными решателями

Важной частью системы является использование мощных возможностей формальных решателей, которые обрабатывают стандартные программные языки для планирования. Эти решатели работают с файлами, сгенерированными системой, обеспечивая точность и надежность планов выполнения задач.

futuristic robot navigating an obstacle course

Гибкость и адаптивность

Система VLMFP (Visual Language Model Guided Formal Planning) создает два файла на языке PDDL (Planning Domain Definition Language): файл домена и файл задачи. Это позволяет ей решать задачи в разных контекстах, оставаясь гибкой и адаптивной. Система продемонстрировала успешность в 60% случаев на 2D задачах и более 80% на 3D задачах, таких как совместная работа роботов.

Будущее визуального планирования

Исследователи планируют расширить возможности системы для более сложных задач и изучить методы устранения ошибок в моделях VLM. Это может стать важным шагом на пути к созданию еще более надежных и интеллектуальных систем в будущем.

Таким образом, этот подход открывает новые горизонты для робототехники и других областей, где требуется высокоточное планирование в изменяющихся условиях.

Блог top

1
ИИ на смарт-часах: как MIT ускорил приватное обучение нейросетей на 81% 3 Мая, 2026 75
2
Как концептуальные модели могут улучшить объяснимость ИИ в критических приложениях 24 Апреля, 2026 58
3
Как создать «скромный» ИИ для медицины: инновации MIT 28 Апреля, 2026 57
4
Как ИИ может предсказать ухудшение состояния пациентов с сердечной недостаточностью 25 Апреля, 2026 52
5
Искусственный интеллект в прогнозировании сердечной недостаточности: новый подход MIT 24 Апреля, 2026 50
6
Революция Edge AI: Как MIT научили умные часы и старые смартфоны обучать нейросети без потери приватности 3 Мая, 2026 49
7
Как новый гибридный подход к планированию улучшает выполнение сложных визуальных задач 24 Апреля, 2026 48
8
Как новые методы улучшают способность ИИ объяснять свои предсказания 25 Апреля, 2026 45

Статьи в блоге

Комментарии ⁰

18 Апреля, 2026

Ваш комментарий будет первым