Новая гибридная система AI для планирования сложных визуальных задач

Научные сотрудники из MIT предложили революционный подход к планированию долгосрочных визуальных задач, таких как навигация роботов, который оказался вдвое эффективнее некоторых существующих методов. Этот подход может значительно продвинуть вперед индустрию робототехники и автоматизации.

Проблемы планирования в изменяющихся условиях

Современные роботы часто сталкиваются с необходимостью выполнять задачи в условиях, которые могут меняться в любой момент. Это создает вызовы для традиционных систем планирования, требующих адаптивности и быстроты реакции.

Гибридная система VLMFP

Чтобы решить эти проблемы, исследователи создали гибридную систему VLMFP (Vision-Language Model Guided Formal Planning), которая объединяет преимущества моделей зрение-язык (VLM) и формальных планировщиков. Эта система автоматически генерирует файлы, которые могут быть обработаны классическим программным обеспечением для планирования, что позволяет достигать цели с высокой точностью.

Сначала VLM анализирует изображение и симулирует необходимые действия для достижения цели.
Затем второй модуль переводит эти симуляции в стандартный язык программирования для планирования задач, улучшая решение.

Futuristic robots collaborating in an assembly task

Результат — автоматическая генерация набора файлов, которые можно использовать в классическом планировщике, достигающем цели с успехом около 70%, что значительно превышает показатели существующих методов.

Преимущества и перспективы

Одним из ключевых преимуществ новой системы является ее способность решать задачи, с которыми она ранее не сталкивалась, что делает ее идеальной для работы в реальных условиях, где изменения происходят мгновенно.

Области применения

Возможности VLMFP особенно полезны в таких областях, как:

Навигация роботов в изменяющихся условиях
Многоагентная сборка в промышленности
Автономное вождение

Эта система также может быть использована для генерации планов в новых, непредвиденных ситуациях, что значительно улучшает гибкость и адаптивность роботов.

Формальные планировщики и VLM

Формальные планировщики, такие как те, что используют язык PDDL (Planning Domain Definition Language), способны генерировать эффективные планы для сложных ситуаций. Однако они требуют экспертного знания для кодирования задачи в понятный для решения язык.

VLMFP использует два специализированных VLM, которые совместно работают для преобразования визуальных задач планирования в файлы, готовые для использования в формальных планировщиках. Это сочетание позволяет системе достигать высоких результатов даже в сложных задачах.

Заключение и будущее развитие

В будущем исследователи планируют расширить возможности VLMFP для работы с более сложными сценариями и улучшить способность моделей распознавать и устранять ошибки. Это открывает новые горизонты в использовании генеративных AI-моделей как агентов, способных решать более сложные задачи.

Блог top

1
ИИ на смарт-часах: как MIT ускорил приватное обучение нейросетей на 81% 3 Мая, 2026 75
2
Как концептуальные модели могут улучшить объяснимость ИИ в критических приложениях 24 Апреля, 2026 58
3
Как создать «скромный» ИИ для медицины: инновации MIT 28 Апреля, 2026 57
4
Как ИИ может предсказать ухудшение состояния пациентов с сердечной недостаточностью 25 Апреля, 2026 52
5
Искусственный интеллект в прогнозировании сердечной недостаточности: новый подход MIT 24 Апреля, 2026 50
6
Революция Edge AI: Как MIT научили умные часы и старые смартфоны обучать нейросети без потери приватности 3 Мая, 2026 49
7
Как новый гибридный подход к планированию улучшает выполнение сложных визуальных задач 24 Апреля, 2026 48
8
Как новые методы улучшают способность ИИ объяснять свои предсказания 25 Апреля, 2026 45

Статьи в блоге

Комментарии ⁰

22 Апреля, 2026

Ваш комментарий будет первым