Новая гибридная система для планирования визуальных задач

Современные технологии позволяют роботам выполнять сложные задачи, но что если условия постоянно меняются? Исследователи из MIT разработали новую гибридную систему, которая может значительно улучшить планирование таких задач, например, навигацию роботов в изменяющихся средах и повышение эффективности многороботных сборочных команд.

Преодоление ограничений существующих методов

Современные методы планирования имеют свои ограничения. Многие из них не могут эффективно справляться с непредсказуемыми изменениями в окружающей среде. **Новая система**, разработанная в MIT, сочетает преимущества визуально-языковых моделей (VLM) с мощными возможностями формального планировщика. Она позволяет не только воспринимать изображение, но и симулировать действия, необходимые для достижения цели.

Как работает система?

Система состоит из двух основных компонентов. Первый компонент использует VLM для анализа изображения и генерации возможных сценариев действий. Второй компонент преобразует эти сценарии в стандартный язык программирования для задач планирования и улучшает решение. В конечном итоге система автоматически генерирует файлы, которые можно загружать в классическое программное обеспечение для планирования, чтобы получить итоговый план.

futuristic robots collaborating in a 3D space

Преимущества гибридного подхода

Одним из основных преимуществ данной системы является её способность решать новые проблемы, с которыми она ранее не сталкивалась, что делает её весьма подходящей для реальных сред, где условия могут изменяться в одно мгновение. Исследователи из MIT отметили, что их система достигла среднего успеха в 70% случаев, значительно превосходя существующие методы, которые достигали только около 30%.

Гибкость и универсальность

Особенностью системы является её гибкость. Она может генерировать планы для новых, ранее не виденных задач. Это достигается благодаря использованию двух отдельных файлов PDDL: **файл домена**, определяющий среду и допустимые действия, и **файл задачи**, в котором описываются начальные состояния и цель конкретной проблемы.

Применение и перспективы

Система VLMFP доказала свою эффективность в различных задачах, включая многороботное сотрудничество и роботизированную сборку. Она генерировала валидные планы более чем в 50% случаев, когда сталкивалась с новыми сценариями, что значительно превосходит базовые методы.

Исследователи планируют расширить возможности системы, чтобы она могла справляться с более сложными сценариями, а также изучить способы выявления и снижения ошибок в работе VLM.

Заключение

Работа MIT в области визуально-языкового планирования открывает новые горизонты для применения искусственного интеллекта в реальных условиях. В долгосрочной перспективе такие модели могут стать важными агентами, способными решать еще более сложные задачи, интегрируя множество инструментов и методов. Это значительный шаг вперед в области робототехники и искусственного интеллекта.

Блог top

1
ИИ на смарт-часах: как MIT ускорил приватное обучение нейросетей на 81% 3 Мая, 2026 75
2
Как концептуальные модели могут улучшить объяснимость ИИ в критических приложениях 24 Апреля, 2026 58
3
Как создать «скромный» ИИ для медицины: инновации MIT 28 Апреля, 2026 57
4
Как ИИ может предсказать ухудшение состояния пациентов с сердечной недостаточностью 25 Апреля, 2026 52
5
Искусственный интеллект в прогнозировании сердечной недостаточности: новый подход MIT 24 Апреля, 2026 50
6
Революция Edge AI: Как MIT научили умные часы и старые смартфоны обучать нейросети без потери приватности 3 Мая, 2026 49
7
Как новый гибридный подход к планированию улучшает выполнение сложных визуальных задач 24 Апреля, 2026 48
8
Как новые методы улучшают способность ИИ объяснять свои предсказания 25 Апреля, 2026 45

Статьи в блоге

Комментарии ⁰

19 Апреля, 2026

Ваш комментарий будет первым