Новый подход к планированию сложных визуальных задач с помощью ИИ

Современные технологии искусственного интеллекта продолжают продвигаться вперед, открывая новые горизонты для робототехники и автоматизации. Исследователи из MIT разработали систему, которая значительно улучшает планирование сложных визуальных задач, таких как навигация роботов в изменяющихся условиях.

Как работает новая система?

Основой новой системы является гибридный подход, который сочетает в себе возможности моделей "зрение-язык" (VLM) и традиционных методов планирования. Это позволяет системе не только понимать визуальные данные, но и генерировать надежные планы для достижения поставленных целей.

Futuristic concept of AI planning in dynamic environments

Двухэтапный процесс

Процесс планирования включает два ключевых этапа:

Сначала специализированная модель, называемая SimVLM, анализирует изображение и симулирует последовательность действий для достижения цели.
Затем, более крупная модель GenVLM перерабатывает эту симуляцию в формат, понятный формальному языку планирования, известному как Planning Domain Definition Language (PDDL).

После этого классическое программное обеспечение для планирования использует полученные файлы для генерации детального плана действий.

Преимущества и перспективы

Одним из ключевых преимуществ системы является её способность решать новые задачи, с которыми она не сталкивалась ранее. Это делает её особенно полезной в реальных условиях, где обстановка может меняться в любой момент.

Система продемонстрировала успех в 70% случаев, что значительно выше по сравнению с существующими методами, которые показывают лишь около 30% успешных решений.

Гибкость и адаптивность

Особенностью подхода, основанного на PDDL, является его способность к обобщению: файл среды остаётся неизменным для всех случаев в этой среде, что позволяет системе эффективно работать в новых, ранее неизвестных условиях.

Исследователи тщательно подбирали данные для обучения SimVLM, чтобы модель могла правильно описывать ситуацию и достигать целей, не заучивая шаблоны.

Перспективы развития

В будущем планируется расширение возможностей системы для работы с более сложными сценариями и изучение методов снижения ошибок, связанных с "галлюцинациями" моделей VLM.

Эта работа представляет собой важный шаг к созданию ИИ-агентов, способных решать сложные задачи, используя соответствующие инструменты. Вопрос о том, как правильно выбирать и внедрять эти инструменты, остаётся открытым, но данная разработка — важная часть этого пазла.

Блог top

1
ИИ на смарт-часах: как MIT ускорил приватное обучение нейросетей на 81% 3 Мая, 2026 75
2
Как концептуальные модели могут улучшить объяснимость ИИ в критических приложениях 24 Апреля, 2026 58
3
Как создать «скромный» ИИ для медицины: инновации MIT 28 Апреля, 2026 57
4
Как ИИ может предсказать ухудшение состояния пациентов с сердечной недостаточностью 25 Апреля, 2026 52
5
Искусственный интеллект в прогнозировании сердечной недостаточности: новый подход MIT 24 Апреля, 2026 50
6
Революция Edge AI: Как MIT научили умные часы и старые смартфоны обучать нейросети без потери приватности 3 Мая, 2026 49
7
Как новый гибридный подход к планированию улучшает выполнение сложных визуальных задач 24 Апреля, 2026 48
8
Как новые методы улучшают способность ИИ объяснять свои предсказания 25 Апреля, 2026 45

Статьи в блоге

Комментарии ⁰

24 Апреля, 2026

Ваш комментарий будет первым