Новая гибридная система для планирования сложных визуальных задач

Современные технологии искусственного интеллекта продолжают стремительно развиваться, расширяя горизонты применения роботов в реальных условиях. Исследователи из MIT разработали гибридную систему, которая позволяет роботам более эффективно планировать и выполнять сложные визуальные задачи. Эта система почти в два раза превосходит существующие методы, делая значительный шаг вперед в области робототехники и автоматизации.

futuristic AI planning interface with digital grids and pathways

Как работает новая система?

Основой новой системы является использование визуально-языковых моделей (VLM), которые могут обрабатывать изображения и текст. Исследователи обучили модель, способную описывать сценарии на основе изображений и симулировать последовательность действий для достижения цели. После этого, другая модель переводит эти симуляции в стандартный язык программирования для задач планирования, известный как Planning Domain Definition Language (PDDL).

Эта двухэтапная система автоматически генерирует набор файлов, которые могут быть загружены в классическое программное обеспечение для планирования, чтобы вычислить план достижения цели. В результате, система демонстрирует средний успех выполнения задач около 70%, что значительно превышает показатели существующих методов, которые достигают только около 30%.

Преимущества гибридного подхода

Одним из ключевых преимуществ системы является ее способность решать новые проблемы, с которыми она ранее не сталкивалась. Это делает ее идеальной для работы в реальных условиях, где обстановка может измениться в любой момент. Этот подход сочетает в себе преимущества визуально-языковых моделей, такие как их способность понимать изображения, с мощными возможностями планирования формального решателя.

Применение в реальных условиях

Система, разработанная в MIT, может находить применение в различных областях, таких как навигация роботов в изменяющихся условиях и повышение эффективности многороботных сборочных команд. В ходе испытаний, система успешно справилась с задачами в шести 2D-сетках и двух 3D-задачах, включая многороботное сотрудничество и роботизированную сборку.

Как отмечает исследователь Юйлун Хао, ведущий автор статьи о данной технологии, система способна генерировать планы для более чем 50% сценариев, с которыми она ранее не сталкивалась. Это значительно превосходит базовые методы и демонстрирует гибкость системы в решении множества визуальных задач планирования.

Перспективы развития

В будущем исследователи планируют расширить возможности системы для работы с более сложными сценариями и изучить методы для выявления и устранения ошибок моделирования. В долгосрочной перспективе, модели генеративного ИИ могут действовать как агенты, использующие правильные инструменты для решения более сложных задач.

Таким образом, это исследование представляет собой важную часть пазла в деле интеграции визуального планирования в современную робототехнику. Работа была частично финансирована лабораторией MIT-IBM Watson AI Lab.

Блог top

1
ИИ на смарт-часах: как MIT ускорил приватное обучение нейросетей на 81% 3 Мая, 2026 75
2
Как концептуальные модели могут улучшить объяснимость ИИ в критических приложениях 24 Апреля, 2026 58
3
Как создать «скромный» ИИ для медицины: инновации MIT 28 Апреля, 2026 57
4
Как ИИ может предсказать ухудшение состояния пациентов с сердечной недостаточностью 25 Апреля, 2026 52
5
Искусственный интеллект в прогнозировании сердечной недостаточности: новый подход MIT 24 Апреля, 2026 50
6
Революция Edge AI: Как MIT научили умные часы и старые смартфоны обучать нейросети без потери приватности 3 Мая, 2026 49
7
Как новый гибридный подход к планированию улучшает выполнение сложных визуальных задач 24 Апреля, 2026 48
8
Как новые методы улучшают способность ИИ объяснять свои предсказания 25 Апреля, 2026 45

Статьи в блоге

Комментарии ⁰

23 Апреля, 2026

Ваш комментарий будет первым