Новая гибридная система для планирования сложных визуальных задач

Введение в технологию

Исследователи из MIT разработали новую гибридную систему, основанную на искусственном интеллекте, которая может значительно улучшить планирование долгосрочных визуальных задач, таких как навигация роботов. Эта технология вдвое эффективнее некоторых существующих методов и открывает новые перспективы в области робототехники и автоматизации.

Futuristic robot assembly line with advanced AI systems

Как работает новая система

Использование моделей "зрение-язык"

Система использует специализированные модели "зрение-язык" (VLMs) для восприятия изображений и симуляции необходимых действий для достижения цели. Это позволяет эффективно преобразовывать визуальные задачи в понятный для планирующих программ язык.

Процесс планирования

Процесс начинается с восприятия сцены на изображении. Затем модель SimVLM описывает сценарий и симулирует последовательность действий. Далее, более крупная модель GenVLM использует это описание для генерации начальных файлов на языке Planning Domain Definition Language (PDDL), которые затем обрабатываются классическим планировщиком PDDL для создания поэтапного плана.

Преимущества и успехи системы

Система показала успех в 70% случаев, что значительно превосходит существующие методы. Она также способна решать незнакомые задачи, что делает её идеальной для использования в динамичных средах.

Гибкость и обобщаемость

Одним из ключевых преимуществ является возможность системы генерализовать решения для новых сценариев. Это достигается благодаря разделению на два файла PDDL: доменный файл, определяющий среду и действия, и проблемный файл, определяющий начальные состояния и цели.

Перспективы и будущее развитие

В будущем команда исследователей планирует улучшить способность системы к обработке более сложных сценариев и изучить методы снижения ошибок моделей VLM. Это исследование открывает путь к более сложным и адаптивным системам планирования, которые могут значительно изменить подходы в различных отраслях.

Таким образом, работа над интеграцией визуальных и языковых моделей в планирование задач является важным шагом на пути к созданию более автономных и интеллектуальных систем.

Блог top

1
ИИ на смарт-часах: как MIT ускорил приватное обучение нейросетей на 81% 3 Мая, 2026 75
2
Как концептуальные модели могут улучшить объяснимость ИИ в критических приложениях 24 Апреля, 2026 58
3
Как создать «скромный» ИИ для медицины: инновации MIT 28 Апреля, 2026 57
4
Как ИИ может предсказать ухудшение состояния пациентов с сердечной недостаточностью 25 Апреля, 2026 52
5
Искусственный интеллект в прогнозировании сердечной недостаточности: новый подход MIT 24 Апреля, 2026 50
6
Революция Edge AI: Как MIT научили умные часы и старые смартфоны обучать нейросети без потери приватности 3 Мая, 2026 49
7
Как новый гибридный подход к планированию улучшает выполнение сложных визуальных задач 24 Апреля, 2026 48
8
Как новые методы улучшают способность ИИ объяснять свои предсказания 25 Апреля, 2026 45

Статьи в блоге

Комментарии ⁰

21 Апреля, 2026

Ваш комментарий будет первым