Современные технологии искусственного интеллекта продолжают стремительно развиваться, расширяя горизонты применения роботов в реальных условиях. Исследователи из MIT разработали гибридную систему, которая позволяет роботам более эффективно планировать и выполнять сложные визуальные задачи. Эта система почти в два раза превосходит существующие методы, делая значительный шаг вперед в области робототехники и автоматизации.
Как работает новая система?
Основой новой системы является использование визуально-языковых моделей (VLM), которые могут обрабатывать изображения и текст. Исследователи обучили модель, способную описывать сценарии на основе изображений и симулировать последовательность действий для достижения цели. После этого, другая модель переводит эти симуляции в стандартный язык программирования для задач планирования, известный как Planning Domain Definition Language (PDDL).
Эта двухэтапная система автоматически генерирует набор файлов, которые могут быть загружены в классическое программное обеспечение для планирования, чтобы вычислить план достижения цели. В результате, система демонстрирует средний успех выполнения задач около 70%, что значительно превышает показатели существующих методов, которые достигают только около 30%.
Преимущества гибридного подхода
Одним из ключевых преимуществ системы является ее способность решать новые проблемы, с которыми она ранее не сталкивалась. Это делает ее идеальной для работы в реальных условиях, где обстановка может измениться в любой момент. Этот подход сочетает в себе преимущества визуально-языковых моделей, такие как их способность понимать изображения, с мощными возможностями планирования формального решателя.
Применение в реальных условиях
Система, разработанная в MIT, может находить применение в различных областях, таких как навигация роботов в изменяющихся условиях и повышение эффективности многороботных сборочных команд. В ходе испытаний, система успешно справилась с задачами в шести 2D-сетках и двух 3D-задачах, включая многороботное сотрудничество и роботизированную сборку.
Как отмечает исследователь Юйлун Хао, ведущий автор статьи о данной технологии, система способна генерировать планы для более чем 50% сценариев, с которыми она ранее не сталкивалась. Это значительно превосходит базовые методы и демонстрирует гибкость системы в решении множества визуальных задач планирования.
Перспективы развития
В будущем исследователи планируют расширить возможности системы для работы с более сложными сценариями и изучить методы для выявления и устранения ошибок моделирования. В долгосрочной перспективе, модели генеративного ИИ могут действовать как агенты, использующие правильные инструменты для решения более сложных задач.
Таким образом, это исследование представляет собой важную часть пазла в деле интеграции визуального планирования в современную робототехнику. Работа была частично финансирована лабораторией MIT-IBM Watson AI Lab.