Учёные из MIT представили новую гибридную систему, способную помочь роботам ориентироваться в изменяющихся условиях окружающей среды и повысить эффективность работы многороботных команд. Этот инновационный подход с использованием генеративного искусственного интеллекта позволяет вдвое улучшить планирование сложных задач по сравнению с уже существующими методами.
Как работает новая система
Система базируется на модели "зрение-язык", которая анализирует изображение и симулирует необходимые действия для достижения цели. Затем второй модуль переводит эти симуляции в стандартный язык программирования, используемый для планирования задач, и оптимизирует решение.
На выходе система автоматически генерирует набор файлов, которые затем обрабатываются классическим планировщиком, создающим план для достижения цели. Этот подход достиг среднего уровня успеха в 70%, превзойдя базовые методы, которые показывали лишь 30% успеха.
Преимущества и применение в реальном мире
Главное преимущество системы — способность решать задачи, с которыми она не сталкивалась ранее, что делает её идеальной для использования в реальных условиях, где всё может измениться в любой момент. "Наша платформа сочетает в себе преимущества моделей "зрение-язык", которые понимают изображения, и сильные планировочные способности формальных решателей," — отмечает студент MIT Илюн Хао.
Гибкость и потенциал системы
Система, названная VLMFP, использует два специализированных модуля, которые преобразуют визуальные задачи в файлы для формального планирования. Этот метод показал высокую эффективность на 2D и 3D задачах, включая многороботное сотрудничество и сборку роботов.
В будущем исследователи планируют расширить возможности системы для более сложных сценариев и улучшить её способность справляться с возможными ошибками в данных. "В долгосрочной перспективе модели генеративного ИИ могут стать агентами, использующими правильные инструменты для решения комплексных проблем," — добавляет Чучу Фан, один из исследователей проекта.
