Учёные из Массачусетского технологического института (MIT) представили новый подход, который может значительно улучшить планирование сложных визуальных задач, таких как навигация роботов. Эта система, основанная на генеративном искусственном интеллекте, демонстрирует вдвое большую эффективность по сравнению с существующими методами.
Как работает новая система?
Метод использует специализированную модель "зрение-язык" (VLM), чтобы воспринимать изображение и моделировать необходимые действия для достижения цели. Затем вторая модель переводит эти симуляции в стандартный язык программирования для задач планирования и уточняет решение. В конечном итоге система автоматически генерирует набор файлов, которые могут быть использованы в классическом программном обеспечении для планирования.
Почему это важно?
Эта технология может решать новые задачи, с которыми ранее не сталкивалась, что делает её подходящей для реальных условий, где обстоятельства могут быстро изменяться. Система показала средний уровень успеха около 70%, превосходя лучшие базовые методы, которые достигали только 30%.
Преимущества гибридного подхода
По словам ведущего автора исследования, Yilun Hao, их метод комбинирует преимущества моделей "зрение-язык" и мощных возможностей формального планировщика. Это позволяет превращать одно изображение в надёжный, долгосрочный план, который может быть полезен в различных реальных приложениях.
В работе над проектом также участвовали Yongchao Chen, Chuchu Fan и Yang Zhang. Результаты будут представлены на Международной конференции по обучению представлений.
Будущее визуального планирования
Система VLMFP успешно справляется с генерацией планов для сложных задач в 2D и 3D средах, включая многороботное сотрудничество и сборку. Она может адаптироваться к новым условиям, что делает её универсальным инструментом для решения визуальных задач.
Исследователи планируют расширить возможности системы для работы с более сложными сценариями и исследовать способы снижения ошибок, вызванных "галлюцинациями" моделей.
Это исследование частично финансируется лабораторией MIT-IBM Watson AI Lab и представляет собой важный шаг на пути к более сложным системам искусственного интеллекта.
