Исследователи из MIT разработали инновационную систему, которая поможет роботам лучше ориентироваться в динамичных средах и повысить эффективность работы команд, занимающихся сборкой. Этот новый подход, использующий генеративный искусственный интеллект, вдвое эффективнее существующих решений для долгосрочного планирования сложных задач.
Как работает новая система?
Разработанная система использует специализированную модель зрение-язык для анализа изображения и моделирования действий, необходимых для достижения цели. Затем вторая модель преобразует эти симуляции в стандартный программный язык для планирования, после чего решение уточняется.
В итоге система автоматически генерирует набор файлов, которые можно использовать в классическом программном обеспечении для планирования, что позволяет достичь цели с высокой точностью. Это двухэтапное решение показало средний уровень успеха около 70%, превосходя лучшие существующие методы, которые достигали только 30%.
Преимущества и перспективы
Главное преимущество системы заключается в ее способности решать новые задачи, с которыми она ранее не сталкивалась, что делает ее идеальной для реальных условий, где все может быстро измениться. По словам ведущего автора исследования, Йилун Хао, их система объединяет возможности моделей зрение-язык с мощными возможностями формального планировщика.
Система, названная VLMFP, использует две специализированные модели, которые превращают задачи визуального планирования в готовые файлы для формального планировщика. Это позволяет обрабатывать как визуальные, так и текстовые входные данные, что расширяет возможности применения в реальных условиях.
Гибкость и будущее развития
Система VLMFP генерирует два отдельных файла для планирования: один описывает среду и правила, другой — начальные состояния и цель задачи. Это позволяет системе обобщать новые задачи в том же контексте. В будущем исследователи планируют расширить возможности системы, чтобы она могла справляться с более сложными сценариями и улучшить работу с визуальными моделями.
Эта работа финансировалась лабораторией MIT-IBM Watson AI, и показывает, как генеративные модели ИИ могут стать важным инструментом в решении сложных задач планирования.
