Исследователи из MIT разработали инновационный гибридный подход к планированию сложных визуальных задач, таких как навигация роботов. Их система, работающая на основе искусственного интеллекта, показала эффективность в два раза выше по сравнению с существующими методами.
Как работает новая система
Система использует модели "зрение-язык", чтобы анализировать изображения и симулировать действия, необходимые для достижения цели. Затем другая модель преобразует эти симуляции в язык программирования, который помогает составлять план действий. Конечный результат — набор файлов, которые можно передать в классическое программное обеспечение для планирования.
Этот двухэтапный процесс позволил достигнуть среднего уровня успешности в 70%, в то время как лучшие из существующих методов смогли достичь только 30%.
Преимущества и возможности
Система может решать новые задачи, с которыми ранее не сталкивалась, что делает её пригодной для реальных условий, где ситуации могут быстро меняться. Это особенно важно для таких приложений, как многороботные системы и автономное вождение.
«Наш подход объединяет способности моделей "зрение-язык" с мощными возможностями формальных решателей задач», — говорит Илюнь Хао, ведущий автор исследования.
Технические аспекты и успехи
Специалисты из MIT представили свой метод на Международной конференции по представлению обучения. Они разработали систему, названную VLMFP, которая использует две модели для преобразования визуальных задач в язык планирования PDDL. Это позволяет эффективно решать задачи в различных 2D и 3D средах.
Система хорошо адаптируется к изменениям в правилах задачи, что позволяет ей решать разнообразные задачи, связанные с визуальным планированием.
Будущее исследования
В будущем исследователи планируют усовершенствовать систему для работы с более сложными сценариями и изучить методы снижения ошибок в моделях "зрение-язык". Это исследование является важным шагом в создании универсальных инструментов для решения сложных задач с использованием генеративных моделей ИИ.
