Исследователи из MIT разработали новую систему на основе генеративного искусственного интеллекта, которая позволяет более эффективно планировать долгосрочные визуальные задачи, такие как навигация роботов. Эта технология показывает вдвое лучшие результаты по сравнению с существующими методами.
Как работает новая система?
Метод основан на использовании моделей видения и языка, которые анализируют изображения, моделируют необходимые действия и преобразуют их в стандартный язык программирования для планирования. Затем специальное программное обеспечение создает план для достижения цели. Эта двухшаговая система генерирует успешные планы примерно в 70% случаев, что значительно превосходит предыдущие показатели.
Почему это важно для индустрии ИИ?
Новая система способна решать задачи, с которыми ранее не сталкивалась, что делает её подходящей для реальных условий, где обстоятельства могут измениться в любой момент. Это важно для индустрии ИИ, так как позволяет создавать более адаптивные и эффективные решения для робототехники.
Преимущества и перспективы
VLMFP — это гибридный подход, который объединяет возможности моделей видения-языка и мощные планировщики. Он способен создавать два файла для планирования: один описывает среду, а другой — начальные условия и цель задачи. Это позволяет системе успешно справляться с ранее неизвестными сценариями.
В будущем исследователи планируют расширить возможности системы для более сложных сценариев и разработать методы, которые помогут избежать ошибок при планировании. Это важный шаг на пути к созданию более сложных и адаптивных ИИ-агентов, способных решать разнообразные задачи в реальном мире.
Эта работа была частично профинансирована лабораторией MIT-IBM Watson AI Lab.
