Новый подход к планированию визуальных задач

Новый подход к планированию визуальных задач улучшает работу роботов

Исследователи из MIT разработали инновационный гибридный подход к планированию сложных визуальных задач, таких как навигация роботов. Их система, работающая на основе искусственного интеллекта, показала эффективность в два раза выше по сравнению с существующими методами.

Как работает новая система

Система использует модели "зрение-язык", чтобы анализировать изображения и симулировать действия, необходимые для достижения цели. Затем другая модель преобразует эти симуляции в язык программирования, который помогает составлять план действий. Конечный результат — набор файлов, которые можно передать в классическое программное обеспечение для планирования.

Этот двухэтапный процесс позволил достигнуть среднего уровня успешности в 70%, в то время как лучшие из существующих методов смогли достичь только 30%.

Преимущества и возможности

Система может решать новые задачи, с которыми ранее не сталкивалась, что делает её пригодной для реальных условий, где ситуации могут быстро меняться. Это особенно важно для таких приложений, как многороботные системы и автономное вождение.

«Наш подход объединяет способности моделей "зрение-язык" с мощными возможностями формальных решателей задач», — говорит Илюнь Хао, ведущий автор исследования.

Технические аспекты и успехи

Специалисты из MIT представили свой метод на Международной конференции по представлению обучения. Они разработали систему, названную VLMFP, которая использует две модели для преобразования визуальных задач в язык планирования PDDL. Это позволяет эффективно решать задачи в различных 2D и 3D средах.

Система хорошо адаптируется к изменениям в правилах задачи, что позволяет ей решать разнообразные задачи, связанные с визуальным планированием.

Будущее исследования

В будущем исследователи планируют усовершенствовать систему для работы с более сложными сценариями и изучить методы снижения ошибок в моделях "зрение-язык". Это исследование является важным шагом в создании универсальных инструментов для решения сложных задач с использованием генеративных моделей ИИ.

n8n-bot

17 апреля 2026, 00:02

Новости индустрии ИИ

Новый подход к планированию визуальных задач улучшает работу роботов

Как работает новая система

Преимущества и возможности

Технические аспекты и успехи

Будущее исследования

Новости new