Ученые из MIT представили новую гибридную систему, которая может значительно улучшить способность роботов ориентироваться в изменяющихся условиях и повысить эффективность команд из нескольких роботов.
Как работает новая система
Система использует специализированную модель, сочетающую анализ изображений и языка. Она воспринимает ситуацию на изображении и симулирует необходимые действия для достижения цели. Затем вторая модель переводит эти симуляции в программный язык, используемый для планирования, и улучшает полученное решение.
В итоге система автоматически генерирует файлы, которые можно использовать в классическом программном обеспечении для планирования. Это обеспечивает успех в выполнении задач в среднем в 70% случаев, что значительно превосходит предыдущие методы, достигающие лишь 30%.
Преимущества для реальных условий
Одной из ключевых особенностей этой системы является ее способность решать задачи, с которыми она ранее не сталкивалась. Это делает ее идеальной для применения в реальных условиях, где ситуация может быстро меняться.
«Наша система сочетает преимущества моделей, понимающих изображения, с мощными возможностями формальных планировщиков», — объясняет Илун Хао, ведущий автор исследования.
Подход VLMFP: обширные возможности
Система, получившая название VLM-guided formal planning (VLMFP), использует две специализированные модели для преобразования задач визуального планирования в готовые файлы для формального планировщика. Исследователи тщательно обучили эти модели для описания сценариев и симуляции последовательности действий.
Основное преимущество системы — ее гибкость. Она может генерировать планы для различных ситуаций, даже если она не сталкивалась с ними ранее, что позволяет ей успешно решать множество визуальных задач.
Перспективы развития
В будущем исследователи планируют развивать систему, чтобы она могла справляться с более сложными сценариями, а также изучать методы борьбы с ошибками восприятия. Эта работа является важным шагом на пути к созданию более совершенных моделей искусственного интеллекта, способных решать сложные задачи.
