В Массачусетском технологическом институте (MIT) разработали инновационный подход к планированию долгосрочных визуальных задач с использованием генеративного искусственного интеллекта. Эта система может значительно повысить эффективность роботов в изменяющихся условиях.
Гибридный подход к планированию
Новая система использует модель видения и языка, чтобы распознать ситуацию на изображении и смоделировать действия, необходимые для достижения цели. Затем другая модель переводит эти симуляции в язык программирования для планирования, улучшая решение задачи.
В результате система автоматически генерирует набор файлов, которые могут быть переданы в классическое программное обеспечение для планирования, чтобы вычислить план достижения цели. Этот двухэтапный метод показал среднюю успешность около 70%, что значительно выше по сравнению с 30% у существующих методов.
Применение в реальных условиях
Особенно важно, что система способна решать задачи, с которыми она ранее не сталкивалась, что делает её подходящей для реальных условий, где обстановка может измениться в любой момент.
"Наш подход сочетает преимущества моделей видения-языка, которые могут понимать изображения, с сильными планировочными возможностями формальных решателей", — объясняет Йилун Хао, студентка MIT и ведущий автор исследования.
Преодоление сложностей визуальных задач
Исследователи из MIT стремятся расширить возможности моделей видения и языка, которые способны обрабатывать изображения и текст, но часто испытывают трудности с пространственными отношениями между объектами. Для преодоления этих барьеров была создана система VLM-guided formal planning (VLMFP).
Эта система использует два специализированных VLM, которые работают вместе, чтобы превращать визуальные планировочные задачи в файлы, готовые для использования в формальном программном обеспечении для планирования.
Гибкость и адаптивность
VLMFP генерирует два файла PDDL — один для описания среды и правил, второй для определения начального состояния и цели конкретной задачи. Это позволяет системе эффективно обобщать задачи и адаптироваться к новым условиям.
В будущем исследователи планируют расширить возможности VLMFP для работы с более сложными сценариями и изучить методы уменьшения ошибок в моделях видения и языка.
Эта работа, частично финансируемая MIT-IBM Watson AI Lab, открывает новые горизонты для применения искусственного интеллекта в планировании сложных визуальных задач.
