Новый метод планирования для роботов от MIT

В Массачусетском технологическом институте (MIT) разработали инновационный подход к планированию долгосрочных визуальных задач с использованием генеративного искусственного интеллекта. Эта система может значительно повысить эффективность роботов в изменяющихся условиях.

Гибридный подход к планированию

Новая система использует модель видения и языка, чтобы распознать ситуацию на изображении и смоделировать действия, необходимые для достижения цели. Затем другая модель переводит эти симуляции в язык программирования для планирования, улучшая решение задачи.

В результате система автоматически генерирует набор файлов, которые могут быть переданы в классическое программное обеспечение для планирования, чтобы вычислить план достижения цели. Этот двухэтапный метод показал среднюю успешность около 70%, что значительно выше по сравнению с 30% у существующих методов.

Применение в реальных условиях

Особенно важно, что система способна решать задачи, с которыми она ранее не сталкивалась, что делает её подходящей для реальных условий, где обстановка может измениться в любой момент.

"Наш подход сочетает преимущества моделей видения-языка, которые могут понимать изображения, с сильными планировочными возможностями формальных решателей", — объясняет Йилун Хао, студентка MIT и ведущий автор исследования.

Преодоление сложностей визуальных задач

Исследователи из MIT стремятся расширить возможности моделей видения и языка, которые способны обрабатывать изображения и текст, но часто испытывают трудности с пространственными отношениями между объектами. Для преодоления этих барьеров была создана система VLM-guided formal planning (VLMFP).

Эта система использует два специализированных VLM, которые работают вместе, чтобы превращать визуальные планировочные задачи в файлы, готовые для использования в формальном программном обеспечении для планирования.

Гибкость и адаптивность

VLMFP генерирует два файла PDDL — один для описания среды и правил, второй для определения начального состояния и цели конкретной задачи. Это позволяет системе эффективно обобщать задачи и адаптироваться к новым условиям.

В будущем исследователи планируют расширить возможности VLMFP для работы с более сложными сценариями и изучить методы уменьшения ошибок в моделях видения и языка.

Эта работа, частично финансируемая MIT-IBM Watson AI Lab, открывает новые горизонты для применения искусственного интеллекта в планировании сложных визуальных задач.

Новый метод планирования сложных визуальных задач для роботов от MIT

Гибридный подход к планированию

Применение в реальных условиях

Преодоление сложностей визуальных задач

Гибкость и адаптивность

Новости new