Ученые из MIT представили новую гибридную систему, способную значительно повысить эффективность планирования сложных визуальных задач. Эта система может быть использована для навигации роботов в изменяющихся условиях или для улучшения эффективности командной работы нескольких роботов.
Как работает новая система
Методика основана на использовании генеративных моделей искусственного интеллекта. Она сочетает в себе возможности понимания изображений и текста, характерные для моделей визионерского языка (VLM), и мощные алгоритмы формального планирования.
Система состоит из двух основных этапов. Сначала небольшой модель описывает сценарий на изображении и симулирует последовательность действий. Затем более крупная модель преобразует эти симуляции в язык программирования, предназначенный для решения задач планирования, и уточняет решение.
Преимущества и результаты
Система автоматически генерирует набор файлов, которые затем обрабатываются классическим программным обеспечением для планирования. Это позволяет добиться успеха в 70% случаев, что вдвое лучше по сравнению с традиционными методами.
Одной из ключевых особенностей является способность системы решать новые задачи, с которыми она ранее не сталкивалась. Это делает ее особенно ценной для использования в реальных условиях, где ситуация может быстро измениться.
Важность для индустрии ИИ
Разработанная система открывает новые горизонты для применения искусственного интеллекта в робототехнике. Она позволяет более эффективно решать задачи, связанные с планированием и навигацией, что особенно актуально в условиях быстрого развития технологий и их применения в промышленности.
Исследователи из MIT продолжают работу над усовершенствованием системы, стремясь расширить ее возможности и сделать ее еще более универсальной для различных сценариев.
Эта работа поддержана MIT-IBM Watson AI Lab, что подчеркивает важность сотрудничества в области ИИ и технологий.
