Современные технологии искусственного интеллекта продолжают продвигаться вперед, открывая новые горизонты для робототехники и автоматизации. Исследователи из MIT разработали систему, которая значительно улучшает планирование сложных визуальных задач, таких как навигация роботов в изменяющихся условиях.
Как работает новая система?
Основой новой системы является гибридный подход, который сочетает в себе возможности моделей "зрение-язык" (VLM) и традиционных методов планирования. Это позволяет системе не только понимать визуальные данные, но и генерировать надежные планы для достижения поставленных целей.

Двухэтапный процесс
Процесс планирования включает два ключевых этапа:
- Сначала специализированная модель, называемая SimVLM, анализирует изображение и симулирует последовательность действий для достижения цели.
- Затем, более крупная модель GenVLM перерабатывает эту симуляцию в формат, понятный формальному языку планирования, известному как Planning Domain Definition Language (PDDL).
После этого классическое программное обеспечение для планирования использует полученные файлы для генерации детального плана действий.
Преимущества и перспективы
Одним из ключевых преимуществ системы является её способность решать новые задачи, с которыми она не сталкивалась ранее. Это делает её особенно полезной в реальных условиях, где обстановка может меняться в любой момент.
Система продемонстрировала успех в 70% случаев, что значительно выше по сравнению с существующими методами, которые показывают лишь около 30% успешных решений.

Гибкость и адаптивность
Особенностью подхода, основанного на PDDL, является его способность к обобщению: файл среды остаётся неизменным для всех случаев в этой среде, что позволяет системе эффективно работать в новых, ранее неизвестных условиях.
Исследователи тщательно подбирали данные для обучения SimVLM, чтобы модель могла правильно описывать ситуацию и достигать целей, не заучивая шаблоны.
Перспективы развития
В будущем планируется расширение возможностей системы для работы с более сложными сценариями и изучение методов снижения ошибок, связанных с "галлюцинациями" моделей VLM.
Эта работа представляет собой важный шаг к созданию ИИ-агентов, способных решать сложные задачи, используя соответствующие инструменты. Вопрос о том, как правильно выбирать и внедрять эти инструменты, остаётся открытым, но данная разработка — важная часть этого пазла.