Робот Raviant из Ant Group представил LingBot-World — масштабную модель мира, превращающую видео в интерактивный симулятор для embodied AI, автопилотов и игр. На фоне многочисленных моделей, которые генерируют короткие клипы, новая система умеет моделировать, как действия влияют на окружающую среду длительное время. Это настоящая революция для тех, кто хочет управлять виртуальными мирами в реальном времени.
LingBot-World — это action-conditioned модель, которая учится предсказывать развитие событий, основанное на действиях пользователя, камере и языковых запросах. За счёт обучения на разнообразных датасетах — от веб-видео и геймерских логов до синтетических сцен в Unreal Engine — система умеет поддерживать стабильную сцену, даже спустя 10 минут генерации.
Основные факты и вызовы
- Модель основана на расширенной версии Wan2.2 — diffusion трансформера с 28 миллиардами параметров, разделёнными на два эксперта.
- Обучение длина последовательностей увеличилась с 5 до 60 секунд, что помогло стабилизировать сцену и снизить Mode Collapse.
- Для интерактивности в модель встроили управление через клавиатуру, мышь и камеру, использующие Plücker-векторные представления и механизмы адаптивной нормализации.
- Для ускорения внедрения создана облегчённая версия LingBot-World-Fast, которая достигает 16 кадров в секунду при 480p на одном GPU.
- Несмотря на отсутствие прямых 3D-моделей, модель демонстрирует «эмергентную память»: если вернуться к удалённым объектам спустя минуту — они появились на своих местах.
Что говорит индустрия и что дальше?
Очевидно, что модели обладающие долгосрочной презентацией и стабильностью переходят из области экспериментов в бизнес. В ближайшие 6-12 месяцев ожидается рост числа приложений — от симуляторов для обучения роботов до виртуальных миров для игр и обучения AI-агентов.
Компании, сфокусированные на real-time и высокой динамике, получают преимущество, ведь LingBot-World уже демонстрирует реальную поддержку длительных сцен и сложных взаимодействий. Остаётся открытым вопрос — как масштабировать такие модели для работы с миллионами объектов и сцен без потери качества и скорости.
В целом, индустрия движется к тому, чтобы сделать виртуальные миры всё более реалистичными, управляемыми и стабильными, открывая новые возможности для embodied AI и 3D воспроизведения.

