DreamDojo — это свежий прорыв в области моделирования мира для роботов. Компания NVIDIA объявила о запуске открытой модели, которая обучалась на более чем 44 711 часах видео с реальными людьми, что делает её самой масштабной в своём роде. Идея — избавиться от сложных физических движков и вручного моделирования 3D-сцен, заменяя их предсказаниями визуальных последствий действий роботов.
Для предварительного обучения использована новая коллекция данных — DreamDojo-HV — включающая более миллиона траекторий, 9 869 сцен и 43 237 уникальных объектов. Обучение потребовало около 100 000 часов работы на GPU NVIDIA H100 для разработки моделей с 2 и 14 миллиардами параметров.
Главная особенность — обучение от человеческих видео, таких как наливание жидкостей или складывание одежды, что дает роботу некий ''здравый смысл'' в физических взаимодействиях. Так как видео не содержат команд роботов, команда NVIDIA внедрила промежуточные скрытые действия — полученные через трансформер-VAE, который обрабатывает пару кадров и создает 32-мерный вектор, разделяющий действие и визуальный фон.
Архитектура моделирования построена на базе Cosmos-Predict2.5 и дополнена новыми техниками: использование относительных действий (дельта суставов вместо абсолютных поз), вставка действий по кускам, соответствующих сжатости временного ряда, и потерями, повышающими физическую правдоподобность. Для реальных взаимодействий применена техника дистилляции — снижающая число шагов денаунинга с 35 до 4, что обеспечивает скорость в 10.81 кадров в секунду и стабильность длительных симуляций до 60 секунд.
Эта модель позволяет точно предсказать поведение роботов, что подтверждается высоким показателем — корреляция успешных результатов симуляции и реального мира достигла 0.995. В области планирования результатов увеличилась на 17% в задачах типа упаковки фруктов, а дистанционное управление — через VR и RTX 5090 — делает возможным безопасный телерегулировку роботов в реальном времени.
На практике демонстрируются показатели: 73.5% физической точности и 72.55% соответствия команд, при скорости около 11 кадров в секунду. Весь исходный код, веса моделей и бенчмарки доступны для сообщества, что позволяет доработать решение под свои задачи.
Главные тенденции — масштабирование обучения на реальных данных, единая система управления через скрытые действия, оптимизация для реального времени и высокая надежность. В ближайшие месяцы стоит ожидать автоматизации предсказаний физических последствий и массового внедрения в робототехнику. Те, кто уже начали работу с такими моделями, получают существенное преимущество, а разработчики могут рассчитывать на поддержку сообщества и новые инструменты.

