Современные роботы на базе ИИ, такие как гуманоиды и автономные транспортные средства, нуждаются в высококачественных и физически осведомленных обучающих данных. Без разнообразных и представительных наборов данных эти системы рискуют столкнуться с проблемами обобщения и непредсказуемым поведением в сложных ситуациях. Создание обширных наборов данных в реальном мире для обучения требует значительных затрат и времени. Тут на помощь приходит NVIDIA Cosmos — инновационная платформа, ускоряющая разработку мировых фундаментальных моделей (WFM).
Что такое NVIDIA Cosmos?
В основе NVIDIA Cosmos лежат модели, которые ускоряют генерацию синтетических данных и служат основой для последующего обучения, чтобы создавать специализированные модели физического ИИ. Эти модели помогают преодолеть ограничения традиционных методов, предлагая новые возможности для роботов и автономных систем.
Ключевые обновления Cosmos WFM
Прошёл год с момента введения Cosmos WFM, и за это время были внесены значительные улучшения:
- Cosmos Transfer 2.5: Ускоренная и масштабируемая аугментация данных из симуляций и 3D пространственных входных данных, что позволяет создавать разнообразие в условиях освещения и сценах.
- Cosmos Predict 2.5: Усиленная генерация сценариев для длинных последовательностей, обеспечивающая до 10 раз более высокую точность при дообучении на собственных данных.
- Cosmos Reason 2: Продвинутое физическое ИИ-размышление с улучшенным пониманием пространства и времени, добавление обнаружения объектов и объяснений решений.

Cosmos Transfer: Фотореалистичные видео, основанные на физике
Cosmos Transfer генерирует высококачественные сцены из структурных входных данных, обеспечивая точное пространственное выравнивание и композицию сцен. Используя архитектуру ControlNet, он сохраняет предобученные знания, позволяющие создавать структурированные и последовательные выходы.
Основные возможности:
- Генерация масштабируемых, фотореалистичных синтетических данных, согласующихся с физикой реального мира.
- Контроль взаимодействия объектов и композиции сцены через структурированные мультимодальные входы.

Cosmos Predict: Генерация будущих мировых состояний
Cosmos Predict WFM предназначен для моделирования будущих мировых состояний в виде видео из мультимодальных входов. Эта модель создает реалистичные мировой состояния непосредственно из текстовых подсказок и предсказывает следующие состояния на основе видеопоследовательностей.
Cosmos Reason: Перцепция, размышление и реакция
Cosmos Reason — это полностью настраиваемая мультимодальная ИИ-модель размышления, разработанная для понимания движения, взаимодействий объектов и временно-пространственных отношений. Используя размышления цепи мысли (CoT), модель интерпретирует визуальные входные данные, предсказывает результаты на основе подсказок и вознаграждает оптимальные решения.
Главные возможности:
- Знание о том, как объекты движутся, взаимодействуют и изменяются со временем.
- Предсказание и вознаграждение следующего лучшего действия на основе входных наблюдений.
- Постоянное улучшение принятия решений посредством обратной связи с подкреплением.
Эти усовершенствования открывают новые горизонты для разработки и обучения роботов и автономных систем, делая их более адаптивными и надежными.