Waymo делает огромный шаг вперёд с запуском своей новой системы World Model, созданной на базе Genie 3 — универсальной модели, которая может генерировать фот-realистичные, управляемые и мультисенсорные сценарии в реальном времени. Сейчас компания уже ведет почти 200 миллионов миль автономного движения на публичных дорогах, при этом большинство обучающих данных — виртуальные миллиарды километров. Эта новая модель как ядро системы позволяет создавать сложные сценарии: от редких и опасных ситуаций до безумных погодных условий, таких как снежные бури или ураганы, которые сложно наблюдать в реальной жизни.
Genie 3 — это гибкая модель, которая преобразует текстовые подсказки в интерактивные 3D-миры, поддерживающие динамичное управление и поддержку пользовательских сценариев. Компания адаптировала Genie 3 для целей вождения, сохранив способность создавать согласованные и реалистичные окружения, соответствующие сенсорным системам Waymo — камеры, лидара и др. Модель генерирует высококачественные изображения и облака точек, которые соответствуют реальному восприятию автомобиля.
В отличие от классических симуляторов, эта система создаёт последовательности, включающие мультисенсорные данные с постоянной временной связностью. Благодаря предварительному обучению на огромных видеодатасетах, модель обладает «общими знаниями о мире», что позволяет сымитировать условия, с которыми не сталкивалась сама, — например, снег на мосту Золотые Ворота, торнадо, затопленные улицы, снежные тропические районы и даже сценки с пожаром. Она умеет моделировать экзотические объекты: слонов, лонгхорнов из Техаса, львов, пешеходов в костюмах T-Rex — всё это не прописано явным образом, а возникает спонтанно из понимания пространства и времени.
Инструмент обладает тремя ключевыми контроллерами для целенаправленных сценариев: действия водителя, расположение объектов и текстовые команды. Водительский контроль позволяет моделировать контрфактические ситуации — например, можно проверить, мог ли бы водитель перестроиться или спокойно пропустить пешехода. Управление сценами даёт возможность изменять расположение объектов, дорожную разметку и светофоры для стресс-тестирования различных ситуаций. А при помощи текстовых подсказок можно регулировать время суток, погодные условия и даже добавлять неожиданных участников, таких как бегемоты или пилоты T-Rex.
Особенно ценна возможность преобразования реальных видео в мульти-модальные симуляции. Просто взяв кадры с камеры из реальных ситуаций — например, видеозаписи с уличных камер, — модель генерирует соответствующие изображения и облака точек, создавая очень реалистичные сценарии без необходимости дорогого лидара. Также работает упрощённый режим, который поддерживает длинные манёвры — например, смену полос или развороты — при этом требуя в 4 раза меньших вычислительных ресурсов, что значительно ускоряет тестирование массовых сценариев.
Главные итоги? Модель обеспечивает высочайшее качество изображений, широкое покрытие сценариев благодаря предварительному обучению на масштабных данных и полное управление ситуациями с помощью трёх осей. Всё это позволяет тестировать автомобили в максимально различных условиях, повышая безопасность и надёжность систем. В ближайшие месяцы индустрия узнает — так ли новая модель способна перевернуть существующие подходы к виртуальному тестированию и подготовке систем автономного вождения.

