Компания Nvidia представила NitroGen — новую открытую модель ИИ, способную играть в разнообразные коммерческие игры. Она обучалась на 40 тысячах часов геймплея из более чем 1000 игр, полученного через автоматическую обработку видео с оверлеями геймпадов, собранных из интернета. Это стало возможным благодаря трёхступенчатой системе извлечения действий, которая точно определяет положение стиков и кнопок по видеорядам.
Как всё устроено: процесс сбора и подготовки данных
- Из видеороликов, стримов и записей в соцсетях собрали 71 тысячу часов видео с оверлеями геймпада; после фильтрации осталось около 40 тысяч часов чистого материала.
- Данный датасет включает 818 авторов, охватывает 846 игр с более чем часом геймплея и содержит множество жанров — от экшен RPG до гонок.
Технический прорыв: как система распознаёт действия
- На первом этапе используют шаблоны для локализации оверлеев, затем сегментирующая модель на основе SegFormer распознаёт стики и кнопки.
- На последней стадии происходит уточнение координат и отфильтровываются низкоактивные сегменты, что повышает точность — до R^2 0.84 по joystick и 0.96 по кнопкам.
Инструменты и архитектура
- Кроме модели, в проект входит универсальный симулятор для запуска игр с поддержкой Gymnasium без изменения кода.
- Архитектура построена по паттерну GR00T N1: vision-трансформер SigLIP 2 и диффузионный трансформер DiT создают прогноз действий на 16 шагов вперёд.
Обучение и результаты
- Модель тренировали методом behavior cloning без reinforcement learning, только на автоматических данных — с аугментациями яркости, контраста и вращений.
- Результаты: в нулевом режиме NitroGen показывает 45-60% успешных прохождений, при дообучении — рост до 52% на ограниченных данных.
Ключевые выводы и будущее
- Принимаете RGB как единственный вход — модель переводит его прямо в управление, без сложных симуляторов или дополнений.
- Доступность автоматически сгенерированных данных делает платформу насыщенной и расширяемой, а diffusion-архитектура помогает справляться с шумными метками и запутанными сценариями.
- В будущем ожидается переход от быстрого прототипирования к построению полноценной системы для обучения и внедрения в реальные проекты. Уиграют те, кто правильно подготовит данные и оптимизирует обучение.
Это свидетельство того, что индустрия движется к созданию всё более универсальных и доступных инструментов ИИ для игр — открытых, масштабируемых и легко интегрируемых в любые игровые решения.
