NVIDIA Nemotron 3 - MoE, long-context и NVFP4

Лид: NVIDIA объявила Nemotron 3 - серию открытых моделей и полный стек для agentic AI, включая веса, датасеты и инструменты для reinforcement learning. Компания делает ставку на длинный контекст, sparse MoE и эффективность вычислений, чтобы мультиагентные системы могли хранить и обмениваться длинными трассами и общей рабочей памятью.

Контраст обещаний и реальности: обещаний много - большие контексты, миллион токенов, сотни миллиардов параметров. Но в отличие от ранних громких релизов, здесь NVIDIA явно ставит на сочетание производительности и управляемой стоимости — за счёт разреженной активации и новых форматов точности.

Что именно выпустили

Nemotron 3 выходит в трех вариантах, нацеленных на разные рабочие нагрузки:

Nemotron 3 Nano - гибридный Mamba Transformer с Mixture of Experts, примерно 31.6 миллиарда параметров, из которых примерно 3.2 миллиарда активны на проход (около 3.6 миллиарда с embeddings). Веса и рецепты Nano уже открыты на Hugging Face и доступен как NVIDIA NIM микросервис.
Nemotron 3 Super - примерно 100 миллиардов параметров с до 10 миллиардов активных параметров на токен. Ориентирован на высокоточную дедуктивную логику в больших мультиагентных системах.
Nemotron 3 Ultra - около 500 миллиардов параметров и до 50 миллиардов активных на токен. Предназначен для сложных исследовательских и планировочных рабочих нагрузок. Super и Ultra запланированы к выпуску в первой половине 2026 года.

Архитектура: гибрид Mamba Transformer + MoE

Ключевая идея - смесь Mamba 2 блоков, attention-блоков и разреженных экспертных (MoE) блоков в едином стеке. Для Nano NVIDIA описывает чередование Mamba 2, attention и MoE блоков: плотные FFN слои прежних поколений заменены MoE. Для каждого токена роутер выбирает небольшой набор экспертов - например, 6 из 128 в Nano - что позволяет держать активные параметры около 3.2 миллиарда при общем размере 31.6 миллиарда.

Объяснение простыми словами: MoE похож на набор узкоспециализированных микросервисов - для каждого входа система включает только несколько из них, чтобы не тянуть всю модель целиком. Это даёт масштаб параметров без пропорционального роста вычислений.

LatentMoE и предсказание нескольких токенов (Super и Ultra)

Для Super и Ultra NVIDIA вводит LatentMoE: токены проецируются в более низкоразмерное латентное пространство, эксперты работают в этом пространстве, затем результат проецируется обратно. Это снижает накладные расходы на коммуникацию и вычисления и позволяет иметь гораздо больше экспертов с большей специализацией.

Плюс - multi-token prediction: несколько выходных голов разделяют общий тронк для предсказания нескольких будущих токенов за один проход. На обучении это улучшает оптимизацию, а на inference это даёт возможности для speculative decoding и ускорений за счет генерации нескольких токенов за проход.

Данные и формат точности

Nemotron 3 предобучен на примерно 25 триллионах токенов, включая более 3 триллионов новых токенов по сравнению с поколением Nemotron 2. Nano использует наборы вроде Nemotron Common Crawl v2 point 1, Nemotron CC Code и Nemotron Pretraining Code v2 плюс специализированные датасеты для научного и reasoning контента.

Super и Ultra тренируются в формате NVFP4 - 4 битный формат с оптимизациями под ускорители NVIDIA: матричные умножения в NVFP4, аккумулирующие операции в повышенной точности. Это снижает потребление памяти и повышает пропускную способность при сохранении близкой к стандартной точности.

Ключевые показатели

Nano даёт примерно 4x большую пропускную способность токенов по сравнению с Nemotron 2 Nano и существенно экономит токены reasoning.
Все модели поддерживают нативные контекстные окна до 1 000 000 токенов, что открывает долгогоризонтное reasoning по большим документам, кодовым базам и длинным агентным трассам.

Доступность и ресурсы

Nemotron 3 Nano: веса и рецепты уже доступны на Hugging Face и как NVIDIA NIM микросервис. Super и Ultra планируются в первой половине 2026 года. NVIDIA опубликовала технический отчет и блог; технический отчет Nano доступен по ссылке: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Nano-Technical-Report.pdf.

Что это значит для индустрии

Тренд очевиден: переход от просто "больших моделей" к архитектурам, которые балансируют масштаб параметров и реальную цену inference. Nemotron 3 показывает, что для agentic AI важнее способность хранить и оперировать длинными контекстами и делать это экономично. Разреженная активация, латентные представления и multi-token decoding становятся инструментами масштабирования, а не только маркетинговыми фразами.

Для разработчиков и исследователей в России это сигнал: если ваша задача - мультиагентные сценарии, длительные трассы действий, или работа с огромными кодовыми базами и документами, то стоит протестировать Nano сейчас, планировать инфраструктуру под long-context и учитывать NVFP4-оптимизации при выборе железа и конвейера обучения.

Вывод и перспектива

NVIDIA явно двигает индустрию к практичным большим моделям - не только ради рекордов по параметрам, но ради управляемой стоимости и реальной пользы для agentic сценариев. Немедленных чудес это не гарантирует, но показывает направление: в ближайшие 6-12 месяцев мы увидим больше инструментов для поддержки long-context inference, больше обсуждений про NVFP4 и LatentMoE, и волны экспериментов с multi-token speculative decoding. Для тех, кто проектирует системы с долгой памятью и множеством агентов, Nemotron 3 - сигнал к действию, а не просто ещё один анонс.