Лид: NVIDIA объявила Nemotron 3 - серию открытых моделей и полный стек для agentic AI, включая веса, датасеты и инструменты для reinforcement learning. Компания делает ставку на длинный контекст, sparse MoE и эффективность вычислений, чтобы мультиагентные системы могли хранить и обмениваться длинными трассами и общей рабочей памятью.
Контраст обещаний и реальности: обещаний много - большие контексты, миллион токенов, сотни миллиардов параметров. Но в отличие от ранних громких релизов, здесь NVIDIA явно ставит на сочетание производительности и управляемой стоимости — за счёт разреженной активации и новых форматов точности.
Что именно выпустили
Nemotron 3 выходит в трех вариантах, нацеленных на разные рабочие нагрузки:
- Nemotron 3 Nano - гибридный Mamba Transformer с Mixture of Experts, примерно 31.6 миллиарда параметров, из которых примерно 3.2 миллиарда активны на проход (около 3.6 миллиарда с embeddings). Веса и рецепты Nano уже открыты на Hugging Face и доступен как NVIDIA NIM микросервис.
- Nemotron 3 Super - примерно 100 миллиардов параметров с до 10 миллиардов активных параметров на токен. Ориентирован на высокоточную дедуктивную логику в больших мультиагентных системах.
- Nemotron 3 Ultra - около 500 миллиардов параметров и до 50 миллиардов активных на токен. Предназначен для сложных исследовательских и планировочных рабочих нагрузок. Super и Ultra запланированы к выпуску в первой половине 2026 года.
Архитектура: гибрид Mamba Transformer + MoE
Ключевая идея - смесь Mamba 2 блоков, attention-блоков и разреженных экспертных (MoE) блоков в едином стеке. Для Nano NVIDIA описывает чередование Mamba 2, attention и MoE блоков: плотные FFN слои прежних поколений заменены MoE. Для каждого токена роутер выбирает небольшой набор экспертов - например, 6 из 128 в Nano - что позволяет держать активные параметры около 3.2 миллиарда при общем размере 31.6 миллиарда.
Объяснение простыми словами: MoE похож на набор узкоспециализированных микросервисов - для каждого входа система включает только несколько из них, чтобы не тянуть всю модель целиком. Это даёт масштаб параметров без пропорционального роста вычислений.
LatentMoE и предсказание нескольких токенов (Super и Ultra)
Для Super и Ultra NVIDIA вводит LatentMoE: токены проецируются в более низкоразмерное латентное пространство, эксперты работают в этом пространстве, затем результат проецируется обратно. Это снижает накладные расходы на коммуникацию и вычисления и позволяет иметь гораздо больше экспертов с большей специализацией.
Плюс - multi-token prediction: несколько выходных голов разделяют общий тронк для предсказания нескольких будущих токенов за один проход. На обучении это улучшает оптимизацию, а на inference это даёт возможности для speculative decoding и ускорений за счет генерации нескольких токенов за проход.
Данные и формат точности
Nemotron 3 предобучен на примерно 25 триллионах токенов, включая более 3 триллионов новых токенов по сравнению с поколением Nemotron 2. Nano использует наборы вроде Nemotron Common Crawl v2 point 1, Nemotron CC Code и Nemotron Pretraining Code v2 плюс специализированные датасеты для научного и reasoning контента.
Super и Ultra тренируются в формате NVFP4 - 4 битный формат с оптимизациями под ускорители NVIDIA: матричные умножения в NVFP4, аккумулирующие операции в повышенной точности. Это снижает потребление памяти и повышает пропускную способность при сохранении близкой к стандартной точности.
Ключевые показатели
- Nano даёт примерно 4x большую пропускную способность токенов по сравнению с Nemotron 2 Nano и существенно экономит токены reasoning.
- Все модели поддерживают нативные контекстные окна до 1 000 000 токенов, что открывает долгогоризонтное reasoning по большим документам, кодовым базам и длинным агентным трассам.
Доступность и ресурсы
Nemotron 3 Nano: веса и рецепты уже доступны на Hugging Face и как NVIDIA NIM микросервис. Super и Ultra планируются в первой половине 2026 года. NVIDIA опубликовала технический отчет и блог; технический отчет Nano доступен по ссылке: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Nano-Technical-Report.pdf.
Что это значит для индустрии
Тренд очевиден: переход от просто "больших моделей" к архитектурам, которые балансируют масштаб параметров и реальную цену inference. Nemotron 3 показывает, что для agentic AI важнее способность хранить и оперировать длинными контекстами и делать это экономично. Разреженная активация, латентные представления и multi-token decoding становятся инструментами масштабирования, а не только маркетинговыми фразами.
Для разработчиков и исследователей в России это сигнал: если ваша задача - мультиагентные сценарии, длительные трассы действий, или работа с огромными кодовыми базами и документами, то стоит протестировать Nano сейчас, планировать инфраструктуру под long-context и учитывать NVFP4-оптимизации при выборе железа и конвейера обучения.
Вывод и перспектива
NVIDIA явно двигает индустрию к практичным большим моделям - не только ради рекордов по параметрам, но ради управляемой стоимости и реальной пользы для agentic сценариев. Немедленных чудес это не гарантирует, но показывает направление: в ближайшие 6-12 месяцев мы увидим больше инструментов для поддержки long-context inference, больше обсуждений про NVFP4 и LatentMoE, и волны экспериментов с multi-token speculative decoding. Для тех, кто проектирует системы с долгой памятью и множеством агентов, Nemotron 3 - сигнал к действию, а не просто ещё один анонс.
