IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • NVIDIA выпустила Nemotron 3 - гибрид Mamba Transformer MoE для агентного ИИ с контекстом в 1M токенов

    NVIDIA выпустила Nemotron 3 - гибрид Mamba Transformer MoE для агентного ИИ с контекстом в 1M токенов

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    NVIDIA выпустила Nemotron 3 - гибрид Mamba Transformer MoE для агентного ИИ с контекстом в 1M токенов

    NVIDIA объявила Nemotron 3 - открытую стековую семью моделей, ориентированную на агентный ИИ и сценарии долгого контекста, где требуется экономичный и масштабируемый инференс.

    Релиз включает веса моделей, рецепты обучения и инструменты для обучения с подкреплением, а также готовые ресурсы для разработчиков: технический отчет, блог, код и ноутбуки на GitHub, веса Nano на Hugging Face и NIM микросервис для деплоя.

    Что внутри семейства

    Nemotron 3 поставляется в трех уровнях, каждый заточен под разные компромиссы между емкостью, активным вычислением на токен и масштабом деплоя:

    • Nemotron 3 Nano - гибридный Mamba Transformer MoE с примерно 31.6 миллиарда параметров, при этом около 3.2 миллиарда параметров активны в каждом прямом проходе (примерно 3.6 миллиарда с учетом эмбеддингов) благодаря разреженной маршрутизации экспертов. Nano уже доступен с открытыми весами и рецептами на Hugging Face и как NVIDIA NIM микросервис.
    • Nemotron 3 Super - примерно 100 миллиардов параметров с возможностью до ~10 миллиардов активных параметров на токен; нацелен на высокоточное рассуждение в крупных мультиагентных развертываниях.
    • Nemotron 3 Ultra - масштаб до ~500 миллиардов параметров с до ~50 миллиардов активных параметров на токен; предназначен для сложных исследовательских и планировочных рабочих нагрузок. Super и Ultra запланированы к выпуску в первой половине 2026 года.

    Архитектура - гибрид Mamba Transformer MoE

    Стек комбинирует блоки Mamba, стандартные слои внимания и разреженные MoE-блоки в одном трансформерном стеке. В Nano NVIDIA описывает чередование блоков Mamba 2, слоев внимания и MoE, где плотные feedforward-слои заменены вычислениями по разреженным экспертам.

    Для Nano роутер обучается выбирать небольшой набор экспертов на токен - например, 6 из 128 маршрутизируемых экспертов - что удерживает активный параметрный след около 3.2 миллиарда при общей емкости в десятки миллиардов.

    Mamba 2 обеспечивает эффективное моделирование длинных последовательностей с обновлениями в духе state-space, слои внимания дают прямое взаимодействие токенов для задач со структурным рассуждением, а MoE обеспечивает рост параметров без пропорционального роста вычислений.

    LatentMoE и мульти-токенные головы для Super и Ultra

    В старших вариантах NVIDIA вводит LatentMoE: токены проецируются в пониженную латентную размерность, где работают эксперты, затем результаты проектируются обратно. Это снижает коммуникационные издержки и позволяет поддерживать намного больше экспертов для лучшей специализации.

    Также Super и Ultra включают мульти-токенные головы предсказания, которые прогнозируют несколько будущих токенов за один проход; это улучшает динамику обучения и открывает путь к ускорению инференса через спекулятивное декодирование.

    Данные, точность и контексты

    Семья была предобучена на очень большом смеси текста и кода - NVIDIA сообщает примерно 25 триллионов токенов предобучения, включая более 3 триллионов новых токенов по сравнению с предыдущим поколением Nemotron. Данные Nano включают варианты Common Crawl, корпуса кода и целевые научные и задачевые датасеты для рассуждения.

    Super и Ultra в основном обучались с использованием формата NVFP4, 4-битной плавающей точки, оптимизированной под ускорители NVIDIA: умножения матриц выполняются в NVFP4, накопления - в более высокой точности. Это снижает память и повышает пропускную способность при сохранении близкой к стандартной точности.

    Все варианты поддерживают нативные контекстные окна до 1 000 000 токенов и оптимизированы под долгосрочное рассуждение, что критично для мультиагентных систем с длинными трассами и общими рабочими памятьми.

    Производительность и доступность

    NVIDIA сообщает, что Nemotron 3 Nano обеспечивает примерно в четыре раза большую пропускную способность токенов по сравнению с Nemotron 2 Nano и существенно сокращает расход токенов на рассуждение, при этом поддерживая окно в 1 миллион токенов. Nano уже доступен; Super и Ultra планируются в H1 2026.

    Ключевые выводы

    • Открытая трехуровневая семья для агентного ИИ: Nano (~31.6B, ~3.2B active), Super (~100B, до ~10B active), Ultra (~500B, до ~50B active) для эффективного длинного контекста в мультиагентных сценариях.
    • Гибрид Mamba Transformer MoE с контекстом в 1M токенов: чередование Mamba 2, внимания и MoE дает долгий контекст, избирательное внимание для структурного рассуждения и параметрное масштабирование без прямого роста вычислений.
    • LatentMoE и мульти-токенные головы в Super/Ultra позволяют иметь больше экспертов при меньших коммуникационных затратах и дают тренировочные и инференсные преимущества.
    • Большие предобучающие данные и NVFP4: около 25T токенов, включая ~3T новых, и использование NVFP4 в старших вариантах для экономии памяти и скорости.

    Куда движется индустрия

    Релиз иллюстрирует тенденцию к созданию открытых стеков, ориентированных на реальные мультиагентные рабочие нагрузки с экстремально длинными контекстами. Акцент смещается от простого увеличения плотных параметров к гибридным архитектурам и разреженным экспертам, которые позволяют держать вычисления управляемыми при росте емкости.

    Появление LatentMoE и мульти-токенных голов показывает, что следующие шаги индустрии направлены на снижение коммуникационных затрат и ускорение инференса без потери качества рассуждения.

    Вывод для разработчиков

    Если вы работаете с мультиагентными системами или задачами, где требуется анализ больших рабочих контекстов, релиз Nemotron 3 дает инструменты и варианты: Nano уже можно тестировать локально и в облаке, а старшие варианты обещают масштабируемую специализацию экспертов и более экономичный инференс в 2026 году.

    n8n-bot
    21 декабря 2025, 09:40
    Технологии и разработки

    Читайте также...

    Hugging Face Hugging Face
    Hugging Face — платформа в сфере ИИ, фокусирующаяся на моделях обработки естественного языка. Она предоставляет репозито...
    NVIDIA NVIDIA
    NVIDIA – это ведущая компания в области вычислений на основе искусственного интеллекта, разрабатывающая графические проц...

    Новости new

    Искусственный интеллект помогает создавать мебель по текстовому запросу
    Искусственный интеллект помогает создавать мебель по текстовому запросу
    Новости индустрии ИИ
    16 марта 2026, 15:05
    Как MIT защищает данные пациентов от утечек при помощи ИИ
    Как MIT защищает данные пациентов от утечек при помощи ИИ
    Новости индустрии ИИ
    16 марта 2026, 15:03
    Последние события в мире ИИ: ключевые новости и разработки
    Последние события в мире ИИ: ключевые новости и разработки
    Новости индустрии ИИ
    16 марта 2026, 09:02
    Пять перспективных стартапов получили поддержку в AI-акселераторе Google и Accel India
    Пять перспективных стартапов получили поддержку в AI-акселераторе Google и Accel India
    Новости индустрии ИИ
    16 марта 2026, 03:05
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026