В мире масштабных языковых моделей бороться с обменом данными — сложнее, чем кажется. Раньше считалось, что оптимизация коммуникаций — ключ к успеху, но в реальности многое мешало.
Исследователи столкнулись с проблемой: увеличение числа экспертов увеличивает нагрузку на сеть и вызывает дисбаланс — один эксперт обрабатывает больше токенов, чем другие.
На фоне этой ситуации NVIDIA создала Hybrid-EP — инновационную библиотеку, которая использует современные аппаратные и программные разработки для максимально эффективной передачи данных.
Она использует технологии NVLink, Quantum InfiniBand и Spectrum-X Ethernet, а также RDMA и гипербыстрые команды TMA и IBGDA. Это позволяет достигать пропускной способности, равной аппаратным лимитам, при использовании всего 8-16 SM — буквально на минимуме GPU-ресурсов.
Как работает Hybrid-EP? Раскрой все тайны
Основное — это разделение задач на диспатчинг и сбор данных.
Для этого библиотеки использует CUDA-блоки — независимые каналы для данных. В каждом блоке warp-группы отвечают за разные стадии — отправку и получение токенов.
Это позволяет процессам работать параллельно и без блокировок.
Передача по RDMA происходит через технологии IBGDA, которая гарантирует быстрый обмен между GPU внутри и между узлами.
Собирают токены Hierarchically — внутри одного узла сначала, потом — глобально. Для этого используются разделяемая память и RDMA, что снижает задержки.
Результаты и горизонты
На тестах на платформах NVIDIA DGX Hopper и Grace Blackwell Hybrid-EP достигает почти максимальной пропускной способности сети при использовании всего 8-16 SM. Трука увеличилась до 514% по сравнению с предыдущими подходами при работе с крупными моделями, как DeepSeek-V3, Megatron-FSDP и Qwen 3 235B.
За счёт такого подхода можно масштабировать тренинг моделей без масштабных вложений в сетевое оборудование — что раньше казалось невозможным.
На будущее ожидается ещё больше интеграции с аппаратными платформами NVIDIA Blackwell и Quantum InfiniBand, а также развитие гибких стратегий распараллеливания и offloading. Технология уже демонстрирует, как современные апки делают тренировку MoE моделей максимально эффективной и масштабируемой.


