На фоне бурного роста требований к масштабируемым системам ИИ NVIDIA анонсировала выпуск Dynamo v0.9.0 — самой значительной модернизации фреймворка для распределённых инференсов.
Главное нововведение — отказ от тяжелых зависимостей NATS и ETCD в пользу более лёгких решений: Event Plane и Discovery Plane на базе ZeroMQ и MessagePack. Это делает инфраструктуру более лаконичной и удобной в процессе эксплуатации.
Интеграция мультимодальных возможностей
Динамика развития связана с расширением поддержки мультимодальных данных: теперь три бэкенда — vLLM, SGLang и TensorRT-LLM — позволяют обрабатывать текст, изображения и видео в рамках одного фреймворка.
Разделение кодировщиков для масштабированного решения
Появилась технология Encoder Disaggregation — разделение процессов Encode, Prefill и Decode, что позволяет запускать их на разных GPU. Благодаря этому решения становятся масштабируемыми и более эффективными.
Функция FlashIndexer: что изменилось
Новинка предназначена для сокращения задержек при управлении кешем с большими контекстными окнами. Вместо медленного поиска по кешу — более быстрый индекс и доступ к нужным токенам, что снижает время до первого токена и приближается к скорости локальных инференсов.
Улучшенное управление трафиком с помощью прогнозов
Интеллектуальный планировщик с использованием фильтров Калмана позволяет точнее предсказывать нагрузку GPUs и пики трафика. Также внедрены маршрутизирующие подсказки через API Gateway Kubernetes, что повышает точность распределения запросов.
Обновлены основные компоненты: vLLM до версии 0.14.1, SGLang — 0.5.8, TensorRT-LLM — 1.3.0rc1, NIXL до 0.9.0, а также библиотека dynamo-tokens в Rust, ускоряющая обработку токенов.
Все эти изменения позволяют полностью отказаться от dependence on NATS и ETCD, перейти к более гибкой и легкой архитектуре, а также реализовать полноценную поддержку мультимодальных данных с высокой скоростью и надежностью. В будущем ожидается закрепление тренда на более сложные и масштабируемые инференс-системы, где ключевую роль сыграют автоматизация и предиктивное управление нагрузкой.


