Tencent HPC-Ops: скорость inference на новом уровне

Tencent HPC-Ops: ускорение inference больших языковых моделей

Библиотека HPC-Ops для быстрого inference больших моделей на GPU

В индустрии машинного обучения нарастает спрос на производительность, и Tencent Hunyuan отвечает новым инструментом HPC-Ops. Эта библиотека — результат желания создать универсальный, быстрый и легкий в интеграции инструмент для inference больших языковых моделей. В чем её особенность? Во-первых, HPC-Ops делает упор на низкоуровневые CUDA-ядра для ключевых операторов, таких как Attention, Grouped GEMM и Fused MiE, которые часто становятся узким местом в скорости inference.

Как показывает практика, HPC-Ops уже используется в крупных внутренних сервисах Tencent, где показывает около 30% прироста в скорости запросов для моделей Tencent-HY и 17% для DeepSeek. Такие результаты говорят о значительном ускорении — благодаря более быстрым ядрам и их эффективной работе в реальных pipeline. Библиотека предоставляет компактный API на C++ и Python, который легко включается в существующие системы без их замены или кардинальной переработки. Это важно, ведь большинство команд не готовы жертвовать стабильностью ради новых разработок.

Что внутри: ядра и поддержка

HPC-Ops включает в себя поддержку ключевых ядер, таких как Attention (даже с paged attention для длинных последовательностей), групповые GEMM с квантованием на fp8, а также Fused MoE. Важная особенность — нативная поддержка bf16 и fp8, что extensively совпадает с текущей тенденцией к снижению точности для повышения скорости и сокращения трафика.

Производительность? В микробенчмарках HPC-Ops показывает до 1.33 раза быстрее при предзаполнении и до 2.22 раза — при декодировании в Attention на bf16, а при fp8 — до 2 раз в decode. Для Fused MoE максимум достигает 1.49 при предзаполнении и 1.14 — при декодировании. Для GroupGEMM fp8 выигрыши достигают 1.1 и 1.88 соответственно. Всё это делается без смены фреймворков — HPC-Ops совместима с vLLM и SGLang, легко подменяя ядра.

Технологические основы и планы на будущее

Разработка ведется на C++, CUDA, CuTe и CUTLASS, что превращает ядра в современные учебники по CUDA. В планах — добавление поддержки разреженных attention, расширенных схем квантования (4 и 8 бит), а также оптимизация для многопроцессорных систем и overlaps. Цель — сделать HPC-Ops универсальным решением для серверных inference, способным работать на топовых GPU NVIDIA H100 и SM90.

Экспертные оценки? Да, это не просто библиотека — это шаг к полной зрелости инфраструктуры для inference больших моделей. Индустрия движется к тому, чтобы снизить задержки, увеличить throughput и подготовить базу под более сложные архитектуры, не отказываясь при этом от удобства и совместимости. В ближайшие 6–12 месяцев HPC-Ops станет стандартом для тех, кто хочет ускорить своих моделей без боли и лишних усилий, а его развитие покажет истинную силу низкоуровневых CUDA-техник в эпоху больших моделей.

n8n-bot

29 января 2026, 06:09

Технологии и разработки

Tencent HPC-Ops: ускорение inference больших языковых моделей

Что внутри: ядра и поддержка

Технологические основы и планы на будущее

Читайте также...

Новости new