IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • Tencent Hunyuan выпустила HPC-Ops: высокопроизводительная библиотека операторов для Large Language Models

    Tencent HPC-Ops: ускорение inference больших языковых моделей

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    Tencent HPC-Ops: ускорение inference больших языковых моделей
    Библиотека HPC-Ops для быстрого inference больших моделей на GPU

    В индустрии машинного обучения нарастает спрос на производительность, и Tencent Hunyuan отвечает новым инструментом HPC-Ops. Эта библиотека — результат желания создать универсальный, быстрый и легкий в интеграции инструмент для inference больших языковых моделей. В чем её особенность? Во-первых, HPC-Ops делает упор на низкоуровневые CUDA-ядра для ключевых операторов, таких как Attention, Grouped GEMM и Fused MiE, которые часто становятся узким местом в скорости inference.

    Как показывает практика, HPC-Ops уже используется в крупных внутренних сервисах Tencent, где показывает около 30% прироста в скорости запросов для моделей Tencent-HY и 17% для DeepSeek. Такие результаты говорят о значительном ускорении — благодаря более быстрым ядрам и их эффективной работе в реальных pipeline. Библиотека предоставляет компактный API на C++ и Python, который легко вклю­чается в существующие системы без их замены или кардинальной переработки. Это важно, ведь большинство команд не готовы жертвовать стабильностью ради новых разработок.

    Что внутри: ядра и поддержка

    HPC-Ops включает в себя поддержку ключевых ядер, таких как Attention (даже с paged attention для длинных последовательностей), групповые GEMM с квантованием на fp8, а также Fused MoE. Важная особенность — нативная поддержка bf16 и fp8, что extensively совпадает с текущей тенденцией к снижению точности для повышения скорости и сокращения трафика.

    Производительность? В микробенчмарках HPC-Ops показывает до 1.33 раза быстрее при предзаполнении и до 2.22 раза — при декодировании в Attention на bf16, а при fp8 — до 2 раз в decode. Для Fused MoE максимум достигает 1.49 при предзаполнении и 1.14 — при декодировании. Для GroupGEMM fp8 выигрыши достигают 1.1 и 1.88 соответственно. Всё это делается без смены фреймворков — HPC-Ops совместима с vLLM и SGLang, легко подменяя ядра.

    Технологические основы и планы на будущее

    Разработка ведется на C++, CUDA, CuTe и CUTLASS, что превращает ядра в современные учебники по CUDA. В планах — добавление поддержки разреженных attention, расширенных схем квантования (4 и 8 бит), а также оптимизация для многопроцессорных систем и overlaps. Цель — сделать HPC-Ops универсальным решением для серверных inference, способным работать на топовых GPU NVIDIA H100 и SM90.

    Экспертные оценки? Да, это не просто библиотека — это шаг к полной зрелости инфраструктуры для inference больших моделей. Индустрия движется к тому, чтобы снизить задержки, увеличить throughput и подготовить базу под более сложные архитектуры, не отказываясь при этом от удобства и совместимости. В ближайшие 6–12 месяцев HPC-Ops станет стандартом для тех, кто хочет ускорить своих моделей без боли и лишних усилий, а его развитие покажет истинную силу низкоуровневых CUDA-техник в эпоху больших моделей.

    n8n-bot
    29 января 2026, 06:09
    Технологии и разработки

    Читайте также...

    DeepSeek DeepSeek
    ChatGPT is a free-to-use AI system designed for engaging conversations, gaining insights, automating tasks, and explorin...
    NVIDIA NVIDIA
    NVIDIA – это ведущая компания в области вычислений на основе искусственного интеллекта, разрабатывающая графические проц...
    Attention Attention
    Это современный голосовой ассистент для команд продаж, который помогает ускорить процесс закрытия сделок, предоставляя п...

    Новости new

    Искусственный интеллект помогает создавать мебель по текстовому запросу
    Искусственный интеллект помогает создавать мебель по текстовому запросу
    Новости индустрии ИИ
    16 марта 2026, 15:05
    Как MIT защищает данные пациентов от утечек при помощи ИИ
    Как MIT защищает данные пациентов от утечек при помощи ИИ
    Новости индустрии ИИ
    16 марта 2026, 15:03
    Последние события в мире ИИ: ключевые новости и разработки
    Последние события в мире ИИ: ключевые новости и разработки
    Новости индустрии ИИ
    16 марта 2026, 09:02
    Пять перспективных стартапов получили поддержку в AI-акселераторе Google и Accel India
    Пять перспективных стартапов получили поддержку в AI-акселераторе Google и Accel India
    Новости индустрии ИИ
    16 марта 2026, 03:05
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026