IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Технологии и разработки
    • Tencent Hunyuan выпустила HPC-Ops: высокопроизводительная библиотека операторов для Large Language Models

    Tencent HPC-Ops: ускорение inference больших языковых моделей

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    Tencent HPC-Ops: ускорение inference больших языковых моделей
    Библиотека HPC-Ops для быстрого inference больших моделей на GPU

    В индустрии машинного обучения нарастает спрос на производительность, и Tencent Hunyuan отвечает новым инструментом HPC-Ops. Эта библиотека — результат желания создать универсальный, быстрый и легкий в интеграции инструмент для inference больших языковых моделей. В чем её особенность? Во-первых, HPC-Ops делает упор на низкоуровневые CUDA-ядра для ключевых операторов, таких как Attention, Grouped GEMM и Fused MiE, которые часто становятся узким местом в скорости inference.

    Как показывает практика, HPC-Ops уже используется в крупных внутренних сервисах Tencent, где показывает около 30% прироста в скорости запросов для моделей Tencent-HY и 17% для DeepSeek. Такие результаты говорят о значительном ускорении — благодаря более быстрым ядрам и их эффективной работе в реальных pipeline. Библиотека предоставляет компактный API на C++ и Python, который легко вклю­чается в существующие системы без их замены или кардинальной переработки. Это важно, ведь большинство команд не готовы жертвовать стабильностью ради новых разработок.

    Что внутри: ядра и поддержка

    HPC-Ops включает в себя поддержку ключевых ядер, таких как Attention (даже с paged attention для длинных последовательностей), групповые GEMM с квантованием на fp8, а также Fused MoE. Важная особенность — нативная поддержка bf16 и fp8, что extensively совпадает с текущей тенденцией к снижению точности для повышения скорости и сокращения трафика.

    Производительность? В микробенчмарках HPC-Ops показывает до 1.33 раза быстрее при предзаполнении и до 2.22 раза — при декодировании в Attention на bf16, а при fp8 — до 2 раз в decode. Для Fused MoE максимум достигает 1.49 при предзаполнении и 1.14 — при декодировании. Для GroupGEMM fp8 выигрыши достигают 1.1 и 1.88 соответственно. Всё это делается без смены фреймворков — HPC-Ops совместима с vLLM и SGLang, легко подменяя ядра.

    Технологические основы и планы на будущее

    Разработка ведется на C++, CUDA, CuTe и CUTLASS, что превращает ядра в современные учебники по CUDA. В планах — добавление поддержки разреженных attention, расширенных схем квантования (4 и 8 бит), а также оптимизация для многопроцессорных систем и overlaps. Цель — сделать HPC-Ops универсальным решением для серверных inference, способным работать на топовых GPU NVIDIA H100 и SM90.

    Экспертные оценки? Да, это не просто библиотека — это шаг к полной зрелости инфраструктуры для inference больших моделей. Индустрия движется к тому, чтобы снизить задержки, увеличить throughput и подготовить базу под более сложные архитектуры, не отказываясь при этом от удобства и совместимости. В ближайшие 6–12 месяцев HPC-Ops станет стандартом для тех, кто хочет ускорить своих моделей без боли и лишних усилий, а его развитие покажет истинную силу низкоуровневых CUDA-техник в эпоху больших моделей.

    n8n-bot
    29 января 2026, 06:09
    Технологии и разработки

    Читайте также...

    DeepSeek DeepSeek
    ChatGPT is a free-to-use AI system designed for engaging conversations, gaining insights, automating tasks, and explorin...
    NVIDIA NVIDIA
    NVIDIA – это ведущая компания в области вычислений на основе искусственного интеллекта, разрабатывающая графические проц...
    Attention Attention
    Это современный голосовой ассистент для команд продаж, который помогает ускорить процесс закрытия сделок, предоставляя п...

    Новости new

    Релиз GPT-5.4 и нейросети, которые улучшают сами себя: новая эра автономного ИИ
    Релиз GPT-5.4 и нейросети, которые улучшают сами себя: новая эра автономного ИИ
    Новости индустрии ИИ
    30 апреля 2026, 06:02
    MIT и IBM открывают лабораторию для развития ИИ и квантовых технологий
    MIT и IBM открывают лабораторию для развития ИИ и квантовых технологий
    Новости индустрии ИИ
    29 апреля 2026, 18:02
    Новый метод позволяет обучать ИИ на устройствах с ограниченными ресурсами
    Новый метод позволяет обучать ИИ на устройствах с ограниченными ресурсами
    Новости индустрии ИИ
    29 апреля 2026, 12:02
    Как создать «скромный» ИИ: новые подходы в медицинской диагностике
    Как создать «скромный» ИИ: новые подходы в медицинской диагностике
    Новости индустрии ИИ
    27 апреля 2026, 18:02
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026