IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Новости индустрии ИИ
    • LightSeek представила TokenSpeed: новый движок инференса для ИИ-агентов в кодинге

    LightSeek представила TokenSpeed: новый движок инференса для ИИ-агентов в кодинге

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    LightSeek представила TokenSpeed: новый движок инференса для ИИ-агентов в кодинге

    Почему инференс стал узким местом для агентного ИИ

    Пока рынок обсуждает новые модели, на практике все чаще упирается в скорость их обслуживания. Для систем вроде Claude Code, Codex и Cursor важен не только «ум» модели, но и то, как быстро и стабильно она отвечает под нагрузкой.

    Именно на эту проблему нацелена LightSeek Foundation, выпустившая TokenSpeed — новый open-source движок инференса для LLM под лицензией MIT. Проект пока находится в режиме preview, но уже заявлен как инфраструктурный инструмент для агентных сценариев, где обычные бенчмарки часто не отражают реальную картину.

    Чем агентные нагрузки отличаются от обычного чат-бота

    В кодинговых агентах сессии длиннее и сложнее: контекст может превышать 50 000 токенов, а диалог тянется десятки шагов. В таких условиях нужно одновременно держать высокий общий поток и быстро отвечать каждому конкретному пользователю.

    Проще говоря, важны две метрики: TPM (сколько токенов в минуту обрабатывает один GPU) и TPS (сколько токенов в секунду получает пользователь). TokenSpeed оптимизируют сразу под обе цели: максимальный TPM при гарантированном «пороге отзывчивости» по TPS, обычно около 70 и выше.

    Архитектура TokenSpeed: 5 опорных компонентов

    1) Моделирование параллелизма через компилятор

    В основе — подход SPMD (одна программа, разные части данных). Разработчику не нужно вручную прописывать всю межпроцессную коммуникацию: достаточно указать размещение входов и выходов, а легковесный статический компилятор сам соберет нужные коллективные операции.

    2) Планировщик с разделением control plane и execution plane

    Управляющая часть сделана на C++ как конечный автомат, где корректность работы с KV-cache проверяется на этапе компиляции, а не уже в проде. Это важно, потому что ошибки в кэше контекста у LLM-сервисов встречаются особенно часто.

    Исполняющая часть при этом остается на Python, чтобы командам было проще и быстрее внедрять новые фичи.

    3) Модульный слой GPU-ядер

    В TokenSpeed вычислительные ядра вынесены в отдельную подключаемую систему с публичным API и реестром выбора. Это дает гибкость для разных ускорителей, а не только одной аппаратной платформы.

    4) Оптимизации для MLA

    Команда отдельно усилила MLA (Multi-head Latent Attention) для агентных нагрузок на NVIDIA Blackwell. По заявлению разработчиков, их реализация уже принята в vLLM, что косвенно подтверждает практическую ценность подхода.

    5) Интеграция SMG

    Через SMG (PyTorch-native компонент) снижаются накладные расходы при передаче запроса от CPU-оркестрации к GPU-исполнению. Это помогает убрать лишние миллисекунды на «стыке» систем.

    Результаты тестов: сравнение с TensorRT-LLM на NVIDIA B200

    Сравнение проводили на трассах SWE-smith, которые близки к реальному трафику кодинговых агентов. В качестве тестовой модели использовали Kimi K2.5, а конкурентом выступал TensorRT-LLM.

    • В режиме минимальной задержки TokenSpeed оказался примерно на 9% быстрее.
    • По пропускной способности при уровне около 100 TPS на пользователя выигрыш составил примерно 11%.
    • В ряде decode-сценариев со speculative decoding и длинным префиксом KV-cache задержка снижалась почти в 2 раза относительно TensorRT-LLM.

    Важно: эти цифры относятся к single-deployment конфигурации, без disaggregated-сценариев. Поддержка PD-disaggregation, по словам команды, еще дорабатывается.

    Почему это важно для рынка ИИ

    Если генеративный ИИ идет в массовую разработку ПО, то победит не только лучшая модель, но и лучшая инфраструктура инференса. TokenSpeed показывает сдвиг в сторону специализированных движков под агентные задачи, где критичны длинный контекст, стабильная задержка и высокая плотность запросов на GPU.

    Для индустрии это сигнал: конкуренция смещается на уровень системной инженерии. А для команд, строящих AI-продукты, появление MIT-решения такого класса может снизить зависимость от закрытых стеков и ускорить эксперименты в продакшене.

    n8n-bot
    8 мая 2026, 06:03
    Новости индустрии ИИ

    Новости new

    LightSeek представила TokenSpeed: новый движок инференса для ИИ-агентов в кодинге
    LightSeek представила TokenSpeed: новый движок инференса для ИИ-агентов в кодинге
    Новости индустрии ИИ
    8 мая 2026, 06:03
    Новая методика MIT поможет обучать ИИ на устройствах с ограниченными ресурсами
    Новая методика MIT поможет обучать ИИ на устройствах с ограниченными ресурсами
    Новости индустрии ИИ
    7 мая 2026, 23:30
    ИИ на смарт-часах и старых смартфонах: MIT ускорил приватное обучение нейросетей на 81%
    ИИ на смарт-часах и старых смартфонах: MIT ускорил приватное обучение нейросетей на 81%
    Новости индустрии ИИ
    7 мая 2026, 00:02
    Обучение ИИ на смарт-часах: новый метод MIT ускоряет процесс на 81%
    Обучение ИИ на смарт-часах: новый метод MIT ускоряет процесс на 81%
    Новости индустрии ИИ
    6 мая 2026, 12:04
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026