IntellectNews
IntellectNews
    IntellectNews
    • Анализ изображений
    • Бизнес-исследования
    • Видео и анимация
    • Генерация и преобразование голоса
    • Генерация изображений
    • Дизайн интерьеров и архитектура
    • Другое
    • Здоровье и благополучие
    • Искусство и креативный дизайн
    • Исследования и анализ данных
    • Маркетинг и реклама
    • Музыка и аудио
    • Написание и редактирование
    • Обнаружение ИИ и антидетекция
    • Образование и перевод
    • Офис и продуктивность
    • Повседневная жизнь
    • Право и финансы
    • Программирование и разработка
    • Социальные сети
    • Управление бизнесом
    • Чат-боты и виртуальные собеседники
    • Новости ИИ
      • Автоматизация
      • Общество и рынок труда
      • ИИ в науке
      • ИИ в развлечениях
      • Персональный ИИ
      • Робототехника и автономные системы
      • Эксперименты и тесты
      • Новости индустрии ИИ
      • Технологии и разработки
      • Применение ИИ
      • Законодательство и этика
    • Блог
    • Промты
      • Business
    Поиск
    Авторизация
    Забыли пароль?
    Регистрация
    • Главная
    • Новости
    • Новости индустрии ИИ
    • Sakana AI и NVIDIA ускорили LLM до 20% без потери качества за счет разреженности

    Sakana AI и NVIDIA ускорили LLM до 20% без потери качества за счет разреженности

    Автоматизация
    Влияние ИИ на общество и рынок труда
    ИИ в науке
    ИИ в развлечениях
    Персональный ИИ и инструменты
    Робототехника и автономные системы
    Эксперименты и тесты
    Новости индустрии ИИ
    Технологии и разработки
    Применение ИИ
    Законодательство и этика
    Sakana AI и NVIDIA ускорили LLM до 20% без потери качества за счет разреженности

    Команда Sakana AI и NVIDIA представила практический способ сделать большие языковые модели быстрее и дешевле. Вместо смены архитектуры исследователи оптимизировали самый дорогой участок вычислений, блоки feedforward (FFN), которые съедают большую часть ресурсов при обучении и инференсе.

    Ключевая идея проста: в реальной работе нейросети многие нейроны в FFN не активируются и фактически дают ноль. Обычно GPU все равно тратит время на «пустые» операции. Новый подход позволяет пропускать эти нули без критичных накладных расходов.

    Почему это важно для индустрии ИИ

    Сегодня масштабирование LLM упирается в стоимость: нужны дорогие ускорители, много энергии и памяти. По оценкам авторов, на FFN приходится более двух третей параметров и свыше 80% вычислений в крупных моделях. Если ускорять именно этот участок, выигрыш ощущается сразу и в обучении, и в продакшене.

    Это особенно важно для компаний, которые запускают массовые AI-сервисы. Снижение затрат на токен напрямую влияет на цену API, скорость ответа и экономику дата-центров.

    Что именно предложили Sakana AI и NVIDIA

    Формат TwELL вместо классической sparse-упаковки

    Исследователи разработали формат TwELL (Tile-wise ELLPACK). Он учитывает, как современные GPU выполняют матричные операции, небольшими «плитками» (tiles). В отличие от старых sparse-форматов, TwELL можно собирать прямо в конце текущего kernel-прохода, без отдельного запуска и лишнего чтения памяти.

    Проще говоря, модель не тратит дополнительное время на подготовку разреженных данных, поэтому выгода от пропуска нулей не съедается служебными операциями.

    Слитые CUDA-ядра для инференса и гибрид для обучения

    Для инференса сделано fused kernel, где несколько шагов FFN объединены в один проход. Промежуточные данные не выгружаются лишний раз в глобальную память, что снижает нагрузку на DRAM и повышает скорость.

    Для обучения применен гибридный sparse-формат: «хорошо разреженные» строки идут в компактную sparse-матрицу, а сложные случаи, где активных значений много, отправляются в dense-ветку. Это делает метод устойчивым на длинном обучении, где паттерны активаций сильно плавают.

    Минимальные изменения в рецепте обучения

    Авторы заявляют, что для запуска подхода достаточно двух шагов:

    1. Заменить SiLU на ReLU в gate-активации, чтобы получать точные нули.
    2. Добавить L1-регуляризацию на скрытые активации FFN с коэффициентом около 2×10⁻⁵.

    Остальные гиперпараметры, по данным работы, можно не трогать: learning rate, batch size, оптимизатор и weight decay остаются прежними.

    Результаты тестов: быстрее, экономичнее, почти без просадки

    На узле из восьми H100 (длина контекста 2048) авторы получили ускорение инференса примерно от 17% до 20,5% в зависимости от размера модели (0,5B–2B). Энергопотребление на токен снизилось до 17%, а в ряде конфигураций улучшились и training throughput, и использование памяти.

    По качеству изменения минимальны: на большинстве бенчмарков точность осталась на том же уровне или просела в пределах статистического шума. Также отмечено, что на менее специализированном железе, например RTX PRO 6000, относительный выигрыш может быть даже выше.

    Ограничения и открытые вопросы

    • При выбранной L1-настройке часть нейронов может «умирать» (постоянно не активироваться).
    • Метод лучше работает в gated FFN; для негейтированной версии ускорение ниже.
    • Перенос на уже обученные плотные модели через дообучение пока заявлен как будущее направление.

    Тем не менее код и CUDA-ядра опубликованы открыто, а значит индустрия быстро проверит воспроизводимость на других стеках и задачах.

    Главный вывод

    Работа Sakana AI и NVIDIA показывает важный сдвиг: ускорять LLM можно не только за счет новых архитектур, но и за счет более умной реализации вычислений на уровне GPU-кернелов. Если результаты подтвердятся в широком продакшене, это даст рынку более дешевые и быстрые AI-сервисы без заметной потери качества.

    n8n-bot
    11 мая 2026, 18:04
    Новости индустрии ИИ

    Новости new

    Sakana AI и NVIDIA ускорили LLM до 20% без потери качества за счет разреженности
    Sakana AI и NVIDIA ускорили LLM до 20% без потери качества за счет разреженности
    Новости индустрии ИИ
    11 мая 2026, 18:04
    MIT и партнёры внедрили ИИ-подсчёт рыб и усилили работу волонтёров-наблюдателей
    MIT и партнёры внедрили ИИ-подсчёт рыб и усилили работу волонтёров-наблюдателей
    Новости индустрии ИИ
    11 мая 2026, 12:05
    MIT внедряет компьютерное зрение для точного подсчета рыб в реках Массачусетса
    MIT внедряет компьютерное зрение для точного подсчета рыб в реках Массачусетса
    Новости индустрии ИИ
    11 мая 2026, 06:04
    MIT и партнеры научили ИИ считать рыбу в реках точнее волонтерских наблюдений
    MIT и партнеры научили ИИ считать рыбу в реках точнее волонтерских наблюдений
    Новости индустрии ИИ
    11 мая 2026, 00:02
    Выберите обязательные опции

    Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

    Принять
    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

    IntellectNews © 2026

    IntellectNews

    Вы принимаете условия политики в отношении обработки персональных данных и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, IntellectNews © 2026