Команда Sakana AI и NVIDIA представила практический способ сделать большие языковые модели быстрее и дешевле. Вместо смены архитектуры исследователи оптимизировали самый дорогой участок вычислений, блоки feedforward (FFN), которые съедают большую часть ресурсов при обучении и инференсе.
Ключевая идея проста: в реальной работе нейросети многие нейроны в FFN не активируются и фактически дают ноль. Обычно GPU все равно тратит время на «пустые» операции. Новый подход позволяет пропускать эти нули без критичных накладных расходов.
Почему это важно для индустрии ИИ
Сегодня масштабирование LLM упирается в стоимость: нужны дорогие ускорители, много энергии и памяти. По оценкам авторов, на FFN приходится более двух третей параметров и свыше 80% вычислений в крупных моделях. Если ускорять именно этот участок, выигрыш ощущается сразу и в обучении, и в продакшене.
Это особенно важно для компаний, которые запускают массовые AI-сервисы. Снижение затрат на токен напрямую влияет на цену API, скорость ответа и экономику дата-центров.
Что именно предложили Sakana AI и NVIDIA
Формат TwELL вместо классической sparse-упаковки
Исследователи разработали формат TwELL (Tile-wise ELLPACK). Он учитывает, как современные GPU выполняют матричные операции, небольшими «плитками» (tiles). В отличие от старых sparse-форматов, TwELL можно собирать прямо в конце текущего kernel-прохода, без отдельного запуска и лишнего чтения памяти.
Проще говоря, модель не тратит дополнительное время на подготовку разреженных данных, поэтому выгода от пропуска нулей не съедается служебными операциями.
Слитые CUDA-ядра для инференса и гибрид для обучения
Для инференса сделано fused kernel, где несколько шагов FFN объединены в один проход. Промежуточные данные не выгружаются лишний раз в глобальную память, что снижает нагрузку на DRAM и повышает скорость.
Для обучения применен гибридный sparse-формат: «хорошо разреженные» строки идут в компактную sparse-матрицу, а сложные случаи, где активных значений много, отправляются в dense-ветку. Это делает метод устойчивым на длинном обучении, где паттерны активаций сильно плавают.
Минимальные изменения в рецепте обучения
Авторы заявляют, что для запуска подхода достаточно двух шагов:
- Заменить SiLU на ReLU в gate-активации, чтобы получать точные нули.
- Добавить L1-регуляризацию на скрытые активации FFN с коэффициентом около 2×10⁻⁵.
Остальные гиперпараметры, по данным работы, можно не трогать: learning rate, batch size, оптимизатор и weight decay остаются прежними.
Результаты тестов: быстрее, экономичнее, почти без просадки
На узле из восьми H100 (длина контекста 2048) авторы получили ускорение инференса примерно от 17% до 20,5% в зависимости от размера модели (0,5B–2B). Энергопотребление на токен снизилось до 17%, а в ряде конфигураций улучшились и training throughput, и использование памяти.
По качеству изменения минимальны: на большинстве бенчмарков точность осталась на том же уровне или просела в пределах статистического шума. Также отмечено, что на менее специализированном железе, например RTX PRO 6000, относительный выигрыш может быть даже выше.
Ограничения и открытые вопросы
- При выбранной L1-настройке часть нейронов может «умирать» (постоянно не активироваться).
- Метод лучше работает в gated FFN; для негейтированной версии ускорение ниже.
- Перенос на уже обученные плотные модели через дообучение пока заявлен как будущее направление.
Тем не менее код и CUDA-ядра опубликованы открыто, а значит индустрия быстро проверит воспроизводимость на других стеках и задачах.
Главный вывод
Работа Sakana AI и NVIDIA показывает важный сдвиг: ускорять LLM можно не только за счет новых архитектур, но и за счет более умной реализации вычислений на уровне GPU-кернелов. Если результаты подтвердятся в широком продакшене, это даст рынку более дешевые и быстрые AI-сервисы без заметной потери качества.
