Индустрия ИИ столкнулась с проблемой: модели растут в размерах и требуют всё больше вычислительной мощности, превышая законы Мура.
В ответ NVIDIA разработала NVFP4 — новую технологию 4-битной плавающей точки, которая обещает впечатляющие показатели производительности.
NVFP4 дает гигантский прирост производительности
На GPU NVIDIA Blackwell Ultra пиковая пропускная способность NVFP4 достигает 15 петафлопс — втрое превышая FP8. В разработке показано: переход с FP8 на NVFP4 для inference значительно увеличивает throughput токенов, делая взаимодействие с моделями быстрее и отзывчивее.
Недавно NVIDIA поделилась рецептом быстрого обучения моделей с NVFP4: за 64 минуты и 36 секунд можно обучить Llama 3.1 с 405 миллиардами параметров — в 1.9 раза быстрее, чем с FP8. А в будущем Rubin превзойдет: до 35 петафлопс для обучения и 50 петафлопс для inference, утроив показатели по сравнению с Blackwell.
NVFP4 обеспечивает точность и совместимость
Крупные модели, такие как DeepSeek-R1, Llama 3.1 и Llama 2, демонстрируют результаты в MLPerf с NVFP4, сохраняя показатели точности, близкие к более высоким форматам.
Библиотеки типа NVIDIA Model Optimizer, LLM Compressor и torch.ao поддерживают квантование моделей в NVFP4 и большие размеры батчей без потери качества.
Активное применение в индустрии
Компании используют NVFP4 в production: Black Forest Labs достигла 6.3-кратного ускорения inference для Flux.2, а Radical Numerics — для научных задач с длинным контекстом. Cognition фиксирует снижение latency и рост throughput, а Red Hat масштабирует обучение и deployment больших языковых моделей.
NVIDIA интегрировала NVFP4 в Transformer Engine и Megatron-Bridge, активно сотрудничая с экосистемой, чтобы сделать эту технологию доступной и ускорить развитие крупномасштабных ИИ.
Что дальше?
Похоже, индустрия переходит от «быстро сделай RAG» к «правильно построить RAG». В следующем году технологии станут стандартом, а те, кто начнут раньше — выиграют. Вопрос в масштабировании на миллионы документов и практическом внедрении.


