Мир машинного обучения сталкивается с очередным важным знакомом: Google объявила о релизе TensorFlow 2.21. Это крупное обновление, в котором главным событием стала официальная замена TensorFlow Lite (TFLite) на новую платформу LiteRT, которая уже считается готовой к промышленному применению. LiteRT не просто продолжение, а универсальный движок для on-device inference, способный справляться с моделями на мобильных и Edge-устройствах.
Что же нового? Во-первых, LiteRT показала в 1.4 раза большую скорость на GPU по сравнению с TFLite, что особенно важно для сложных и генеративных моделей. Во-вторых, добавлена поддержка ускорения с помощью NPU (нейросетевого процессора) и унифицированный сценарий их использования — теперь можно легко запускать одни и те же модели на разных типах аппаратных платформ. У нас есть подтверждения: компании уже гоняются за внедрением этих решений, ведь они позволяют запускать большие ИИ-модели так же просто, как раньше — при этом расширяются возможности по квантованию и оптимизации моделей.
Вдобавок, TensorFlow расширил поддержку низко- precision операций, таких как int8 и int16x8, что существенно облегчает развёртывание на устройствах с ограниченной памятью. Нововведения охватывают и особые операции по преобразованию типов, а также поддержку int4 и int2 в ряде операторов — такие тонкие настройки позволяют повысить эффективность работы моделей на специфичных чипах. Самое главное — теперь можно конвертировать модели из PyTorch или JAX напрямую под платформу, минуя длинный путь через TensorFlow, что существенно сокращает цикл разработки и тестирования.
Векторные базы данных и поддержка quantization становятся ключевыми трендами. Google также сосредоточилась на долгосрочной стабильности: обновление зависимостей, безопасность, новые релизы Python — всё это показывает, что Google делает ставку не на быстрые скользящие решения, а на устойчивое развитие экосистемы ML.
Что дальше? Тенденция чёткая: индустрия переходит от «быстро реализовать RAG» к «правильно построить RAG». В ближайшие месяцы мы увидим более широкое внедрение новых ускорителей, расширение поддержки не только GPU, но и специализированных nichts, развитие автоматической оптимизации моделей и новых методов конвертации. Тех, кто научится правильно использовать эти технологии, ждёт преимущество в скорости, производительности и масштабируемости — всё это говорит о том, что основное движение сейчас — в сторону эффективности и гибкости.
Итог тут прост: если вы занимаетесь ML на устройстве, то пора пересмотреть подходы и подготовку данных, а все новые возможности — в вашей руке. Время экспериментировать и внедрять обновления, чтобы быть на гребне волны.
