Поиск
При запуске LLM в production первые токены генерируются быстро, но последующие замедляются из-за лишних вычислений внимания. Эксперимент показывает: KV caching дает почти 5x ускорение для 1000 токенов.
21 декабря 2025, 09:38
