Индустрия генеративных Retrieval систем сталкивается с дилеммой: как обеспечить соблюдение бизнес-ограничений при сохранении высокой скорости? Полезные рекомендации теперь требуют строгости, но стандартные методы тормозят работу. Google AI объявила о запуске STATIC — системы, которая решает эту проблему с помощью инновационной архитектуры.
STATIC — это фреймворк, основанный на преобразовании trie-структур в статичные матрицы CSR, что позволяет использовать векторизированные разреженные матричные операции, совместимые с аппаратным ускорением. Исследователи из Google DeepMind и YouTube создали двухэтапную стратегию поиска: на верхних слоях используют плотные битовые тензоры, в глубине — векторные операции VNTK, обеспечивающие статический граф. В результате скорость ограниченного декодирования увеличилась в 948 раз по сравнению с CPU-трейдами и достигла стабильных значений даже при росте размера словаря.
На тестах на TPU v6e с 3-миллиардной моделью latency для одного шага составила всего 0,033 мс — это быстрая альтернатива классическим Trie или бинарному поиску. В реальных продуктах — YouTube, Amazon — STATIC доказала свою эффективность: полностью соблюдение ограничений при скорости, которая увеличивает показатели просмотров и CTR.
Главные выводы? Система обладает масштабируемостью O(1), занимает до 1,5 ГБ памяти для 20 миллионов элементов, и прямо сейчас помогает повысить качество рекомендаций и соблюдение правил контента. В ближайшие месяцы ожидается, что подобные подходы станут стандартом для высокопроизводительных решений, а разработчики научатся использовать их в крупных системах. Static — это не просто ускорение, а новый уровень контроля и эффективности при работе с большими языковыми моделями.
