За последние два года индустрия борется за увеличение длины контекста у языковых моделей: от 4 тысяч до миллиона токенов. Обещания масштабных окон вызывают восхищение — но за кулисами кроется серьёзная проблема памяти. В стандартных трансформерах для хранения всей истории приходится выделять сотни гигабайт GPU — прямо как если бы вы пытались держать в голове все книги библиотеки. Это сильно сдерживает развитие и внедрение таких систем.
Исторически RNN работали по принципу «запомнил и обновил», не требуя гигантских ресурсов. А трансформеры, наоборот, хранят прошлое через буферы Key и Value — а значит, требуют тысяч гигабайт памяти для миллионных последовательностей. Что делать?
Инновационный подход Google: Infini-attention
Разработчики из Google создали технологию, которая объединяет локальное внимание — фокус внутри частей текста — с глобальным, через сжатые сводки сегментов. Представьте: вы разбиваете длинный текст на блоки, внутри каждого ищете важное, а затем складываете все это словно конспект. Эти сводки аккумулируют смысл, и их можно обновлять без перезаписи всего массива — благодаря специальной резидуальной логике.
При генерации следующего слова модель обращается к этим сводкам и сочетает их с локальными данными, балансируя с помощью Learned gating scalar — он помогает системе выбирать, когда важна глобальная память, а когда локальный контекст.
Что из этого вышло? Вдохновляющие результаты
Infini-attention уменьшает память в 114 раз по сравнению с традиционными кешами. при этом показывает отличные показатели — например, на benchmark PG19 разгоняет perplexity до новых высот, а имитация поиска passkey на миллионе токенов получается успешно после тонкой настройки. Более того, модель в 1.6 миллиона параметров справляется с длинными текстами — до 65 тысяч токенов.
Анализ показывает, что внимание HEAD’ов специализируются: одни фокусируются только на локали, другие — только на глобале, третьи объединяют оба подхода — что говорит о наличии встроенных механизмов переключения и адаптации.
К чему всё это ведёт? Взгляд в будущее
Хотя Infini-attention явно не полностью вытесняет внешние базы данных или retrieval-аппараты, она открывает путь к моделям с очень длинной памятью — без гигантских затрат ресурсов. В ближайшие 6-12 месяцев мы увидим все больше систем, использующих подобную технологию, чтобы отвечать на запросы, требующие глубокого анализа больших массивов данных. Те, кто освоит её первым, смогут создавать системы, не требующие огромных GPU-ферм.
Следующий шаг — масштабирование этой архитектуры до ещё больших данных и расширение возможностей кэширования, что станет настоящим прорывом для обработки «высокой длины» в ИИ.


