MemAgent: RL-подход для бесконечного контекстного окна в LLM-платформах

MemAgent: RL-фреймворк для безграничных контекстов в LLM

Представьте, что ваша языковая модель читает гигантские тексты как ленту новостей — без остановок, без тормозов. Новый фреймворк MemAgent на основе обучения с подкреплением переключается на потоковый режим: фиксированная память обрабатывает документ частями, а затем «перезаписывается», сохраняя лишь главное и забывая лишнее. Это даёт линейную сложность и масштабируемость до миллиона и более токенов без архитектурных переделок и внезапных провалов в качестве вывода.

Ключ к успеху — стратегия замены: модель читает фрагмент текста, обновляет память и движется дальше, как опытный журналист, который выделяет суть статьи и переходит к следующей теме, не перегружая разум деталями. Такой подход контрастирует с классическими методами — разреженным вниманием или удлинёнными позиционными эмбеддингами — где производительность часто падает на длинных контекстах.

MemAgent учат с помощью расширенной версии GRPO (Group Relative Policy Optimization) в многоразговорной среде DAPO. Правила-верификаторы оценивают, что важно сохранить, а что можно отбросить, — и агент постепенно учится фокусироваться на действительно нужных фрагментах текста.

В экспериментах на RULER и HotpotQA MemAgent обошёл такие сильные базовые модели, как Qwen2.5 и QwenLong-L1, демонстрируя высокую точность даже при 3,5 млн токенов. Результат? Практичное решение для глубокого анализа огромных документов и сложного повествования без задержек и просадок по качеству.

Готовы ли вы к эпохе безграничного контекста? Теперь это не фантастика, а реальность: MemAgent помогает LLM отвечать на вопросы по длиннейшим текстам с той же лёгкостью, с какой вы листаете социальные сети.

22 июля 2025, 14:42

Технологии и разработки

MemAgent: RL-подход для бесконечного контекстного окна в LLM-платформах

MemAgent: RL-фреймворк для безграничных контекстов в LLM

Новости new