В последние годы системы агентного ИИ, использующие большие языковые модели и подключённые к инструментам, демонстрируют впечатляющие результаты в научных открытиях, разработке программного обеспечения и медицине. Однако за блестящими кейсами скрываются серьёзные недочёты: низкая надёжность, слабое долгосрочное планирование и плохая генерализация в реальных условиях.
Авторский коллектив из Стэнфорда, Гарварда, UC Berkeley и Caltech предложил унифицированную модель, которая позволяет понять, как эти системы должны адаптироваться. В основе — модель агента с тремя ключевыми компонентами: модулем планирования, управляющим цепочками действий (используя как статические, так и динамические стратегии), модулем использования инструментов, связывающим агента с внешними сервисами, и памятью, хранящей как актуальные данные, так и долгосрочные знания через Retrival-augmented generation.
Четыре подхода к адаптации
Авторы выделили четыре стратегии адаптации, основанные на двух бинарных включениях: кто обучается — агент или инструменты — и откуда берется сигнал обратной связи — из процесса использования инструментов или финального результата агента.
- A1: обучение агента по результатам использования инструментов. Например, алгоритмы Toolformer или DeepRetrieval, где модель оптимизируется на метриках эффективности инструментов, а не только финального ответа.
- A2: обучение агента по итоговому ответу, без внутренней разбивки на работу с инструментами, что порой приводит к игнорированию последних, если не задать правильное supervision.
- T1: обучение инструментов вне зависимости от агента — чтобы сделать их более универсальными, например, оптимизируя поиск по базе данных.
- T2: настройка инструментов под закреплённого белого агента с помощью качества, наград и RL. Это позволяет создавать модульные системы уровня s3 и AgentFlow, где инструменты улучшаются независимо и под управлением фиксированного агента.
Авторы представили концептуальную карту, объединяющую эти подходы в гибридную архитектуру, сочетающую сильные обновления A1/A2 и регулярную настройку T1/T2 — так достигается баланс между масштабируемостью и надёжностью. Важный вывод — необходимо стратегически смешивать эти парадигмы, чтобы создавать устойчивые и масштабируемые системы.
Подробности можно найти в полном исследовании и GitHub-репозитории. В сообществе активно обсуждается, как перестраивать агентные системы и минимизировать их слабые стороны.
В перспективе эксперты ожидают, что синергия этих подходов поможет преодолеть нынешние ограничения. В устрашающе сложных задачах будущего от долгосрочного планирования до многоуровневых диалогов — стратегия адаптации станет ключом к успеху в развитии truly reliable agentic AI.
