Много внимания в индустрии уделяется системам, которые симулируют ''агентное'' поведение — они строятся на больших языковых моделях и подключены к разным инструментам. На презентациях эти системы кажутся настоящими прорывами — они решают сложные задачи за секунды. Но в реальности большинство из них сталкивается с серьёзными проблемами: unreliable использование инструментов, слабое долгосрочное планирование и плохое обобщение.
Исследователи с ведущих университетов мира создали универсальную рамочную модель, чтобы понять, как эти системы должны адаптироваться. В ней выделены три основных компонента: модуль планирования, связывающий цели с действиями через цепочки размышлений или рефлексию; модуль использования инструментов — подключающийся к поисковым системам, API, системам исполнения кода и браузингам; и память — для хранения данных и обращения к ним через retrieval-augmented generation.
Обнаружено, что важна не только архитектура, но и методы адаптации системы — с помощью fine-tuning, preference optimization, reinforcement learning или параметрической доработки. В статье выделяют четыре основные типа адаптации, основанные на том, кто обновляется и по каким сигнальным данным.
Что было неправильно — и что делают по-новому
- Многие системы строились по принципу ''минимальной адаптации'': обновляем только модель агента, основываясь на сигналах от инструментов. Это помогает корректировать поведение, но требует хороших метрик и данных
- Некоторые системы используют только финальные ответы для обучения — это легче, но хуже для долгосрочного планирования
- Новое направление — многократное иReuse — выносить инструменты в отдельные модули и дообучать их независимо. Это повышает масштабируемость и устойчивость
- В эпоху масштабных экспериментов важна комбинация редких обновлений агента или его поведения с частными доработками инструментов. Это создает более стабильную систему, легче масштабируемую
Кроме того, авторы показывают, что сочетание этих методов позволяет строить более устойчивые системы, способные к полноценной автоматизации даже при ограниченной метрике успешности. Они иллюстрируют, что мир агентных ИИ движется к разделению ''системы с постоянными модулями'' и ''настройками под конкретное приложение'', что очень важно для бизнеса и научных исследований.
Уже сейчас видно, что перед индустрией стоит задача — объединить эффективность адаптации и масштабируемость. Через год такие системы станут более надёжными и дешевыми, а те, кто этим займутся сейчас, получат конкуретное преимущество.
