Исследователи представили революционный метод ускоренного обучения моделей искусственного интеллекта с помощью полностью асинхронного обучения с подкреплением (Fully Asynchronous Reinforcement Learning, или AREAL). Новая архитектура обещает кратно сократить время тренировки моделей, особенно в задачах, связанных с логическим выводом и планированием.
Современные большие модели, предназначенные для сложных задач рассуждения, требуют не только огромных вычислительных ресурсов, но и эффективных стратегий обучения. Однако традиционные подходы к RL зачастую страдают от узких мест, таких как синхронизация между агентами и серверами, а также высокая задержка при взаимодействии между обучаемой моделью и средой.
AREAL предлагает радикально иную структуру. В ней компоненты — агенты, политики, среды и буферы воспроизведения — функционируют независимо друг от друга, обмениваясь сообщениями в асинхронном режиме. Это позволяет избежать простоев и делает систему более масштабируемой.
«Наш подход устраняет необходимость в строгой синхронизации, что открывает возможность для более гибкого и эффективного распределения ресурсов», — отмечают авторы исследования. Такой дизайн также упрощает масштабирование обучения на сотни узлов, что особенно важно при работе с крупными языковыми моделями.
Эксперименты показали, что архитектура AREAL позволяет добиться значительного ускорения по сравнению с традиционными RL-системами. Более того, она сохраняет или даже улучшает качество обучения в задачах логического вывода и планирования, таких как ALFWorld, WebShop и ScienceWorld.
По мнению специалистов, новая архитектура может стать основой для будущих систем обучения сложных ИИ, особенно в условиях, когда требуется распределённое и эффективное взаимодействие с различными средами. Потенциальные сферы применения — от автономных агентов до систем принятия решений в реальном времени.
