Исследователи из Meta AI и Нью-Йоркского университета представили новую методику улучшения согласованности больших языковых моделей (LLM) с человеческими предпочтениями с помощью полуонлайнового обучения с подкреплением (Semi-Online Reinforcement Learning, SO-RL).
В отличие от традиционного подхода RLHF (обучение с подкреплением из человеческой обратной связи), новая методика позволяет эффективно адаптировать языковые модели, используя как свежие, так и архивные данные, не требуя постоянного пересчёта всего набора параметров. Такой гибридный режим значительно снижает вычислительные затраты и повышает устойчивость моделей к искажениям на границе обучающих данных.
Метод SO-RL делит процесс обучения на два потока: онлайн-сбор новых предпочтений пользователей и оффлайн-обучение модели на накопленных данных. Это позволяет гибко реагировать на изменения во взаимодействии с пользователями, сохраняя при этом высокое качество генерации ответов.
В ходе экспериментов исследователи обучили языковую модель LLaMA 2 с использованием новой методики. Результаты показали значительное улучшение в соответствии ответов модели с оценками предпочтений людей, а также в тестах на генерацию текстов с высокой степенью правдоподобия и полезности.
Разработчики отмечают, что SO-RL может стать следующим шагом в эволюции обучения языковых моделей, поскольку он решает ключевую проблему масштабируемости и адаптивности RLHF. Ожидается, что подход найдёт применение как в исследовательских, так и в коммерческих системах на базе ИИ.