Компания Sakana AI представила инновационный подход «Reinforcement Learned Teacher» (RLT), который заменяет дорогостоящие большие модели на более компактные учителя–студенты, существенно уменьшая затраты и ускоряя обучение ИИ.
Традиционные методы обучения с подкреплением требуют крупных ресурсов и финансовых вложений до $500 000 и месяцев на тренировки. В новой модели учитель генерирует пошаговые объяснения, которые затем используются для обучения студент-моделей, сокращая бюджет до $10 000 и время обучения до одного дня на стандартном оборудовании.
«Мы переосмысливаем само понятие обучения ИИ: вместо того чтобы заставлять модели решать задачи силой числа параметров, мы учим их учить друг друга», — отметил представитель Sakana AI.
По результатам тестов, модели с 7 млрд параметров превосходят более тяжёлые аналоги в задачах генерации логических цепочек и разъяснений. Открытие RLT в open source расширяет возможности для независимых разработчиков и небольших научных групп.
Эксперты рынка ожидают, что подход RLT найдет применение в образовании—для создания персональных репетиторов, в медицине—для понятного объяснения диагнозов, и в юриспруденции—для анализа сложных документов. В перспективе возможна разработка самосовершенствующихся систем, где модели учат друг друга в бесконечном цикле улучшения.
