Исследователи из MIT разработали инновационный метод, который позволяет значительно ускорить процесс обучения больших языковых моделей (LLM). Этот подход использует простаивающее вычислительное время для увеличения скорости обучения вдвое, при этом сохраняя точность моделей.
Как работает новый метод
Ключ к эффективности нового метода заключается в использовании адаптивной тренировки. Исследователи создают меньшую, более быструю модель, которая предсказывает результаты работы основной модели. Большая модель затем проверяет эти предсказания. Это позволяет сократить объем работы, которую должна выполнять основная модель, что ускоряет тренировочный процесс.
Система адаптивно тренирует и разворачивает меньшую модель только тогда, когда некоторые процессоры простаивают. Таким образом, использование вычислительных ресурсов, которые в противном случае были бы неэффективно использованы, позволяет достичь ускорения без дополнительных затрат.
Влияние на индустрию ИИ
Этот метод уже продемонстрировал свою эффективность на нескольких языковых моделях, удвоив скорость обучения без потери точности. Это может существенно снизить затраты и повысить энергоэффективность разработки сложных языковых моделей, которые используются, например, для прогнозирования финансовых трендов или выявления рисков в энергосетях.
Преодоление узких мест в обучении
Обучение моделей рассуждения часто сталкивается с проблемой долгих вычислений, которые занимают до 85% времени. В новом методе используется спекулятивное декодирование, которое позволяет быстрее генерировать ответы, обучая небольшую модель предугадывать будущие результаты.
Адаптивная система, названная «Taming the Long Tail» (TLT), позволяет обучать «драфтера» в режиме реального времени, когда процессоры простаивают, поддерживая его в актуальном состоянии без дополнительных ресурсов.
Перспективы развития
В будущем исследователи планируют интегрировать TLT в другие фреймворки для обучения и использования, а также найти новые области применения в усиленном обучении, которые могут быть ускорены с помощью этого подхода.
Эта работа финансируется лабораторией MIT-IBM Watson AI Lab, а также рядом других организаций и компаний.
