Обучение больших языковых моделей (LLM) — это сложный и ресурсоемкий процесс, требующий значительных вычислительных мощностей. Однако исследователи из MIT предложили новый подход, который позволяет удвоить скорость обучения, не снижая точности. В основе метода лежит использование простоев вычислительных ресурсов, которые обычно остаются невостребованными в процессе обучения.
Проблема неэффективного использования ресурсов
Большие языковые модели, такие как GPT, предназначены для решения сложных задач, разбивая их на последовательности более простых шагов. Однако, несмотря на впечатляющие возможности, процесс их обучения часто сталкивается с узкими местами. Например, при обучении с подкреплением (Reinforcement Learning, RL) значительная часть времени тратится на генерацию множества ответов, из которых лишь один используется для обновления модели. Это приводит к тому, что часть процессоров простаивает, ожидая завершения работы других.
Спекулятивное декодирование как решение
Для решения этой проблемы исследователи внедрили технику спекулятивного декодирования. Она предполагает обучение небольшой модели-драфтера, которая предсказывает будущие выходы основной модели. Основная модель затем проверяет эти предсказания, и те, что принимаются, используются для обучения. Это позволяет ускорить процесс без увеличения вычислительных затрат.
Адаптивное обучение: подход TLT
Ключевым новшеством является система "Укрощение длинного хвоста" (Taming the Long Tail, TLT), которая состоит из двух компонентов:
- Адаптивный тренер драфтера: использует свободное время простаивающих процессоров для динамического обучения драфтера, что позволяет ему оставаться актуальным на протяжении всего процесса обучения.
- Адаптивный механизм развертывания: управляет спекулятивным декодированием, автоматически выбирая оптимальную стратегию для каждого нового набора входных данных.
Эти компоненты работают совместно, чтобы обеспечить ускорение обучения от 70 до 210 процентов без потери точности. В дополнение, легкая модель-драфтер может быть использована для развертывания, обеспечивая дополнительную эффективность.
Перспективы и применение
Такая технология открывает новые горизонты для применения LLM в различных областях — от прогнозирования финансовых трендов до обнаружения рисков в энергетических сетях. Использование метода TLT может снизить затраты на обучение и повысить энергоэффективность, что особенно важно в условиях роста спроса на более сложные модели.
По словам Сун Хана, "эта методика поможет справиться с вычислительными ограничениями, которые возникают при обучении таких моделей, и будет полезна в контексте эффективных вычислений в AI". В будущем исследователи планируют интегрировать TLT в другие типы фреймворков и найти новые приложения для ускоренного обучения с подкреплением.
Этот проект поддерживается лабораторией MIT-IBM Watson AI Lab, программой MIT AI Hardware Program, научным центром MIT Amazon Science Hub, компанией Hyundai Motor и Национальным научным фондом.