Ученые из MIT разработали метод, позволяющий существенно ускорить процесс обучения больших языковых моделей (LLM), не теряя при этом в точности. Они используют простаивающее время вычислительных ресурсов, чтобы удвоить скорость тренировки моделей.
Как работает новая методика
Основой нового подхода является обучение меньшей и более быстрой модели, способной предугадывать выходные данные более крупной модели. При этом большая модель проверяет результаты работы младшей. Такой подход значительно снижает нагрузку на основную модель, ускоряя процесс обучения.
Ключевым преимуществом системы является её способность автоматически тренировать и использовать младшую модель, подключая её только тогда, когда некоторые процессоры простаивают. Это позволяет задействовать ресурсы, которые в противном случае оставались бы невостребованными.
Впечатляющие результаты
Тестирование метода на нескольких языковых моделях показало, что скорость обучения увеличилась в два раза без потери точности. Это открытие может снизить затраты и повысить энергоэффективность разработки сложных языковых моделей, используемых, например, для прогнозирования финансовых трендов или выявления рисков в энергетических сетях.
Авторы и их вклад
Исследование было проведено группой ученых под руководством аспиранта из MIT Цинхао Ху и профессора Сонг Хана. В разработке также приняли участие специалисты из NVIDIA, ETH Zurich и других организаций. Исследование будет представлено на международной конференции ACM.
Будущее технологии
В планах ученых — интеграция нового метода в другие типы обучающих и инференс-систем. Также они стремятся найти новые применения для ускоренного обучения с подкреплением. По словам Сонг Хана, этот метод поможет справиться с вычислительными ограничениями, которые возникают при обучении моделей с элементами сложного рассуждения.
Работа финансируется MIT-IBM Watson AI Lab, MIT AI Hardware Program, MIT Amazon Science Hub, Hyundai Motor Company и Национальным научным фондом.
