Ученые из Массачусетского технологического института (MIT) нашли способ ускорить обучение больших языковых моделей (LLM) вдвое, используя время простоя вычислительных мощностей. Это позволяет значительно повысить эффективность процесса без потери качества.
Использование времени простоя
Обучение сложных языковых моделей требует большого количества ресурсов и энергии. Однако часть процессоров часто простаивает из-за неравномерности нагрузки. Исследователи из MIT предложили метод, который использует это время простоя для тренировки меньшей и более быстрой модели, предсказывающей результаты работы основной модели. Такая схема вдвое ускоряет процесс обучения.
Как это работает
Ключевым элементом метода является адаптивная система, которая активирует меньшую модель только тогда, когда часть процессоров свободна. Это позволяет использовать ресурсы, которые иначе были бы потеряны, без дополнительных затрат.
Тестирование и результаты
Метод был протестирован на нескольких языковых моделях и показал, что скорость обучения увеличилась в два раза. При этом точность моделей осталась на прежнем уровне. Это открытие может существенно снизить затраты и повысить энергоэффективность разработки LLM для таких задач, как прогнозирование финансовых трендов или обнаружение рисков в энергосетях.
Потенциальные применения
В будущем исследователи планируют интегрировать новую систему в другие фреймворки обучения и инференса, а также искать новые области применения, где данный подход может быть полезен. По словам одного из авторов, Цинхао Ху, метод может стать важным шагом к повышению эффективности вычислений в сфере искусственного интеллекта.
Работа финансируется MIT-IBM Watson AI Lab, MIT AI Hardware Program, MIT Amazon Science Hub, Hyundai Motor Company и Национальным научным фондом США.
