Ученые из Массачусетского технологического института (MIT) разработали способ, который позволяет значительно ускорить процесс обучения больших языковых моделей (LLM). Этот метод основан на использовании простаивающего времени вычислительных ресурсов, что позволяет удвоить скорость обучения, не теряя точности.
Как работает новый метод?
В основе новой технологии лежит идея автоматического обучения меньшей и более быстрой модели, которая предсказывает результаты работы большой языковой модели. Затем большая модель проверяет эти предсказания, что снижает объем работы, необходимой для обучения, и ускоряет весь процесс.
Ключевая особенность метода — это адаптивность. Меньшая модель обучается и задействуется только тогда, когда часть процессоров простаивает, что позволяет использовать ресурсы более эффективно.
Преимущества и результаты
Использование данного подхода позволило ученым удвоить скорость обучения на нескольких языковых моделях, сохранив при этом их точность. Это не только снижает затраты, но и повышает энергетическую эффективность разработки сложных LLM, которые могут использоваться, например, для прогнозирования финансовых трендов или выявления рисков в энергетических сетях.
Что дальше?
Исследователи планируют интегрировать свою методику в другие системы обучения и поиска решений для ускорения обучения с подкреплением. Кроме того, меньшая модель, используемая в процессе обучения, может быть применена и для эффективного развертывания в других задачах.
Эта работа была поддержана несколькими крупными организациями, включая MIT-IBM Watson AI Lab, Hyundai Motor Company и Национальный научный фонд.
