Ученые из MIT разработали метод, который позволяет ускорить обучение больших языковых моделей (LLM) в два раза, не теряя при этом точности. Они предложили использовать неактивное время компьютеров для повышения эффективности процесса.
Как это работает?
Новая методика заключается в обучении меньшей и более быстрой модели, которая предсказывает результаты работы основной модели. Система работает так, что меньшая модель задействуется только тогда, когда процессоры остаются без работы, что позволяет ускорить процесс без дополнительных затрат.
Преимущества для индустрии
При тестировании на нескольких моделях новый подход позволил увеличить скорость обучения от 70 до 210 процентов, сохраняя при этом точность моделей. Это может значительно снизить затраты и повысить энергоэффективность при разработке сложных LLM, используемых, например, для прогнозирования финансовых тенденций или выявления рисков в энергетических сетях.
Адаптивное решение
Система под названием "Taming the Long Tail (TLT)" включает в себя адаптивную тренировку меньшей модели, что позволяет ей оставаться актуальной по мере развития основной модели. Это решает проблему статичности, которая мешала применению техники в обучении с подкреплением.
Тестирование на реальных данных показало, что методика значительно ускоряет процесс обучения, а меньшая модель может использоваться и для быстрого развертывания решений.
Будущее развития
Исследователи планируют интегрировать TLT в другие типы тренировочных и предсказательных систем, а также находить новые области применения, где эта методика может быть полезна. Такое развитие может существенно повлиять на эффективность вычислений в сфере искусственного интеллекта.
Работа была поддержана лабораторией MIT-IBM Watson AI Lab и другими партнерами.
