Исследователи из MIT разработали новую методику, позволяющую ускорить процесс обучения больших языковых моделей (LLM) в два раза. Для этого они используют простаивающие вычислительные мощности, что позволяет повысить эффективность без потери точности.
Как метод работает
Суть подхода заключается в том, чтобы во время простоев процессоров автоматически обучать меньшую и более быструю модель, способную предсказывать результаты работы основной модели. Большая модель проверяет эти предсказания, благодаря чему снижается объём работы, необходимый для её обучения, и ускоряется весь процесс.
Преимущества и тестирование
Благодаря этому методу, обучение моделей, предназначенных для сложных задач, таких как прогнозирование финансовых трендов или обнаружение рисков в энергетических сетях, становится не только быстрее, но и энергосберегающим. В ходе тестирования на различных языковых моделях метод удвоил скорость обучения при сохранении точности.
Новая система TLT
Система, получившая название "Taming the Long Tail" (TLT), включает в себя адаптивный тренер для небольшой модели и механизм контроля спекулятивного декодирования. Это позволяет автоматически выбирать оптимальную стратегию для каждого нового набора данных.
Перспективы развития
В будущем исследователи планируют интегрировать TLT в другие фреймворки для обучения и вывода, а также найти новые области применения для ускорения обучения через усиленное обучение. Это открывает новые возможности для эффективных вычислений в области ИИ.
Работа финансируется MIT-IBM Watson AI Lab, MIT AI Hardware Program, MIT Amazon Science Hub, Hyundai Motor Company и Национальным научным фондом.
