Команда исследователей из MIT предложила инновационный подход к обучению больших языковых моделей (LLM), который позволяет значительно ускорить этот процесс, сохраняя точность. Они используют время простоя процессоров, чтобы ускорить обучение.
Как работает новый метод?
Исследователи создали систему, которая автоматически обучает более маленькую и быструю модель. Эта модель предсказывает результаты работы основной, более сложной модели, и затем последние проверяются. Это позволяет снизить нагрузку на основную модель и ускорить процесс обучения.
Суть новой системы заключается в том, что она адаптивно включает обучение младшей модели только тогда, когда некоторые процессоры простаивают. Это позволяет использовать вычислительные ресурсы, которые иначе были бы потеряны, без дополнительных затрат.
Реальные результаты
Метод был протестирован на нескольких языковых моделях, и результаты показали, что скорость обучения увеличивается в два раза, при этом точность сохраняется. Это может значительно снизить затраты и повысить энергоэффективность в разработке сложных языковых моделей для различных приложений, таких как прогнозирование финансовых трендов или обнаружение рисков в энергосистемах.
Технология TLT: адаптивное обучение
Новый подход был назван "Taming the Long Tail" (TLT). Он включает в себя две ключевые составляющие: адаптивный тренажер младшей модели и механизм руллинга, который автоматически выбирает оптимальную стратегию для каждого нового набора данных.
Адаптивный тренажер использует свободное время простаивающих процессоров для обучения младшей модели, поддерживая её в актуальном состоянии. Механизм руллинга управляет декодированием и конфигурирует процесс в зависимости от нагрузки.
Будущее технологии
Исследователи планируют интегрировать TLT в другие типы фреймворков обучения и вывести на новый уровень использование обучения с подкреплением. Это позволит ускорить работу моделей в самых разнообразных областях.
Проект финансируется MIT-IBM Watson AI Lab, MIT AI Hardware Program, MIT Amazon Science Hub, Hyundai Motor Company и Национальным научным фондом.
