Введение в проблему
Современные большие языковые модели (LLM) становятся все более востребованными для решения сложных задач, таких как прогнозирование финансовых трендов и обнаружение рисков в энергосистемах. Однако обучение таких моделей требует огромных вычислительных ресурсов и энергии, что делает процесс дорогим и не всегда эффективным.
В данной статье мы рассмотрим новый метод, предложенный исследователями из MIT, который позволяет значительно ускорить процесс обучения LLM, сохранив при этом точность моделей.

Использование простаивающих ресурсов
Основная идея метода заключается в использовании простаивающего времени вычислений. Во время обучения моделей многие процессоры остаются бездействующими, ожидая завершения других более сложных операций. Новый метод позволяет задействовать эти простаивающие ресурсы для ускорения обучения.
Исследователи разработали систему, в которой меньшая и более быстрая модель предсказывает выходные данные, которые затем проверяются основной моделью. Это позволяет снизить нагрузку на основную LLM, ускоряя процесс обучения.
Спекулятивное декодирование
Ключевую роль в новом методе играет техника, известная как спекулятивное декодирование. Она заключается в том, что меньшая модель, называемая драфтером, быстро генерирует предположительные выходные данные, которые затем проверяются основной моделью. Если предположения драфтера верны, они принимаются для дальнейшего обучения.
Этот подход позволяет основной модели проверять предсказания драфтера одновременно, а не генерировать каждый вывод последовательно, что значительно ускоряет процесс.

Адаптивное решение
Чтобы сделать спекулятивное декодирование более эффективным, исследователи из MIT разработали систему "Taming the Long Tail" (TLT), которая включает адаптивный процесс обучения для драфтера. Эта система позволяет драфтеру обучаться "на лету", используя простаивающие процессоры, что делает его всегда актуальным для целевой модели.
Кроме того, в TLT интегрирован адаптивный механизм, который автоматически выбирает оптимальную стратегию для каждой новой партии входных данных. Это позволяет системе динамично подстраиваться под изменяющуюся нагрузку.
Практическое применение и перспективы
Испытания системы TLT показали, что она способна ускорить обучение моделей на 70-210%, сохраняя при этом точность. Это открытие может значительно снизить затраты на разработку и повысить энергоэффективность в сфере ИИ.
В будущем исследователи планируют интегрировать TLT в другие типы обучающих и выводных фреймворков, а также найти новые применения для ускоренного обучения с подкреплением.
Как отмечает один из авторов метода, Song Han, "поскольку задачи рассуждения становятся основными в ИИ, метод TLT поможет справиться с вычислительными ограничениями, делая AI более эффективным".