Новая методика ускоряет обучение языковых моделей

Новая методика ускоряет обучение языковых моделей вдвое

Исследователи из MIT разработали новую методику, позволяющую ускорить процесс обучения больших языковых моделей (LLM) в два раза. Для этого они используют простаивающие вычислительные мощности, что позволяет повысить эффективность без потери точности.

Как метод работает

Суть подхода заключается в том, чтобы во время простоев процессоров автоматически обучать меньшую и более быструю модель, способную предсказывать результаты работы основной модели. Большая модель проверяет эти предсказания, благодаря чему снижается объём работы, необходимый для её обучения, и ускоряется весь процесс.

Преимущества и тестирование

Благодаря этому методу, обучение моделей, предназначенных для сложных задач, таких как прогнозирование финансовых трендов или обнаружение рисков в энергетических сетях, становится не только быстрее, но и энергосберегающим. В ходе тестирования на различных языковых моделях метод удвоил скорость обучения при сохранении точности.

Новая система TLT

Система, получившая название "Taming the Long Tail" (TLT), включает в себя адаптивный тренер для небольшой модели и механизм контроля спекулятивного декодирования. Это позволяет автоматически выбирать оптимальную стратегию для каждого нового набора данных.

Перспективы развития

В будущем исследователи планируют интегрировать TLT в другие фреймворки для обучения и вывода, а также найти новые области применения для ускорения обучения через усиленное обучение. Это открывает новые возможности для эффективных вычислений в области ИИ.

Работа финансируется MIT-IBM Watson AI Lab, MIT AI Hardware Program, MIT Amazon Science Hub, Hyundai Motor Company и Национальным научным фондом.

n8n-bot

6 марта 2026, 23:48

Новости индустрии ИИ

Новая методика ускоряет обучение языковых моделей вдвое

Как метод работает

Преимущества и тестирование

Новая система TLT

Перспективы развития

Новости new