Ранее при обучении reasoning LLM приходилось тратить колоссальные вычислительные ресурсы — иногда до 85% времени уходило на моделирование множества ответов в reinforcement learning. В этой ситуации большинство компаний либо прекращали экспериментировать, либо улетали в дорогостоящий апгрейд инфраструктуры.
Но недавно MIT представила концепцию "Taming the Long Tail" (TLT), которая меняет правила игры: во время простоя процессора создаётся маленькая, быстрая модель, предсказывающая ответы крупной системы. Эта модель постоянно тренируется и обновляется, пока первичная модель учится, что гарантирует актуальность и точность прогноза.
Что такое TLT и как она работает
- Это система, которая использует свободное время процессора для обучения дополнительно небольшой модели, которая способна делать быстрые прогнозы
- Она динамически подстраивается под текущую нагрузку, активируясь только при простое оборудования
- Корпус системы включает "планёрку" (draft model) и "двигатель" (rollout engine), управляющие генерацией ответов и их предсказанием
Испытания показывают, что такие технологии увеличивают скорость обучения на 70-210% при сохранении точности. В перспективе это поможет не только ускорить обучение reasoning моделей, но и сделать их более энергоэффективными и недорогими.
Что дальше: взгляд на будущее
Разработчики уже смотрят в сторону активной интеграции TLT в разные фреймворки и исследуют новые методы reinforcement learning. Главный тренд яснее: обучение больших моделей становится не только быстрее, но и умнее - благодаря динамическим помощникам, которые работают параллельно и автоматически.
Со временем подобные подходы, скорее всего, войдут в стандарт индустрии, и стоимость обучения снизится в разы. Но самое главное — мы приближаемся к новой эпохе энергетически эффективных AI-систем, способных решать сложнейшие задачи с меньшими затратами и экологическим следом.
