Исследователи из MIT и их коллеги предложили инновационный подход, который делает модели искусственного интеллекта более компактными и быстрыми прямо в процессе обучения. Это позволяет сократить затраты на вычисления, не теряя в производительности.
Что такое CompreSSM?
Методика получила название CompreSSM и направлена на оптимизацию семейства архитектур ИИ, известных как модели пространств состояний. Эти модели применяются в различных областях, от обработки языка до генерации аудио и робототехники. Исследователи используют математические инструменты из теории управления, чтобы определить, какие части модели важны, а какие можно исключить на ранних этапах обучения.
Как это работает?
Ключевое открытие заключается в том, что относительная важность компонентов модели стабилизируется очень рано в процессе обучения. Используя математический показатель, называемый значением Ханкеля, исследователи могут определить, какие элементы модели имеют наибольшее значение на ранних стадиях обучения. После этого менее важные компоненты можно безопасно исключить, что ускоряет оставшуюся часть процесса обучения.
Преимущества нового подхода
Этот метод позволяет моделям обнаруживать свою эффективную структуру в процессе обучения, что кардинально меняет подход к созданию ИИ-систем. На тестах по классификации изображений сжатые модели показали почти такую же точность, как и их полноразмерные аналоги, но при этом обучение происходило до 1.5 раз быстрее.
Сравнение с альтернативными методами
CompreSSM значительно превосходит традиционные методы, такие как прореживание и дистилляция знаний. Прореживание требует сначала обучения полной модели и последующего удаления параметров, что не снижает затраты на вычисления. Дистилляция знаний, в свою очередь, требует обучения большой «учительской» модели, что удваивает тренировочные усилия. В отличие от них, CompreSSM принимает решения о сжатии на лету.
Практическое применение и перспективы
Методика была протестирована на различных задачах и показала значительное ускорение обучения. Однако она наиболее эффективна для моделей, где размер внутреннего состояния сильно коррелирует с общей производительностью. Исследователи уже работают над расширением метода на более сложные системы, что приближает его применение к архитектурам, лежащим в основе большинства современных ИИ-систем.
Работа, поддержанная Центром обучения систем Max Planck ETH и другими организациями, открывает новые перспективы для исследований в области сжатия ИИ-моделей и может стать стандартным подходом в будущем.
