Исследователи представили HTFLlib — первую в своём роде библиотеку, предназначенную для комплексного тестирования методов гетерогенного федеративного обучения (HFL) на различных модальностях данных, таких как изображения, текст и аудио.
Современные системы искусственного интеллекта всё чаще развиваются в условиях, где данные распределены между множеством устройств и пользователей, — от смартфонов до IoT-сенсоров. В таких случаях применяется федеративное обучение, которое позволяет обучать модели без централизованного хранения данных. Однако до сих пор не существовало универсального инструмента для оценки качества таких моделей в условиях гетерогенности, особенно при работе с различными типами информации.
HTFLlib решает эту проблему, предлагая масштабируемую и расширяемую платформу с 21 задачей, охватывающей три ключевых модальности: изображения (CIFAR10, FEMNIST и др.), текст (StackOverflow, Amazon Reviews и др.) и аудио (Google Speech Commands). Библиотека позволяет исследователям сравнивать существующие алгоритмы HFL и тестировать новые подходы в реалистичных условиях.
«Мы стремились создать универсальную базу, которая будет служить эталоном при разработке и сравнении методов гетерогенного федеративного обучения», — поясняют авторы проекта. Особое внимание уделено моделированию практических сценариев, где клиенты имеют различную вычислительную мощность, архитектуру моделей и даже цели обучения.
HTFLlib уже включила поддержку таких моделей, как CNN, ResNet и LSTM, а также популярных фреймворков, включая TensorFlow и PyTorch. Все компоненты проекта доступны в открытом доступе, что делает его ценным инструментом для академического сообщества и индустрии.
Эксперты считают, что появление HTFLlib способно ускорить прогресс в области федеративного обучения, упростить создание более справедливых и устойчивых моделей и приблизить ИИ к реальному внедрению в распределённых и чувствительных к приватности системах.
