Hugging Face представила NanoVLM — легкую PyTorch-библиотеку VLM

Компания Hugging Face анонсировала NanoVLM — минималистичную open-source библиотеку на чистом PyTorch, позволяющую обучать Vision-Language модели (VLM) с нуля. Основной акцент сделан на простоте и понятности: код библиотеки занимает всего 750 строк.

Разработка предназначена для исследователей, студентов и всех, кто хочет понять внутреннее устройство мультимодальных моделей. NanoVLM построена вокруг архитектуры CLIP, объединяющей визуальные и текстовые представления, и предоставляет простой и воспроизводимый базовый каркас.

Библиотека полностью реализована на PyTorch без использования сторонних высокоуровневых обёрток, что делает её идеальной для образовательных целей и проведения экспериментов. При этом NanoVLM поддерживает полноценное обучение моделей на общедоступных датасетах и обеспечивает конкурентное качество.

Проект размещён в официальном репозитории Hugging Face, где доступны примеры, инструкции и базовые метрики для быстрой проверки производительности моделей.

С выходом NanoVLM Hugging Face продолжает курс на демократизацию ИИ — делая сложные технологии доступными для каждого.

8 мая 2025, 00:00

Новости индустрии ИИ

Hugging Face представила NanoVLM — легкую PyTorch-библиотеку VLM

Связанные ИИ

Новости new