Компания Hugging Face анонсировала NanoVLM — минималистичную open-source библиотеку на чистом PyTorch, позволяющую обучать Vision-Language модели (VLM) с нуля. Основной акцент сделан на простоте и понятности: код библиотеки занимает всего 750 строк.
Разработка предназначена для исследователей, студентов и всех, кто хочет понять внутреннее устройство мультимодальных моделей. NanoVLM построена вокруг архитектуры CLIP, объединяющей визуальные и текстовые представления, и предоставляет простой и воспроизводимый базовый каркас.
Библиотека полностью реализована на PyTorch без использования сторонних высокоуровневых обёрток, что делает её идеальной для образовательных целей и проведения экспериментов. При этом NanoVLM поддерживает полноценное обучение моделей на общедоступных датасетах и обеспечивает конкурентное качество.
Проект размещён в официальном репозитории Hugging Face, где доступны примеры, инструкции и базовые метрики для быстрой проверки производительности моделей.
С выходом NanoVLM Hugging Face продолжает курс на демократизацию ИИ — делая сложные технологии доступными для каждого.

