Исследователи добились прорыва в области компьютерного зрения: новая система позволяет ИИ обучаться пониманию изображений без ручной разметки.
Научное сообщество давно сталкивается с так называемым «бутылочным горлышком» в обучении нейросетей — процесс аннотирования изображений, то есть вручную отмечать, где и что изображено, отнимает огромное количество времени и ресурсов. Однако новая разработка обещает устранить эту проблему.
Учёные представили систему обучения, способную самостоятельно выявлять и классифицировать объекты на изображениях. Она использует сочетание слабого и самонаблюдаемого обучения (weakly-supervised и self-supervised learning), позволяющее достигать точности, сопоставимой с моделями, обученными на тщательно размеченных наборах данных.
«Наша цель — дать ИИ возможность учиться так же, как это делает ребёнок, — наблюдая и запоминая без постоянного вмешательства взрослого», — пояснили разработчики.
Система учится на основе лишь общих описаний изображений и постепенно начинает «понимать» сцены, связывая объекты с действиями и контекстами. Это означает, что для обучения ИИ больше не нужно миллионы аннотированных кадров — достаточно множества изображений и общего описания, что на них происходит.
Эксперты называют это одним из крупнейших шагов вперёд в области визуального ИИ за последние годы. «Это открывает путь к масштабируемому компьютерному зрению: теперь можно использовать любые неразмеченные видеопотоки — от камер наблюдения до фильмов — для обучения ИИ», — отметил один из исследователей.
Новая технология может коренным образом изменить подход к созданию систем автономного вождения, роботам и поисковым алгоритмам, делая их более независимыми и быстрыми в обучении. Прогнозируется, что в ближайшие годы она будет интегрирована в ведущие платформы ИИ.
