Google патентует «закладки» для упорядочивания данных в облаке
Честно говоря, кто не сталкивался с гигабайтами дубликатов при подготовке данных для обучения моделей? Google предлагает заменить бессмысленное копирование на виртуальные «закладки», которые укажут на нужные фрагменты прямо там, где они хранятся.
В патентной заявке описан инструмент для «управления наборами данных для ИИ и машинного обучения в облачном хранилище». Грубо говоря, теперь не нужно перетаскивать файлы из папки в папку: вместо этого вы создаёте ссылку на нужные данные и объединяете их в группы.
Звучит просто, но эффект серьёзный: меньше задержек при обучении, меньше дублей и минимизированы риски с персональной информацией. Ведь каждый раз, когда вы «копируете-пастаёте» базу со списками клиентов, появляется шанс случайной утечки.
«Копирование данных для каждой итерации обучения увеличивает задержку и дублирование, а вместе с тем растут и проблемы безопасности, особенно когда речь идёт о личной информации», — подчёркивают инженеры Google в описании разработки.
Система «закладок» формирует виртуальные группировки — вы видите единый набор данных, а под капотом остаётся лишь ссылка на исходный файл. Работает быстро и без лишнего потребления дискового пространства.
И это не просто академическая байка: в последнем квартале облачные сервисы Google принесли компании 13 млрд долларов — на 32 % больше, чем год назад, и превысили прогнозы аналитиков. К тому же OpenAI уже перевела ChatGPT на Google Cloud.
В мире, где масштаб обучения растёт ежеминутно, грамотное управление данными — это вопрос доверия. Пока Google соревнуется с AWS и Azure, патент на «закладки» может стать серьёзным козырем в борьбе за клиентов.
