Oracle подала заявку на патент системы «entity relationship privacy for large language models», позволяющей автоматически заменять чувствительные связи в тренировочных данных ИИ.
Новая технология сканирует исходный датасет на предмет «sensitive entity relationships» — например, связь имени и диагноза или финансовой транзакции — и подменяет одну часть информации на сгенерированную моделью, не содержащую персональных данных. Благодаря этому структура и полезность данных сохраняются, а риск утечки приватной информации при дообучении больших языковых моделей значительно снижается.
В патентной заявке Oracle отмечено, что «воспроизведение обучающих данных лежит в основе проблем приватности в LLM, поскольку модели могут выдавать эти данные при запросах».
Решение особенно актуально для отраслей с жёсткими регуляторными требованиями — в здравоохранении (HIPAA) и банковском секторе — где утечка чувствительной информации грозит серьёзными штрафами.
По мнению экспертов, подобные патенты помогут ускорить внедрение ИИ в корпоративном секторе, снизив риски и обеспечив соблюдение международных стандартов защиты данных. Ожидается, что к 2026 году технологии анонимизации станут обязательным атрибутом при разработке коммерческих LLM.
