MITские исследователи заявляют: даже самые продвинутые модели на базе электронных медзаписей могут запомнить чувствительные данные пациентов и нарушить приватность. Это стало ключевым вопросом на конференции NeurIPS 2025.
Фоновые модели, построенные на таких данных, вроде бы обучаются обобщать знания, но есть риск, что они могут воспроизвести конкретные записи пациентов. Особенно опасно, когда речь идёт о редких заболеваниях или уникальных условиях, например HIV или зависимость от наркоты. Чтобы предотвратить этот сценарий, команда разработала индикаторы и тесты для определения риска утечки — оценивая, сколько информации системе нужно для воссоздания конкретных случаев.
Эти тесты помогают понять, когда модель действительно обучается на общем знании, а когда просто запоминает и повторяет локальные особенности. Исследователи подчёркивают: leak-ы, раскрывающие базовые демографические данные, менее опасны, чем утечки информации о сложных медицинских условиях. В перспективе планируется подключить врачей, юристов и экспертов по защите данных.
Объём медицинских данных растёт, а случаи хакерских взломов всё бльше — за два последних года было зафиксировано более 747 утечек, затронувших свыше 500 человек. В условиях, когда даже обезличенные данные могут вести к появлению личных данных при неправильной обработке, важно внедрять качественные меры оценки рисков. Разработчики надеются, что такие тесты помогут внедрять AI, не угрожая приватности пациентов, и снизить вероятность серьёзных нарушений.
