baloover 6 ноя 2020 в 11:22

Дифференциальная приватность — анализ данных с сохранением конфиденциальности (введение в серию)

5 мин

3.4K

Блог компании ДомкликИнформационная безопасность*Big Data*Data Engineering*

Перевод

+17

Комментарии 3

psitronic 7 ноя 2020 в 15:36

На сегодняшний день появились компании, которые вместо анонимизации данных предлагают «синтетические» (или «сгенерированные» на основе оригинальных) данные, которые статистически и математически не отличаются от оригинальных. Этот новый подход использует, в частности, генеративные нейронные сети.

AZverg 9 ноя 2020 в 10:12

Можете ли поделиться ссылкой на сравнительный обзор или просто списк таких компаний? В том числе интересует методика отпеределия покзателя «статистически и математически не отличаются от оригинальных».

baloover 9 ноя 2020 в 10:52

Присоединюсь к просьбе. Было бы интересно почитать.
И вот первый вопрос который приходит в голову — насколько устойчивее такие наборы данных к описанным проблемам?
Кажется, что и повторная генерация таких наборов данных и слишком узкие выборки все равно оставляют вероятность раскрытия исходных данных.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий