基于信息熵的数据集重标识风险评估方法

2020Insec World•世界信息安全大会
sdh传输
基于信息熵的数据集重标识风险评估方法!
陈磊$#"#薛见新$,2,张润滋$,"#刘文懋$
2015年新年寄语(1.绿盟科技集团股份有限公司,北京$00089;2.清华大学自动化系,北京$00084)
摘要:去标识化作为一种隐私保护技术,在数据发布领域得到了广泛应用。然而,在大数据时代下,攻击者可能获得了更多的关联数据,去标识数据集仍然存在重标识攻击的风险$基于Shannon信息熵,并结合信息安全风险评估框架,提出了一种综合的重标识风险评估方法$首先,将攻击者可能利用的数据集的各种属性组合归纳为若干个脆弱性,然后逐一对这些脆弱性从可能性和危害性两个维度进行评估$最后,为了综合评估整个数据集的重标识风险,构造了一种基于熵值增量和加权的评估算法$实验结果表明,所提评估方法可全面、直观地反映风险分布与趋势$
关键词:隐私保护;去标识数据集;重标识风险评估;信息熵
一汽佳宝6371中图分类号:TP399文献标识码:A DOI:$0.$9358/j.issn.2096-5$33.2020.$2.00$
三聚氰胺引用格式:陈磊,薛见新,张润滋,等.基于信息熵的数据集重标识风险评估方法[J].信息技术与网络安全,2020, 39($2):$-6,$2.
性蚀Re-identification risk assessment of de-identified datasets
based on information entropy
Chen Lei$,2,Xue Jianxin$,2,Zhang Runzi$,2,Liu Wenmao$
(l.Nsfocus Information Technology Co.,Ltd.,Beijing$00089,China;
2.Department of Automation,Tsinghua University,Beijing$00084,China)
Abstract:As a privacy protection technology,de-identification has been widely used in data publishing scenarios.How­ever,in the era of big data,attackers may obtain more associated data,and there is still a risk of re一identification at­tacks on de-identified datasets.Based on information entropy and information security risk assessment framework,this pa­per proposes a comprehensive re-identification risk assessment method.Firstly,the various attribute combinations of a de-identified dataset that attackers may utilize are summarized into several vulnerabilities,and then these vulnerabilities are evaluated one by one from probability and impact dimension .Finally,in order to comprehensively evaluate the re-identifi­cation risk of the dataset,this paper constructs a fast evaluation algorithm based on entropy increments and weights.Ex­tensive eZperimental results demo
nstrate that the proposed evaluation method can comprehensively and intuitively reflect the risk distribution and trend.
Key words:privacy protection;de-identified datasets;re-identification risk assessment;information entropy
cti论坛
0引言
在大数据时代下,数据共享、发布和交易等场景需求变得越来越多,一方面促进了数据流通与价值利用,另一方面引发的个人数据与隐私安全事件近年来呈现爆发趋势[$]$
为了应对挑战,在法规层面,全球掀起了数据隐*基金项目:中国博士后科学基金资助项目(2019M660511,2020M670181)私的立法热潮,如欧盟《通用数据保护条例》(GDPR)、美国《加州消费者隐私法案》(CCPA)等。我国2017年实施的《网络安全法》,其中一个章节专门明确个人信息安全;此外,我国《个人信息保护法》在加快立法与制定中’在技术层面,如何平衡数据利用与隐私保护问题,已经成为学术界和工业界的一大研究热点[2]。当前,已经发展岀了保留格式加密(Format-Preserving Encryption,FPE)[3]、差分隐私(Differential
《信息技术与网络安全》2020年第39卷第12期1

本文发布于:2024-09-22 12:42:34,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/470126.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   评估   标识   风险   保护
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议