2020Insec World•世界信息安全大会
sdh传输
陈磊$#"#薛见新$,2,张润滋$,"#刘文懋$
2015年新年寄语(1.绿盟科技集团股份有限公司,北京$00089;2.清华大学自动化系,北京$00084)
摘要:去标识化作为一种隐私保护技术,在数据发布领域得到了广泛应用。然而,在大数据时代下,攻击者可能获得了更多的关联数据,去标识数据集仍然存在重标识攻击的风险$基于Shannon信息熵,并结合信息安全风险评估框架,提出了一种综合的重标识风险评估方法$首先,将攻击者可能利用的数据集的各种属性组合归纳为若干个脆弱性,然后逐一对这些脆弱性从可能性和危害性两个维度进行评估$最后,为了综合评估整个数据集的重标识风险,构造了一种基于熵值增量和加权的评估算法$实验结果表明,所提评估方法可全面、直观地反映风险分布与趋势$ 关键词:隐私保护;去标识数据集;重标识风险评估;信息熵
一汽佳宝6371中图分类号:TP399文献标识码:A DOI:$0.$9358/j.issn.2096-5$33.2020.$2.00$
三聚氰胺引用格式:陈磊,薛见新,张润滋,等.基于信息熵的数据集重标识风险评估方法[J].信息技术与网络安全,2020, 39($2):$-6,$2.
性蚀Re-identification risk assessment of de-identified datasets
based on information entropy
Chen Lei$,2,Xue Jianxin$,2,Zhang Runzi$,2,Liu Wenmao$
(l.Nsfocus Information Technology Co.,Ltd.,Beijing$00089,China;
2.Department of Automation,Tsinghua University,Beijing$00084,China)
Abstract:As a privacy protection technology,de-identification has been widely used in data publishing scenarios.However,in the era of big data,attackers may obtain more associated data,and there is still a risk of re一identification attacks on de-identified datasets.Based on information entropy and information security risk assessment framework,this paper proposes a comprehensive re-identification risk assessment method.Firstly,the various attribute combinations of a de-identified dataset that attackers may utilize are summarized into several vulnerabilities,and then these vulnerabilities are evaluated one by one from probability and impact dimension .Finally,in order to comprehensively evaluate the re-identification risk of the dataset,this paper constructs a fast evaluation algorithm based on entropy increments and weights.Extensive eZperimental results demo
nstrate that the proposed evaluation method can comprehensively and intuitively reflect the risk distribution and trend.
Key words:privacy protection;de-identified datasets;re-identification risk assessment;information entropy
cti论坛
0引言
在大数据时代下,数据共享、发布和交易等场景需求变得越来越多,一方面促进了数据流通与价值利用,另一方面引发的个人数据与隐私安全事件近年来呈现爆发趋势[$]$
为了应对挑战,在法规层面,全球掀起了数据隐*基金项目:中国博士后科学基金资助项目(2019M660511,2020M670181)私的立法热潮,如欧盟《通用数据保护条例》(GDPR)、美国《加州消费者隐私法案》(CCPA)等。我国2017年实施的《网络安全法》,其中一个章节专门明确个人信息安全;此外,我国《个人信息保护法》在加快立法与制定中’在技术层面,如何平衡数据利用与隐私保护问题,已经成为学术界和工业界的一大研究热点[2]。当前,已经发展岀了保留格式加密(Format-Preserving Encryption,FPE)[3]、差分隐私(Differential
《信息技术与网络安全》2020年第39卷第12期1