大数据脱敏方法和系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201911068342.6
(22)申请日 2019.11.05
(71)申请人 中国电信股份有限公司
地址 100033 北京市西城区金融大街31号
(72)发明人 关泰璐 李燕超 聂俣祺 陈炼 
蓝宇娜 
(74)专利代理机构 中国贸促会专利商标事务所
有限公司 11038
代理人 许蓓
(51)Int.Cl.
G06F  21/62(2013.01)
G06F  16/215(2019.01)
(54)发明名称
数据脱敏方法和系统
(57)摘要
本公开提出一种大数据脱敏方法和系统,涉
及大数据敏感数据保护领域。本公开将大数据脱
敏与大数据清洗流程相融合,在大数据平台的清
洗阶段,基于大数据平台自身的分布式计算能力
进行数据脱敏,满足大数据脱敏的高性能要求,
不会产生额外的数据存储要求,对大数据平台影
响小,且大数据平台存储的是脱敏数据,安全性
更好。权利要求书2页  说明书6页  附图2页CN 112784291 A 2021.05.11
C N  112784291
A
1.一种大数据脱敏方法,其特征在于,包括:
获取数据清洗任务,所述数据清洗任务包括待处理的数据资产
获取所述数据资产相应的脱敏策略
采用分布式数据处理方式对所述数据资产同时执行数据清洗操作和按照所述脱敏策略执行脱敏处理。
2.根据权利要求1所述的方法,其特征在于,所述采用分布式数据处理方式对所述数据资产同时执行数据清洗操作和按照所述脱敏策略执行脱敏处理包括:
在分布式数据处理过程中,调用映射规约任务模板,所述映射规约任务模板的映射阶段和规约阶段中的至少一个阶段中嵌入脱敏任务接口,使得所述数据资产的每个子数据资产在被清洗后,通过所述脱敏任务接口调用所述脱敏策略进行脱敏处理。
3.根据权利要求2所述的方法,其特征在于,所述映射阶段嵌入映射脱敏任务接口,
如果所述脱敏策略指示所述数据资产的第一脱敏字段采用第一脱敏算法、且所述第一脱敏算法使得脱敏前和脱敏后的数据结构一致,则每个子数据资产在被清洗后,其第一脱敏字段利用所述映射脱敏任务接口调用所述第一脱敏算法进行脱敏处理。
4.根据权利要求2所述的方法,其特征在于,所述规约阶段嵌入规约脱敏任务接口,
如果所述脱敏策略指示所述数据资产的第二脱敏字段采用第二脱敏算法、且所述第二脱敏算法使得脱敏
前和脱敏后的数据结构不一致,则每个子数据资产在被清洗后,其第二脱敏字段利用所述规约脱敏任务接口调用所述第二脱敏策略进行脱敏处理。
5.根据权利要求1所述的方法,其特征在于,所述脱敏策略的脱敏算法包括信息摘要算法、截断算法、替换算法、数据加密标准算法。
6.一种大数据脱敏系统,其特征在于,包括:
脱敏策略单元,被配置为定义数据资产及其对应的脱敏策略;
含脱敏的数据清洗单元,被配置为
获取数据清洗任务,所述数据清洗任务包括待处理的数据资产;
基于所述脱敏策略单元的配置内容,获取所述数据资产相应的脱敏策略;
采用分布式数据处理方式对所述数据资产同时执行数据清洗操作和按照所述脱敏策略执行脱敏处理。
7.根据权利要求6所述的系统,其特征在于,所述含脱敏的数据清洗单元,被配置为:
在分布式数据处理过程中,调用映射规约任务模板,所述映射规约任务模板的映射阶段和规约阶段中的
至少一个阶段中嵌入脱敏任务接口,使得所述数据资产的每个子数据资产在被清洗后,通过所述脱敏任务接口调用所述脱敏策略进行脱敏处理。
8.根据权利要求7所述的系统,其特征在于,所述含脱敏的数据清洗单元,被配置为:在分布式数据处理过程中,
如果所述脱敏策略指示所述数据资产的第一脱敏字段采用第一脱敏算法、且所述第一脱敏算法使得脱敏前和脱敏后的数据结构一致,则每个子数据资产在被清洗后,其第一脱敏字段利用所述映射阶段嵌入的映射脱敏任务接口调用所述第一脱敏算法进行脱敏处理;
如果所述脱敏策略指示所述数据资产的第二脱敏字段采用第二脱敏算法、且所述第二脱敏算法使得脱敏前和脱敏后的数据结构不一致,则每个子数据资产在被清洗后,其第二脱敏字段利用所述规约阶段嵌入的规约脱敏任务接口调用所述第二脱敏策略进行脱敏处
理。
9.一种大数据脱敏系统,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-5中任一项所述的大数据脱敏方法。
10.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-5中任一项所述的大数据脱敏方法的步骤。
大数据脱敏方法和系统
技术领域
[0001]本公开涉及大数据敏感数据保护领域,特别涉及一种大数据脱敏方法和系统。
背景技术
[0002]大数据平台汇聚了大量的不同来源、不同内容的数据,这些数据经过清洗整合后,成为可供大数据分析的数据。大数据应用在此基础上对数据进行各种分析运算,然后形成结果展示。大数据平台不可避免包含了各种敏感数据,例如用户电话号码、身份信息、位置信息、企业经营管理信息等隐私数据。如果这些敏感数据直接存储,或提供第三方进行大数据应用,这些敏感数据存在着巨大的泄露隐患,这些敏感数据一旦发生泄漏,将会给政府、单位及广大众带来巨大损失。因此在对数据进行应用之前,有必要对数据中的敏感数据进行脱敏处理,实现敏感数据的可靠保护。数据脱敏是一种通过脱敏规则对
敏感数据进行数据变形,实现敏感数据的可靠保护的方法。
[0003]一种静态数据脱敏方法,将清洗整合后的保存到原始数据库的数据提取出来,根据数据脱敏策略和算法,对敏感数据进行脱敏处理,然后存储在一个独立的脱敏数据库中,供后续的数据分析与应用,如测试、开发等。
发明内容
[0004]发明人发现,静态数据脱敏方法存在以下问题:一是,对原始数据库中的数据进行了一次同等规模的数据拷贝,在大数据环境下将带来巨大的数据增量;二是,大数据平台在数据清洗整合后,将不断引入新数据,每次需要对大数据平台的所有敏感数据(拍字节(Petabytes,简称PB)级数据)进行一次全量脱敏处理,对大数据平台性能影响巨大。[0005]本公开将大数据脱敏与大数据清洗流程相融合,在大数据平台的清洗阶段,基于大数据平台自身的分布式计算能力进行数据脱敏,满足大数据脱敏的高性能要求,不会产生额外的数据存储要求,对大数据平台影响小,且大数据平台存储的是脱敏数据,安全性更好。
[0006]本公开的一些实施例提出一种大数据脱敏方法,包括:
[0007]获取数据清洗任务,所述数据清洗任务包括待处理的数据资产;
[0008]获取所述数据资产相应的脱敏策略;
[0009]采用分布式数据处理方式对所述数据资产同时执行数据清洗操作和按照所述脱敏策略执行脱敏处理。
[0010]在一些实施例中,所述采用分布式数据处理方式对所述数据资产同时执行数据清洗操作和按照所述脱敏策略执行脱敏处理包括:
[0011]在分布式数据处理过程中,调用映射规约任务模板,所述映射规约任务模板的映射阶段和规约阶段中的至少一个阶段中嵌入脱敏任务接口,使得所述数据资产的每个子数据资产在被清洗后,通过所述脱敏任务接口调用所述脱敏策略进行脱敏处理。
[0012]在一些实施例中,所述映射阶段嵌入映射脱敏任务接口,如果所述脱敏策略指示
所述数据资产的第一脱敏字段采用第一脱敏算法、且所述第一脱敏算法使得脱敏前和脱敏后的数据结构一致,则每个子数据资产在被清洗后,其第一脱敏字段利用所述映射脱敏任务接口调用所述第一脱敏算法进行脱敏处理。
[0013]在一些实施例中,所述规约阶段嵌入规约脱敏任务接口,如果所述脱敏策略指示所述数据资产的第二脱敏字段采用第二脱敏算法、且所述第二脱敏算法使得脱敏前和脱敏后的数据结构不一致,则每个
子数据资产在被清洗后,其第二脱敏字段利用所述规约脱敏任务接口调用所述第二脱敏策略进行脱敏处理。
[0014]在一些实施例中,所述脱敏策略的脱敏算法包括信息摘要算法、截断算法、替换算法、数据加密标准算法。
[0015]本公开的一些实施例提出一种大数据脱敏系统,包括:
[0016]脱敏策略单元,被配置为定义数据资产及其对应的脱敏策略;
[0017]含脱敏的数据清洗单元,被配置为
[0018]获取数据清洗任务,所述数据清洗任务包括待处理的数据资产;
[0019]基于所述脱敏策略单元的配置内容,获取所述数据资产相应的脱敏策略;[0020]采用分布式数据处理方式对所述数据资产同时执行数据清洗操作和按照所述脱敏策略执行脱敏处理。
[0021]在一些实施例中,所述含脱敏的数据清洗单元,被配置为:在分布式数据处理过程中,调用映射规约任务模板,所述映射规约任务模板的映射阶段和规约阶段中的至少一个阶段中嵌入脱敏任务接口,使得所述数据资产的每个子数据资产在被清洗后,通过所述脱敏任务接口调用所述脱敏策略进行脱敏处理。
[0022]在一些实施例中,所述含脱敏的数据清洗单元,被配置为:在分布式数据处理过程中,
[0023]如果所述脱敏策略指示所述数据资产的第一脱敏字段采用第一脱敏算法、且所述第一脱敏算法使得脱敏前和脱敏后的数据结构一致,则每个子数据资产在被清洗后,其第一脱敏字段利用所述映射阶段嵌入的映射脱敏任务接口调用所述第一脱敏算法进行脱敏处理;
[0024]如果所述脱敏策略指示所述数据资产的第二脱敏字段采用第二脱敏算法、且所述第二脱敏算法使得脱敏前和脱敏后的数据结构不一致,则每个子数据资产在被清洗后,其第二脱敏字段利用所述规约阶段嵌入的规约脱敏任务接口调用所述第二脱敏策略进行脱敏处理。
[0025]本公开的一些实施例提出一种大数据脱敏系统,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行任一个实施例所述的大数据脱敏方法。
[0026]本公开的一些实施例提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一个实施例所述的大数据脱敏方法的步骤。
附图说明
[0027]下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,

本文发布于:2024-09-22 07:40:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/419385.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   资产   清洗   任务   策略   算法   敏感数据   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议