敏感数据的脱敏方法、装置、终端设备及计算机存储介质与流程



1.本发明属于数据处理技术领域,尤其涉及一种敏感数据的脱敏方法、装置、终端设备以及计算机可读存储介质。


背景技术:



2.随着科技的发展,数据资源爆炸式增长,信息共享也成为时代的新风向。
3.目前,各行各业数据包含大量个人隐私数据与敏感重要数据,因此,信息共享在提供便利的同时,也增大了隐私数据泄露的风险,一旦发生数据安全事件,将造成难以预估的损失。因此,国内许多重点行业企业已意识到数据安全的重要性。然而许多企业在实际数据采集、传输、存储、处理、交换共享等环节,对敏感数据进行脱敏处理的仍存在内置数据算法单一和支持的数据源类型少的问题,从而导致无法满足多种场景下多类型数据脱敏后的开发和测试使用。


技术实现要素:



4.本发明的主要目的在于提供一种敏感数据的脱敏方法、装置、终端设备以及计算机可读存储介质。旨在自动识别敏感数据并完成脱敏处理,从而实现对敏感数据的可靠保护。
5.为了实现上述目的,本发明提供一种敏感数据的脱敏方法,所述敏感数据的脱敏方法包括:
6.确定待脱敏的源数据;
7.将所述源数据与预设的敏感数据字典进行匹配得到匹配结果,其中,所述敏感数据字典是通过预先构造敏感数据识别学习模型以建立敏感数据集,并根据所述敏感数据集的敏感等级预定义脱敏规则生成的;
8.按照所述匹配结果中的脱敏规则针对所述源数据中的敏感数据进行脱敏处理。
9.可选地,所述的敏感数据的脱敏方法,所述方法还包括:
10.通过预先构造敏感数据识别学习模型以建立敏感数据集;
11.根据所述敏感数据集的敏感等级预定义脱敏规则生成敏感数据字典。
12.可选地,所述通过预先构造敏感数据识别学习模型以建立敏感数据集的步骤,包括:
13.通过预设的数据训练集进行模型训练以构造敏感数据识别学习模型;
14.基于所述敏感数据识别学习模型建立敏感数据集。
15.可选地,所述基于所述敏感数据识别学习模型建立敏感数据集的步骤,包括:
16.通过所述敏感数据学习模型针对所述数据训练集中各训练数据的输入进行自动识别得到输出,其中,所述输出包括:敏感数据、所述敏感数据对应的敏感等级和敏感标签;
17.根据所述敏感等级分类建立多个包括所述敏感数据、所述敏感等级和所述敏感标签的敏感数据集。
18.可选地,所述根据所述敏感数据集的敏感等级预定义脱敏规则生成敏感数据字典的步骤,包括:
19.根据所述敏感数据集的敏感等级,针对所述敏感数据集预定义脱敏规则;
20.根据所述脱敏规则以及所述敏感数据集中的敏感标签,生成敏感数据字典。
21.可选地,在所述将所述源数据与预设的敏感数据字典进行匹配的步骤之后,所述方法还包括:
22.若所述源数据与所述敏感数据字典匹配失败,则通过预先构造的敏感数据识别学习模型,确定所述源数据中的敏感数据、所述敏感数据对应的敏感等级和敏感标签;
23.将所述敏感数据、所述敏感等级和所述敏感标签归类到各所述敏感数据集中的目标敏感数据集,并根据所述目标敏感数据集对应的脱敏规则和所述敏感标签对所述敏感数据字典进行更新。
24.可选地,在所述将所述敏感数据、所述敏感等级和所述敏感标签归类到各所述敏感数据集中的目标敏感数据集的步骤之后,所述方法还包括:
25.根据所述目标敏感数据集对应的脱敏规则针对所述敏感数据进行脱敏处理,得到脱敏数据。
26.此外,为实现上述目的,本发明还提供一种敏感数据的脱敏装置,所述敏感数据的脱敏装置包括:
27.数据获取模块,确定待脱敏的源数据;
28.数据匹配模块,将所述源数据与预设的敏感数据字典进行匹配得到匹配结果,其中,所述敏感数据字典是通过预先构造敏感数据识别学习模型以建立敏感数据集,并根据所述敏感数据集的敏感等级预定义脱敏规则生成的;
29.数据处理模块,按照所述匹配结果中的脱敏规则针对所述源数据中的敏感数据进行脱敏处理。
30.此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的敏感数据的脱敏程序,所述终端设备的敏感数据的脱敏程序被所述处理器执行时实现如上所述的敏感数据的脱敏方法的步骤。
31.此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有敏感数据的脱敏程序,所述敏感数据的脱敏程序被处理器执行时实现如上所述的敏感数据的脱敏方法的步骤。
32.本发明实施例提出的一种敏感数据的脱敏方法、装置、终端设备以及计算机可读存储介质,通过确定待脱敏的源数据;将所述源数据与预设的敏感数据字典进行匹配得到匹配结果,其中,所述敏感数据字典是通过预先构造敏感数据识别学习模型以建立敏感数据集,并根据所述敏感数据集的敏感等级预定义脱敏规则生成的;最后,按照所述匹配结果中的脱敏规则针对所述源数据中的敏感数据进行脱敏处理。
33.如此,本发明实施例通过确定待脱敏的源数据,并将其与敏感数据字典进行匹配以得到匹配结果,从而根据匹配结果中的脱敏规则针对其对应的敏感数据进行脱敏处理,得到脱敏数据,即可实现自动识别敏感数据并完成脱敏处理,进而实现对敏感数据的可靠保护。
附图说明
34.图1是本发明实施例方案涉及的终端设备硬件运行环境的设备结构示意图;
35.图2为本发明敏感数据的脱敏方法第一实施例的步骤流程示意图;
36.图3为本发明敏感数据的脱敏方法的一实施例所涉及的具体应用流程示意图;
37.图4为本发明敏感数据的脱敏装置一实施例的功能模块示意图。
38.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
39.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
40.参照图1,图1为本发明实施例方案涉及终端设备的硬件运行环境的设备结构示意图。
41.本发明实施例终端设备可以是应用于数据采集、传输、存储、处理、交换共享等环节,以针对数据进行脱敏处理的终端设备,具体地,该终端设备可以是智能手机、pc(personal computer,个人计算机)、平板电脑、便携计算机等等。
42.如图1所示,该终端设备可以包括:处理器1001,例如cpu,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
43.本领域技术人员可以理解,图1中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
44.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及敏感数据的脱敏程序。
45.在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的敏感数据的脱敏程序,并执行如下操作:
46.确定待脱敏的源数据;
47.将所述源数据与预设的敏感数据字典进行匹配得到匹配结果,其中,所述敏感数据字典是通过预先构造敏感数据识别学习模型以建立敏感数据集,并根据所述敏感数据集的敏感等级预定义脱敏规则生成的;
48.按照所述匹配结果中的脱敏规则针对所述源数据中的敏感数据进行脱敏处理。
49.可选地,处理器1001还可以用于调用存储器1005中存储的敏感数据的脱敏程序,并执行如下操作:
50.通过预先构造敏感数据识别学习模型以建立敏感数据集;
51.根据所述敏感数据集的敏感等级预定义脱敏规则生成敏感数据字典。
52.可选地,处理器1001还可以用于调用存储器1005中存储的敏感数据的脱敏程序,并执行如下操作:
53.通过预设的数据训练集进行模型训练以构造敏感数据识别学习模型;
54.基于所述敏感数据识别学习模型建立敏感数据集。
55.可选地,处理器1001还可以用于调用存储器1005中存储的敏感数据的脱敏程序,并执行如下操作:
56.通过所述敏感数据学习模型针对所述数据训练集中各训练数据的输入进行自动识别得到输出,其中,所述输出包括:敏感数据、所述敏感数据对应的敏感等级和敏感标签;
57.根据所述敏感等级分类建立多个包括所述敏感数据、所述敏感等级和所述敏感标签的敏感数据集。
58.可选地,处理器1001还可以用于调用存储器1005中存储的敏感数据的脱敏程序,并执行如下操作:
59.根据所述敏感数据集的敏感等级,针对所述敏感数据集预定义脱敏规则;
60.根据所述脱敏规则以及所述敏感数据集中的敏感标签,生成敏感数据字典。
61.可选地,处理器1001还可以用于调用存储器1005中存储的敏感数据的脱敏程序,在所述将所述源数据与预设的敏感数据字典进行匹配的步骤之后,还执行如下操作:
62.若所述源数据与所述敏感数据字典匹配失败,则通过预先构造的敏感数据识别学习模型,确定所述源数据中的敏感数据、所述敏感数据对应的敏感等级和敏感标签;
63.将所述敏感数据、所述敏感等级和所述敏感标签归类到各所述敏感数据集中的目标敏感数据集,并根据所述目标敏感数据集对应的脱敏规则和所述敏感标签对所述敏感数据字典进行更新。
64.可选地,处理器1001还可以用于调用存储器1005中存储的敏感数据的脱敏程序,在所述将所述敏感数据、所述敏感等级和所述敏感标签归类到各所述敏感数据集中的目标敏感数据集的步骤之后,还执行如下操作:
65.根据所述目标敏感数据集对应的脱敏规则针对所述敏感数据进行脱敏处理,得到脱敏数据。
66.基于上述的终端设备,提出本发明敏感数据的脱敏方法的各实施例。
67.在本发明敏感数据的脱敏方法的各实施例中,各行各业数据包含大量个人隐私数据与敏感重要数据,因此,信息共享在提供便利的同时,也增大了隐私数据泄露的风险,一旦发生数据安全事件,将造成难以预估的损失。因此,国内许多重点行业企业已意识到数据安全的重要性。然而许多企业在实际数据采集、传输、存储、处理、交换共享等环节,对敏感数据进行脱敏处理的仍存在内置数据算法单一和支持的数据源类型少的问题,从而导致无法满足多种场景下多类型数据脱敏后的开发和测试使用。
68.针对上述现象,本发明提出一种敏感数据的脱敏方法,在数据采集、传输、存储、处理、交换共享等环节当中,通过确定待脱敏的源数据,并将其与敏感数据字典进行匹配以得到匹配结果,从而根据匹配结果中的脱敏规则针对其对应的敏感数据进行脱敏处理,得到脱敏数据,即可实现自动识别敏感数据并完成脱敏处理,进而实现对敏感数据的可靠保护。
69.请参照图2,图2为本发明敏感数据的脱敏方法第一实施例的流程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,本发明敏感数据的脱敏方法当然也可以以不同于此处的顺序执行所示出或描述的步骤。
70.在本发明敏感数据的脱敏方法的第一实施例中,本发明敏感数据的脱敏方法包
括:
71.步骤s10:确定待脱敏的源数据;
72.在本实施例中,终端设备在数据采集、传输、存储、处理、交换共享等环节当中针对数据进行脱敏处理时,终端设备首先确定在进行数据采集、传输、存储、处理、交换共享等大数据活动时涉及到的需要进行脱敏处理的源数据。
73.需要说明的是,在本实施例中,大数据活动可以是数据采集、传输、存储、处理、交换共享等,应当理解的是,基于实际应用的不同设计需要,在不同可行的实施方式当中,大数据活动可以是任何数据处理方法,本发明敏感数据的脱敏方法并不针对大数据活动的具体类型进行限定。
74.示例性地,终端设备在数据采集的过程中,通过数据爬取工具对参与该数据采集过程的数据进行爬取采集,并将爬取采集得到的数据作为当前进行数据采集过程中待脱敏的源数据。
75.步骤s20,将所述源数据与预设的敏感数据字典进行匹配得到匹配结果,其中,所述敏感数据字典是通过预先构造敏感数据识别学习模型以建立敏感数据集,并根据所述敏感数据集的敏感等级预定义脱敏规则生成的;
76.在本实施例中,终端设备通过构造敏感数据识别学习模型建立敏感数据集,然后根据各个敏感数据集的敏感等级预定义对应的脱敏规则,从而生成敏感数据字典。进而,终端设备将待脱敏的源数据与敏感数据字典进行匹配,得到匹配结果。
77.示例性地,终端设备通过“监督”学习系统训练学习构造一个敏感数据识别学习模型的最优模型,由此模型对待脱敏的源数据进行数据处理,得到输出数据以建立敏感数据集。然后,根据敏感数据集不同的敏感等级定义不同的脱敏规则,再基于现有的数据处理结果生成敏感数据字典。当终端设备在进行数据采集、传输、存储、处理、交换共享等环节时,首先将需要脱敏的源数据与敏感数据字典进行匹配,得到匹配结果。
78.进一步地,在一种可行的实施例中,本发明敏感数据的脱敏方法,还可以包括:
79.步骤a,通过预先构造敏感数据识别学习模型以建立敏感数据集;
80.步骤b,根据所述敏感数据集的敏感等级预定义脱敏规则生成敏感数据字典。
81.在本实施例中,终端设备在上述的大数据活动中开始针对数据进行脱敏处理之前,还预先通过构造敏感数据识别学习模型的最优模型,建立敏感数据集,并根据各个敏感数据集的敏感等级预定义该每一个敏感数据集的脱敏规则,从而生成敏感数据字典。
82.进一步地,在一种可行的实施例中,步骤a,可以包括:
83.步骤a01,通过预设的数据训练集进行模型训练以构造敏感数据识别学习模型;
84.步骤a02,基于所述敏感数据识别学习模型建立敏感数据集。
85.在本实施例中,终端设备在构建敏感数据识别学习模型以建立敏感数据集的过程中,首先获取数据训练集,从而使用数据训练集进行模型训练以构造一个最优模型,也就是敏感数据识别学习模型,然后再基于敏感数据识别学习模型建立敏感数据集。
86.需要说明的是,在本实施例中,数据训练集包含多条训练数据,其中,每条训练数据包括输入的待脱敏的源数据以及输出的敏感数据、敏感数据对应的敏感等级和敏感标签。数据训练集可以用公式t={(x1,y1),(x2,y2),...,(xj,yj),...(xm,ym)}表示。
87.示例性地,终端设备获取数据训练集,使用数据训练集进行模型训练,通过模型对
训练数据中的输入x1进行数据处理得到预期输出y1,由模型自身不断调整模型参数以构建敏感数据识别学习模型的最优模型,从而基于该模型生成敏感数据集。
88.进一步地,在一种可行的实施例中,步骤a02,可以包括:
89.步骤a021,通过所述敏感数据学习模型针对所述数据训练集中各训练数据的输入进行自动识别得到输出,其中,所述输出包括:敏感数据、所述敏感数据对应的敏感等级和敏感标签;
90.步骤a022,根据所述敏感等级分类建立多个包括所述敏感数据、所述敏感等级和所述敏感标签的敏感数据集。
91.在本实施例中,终端设备在构建敏感数据识别学习模型之后,通过敏感数据识别学习模型针对数据训练集中各个训练数据的输入进行自动识别,并输出输入数据中包含的敏感数据及敏感数据对应的敏感等级和敏感标签。根据敏感数据的敏感等级分类建立多个敏感数据集,其中,敏感数据集包含敏感数据、敏感数据对应的敏感等级和敏感标签。
92.示例性地,通过终端设备构造的敏感数据识别学习模型对训练数据的输入x进行自动识别,得到输出y,其中,x是包含有敏感数据的一段数据信息,y为该段数据信息中包含的敏感数据、敏感数据对应的敏感等级和敏感标签。训练数据(x1,y1)中,x1是包含有敏感数据的一段数据信息,y1是具体的身份证号、第一敏感等级和“身份证号”。另外,训练数据(x2,y2)中,x2为包含有敏感数据的另一段数据信息,y2为具体的姓名、第二敏感等级和“姓名”。根据敏感数据的敏感等级分类建立敏感数据集,由y1建立一个敏感等级为第一敏感等级的敏感数据集,用于存放所有敏感等级为第一敏感等级的y;由y2建立一个敏感等级为第二敏感等级的敏感数据集,用于存放所有敏感等级为第二敏感等级的y。
93.进一步地,在一种可行的实施例中,步骤b,可以包括:
94.步骤b01,根据所述敏感数据集的敏感等级,针对所述敏感数据集预定义脱敏规则;
95.步骤b02,根据所述脱敏规则以及所述敏感数据集中的敏感标签,生成敏感数据字典。
96.在本实施例中,终端设备在建立得到多个敏感数据集之后,进一步根据该每一个敏感数据集各自的敏感等级,分别对该每一个敏感数据集预定义脱敏规则,并根据该每一个敏感数据集的脱敏规则和该每一个敏感数据集中敏感数据的敏感标签生成对应的敏感数据字典。
97.示例性地,终端设备对敏感等级为第一敏感等级的敏感数据集预定义的脱敏规则为数据无效化,也就是说,该敏感数据集中的敏感标签“身份证号”对应的脱敏规则为数据无效化,然后,将“身份证号”和数据无效化这两个信息打包封装,即每个敏感标签和每个敏感标签对应的脱敏规则都能生成一个封装信息,再由这些封装信息组成敏感数据字典。
98.需要说明的是,脱敏规则可以是数据替换、变形、无效化、随机化、偏移和取整、掩码遮掩或灵活编码中的一种或多种,应当理解的是,基于实际应用的不同设计需要,在不同可行的实施方式当中,脱敏规则可以是任何能实现数据脱敏的数据处理方式,本发明敏感数据的脱敏方法并不针对该脱敏规则的具体组成进行限定。
99.步骤s30,按照所述匹配结果中的脱敏规则针对所述源数据中的敏感数据进行脱敏处理。
100.在本实施例中,在终端设备将待脱敏的源数据与敏感数据字典进行匹配并得到匹配结果之后,终端设备根据匹配结果中脱敏规则对源数据中的敏感数据进行脱敏处理,得到脱敏数据。
101.示例性地,如图3所示,本发明的具体应用流程示意图,首先由终端设备获取数据训练集,通过机器学习进行模型训练,从而得到敏感数据识别学习模型的最优模型,再由终端设备基于最优模型的输出生成敏感数据集,进而生成敏感数据字典,最后,终端设备将待脱敏的源数据与敏感数据字典进行匹配。假设终端设备通过敏感数据识别学习模型输出待脱敏的源数据中的敏感数据为身份证号,该身份证号对应的敏感等级和敏感标签分别是第一敏感等级和“身份证号”,则由终端设备将“身份证号”与敏感数据字典中的敏感标签进行比对匹配,匹配成功并得到“身份证号”所在的封装信息中的脱敏规则,也就是数据无效化,进而对当前源数据中的身份证号进行数据无效化处理,得到脱敏数据。
102.在本实施例中,本发明敏感数据的脱敏方法通过终端设备在数据采集、传输、存储、处理、交换共享等环节当中针对数据进行脱敏处理时,终端设备首先确定在进行数据采集、传输、存储、处理、交换共享等大数据活动时涉及到的需要进行脱敏处理的源数据。构造敏感数据识别学习模型建立敏感数据集,然后根据各个敏感数据集的敏感等级预定义对应的脱敏规则,从而生成敏感数据字典。进而,将待脱敏的源数据与敏感数据字典进行匹配,得到匹配结果。
103.具体实施方式为,终端设备在构建敏感数据识别学习模型以建立敏感数据集的过程中,首先获取数据训练集,从而使用数据训练集进行模型训练以构造一个最优模型,也就是敏感数据识别学习模型,然后再基于敏感数据识别学习模型建立敏感数据集。首先,终端设备在构建敏感数据识别学习模型之后,通过敏感数据识别学习模型针对数据训练集中各个训练数据的输入进行自动识别,并输出输入数据中包含的敏感数据及敏感数据对应的敏感等级和敏感标签。根据敏感数据的敏感等级分类建立多个敏感数据集,其中,敏感数据集包含敏感数据、敏感数据对应的敏感等级和敏感标签。其次,根据终端设备建立的敏感数据集的敏感等级对敏感数据集预定义脱敏规则,并根据敏感数据集的脱敏规则和敏感数据集中敏感数据的敏感标签生成敏感数据字典。最后,在终端设备将待脱敏的源数据与敏感数据字典进行匹配并得到匹配结果之后,终端设备根据匹配结果中脱敏规则对源数据中的敏感数据进行脱敏处理,得到脱敏数据。
104.如此,本发明实施例通过构造一个敏感数据识别学习的最优模型,建立不同敏感等级的敏感数据集,并生成敏感数据字典。从而在进行大数据活动时,可以通过将待脱敏的源数据与敏感数据字典进行匹配,按照匹配结果中的脱敏规则对敏感数据进行脱敏处理以得到脱敏数据。进而,实现对敏感数据的自动识别,即可做到对敏感隐私数据的可靠保护。
105.进一步地,基于上述本发明敏感数据的脱敏方法的第一实施例,提出本发明敏感数据的脱敏方法的第二实施例。
106.在本实施例中,步骤20之后,本发明敏感数据的脱敏方法,还可以包括:
107.步骤c,若所述源数据与所述敏感数据字典匹配失败,则通过预先构造的敏感数据识别学习模型,确定所述源数据中的敏感数据、所述敏感数据对应的敏感等级和敏感标签;
108.步骤d,将所述敏感数据、所述敏感等级和所述敏感标签归类到各所述敏感数据集中的目标敏感数据集,并根据所述目标敏感数据集对应的脱敏规则和所述敏感标签对所述
敏感数据字典进行更新。
109.在本实施例中,若源数据与敏感数据字典匹配失败,则终端设备通过敏感数据识别学习模型识别并输出源数据中的敏感数据、敏感数据对应的敏感等级和敏感标签,并将这些输出数据项归类到相同敏感等级的目标敏感数据集中,再根据目标敏感数据集对应的脱敏规则和敏感数据的敏感标签对敏感数据字典进行数据更新。
110.示例性地,当终端设备在敏感数据字典中没有到与源数据中的敏感标签匹配的敏感标签时,重新通过敏感数据识别学习模型对待脱敏的源数据进行自动识别,假设该源数据中包含的敏感数据为银行卡号,银行卡号对应的敏感等级和敏感标签分别是第一敏感等级和“银行卡号”,再将该输出更新到敏感等级为第一敏感等级的敏感数据集,再将“银行卡号”和数据无效化进行打包封装,更新到敏感数据字典中。
111.此外,在本实施例中,在“将所述敏感数据、所述敏感等级和所述敏感标签归类到各所述敏感数据集中的目标敏感数据集”的步骤之后,本发明敏感数据的脱敏方法,还可以包括:
112.步骤e,根据所述目标敏感数据集对应的脱敏规则针对所述敏感数据进行脱敏处理,得到脱敏数据。
113.在本实施例中,在终端设备对目标敏感数据集进行更新之后,根据目标数据集的脱敏规则对源数据中的敏感数据进行脱敏处理,得到脱敏数据。
114.示例性地,终端设备在将敏感数据识别学习模型输出的银行卡号、第一敏感等级和“银行卡号”更新到第一敏感等级的敏感数据集之后,按照该敏感数据集对应的脱敏规则对银行卡号进行数据无效化处理,得到脱敏数据。
115.在本实施例中,本发明敏感数据的脱敏方法包括,若源数据与敏感数据字典匹配失败,则终端设备通过敏感数据识别学习模型识别并输出源数据中的敏感数据、敏感数据对应的敏感等级和敏感标签,并将这些输出数据项归类到相同敏感等级的目标敏感数据集中,再根据目标敏感数据集对应的脱敏规则和敏感数据的敏感标签对敏感数据字典进行数据更新。在终端设备对目标敏感数据集进行更新之后,根据目标数据集的脱敏规则对源数据中的敏感数据进行脱敏处理,得到脱敏数据。
116.如此,本发明实施例针对源数据与敏感数据字典匹配失败的情况,利用敏感数据识别学习模型对敏感数据集进行数据更新,从而对敏感数据字典进行数据更新,进而实现了在大数据活动中对敏感数据集及敏感数据字典的动态更新,提高了该敏感数据的脱敏方法的智能性。
117.此外,本发明实施例还提供一种敏感数据的脱敏装置,请参照图4,图4为本发明敏感数据的脱敏装置一实施例的功能模块示意图,如图4所示,本发明敏感数据的脱敏装置包括:
118.数据获取模块10,用于确定待脱敏的源数据;
119.数据匹配模块20,用于将所述源数据与预设的敏感数据字典进行匹配得到匹配结果,其中,所述敏感数据字典是通过预先构造敏感数据识别学习模型以建立敏感数据集,并根据所述敏感数据集的敏感等级预定义脱敏规则生成的;
120.数据处理模块30,用于按照所述匹配结果中的脱敏规则针对所述源数据中的敏感数据进行脱敏处理。
121.可选地,本发明敏感数据的脱敏装置,还包括:
122.数据集建立模块,用于通过预先构造敏感数据识别学习模型以建立敏感数据集;
123.数据字典生成模块,用于根据所述敏感数据集的敏感等级预定义脱敏规则生成敏感数据字典。
124.可选地,数据集建立模块,包括:
125.模型单元,用于通过预设的数据训练集进行模型训练以构造敏感数据识别学习模型;
126.数据集建立单元,用于基于所述敏感数据识别学习模型建立敏感数据集。
127.可选地,数据集建立单元还用于通过所述敏感数据学习模型针对所述数据训练集中各训练数据的输入进行自动识别得到输出,其中,所述输出包括:敏感数据、所述敏感数据对应的敏感等级和敏感标签;根据所述敏感等级分类建立多个包括所述敏感数据、所述敏感等级和所述敏感标签的敏感数据集。
128.可选地,数据字典生成模块还用于根据所述敏感数据集的敏感等级,针对所述敏感数据集预定义脱敏规则;根据所述脱敏规则以及所述敏感数据集中的敏感标签,生成敏感数据字典。
129.可选地,本发明敏感数据的脱敏装置,还包括:
130.动态更新模块,用于若所述源数据与所述敏感数据字典匹配失败,则通过预先构造的敏感数据识别学习模型,确定所述源数据中的敏感数据、所述敏感数据对应的敏感等级和敏感标签;将所述敏感数据、所述敏感等级和所述敏感标签归类到各所述敏感数据集中的目标敏感数据集,并根据所述目标敏感数据集对应的脱敏规则和所述敏感标签对所述敏感数据字典进行更新。
131.可选地,本发明敏感数据的脱敏装置的数据处理模块30,还用于根据所述目标敏感数据集对应的脱敏规则针对所述敏感数据进行脱敏处理,得到脱敏数据。
132.本发明敏感数据的脱敏装置的各个功能模块在运行时的具体实施例与上述本发明敏感数据的脱敏方法各实施例基本相同,在此不作赘述。
133.本发明还提供一种计算机存储介质,该计算机存储介质上存储有敏感数据的脱敏程序,上述敏感数据的脱敏程序被处理器执行时实现如以上任一项实施例所述的敏感数据的脱敏程序方法的步骤。
134.本发明计算机存储介质的具体实施例与上述本发明敏感数据的脱敏程序方法各实施例基本相同,在此不作赘述。
135.本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如以上任一项实施例所述的本发明敏感数据的脱敏方法的步骤,在此不作赘述。
136.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
137.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
138.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是tws耳机等)执行本发明各个实施例所述的方法。
139.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:


1.一种敏感数据的脱敏方法,其特征在于,所述敏感数据的脱敏方法包括:确定待脱敏的源数据;将所述源数据与预设的敏感数据字典进行匹配得到匹配结果,其中,所述敏感数据字典是通过预先构造敏感数据识别学习模型以建立敏感数据集,并根据所述敏感数据集的敏感等级预定义脱敏规则生成的;按照所述匹配结果中的脱敏规则针对所述源数据中的敏感数据进行脱敏处理。2.如权利要求1所述的敏感数据的脱敏方法,其特征在于,所述方法还包括:通过预先构造敏感数据识别学习模型以建立敏感数据集;根据所述敏感数据集的敏感等级预定义脱敏规则生成敏感数据字典。3.如权利要求2所述的敏感数据的脱敏方法,所述通过预先构造敏感数据识别学习模型以建立敏感数据集的步骤,包括:通过预设的数据训练集进行模型训练以构造敏感数据识别学习模型;基于所述敏感数据识别学习模型建立敏感数据集。4.如权利要求3所述的敏感数据的脱敏方法,其特征在于,所述基于所述敏感数据识别学习模型建立敏感数据集的步骤,包括:通过所述敏感数据学习模型针对所述数据训练集中各训练数据的输入进行自动识别得到输出,其中,所述输出包括:敏感数据、所述敏感数据对应的敏感等级和敏感标签;根据所述敏感等级分类建立多个包括所述敏感数据、所述敏感等级和所述敏感标签的敏感数据集。5.如权利要求2所述的敏感数据的脱敏方法,其特征在于,所述根据所述敏感数据集的敏感等级预定义脱敏规则生成敏感数据字典的步骤,包括:根据所述敏感数据集的敏感等级,针对所述敏感数据集预定义脱敏规则;根据所述脱敏规则以及所述敏感数据集中的敏感标签,生成敏感数据字典。6.如权利要求1所述的敏感数据的脱敏方法,其特征在于,在所述将所述源数据与预设的敏感数据字典进行匹配的步骤之后,所述方法还包括:若所述源数据与所述敏感数据字典匹配失败,则通过预先构造的敏感数据识别学习模型,确定所述源数据中的敏感数据、所述敏感数据对应的敏感等级和敏感标签;将所述敏感数据、所述敏感等级和所述敏感标签归类到各所述敏感数据集中的目标敏感数据集,并根据所述目标敏感数据集对应的脱敏规则和所述敏感标签对所述敏感数据字典进行更新。7.如权利要求6所述的敏感数据的脱敏方法,其特征在于,在所述将所述敏感数据、所述敏感等级和所述敏感标签归类到各所述敏感数据集中的目标敏感数据集的步骤之后,所述方法还包括:根据所述目标敏感数据集对应的脱敏规则针对所述敏感数据进行脱敏处理,得到脱敏数据。8.一种敏感数据的脱敏装置,其特征在于,所述敏感数据的脱敏装置包括:数据获取模块,确定待脱敏的源数据;数据匹配模块,将所述源数据与预设的敏感数据字典进行匹配得到匹配结果,其中,所述敏感数据字典是通过预先构造敏感数据识别学习模型以建立敏感数据集,并根据所述敏
感数据集的敏感等级预定义脱敏规则生成的;数据处理模块,按照所述匹配结果中的脱敏规则针对所述源数据中的敏感数据进行脱敏处理。9.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的敏感数据的脱敏程序,所述敏感数据的脱敏程序被所述处理器执行时实现如权利要求1至7中任一项所述的敏感数据的脱敏方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有敏感数据的脱敏程序,所述敏感数据的脱敏程序被处理器执行时实现如权利要求1至7中任一项所述的敏感数据的脱敏方法的步骤。

技术总结


本发明公开了一种敏感数据的脱敏方法、装置、终端设备以及计算机可读存储介质,该方法确定待脱敏的源数据;将所述源数据与预设的敏感数据字典进行匹配得到匹配结果,其中,所述敏感数据字典是通过预先构造敏感数据识别学习模型以建立敏感数据集,并根据所述敏感数据集的敏感等级预定义脱敏规则生成的;按照所述匹配结果中的脱敏规则针对所述源数据中的敏感数据进行脱敏处理。感数据进行脱敏处理。感数据进行脱敏处理。


技术研发人员:

韦菊梅 张亮 班定东 陈炼松 李恒玥

受保护的技术使用者:

上汽通用五菱汽车股份有限公司

技术研发日:

2022.09.27

技术公布日:

2022/12/23

本文发布于:2024-09-21 01:27:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/46107.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:敏感数据   所述   数据   敏感
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议