合同文件敏感数据的脱敏方法及系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202110111160.3
(22)申请日 2021.01.27
(71)申请人 上海明略人工智能(集团)有限公司
地址 200030 上海市徐汇区云锦路701号
29、30、31、32层
(72)发明人 黄山姗 
(74)专利代理机构 青岛清泰联信知识产权代理
有限公司 37256
代理人 赵燕
(51)Int.Cl.
G06F  21/62(2013.01)
G06F  40/279(2020.01)
(54)发明名称
合同文件敏感数据的脱敏方法及系统
(57)摘要
本申请涉及一种合同文件敏感数据的脱敏
方法及系统,其中,该合同文件敏感数据的脱敏
方法包括:合同类别识别步骤,用于获取待识别
的合同文件并识别所述合同文件的所属合同类
别;内容模块识别步骤,用于基于所述合同类别
识别所述合同文件中的多个内容模块;敏感信息
识别步骤,用于识别每一所述内容模块中敏感信
息,并对所述敏感信息关联对应的预设脱敏规
则;脱敏合同获取步骤,用于根据所述脱敏规则
对所述敏感信息进行数据脱敏处理,并生成脱敏
合同文件。通过本申请,提高了数据脱敏的准确
性,
降低工作时间成本。权利要求书2页  说明书10页  附图2页CN 112800460 A 2021.05.14
C N  112800460
A
1.一种合同文件敏感数据的脱敏方法,其特征在于,包括:
合同类别识别步骤,用于获取待识别的合同文件并识别所述合同文件的所属合同类别;
内容模块识别步骤,用于基于所述合同类别识别所述合同文件中的多个内容模块;
敏感信息识别步骤,用于识别每一所述内容模块中敏感信息,并对所述敏感信息关联对应的预设脱敏规则;
脱敏合同获取步骤,用于根据所述脱敏规则对所述敏感信息进行数据脱敏处理,并生成脱敏合同文件。
2.根据权利要求1所述的合同文件敏感数据的脱敏方法,其特征在于,所述合同类别识别步骤进一步包括:
合同名称识别步骤,用于识别所述合同文件的合同名称并将所述合同名称与预先定义的合同类别进行匹
配,以获取所述合同文件所属的合同类别。
3.根据权利要求1或2所述的合同文件敏感数据的脱敏方法,其特征在于,所述合同类别识别步骤进一步包括:
内容单元识别步骤,用于通过解析所述合同文件的合同内容获取所述合同内容的内容单元,通过匹配内容获取所述内容单元对应的内容模块,根据所述内容模块获取所述合同文件所属的合同类别。
4.根据权利要求3所述的合同文件敏感数据的脱敏方法,其特征在于,所述脱敏规则通过一敏感数据表进行存储,所述敏感数据列表至少包括敏感信息及其对应的脱敏方式。
5.根据权利要求4所述的合同文件敏感数据的脱敏方法,其特征在于,所述脱敏方式进一步包括:遮蔽脱敏、保格式脱敏、Hash脱敏及变换脱敏其一或其任意组合。
6.一种合同文件敏感数据的脱敏系统,其特征在于,包括:
合同类别识别单元,用于获取待识别的合同文件并识别所述合同文件的所属合同类别;
内容模块识别单元,用于基于所述合同类别识别所述合同文件中的多个内容模块;
敏感信息识别单元,用于识别每一所述内容模块中敏感信息,并对所述敏感信息关联对应的预设脱敏规则;
脱敏合同获取单元,用于根据所述脱敏规则对所述敏感信息进行数据脱敏处理,并生成脱敏合同文件。
7.根据权利要求6所述的合同文件敏感数据的脱敏系统,其特征在于,所述合同类别识别单元进一步包括:
合同名称识别单元,用于识别所述合同文件的合同名称并将所述合同名称与预先定义的合同类别进行匹配,以获取所述合同文件所属的合同类别。
8.根据权利要求6或7所述的合同文件敏感数据的脱敏系统,其特征在于,所述合同类别识别单元进一步包括:
内容单元识别单元,用于通过解析所述合同文件的合同内容获取所述合同内容的内容单元,通过匹配内容获取所述内容单元对应的内容模块,根据所述内容模块获取所述合同文件所属的合同类别。
9.根据权利要求8所述的合同文件敏感数据的脱敏系统,其特征在于,所述脱敏规则通
过一敏感数据表进行存储,所述敏感数据列表至少包括敏感信息及其对应的脱敏方式。
10.根据权利要求9所述的合同文件敏感数据的脱敏系统,其特征在于,所述脱敏方式进一步包括:遮蔽脱敏、保格式脱敏、Hash脱敏及变换脱敏其一或其任意组合。
合同文件敏感数据的脱敏方法及系统
技术领域
[0001]本申请涉及互联网技术领域,特别是涉及一种合同文件敏感数据的脱敏方法及系统。
背景技术
[0002]数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
[0003]在企业内部,经常会存在一些合同、协议数据文件需要传输、查阅的场景,但合同本身存在较多敏感信息,包括企业的信息、、账号信息等,并不是所有场景都需要了解合同的全部内容,当公司非法务人员需求进行查阅时经常要层层审批,而参与审批环节的人员并不一定了解原始查阅需求,可能出现审批内容与需求内容不符,或者提供多于需求的内容等情况,可以将合同中对于企业比较敏感的信息进行数据脱敏处理,简化审批流程,同时也避免放大需求多提供敏感数据的情况。
[0004]现有技术可以使用通用的分词技术或者规则匹配,获取敏感信息,然后进行进一步的脱敏处理。针对于合同信息有自己比较标准的语言语义,采用通用的方式会出现误判或者遗漏的情况,例如合同中的标准报价可能被误认为合同金额,可能会被误判,并且合同中标准的确定不存在敏感信息的内容较多,如对全部内容进行判断会增加判断时间。
发明内容
[0005]本申请实施例提供了一种合同文件敏感数据的脱敏方法、系统、计算机设备和计算机可读存储介质,通过解析识别合同文件的内容模块定位敏感信息并基于所述脱敏规则针对性的对所述敏感信息进行数据脱敏处理,提高了数据脱敏的准确性,降低工作时间成本。
[0006]第一方面,本申请实施例提供了一种合同文件敏感数据的脱敏方法,包括:[0007]合同类别识别步骤,用于获取待识别的合同文件并识别所述合同文件的所属合同类别,所述合同类别为预先定义的,所述合同类别包括但不限于保密协议、服务协议、销售合同、采购合同;
[0008]内容模块识别步骤,用于基于所述合同类别识别所述合同文件中的多个内容模块,具体的,通过文本识别算法解析所述合同文件的合同内容得到多个内容单元,通过匹配所述内容单元与所述内容模块识别所述内容模块,所述内容模块为基于所述合同类别预先定义的,针对所述内容模块举例而非限制,如保密协议中的保密信息、保密义务,服务协议中的服务提供内容、款项及支付;
[0009]敏感信息识别步骤,用于识别每一所述内容模块中敏感信息,并对所述敏感信息关联对应的预设脱敏规则;具体的,所述敏感信息表现为个人隐私信息,由于涉及个人隐私
信息,可选的,所述敏感信息根据现有法律法规预先定义,以便于标准化个人隐私信息的范畴;针对所述敏感信息举例而非限制,如姓名、手机号、地址、付款金额、付款账户等个人隐私信息;
[0010]脱敏合同获取步骤,用于根据所述脱敏规则对所述敏感信息进行数据脱敏处理,并生成脱敏合同文件。
[0011]在其中一些实施例中,所述合同类别识别步骤进一步包括:
[0012]合同名称识别步骤,用于通过文本识别算法识别所述合同文件的合同名称并将所述合同名称与预先定义的合同类别进行匹配,以获取所述合同文件所属的合同类别。[0013]在其中一些实施例中,所述合同类别识别步骤进一步包括:
[0014]内容单元识别步骤,用于通过文本识别算法解析所述合同文件的合同内容获取所述合同内容的内容单元,通过匹配内容获取所述内容单元对应的内容模块,根据所述内容模块获取所述合同文件所属的合同类别,从而确认所述合同文件的合同类别。
[0015]通过上述步骤,当所述合同名称识别步骤无法识别合同类别时,可通过上述步骤识别合同文件的
合同类别,也可以是组合利用合同名称识别或内容单元识别。
[0016]在其中一些实施例中,所述脱敏规则通过一敏感数据表进行存储,所述敏感数据列表至少包括敏感信息及其对应的脱敏方式;具体的,每个种类的敏感数据可对应不同的可选择的脱敏方式。
[0017]在其中一些实施例中,所述脱敏方式进一步包括:遮蔽脱敏、保格式脱敏、Hash脱敏及变换脱敏其一或其任意组合。其中,遮蔽脱敏方式是对数据的全部或者一部分用符号替换;保格式脱敏方式是保留数据的主要格式;Hash脱敏是采用Hash算法将数据转换为字符形式,变换脱敏是通过取证或字符位移的方式对数据进行处理。
[0018]在其中一些实施例中,由于合同文件自身的重要程度不同结合公司的规章制度,以及针对于合同的查看需求不同,可将所述敏感数据和对应的脱敏方式设置不同的级别,具体的,可对合同文件重要程度、用户等级、脱敏方式级别进行适应性定义,所述敏感数据对应不同级别的用户等级或重要程度时的脱敏方式不同,以便于在不同人员申请查看合同的时候,自动根据申请人员的职位及需求对应到不同的脱敏方式,实现不同人员不同需求对于同一份合同看到的脱敏效果不同。
[0019]第二方面,本申请实施例提供了一种合同文件敏感数据的脱敏系统,包括:[0020]合同类别识别单元,用于获取待识别的合同文件并识别所述合同文件的所属合同类别,所述合同类别为预先定义的,所述合同类别包括但不限于保密协议、服务协议、销售合同、采购合同;
[0021]内容模块识别单元,用于基于所述合同类别识别所述合同文件中的多个内容模块,具体的,通过文本识别算法解析所述合同文件的合同内容得到多个内容单元,通过匹配所述内容单元与所述内容模块识别所述内容模块,所述内容模块为基于所述合同类别预先定义的,针对所述内容模块举例而非限制,如保密协议中的保密信息、保密义务,服务协议中的服务提供内容、款项及支付;
[0022]敏感信息识别单元,用于识别每一所述内容模块中敏感信息,并对所述敏感信息关联对应的预设脱敏规则;具体的,所述敏感信息表现为个人隐私信息,由于涉及个人隐私信息,可选的,所述敏感信息根据现有法律法规预先定义,以便于标准化个人隐私信息的范

本文发布于:2024-09-25 03:23:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/434814.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:内容   识别   信息   文件   数据   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议