一种数据库敏感数据识别方法及系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010762510.8
(22)申请日 2020.07.31
(71)申请人 中国建设银行股份有限公司
地址 100033 北京市西城区金融大街25号
申请人 建信金融科技有限责任公司
(72)发明人 欧阳解文 魏茜 叶俊 
(74)专利代理机构 北京三友知识产权代理有限
公司 11127
代理人 许曼 贾磊
(51)Int.Cl.
G06F  21/62(2013.01)
G06F  16/906(2019.01)
(54)发明名称
一种数据库敏感数据识别方法及系统
(57)摘要
本文提供了一种数据库敏感数据识别方法
及系统,其中,方法包括:连接数据库以获取待识
别数据;对所述待识别数据进行特征化处理,得
到反映所述待识别数据中字段内容信息量变化
的特征化数据;根据所述待识别数据中各字段内
容的特征化数据及数据特征识别规则,确定所述
待识别数据中各字段内容敏感数据分类及脱敏
范围;其中,所述数据特征识别规则包括敏感数
据分类与包含特征化数据范围的判别规则之间
的对应关系及脱敏范围计算规则。本文能够在不
掌握数据全貌的情况下也能实施敏感数据发现
工作,同时减少敏感数据发现的盲区和人工干预
的工作量,
具备很好的普适性和应用价值。权利要求书3页  说明书15页  附图5页CN 111914294 A 2020.11.10
C N  111914294
A
1.一种数据库敏感数据识别方法,其特征在于,包括:
连接数据库以获取待识别数据;
对所述待识别数据进行特征化处理,得到反映所述待识别数据中字段内容信息量变化的特征化数据;
根据所述待识别数据中各字段内容的特征化数据及数据特征识别规则,确定所述待识别数据中各字段内容敏感数据分类及脱敏范围;
其中,所述数据特征识别规则包括敏感数据分类与包含特征化数据范围的判别规则之间的对应关系及脱敏范围计算规则。
2.如权利要求1所述的方法,其特征在于,连接数据库以获取待识别数据,包括:
根据用户配置的数据库连接信息及数据量信息,连接数据库以获取待识别数据。
3.如权利要求1所述的方法,其特征在于,所述特征化数据至少包括:
所述待识别数据中各字段内容空置率n u l l P r o b、各字段内容原始信息量orig ina lEntro py、各字段内容长度信息量lenEntro py、各字段最大信息量占比maxEntropyProp、各字段内容最大长度lmax、各字段内容最大保留长度keepLen。
4.如权利要求3所述的方法,其特征在于,对所述待识别数据进行特征化处理,得到反映所述待识别数据中字段内容信息量变化的特征化数据,包括:
对所述待识别数据按字段进行循环处理,得到各字段内容空置率nullProb、各字段内容最大长度lmax、各字段内容原始信息量originalEntropy、各字段内容长度信息量lenEntropy;
根据各字段内容原始信息量o r ig i na l E n t r o py,计算各字段最大信息量占比maxEntropyProp;
对所述待识别数据按字段内容截取长度进行循环处理,得到各字段内容最大保留长度keepLen。
5.如权利要求4所述的方法,其特征在于,对所述待识别数据按字段进行循环处理,得到各字段内容空置率nullProb,包括:统计所述待识别数据的各字段内容中数据项总数及数据项为空的个数;
利用各字段内容中数据项为空的个数除以数据项总数,得到各字段内容空置率nullProb。
6.如权利要求4所述的方法,其特征在于,对所述待识别数据按字段进行循环处理,得到各字段内容最大长度lmax,包括:
统计所述待识别数据的各字段内容中各数据项的字符串长度;
将各字段内容中最大字符串长度作为各字段内容最大长度lmax。
7.如权利要求4所述的方法,其特征在于,对所述待识别数据按字段进行循环处理,得到各字段内容长度信息量lenEntropy,包括:
将所述待识别数据的各字段内容输入至信息熵工具函数中,计算得到各字段内容长度信息量lenEntropy。
8.如权利要求4所述的方法,其特征在于,根据各字段内容原始信息量originalEntropy,计算各字段最大信息量占比maxEntropyProp,包括:
从所有字段内容原始信息量o r i g i n a l E n t r o p y中选择最大原始信息量为
theMaxEntropy;
将各字段内容原始信息量originalEntropy与最大原始信息量theMaxEntropy的比值,作为各字段最大信息量占比maxEntropyProp。
9.如权利要求4所述的方法,其特征在于,对所述待识别数据按字段内容截取长度进行循环处理,得到各字段内容最大保留长度keepLen,包括:
对于每一字段,按截取长度从1到该字段内容最大长度lmax的顺序,从该字段内容中各数据项中截取数据,得到多个子内容;
利用信息熵函数,逐一计算各字段中各子内容信息熵splitEntropy;
根据各字段中各子内容的信息熵s p l i t E n t r o p y及各字段内容原始信息量originalEntropy,计算得到各字段中各子内容的信息量占比lenEntProp;
根据各字段中大于预定值的子内容信息量占比lenEntProp对应的截取长度,确定各字段内容的最大保留长度keepLen。
10.如权利要求3所述的方法,其特征在于,根据所述待识别数据中各字段内容的特征化数据及数据特征识别规则,确定所述待识别数据中各字段内容敏感数据分类及脱敏范围,包括:
根据所述待识别数据中各字段内容空置率n u l l P ro b、各字段内容原始信息量orig ina lEntro py、各字段内容长度信息量lenEntro py、各字段最大信息量占比maxEntropyProp及所述对应关系,确定各字段内容敏感数据分类;
根据待识别数据中各字段内容的最大长度lmax、各字段内容的最大保留长度keepLen 及所述脱敏范围计算规则,确定各字段的脱敏范围。
11.如权利要求7所述的方法,其特征在于,根据所述待识别数据中各字段内容空置率nullProb、各字段内容原始信息量originalEntropy、各字段内容长度信息量lenEntropy、各字段最大信息量占比maxEntrop
yProp及所述对应关系,确定各字段内容敏感数据分类,包括:
根据所述待识别数据中各字段内容空置率n u l l P ro b、各字段内容原始信息量orig ina lEntro py、各字段内容长度信息量lenEntro py、各字段最大信息量占比maxEntropyProp从所述对应关系中查符合的判别规则;
将查出的判别规则对应的敏感数据分类作为所述待识别数据中字段内容敏感数据分类。
12.如权利要求7所述的方法,其特征在于,根据待识别数据中各字段内容最大长度lmax、各字段内容最大保留长度keepLen及所述脱敏范围计算规则,确定各字段的脱敏范围,包括:
按所述脱敏范围计算规则,根据各字段内容最大保留长度keepLen确定开始脱敏位置,根据各字段内容最大长度lmax确定结束脱敏位置。
13.一种数据库敏感数据识别系统,其特征在于,包括:
数据库连接模块,用于连接数据库以获取待识别数据;
特征化处理模块,用于对所述待识别数据进行特征化处理,得到反映所述待识别数据中字段内容信息量变化的特征化数据;
敏感数据识别模块,用于根据所述待识别数据中各字段内容的特征化数据及数据特征
识别规则,确定所述待识别数据中各字段内容敏感数据分类及脱敏范围;
其中,所述数据特征识别规则包括敏感数据分类与包含特征化数据范围的判别规则之间的对应关系及脱敏范围计算规则。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行计算机程序,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法。
一种数据库敏感数据识别方法及系统技术领域
[0001]本文涉及数据库数据分析领域,尤其涉及一种数据库敏感数据识别方法及系统。背景技术
[0002]在当前这个数据时代,数据已成为企业的核心资产,对数据资产的安全保护、有效掌握和合理利用都是企业关注的重要命题。对于掌握大量结构化数据的企业,无论是大量分散独立的应用数据库,还是存储海量数据的数据仓库,都需要一种简单、实用、有效的数据库扫描工具,探明敏感数据的分布,
实现分级分类管理。现有的敏感数据识别方案的显著特点是,基于已经掌握的敏感数据或者明确了什么数据敏感,再设计规则或模型去识别发现敏感数据。现有敏感数据识别方案存在如下缺陷:
[0003]1)只有知道敏感数据存在,才能去发现敏感数据。对于组织上的变动而导致的数据拥有者变更等情况是普遍存在的,新的数据拥有者可能并不知道敏感数据的存在,这就极易造成数据安全事故的产生。
[0004]2)只能识别已知敏感数据,无法识别未知敏感数据。现有技术中敏感数据发现一般是针对已知的敏感数据字段预设发现规则,并不能发现潜在的或者未知的敏感数据。这就给敏感数据发现造成了盲区,存在潜在数据安全隐患。
[0005]3)需要针对不同的敏感数据设置不同的规则,具有识别繁琐、实用性低、人工介入多的问题。
[0006]4)未对敏感数据进行分等级及分类,不便于敏感数据的管理。
[0007]5)人工确定脱敏策略的方式存在人工工作量大的问题。
发明内容
[0008]本文用于解决现有技术中存在的如下缺陷:只能识别已知敏感数据,无法识别未知敏感数据;不
同的敏感数据的识别具有不同的规则,且需要人工确定脱敏策略,具有识别繁琐、实用性低、人工介入多的问题;未对敏感数据进行分类及分等级,不便于敏感数据的管理。
[0009]为了解决上述技术问题,本文的第一方面提供一种数据库敏感数据识别方法,包括:
[0010]连接数据库以获取待识别数据;
[0011]对所述待识别数据进行特征化处理,得到反映所述待识别数据中字段内容信息量变化的特征化数据;
[0012]根据所述待识别数据中各字段内容的特征化数据及数据特征识别规则,确定所述待识别数据中各字段内容敏感数据分类及脱敏范围;
[0013]其中,所述数据特征识别规则包括敏感数据分类与包含特征化数据范围的判别规则之间的对应关系及脱敏范围计算规则。
[0014]进一步实施例中,连接数据库以获取待识别数据,包括:
说 明 书
1/15页CN 111914294 A

本文发布于:2024-09-23 16:23:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/418960.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   识别   字段   内容
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议