一种用于数据血缘检测方法和系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010351018.1
(22)申请日 2020.04.28
(71)申请人 厦门市美亚柏科信息股份有限公司
地址 361000 福建省厦门市思明区软件园
二期观日路12号102-402单元
(72)发明人 吴鸿伟 乔赞瑞 林文楷 齐战胜 
吴朝晖 鄢小征 
(74)专利代理机构 厦门福贝知识产权代理事务
所(普通合伙) 35235
代理人 肖琨
(51)Int.Cl.
G06F  16/2455(2019.01)
(54)发明名称一种用于数据血缘检测方法和系统(57)摘要本申请公开了一种用于数据血缘检测方法和系统。提取同一条存储记录在不同节点所对应的节点数据;利用路径规则库将节点数据映射存储于路径数据集合中,基于路径溯源算法将路径数据集合中的每个子集合进行归一化处理,获得节点数据的的上下
级关系的路径标识集合;利用关系规则库将节点数据中的数据项映射存储于数据项集合中,基于关系溯源算法分析数据项之间的关联关系,获得数据项溯源结果集合;基于节点数据的路径标识集合和数据项溯源结果集合构建每条数据在不同节点的数据血缘信息库。该方案通过路径溯源和关系溯源分别从节点数据和数据项两个层面进行分析,实现业务数据或者业务要素的全面快速准确的溯源要求,提升大
数据的业务支撑能力。权利要求书2页  说明书9页  附图6页CN 111563103 A 2020.08.21
C N  111563103
A
1.一种用于数据血缘检测方法,其特征在于,所述方法包括:
S1:提取同一条存储数据记录在不同节点所对应的节点数据;
S2:利用路径规则库将所述节点数据映射存储于路径数据集合中,基于路径溯源算法将所述路径数据集合中的每个子集合进行归一化处理,获得所述节点数据的上下级关系的路径标识集合;
S3:利用关系规则库将所述节点数据中的数据项映射存储于数据项集合中,基于关系溯源算法分析所述数据项之间的关联关系,获得数据项溯源结果集合;以及S4:基于所述节点数据的路径标识集合和所述数据项溯源结果集合构建每条数据在不同节点的数据血缘信息库。
2.根据权利要求1所述的一种用于数据血缘检测方法,其特征在于,所述节点数据包括源数据、产出数据和依赖数据。
3.根据权利要求2所述的一种用于数据血缘检测方法,其特征在于,所述S2步骤中的所述路径溯源算法具体包括以下子步骤:
S21:将同一条所述存储数据记录的所述节点数据通过所述路径规则库映射存储到路径数据集合S n;
S22:提取所述路径数据集合S n中的所述源数据的前后记录进行加密算法,获得所述源数据接入处理操作的路径标识,利用所述路径标识和节点原始ID生成路径节点序列号;
S23:将所述路径数据集合S n中每个节点的所述路径节点顺序号进行依次叠加形成所述节点数据归一化的路径标识集合,并将所述路径标识集合注册到数据资源目录进行广播。
4.根据权利要求3所述的一种用于数据血缘检测方法,其特征在于,所述路径节点序列号依次通过提取第1个节点的所述路径节点处理ID的32位序列号,作为所述第1个节点的顺序号,则第n+1个节点的顺序号表示为:第n个节点的顺序号+“/”+第n+1个节点的处理ID的32位序列号。
5.根据权利要求2所述的一种用于数据血缘检测方法,其特征在于,在所述S3步骤中的关联溯源算法具体包括以下子步骤:
S31:将所述节点数据的源数据和所述产出数据分别利用数据类型、字段标识和字段值映射存储到原始数据集合X n和产出数据集合Y n;
S32:遍历比对所述原始数据集合X n和所述产出数据集合Y n中的字段标识,分别获得第一数据集合L n和第二数据集合P n,其中,所述第一数据集合L n为所述原始数据集合X n与所述产出数据集合Y n存在相同所述字段标识的数据集合,所述第二数据集合P n为仅存在于所述产出数据集合Y n的所述字段标识的数据集合;
S33:将所述第一数据集合L n和所述第二数据集合P n分别取MD5值,分别作为新增数据项和保留数据项;
S34:结合所述关系规则库,循环遍历所述原始数据集合X n和所述产出数据集合Y n,与所述第一数据集合L n对应的字段值进行比较,若所述字段值一样,则标记为上关联标识,否则标记为上转换标识;继续循环遍历所述原始数据集合X n,与所述第二数据集合P n对应的字段值一样标记为上提取标识,获得同一条所述存储数据记录的数据项溯源结果集合R n。
6.根据权利要求1所述的一种用于数据血缘检测方法,其特征在于,所述路径规则库包括第一记录ID、路径ID、操作顺序、节点ID、节点类型和节点信息。
7.根据权利要求1或5所述的一种用于数据血缘检测方法,其特征在于,所述关系规则库包括第二记录ID、路径规则ID、字段标识集合、操作类型、集合类型和关系类型。
8.根据权利要求3所述的一种用于数据血缘检测方法,其特征在于,响应于针对业务数据C1进行溯源,基于所述数据资源目录的索引获得C1对应的路径标识集合C n,并遍历C n和C1的操作顺序,获得C1的向上处理数据和向下处理数据,从而得到C1的演进路径。
9.根据权利要求7所述的一种用于数据血缘检测方法,其特征在于,所述关系类型包括转换关系、关联关系和提取关系,其中,所述转换关系对应上转换标记,所述关联关系对应上关联标记,所述提取关系对应上提取标记。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
11.一种用于数据血缘检测系统,其特征在于,所述系统包括:
节点数据单元:配置用于提取同一条存储数据记录在不同节点所对应的节点数据;
路径标识单元:配置用于利用路径规则库将所述节点数据映射存储于路径数据集合中,基于路径溯源算法将所述路径数据集合中的每个子集合进行归一化处理,获得所述节点数据的上下级关系的路径标识集
合;
关联关系单元:利用关系规则库将所述节点数据中的数据项映射存储于数据项集合中,基于关系溯源算法分析所述数据项之间的关联关系,获得数据项溯源结果集合;以及更新数据库单元:配置用于基于所述节点数据的路径标识集合和所述数据项溯源结果集合构建每条数据在不同节点的数据血缘信息库。
12.根据权利要求11所述的一种用于数据血缘检测系统,其特征在于,所述路径规则库包括第一记录ID、路径ID、操作顺序、节点ID、节点类型和节点信息。
13.根据权利要求11所述的一种用于数据血缘检测系统,其特征在于,所述关系规则库包括第二记录ID、路径规则ID、字段标识集合、操作类型、集合类型和关系类型。
一种用于数据血缘检测方法和系统
技术领域
[0001]本申请涉及数据处理技术领域,具体涉及一种用于数据血缘检测方法和系统。
背景技术
[0002]用户在使用大数据开发平台时,当生产的数据出现问题时,需要查看数据的血缘来辅助定位出问题数据的整个生产链路,来缩小排查范围。其中,数据的血缘用于描述在数据生产过程中,数据迁移、变换的整个过程。通过对数据的血缘的追踪,可以追溯出某条数据在整个数据流中的演化过程。这样一方面保证数据质量、可信度;另一方面当数据发生问题时,也可以用来快速定位原因并修复问题。不同来源的海量原始数据经过多个环节处理后,进入大数据资源池,依托大数据系统开展的业务办理过程中,往往需要对某项关键业务数据或某个关键业务属性、数据的来源、处理过程和关联关系等维度进行分析,以辅助业务决策。所以如何快速准确地掌握数据之间的血缘关系,掌握数据从哪里来,怎么来的,数据之间有什么联系,成为大数据能否高效支撑业务办理的关键点。
[0003]但是,由于大数据系统接入的原始数据经过的处理环节多、处理操作复杂等特点,目前市场上现有的数据血缘检测方法,主要通过手工维护数据记录之间的两两关系实现,由于不同处理环节存储数据记录的结构和方式都不一样,会存在多处理节点无法溯源和溯源效率低下等问题,此外,也无法实现数据项级的溯源需求。
发明内容
[0004]本申请的目的在于提出了一种用于数据血缘检测方法和系统,解决由于不同处理环节存储数据记录的结构和方式都不一样,存在多处理节点无法溯源和溯源效率低下等问题。
[0005]根据本发明的第一方面,提出了一种用于数据血缘检测方法,该方法包括:[0006]S1:提取同一条存储数据记录在不同节点所对应的节点数据;
[0007]S2:利用路径规则库将节点数据映射存储于路径数据集合中,基于路径溯源算法将路径数据集合中的每个子集合进行归一化处理,获得节点数据的上下级关系的路径标识集合;
[0008]S3:利用关系规则库将节点数据中的数据项映射存储于数据项集合中,基于关系溯源算法分析数据项之间的关联关系,获得数据项溯源结果集合;以及
[0009]S4:基于节点数据的路径标识集合和数据项溯源结果集合构建每条数据在不同节点的数据血缘信息库。
[0010]在该方法中,提取同一条存储数据记录在不同节点的节点数据,先利用路径溯源算法,将每条数据在不同处理节点所对应的节点数据做归一化处理,并将归一化后的记录标识注册数据资源目录里,支持各业务系统获得每条数据的完整演进路径,实现数据的全流程溯源,此外,还利用关系溯源算法,将同一条存储记录的每个数据项在不同处理节点上结合关系规则库,精准分析出数据项之间的关联关系,实现数据项级的精准溯源。
[0011]在一些具体实施例中,节点数据包括源数据、产出数据和依赖数据。利用多种类型的数据进行路径溯源算法和关系溯源算法,使得溯源结果更加完整可靠,溯源颗粒更小更精准。
[0012]在一些具体实施例中,S2步骤中的路径溯源算法具体包括以下子步骤:
[0013]S21:将同一条存储数据记录的节点数据通过路径规则库映射存储到路径数据集合S n;
[0014]S22:提取路径数据集合S n中的源数据的前后记录进行加密算法,获得源数据接入处理操作的路径标识,利用路径标识和节点原始ID生成路径节点序列号;
[0015]S23:将路径数据集合S n中每个节点的路径节点顺序号进行依次叠加形成节点数据归一化的路径标识集合,并将路径标识集合注册到数据资源目录进行广播。
[0016]在该方法中,将每条数据在不同处理节点,所对应的源数据、产出数据和依赖数据做归一化处理,并将归一化后的路径标识集合注册数据资源目录里,以便为各业务系统提供每条数据的完整演进路径,实现数据的全流程可溯源性。
[0017]在一些具体实施例中,路径节点序列号依次通过提取第1个节点的路径节点处理ID的32位序列号,作为第1个节点的顺序号,则第n+1个节点的顺序号表示为:第n个节点的顺序号+“/”+第n+1个节点的处理ID的32位序列号。凭借第1个节点顺序号的定义和与后续节点的联系,实现将各节点数据的归一化处理和向上向下的分级。
[0018]在一些具体实施例中,在S3步骤中的关联溯源算法具体包括以下子步骤:[0019]S31:将节点数
据的源数据和产出数据分别利用将数据类型、字段标识和字段值映射存储到原始数据集合X n和产出数据集合Y n;
[0020]S32:遍历比对原始数据集合X n和产出数据集合Y n中的字段标识,分别获得第一数据集合L n和第二数据集合P n,其中,第一数据集合L n为原始数据集合X n与产出数据集合Y n存在相同字段标识的数据集合,第二数据集合P n为仅存在于产出数据集合Y n的字段标识的数据集合;
[0021]S33:将第一数据集合L n和第二数据集合P n分别取MD5值,分别作为新增数据项和保留数据项;
[0022]S34:结合关系规则库,循环遍历原始数据集合X n和产出数据集合Y n,与第一数据集合L n对应的字段值进行比较,若字段值一样,则标记为上关联标识,否则标记为上转换标识;继续循环遍历原始数据集合X n,与第二数据集合P n对应的字段值一样标记为上提取标识,获得同一条存储数据记录的数据项溯源结果集合R n。
[0023]在该方法中,利用关系溯源算法,将每个数据项在不同处理节点,所对应的源数据、产出数据和依赖数据做归一化处理,结合关系规则库,精准分析出数据项之间的关联关系,实现数据项级的精准溯源。
[0024]在一些具体实施例中,路径规则库包括第一记录ID、路径ID、操作顺序、节点ID、节点类型和节点信息。路径规则库的设置,实现对每条数据处理过程的操作路径信息进行定义,便于后续路径溯源算法进行归一化处理。
[0025]在一些具体实施例中,关系规则库包括第二记录ID、路径规则ID、字段标识集合、操作类型、集合类型和关系类型。规则关联库的设置,实现获取匹配的各种路径信息,便于在关系溯源算法中相应的字段值的比较。

本文发布于:2024-09-21 17:51:16,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/433407.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   节点   路径
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议