基于数据架构的数据剖析规则生成方法及装置与流程



1.本文件涉及计算机技术领域,尤其涉及一种基于数据架构的数据剖析规则生成方法及装置。


背景技术:



2.数据剖析(data profiling)是一种用于检查数据和评估质量的数据分析形式。数据剖析使用统计技术来发现数据集合的真实结构、内容和质量(olson,2003)。剖析引擎生成统计信息,分析人是可以使用这些统计信息识別数据内容和结构中的模式。例如:
3.1)空值数。标识空值存在,并检查是否允许空值。
4.2)最大/最小值。识别异常值,如负值。
5.3)最大/最小长度。确定具有特定长度要求的字段的异常值或无效值。
6.4)单个列值的频率分布。能够评估合理性(如交易的国家代码分布、频繁或不经常发生的值的检查,以及用默认值填充的记录百分比)。
7.5)数据类型和格式。识别不符合格式要求的水平,以及意外格式识别(如小数位数、嵌入空格、样本值)。
8.剖析还包括跨列分析,它可以识别重叠或重复的列,并暴露值的内在依赖关系。表间分析探索重叠的值集,并帮助识别外键关系。大多数数据分析工具允许深入分析数据,以进行进一步调查。
9.分析人员必须评估剖析引擎的结果,以确定数据是否符合规则和其他要求。一个好的分析人员可以使用分析结果确认已知的关系,并发现数据集内和数据集之间隐藏的特征和模式,包括业务规则和有效性约束。剖析通常被作为项目中数据发现的一部分(尤其是数据集成项目),或者用于评估待改进的数据的当前状态。数据剖析结果可用来识別那些可以提升数据和元数据质量的机会(0lson,2003;maydanchik,2007)。
10.虽然剖析是理解数据的有效方法,但只是提高数据质量的第一步,它使组织能够识别潜在的问题。解决问题还需要其他形式的分析,包括业务流程分析、数据血缘分析和更深入的数据分析,这些分析有助于隔离出问题的根本原因。
11.而且随着企业数据化转型逐步的普及化,企业自身内部建设的系统越来越多,而依托系统产生的数据量越来越大,如何保证海量数据的质量,发挥数据的真正价值,成了大家普遍关注的事情。
12.提高数据质量的关键技术之一是对数据依据既定的剖析规则定期进行检核。根据检核的结果或者报告,进行人工梳理,甄别出问题数据,并进行整改。
13.剖析规则的生成,目前主要是依靠系统建设者或者相关技术人员,依据历史经验以及对系统数据、业务指标的了解,手工编写,这一过程不仅需要大量人工和时间成本,而且编写过程中容易遗漏和出错,导致数据质量监控不全面。另外,依据规则检核的结果,未必能及时有效的反馈给相关人员,导致相同的质量问题可能会反复出现。


技术实现要素:



14.本发明的目的在于提供一种基于数据架构的数据剖析规则生成方法及装置,旨在解决现有技术中的上述问题。
15.本发明提供一种基于数据架构的数据剖析规则生成方法,包括:
16.基于数据架构工具建立数据模型;
17.获取所述数据模型的数据模型信息,基于所述数据模型信息识别所述数据模型的使用场景和管理主题,并自动创建不同的管理场景,自动匹配不同的业务规则模板;
18.自动识别所述数据模型中字段的约束条件,并依据不同的约束条件,自动生成不同的剖析规则,生成剖析结果报告。
19.本发明提供一种基于数据架构的数据剖析规则生成装置,包括:
20.建立模块,用于基于数据架构工具建立数据模型;
21.匹配模块,用于获取所述数据模型的数据模型信息,基于所述数据模型信息识别所述数据模型的使用场景和管理主题,并自动创建不同的管理场景,自动匹配不同的业务规则模板;
22.生成模块,用于自动识别所述数据模型中字段的约束条件,并依据不同的约束条件,自动生成不同的剖析规则,生成剖析结果报告。
23.本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于数据架构的数据剖析规则生成方法的步骤。
24.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述基于数据架构的数据剖析规则生成方法的步骤。
25.采用本发明实施例,能够达到降低人工和时间成本,提高检核覆盖率和准确率的效果。
附图说明
26.为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
27.图1是本发明实施例的基于数据架构的数据剖析规则生成方法的流程图;
28.图2是本发明实施例的基于数据架构的数据剖析规则生成方法的详细处理的流程图;
29.图3是本发明实施例的基于数据架构的数据剖析规则生成装置的示意图;
30.图4是本发明实施例的电子设备的示意图。
具体实施方式
31.为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术
方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
32.方法实施例
33.根据本发明实施例,提供了一种基于数据架构的数据剖析规则生成方法,图1是本发明实施例的基于数据架构的数据剖析规则生成方法的流程图,如图1所示,根据本发明实施例的基于数据架构的数据剖析规则生成方法具体包括:
34.步骤s101,基于数据架构工具建立数据模型;所述数据架构工具为:用来辅助专业的建模人员,绘制数据逻辑模型和物理模型,并能生成ddl语句的数据建模工具。
35.步骤s102,获取所述数据模型的数据模型信息,基于所述数据模型信息识别所述数据模型的使用场景和管理主题,并自动创建不同的管理场景,自动匹配不同的业务规则模板;
36.步骤s103,自动识别所述数据模型中字段的约束条件,并依据不同的约束条件,自动生成不同的剖析规则,生成剖析结果报告。步骤s103具体包括:在所述字段为主键字段时,自动生成非空和唯一值的剖析规则,当主键字段是一个属性时,仅检查该字段中是否存在重复值,并且是否存在空值;当主键字段是多个属性时,同时判断多个字段是否存在重复值,并且多个字段中是否同时存在空值;在所述字段为非空字段时,自动生成空值校验类的剖析规则,即检查字段是否空值;在所述字段为关系/外键时,自动生成关联性的剖析规则,通过关系建立的依赖关系生成关联性校验。
37.在步骤s103之后,将所述剖析结果报告回显到所述数据架构工具中。
38.以下对本发明实施例的上述技术方案进行详细说明。
39.如图2所示,具体包括如下处理:
40.步骤1,借助数据架构工具,建立数据模型。数据架构工具,可以理解为数据建模工具,用来辅助专业的建模人员,绘制数据逻辑模型和物理模型,并能生成ddl语句的软件工具。目前业界使用比较广泛的建模工具有:powerdesigner、erwin,国内比较成熟的也有:datablau

ddm、weaverbird等。
41.步骤2,获取数据模型信息,识别数据模型的使用场景和管理主题,并自动创建不同的管理场景,自动匹配不同的业务规则模板。例如,将监管报送主题相关系统的数据模型初始化,基于模型配置业务规则。
42.步骤3,自动识别模型中字段的约束条件,并依据不同的约束条件,自动生成不同的剖析规则,例如:
43.1."主键字段":自动生成非空和唯一值的剖析规则。
44.当主键字段是一个属性时,仅检查该字段中是否存在重复值,并且是否存在空值。
45.当主键字段是多个属性时,需要同时判断多个字段是否存在重复值,并且多个字段中是否同时存在空值。
46.2."非空字段":自动生成空值校验类的剖析规则。即检查字段是否空值(没有录入数据)。
47.3."关系/外键":自动生成关联性的剖析规则。通过关系建立的依赖关系生成关联性校验。例如有一张订单表和一张客户表,订单表中有客户的信息,此时,就需要检查订单
表中的客户信息,在客户表中是否存在。
48.步骤4,最后,将剖析结果报告,回显到数据架构工具中,以供数据架构人员参考。
49.本发明实施例通过数据架构工具获取数据架构信息,识别数据架构中的字段的约束条件,并能根据不同的场景和约束条件自动高效地生成数据剖析规则,从而实现降低人工和时间成本,提高覆盖率和准确率的目的。
50.装置实施例一
51.根据本发明实施例,提供了一种基于数据架构的数据剖析规则生成装置,图3是本发明实施例的基于数据架构的数据剖析规则生成装置的示意图,如图3所示,根据本发明实施例的基于数据架构的数据剖析规则生成装置具体包括:
52.建立模块30,用于基于数据架构工具建立数据模型;所述数据架构工具为:用来辅助专业的建模人员,绘制数据逻辑模型和物理模型,并能生成ddl语句的数据建模工具。
53.匹配模块32,用于获取所述数据模型的数据模型信息,基于所述数据模型信息识别所述数据模型的使用场景和管理主题,并自动创建不同的管理场景,自动匹配不同的业务规则模板;
54.生成模块34,用于自动识别所述数据模型中字段的约束条件,并依据不同的约束条件,自动生成不同的剖析规则,生成剖析结果报告。所述生成模块34具体用于:
55.在所述字段为主键字段时,自动生成非空和唯一值的剖析规则,当主键字段是一个属性时,仅检查该字段中是否存在重复值,并且是否存在空值;当主键字段是多个属性时,同时判断多个字段是否存在重复值,并且多个字段中是否同时存在空值;
56.在所述字段为非空字段时,自动生成空值校验类的剖析规则,即检查字段是否空值;
57.在所述字段为关系/外键时,自动生成关联性的剖析规则,通过关系建立的依赖关系生成关联性校验。
58.上述装置还可以包括:回显模块,用于将所述剖析结果报告回显到所述数据架构工具中。
59.与现有技术相比,本发明提出的技术方案中依据数据架构自动生成了数据剖析规则。采用该技术后,人工和时间成本降低显著,而且检核的覆盖率和准确率有明显的提高。本发明在实际使用中,学习成本低,效率提高显著,达到了应用的要求。
60.本发明实施例是与上述方法实施例对应的装置实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
61.装置实施例二
62.本发明实施例提供一种电子设备,如图4所示,包括:存储器40、处理器42及存储在所述存储器40上并可在所述处理42上运行的计算机程序,所述计算机程序被所述处理器42执行时实现如方法实施例中所述的步骤。
63.装置实施例三
64.本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器42执行时实现如方法实施例中所述的步骤。
65.本实施例所述计算机可读存储介质包括但不限于为:rom、ram、磁盘或光盘等。
66.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽
管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征:


1.一种基于数据架构的数据剖析规则生成方法,其特征在于,包括:基于数据架构工具建立数据模型;获取所述数据模型的数据模型信息,基于所述数据模型信息识别所述数据模型的使用场景和管理主题,并自动创建不同的管理场景,自动匹配不同的业务规则模板;自动识别所述数据模型中字段的约束条件,并依据不同的约束条件,自动生成不同的剖析规则,生成剖析结果报告。2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:将所述剖析结果报告回显到所述数据架构工具中。3.根据权利要求1所述的方法,其特征在于,所述数据架构工具为:用来辅助专业的建模人员,绘制数据逻辑模型和物理模型,并能生成ddl语句的数据建模工具。4.根据权利要求1所述的方法,其特征在于,自动识别所述数据模型中字段的约束条件,并依据不同的约束条件,自动生成不同的剖析规则具体包括:在所述字段为主键字段时,自动生成非空和唯一值的剖析规则,当主键字段是一个属性时,仅检查该字段中是否存在重复值,并且是否存在空值;当主键字段是多个属性时,同时判断多个字段是否存在重复值,并且多个字段中是否同时存在空值;在所述字段为非空字段时,自动生成空值校验类的剖析规则,即检查字段是否空值;在所述字段为关系/外键时,自动生成关联性的剖析规则,通过关系建立的依赖关系生成关联性校验。5.一种基于数据架构的数据剖析规则生成装置,其特征在于,包括:建立模块,用于基于数据架构工具建立数据模型;匹配模块,用于获取所述数据模型的数据模型信息,基于所述数据模型信息识别所述数据模型的使用场景和管理主题,并自动创建不同的管理场景,自动匹配不同的业务规则模板;生成模块,用于自动识别所述数据模型中字段的约束条件,并依据不同的约束条件,自动生成不同的剖析规则,生成剖析结果报告。6.根据权利要求5所述的装置,其特征在于,所述装置进一步包括:回显模块,用于将所述剖析结果报告回显到所述数据架构工具中。7.根据权利要求5所述的装置,其特征在于,所述数据架构工具为:用来辅助专业的建模人员,绘制数据逻辑模型和物理模型,并能生成ddl语句的数据建模工具。8.根据权利要求5所述的装置,其特征在于,所述生成模块具体用于:在所述字段为主键字段时,自动生成非空和唯一值的剖析规则,当主键字段是一个属性时,仅检查该字段中是否存在重复值,并且是否存在空值;当主键字段是多个属性时,同时判断多个字段是否存在重复值,并且多个字段中是否同时存在空值;在所述字段为非空字段时,自动生成空值校验类的剖析规则,即检查字段是否空值;在所述字段为关系/外键时,自动生成关联性的剖析规则,通过关系建立的依赖关系生成关联性校验。9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的基于数据架构的数据剖析规则生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至4中任一项所述的基于数据架构的数据剖析规则生成方法的步骤。

技术总结


本说明书实施例提供了一种基于数据架构的数据剖析规则生成方法及装置,其中,方法包括:基于数据架构工具建立数据模型;获取所述数据模型的数据模型信息,基于所述数据模型信息识别所述数据模型的使用场景和管理主题,并自动创建不同的管理场景,自动匹配不同的业务规则模板;自动识别所述数据模型中字段的约束条件,并依据不同的约束条件,自动生成不同的剖析规则,生成剖析结果报告。生成剖析结果报告。生成剖析结果报告。


技术研发人员:

刘晨 孙星

受保护的技术使用者:

恩核(北京)信息技术有限公司

技术研发日:

2022.09.20

技术公布日:

2022/12/23

本文发布于:2024-09-23 01:31:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/46832.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   数据   字段   规则
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议