一种数据质量检验方法及装置与流程



1.本技术涉及数据处理技术领域,尤其涉及一种数据质量检验方法及装置。


背景技术:



2.数据质量问题存在于数据整个生命周期内各个环节,“数据治理”工作中重要的一环就是发现数据质量问题,并对数据质量问题进行整改。在整改问题前需要先到问题数据,如何寻和定位问题数据,是提升数据质量的前提。
3.为了确保数据湖中的数据满足监管报送的业务需求,提升数据质量,需要对源系统下传至数据湖的数据内容做完整性、唯一性、有效性等方面的核验。目前,现有技术中的核验规则相对较单一,缺乏全面性,不能有效检验多种数据质量问题。


技术实现要素:



4.有鉴于此,本技术实施例提供了一种数据质量检验方法及装置,旨在解决现有技术中核验规则相对较单一,缺乏全面性,不能有效检验多种数据质量问题。
5.第一方面,本技术实施例提供了一种数据质量检验方法,所述方法包括:
6.制定检验规则;
7.根据所述检验规则对数据进行检验;
8.获取所述数据的检验结果,并将所述检验结果进行可视化展示。
9.可选的,所述根据所述检验规则对数据进行检验,具体包括:
10.根据数据检验规则对数据完整性、数据有效性、数据一致性、数据准确性、数据及时性进行检验。
11.可选的,在所述制定检验规则之后,所述方法还包括:
12.从不同维度对所述检验规则进行分类;
13.将分类后的规则进行可视化界面展示。
14.可选的,在所述根据所述检验规则对数据进行检验之前,所述方法还包括:
15.构建数据检验任务,所述数据检验任务至少包括所述数据检验任务的基本信息、数据检验规则、任务调度策略、任务的告警信息以及任务数据的时间范围。
16.可选的,在所述获取所述数据的检验结果之后,所述方法还包括:
17.将未通过检验的数据同步至数据处理平台,以供所述数据处理平台对未通过检验的数据进行处理。
18.第二方面,本技术实施例提供了一种数据质量检验装置,所述装置包括:制定模块、检验模块、展示模块;
19.所述制定模块,用于制定检验规则;
20.所述检验模块,用于根据所述检验规则对数据进行检验;
21.所述展示模块,用于获取所述数据的检验结果,并将所述检验结果进行可视化展示。
22.可选的,所述检验模块具体用于:
23.根据数据检验规则对数据完整性、数据有效性、数据一致性、数据准确性、数据及时性进行检验。
24.可选的,所述装置还包括分类模块,在所述制定检验规则之后,所述分类模块用于从不同维度对所述检验规则进行分类;
25.所述展示模块用于将分类后的规则进行可视化界面展示。
26.可选的,所述装置还包括构建模块,在所述根据所述检验规则对数据进行检验之前,所述构建模块具体用于:
27.构建数据检验任务,所述数据检验任务至少包括所述数据检验任务的基本信息、数据检验规则、任务调度策略、任务的告警信息以及任务数据的时间范围。
28.可选的,所述装置还包括同步模块,在所述获取所述数据的检验结果之后,所述同步模块具体用于:
29.将未通过检验的数据同步至数据处理平台,以供所述数据处理平台对未通过检验的数据进行处理。
30.本技术实施例提供了一种数据质量检验方法及装置。在执行所述方法时,首先制定检验规则;然后根据所述检验规则对数据进行检验;最后获取所述数据的检验结果,并将所述检验结果进行可视化展示。这样,通过制定数据质量检验规则,根据数据质量检验规则对数据进行检验,可实现对数据内容做完整性、唯一性、有效性等方面进行检验,并通过对检验结果进行可视化界面展示可反映出数据质量现状、发现数据质量问题,解决了现有技术中核验规则相对较单一,缺乏全面性,不能有效检验多种数据质量问题。
附图说明
31.为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1为本技术实施例提供的方法的一种方法流程图;
33.图2为本技术实施例提供的方法的一种方法流程图;
34.图3为本技术实施例提供的数据采集的装置的一种结构示意图。
具体实施方式
35.数据质量问题存在于数据整个生命周期内各个环节,“数据治理”工作中重要的一环就是发现数据质量问题,并对数据质量问题进行整改。在整改问题前需要先到问题数据,如何寻和定位问题数据,是提升数据质量的前提。
36.为了确保数据湖中的数据满足监管报送的业务需求,提升数据质量,需要对源系统下传至数据湖的数据内容做完整性、唯一性、有效性等方面的核验。目前,现有技术中的核验规则相对较单一,缺乏全面性,不能有效检验多种数据质量问题。
37.有鉴于此,本技术发明人考虑到通过数据质量核验机制可以反映出数据质量现状、发现数据质量问题,以保证数据湖中的数据满足监管报送的业务需求,提升数据质量和
数据专业性,进一步增强数据规范性。
38.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
39.数据质量是指数据满足业务处理、经营管理、监管报送等需要的程度。衡量数据质量的维度包括:
40.(一)真实性:数据反映真实情况的程度,即数据与实际信息相符合的程度。
41.(二)准确性:数据正确描述实际信息的程度,以及是否符合数据标准的要求。
42.(三)连续性:数据反映整个业务流程的程度,以及是否存在业务数据缺失。
43.(四)完整性:数据信息应全面、完整、无缺失,包含相关业务处理、客户服务、账务核算、经营分析与管理、监管报送等所有必要信息。
44.(五)及时性:数据获取满足时效要求的程度,以及是否能够反映当前业务情况。
45.数据质量检核是运用数据质量检核规则对数据质量进行检查,反映数据质量现状、发现数据质量问题、督促数据质量提升。
46.数据质量管理目标是服务于我行发展战略和满足外部监管要求,提升客户服务质量,支持经营管理,实现我行数据资产的收益最大化。
47.参见图1,图1为本技术实施例提供的一种数据质量检验方法的方法法流程图,包括:
48.s101、制定检验规则。
49.根据外部监管及政策法规的要求、已发布的数据标准、业务运行、管理与决策的相关需求制定核验规则。例如,检验规则可以设置为:检查数据是否存在缺失、空格;检查数据的值域、长度、业务定义以及无意义数据;关联数据之间的逻辑关系是否正确和完整;检查主键唯一性、数据异常值及是否符合业务逻辑;数据是否按照逻辑按时下发等。
50.s102、根据所述检验规则对数据进行检验。
51.将相应的数据按照指定的检验规则进行检验,验证数据是否满足检验规则中的相关约束。
52.s103、获取所述数据的检验结果,并将所述检验结果进行可视化展示。
53.对数据进行核验后,获取数据的核验结果,并将核验结果进行可视化界面展示,如此可以使得数据管理人员直观、方便的对数据的质量以及数据存在的问题进行分析,进一步方便后续的处理。
54.本技术实施例提供了一种数据质量检验方法及装置。在执行所述方法时,首先制定检验规则;然后根据所述检验规则对数据进行检验;最后获取所述数据的检验结果,并将所述检验结果进行可视化展示。这样,通过制定数据质量检验规则,根据数据质量检验规则对数据进行检验,可实现对数据内容做完整性、唯一性、有效性等方面进行检验,并通过对检验结果进行可视化界面展示可反映出数据质量现状、发现数据质量问题,解决了现有技术中核验规则相对较单一,缺乏全面性,不能有效检验多种数据质量问题。
55.进一步地,本技术可选的实施例,上述实施例中步骤s102具体可以采用以下方式实现:
56.根据数据检验规则对数据的完整性、数据有效性、数据一致性、数据准确性、数据及时性进行检验。数据完整性一般指检查数据是否存在缺失、空格;数据有效性一般是指检查数据的值域、长度、业务定义以及无意义数据;数据一致性一般是指关联数据之间的逻辑关系是否正确和完整;数据准确性一般是指检查主键唯一性、数据异常值及是否符合业务逻辑;数据及时性一般是指数据是否按照逻辑按时下发等。
57.进一步地,本技术可选的实施例,在制定了数据检验规则以后,可以从不同维度将该规则进行梳理、分类,以便从不同视角进行规则的分析、查看。例如,可以将该规则划分为低阶规则和高阶规则,低阶规则可以包括字段非空约束规则、字段非默认值约束规则、代码值域约束规则、长度约束规则、精度约束规则、内容规范性约束规则、唯一性约束规则等;高阶规则可以包括:数据存在一致性约束规则、数据引用一致性规则、数据取值范围约束规则、业务逻辑约束规则、数据及时性约束规则等。还可以将数据规则按照数据完整性、数据有效性、数据一致性、数据准确性、数据及时性进行划分,例如,数据完整性一般指检查数据是否存在缺失、空格;数据有效性一般是指检查数据的值域、长度、业务定义以及无意义数据;数据一致性一般是指关联数据之间的逻辑关系是否正确和完整;数据准确性一般是指检查主键唯一性、数据异常值及是否符合业务逻辑;数据及时性一般是指数据是否按照逻辑按时下发等。
58.并可以将划分的规则分类进行可视化的界面展示,以供数据管理人员从不同视角进行规则的分析、查看等操作。
59.进一步地,本技术可选的实施例,在根据数据检验规则进行数据检验之前,需要首先构建数据检验任务,数据检验任务至少包括所述数据检验任务的基本信息、数据检验规则、任务调度策略、任务的告警信息以及任务数据的时间范围。
60.具体的,数据检验任务的基本信息包括:任务名称、任务描述、任务分类、任务组等。数据检验规则可以是对数据的完整性、数据有效性、数据一致性、数据准确性、数据及时性进行检验的具体规则。任务调度策略是指定义任务何时执行的信息,包括任务的起始时间、终止时间、任务是否是周期性的任务,如果是周期性任务则设置周期调度信息(如:日,星期(七天)、周,月,季,年)。任务的告警信息可以是检核任务的通过率,设置后可以在本次检核任务执行完成后,根据本次运行结果信息,提醒通知任务创建人。任务数据的时间范围可以是任务检核数据的时间范围,可以以时间(可以是天,周)为维度,也可以是起始时间和截止时间中的时间段,方便去检核指定时间范围内的数据,通过数据表中包含的时间字段来控制。还可以包括任务与检验结果的关联关系,例如,一个检核任务,只有一个检核目标,生成一个对应的检核结果文件。
61.构建完数据检验任务以后,对于新增和更新后的检核任务,数据字典平台通过数据湖中的数据总线将检核任务下发至数据湖,可通过mq消息队列或者ftp的批量方式实现,保证任务的新增和更新及时下发。
62.数据湖接收下发的数据检验任务,数据湖通过mq或者联机接收数据字典平台的检核任务信息,通过数据总线接收、数据层公共区进行解析和组装、贴源层进行检核执行;解析分为三个维度,调度信息、检核规则信息、数据窗口、任务配置信息。
63.数据层公共区根据任务信息将任务信息存储下来,通过轮询表的方式进行任务的调度触发,并将任务和规则进行拆分重组,组成检核框架可以调度的任务单元信息,在触发
任务的调度开始时,根据任务检核框架、数据范围信息圈定要检核的数据范围、事先约定好的规则模板类型,将规则中的参数进行拼装转化生成可以检核的执行脚本,进行任务的执行,或可直接调度可执行的规则技术实现脚本进行任务的执行。
64.进一步地,本技术可选的实施例,在获取了数据的检验结果之后,将任务执行结果和数据检验结果数据打包回传给数据处理平台,例如数字资产协同平台,回传的数据可以包括检核任务编号、检核任务名称、任务运行状态、检核数据总数、检核通过率、检核任务运行时长、检核问题列表(问题数据明细记录)等。其中,将打包数据回传给数据处理平台可以通过ftp等批量的方式。
65.参见图2,图2为本技术实施例提供的数据质量检核业务流程图,具体包括以下步骤:
66.步骤一、数据字典平台构建核验任务(任务信息、规则信息)将核验任务下发至统一数据层。
67.步骤二、数据层接收核验任务并根据约定格式解析任务信息和规则信息,将任务下发至质量核验模块。
68.步骤三、质量核验模块将对应的数据按照指定的核验规则进行核验,验证数据是否满足核验规则中的相关约束。
69.步骤四、数据层完成任务执行后,将核验结果、中间过程日志等信息同步反馈数据字典平台。
70.步骤五、数据字典平台进行存储、展示、以及后续的查询、审计等,问题数据同步至数字资产协同平台进行后续处理。
71.以上为本技术实施例提供一种数据质量检验方法的一些具体实现方式,基于此,本技术还提供了对应的一种数据质量检验装置。下面将从功能模块化的角度对本技术实施例提供的装置进行介绍。
72.参见图3,图3为本技术实施例提供的一种数据质量检验装置的结构示意图,该装置包括:制定模块301、检验模块302、展示模块303;
73.所述制定模块301,用于制定检验规则。
74.根据外部监管及政策法规的要求、已发布的数据标准、业务运行、管理与决策的相关需求,利用制定模块301制定核验规则。例如,检验规则可以设置为:检查数据是否存在缺失、空格;检查数据的值域、长度、业务定义以及无意义数据;关联数据之间的逻辑关系是否正确和完整;检查主键唯一性、数据异常值及是否符合业务逻辑;数据是否按照逻辑按时下发等。
75.所述检验模块302,用于根据所述检验规则对数据进行检验。
76.将相应的数据按照指定的检验规则,利用检验模块302进行检验,验证数据是否满足检验规则中的相关约束。
77.所述展示模块303,用于获取所述数据的检验结果,并将所述检验结果进行可视化展示。
78.对数据进行核验后,获取数据的核验结果,并将核验结果利用展示模块303进行可视化界面展示,如此可以使得数据管理人员直观、方便的对数据的质量以及数据存在的问题进行分析,进一步方便后续的处理。
79.本技术实施例提供了一种数据质量检验装置,用于执行对应的数据质量检验方法,首先制定检验规则;然后根据所述检验规则对数据进行检验;最后获取所述数据的检验结果,并将所述检验结果进行可视化展示。这样,通过制定数据质量检验规则,根据数据质量检验规则对数据进行检验,可实现对数据内容做完整性、唯一性、有效性等方面进行检验,并通过对检验结果进行可视化界面展示可反映出数据质量现状、发现数据质量问题,解决了现有技术中核验规则相对较单一,缺乏全面性,不能有效检验多种数据质量问题。
80.进一步地,本技术可选的实施例,所述检验模块302具体用于:
81.根据数据检验规则对数据完整性、数据有效性、数据一致性、数据准确性、数据及时性进行检验。
82.根据数据检验规则对数据的完整性、数据有效性、数据一致性、数据准确性、数据及时性进行检验。数据完整性一般指检查数据是否存在缺失、空格;数据有效性一般是指检查数据的值域、长度、业务定义以及无意义数据;数据一致性一般是指关联数据之间的逻辑关系是否正确和完整;数据准确性一般是指检查主键唯一性、数据异常值及是否符合业务逻辑;数据及时性一般是指数据是否按照逻辑按时下发等。
83.进一步地,本技术可选的实施例,所述装置还包括分类模块,在所述制定检验规则之后,所述分类模块用于从不同维度对所述检验规则进行分类;
84.所述展示模块用于将分类后的规则进行可视化界面展示。
85.在制定了数据检验规则以后,可以从不同维度将该规则进行梳理、分类,以便从不同视角进行规则的分析、查看。例如,可以将该规则划分为低阶规则和高阶规则,低阶规则可以包括字段非空约束规则、字段非默认值约束规则、代码值域约束规则、长度约束规则、精度约束规则、内容规范性约束规则、唯一性约束规则等;高阶规则可以包括:数据存在一致性约束规则、数据引用一致性规则、数据取值范围约束规则、业务逻辑约束规则、数据及时性约束规则等。还可以将数据规则按照数据完整性、数据有效性、数据一致性、数据准确性、数据及时性进行划分,例如,数据完整性一般指检查数据是否存在缺失、空格;数据有效性一般是指检查数据的值域、长度、业务定义以及无意义数据;数据一致性一般是指关联数据之间的逻辑关系是否正确和完整;数据准确性一般是指检查主键唯一性、数据异常值及是否符合业务逻辑;数据及时性一般是指数据是否按照逻辑按时下发等。
86.并可以将划分的规则分类进行可视化的界面展示,以供数据管理人员从不同视角进行规则的分析、查看等操作。
87.进一步地,本技术可选的实施例,所述装置还包括构建模块,在所述根据所述检验规则对数据进行检验之前,所述构建模块具体用于:
88.构建数据检验任务,所述数据检验任务至少包括所述数据检验任务的基本信息、数据检验规则、任务调度策略、任务的告警信息以及任务数据的时间范围。
89.进一步地,本技术可选的实施例,所述装置还包括同步模块,在所述获取所述数据的检验结果之后,所述同步模块具体用于:
90.将未通过检验的数据同步至数据处理平台,以供所述数据处理平台对未通过检验的数据进行处理。
91.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,
本技术的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,rom)/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本技术各个实施例或者实施例的某些部分所述的方法。
92.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
93.以上所述仅是本技术示例性的实施方式,并非用于限定本技术的保护范围。
94.需要说明的是,本发明提供的一种数据质量检验方法及装置,可应用于数据处理技术领域或金融领域。上述仅为示例,并不对本发明提供的一种数据质量检验方法及装置的应用领域进行限定。

技术特征:


1.一种数据质量检验方法,其特征在于,所述方法包括:制定检验规则;根据所述检验规则对数据进行检验;获取所述数据的检验结果,并将所述检验结果进行可视化展示。2.根据权利要求1所述的方法,其特征在于,所述根据所述检验规则对数据进行检验,具体包括:根据数据检验规则对数据完整性、数据有效性、数据一致性、数据准确性、数据及时性进行检验。3.根据权利要求1所述的方法,其特征在于,在所述制定检验规则之后,所述方法还包括:从不同维度对所述检验规则进行分类;将分类后的规则进行可视化界面展示。4.根据权利要求1所述的方法,其特征在于,在所述根据所述检验规则对数据进行检验之前,所述方法还包括:构建数据检验任务,所述数据检验任务至少包括所述数据检验任务的基本信息、数据检验规则、任务调度策略、任务的告警信息以及任务数据的时间范围。5.根据权利要求1所述的方法,其特征在于,在所述获取所述数据的检验结果之后,所述方法还包括:将未通过检验的数据同步至数据处理平台,以供所述数据处理平台对未通过检验的数据进行处理。6.一种数据质量检验装置,其特征在于,所述装置包括:制定模块、检验模块、展示模块;所述制定模块,用于制定检验规则;所述检验模块,用于根据所述检验规则对数据进行检验;所述展示模块,用于获取所述数据的检验结果,并将所述检验结果进行可视化展示。7.根据权利要求6所述的装置,其特征在于,所述检验模块具体用于:根据数据检验规则对数据完整性、数据有效性、数据一致性、数据准确性、数据及时性进行检验。8.根据权利要求6所述的装置,其特征在于,所述装置还包括分类模块,在所述制定检验规则之后,所述分类模块用于从不同维度对所述检验规则进行分类;所述展示模块用于将分类后的规则进行可视化界面展示。9.根据权利要求6所述的装置,其特征在于,所述装置还包括构建模块,在所述根据所述检验规则对数据进行检验之前,所述构建模块具体用于:构建数据检验任务,所述数据检验任务至少包括所述数据检验任务的基本信息、数据检验规则、任务调度策略、任务的告警信息以及任务数据的时间范围。10.根据权利要求6所述的装置,其特征在于,所述装置还包括同步模块,在所述获取所述数据的检验结果之后,所述同步模块具体用于:将未通过检验的数据同步至数据处理平台,以供所述数据处理平台对未通过检验的数据进行处理。

技术总结


本申请提供了一种数据质量检验方法及装置,可应用于数据处理技术领域或金融领域。在执行所述方法时,首先制定检验规则;然后根据所述检验规则对数据进行检验;最后获取所述数据的检验结果,并将所述检验结果进行可视化展示。这样,通过制定数据质量检验规则,根据数据质量检验规则对数据进行检验,可实现对数据内容做完整性、唯一性、有效性等方面进行检验,并通过对检验结果进行可视化界面展示可反映出数据质量现状、发现数据质量问题,解决了现有技术中核验规则相对较单一,缺乏全面性,不能有效检验多种数据质量问题。有效检验多种数据质量问题。有效检验多种数据质量问题。


技术研发人员:

孙悦

受保护的技术使用者:

中国银行股份有限公司

技术研发日:

2022.09.22

技术公布日:

2022/12/16

本文发布于:2024-09-21 06:02:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/40767.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   所述   规则   模块
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议