一种基于图数据库的数据血缘查询方法及查询系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010451284.1
(22)申请日 2020.05.25
(71)申请人 贵州华泰智远大数据服务有限公司
地址 550001 贵州省贵阳市贵阳国家高新
技术产业开发区六盘水路41号、中国
西部创业园.启林创客小镇B栋204室
(72)发明人 刘南余 陈寅 胡凯 梁礼华 
张顺源 
(74)专利代理机构 贵阳易博皓专利代理事务所
(普通合伙) 52116
代理人 张浩宇
(51)Int.Cl.
G06F  16/9032(2019.01)
G06F  16/901(2019.01)
G06F  16/903(2019.01)
(54)发明名称
一种基于图数据库的数据血缘查询方法及
查询系统
(57)摘要
本发明公开了一种基于图数据库的数据血
缘查询方法及查询系统,它采用图形数据库来进
行血缘结构数据的存储,通过基于图数据库的查
询引擎来查查询数据血缘结构并定位数据血
缘,通过基于B/S的大数据视图展现数据血缘结
构。本发明可以灵活、高效、精确的解决数据治理
过程中数据血缘分析的问题,实现对数据血缘这
一理论研究结果的系统信息化,将模糊的数据血
缘管理和分析具象化、结构化、标准化、可操作
话,为数据治理和分析提供新的技术手段,为数
据治理工作提供丰富的创新应用,具有广阔的市
场应用前景。权利要求书1页  说明书4页  附图1页CN 111723253 A 2020.09.29
C N  111723253
A
1.一种基于图数据库的数据血缘查询方法,其特征在于:采用图形数据库来进行血缘结构数据的存储,通过基于图数据库的查询引擎来查查询数据血缘结构并定位数据血缘,通过基于B/S的大数据视图展现数据血缘结构。
2.一种基于图数据库的数据血缘查询系统,其特征在于,包括以下五层结构:
基础数据层,包含基础云平台以及各种结构的数据源数据库,数据源内容可以是业务数据、流程数据或元数据;
数据加工层,用于将业务数据转化成图数据;
图数据层,主要负责数据血缘结构数据的存储、查询,并提供数据对上层组件的驱动,服务层,基于角权限认证,提供各种格式对外的数据服务接口,以供上层应用调用;应用层,基于提供的接口,结合图数据组件,构建面向数据治理与业务应用的数据血缘应用。
3.根据权利要求2所述的基于图数据库的数据血缘查询系统,其特征在于:所述的基础数据层,包含NOSQL和RDBMS。
4.根据权利要求2所述的基于图数据库的数据血缘查询系统,其特征在于:所述的数据加工层,包含ODS、kettle、MQ组件。
5.根据权利要求2所述的基于图数据库的数据血缘查询系统,其特征在于:所述的图数据层,包含NEO4J,Cypher,D3JS,echarts。
6.根据权利要求2所述的基于图数据库的数据血缘查询系统,其特征在于:所述的服务层,包含RBAC,webApi,XML,JSON。
7.根据权利要求2所述的基于图数据库的数据血缘查询系统,其特征在于:所述的应用,包括一数一源比对分析,数据血缘结构查询,冗余数据清洗整合,数据血缘报告生成与数据质量分析。
权 利 要 求 书1/1页CN 111723253 A
一种基于图数据库的数据血缘查询方法及查询系统
[0001]
技术领域
[0002]本发明涉及一种数据血缘查询方法及数据血缘查询系统,尤其涉及一种基于图数据库的数据血缘查询方法及数据血缘查询系统,属于计算机大数据技术领域。
背景技术
[0003]在数据信息时代,每时每刻都会产生庞大的数据,即通常说的大数据,对这些数据进行各种加工组合、转换,又会产生新的数据,这些数据之间就存在着天然的联系,把这些联系称为数据血缘关系。
[0004]在进行数据治理、数据中台建设过程中,针对数据的来源、数据的评估、数据的定位缺乏有效手段。数据治理强调数据的准确性,对数据一数一源提出要求和标准,但是在实际生产过程中,一数多头的情况经常发生,例如人员组织机构信息,经常出现多系统、多渠道的情况。因此,急需一种清晰、快速的手段,对数据血缘进行查和展示,从而快速定位数据源,分析数据问题,优化系统结构,清理数据冗余,帮助数据治理工作开展。
发明内容
[0005]本发明所要解决的技术问题在于提供一种基于图数据库的数据血缘查询方法,实现数据血缘关系的快速查询、血缘层级查询、血缘可视化,解决上述现有技术存在的问题。[0006]为解决上述技术问题,本发明采用的技术方案如下:
一种基于图数据库的数据血缘查询方法,该方法采用图形数据库来进行血缘结构数据的存储,通过基于图数据库的查询引擎来查查询数据血缘结构并定位数据血缘,通过基于B/S的大数据视图展现数据血缘结构。
[0007]一种基于图数据库的数据血缘查询系统,系统构成包括以下五层结构:基础数据层,包含基础云平台以及各种结构的数据源数据库,数据源内容可以是业务数据、流程数据或元数据;
数据加工层,用于将业务数据转化成图数据;
图数据层,主要负责数据血缘结构数据的存储、查询,并提供数据对上层组件的驱动,服务层,基于角权限认证,提供各种格式对外的数据服务接口,以供上层应用调用;
应用层,基于提供的接口,结合图数据组件,构建面向数据治理与业务应用的数据血缘应用。
[0008]上述的基于图数据库的数据血缘查询系统,具体来说,所述的基础数据层,包含NOSQL(非关系型数据库)和RDBMS(关系型数据库)。
[0009]上述的基于图数据库的数据血缘查询系统,具体来说,所述的数据加工层,包含ODS(操作数据存储系统)、kettle、MQ(消息队列)组件。
[0010]上述的基于图数据库的数据血缘查询系统,具体来说,所述的图数据层,包含
NEO4J,Cypher,D3JS,echarts。
[0011]上述的基于图数据库的数据血缘查询系统,具体来说,所述的服务层,包含RBAC,webApi,XML,JSON。
[0012]上述的基于图数据库的数据血缘查询系统,具体来说,所述的应用,包括一数一源比对分析,数据血缘结构查询,冗余数据清洗整合,数据血缘报告生成与数据质量分析。[0013]本发明的有益效果:与现有技术相比,本发明的优势在于可以灵活、高效、精确的解决数据治理过程中数据血缘分析的问题,实现对数据血缘这一理论研究结果的系统信息化,在实现过程中结合了成熟的图形数据库、大数据视图展示技术,降低了功能实现成本。本发明的实用性非常突出,将数据治理过程中抽象模糊的数据血缘管理和分析体系化、应用化,采用图数据库的算法和结构优势提供可视化的数据血缘展示工具,依托cypher图数据查询语言开发上层驱动,解决了数据血缘分析查询效率问题,通过五层结构的数据血缘分析解决方案,完成数据血缘分析需求,将模糊的数据血缘管理和分析具象化、结构化、标准化、可操作话,为数据治理和分析提供了新的技术手段,能为数据治理工作提供丰富的创新应用,例如政企数据质量审查、数据中台一数一源建设、数据比对、数据资产优化等具体应用,具有广阔的市场应用前景。
附图说明
[0014]图1是本发明的系统构成原理图。
[0015]下面结合附图和具体实施方式对本发明作进一步的说明。
具体实施方式
[0016]实施例1:本发明基于图数据库的数据血缘查询方法,主要解决三个方面的技术难题:(1)数据血缘结构如何存储,使用什么载体存储。(2)数据血缘结构如何快速查查询,快速定位数据源。(3)如果清晰有效的展示数据血缘结构。下面具体描述通过哪些技术手段解决上述难题。
[0017]一、通过图形数据库解决数据血缘结构存储问题。
[0018]数据血缘一般指的数据产生的链路,研究数据血缘、追踪数据血缘,可以在数据治理工作中解决数据的可信度、质量、版本信息等问题,通过数据血缘结构的建立,可以通过数据血缘探索原始数据库的数据变化、维护数据一致性,通过数据血统追踪,可以获得数据在数据流中的演化过程。显而易见,数据血缘是数据治理工作中不可缺少的一个部分,而且数据血缘结构是对数据血缘的建模,数据血缘建模要包含以下要素:
1.信息节点:信息节点用来表现数据的所有者和数据层次信息或终端信息。根据血缘关系层次的不同数据信息有所区别。所有者层次只有所有者的信息,其他的层次则包括所有者信息和数据层次信息或
者终端信息,例如关系数据库的字段间的血缘关系,该节点的描述信息就是:所有者.数据库.数据表.数据字段。
[0019]  2.数据流转线路:数据流转线路表现的是数据的流转路径,从左到右流转。数据流转线路从数据流入节点出来往主节点汇聚,又从主节点流出往数据流出节点扩散。[0020]  3.数据处理节点:数据处理节点在用来表现数据流转过程可能出现的清洗转换过程,其位于数据流转线路上,用来表现数据流转过程中发生的清洗、转换。
[0021]  4.数据出口节点:数据出口节点用来展现数据面向应用的展示结果,其一般位于数据血缘的靠后位置,是数据流转的近尾端。
[0022]  5.数据封存节点:数据是有生命周期的,当数据不再具备使用价值,他的生命就结束了,或者归档或者直接销毁。当一个数据失去了所有数据关联与出口,那么此数据生命结束,可进行封存。
[0023]针对以上的数据血缘模型要素特点,本发明采用图形数据库来进行血缘结构数据的存储,图形数据库是NoSQL数据库的一种,它采用图形理论结构来存储实体单元之间的关联关系信息。图形数据库中的数据,基于图(Graph)由顶点(Vertex)和边(Edge)组成,并且对于图、顶点和边都具有对应的描述属性。通过图形数据库的这些特性,对应至数据血缘结构中的节点、流转线路与各种节点类型,可以较为契合的在数据结构上复制数据血缘模型、存储具体血缘数据结构、承担数据血缘结构
数据库的这样一个数据载体的职责。
[0024]二、通过基于图数据库的查询语言解决数据血缘定位、结构查询的问题。[0025]对于数据血缘的定位、搜索与查询,需要达到特定的要求:要能查血缘结构上的某个特定数据位置、获取数据的去向和来源、支持多级查、支持链路查询、能获取关系、计算数据权重。基于以上对于数据血缘处理搜索上的需求,本发明采用基于图数据库的查询引擎,例如基于Neo4j的Cypher等方式对数据操作层进行处理,完成数据血缘的搜索定位需求。基于图数据库的查询引擎具有不遍历图形结构,就能完成图形存储搜索和表现的能力,同时查询语言与常规关系型数据库查询语言类似,适合于开发者和在数据库上做点对点模式(ad-hoc)的查询,通过对操作层的封装,节点,关系,权重,层级,父子的搜索。本发明针对具体数据血缘搜索需求,在Cypher上进行二次封装和开发,可以实现针对数据血缘搜索场景的针对性功能,完成数据血缘搜索核心业务,解决数据血缘定位、查询和结构检索需求。[0026]三、通过基于B/S的大数据视图展现数据血缘结构。
[0027]本发明通过基于B/S的视图展现,支持在不同平台和系统上的数据血缘结构渲染。通过解析图数据库结构,动态生成数据血缘关系图,支持动态拖拽、树形结构查展示,支持预先构建或自动生成图,在可见区域上通过平移和缩放、以动画的形式展示图数据,并且根据分析需求,可以选择一个数据节点查看其属性、关系和相邻节点,并且在可视化界面上支持自然语言的搜索短语输入,展现的视图在前端可以进行缓存级的保存,下次调用数据血缘图形,可不经过图数据库,纯前端的搜索和展示,
方便应用人员在多个数据血缘组之间快速切换,动态比对。
[0028]本发明的基于图数据库的数据血缘查询系统,如图1所示,其技术架构由底而上,分为基础数据层、数据加工层、图数据层、服务层、应用层五个层次,这五个层次的功能主要为:
基础数据层。基础数据层包含基础云平台,以及各种结构的数据源数据库,数据库包含NOSQL(非关系型数据库)和RDBMS(关系型数据库),数据源内容可以是业务数据,流程数据或元数据等。
[0029]数据加工层。数据加工层包含ODS、kettle、MQ等组件,用于将业务数据转化成图数据。
[0030]图数据层。图数据层主要负责数据血缘结构数据的存储,查询,并提供数据对上层组件的驱动,包含NEO4J,Cypher,D3JS,echarts等组件。

本文发布于:2024-09-21 00:37:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/405784.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   血缘   数据库   查询   结构   系统   节点   分析
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议