一种基于FlinkCDC的实时数据集成的实现方法及系统与流程


一种基于flink cdc的实时数据集成的实现方法及系统
技术领域
1.本发明涉及实时数据集成技术领域,具体为一种基于flink cdc的实时数据集成的实现方法及系统。


背景技术:



2.政府数据被广泛应用于政务领域、社会治理和民生服务,有助于提升政府服务能力,政府数据开放共享是创新数据服务、加快数据应用的重要环节。政府掌握了70%的高价值数据,当前,随着数字政府、智慧城市建设进程加快,以及城市大脑、平安城市、社会信用、交通感知与管理、社会舆情管理和互联网+政务等重点建设升级,数据应用场景的愈加丰富倒逼政府提升数据归集实时性、完整性和安全性,但目前政府数据建设仍存在诸多问题,如数据不完整、数据时效性低、网络结构复杂。
3.现有技术中,apache flink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。flink能在所有常见集环境中运行,并能以内存速度和任意规模进行计算。cdc是change data capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件或其他组件中以供其他服务进行订阅及消费,分为侵入式技术(对源系统产生性能影响)和非侵入式技术(对源系统不具有侵入性)。
4.但是,目前政务数据存在延迟、归集不及时给部门业务带来的困扰与不便。


技术实现要素:



5.本发明的目的在于提供一种基于flink cdc的实时数据集成的实现方法及系统,以解决上述背景技术中提出的问题。
6.为实现上述目的,本发明提供如下技术方案:一种基于flink cdc的实时数据集成的实现方法,该实现方法包括以下步骤:
7.进行跨网配置管理、集成任务管理、统计数据获取、网内/跨网实时数据集成任务管理、统计分析、监控告警;
8.将获取的数据集成任务提交与执行。
9.优选的,通过读取数据库归档日志的方式实现整库实时数据采集。
10.优选的,数据归集的场景分为跨网实时数据归集和非跨网实时数据归集;
11.跨网实时数据归集提供了网络环境互相隔离的场景下跨网络数据归集能力,实现了数据隔离而业务融合;
12.非跨网的实时数据归集模式下,用资源监控获取插件(cdc)实时从业务库获取业务数据变化并经由持久化插件将数据直接同步至数据湖。
13.优选的,跨网实时数据归集用资源监控获取插件(cdc)实时从各部门库获取部门业务数据并经由持久化插件进行数据同步操作。
14.优选的,为实时数据集成任务的发布、启动、停止提供接口,将任务发布至flink集
中进行运行,并通过封装flink相关接口,控制任务的启停。
15.一种基于flink cdc的实时数据集成的实现系统,该系统由页面服务端和任务执行引擎端构成;
16.页面服务端,用于进行跨网配置管理、集成任务管理、统计数据获取、网内/跨网实时数据集成任务管理、统计分析、监控告警;
17.任务执行引擎端,用于将获取的数据集成任务提交与执行。
18.优选的,所述页面服务端中,通过读取数据库归档日志的方式实现整库实时数据采集。
19.优选的,所述页面服务端中,数据归集的场景分为跨网实时数据归集和非跨网实时数据归集;
20.跨网实时数据归集提供了网络环境互相隔离的场景下跨网络数据归集能力,实现了数据隔离而业务融合;
21.非跨网的实时数据归集模式下,用资源监控获取插件(cdc)实时从业务库获取业务数据变化并经由持久化插件将数据直接同步至数据湖。
22.优选的,所述任务执行引擎端中,跨网实时数据归集用资源监控获取插件实时从各部门库获取部门业务数据并经由持久化插件进行数据同步操作。
23.优选的,所述任务执行引擎端中,为实时数据集成任务的发布、启动、停止提供接口,将任务发布至flink集中进行运行,并通过封装flink相关接口,控制任务的启停。
24.与现有技术相比,本发明的有益效果是:
25.本发明提出的基于flink cdc的实时数据集成的实现方法及系统基于flink cdc的实时数据集成方法,解决了部门业务数据繁多,数据结构多样化,业务部门数据难以持续性获取等问题;提供便捷的操作页面,方便对跨网配置、集成任务、统计数据进行集中管理;通过读取数据库存档日志的方式进行数据实时集成,数据同步效率高,可实现接近于准实时的秒级数据同步;记录所有记录的增删查改信息,保证数据完整性;业务方无感知,降低对生产数据库的影响,对业务系统无侵入性;基于日志的数据读取,保留了多种数据的历史信息。
附图说明
26.图1为本发明跨网实时数据归集流程图;
27.图2为本发明非跨网实时数据归集流程图。
具体实施方式
28.为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白,以下结合附图对本发明实施例进行进一步详细说明。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
29.实施例一
30.请参阅图1至图2,本发明提供一种技术方案:一种基于flink cdc的实时数据集成
的实现方法,该实现方法包括以下步骤:
31.(1)采用java web项目开发,开发框架选用springboot框架。本发明包括两个项目,页面服务端,任务执行引擎端,页面服务端主要负责跨网配置管理、集成任务管理、统计数据获取,任务执行引擎端主要负责数据集成任务的提交与执行。
32.(2)所述页面服务端,主要功能包括跨网集配置、跨网节点配置、跨网数据源配置、网内/跨网实时数据集成任务管理、统计分析、监控告警。
33.(3)所述任务执行引擎端,主要为实时数据集成任务的发布、启动、停止提供接口,将任务发布至flink集中进行运行,并通过封装flink相关接口,控制任务的启停。
34.(4)为满足数据采集的时效性和数据完整性,当面对整库数据采集同步的场景时,可以通过读取数据库归档日志的方式实现整库实时数据采集,实现不依赖于表的时间戳的秒级时延的准实时增量抽取,减少数据库和服务器性能损耗,提高数据同步效率。
35.(5)从政务服务领域出发,数据归集的场景分为跨网和非跨网两大场景。这两种数据归集实现的原理都是基于数据库的增量日志机制,以极低的侵入性来完成增量数据捕获的工作。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
36.a)跨网实时数据归集
37.由于业务的需要,不少政府机构将信息化布局在相互隔离、有边界管控的网络中。由于业务不能随网络隔离而完全切分,因此带来了分布在不同网络中的数据如何实现跨网融合应用的问题。跨网的实时数据归集为解决该问题,提供了网络环境互相隔离的场景下跨网络数据归集能力,实现了数据隔离而业务融合。
38.本方法主要是用资源监控获取插件(cdc)实时从各部门库获取部门业务数据并经由持久化插件进行数据同步操作。系统依托于flink开发多种读写插件,支持数据库、文件、mq的实时采集。可以将采集到的业务数据持久化到前置节点,前置节点可以是关系型或非关系型数据库,也可以是消息队列,前置节点通过本系统实时捕获前置库的数据变化,以最小的延迟将数据变动同步到总数据中心。
39.b)非跨网实时数据归集
40.非跨网的实时数据归集模式下,用资源监控获取插件(cdc)实时从业务库获取业务数据变化并经由持久化插件将数据直接同步至数据湖。
41.实施例二
42.一种基于flink cdc的实时数据集成的实现系统,该系统由页面服务端和任务执行引擎端构成;
43.页面服务端,用于进行跨网配置管理、集成任务管理、统计数据获取、网内/跨网实时数据集成任务管理、统计分析、监控告警;通过读取数据库归档日志的方式实现整库实时数据采集;数据归集的场景分为跨网实时数据归集和非跨网实时数据归集;跨网实时数据归集提供了网络环境互相隔离的场景下跨网络数据归集能力,实现了数据隔离而业务融合;非跨网的实时数据归集模式下,用资源监控获取插件(cdc)实时从业务库获取业务数据变化并经由持久化插件将数据直接同步至数据湖;
44.任务执行引擎端,用于将获取的数据集成任务提交与执行,跨网实时数据归集用
资源监控获取插件实时从各部门库获取部门业务数据并经由持久化插件进行数据同步操作,为实时数据集成任务的发布、启动、停止提供接口,将任务发布至flink集中进行运行,并通过封装flink相关接口,控制任务的启停。
45.实施例三
46.一种基于flink cdc的实时数据集成的实现方法,提供节点管理、数据源管理、任务管理、统计分析、预警告警功能,系统对任务、链路、同步情况、数据源、服务器等信息进行持续的监控;
47.在项目架构上,进行管理侧和执行侧的拆分,便于应用的集化部署,使应用性能得到提高;通过读取数据库存档日志,获取数据库变更信息,实时从数据源抽取数据,降低对生产数据库的影响的同时,实现同步的高效与数据的完整性;支持多种类型数据源,可通过配置的方式配置多个多种类型数据源;提供了对数据的部门、次数、以及数据量的统计分析,以可视化的形式直观的进行展示;系统对任务、链路、同步情况、数据源、服务器等信息进行持续的监控,对于异常情况可以及时的进行预警和告警。
48.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:


1.一种基于flink cdc的实时数据集成的实现方法,其特征在于,该实现方法包括以下步骤:进行跨网配置管理、集成任务管理、统计数据获取、网内/跨网实时数据集成任务管理、统计分析、监控告警;将获取的数据集成任务提交与执行。2.根据权利要求1所述的一种基于flink cdc的实时数据集成的实现方法,其特征在于:通过读取数据库归档日志的方式实现整库实时数据采集。3.根据权利要求2所述的一种基于flink cdc的实时数据集成的实现方法,其特征在于:数据归集的场景分为跨网实时数据归集和非跨网实时数据归集;跨网实时数据归集提供了网络环境互相隔离的场景下跨网络数据归集能力,实现了数据隔离而业务融合;非跨网的实时数据归集模式下,用资源监控获取插件(cdc)实时从业务库获取业务数据变化并经由持久化插件将数据直接同步至数据湖。4.根据权利要求1所述的一种基于flink cdc的实时数据集成的实现方法,其特征在于:跨网实时数据归集用资源监控获取插件(cdc)实时从各部门库获取部门业务数据并经由持久化插件进行数据同步操作。5.根据权利要求1所述的一种基于flink cdc的实时数据集成的实现方法,其特征在于:为实时数据集成任务的发布、启动、停止提供接口,将任务发布至flink集中进行运行,并通过封装flink相关接口,控制任务的启停。6.一种如上述权利要求1-5任意一项所述的基于flink cdc的实时数据集成的实现系统,其特征在于:该系统由页面服务端和任务执行引擎端构成;页面服务端,用于进行跨网配置管理、集成任务管理、统计数据获取、网内/跨网实时数据集成任务管理、统计分析、监控告警;任务执行引擎端,用于将获取的数据集成任务提交与执行。7.根据权利要求6所述的一种基于flink cdc的实时数据集成的实现系统,其特征在于:所述页面服务端中,通过读取数据库归档日志的方式实现整库实时数据采集。8.根据权利要求6所述的一种基于flink cdc的实时数据集成的实现系统,其特征在于:所述页面服务端中,数据归集的场景分为跨网实时数据归集和非跨网实时数据归集;跨网实时数据归集提供了网络环境互相隔离的场景下跨网络数据归集能力,实现了数据隔离而业务融合;非跨网的实时数据归集模式下,用资源监控获取插件(cdc)实时从业务库获取业务数据变化并经由持久化插件将数据直接同步至数据湖。9.根据权利要求6所述的一种基于flink cdc的实时数据集成的实现系统,其特征在于:所述任务执行引擎端中,跨网实时数据归集用资源监控获取插件实时从各部门库获取部门业务数据并经由持久化插件进行数据同步操作。10.根据权利要求6所述的一种基于flink cdc的实时数据集成的实现系统,其特征在于:所述任务执行引擎端中,为实时数据集成任务的发布、启动、停止提供接口,将任务发布至flink集中进行运行,并通过封装flink相关接口,控制任务的启停。

技术总结


本发明涉及实时数据集成技术领域,具体为一种基于Flink CDC的实时数据集成的实现方法包括以下步骤:进行跨网配置管理、集成任务管理、统计数据获取、网内/跨网实时数据集成任务管理、统计分析、监控告警;将获取的数据集成任务提交与执行;有益效果为:本发明提出的基于Flink CDC的实时数据集成的实现方法及系统基于Flink CDC的实时数据集成方法,解决了部门业务数据繁多,数据结构多样化,业务部门数据难以持续性获取等问题;提供便捷的操作页面,方便对跨网配置、集成任务、统计数据进行集中管理;通过读取数据库存档日志的方式进行数据实时集成,数据同步效率高,可实现接近于准实时的秒级数据同步。时的秒级数据同步。时的秒级数据同步。


技术研发人员:

卜庆硕 周庆勇 李贵振 郎永贺 樊喜申

受保护的技术使用者:

浪潮云信息技术股份公司

技术研发日:

2022.11.15

技术公布日:

2023/2/23

本文发布于:2024-09-21 19:32:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/58565.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   实时   归集   业务
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议