一种多源流式大数据融合汇聚处理框架模型实现方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201911395133.2
(22)申请日 2019.12.30
(71)申请人 电信科学技术第五研究所有限公司
地址 610021 四川省成都市锦江区大慈寺
路22号
(72)发明人 俞鹏飞 冯磊 李芝权 杨永刚 
(74)专利代理机构 成都九鼎天元知识产权代理
有限公司 51214
代理人 夏琴
(51)Int.Cl.
G06F  16/25(2019.01)
G06F  16/215(2019.01)
(54)发明名称一种多源流式数据融合汇聚处理框架模型实现方法(57)摘要本发明公开了一种多源流式大数据融合汇聚处理框架模型实现方法,包括:多源流式数据采集实现方法包括:流式数据采集代理和多源流式数据采集服务,提供汇聚元数据标准,进行流式多源数据采集;多源流式数据融合处理实现方法包括:多源流式数据融合汇聚,提供基于Flink&Spark  Stream流式处理引擎,依据汇聚元数据标准,配置采集的流式多源数据融合进行流式数据处理,加工为符合汇聚元数据标准要求的汇聚元数据,进行规整化汇聚元数据标准存储,为汇聚数据统计挖掘分析提供数据。本发明融合大数据处理主流Flink、Sprakstream开源技术组件,解决多源数据融合汇聚处理中的多源数据互补、特征算子化加工、汇聚元数据标准化、流式目
标数据匹配。权利要求书2页  说明书5页  附图4页CN 111078781 A 2020.04.28
C N  111078781
A
1.一种多源流式大数据融合汇聚处理框架模型实现方法,其特征在于,包括多源流式数据采集实现方法和多源流式数据融合处理实现方法;
所述多源流式数据采集实现方法包括:
流式数据采集代理,实现多源流式数据源节点的数据采集,并将采集的流式多源数据回传到给多源流式数据采集服务;
多源流式数据采集服务,提供用户基于多源流式数据融合汇聚制定的汇聚元数据标准,并配置汇聚元数据标准与流式多源数据间的映射关系服务;其中,汇聚元数据标准与流式多源数据间的映射关系服务转换为流式数据采集代理需求配置,下发给流式数据采集代理;并管理和接收流式数据采集代理的回传数据,再将流式数据采集代理的回传数据融合分类标识后通过数据总线后传给多源流式数据融合汇聚;
所述多源流式数据融合处理实现方法包括:
多源流式数据融合汇聚,提供基于Flink&Spark Stream流式处理引擎,依据多源流式数据融合汇聚制定的汇聚元数据标准,配置采集的流式多源数据融合进行流式数据处理,加工为符合汇聚元数据标准要求的汇聚元数据,进行规整化汇聚元数据标准存储,为汇聚数据统计挖掘分析提供数据;
汇聚数据统计挖掘分析,提供基于Spark大数据计算,对汇聚元数据进行专题挖掘分析生成新质元数据;
多源数据采集融合汇聚应用服务:提供流式数据采集代理、多源流式数据采集服务、多源流式数据融合汇聚和汇聚数据统计挖掘分析的应用服务及其交互界面。
2.根据权利要求1所述的多源流式大数据融合汇聚处理框架模型实现方法,其特征在于,实现所述流式数据采集的组件包括流式数据采集代理组件和多源流式数据采集服务组件;
所述流式数据采集代理组件,提供流式数据源接口用于流式多源数据的抽取/接入,实现流式多源数据的数据采集,并将采集的流式多源数据回传到给多源流式数据采集服务;
所述多源流式数据采集服务组件包括:
数据采集流程处理器,实现对采集的流式多源数据进行数据校验、数据清洗、数据转换、数据输出的流程可视化与编排;
数据采集web服务,实现数据采集任务的统一管理、调度和监控,以及提供用户基于多源流式数据融合汇聚制定的汇聚元数据标准,并配置汇聚元数据标准与流式多源数据间的映射关系服务,并通过数据采集流程处理器下发给多源流式数据采集服务组件。
3.根据权利要求2所述的多源流式大数据融合汇聚处理框架模型实现方法,其特征在于,所述流式数据采集代理组件提供的流式数据源接口,实现包括从关系及非关系型数据库抽取元数据及数据、从文件中抽取元数据及数据、从实时数据源中请求及接入实时流式多源数据。
4.根据权利要求1所述的多源流式大数据融合汇聚处理框架模型实现方法,其特征在于,实现所述多源流式数据融合汇聚的组件包括:数据流作业组件和流式处理配置管理web 管理服务;
所述流式处理配置管理web管理服务,提供数据补全规则、目标匹配规则、加工算子及存储规则的配置,并提供数据融合处理配置,用于用户指定任一数据流作业进行数据补全
规则、目标匹配规则、加工算子及存储规则选定及其先后处理流程进行配置;
所述数据流作业组件,针对Flink或Spark Stream提交的数据流,依据数据融合处理配置加载处理流程制定的数据补全规则、目标匹配规则、加工算子及存储规则后,对接入的数据流按流程配置要求进行多源流式数据融合汇聚处理。
一种多源流式大数据融合汇聚处理框架模型实现方法
技术领域
[0001]本发明涉及流式大数据汇聚处理领域,尤其是一种多源流式大数据融合汇聚处理框架模型实现方法。
背景技术
[0002]目前,流式数据处理应用主要热点在分布式云计算领域。如在一篇申请号为“CN201110450268.1”的中国专利申请文件中公开了一种适用流式处理的大规模数据连续分析系统实现方法,其适用流式处理的大规模数据连续分析系统,包括元数据管理模块,用于管理数据表和数据库的元信息;查询计划生成模块,用于接收查询请求,生成优化的查询计划;数据导入任务生成模块,用于接收数据导入请求,生成数据导入MR作业集;增量处理模块,用于并行地增量地提交Hadoop系统数据导入和查询作业;MR消息处理模块,用于接收Hadoop系统的Map或Reduce函数的结果,将结果输出给Reduce端或下一个作业;数据库连接模块,用于作为Hadoop系统和数据库之间的接口。该发明使用Hadoop系统将各节点中的数据库有机组织在一起,并发地执行数据导入和数据查询,使用管道技术改进MapReduce(MR)执行流程,使得数据查询以连续的流水的方式执行,大大缩短了大规模数据分析的时间。[0003]上述专利技术方案的存在的主要问题:
[0004]1、在于对数据采用传统的增量迭代处理来实现流式数据处理,并非真正的流式处理方法,不适应具备时效性特征的数据目标的发现。
[0005]2、没有提出满足高性能的流式数据加工处理,以及其对数据的处理内在规律分析等方面有效实现技术方法
[0006]3、没有给出面向多源数据的融合汇聚处理的技术方案,不适用于多源流式数据融合汇聚处理。
[0007]4、没有给出用户可定义的多源数据融合汇聚处理可定义的技术方法。
发明内容
[0008]本发明所要解决的技术问题是:针对上述存在的问题,提供一种多源流式大数据融合汇聚处理框架模型实现方法。
[0009]本发明采用的技术方案如下:
[0010]一种多源流式大数据融合汇聚处理框架模型实现方法,包括多源流式数据采集实现方法和多源流式数据融合处理实现方法;
[0011]所述多源流式数据采集实现方法包括:
[0012]流式数据采集代理,实现多源流式数据源节点的数据采集,并将采集的流式多源数据回传到给多源流式数据采集服务;
[0013]多源流式数据采集服务,提供用户基于多源流式数据融合汇聚制定的汇聚元数据标准,并配置汇聚元数据标准与流式多源数据间的映射关系服务;其中,汇聚元数据标准与流式多源数据间的映射关系服务转换为流式数据采集代理需求配置,下发给流式数据采集
代理;并管理和接收流式数据采集代理的回传数据,再将流式数据采集代理的回传数据融合分类标识后通过数据总线后传给多源流式数据融合汇聚;
[0014]所述多源流式数据融合处理实现方法包括:
[0015]多源流式数据融合汇聚,提供基于Flink&Spark Stream流式处理引擎,依据多源流式数据融合汇聚制定的汇聚元数据标准,配置采集的流式多源数据融合进行流式数据处理,加工为符合汇聚元数据标准要求的汇聚元数据,进行规整化汇聚元数据标准存储,为汇聚数据统计挖掘分析提供数据;
[0016]汇聚数据统计挖掘分析,提供基于Spark大数据计算,对汇聚元数据进行专题挖掘分析生成新质元数据;
[0017]多源数据采集融合汇聚应用服务:提供流式数据采集代理、多源流式数据采集服务、多源流式
数据融合汇聚和汇聚数据统计挖掘分析的应用服务及其交互界面。[0018]进一步,实现所述流式数据采集的组件包括流式数据采集代理组件和多源流式数据采集服务组件;
[0019]所述流式数据采集代理组件,提供流式数据源接口用于流式多源数据的抽取/接入,实现流式多源数据的数据采集,并将采集的流式多源数据回传到给多源流式数据采集服务;
[0020]所述多源流式数据采集服务组件包括:
[0021]数据采集流程处理器,实现对采集的流式多源数据进行数据校验、数据清洗、数据转换、数据输出的流程可视化与编排;
[0022]数据采集web服务,实现数据采集任务的统一管理、调度和监控,以及提供用户基于多源流式数据融合汇聚制定的汇聚元数据标准,并配置汇聚元数据标准与流式多源数据间的映射关系服务,并通过数据采集流程处理器下发给多源流式数据采集服务组件。[0023]进一步,所述流式数据采集代理组件提供的流式数据源接口,实现包括从关系及非关系型数据库抽取元数据及数据、从文件中抽取元数据及数据、从实时数据源中请求及接入实时流式多源数据。
[0024]进一步,实现所述多源流式数据融合汇聚的组件包括:数据流作业组件和流式处理配置管理web管理服务;
[0025]所述流式处理配置管理web管理服务,提供数据补全规则、目标匹配规则、加工算子及存储规则的配置,并提供数据融合处理配置,用于用户指定任一数据流作业进行数据补全规则、目标匹配规则、加工算子及存储规则选定及其先后处理流程进行配置;[0026]所述数据流作业组件,针对Flink或Spark Stream提交的数据流,依据数据融合处理配置加载处理流程制定的数据补全规则、目标匹配规则、加工算子及存储规则后,对接入的数据流按流程配置要求进行多源流式数据融合汇聚处理。
[0027]综上所述,由于采用了上述技术方案,本发明的有益效果是:
[0028]本发明融合大数据处理主流Flink、Sprakstream开源技术组件,解决多源数据融合汇聚处理中的多源数据互补、特征算子化加工、汇聚元数据标准化、流式目标数据匹配。
附图说明
[0029]为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附

本文发布于:2024-09-21 03:29:17,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/396515.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   汇聚   流式   采集   处理   融合   源流   实现
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议