一种基于kettle的大数据比对方法及装置[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201810415516.0
(22)申请日 2018.05.03
(71)申请人 山东汇贸电子口岸有限公司
地址 250100 山东省济南市高新区浪潮路
1036号浪潮科技园S06楼
(72)发明人 刘远见 
(74)专利代理机构 济南信达专利事务所有限公
司 37100
代理人 李世喆
(51)Int.Cl.
G06F  17/30(2006.01)
(54)发明名称
一种基于kettle的大数据比对方法及装置
(57)摘要
本发明提供了一种基于kettle的大数据比
对方法及装置,该方法包括:获取数据比对请求;
预设的源数据库中获取与所述数据比对请求
相对应的至少一个源数据记录,并将所述至少一
个源数据记录存储至预设内存中;从预设的目标
数据库中获取与所述数据比对请求相对应的至
少一个目标数据记录,并将所述至少一个目标数
据记录存储至所述预设内存中;在所述预设内存
中对各个所述源数据记录以及各个所述目标数
据记录进行比对。本方案能提高了数据比对效
率。权利要求书2页  说明书7页  附图3页CN 108629002 A 2018.10.09
C N  108629002
A
1.一种基于kettle的大数据比对方法,其特征在于,包括:
获取数据比对请求;
从预设的源数据库中获取与所述数据比对请求相对应的至少一个源数据记录,并将所述至少一个源数据记录存储至预设内存中;
从预设的目标数据库中获取与所述数据比对请求相对应的至少一个目标数据记录,并将所述至少一个目标数据记录存储至所述预设内存中;
在所述预设内存中对各个所述源数据记录以及各个所述目标数据记录进行比对。
2.根据权利要求1所述的方法,其特征在于,
在所述在所述预设内存中对各个所述源数据记录以及各个所述目标数据记录进行比对之后,进一步包括:
根据所述预设内存中的比对结果,对所述目标数据库中的所述至少一个目标数据记录进行处理。
3.根据权利要求2所述的方法,其特征在于,
所述在所述预设内存中对各个所述源数据记录以及各个所述目标数据记录进行比对,以及所述根据所述预设内存中的对比结果,对所述目标数据库中的所述至少一个目标数据记录进行处理,包括:
针对每一个所述源数据记录,均执行:
确定所述源数据记录对应的第一主键;
确定所述至少一个目标数据记录分别对应的至少一个第二主键中,是否存在与所述第一主键相同的目标第二主键,如果是,根据所述源数据记录,对所述目标数据库中的与所述目标第二主键相对应的目标数据记录进行更新,否则,将所述第一主键对应的所述源数据记录插入至所述目标数据库中。
4.根据权利要求1所述的方法,其特征在于,
在所述从预设的源数据库中获取与所述数据比对请求相对应的至少一个源数据记录之前,进一步包括:
利用kettle的任务设计界面,创建数据同步作业;
所述从预设的源数据库中获取与所述数据比对请求相对应的至少一个源数据记录,包括:
执行所述数据同步作业,以根据kettle的表输入组件中预设的源数据连接,对所述源数据库进行查询,得到所述至少一个源数据记录。
5.根据权利要求4所述的方法,其特征在于,
所述从预设的目标数据库中获取与所述数据比对请求相对应的至少一个目标数据记录,包括:
执行所述数据同步作业,以根据kettle的表输出组件或插入更新组件中预设的目标数据库连接,对所述目标数据库进行查询,得到所述至少一个目标数据记录。
6.一种基于kettle的大数据比对装置,其特征在于,包括:请求获取单元、源数据获取单元、目标数据获取单元和数据比对单元;其中,
所述请求获取单元,用于获取数据比对请求;
所述源数据获取单元,用于从预设的源数据库中获取与所述数据比对请求相对应的至
少一个源数据记录,并将所述至少一个源数据记录存储至预设内存中;
所述目标数据获取单元,用于从预设的目标数据库中获取与所述数据比对请求相对应的至少一个目标数据记录,并将所述至少一个目标数据记录存储至所述预设内存中;
所述数据比对单元,用于在所述预设内存中对各个所述源数据记录以及各个所述目标数据记录进行比对。
7.根据权利要求6所述的装置,其特征在于,
所述数据比对单元,进一步用于根据所述预设内存中的比对结果,对所述目标数据库中的所述至少一个目标数据记录进行处理。
8.根据权利要求7所述的装置,其特征在于,
所述数据比对单元,用于针对每一个所述源数据记录,均执行:确定所述源数据记录对应的第一主键;确定所述至少一个目标数据记录分别对应的至少一个第二主键中,是否存在与所述第一主键相同的目标第二主键,如果是,根据所述源数据记录,对所述目标数据库中的与所述目标第二主键相对应的目标数据记录进行更新;否则,将所述第一主键对应的所述源数据记录插入至所述目标数据库中。
9.根据权利要求6所述的装置,其特征在于,
进一步包括:作业创建单元;其中,
所述作业创建单元,用于利用kettle的任务设计界面,创建数据同步作业;
所述源数据获取单元,用于执行所述数据同步作业,以根据kettle的表输入组件中预设的源数据连接,对所述源数据库进行查询,得到所述至少一个源数据记录。
10.根据权利要求9所述的装置,其特征在于,
所述目标数据获取单元,用于执行所述数据同步作业,以根据kettle的表输出组件或插入更新组件中预设的目标数据库连接,对所述目标数据库进行查询,得到所述至少一个目标数据记录。
一种基于kettle的大数据比对方法及装置
技术领域
[0001]本发明涉及计算机技术领域,特别涉及一种基于kettle的大数据比对方法及装置。
背景技术
[0002]随着计算机技术的发展,互联网中的数据呈爆发式增长,如今,大数据作为一种数据趋势,正在席卷全世界。在以数据为中心的产业链条中,数据同步定义了如何获取数据,是数据处理和分析的前提保障。其中,数据比对作为数据同步过程中的关键环节,直接影响着数据同步的效率。
[0003]Kettle作为一款国外开源的ETL工具,常被用于进行数据同步。利用Kettle进行数据同步时,需将数据库中的数据传输到Kettle中,以在Kettle中进行数据进行。
[0004]随着大数据的发展,需要进行数据比对的数据量较大,能达到上千万级,将大量的数据从数据库中传输到Kettle时,势必导致数据库与Kettle的交互十分频繁,这将带来较大的网络及数据库连接消耗,从而容易降低数据比对效率。
发明内容
[0005]本发明实施例提供了一种基于kettle的大数据比对方法及装置,能提高数据比对的效率。
[0006]第一方面,本发明实施例提供了一种基于kettle的大数据比对方法,包括:[0007]获取数据比对请求;
[0008]从预设的源数据库中获取与所述数据比对请求相对应的至少一个源数据记录,并将所述至少一个源数据记录存储至预设内存中;
[0009]从预设的目标数据库中获取与所述数据比对请求相对应的至少一个目标数据记录,并将所述至少一个目标数据记录存储至所述预设内存中;
[0010]在所述预设内存中对各个所述源数据记录以及各个所述目标数据记录进行比对。[0011]优选地,
[0012]在所述在所述预设内存中对各个所述源数据记录以及各个所述目标数据记录进行比对之后,进一步包括:
[0013]根据所述预设内存中的比对结果,对所述目标数据库中的所述至少一个目标数据记录进行处理。
[0014]优选地,
[0015]所述在所述预设内存中对各个所述源数据记录以及各个所述目标数据记录进行比对,以及所述根据所述预设内存中的对比结果,对所述目标数据库中的所述至少一个目标数据记录进行处理,包括:
[0016]针对每一个所述源数据记录,均执行:
[0017]确定所述源数据记录对应的第一主键;
[0018]确定所述至少一个目标数据记录分别对应的至少一个第二主键中,是否存在与所述第一主键相同的目标第二主键,如果是,根据所述源数据记录,对所述目标数据库中的与所述目标第二主键相对应的目标数据记录进行更新,否则,将所述第一主键对应的所述源数据记录插入至所述目标数据库中。
[0019]优选地,
[0020]在所述从预设的源数据库中获取与所述数据比对请求相对应的至少一个源数据记录之前,进一步包括:
[0021]利用kettle的任务设计界面,创建数据同步作业;
[0022]所述从预设的源数据库中获取与所述数据比对请求相对应的至少一个源数据记录,包括:
[0023]执行所述数据同步作业,以根据kettle的表输入组件中预设的源数据连接,对所述源数据库进行查询,得到所述至少一个源数据记录。
[0024]优选地,
[0025]所述从预设的目标数据库中获取与所述数据比对请求相对应的至少一个目标数据记录,包括:
[0026]执行所述数据同步作业,以根据kettle的表输出组件或插入更新组件中预设的目标数据库连接,对所述目标数据库进行查询,得到所述至少一个目标数据记录。
[0027]第二方面,本发明实施例提供了一种基于kettle的大数据比对装置,包括:请求获取单元、源数据获取单元、目标数据获取单元和数据比对单元;其中,
[0028]所述请求获取单元,用于获取数据比对请求;
[0029]所述源数据获取单元,用于从预设的源数据库中获取与所述数据比对请求相对应的至少一个源数据记录,并将所述至少一个源数据记录存储至预设内存中;
[0030]所述目标数据获取单元,用于从预设的目标数据库中获取与所述数据比对请求相对应的至少一个目标数据记录,并将所述至少一个目标数据记录存储至所述预设内存中;[0031]所述数据比对单元,用于在所述预设内存中对各个所述源数据记录以及各个所述目标数据记录进行比对。
[0032]优选地,
[0033]所述数据比对单元,进一步用于根据所述预设内存中的比对结果,对所述目标数据库中的所述至少一个目标数据记录进行处理。
[0034]优选地,
[0035]所述数据比对单元,用于针对每一个所述源数据记录,均执行:确定所述源数据记录对应的第一主键;确定所述至少一个目标数据记录分别对应的至少一个第二主键中,是否存在与所述第一主键相同的目标第二主键,如果是,根据所述源数据记录,对所述目标数据库中的与所述目标第二主键相对应的目标数据记录进行更新;否则,将所述第一主键对应的所述源数据记录插入至所述目标数据库中。
[0036]优选地,
[0037]进一步包括:作业创建单元;其中,
[0038]所述作业创建单元,用于利用kettle的任务设计界面,创建数据同步作业;[0039]所述源数据获取单元,用于执行所述数据同步作业,以根据kettle的表输入组件

本文发布于:2024-09-22 07:02:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/459635.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   目标   记录   数据库   预设   进行   获取   单元
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议