数据批量处理方法及装置与流程



1.本发明涉及分布式技术领域,尤其涉及一种数据批量处理方法及装置。


背景技术:



2.在大数据下,亟需一种批量处理方案,如果能够获取各个源系统所需的相关数据,通过对数据的分析、分类、清洗处理,建立一个以客户为中心的,为客户提供全面、快捷、灵活的数据支持服务,将有效实现大数据批量处理,而目前缺乏这样一种大数据批量处理方案。


技术实现要素:



3.本发明实施例提出一种数据批量处理方法,用以高效地实现数据批量处理,该方法包括:
4.配置作业文件的导入、导出的字段映射;
5.配置作业的运行参数,所述运行参数包括启动时刻、执行顺序、依赖关系、作业调度频度;
6.在获得目标作业文件需求后,通过导入的字段映射,导入目标作业;
7.读取目标作业文件中所有作业的运行参数;
8.通过shell脚本实时扫描每个作业的启动时间,通过crontab启动作业,按照执行顺序、依赖关系,执行所有的作业;
9.在获得目标作业文件执行结果导出命令后,通过导出的字段映射,导出目标作业文件中所有文件的执行结果。
10.本发明实施例提出一种数据批量处理装置,用以高效地实现数据批量处理,该装置包括:
11.配置模块,用于配置作业文件的导入、导出的字段映射;配置作业的运行参数,所述运行参数包括启动时刻、执行顺序、依赖关系、作业调度频度;
12.导入模块,用于在获得目标作业文件需求后,通过导入的字段映射,导入目标作业;
13.读取模块,用于读取目标作业文件中所有作业的运行参数;
14.执行模块,用于通过shell脚本实时扫描每个作业的启动时间,通过crontab启动作业,按照执行顺序、依赖关系,执行所有的作业;
15.导出模块,用于在获得目标作业文件执行结果导出命令后,通过导出的字段映射,导出目标作业文件中所有文件的执行结果。
16.本发明实施例提出另一种数据批量处理装置,用以高效地实现数据批量处理,该装置包括:
17.配置模块,用于配置作业文件的导入、导出的字段映射;配置作业的运行参数,所述运行参数包括启动时刻、执行顺序、依赖关系、作业调度频度;
18.导入模块,用于在获得目标作业文件需求后,通过导入的字段映射,导入目标作业;
19.读取模块,用于读取目标作业文件中所有作业的运行参数;
20.执行模块,用于通过shell脚本实时扫描每个作业的启动时间,通过crontab启动作业,按照执行顺序、依赖关系,执行所有的作业;
21.导出模块,用于在获得目标作业文件执行结果导出命令后,通过导出的字段映射,导出目标作业文件中所有文件的执行结果。
22.本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据批量处理装置方法。
23.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据批量处理装置方法。
24.本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述数据批量处理装置方法。
25.在本发明实施例中,配置作业文件的导入、导出的字段映射;配置作业的运行参数,所述运行参数包括启动时刻、执行顺序、依赖关系、作业调度频度;在获得目标作业文件需求后,通过导入的字段映射,导入目标作业;读取目标作业文件中所有作业的运行参数;通过shell脚本实时扫描每个作业的启动时间,通过crontab启动作业,按照执行顺序、依赖关系,执行所有的作业;在获得目标作业文件执行结果导出命令后,通过导出的字段映射,导出目标作业文件中所有文件的执行结果。在上述过程中,通过可配置化的作业配置,达到灵活运用;开发成本低:通过高可复用性,开发人员可以快速的配置作业,调用公共配置即可实现大部分的功能。
附图说明
26.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
27.图1为本发明实施例中数据批量处理方法的流程图;
28.图2为本发明实施例中任务和作业的关系;
29.图3为本发明实施例中数据批量处理装置的示意图一;
30.图4为本发明实施例中数据批量处理装置的示意图二;
31.图5为本发明实施例中计算机设备的示意图。
具体实施方式
32.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
33.在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的
用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本技术的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
34.图1为本发明实施例中数据批量处理方法的流程图,如图1所示,该方法包括:
35.步骤101,配置作业文件的导入、导出的字段映射;
36.步骤102,配置作业的运行参数,所述运行参数包括启动时刻、执行顺序、依赖关系、作业调度频度;
37.步骤103,在获得目标作业文件需求后,通过导入的字段映射,导入目标作业;
38.步骤104,读取目标作业文件中所有作业的运行参数;
39.步骤105,通过shell脚本实时扫描每个作业的启动时间,通过crontab启动作业,按照执行顺序、依赖关系,执行所有的作业;
40.步骤106,在获得目标作业文件执行结果导出命令后,通过导出的字段映射,导出目标作业文件中所有文件的执行结果。
41.在本发明实施例中,通过可配置化的作业配置,达到灵活运用;开发成本低:通过高可复用性,开发人员可以快速的配置作业,调用公共配置即可实现大部分的功能。
42.本发明实施例中,基于shell技术实现所述方法及装置,该技术负责调起和控制mpp数据库gbase 8a的数据批量处理方法。
43.在本发明实施例中,所述方法及装置的服务器运行在linux操作系统,作业文件存储在数据库,采用gbasestudio开发,数据库为mpp数据库gbase 8a。客户端使用xmanager。本发明方法可以部署在websphere 6以上,可以通过websphere的控制台来启动、停止调度应用服务。
44.shell脚本可配置在x86 linux服务器上,通过配置服务的形式,来启停shell脚本。
45.具体实施时,通过crontab启动作业,在停止作业时,也通过crontab。
46.在配置作业文件的导入、导出的字段映射时,要配置存储的数据库、数据库表等字段映射。另外,在数据库中,可对数据进行快速高效加工处理、抽取、分类和清洗,为其他系统快速高效的提供的大量数据文件,也可为联机展现相关数据信息时只需通过较少的运算即可快速获得展示结果。
47.在一实施例中,所述作业包括多个任务。配置作业的运行参数,即配置作业中所有任务的运行参数,图2为本发明实施例中任务和作业的关系,一个作业(job)以start为开始节点,end为结束节点。a、b、c三个任务(task)并行进行,a、b任务全部成功结束后,d、e才开始执行(并行执行);c任务成功结束后,f任务才开始,d、e、f任务全部成功结束后,g任务才开始,g任务成功结束后,整个job才结束。
48.图2中任务之间依赖关系见表1,依赖关系包括确定前驱任务和后继任务。
49.表1
50.当前作业前驱任务后继任务
job_idstarta、b、cjob_ida、bd、ejob_idcfjob_idd、e、fgjob_idgend
51.作业和任务是绑定的,通过作业可以查询下面任务量,start标注任务开始,前一批任务执行完毕,后一批任务才能执行,任务可以一个,也可以多个。如表1:a、b、c是start的后继任务,a、b、c可以同时执行;d、e是a、b任务的后继,a、b执行完毕,d、e才能开始执行;d、e、f是g任务的前驱,d、e、f都执行完毕,g任务才能开始;g是end的前驱,g任务执行完毕,整个作业标注完成。
52.在一实施例中,配置作业的运行参数,包括:
53.通过jsp页面配置作业的运行参数。运行参数中的启动时刻精确到秒。shell脚本会自动扫描每个作业的启动时间,到时间就启动相应的作业。任务也有对应的启动时间,每个作业运行起来,任务也开始执行,随着任务的进行会更新任务的时间、状态。运行参数中作业调度频度通过时间表达式的设置,支持日、周、月、年、不间隔的时间段,运行参数还包括作业是否启用。
54.在一实施例中,每个作业都有超链接;
55.所述方法还包括:跑批作业日志文件,监控作业的执行状态;
56.在接收到作业的超链接点击命令时,显示作业的执行状态。
57.具体实施时,跑批作业日志文件时,即直接进行作业日志文件分析,日志文件分为错误日志文件和任务执行状态文件。任务执行状态文件主要是任务执行的状态信息,如执行时间、运行状态等。错误日志为发生错误时记录的具体的错误日志。
58.在一实施例中,所述方法还包括:
59.配置备份参数,所述备份参数包括备份时刻、备份内容;
60.在所述备份时刻,按照备份内容进行备份。
61.在进行备份时,支持自动备份和手工备份。
62.自动备份:按照备份策略每日自动启动包括备份内容的备份脚本,进行各个数据库备份。
63.手工备份:登录服务器,选择手动执行备份脚本,传入备份参数,对数据库进行备份。
64.如果备份失败,错误信息会写进日志文件,也可以通过短信、邮件告警形式,对任务进行监控。
65.具体实施时,通过java技术展示任务跑批日志文件,及时监控任务执行状况。也可以通过短信形式发送任务执行情况。
66.本发明实施例提出的方法具有如下有益效果:
67.1.灵活性强:通过可配置化的作业配置、备份机制,达到灵活运用。
68.2.维护成本低:维护人员可以通过jsp页面就可以收集和查看各作业任务执行情况,使用方便。
69.3.开发成本低:通过高可复用性,开发人员可以快速的配置作业,调用公共配置即
可实现大部分的功能。
70.本发明实施例还提出一种数据批量处理装置,其原理与数据批量处理方法类似,这里不再赘述。
71.图3为本发明实施例中数据批量处理装置的示意图一,包括:
72.配置模块301,用于配置作业文件的导入、导出的字段映射;配置作业的运行参数,所述运行参数包括启动时刻、执行顺序、依赖关系、作业调度频度;
73.导入模块302,用于在获得目标作业文件需求后,通过导入的字段映射,导入目标作业;
74.读取模块303,用于读取目标作业文件中所有作业的运行参数;
75.执行模块304,用于通过shell脚本实时扫描每个作业的启动时间,通过crontab启动作业,按照执行顺序、依赖关系,执行所有的作业;
76.导出模块305,用于在获得目标作业文件执行结果导出命令后,通过导出的字段映射,导出目标作业文件中所有文件的执行结果。
77.在一实施例中,配置模块具体用于:
78.通过jsp页面配置作业的运行参数。
79.在一实施例中,所述作业包括多个任务。
80.在一实施例中,每个作业都有超链接;
81.图4为本发明实施例中数据批量处理装置的示意图二,在一实施例中,所述装置还包括监控模块401,用于:
82.跑批作业日志文件,监控作业的执行状态;
83.在接收到作业的超链接点击命令时,显示作业的执行状态。
84.在一实施例中,配置模块还用于:
85.配置备份参数,所述备份参数包括备份时刻、备份内容;
86.在所述备份时刻,按照备份内容进行备份。
87.综上所述,在本发明实施例提出的装置达到的有益效果如下
88.1.灵活性强:通过可配置化的作业配置、备份机制,达到灵活运用。
89.2.维护成本低:维护人员可以通过jsp页面就可以收集和查看各作业任务执行情况,使用方便。
90.3.开发成本低:通过高可复用性,开发人员可以快速的配置作业,调用公共配置即可实现大部分的功能。
91.本发明实施例还提供一种计算机设备,图5为本发明实施例中计算机设备的示意图,所述计算机设备500包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序530,所述处理器520执行所述计算机程序530时实现上述数据批量处理方法。
92.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据批量处理方法。
93.本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述数据批量处理方法。
94.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序
业务系统。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序业务系统的形式。
95.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序业务系统的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
96.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
97.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
98.以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种数据批量处理方法,其特征在于,包括:配置作业文件的导入、导出的字段映射;配置作业的运行参数,所述运行参数包括启动时刻、执行顺序、依赖关系、作业调度频度;在获得目标作业文件需求后,通过导入的字段映射,导入目标作业;读取目标作业文件中所有作业的运行参数;通过shell脚本实时扫描每个作业的启动时间,通过crontab启动作业,按照执行顺序、依赖关系,执行所有的作业;在获得目标作业文件执行结果导出命令后,通过导出的字段映射,导出目标作业文件中所有文件的执行结果。2.如权利要求1所述的方法,其特征在于,配置作业的运行参数,包括:通过jsp页面配置作业的运行参数。3.如权利要求1所述的方法,其特征在于,所述作业包括多个任务。4.如权利要求1所述的方法,其特征在于,每个作业都有超链接;所述方法还包括:跑批作业日志文件,监控作业的执行状态;在接收到作业的超链接点击命令时,显示作业的执行状态。5.如权利要求1所述的方法,其特征在于,还包括:配置备份参数,所述备份参数包括备份时刻、备份内容;在所述备份时刻,按照备份内容进行备份。6.一种数据批量处理装置,其特征在于,包括:配置模块,用于配置作业文件的导入、导出的字段映射;配置作业的运行参数,所述运行参数包括启动时刻、执行顺序、依赖关系、作业调度频度;导入模块,用于在获得目标作业文件需求后,通过导入的字段映射,导入目标作业;读取模块,用于读取目标作业文件中所有作业的运行参数;执行模块,用于通过shell脚本实时扫描每个作业的启动时间,通过crontab启动作业,按照执行顺序、依赖关系,执行所有的作业;导出模块,用于在获得目标作业文件执行结果导出命令后,通过导出的字段映射,导出目标作业文件中所有文件的执行结果。7.如权利要求6所述的装置,其特征在于,配置模块具体用于:通过jsp页面配置作业的运行参数。8.如权利要求6所述的装置,其特征在于,所述作业包括多个任务。9.如权利要求6所述的装置,其特征在于,每个作业都有超链接;所述装置还包括监控模块,用于:跑批作业日志文件,监控作业的执行状态;在接收到作业的超链接点击命令时,显示作业的执行状态。10.如权利要求6所述的装置,其特征在于,配置模块还用于:配置备份参数,所述备份参数包括备份时刻、备份内容;在所述备份时刻,按照备份内容进行备份。11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计
算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法。13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法。

技术总结


本发明提供了一种数据批量处理方法及装置,可用于分布式技术领域,该方法包括:配置作业文件的导入、导出的字段映射;配置作业的运行参数,所述运行参数包括启动时刻、执行顺序、依赖关系、作业调度频度;在获得目标作业文件需求后,通过导入的字段映射,导入目标作业;读取目标作业文件中所有作业的运行参数;通过SHELL脚本实时扫描每个作业的启动时间,通过CRONTAB启动作业,按照执行顺序、依赖关系,执行所有的作业;在获得目标作业文件执行结果导出命令后,通过导出的字段映射,导出目标作业文件中所有文件的执行结果。本发明可以高效地实现数据批量处理。实现数据批量处理。实现数据批量处理。


技术研发人员:

柴康斌

受保护的技术使用者:

中国银行股份有限公司

技术研发日:

2022.11.29

技术公布日:

2023/2/23

本文发布于:2024-09-24 04:15:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/60501.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:作业   所述   文件   计算机
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议