数据的处理方法和装置、存储介质及电子装置与流程


1.本技术涉及计算机领域,具体而言,涉及一种数据的处理方法和装置、存储介质及电子装置。


背景技术:



2.目前,在汽车的自动驾驶领域,为了服务于算法的迭代,往往需要多样的工具对大量的数据进行脱敏、清洗、解包、组包等操作,这些工具往往分布在各个业务部门,并且使用不同的语言进行开发,上述不同的语言进行开发的异构工具在数据处理的过程中,通常需要相互调用,实现对数据的分布式计算。
3.在数据闭环(采集-存储-训练-仿真-评估-部署)的整个流程中,工具对数据的处理非常重要,各个环节都可能有相应的工具,单个计算节点对数据处理算力不足,同时往往需要把数据提前载入到计算节点中,节点的存储能力有限,最终造成对数据的处理效率不高,并且,有的情况下,工具与工具之间也需要功能调用,如果工具的开发语言不同,互相调用就会存在很大问题,调用过程繁琐,影响数据处理的效率。
4.针对相关技术中,数据的处理的效率较低等问题,尚未提出有效的解决方案。


技术实现要素:



5.本技术实施例提供了一种数据的处理方法和装置、存储介质及电子装置,以至少解决相关技术中,数据的处理的效率较低等问题。
6.根据本技术实施例的一个实施例,提供了一种数据的处理方法,包括:从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包,其中,所述数据处理业务用于请求处理目标数据,所述目标工具包用于指示实现所述数据处理业务所用到的数据处理工具;创建每个所述目标工具包对应的初始数据处理容器,得到具有对应关系的目标工具包和初始容器集合;按照具有对应关系的目标工具包和初始容器集合,将每个所述目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,其中,所述目标容器集合中的每个目标容器上部署了数据处理接口,所述数据处理接口用于对目标格式和每个所述目标工具包对应的异构格式进行转换;按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据。
7.可选的,所述创建每个所述目标工具包对应的初始数据处理容器,包括:创建每个所述目标工具包对应的第一配置文件,其中,所述第一配置文件用于指示待为每个所述目标工具包创建的所述初始数据处理容器的属性信息;通过集控制命令在集中执行所述第一配置文件,得到每个所述目标工具包对应的所述初始数据处理容器。
8.可选的,所述创建每个所述目标工具包对应的第一配置文件,包括:创建每个所述目标工具包对应的第一数据序列化格式yaml文件,其中,所述第一数据序列化格式yaml文件的文件参数包括kind属性为部署deployment,待创建容器的数量,所述目标工具包的名称及所述目标工具包的地址。
9.可选的,所述按照具有对应关系的目标工具包和初始容器集合,将每个所述目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,包括:创建每个所述初始数据处理容器对应的第二配置文件,其中,所述第二配置文件用于指示待安装在所述初始数据处理容器中的所述目标工具包的信息以及所述数据处理接口的接口信息;通过集控制命令在每个所述初始数据处理容器中执行所述第二配置文件,得到一个或者多个目标容器集合。
10.可选的,所述创建每个所述初始数据处理容器对应的第二配置文件,包括:创建每个所述初始数据处理容器对应的第二yaml文件,其中,所述第二yaml文件的文件参数包括kind属性为服务service,选择器selector为每个所述初始数据处理容器对应的所述目标工具包,以及,所述数据处理接口的接口信息。
11.可选的,所述通过集控制命令在每个所述初始数据处理容器中执行所述第二配置文件,包括:根据所述kind属性在每个所述初始数据处理容器中通过构建service对象的方式安装对应的所述目标工具包,得到参考容器;按照所述数据处理接口的接口信息为所述参考容器部署所述数据处理接口。
12.可选的,所述按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据,包括:按照所述数据处理业务的操作顺序依次调用每个所述目标容器集合中进行数据处理;获取每个所述目标容器集合返回的数据处理结果;在所述数据处理结果不属于所述目标数据在所述数据处理业务中的最终处理结果的情况下,将所述数据处理结果发送至所述操作顺序中的下一个所述目标容器集合;在所述数据处理结果属于所述目标数据在所述数据处理业务中的最终处理结果的情况下,存储所述数据处理结果。
13.可选的,所述调用每个所述目标容器集合中进行数据处理,包括:创建目标格式的第一调用请求,其中,所述第一调用请求中携带了待处理数据的数据链接;按照负载均衡将所述第一调用请求发送至每个所述目标容器集合中的一个目标容器上的所述数据处理接口;通过所述数据处理接口将所述第一调用请求从所述目标格式转换为对应的所述异构格式的第二调用请求;从所述第二调用请求中获取所述数据链接;按照所述数据链接将所述待处理数据加载至所述一个目标容器中进行处理。
14.可选的,在所述从多个异构的数据处理工具包中获取接收到的数据处理业务所对
应的一个或者多个目标工具包之前,所述方法还包括:生成多个异构的数据处理工具中每个数据处理工具的工具镜像,得到多个异构的所述数据处理工具包;为每个所述数据处理工具包创建对应的微服务模块,其中,所述微服务模块用于调用每个所述数据处理工具包。
15.可选的,在所述按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据之后,所述方法还包括:销毁一个或者多个所述目标容器集合;释放一个或者多个所述目标容器集合所占用的存储资源和算力资源。
16.根据本技术实施例的另一个实施例,还提供了一种数据的处理装置,包括:获取模块,用于从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包,其中,所述数据处理业务用于请求处理目标数据,所述目标工具包用于指示实现所述数据处理业务所用到的数据处理工具;第一创建模块,用于创建每个所述目标工具包对应的初始数据处理容器,得到具有对应关系的目标工具包和初始容器集合;安装模块,用于按照具有对应关系的目标工具包和初始容器集合,将每个所述目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,其中,所述目标容器集合中的每个目标容器上部署了数据处理接口,所述数据处理接口用于对目标格式和每个所述目标工具包对应的异构格式进行转换;调度模块,用于按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据。
17.根据本技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述数据的处理方法。
18.根据本技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的数据的处理方法。
19.在本技术实施例中,从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包,其中,数据处理业务用于请求处理目标数据,目标工具包用于指示实现数据处理业务所用到的数据处理工具;创建每个目标工具包对应的初始数据处理容器,得到具有对应关系的目标工具包和初始容器集合;按照具有对应关系的目标工具包和初始容器集合,将每个目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,其中,目标容器集合中的每个目标容器上部署了数据处理接口,数据处理接口用于对目标格式和每个目标工具包对应的异构格式进行转换;按照数据处理业务通过数据处理接口调度一个或者多个目标容器集合处理目标数据,即,首先根据接收到的数据处理业务从多个异构的数据处理工具包中获取对应的一个或者多个目标工具包,数据处理业务用于请求处理目标数据,目标工具包用于指示实现数据处理业务所用到的数据处理工具,然后根据目标工具包,创建对应的初始数据处理容器,得到具有对应关系的目标工具包和初始容器集合,之后,按照具有对应关系的目标工具包和初始容器集合,将每个目
标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,并且,目标容器集合中的每个目标容器上部署了数据处理接口,数据处理接口用于对目标格式和每个目标工具包对应的异构格式进行转换,也就是说,可以通过数据处理接口实现异构工具之间的相互调用,之后按照数据处理业务通过数据处理接口调度一个或者多个目标容器集合处理目标数据,实现便捷地调用工具处理目标数据,并且对目标工具包进行多容器部署,增加目标工具包对目标数据的处理能力。采用上述技术方案,解决了相关技术中,数据的处理的效率较低等问题,实现了提高数据的处理效率的技术效果。
附图说明
20.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
21.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
22.图1是根据本技术实施例的一种数据的处理方法的硬件环境示意图;图2是根据本技术实施例的一种数据的处理方法的流程图;图3是根据本技术实施例的一种目标工具包获取的示意图;图4是根据本技术实施例的一种初始容器集合创建的示意图;图5是根据本技术实施例的一种初始数据处理容器创建的示意图;图6是根据本技术实施例的一种目标容器集合的示意图;图7是根据本技术实施例的一种可选的数据的处理的示意图;图8是根据本技术实施例的一种数据的处理装置的结构框图。
具体实施方式
23.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
24.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.本技术实施例所提供的方法实施例可以在计算机终端、设备终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是根据本技术实施例的一种数据的处理方法的硬件环境示意图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理
器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,在一个示例性实施例中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
26.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的数据的处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
27.传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(network interface controller,简称为nic),其可通过与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
28.在本实施例中提供了一种数据的处理方法,应用于上述计算机终端,图2是根据本技术实施例的一种数据的处理方法的流程图,如图2所示,该流程包括如下步骤:步骤s202,从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包,其中,所述数据处理业务用于请求处理目标数据,所述目标工具包用于指示实现所述数据处理业务所用到的数据处理工具;步骤s204,创建每个所述目标工具包对应的初始数据处理容器,得到具有对应关系的目标工具包和初始容器集合;步骤s206,按照具有对应关系的目标工具包和初始容器集合,将每个所述目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,其中,所述目标容器集合中的每个目标容器上部署了数据处理接口,所述数据处理接口用于对目标格式和每个所述目标工具包对应的异构格式进行转换;步骤s208,按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据。
29.通过上述步骤,首先根据接收到的数据处理业务从多个异构的数据处理工具包中获取对应的一个或者多个目标工具包,数据处理业务用于请求处理目标数据,目标工具包用于指示实现数据处理业务所用到的数据处理工具,然后根据目标工具包,创建对应的初始数据处理容器,得到具有对应关系的目标工具包和初始容器集合,之后,按照具有对应关系的目标工具包和初始容器集合,将每个目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,并且,目标容器集合中的每个目标容器上部署了数据处理接口,数据处理接口用于对目标格式和每个目标工具包对应的异构格式进行转换,也就是说,可以通过数据处理接口实现异构工具之间的相互调用,之后按照数据处理业务通过
数据处理接口调度一个或者多个目标容器集合处理目标数据,实现便捷地调用工具处理目标数据,并且对目标工具包进行多容器部署,增加目标工具包对目标数据的处理能力。采用上述技术方案,解决了相关技术中,数据的处理的效率较低等问题,实现了提高数据的处理效率的技术效果。
30.在上述步骤s202提供的技术方案中,数据处理业务可以但不限于为任何数据可能需要的处理业务,在数据闭环(采集-存储-训练-仿真-评估-部署)的整个流程中,数据可能需要的处理业务可以但不限于包括:脱敏业务、清洗业务、解包业务、组包业务等等。
31.可选地,在本实施例中,图3是根据本技术实施例的一种目标工具包获取的示意图,如图3所示,根据数据处理业务确定目标数据所请求的业务类型,比如,数据处理业务请求对目标数据进行处理业务a和处理业务b,从多个异构的数据处理工具包(数据处理工具包1至数据处理工具包n)中确定处理业务a和处理业务b对应的一个或者多个目标工具包(目标工具包1,
……
,目标工具包k),其中,目标工具包可以指示实现数据处理业务所用到的数据处理工具,比如,数据处理工具包1指示的数据处理工具1可以实现数据处理业务请求的处理业务a,数据处理工具包k指示的数据处理工具k可以实现数据处理业务请求的处理业务b。
32.在上述步骤s204提供的技术方案中,图4是根据本技术实施例的一种初始容器集合创建的示意图,如图4所示,以上述一个或者多个目标工具包(目标工具包1,
……
,目标工具包k)中的目标工具包1为例,创建每个目标工具包对应的初始数据处理容器,得到具有对应关系的目标工具包(目标工具包1)和初始容器集合(初始数据处理容器11至初始数据处理容器1n),相同的,可以得到具有对应关系的目标工具包(目标工具包k)和初始容器集合(初始数据处理容器k1至初始数据处理容器kn)。
33.在一个示例性实施例中,可以但不限于通过以下方式创建每个所述目标工具包对应的初始数据处理容器:创建每个所述目标工具包对应的第一配置文件,其中,所述第一配置文件用于指示待为每个所述目标工具包创建的所述初始数据处理容器的属性信息;通过集控制命令在集中执行所述第一配置文件,得到每个所述目标工具包对应的所述初始数据处理容器。
34.可选地,在本实施例中,以上述目标工具包1为例,图5是根据本技术实施例的一种初始数据处理容器创建的示意图,如图5所示,可以基于目标工具包创建对应的第一配置文件,其中,第一配置文件中可以包含每个目标工具包创建的所述初始数据处理容器的属性信息,通过集识别第一配置文件,并释放集控制命令,在集中执行第一配置文件,得到每个所述目标工具包(目标工具包1)对应的所述初始数据处理容器(初始数据处理容器11至初始数据处理容器1n)。
35.在一个示例性实施例中,可以但不限于通过以下方式创建每个所述目标工具包对应的第一配置文件:创建每个所述目标工具包对应的第一数据序列化格式yaml文件,其中,所述第一数据序列化格式yaml文件的文件参数包括kind属性为部署deployment,待创建容器的数量,所述目标工具包的名称及所述目标工具包的地址。
36.可选地,在本实施例中,上述第一配置文件需要与集匹配,也就是说,创建出的第一配置文件需要为集能够识别的文件,以集为k8s集(kubernetes,容器集管理系统)为例,k8s集能够识别的文件格式是第一数据序列化格式yaml文件,因此,首先创建
的目标工具包对应的第一配置文件为第一数据序列化格式yaml文件,上述为第一配置文件的格式要求,除此之外,第一配置文件的文件内容,即文件参数还需要包括kind属性为部署deployment,待创建容器的数量,所述目标工具包的名称及所述目标工具包的地址。
37.在上述步骤s206提供的技术方案中,图6是根据本技术实施例的一种目标容器集合的示意图,如图6所示,将每个所述目标工具包安装至对应的初始数据处理容器中,以目标工具包1为例,安装至对应的初始数据处理容器(初始数据处理容器11至初始数据处理容器1n)中,得到目标工具包1对应的一个目标容器集合1(目标容器11至目标容器1n),同样地,对每个所述目标工具包执行上述步骤,得到一个或者多个目标容器集合(目标容器集合1至目标容器集合k)。
38.可选地,在本实施例中,每个目标容器上部署了数据处理接口,由于不同的目标容器集合中的目标工具包可能是异构工具,在数据需要相互调用工具的情况下,使用数据处理接口对目标格式和每个所述目标工具包对应的异构格式进行转换,比如,如图6所示,以目标容器集合1和目标容器集合k之间的格式转换为例,数据在目标容器集合1中处理完毕,得到初始数据,初始数据需要继续在目标容器集合k中处理,但是直接将初始数据传输至目标容器集合k,由于目标容器集合1与目标容器集合k中部署的工具之间是异构工具,因此可能出现识别错误,因此,可以使用数据处理接口1将初始数据的目标格式转换为目标容器集合k中部署的工具允许识别的异构格式。
39.在一个示例性实施例中,可以但不限于通过以下方式按照具有对应关系的目标工具包和初始容器集合,将每个所述目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合:创建每个所述初始数据处理容器对应的第二配置文件,其中,所述第二配置文件用于指示待安装在所述初始数据处理容器中的所述目标工具包的信息以及所述数据处理接口的接口信息;通过集控制命令在每个所述初始数据处理容器中执行所述第二配置文件,得到一个或者多个目标容器集合。
40.可选地,在本实施例中,第二配置文件可以指示初始数据处理容器中的部署的目标工具包的信息以及初始数据处理容器对应的数据处理接口的接口信息,得到初始数据处理容器对应的目标容器。
41.在一个示例性实施例中,可以但不限于通过以下方式创建每个所述初始数据处理容器对应的第二配置文件:创建每个所述初始数据处理容器对应的第二yaml文件,其中,所述第二yaml文件的文件参数包括kind属性为服务service,选择器selector为每个所述初始数据处理容器对应的所述目标工具包,以及,所述数据处理接口的接口信息。
42.可选地,在本实施例中,可选地,在本实施例中,上述第二配置文件需要与集匹配,也就是说,创建出的第二配置文件需要为集能够识别的文件,以集为k8s集(kubernetes,容器集管理系统)为例,k8s集能够识别的文件格式是第一数据序列化格式yaml文件,因此,首先创建的初始数据处理容器对应的第二配置文件为yaml文件,上述为第二配置文件的格式要求,除此之外,第二配置文件的文件内容,即文件参数包括kind属性为服务service,选择器selector为每个所述初始数据处理容器对应的所述目标工具包,以及,所述数据处理接口的接口信息。
43.在一个示例性实施例中,可以但不限于通过以下方式通过集控制命令在每个所述初始数据处理容器中执行所述第二配置文件:根据所述kind属性在每个所述初始数据处
理容器中通过构建service对象的方式安装对应的所述目标工具包,得到参考容器;按照所述数据处理接口的接口信息为所述参考容器部署所述数据处理接口。
44.可选地,在本实施例中,初始数据处理容器、参考容器,以及,目标容器都可以但不限于为k8s集中的service对象进行统一管理的pod,其中,pod为k8s集(kubernetes)的最小原子单位,为内部运行的工具提供存储资源和算力资源,处于同一个k8s集中的pod共享k8s集的存储资源和算力资源。
45.在上述步骤s208提供的技术方案中,在目标容器集合中创建完成的情况下,可以通过数据处理接口调用一个或者多个所述目标容器集合处理所述目标数据,也就是说,目标数据对应的数据处理业务可能包括多个,比如:脱敏业务、清洗业务、解包业务、组包业务等。
46.在一个示例性实施例中,可以但不限于通过以下方式按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据:按照所述数据处理业务的操作顺序依次调用每个所述目标容器集合中进行数据处理;获取每个所述目标容器集合返回的数据处理结果;在所述数据处理结果不属于所述目标数据在所述数据处理业务中的最终处理结果的情况下,将所述数据处理结果发送至所述操作顺序中的下一个所述目标容器集合;在所述数据处理结果属于所述目标数据在所述数据处理业务中的最终处理结果的情况下,存储所述数据处理结果。
47.可选地,在本实施例中,目标数据对应的数据处理业务可能包括多个,比如:脱敏业务、清洗业务、解包业务、组包业务等,比如,目标数据的数据处理业务的操作顺序为脱敏业务-清洗业务-解包业务,其中,每一个业务通过对应的目标容器集合处理,例如,目标容器集合1处理脱敏业务,目标容器集合2处理清洗业务,目标容器集合3处理解包业务,根据处理业务的操作顺序可知,目标数据最终的处理结果应该为目标容器集合3返回,因此,获取每个所述目标容器集合返回的数据处理结果,在所述数据处理结果不属于所述目标数据在所述数据处理业务中的最终处理结果的情况下,比如,目标容器集合2返回数据处理结果不属于目标数据在所述数据处理业务中的最终处理结果,将目标容器集合2返回数据处理结果发送至所述操作顺序中的下一个所述目标容器集合(目标容器集合3)。
48.在一个示例性实施例中,可以但不限于通过以下方式调用每个所述目标容器集合中进行数据处理:创建目标格式的第一调用请求,其中,所述第一调用请求中携带了待处理数据的数据链接;按照负载均衡将所述第一调用请求发送至每个所述目标容器集合中的一个目标容器上的所述数据处理接口;通过所述数据处理接口将所述第一调用请求从所述目标格式转换为对应的所述异构格式的第二调用请求;从所述第二调用请求中获取所述数据链接;按照所述数据链接将所述待处理数据加载至所述一个目标容器中进行处理。
49.可选地,在本实施例中,负载均衡可以但不限于通过k8s集中的service对象进行统一管理的目标容器pod实现,将待处理数据传输至处于空闲状态的pod中进行处理。
50.可选地,在本实施例中,待处理数据的处理方式可以但不限于为通过数据链接携带的方式发送至目标容器,通过目标容器中部署的工具对待处理数据进行处理。
51.在一个示例性实施例中,在所述从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包之前,还可以但不限于包括以下方式:生成多个异构的数据处理工具中每个数据处理工具的工具镜像,得到多个异构的所述数据处理
工具包;为每个所述数据处理工具包创建对应的微服务模块,其中,所述微服务模块用于调用每个所述数据处理工具包。
52.可选地,在本实施例中,每个数据处理工具的工具镜像与数据处理工具的功能一致,通过将数据处理工具包部署至不同的目标容器pod中,使用k8s集(kubernetes)进行统一管理,在增加处理算力提高数据处理效率的同时,实现负载均衡。
53.在一个示例性实施例中,在所述按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据之后,还可以但不限于包括以下方式:销毁一个或者多个所述目标容器集合;释放一个或者多个所述目标容器集合所占用的存储资源和算力资源。
54.可选地,在本实施例中,由于目标容器集合中的工具运行会占用存储资源和算力资源,因此,在按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理目标数据之后,可以将一个或者多个所述目标容器集合进行销毁,释放一个或者多个目标容器集合所占用的存储资源和算力资源。
55.为了更好的理解上述数据的处理的过程,以下再结合可选实施例对上述数据的处理流程进行说明,但不用于限定本技术实施例的技术方案。
56.在本实施例中提供了一种数据的处理方法,图7是根据本技术实施例的一种可选的数据的处理的示意图,如图7所示:根据需求和restful架构规范,开发具有一定功能的工具模块(c++工具,python工具、java工具和其他),其中,restful架构规范可以实现工具开发的解耦,利用接口与外界关联,并且可以独立部署,工具模块可能是不同开发语言开发的异构工具,工具模块与微服务之间一一对应,比如:c++工具对应微服务1,python工具对应微服务2等等,实现工具链集成;针对单一工具模块,构建容器镜像。具体的方式可以包括:利用构建的工具镜像,创建能够在k8s集部署的yaml文件(也可以利用k8s sdk),文件参数中指定kind属性为deployment、指定副本个数、指定镜像名称及地址等信息。然后通过master节点利用kubectl create命令进行多pod部署。创建能够在k8s集部署的yaml文件(也可以利用k8s sdk),文件参数中指定kind属性为service,指定selector为上一步骤中指定的app标签值,指定nodeport 端口等信息。通过节点1至节点n中的master节点利用kubectl create命令进行service对象构建。利用宿主机ip及service的nodeport端口,进行请求访问,实现负载均衡。上述方式中可以利用k8s中service对象机制,实现多pod(pod1至podn)之间的负载均衡,多pod之间共享处理集和算力集,平台根据不断的restful请求达到数据并行处理的效果。
57.平台通过选取获取到需要处理的大批量数据。对数据的链接进行加载,并且根据工具的输入需求进行分组排序,将分组排序后的数据链接,做为restful接口(rest api)的请求参数。平台通过restful接口,加载数据到pod内部,进行数据处理,平台根据pod的个数进行负载,并行处理数据。上述步骤可以利用数据平台的优势,选取需要处理的数据,进行分组排序,实现存储与计算分离,发挥平台优势。
58.每个数据处理完成后,返回成功或者失败参数,如果成功,上传处理结果数据到存储中心,添加处理结果元数据,标记处理成功。如果失败,添加处理结果元数据,标记处理结
构失败。通过工具日志监控工具处理状态,上述步骤可以利用平台通过监控工具本身的日志,来记录每个数据的处理状态,实现无监管自动化处理效果,如果全部处理完成,销毁pod,释放存储和算力资源。
59.需要说明的是,各工具模块根据restful架构开发、部署自己的工具服务功能,开发上实现解耦。通过多容器的部署,可以实现数据的并行处理,自动实现负载均衡。对开发语言没有严格要求,只要符合restful架构,就可以融合到平台中。restful架构,是与工具开发平台无关的架构,不同的平台都可以通过restful风格的接口实现功能的调用、数据的输入、数据的后处理等操作,通过k8s集对工具进行多容器部署,通过service实现负载平衡,可以实现数据的并行处理,充分利用集的算力,通过restful架构设计,可以实现模块之间开发的完全解耦。
60.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
61.图8是根据本技术实施例的一种数据的处理装置的结构框图;如图8所示,包括:获取模块802,用于从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包,其中,所述数据处理业务用于请求处理目标数据,所述目标工具包用于指示实现所述数据处理业务所用到的数据处理工具;第一创建模块804,用于创建每个所述目标工具包对应的初始数据处理容器,得到具有对应关系的目标工具包和初始容器集合;安装模块806,用于按照具有对应关系的目标工具包和初始容器集合,将每个所述目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,其中,所述目标容器集合中的每个目标容器上部署了数据处理接口,所述数据处理接口用于对目标格式和每个所述目标工具包对应的异构格式进行转换;调度模块808,用于按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据。
62.通过上述实施例,首先根据接收到的数据处理业务从多个异构的数据处理工具包中获取对应的一个或者多个目标工具包,数据处理业务用于请求处理目标数据,目标工具包用于指示实现数据处理业务所用到的数据处理工具,然后根据目标工具包,创建对应的初始数据处理容器,得到具有对应关系的目标工具包和初始容器集合,之后,按照具有对应关系的目标工具包和初始容器集合,将每个目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,并且,目标容器集合中的每个目标容器上部署了数据处理接口,数据处理接口用于对目标格式和每个目标工具包对应的异构格式进行转换,也就是说,可以通过数据处理接口实现异构工具之间的相互调用,之后按照数据处理业务通过数据处理接口调度一个或者多个目标容器集合处理目标数据,实现便捷地调用工具处理目标数据,并且对目标工具包进行多容器部署,增加目标工具包对目标数据的处理能力。采用上述技术方案,解决了相关技术中,数据的处理的效率较低等问题,实现了提高数据的处
理效率的技术效果。
63.在一个示例性实施例中,所述第一创建模块,包括:第一创建单元,用于创建每个所述目标工具包对应的第一配置文件,其中,所述第一配置文件用于指示待为每个所述目标工具包创建的所述初始数据处理容器的属性信息;第一执行单元,用于通过集控制命令在集中执行所述第一配置文件,得到每个所述目标工具包对应的所述初始数据处理容器。
64.在一个示例性实施例中,所述第一创建单元,还用于:创建每个所述目标工具包对应的第一数据序列化格式yaml文件,其中,所述第一数据序列化格式yaml文件的文件参数包括kind属性为部署deployment,待创建容器的数量,所述目标工具包的名称及所述目标工具包的地址。
65.在一个示例性实施例中,所述安装模块,包括:第二创建单元,用于创建每个所述初始数据处理容器对应的第二配置文件,其中,所述第二配置文件用于指示待安装在所述初始数据处理容器中的所述目标工具包的信息以及所述数据处理接口的接口信息;第二执行单元,用于通过集控制命令在每个所述初始数据处理容器中执行所述第二配置文件,得到一个或者多个目标容器集合。
66.在一个示例性实施例中,所述第二创建单元,还用于:创建每个所述初始数据处理容器对应的第二yaml文件,其中,所述第二yaml文件的文件参数包括kind属性为服务service,选择器selector为每个所述初始数据处理容器对应的所述目标工具包,以及,所述数据处理接口的接口信息。
67.在一个示例性实施例中,所述第二执行单元,还用于:根据所述kind属性在每个所述初始数据处理容器中通过构建service对象的方式安装对应的所述目标工具包,得到参考容器;按照所述数据处理接口的接口信息为所述参考容器部署所述数据处理接口。
68.在一个示例性实施例中,所述调度模块,包括:调用单元,用于按照所述数据处理业务的操作顺序依次调用每个所述目标容器集合中进行数据处理;获取单元,用于获取每个所述目标容器集合返回的数据处理结果;发送单元,用于在所述数据处理结果不属于所述目标数据在所述数据处理业务中的最终处理结果的情况下,将所述数据处理结果发送至所述操作顺序中的下一个所述目标容器集合;存储单元,用于在所述数据处理结果属于所述目标数据在所述数据处理业务中的最终处理结果的情况下,存储所述数据处理结果。
69.在一个示例性实施例中,所述调用单元,还用于:创建目标格式的第一调用请求,其中,所述第一调用请求中携带了待处理数据的数据链接;按照负载均衡将所述第一调用请求发送至每个所述目标容器集合中的一个目标容器上的所述数据处理接口;通过所述数据处理接口将所述第一调用请求从所述目标格式转换为对应的所述
异构格式的第二调用请求;从所述第二调用请求中获取所述数据链接;按照所述数据链接将所述待处理数据加载至所述一个目标容器中进行处理。
70.在一个示例性实施例中,所述装置还包括:生成模块,用于在所述从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包之前,生成多个异构的数据处理工具中每个数据处理工具的工具镜像,得到多个异构的所述数据处理工具包;第二创建模块,用于为每个所述数据处理工具包创建对应的微服务模块,其中,所述微服务模块用于调用每个所述数据处理工具包。
71.在一个示例性实施例中,所述装置还包括:销毁模块,用于在所述按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据之后,销毁一个或者多个所述目标容器集合;释放模块,用于释放一个或者多个所述目标容器集合所占用的存储资源和算力资源。
72.本技术的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
73.可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:s1,从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包,其中,所述数据处理业务用于请求处理目标数据,所述目标工具包用于指示实现所述数据处理业务所用到的数据处理工具;s2,创建每个所述目标工具包对应的初始数据处理容器,得到具有对应关系的目标工具包和初始容器集合;s3,按照具有对应关系的目标工具包和初始容器集合,将每个所述目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,其中,所述目标容器集合中的每个目标容器上部署了数据处理接口,所述数据处理接口用于对目标格式和每个所述目标工具包对应的异构格式进行转换;s4,按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据。
74.本技术的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
75.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
76.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:s1,从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包,其中,所述数据处理业务用于请求处理目标数据,所述目标工具包用于指示实现所述数据处理业务所用到的数据处理工具;s2,创建每个所述目标工具包对应的初始数据处理容器,得到具有对应关系的目
标工具包和初始容器集合;s3,按照具有对应关系的目标工具包和初始容器集合,将每个所述目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,其中,所述目标容器集合中的每个目标容器上部署了数据处理接口,所述数据处理接口用于对目标格式和每个所述目标工具包对应的异构格式进行转换;s4,按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据。
77.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
78.可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
79.显然,本领域的技术人员应该明白,上述的本技术的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
80.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。

技术特征:


1.一种数据的处理方法,其特征在于,包括:从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包,其中,所述数据处理业务用于请求处理目标数据,所述目标工具包用于指示实现所述数据处理业务所用到的数据处理工具;创建每个所述目标工具包对应的初始数据处理容器,得到具有对应关系的目标工具包和初始容器集合;按照具有对应关系的目标工具包和初始容器集合,将每个所述目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,其中,所述目标容器集合中的每个目标容器上部署了数据处理接口,所述数据处理接口用于对目标格式和每个所述目标工具包对应的异构格式进行转换;按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据。2.根据权利要求1所述的方法,其特征在于,所述创建每个所述目标工具包对应的初始数据处理容器,包括:创建每个所述目标工具包对应的第一配置文件,其中,所述第一配置文件用于指示待为每个所述目标工具包创建的所述初始数据处理容器的属性信息;通过集控制命令在集中执行所述第一配置文件,得到每个所述目标工具包对应的所述初始数据处理容器。3.根据权利要求2所述的方法,其特征在于,所述创建每个所述目标工具包对应的第一配置文件,包括:创建每个所述目标工具包对应的第一数据序列化格式yaml文件,其中,所述第一数据序列化格式yaml文件的文件参数包括kind属性为部署deployment,待创建容器的数量,所述目标工具包的名称及所述目标工具包的地址。4.根据权利要求1所述的方法,其特征在于,所述按照具有对应关系的目标工具包和初始容器集合,将每个所述目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,包括:创建每个所述初始数据处理容器对应的第二配置文件,其中,所述第二配置文件用于指示待安装在所述初始数据处理容器中的所述目标工具包的信息以及所述数据处理接口的接口信息;通过集控制命令在每个所述初始数据处理容器中执行所述第二配置文件,得到一个或者多个目标容器集合。5.根据权利要求4所述的方法,其特征在于,所述创建每个所述初始数据处理容器对应的第二配置文件,包括:创建每个所述初始数据处理容器对应的第二yaml文件,其中,所述第二yaml文件的文件参数包括kind属性为服务service,选择器selector为每个所述初始数据处理容器对应的所述目标工具包,以及,所述数据处理接口的接口信息。6.根据权利要求5所述的方法,其特征在于,所述通过集控制命令在每个所述初始数据处理容器中执行所述第二配置文件,包括:根据所述kind属性在每个所述初始数据处理容器中通过构建service对象的方式安装
对应的所述目标工具包,得到参考容器;按照所述数据处理接口的接口信息为所述参考容器部署所述数据处理接口。7.根据权利要求1所述的方法,其特征在于,所述按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据,包括:按照所述数据处理业务的操作顺序依次调用每个所述目标容器集合中进行数据处理;获取每个所述目标容器集合返回的数据处理结果;在所述数据处理结果不属于所述目标数据在所述数据处理业务中的最终处理结果的情况下,将所述数据处理结果发送至所述操作顺序中的下一个所述目标容器集合;在所述数据处理结果属于所述目标数据在所述数据处理业务中的最终处理结果的情况下,存储所述数据处理结果。8.根据权利要求7所述的方法,其特征在于,所述调用每个所述目标容器集合中进行数据处理,包括:创建目标格式的第一调用请求,其中,所述第一调用请求中携带了待处理数据的数据链接;按照负载均衡将所述第一调用请求发送至每个所述目标容器集合中的一个目标容器上的所述数据处理接口;通过所述数据处理接口将所述第一调用请求从所述目标格式转换为对应的所述异构格式的第二调用请求;从所述第二调用请求中获取所述数据链接;按照所述数据链接将所述待处理数据加载至所述一个目标容器中进行处理。9.根据权利要求1至8中任一项所述的方法,其特征在于,在所述从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包之前,所述方法还包括:生成多个异构的数据处理工具中每个数据处理工具的工具镜像,得到多个异构的所述数据处理工具包;为每个所述数据处理工具包创建对应的微服务模块,其中,所述微服务模块用于调用每个所述数据处理工具包。10.根据权利要求1至8中任一项所述的方法,其特征在于,在所述按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据之后,所述方法还包括:销毁一个或者多个所述目标容器集合;释放一个或者多个所述目标容器集合所占用的存储资源和算力资源。11.一种数据的处理装置,其特征在于,包括:获取模块,用于从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包,其中,所述数据处理业务用于请求处理目标数据,所述目标工具包用于指示实现所述数据处理业务所用到的数据处理工具;第一创建模块,用于创建每个所述目标工具包对应的初始数据处理容器,得到具有对应关系的目标工具包和初始容器集合;安装模块,用于按照具有对应关系的目标工具包和初始容器集合,将每个所述目标工
具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合,其中,所述目标容器集合中的每个目标容器上部署了数据处理接口,所述数据处理接口用于对目标格式和每个所述目标工具包对应的异构格式进行转换;调度模块,用于按照所述数据处理业务通过所述数据处理接口调度一个或者多个所述目标容器集合处理所述目标数据。12.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至10中任一项所述的方法。13.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至10中任一项所述的方法。

技术总结


本申请公开了一种数据的处理方法和装置、存储介质及电子装置,该数据的处理方法包括:从多个异构的数据处理工具包中获取接收到的数据处理业务所对应的一个或者多个目标工具包;创建每个目标工具包对应的初始数据处理容器,得到具有对应关系的目标工具包和初始容器集合;按照具有对应关系的目标工具包和初始容器集合,将每个目标工具包安装至对应的初始数据处理容器中,得到一个或者多个目标容器集合;按照数据处理业务通过数据处理接口调度一个或者多个目标容器集合处理目标数据,采用上述技术方案,解决了相关技术中,数据的处理的效率较低等问题。效率较低等问题。效率较低等问题。


技术研发人员:

王明明 陈立燚 朱子凌 李俊良 杨冶 黄登 郑杨韬 王鹏博 王国彦 王怡

受保护的技术使用者:

福瑞泰克智能系统有限公司

技术研发日:

2022.11.21

技术公布日:

2022/12/19

本文发布于:2024-09-25 01:17:36,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/41065.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   数据处理   目标   容器
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议