数据管理方法和装置、存储介质与流程

1.本公开涉及通信领域，特别涉及一种数据管理方法和装置、存储介质。

背景技术：

2.目前，企业采用的企业信息系统种类较多，这增加了企业数字化架构复杂度。此外，随着多云环境的出现，硬件基础设施从it时代的服务器演变成数字化时代的“云”，多数企业选取多云策略，多云的使用可以让企业信息架构更灵活，但同时也让企业信息架构更为复杂，底层数据的互联互通成为困扰企业发展的痛点。在大数据技术的大力发展下，信息系统中的数据实现了统一汇聚及存储，但数据量的不断增加，导致数据存储越来越多，各种数据融合在一起，没有规则的存储方式无法支撑数据的快速定位，无法有效且快速的提取目标数据，无法很好地支撑企业经营决策，也无法很好的应对快速变化的前端业务。
3.目前，现有的研发数据存储方式大多采用数据仓库，通过数据采集将各个业务子系统汇聚到统一数据仓库中，按照分层结构进行存储。

技术实现要素：

4.发明人注意到，现有的存储方案对数据的支持性相对较弱，大多是汇聚结构化数据类型，且无法以业务导向自动化构建业务域存储结构，无法支撑企业形成一套完整的研发数据资产目录，对下游数据开发人员业务能力要求较高，维护成本高，数据开发应用成效及效率较低，复用能力弱，有大量的重复性工作。
5.据此，本公开提供一种数据管理方案，通过根据与预定业务属性相关联的存储层级和业务域确定业务数据在分布式大数据存储节点中的数据存储位置，从而实现业务数据的分层分域存储，由此可有效提升研发数据访问效率及精确度，帮助企业构建数据资产目录，提高数据的应用价值，为企业经营决策提供数据支撑。
6.根据本公开实施例的第一方面，提供一种数据管理方法，由数据管理装置执行，包括：与预定数据源建立连接；根据与预定业务属性相关联的存储层级和业务域确定业务数据在分布式大数据存储节点中的第一数据存储位置；从所述数据源采集元数据；根据所述元数据从所述数据源采集业务数据；将所采集的业务数据存储到第一数据存储位置。
7.在一些实施例中，将所采集的业务数据存储到第一数据存储位置包括：判断第一数据存储位置中的用于存储业务数据的第一数据存储目录是否存在；若所述第一数据存储目录存在，则将所采集的业务数据存储到所述第一数据存储目录中。
8.在一些实施例中，若所述第一数据存储目录不存在，则创建所述第一数据存储目录；将所采集的业务数据存储到所述第一数据存储目录中。
9.在一些实施例中，从所述数据源采集元数据包括：从所述数据源获取元数据；判断所获取的元数据是否完整；若所获取的元数据不完整，则从所述数据源进行元数据补录，以便获得完整的元数据。
10.在一些实施例中，从所述分布式大数据存储节点中提取与预定业务相关联的业务
数据；对提取的业务数据进行数据清洗和聚合处理，以得到聚合数据；根据与预定业务属性相关联的存储层级和业务域确定聚合数据在分布式大数据存储节点中的第二数据存储位置；将聚合数据存储到所述第二数据存储位置。
11.在一些实施例中，将聚合数据存储到所述第二数据存储位置包括：判断第二数据存储位置中的用于存储聚合数据的第二数据存储目录是否存在；若所述第二数据存储目录存在，则将聚合数据存储到所述第二数据存储目录中。
12.在一些实施例中，若所述第二数据存储目录不存在，则创建所述第二数据存储目录；将聚合数据存储到所述第二数据存储目录中。
13.在一些实施例中，所述存储层级包括贴源层、加载层和应用层中的至少一项。
14.根据本公开实施例的第二方面，提供一种数据管理装置，包括：第一处理模块，被配置为与预定数据源建立连接，根据与预定业务属性相关联的存储层级和业务域确定业务数据在分布式大数据存储节点中的第一数据存储位置，从所述数据源采集元数据，根据所述元数据从所述数据源采集业务数据；第二处理模块，被配置为将所采集的业务数据存储到第一数据存储位置。
15.在一些实施例中，第二处理模块被配置为判断第一数据存储位置中的用于存储业务数据的第一数据存储目录是否存在，若所述第一数据存储目录存在，则将所采集的业务数据存储到所述第一数据存储目录中。
16.在一些实施例中，第二处理模块被配置为若所述第一数据存储目录不存在，则创建所述第一数据存储目录，将所采集的业务数据存储到所述第一数据存储目录中。
17.在一些实施例中，第一处理模块被配置为从所述数据源获取元数据，判断所获取的元数据是否完整，若所获取的元数据不完整，则从所述数据源进行元数据补录，以便获得完整的元数据。
18.在一些实施例中，上述装置还包括第三处理模块，其中：第三处理模块，被配置为从所述分布式大数据存储节点中提取与预定业务相关联的业务数据，对提取的业务数据进行数据清洗和聚合处理，以得到聚合数据，根据与预定业务属性相关联的存储层级和业务域确定聚合数据在分布式大数据存储节点中的第二数据存储位置；第二处理模块被配置为将聚合数据存储到所述第二数据存储位置。
19.在一些实施例中，第二处理模块被配置为判断第二数据存储位置中的用于存储聚合数据的第二数据存储目录是否存在，若所述第二数据存储目录存在，则将聚合数据存储到所述第二数据存储目录中。
20.在一些实施例中，第二处理模块被配置为若所述第二数据存储目录不存在，则创建所述第二数据存储目录，将聚合数据存储到所述第二数据存储目录中。
21.在一些实施例中，所述存储层级包括贴源层、加载层和应用层中的至少一项。
22.根据本公开实施例的第三方面，提供一种数据管理装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。
23.根据本公开实施例的第四方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例所述的方法。
24.通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其
优点将会变得清楚。
附图说明
25.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
26.图1为本公开一个实施例的数据管理方法的流程示意图；
27.图2为本公开另一个实施例的数据管理方法的流程示意图；
28.图3为本公开一个实施例的数据管理装置的结构示意图；
29.图4为本公开另一个实施例的数据管理装置的结构示意图；
30.图5为本公开又一个实施例的数据管理装置的结构示意图；
31.图6为本公开一个实施例的数据存储示意图。
具体实施方式
32.下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
33.除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
34.同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
35.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。
36.在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。
37.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
38.图1为本公开一个实施例的数据管理方法的流程示意图。在一些实施例中，下列的数据管理方法由数据管理装置执行。
39.在步骤101，与预定数据源建立连接。
40.在一些实施例中，对于结构化数据，数据源包含但不限于mysql、sqlserver、oracle等数据库，配置连接参数包括数据源类型、连接地址、访问许可、更新频率等，测试连接效果以确定数据源连接正常。对于非结构化数据，通过设定ftp(file transfer protocol，文件传输协议)/sftp(secure file transfer protocol，安全文件传输协议)地址，定义登录用户名、密码，以确认数据源连接正常。
41.在步骤102，根据与预定业务属性相关联的存储层级和业务域确定业务数据在分
布式大数据存储节点中的第一数据存储位置。
42.在一些实施例中，业务数据存储位置包括相应的存储目录。
43.在一些实施例中，存储层级包括贴源层、加载层和应用层中的至少一项。
44.在步骤103，从数据源采集元数据。
45.在一些实施例中，从数据源获取元数据，并判断所获取的元数据是否完整，若所获取的元数据不完整，则从数据源进行元数据补录，以便获得完整的元数据，从而提升信息描述的精确性。
46.在步骤104，根据元数据从数据源采集业务数据。
47.在一些实施例中，若业务数据为结构化数据，则利用元数据对数据源中的数据字段进行映射，以便从数据源采集业务数据。
48.此外，若业务数据为非结构化数据，则根据元数据定义的ftp或sftp地址从数据源采集业务数据。
49.在步骤105，将所采集的业务数据存储到第一数据存储位置。
50.在一些实施例中，在将所采集的业务数据存储到第一数据存储位置的过程中，判断第一数据存储位置中的用于存储业务数据的第一数据存储目录是否存在。若第一数据存储目录存在，则将所采集的业务数据存储到第一数据存储目录中。
51.若第一数据存储目录不存在，则创建第一数据存储目录，将所采集的业务数据存储到第一数据存储目录中。
52.例如，第一数据存储位置为h盘的a目录中的a1目录，若该a1目录存在，则直接将业务数据存储存入该a1目录。若a目录中并不存在a1目录，则在创建a1目录后，将业务数据存储存入该a1目录。
53.在一些实施例中，第一数据存储位置可位于分布式大数据存储节点中的贴源层、加载层和应用层中的至少一项。
54.图2为本公开另一个实施例的数据管理方法的流程示意图。在一些实施例中，下列的数据管理方法由数据管理装置执行。
55.在步骤201，从分布式大数据存储节点中提取与预定业务相关联的业务数据。
56.在步骤202，对提取的业务数据进行数据清洗和聚合处理，以得到聚合数据。
57.例如，数据清洗包括去除格式错误的数据、重复数据、空值数据、超过预设范围的数据等，以便提升业务数据的有效性。聚合处理包括将提取的业务数据进行合并，以便减小存储空间，提升查询效率。
58.在步骤203，根据与预定业务属性相关联的存储层级和业务域确定聚合数据在分布式大数据存储节点中的第二数据存储位置。
59.在一些实施例中，存储层级包括贴源层、加载层和应用层中的至少一项。
60.在步骤204，将聚合数据存储到第二数据存储位置。
61.在一些实施例中，在将聚合数据存储到第二数据存储位置的过程中，判断第二数据存储位置中的用于存储聚合数据的第二数据存储目录是否存在，若第二数据存储目录存在，则将聚合数据存储到第二数据存储目录中。
62.若第二数据存储目录不存在，则创建第二数据存储目录，将聚合数据存储到第二数据存储目录中。
63.例如，第二数据存储位置为h盘的b目录中的b1目录，若该b1目录存在，则直接将聚合数据存储存入该b1目录。若b目录中并不存在b1目录，则在创建b1目录后，将聚合数据存储存入该b1目录。
64.在一些实施例中，第二数据存储位置可位于分布式大数据存储节点中的贴源层、加载层和应用层中的至少一项。
65.图3为本公开一个实施例的数据管理装置的结构示意图。如图3所示，数据管理装置包括第一处理模块31和第二处理模块32。
66.第一处理模块31被配置为与预定数据源建立连接，根据与预定业务属性相关联的存储层级和业务域确定业务数据在分布式大数据存储节点中的第一数据存储位置，从数据源采集元数据，根据元数据从数据源采集业务数据。
67.在一些实施例中，业务数据存储位置包括相应的存储目录。
68.在一些实施例中，存储层级包括贴源层、加载层和应用层中的至少一项。
69.在一些实施例中，第一处理模块31从数据源获取元数据，并判断所获取的元数据是否完整，若所获取的元数据不完整，则从数据源进行元数据补录，以便获得完整的元数据，从而提升信息描述的精确性。
70.在一些实施例中，若业务数据为结构化数据，则第一处理模块31利用元数据对数据源中的数据字段进行映射，以便从数据源采集业务数据。
71.此外，若业务数据为非结构化数据，则第一处理模块31根据元数据定义的ftp或sftp地址从数据源采集业务数据。
72.第二处理模块32被配置为将所采集的业务数据存储到第一数据存储位置。
73.在一些实施例中，第二处理模块32判断第一数据存储位置中的用于存储业务数据的第一数据存储目录是否存在，若第一数据存储目录存在，则将所采集的业务数据存储到第一数据存储目录中。
74.此外，第二处理模块32在第一数据存储目录不存在时，创建第一数据存储目录，将所采集的业务数据存储到第一数据存储目录中。
75.在一些实施例中，第一数据存储位置可位于分布式大数据存储节点中的贴源层、加载层和应用层中的至少一项。
76.图4为本公开另一个实施例的数据管理装置的结构示意图。图4与图3的不同之处在于，在图4所示实施例中，数据管理装置还包括第三处理模块33。
77.第三处理模块33被配置为从分布式大数据存储节点中提取与预定业务相关联的业务数据，对提取的业务数据进行数据清洗和聚合处理，以得到聚合数据，根据与预定业务属性相关联的存储层级和业务域确定聚合数据在分布式大数据存储节点中的第二数据存储位置。
78.例如，数据清洗包括去除格式错误的数据、重复数据、空值数据、超过预设范围的数据等，以便提升业务数据的有效性。聚合处理包括将提取的业务数据进行合并，以便减小存储空间，提升查询效率。
79.在一些实施例中，存储层级包括贴源层、加载层和应用层中的至少一项。
80.第二处理模块32被配置为将聚合数据存储到第二数据存储位置。
81.在一些实施例中，第二处理模块32判断第二数据存储位置中的用于存储聚合数据
的第二数据存储目录是否存在，若第二数据存储目录存在，则将聚合数据存储到第二数据存储目录中。
82.此外，第二处理模块32被配置为若第二数据存储目录不存在，则创建第二数据存储目录，将聚合数据存储到第二数据存储目录中。
83.在一些实施例中，第二数据存储位置可位于分布式大数据存储节点中的贴源层、加载层和应用层中的至少一项。
84.图5为本公开又一个实施例的数据管理装置的结构示意图。如图5所示，数据管理装置包括存储器51和处理器52。
85.存储器51用于存储指令，处理器52耦合到存储器51，处理器52被配置为基于存储器存储的指令执行实现如图1或图2中任一实施例涉及的方法。
86.如图5所示，该数据管理装置还包括通信接口53，用于与其它设备进行信息交互。同时，该数据管理装置还包括总线54，处理器52、通信接口53、以及存储器51通过总线54完成相互间的通信。
87.存储器51可以包含高速ram存储器，也可还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器51也可以是存储器阵列。存储器51还可能被分块，并且块可按一定的规则组合成虚拟卷。
88.此外，处理器52可以是一个中央处理器cpu，或者可以是专用集成电路asic，或是被配置成实施本公开实施例的一个或多个集成电路。
89.本公开同时还涉及一种计算机可读存储介质，其中计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图1或图2中任一实施例涉及的方法。
90.图6为本公开一个实施例的数据存储示意图。
91.如图6所示，在管理管理装置61中，第一处理模块611从外部数据源62采集业务数据，并根据与预定业务属性相关联的存储层级和业务域确定业务数据在分布式大数据存储节点63中的第一数据存储位置。第二处理模块612将业务数据存储到存储节点63中的第一数据存储位置。第一数据存储位置包括贴源层、加载层和应用层中的至少一项。
92.此外，在管理管理装置61中，第三处理模块613从分布式大数据存储节点63中提取与预定业务相关联的业务数据，对提取的业务数据进行数据清洗和聚合处理，以得到聚合数据，并根据与预定业务属性相关联的存储层级和业务域确定聚合数据在分布式大数据存储节点63中的第二数据存储位置。第二处理模块612将聚合数据存储到存储节点63中的第二数据存储位置。第二数据存储位置包括贴源层、加载层和应用层中的至少一项。
93.通过实施本公开的上述实施例，能够实现数据的分层存储，由此既可以统一数据口径，又可减少重复开发工作，进一步提升研发数据访问效率及精确度，帮助企业构建数据资产目录，提高数据的应用价值，为企业经营决策提供数据支撑。
94.在一些实施例中，在上面所描述的功能单元可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(programmable logic controller，简称：plc)、数字信号处理器(digital signal processor，简称：dsp)、专用集成电路(application specific integrated circuit，简称：asic)、现场可编程门阵列(field-programmable gate array，简称：fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
95.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
96.本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

技术特征：

1.一种数据管理方法，由数据管理装置执行，包括：与预定数据源建立连接；根据与预定业务属性相关联的存储层级和业务域确定业务数据在分布式大数据存储节点中的第一数据存储位置；从所述数据源采集元数据；根据所述元数据从所述数据源采集业务数据；将所采集的业务数据存储到第一数据存储位置。2.根据权利要求1所述的方法，其中，将所采集的业务数据存储到第一数据存储位置包括：判断第一数据存储位置中的用于存储业务数据的第一数据存储目录是否存在；若所述第一数据存储目录存在，则将所采集的业务数据存储到所述第一数据存储目录中。3.根据权利要求2所述的方法，还包括：若所述第一数据存储目录不存在，则创建所述第一数据存储目录；将所采集的业务数据存储到所述第一数据存储目录中。4.根据权利要求1所述的方法，其中，从所述数据源采集元数据包括：从所述数据源获取元数据；判断所获取的元数据是否完整；若所获取的元数据不完整，则从所述数据源进行元数据补录，以便获得完整的元数据。5.根据权利要求1-4中任一项所述的方法，还包括：从所述分布式大数据存储节点中提取与预定业务相关联的业务数据；对提取的业务数据进行数据清洗和聚合处理，以得到聚合数据；根据与预定业务属性相关联的存储层级和业务域确定聚合数据在分布式大数据存储节点中的第二数据存储位置；将聚合数据存储到所述第二数据存储位置。6.根据权利要求5所述的方法，其中，将聚合数据存储到所述第二数据存储位置包括：判断第二数据存储位置中的用于存储聚合数据的第二数据存储目录是否存在；若所述第二数据存储目录存在，则将聚合数据存储到所述第二数据存储目录中。7.根据权利要求6所述的方法，还包括：若所述第二数据存储目录不存在，则创建所述第二数据存储目录；将聚合数据存储到所述第二数据存储目录中。8.根据权利要求5所述的方法，其中，所述存储层级包括贴源层、加载层和应用层中的至少一项。9.一种数据管理装置，包括：第一处理模块，被配置为与预定数据源建立连接，根据与预定业务属性相关联的存储层级和业务域确定业务数据在分布式大数据存储节点中的第一数据存储位置，从所述数据源采集元数据，根据所述元数据从所述数据源采集业务数据；第二处理模块，被配置为将所采集的业务数据存储到第一数据存储位置。10.根据权利要求9所述的装置，其中，
第二处理模块被配置为判断第一数据存储位置中的用于存储业务数据的第一数据存储目录是否存在，若所述第一数据存储目录存在，则将所采集的业务数据存储到所述第一数据存储目录中。11.根据权利要求10所述的装置，其中，第二处理模块被配置为若所述第一数据存储目录不存在，则创建所述第一数据存储目录，将所采集的业务数据存储到所述第一数据存储目录中。12.根据权利要求9所述的装置，其中，第一处理模块被配置为从所述数据源获取元数据，判断所获取的元数据是否完整，若所获取的元数据不完整，则从所述数据源进行元数据补录，以便获得完整的元数据。13.根据权利要求9-12中任一项所述的装置，还包括第三处理模块，其中：第三处理模块，被配置为从所述分布式大数据存储节点中提取与预定业务相关联的业务数据，对提取的业务数据进行数据清洗和聚合处理，以得到聚合数据，根据与预定业务属性相关联的存储层级和业务域确定聚合数据在分布式大数据存储节点中的第二数据存储位置；第二处理模块被配置为将聚合数据存储到所述第二数据存储位置。14.根据权利要求13所述的装置，其中，第二处理模块被配置为判断第二数据存储位置中的用于存储聚合数据的第二数据存储目录是否存在，若所述第二数据存储目录存在，则将聚合数据存储到所述第二数据存储目录中。15.根据权利要求14所述的装置，其中，第二处理模块被配置为若所述第二数据存储目录不存在，则创建所述第二数据存储目录，将聚合数据存储到所述第二数据存储目录中。16.根据权利要求13所述的装置，其中，所述存储层级包括贴源层、加载层和应用层中的至少一项。17.一种数据管理装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-8中任一项所述的方法。18.一种非瞬态计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如权利要求1-8中任一项所述的方法。

技术总结

本公开提供一种数据管理方法和装置、存储介质，涉及数据存储领域。数据管理方法包括：与预定数据源建立连接；根据与预定业务属性相关联的存储层级和业务域确定业务数据在分布式大数据存储节点中的第一数据存储位置；从数据源采集元数据；根据元数据从数据源采集业务数据；将所采集的业务数据存储到第一数据存储位置。置。置。