数据库集管理方法、装置及系统与流程



1.本技术涉及数据库管理技术领域,尤其涉及一种数据库集管理方法、装置及系统。


背景技术:



2.大数据时代,数据库集已经成为数据存储的必要基础设施。互联网公司会采用数据库集来存储企业的海量数据。数据库集包括提供对外读写服务的主库(master)和只对外提供读服务的若干从库(slave)。每一从库通过不断地从主库读取并更新数据,以此来保证从库与主库的数据一致性。
3.为了让数据库集能够更好地运作,相关技术中会搭配数据库集管理服务来监控管理数据库集,数据库集管理服务通过对数据库实例的故障探测来保证数据库集的正常运作。但由于数据库集管理服务对数据库实例的故障探测路径单一,容易产生误报,导致数据库集的可靠性及安全性无法得到有效保障。


技术实现要素:



4.为解决或者部分解决相关技术中存在的问题,本技术提供一种数据库集管理方法、装置及系统,能够保障数据库集的可靠性及安全性。
5.本技术的第一方面提供了一种数据库集管理方法,包括:
6.利用所述领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测;
7.在探测结果符合第一预设条件时,确定所述数据库集中数据库实例对应的所述上游数据库发生故障;或,
8.在探测结果符合第二预设条件时,确定所述数据库集中数据库实例对应的网络发生故障或者交换机端口故障;或,
9.在探测结果符合第三预设条件时,确定所述数据库集中数据库实例对应的交换机发生故障。
10.优选的,所述利用所述领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测之前,还包括:
11.对配置的数据库集的管理服务实例进行检测,其中所述管理服务实例包括领导管理服务实例和候选管理服务实例,其中所述领导管理服务实例用于对数据库集进行监控管理;
12.在检测到所述领导管理服务实例出现故障时,选取所述候选管理服务实例替换所述领导管理服务实例。
13.优选的,所述利用所述领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测,包括:
14.利用所述领导管理服务实例对数据库集中数据库实例对应的上游数据库进行
探测,在探测异常后再对数据库实例对应的下游数据库进行探测。
15.优选的,第一预设条件包括:在所述领导管理服务实例与数据库实例对应的所述上游数据库连接异常的情况下,所述领导管理服务实例与数据库实例对应的所述下游数据库连接正常以及数据库实例对应的所述上游数据库分别与数据库实例对应的各所述下游数据库连接异常。
16.优选的,所述第二预设条件包括:在所述领导管理服务实例与数据库实例对应的所述上游数据库连接异常的情况下,所述领导管理服务实例与数据库实例对应的所述下游数据库连接正常以及数据库实例对应的所述上游数据库与至少一个数据库实例对应的所述下游数据库连接正常。
17.优选的,所述第三预设条件包括:在所述领导管理服务实例与数据库实例对应的所述上游数据库连接异常的情况下,所述领导管理服务实例分别与数据库实例对应的各所述下游数据库连接异常。
18.优选的,还包括:根据故障类型对数据库集中数据库实例进行相应的故障修复;
19.当确定所述数据库集中数据库实例对应的所述上游数据库发生故障时,该方法还包括:选取其中一个数据库实例对应的所述下游数据库替换数据库实例对应的所述上游数据库并更新所述数据库集对的复制拓扑关系进行故障修复;
20.当确定所述数据库集中数据库实例对应的所述网络发生故障或者所述交换机端口故障时,该方法还包括:对数据库实例对应的所述网络或者所述交换机端口进行故障修复;
21.当确定所述数据库集中数据库实例对应的所述交换机发生故障时,该方法还包括:对数据库实例对应的所述交换机进行故障修复。
22.本技术的第二方面提供了一种数据库集管理装置,包括:
23.探测模块,利用所述领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测;
24.在探测结果符合第一预设条件时,确定所述数据库集中数据库实例对应的所述上游数据库发生故障;或,
25.在探测结果符合第二预设条件时,确定所述数据库集中数据库实例对应的网络发生故障或者交换机端口故障;或,
26.在探测结果符合第三预设条件时,确定所述数据库集中数据库实例对应的交换机发生故障。
27.优选的,还包括:
28.检测模块,用于对配置的数据库集的管理服务实例进行检测,其中所述管理服务实例包括领导管理服务实例和候选管理服务实例,其中所述领导管理服务实例用于对数据库集进行监控管理;
29.选举模块,用于在检测到所述领导管理服务实例出现故障时,选取所述候选管理服务实例替换所述领导管理服务实例。
30.本技术的第三方面提供了一种数据库集管理系统,包括:数据库集管理服务端、数据库集;
31.所述数据库集管理服务端,用于利用所述领导管理服务实例对所述数据库集
中数据库实例对应的上游数据库和下游数据库进行探测;在探测结果符合第一预设条件时,确定所述数据库集中数据库实例对应的所述上游数据库发生故障;或,在探测结果符合第二预设条件时,确定所述数据库集中数据库实例对应的网络发生故障或者交换机端口故障;或,在探测结果符合第三预设条件时,确定所述数据库集中数据库实例对应的交换机发生故障。
32.本技术的第三方面提供了一种电子设备,包括:
33.处理器;以及
34.存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的数据库集管理方法。
35.本技术的第四方面提供了一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的数据库集管理方法。
36.本技术提供的技术方案可以包括以下有益效果:
37.本技术的技术方案,包括:利用领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测;在探测结果符合第一预设条件时,确定数据库集中数据库实例对应的上游数据库发生故障;或,在探测结果符合第二预设条件时,确定数据库集中数据库实例对应的网络发生故障或者交换机端口故障;或,在探测结果符合第三预设条件时,确定数据库集中数据库实例对应的交换机发生故障。采用多路径的探测方式能够很好地防止因探测路径单一而出现误判的问题,大大提高对数据库集监控管理的可靠性和安全性。
38.进一步的,本技术的技术方案对配置的数据库集的管理服务实例进行检测,其中管理服务实例包括领导管理服务实例和候选管理服务实例,其中领导管理服务实例用于对数据库集进行监控管理;在检测到领导管理服务实例出现故障时,选取候选管理服务实例替换领导管理服务实例。本技术当领导管理服务实例出现故障时,会选取其中一个候选管理服务实例作为新的领导管理服务实例来对数据库集进行监控管理,能够保障数据库集的高可用性。
39.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
40.通过结合附图对本技术示例性实施方式进行更详细的描述,本技术的上述以及其它目的、特征和优势将变得更加明显,其中,在本技术示例性实施方式中,相同的参考标号通常代表相同部件。
41.图1是本技术实施例示出的数据库集管理方法的流程示意图;
42.图2是本技术另一实施例示出的一种数据库集管理方法的流程示意图;
43.图3是本技术另一实施例示出的一种数据库集管理方法的流程示意图;
44.图4是本技术实施例示出的多路径探测的流程框图;
45.图5是本技术实施例示出的数据库的整体架构结构示意图;
46.图6本技术实施例示出的数据库集管理装置的结构示意图;
47.图7本技术另一实施例示出的数据库集管理装置的结构示意图;
48.图8本技术另一实施例示出的数据库集管理装置的结构示意图;
49.图9本技术实施例示出的数据库集管理系统的结构示意图;
50.图10本技术实施例示出的电子设备的结构示意图。
具体实施方式
51.下面将参照附图更详细地描述本技术的优选实施方式。虽然附图中显示了本技术的优选实施方式,然而应该理解,可以以各种形式实现本技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本技术更加透彻和完整,并且能够将本技术的范围完整地传达给本领域的技术人员。
52.在本技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
53.应当理解,尽管在本技术可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
54.在本技术的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。
55.除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本技术中的具体含义。
56.相关技术中由于数据库集管理服务对数据库实例的故障探测路径单一,容易产生误报,导致数据库集的可靠性及安全性无法得到有效保障。
57.因此,针对上述技术问题,本技术提供了一种数据库集管理方法、装置、设备及存储介质,能够保障数据库集的可靠性及安全性。
58.以下结合附图详细描述本技术实施例的技术方案。
59.图1示出了本技术实施例中的一种数据库集管理方法的流程示意图。
60.请参阅图1,一种数据库集管理方法,包括如下步骤:
61.步骤s11、利用领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测。
62.领导管理服务实例的主要功能包括:1)持续地对数据库集进行探活,获取数据库集中所有数据库实例的基础信息,包括但不限于:数据库实例id、ip/主机名、端口、日志复制数据、角、状态(运行状态、复制状态等)、当前数据库实例对应的上游数据库、下游数据库等;2)持续地对数据库集进行故障检测。
63.优选的,利用领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测时,采用的方式是:利用领导管理服务实例对数据库集中数据库实例对应的上游数据库进行探测,在探测异常后再对数据库实例对应的下游数据库进行探测。
64.上游数据库(upstreamdb):数据复制的源端数据库,向其下游数据库实例提供数据。下游数据库(downstream db):数据复制的目标端数据库,从其上游数据库实例获取数据。
65.在探测结果符合第一预设条件时,确定数据库集中数据库实例对应的上游数据库发生故障,其中,第一预设条件包括:在领导管理服务实例与数据库实例对应的上游数据库连接异常的情况下,领导管理服务实例与数据库实例对应的下游数据库连接正常以及数据库实例对应的上游数据库分别与数据库实例对应的各下游数据库连接异常。
66.在探测结果符合第二预设条件时,确定数据库集中数据库实例对应的网络发生故障或者交换机端口故障,其中,第二预设条件包括:在领导管理服务实例与数据库实例对应的上游数据库连接异常的情况下,领导管理服务实例与数据库实例对应的下游数据库连接正常以及数据库实例对应的上游数据库与至少一个数据库实例对应的下游数据库连接正常。
67.在探测结果符合第三预设条件时,确定数据库集中数据库实例对应的交换机发生故障,其中,第三预设条件包括:在领导管理服务实例与数据库实例对应的上游数据库连接异常的情况下,领导管理服务实例分别与数据库实例对应的各下游数据库连接异常。
68.如此,根据领导管理服务实例与数据库实例对应的上游数据库的连接情况、领导管理服务实例与数据库实例对应的下游数据库的连接情况以及数据库实例对应的上游数据库分别与数据库实例对应的各下游数据库的连接情况来判断数据库集的故障原因。采用多路径的探测方式能够很好地防止因探测路径单一而出现误判的问题,大大提高对数据库集监控管理的可靠性和安全性。
69.图2示出了本技术另一实施例中的一种数据库集管理方法的流程示意图。
70.请参阅图2,一种数据库集管理方法,包括如下步骤:
71.步骤s21、对配置的数据库集的管理服务实例进行检测,其中管理服务实例包括领导管理服务实例和候选管理服务实例,其中领导管理服务实例用于对数据库集进行监控管理。
72.需要说明的是,数据库集高可用管理服务(db ham service)配置有至少两个管理服务实例,其中一个管理服务实例被配置为领导管理服务实例,其余管理服务实例被配置为候选管理服务实例,管理服务实例之间采用一致性协议。领导管理服务实例负责对数据库集进行监控管理,例如对数据库集进行故障检测、故障修复等。而其余管理服务实例则是当领导管理服务实例发生故障时,作为替换领导管理服务实例的“候选对象”。
73.还需要说明的是,为了让监控管理更加符合业务视角以及数据安全性的原因,数
据库集高可用管理服务所处的网络会与数据库集所在的网络相互分开。例如,将数据库集高可用管理服务部署在管理外网,而将数据库集部署在数据内网。当然,也可以将数据库集高可用管理服务和数据库集部署在同一网络(即管理、业务、数据三合一)。
74.还需要说明的是,一致性协议是保证同一时刻内有且仅有一个管理服务实例能够对数据库集进行监控管理。常用的一致性协议包括paxos协议、raft协议等。本实施中,对于一致性协议,只要求实现领导选举部分,对于管理服务实例的数据复制或者数据一致性方面,不做强制性要求。即对于领导管理服务实例与候选管理服务实例而言,若要保持这两者之间的数据一致性,可以采用如下两种方式实现:
75.1)通过领导管理服务实例向候选管理服务实例进行数据复制来实现数据一致性,而候选管理服务实例不会自动获取数据库集的实例数据;
76.2)领导管理服务实例和候选管理服务实例相互独立,自动获取获取数据库集的实例数据,领导管理服务实例和候选管理服务实例的数据在同一时刻中可能会出现不一致的情况,但在数据库集稳定的情况下,领导管理服务实例和候选管理服务实例的最终数据是一致的。
77.步骤s22、在检测到领导管理服务实例出现故障时,选取候选管理服务实例替换领导管理服务实例。
78.需要说明的是,实时对领导管理服务实例进行实时故障检测,若领导管理服务实例出现故障(例如发生宕机问题),将会从其余的候选管理服务实例中选取一个作为新的领导管理服务实例,以此来对数据库集进行监控管理,使得数据库集能够对外提供服务,保障数据库集的高可用性。
79.步骤s23、利用领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测。
80.领导管理服务实例的主要功能包括:1)持续地对数据库集进行探活,获取数据库集中所有数据库实例的基础信息,包括但不限于:数据库实例id、ip/主机名、端口、日志复制数据、角、状态(运行状态、复制状态等)、当前数据库实例对应的上游数据库、下游数据库等;2)持续地对数据库集进行故障检测。
81.优选的,利用领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测时,采用的方式是:利用领导管理服务实例对数据库集中数据库实例对应的上游数据库进行探测,在探测异常后再对数据库实例对应的下游数据库进行探测。
82.在探测结果符合第一预设条件时,确定数据库集中数据库实例对应的上游数据库发生故障,其中,第一预设条件包括:领导管理服务实例与数据库实例对应的上游数据库连接异常,且领导管理服务实例与数据库实例对应的下游数据库连接正常以及数据库实例对应的上游数据库分别与数据库实例对应的各下游数据库连接异常。
83.在探测结果符合第二预设条件时,确定数据库集中数据库实例对应的网络发生故障或者交换机端口故障,其中,第二预设条件包括:领导管理服务实例与数据库实例对应的上游数据库连接异常,且领导管理服务实例与数据库实例对应的下游数据库连接正常以及数据库实例对应的上游数据库与至少一个数据库实例对应的下游数据库连接正常。
84.在探测结果符合第三预设条件时,确定数据库集中数据库实例对应的交换机发
生故障,其中,第三预设条件包括:领导管理服务实例与数据库实例对应的上游数据库连接异常,且领导管理服务实例分别与数据库实例对应的各下游数据库连接异常。
85.如此,根据领导管理服务实例与数据库实例对应的上游数据库的连接情况、领导管理服务实例与数据库实例对应的下游数据库的连接情况以及数据库实例对应的上游数据库分别与数据库实例对应的各下游数据库的连接情况来判断数据库集的故障原因。采用多路径的探测方式能够很好地防止因探测路径单一而出现误判的问题,大大提高对数据库集监控管理的可靠性和安全性。
86.图3示出了本技术另一实施例中的一种数据库集管理方法的流程示意图。
87.请参阅图3,一种数据库集管理方法,包括如下步骤:
88.步骤s31、对配置的数据库集的管理服务实例进行检测,其中管理服务实例包括领导管理服务实例和候选管理服务实例,其中领导管理服务实例用于对数据库集进行监控管理。
89.步骤s31请参阅步骤s21中的相关描述,此处不再赘述。
90.步骤s32、在检测到领导管理服务实例出现故障时,选取候选管理服务实例替换领导管理服务实例。
91.步骤s32请参阅步骤s22中的相关描述,此处不再赘述。
92.步骤s33、利用领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测。
93.步骤s33请参阅步骤s23中的相关描述,此处不再赘述。
94.步骤s34、根据故障类型对数据库集中数据库实例进行相应的故障修复。
95.当确定数据库集中数据库实例对应的上游数据库发生故障时(即探测结果符合第一预设条件时),故障修复采用的方式是:选取其中一个数据库实例对应的下游数据库替换数据库实例对应的上游数据库,并更新数据库集对的复制拓扑关系。
96.当确定数据库集中数据库实例对应的网络发生故障或者交换机端口故障时(即探测结果符合第二预设条件时),故障修复采用的方式是:对数据库实例对应的网络或者交换机端口进行故障修复。
97.当确定数据库集中数据库实例对应的交换机发生故障时(即探测结果符合第三预设条件时),故障修复采用的方式是:对数据库实例对应的交换机进行故障修复。
98.如此,根据不同的故障类型对数据库集中数据库实例进行相应的故障修复,保证数据库集中数据库实例能够正常运作。
99.步骤s35、如果进行故障修复失败,则生成携带有故障修复相关信息的告警信息,并将告警信息发送至终端。
100.需要说明的是,若故障修复失败,则会生成携带有故障修复相关信息的告警信息,当终端接收到告警信息时,管理人员可以通过告警信息来确定数据库集是否发生故障以及故障修复是否成功,若故障修复失败,则管理人员需要根据实际情况来决定是否人工干预故障修复。
101.为了更好地理解对数据库集的故障探测的原理,图5示出了数据库的整体架构结构示意图。数据库分为两大板块,一个是部署在管理外网的数据库集高可用管理服务,其配置有至少两个管理服务实例,其中一个管理服务实例设定成领导管理服务实例(即图5
所示的db ham service(1)),其余管理服务实例设定成候选管理服务实例(即图5的db ham service(2)、(3))。另一个则是部署在数据内网的数据库集,数据库集包括多个数据库实例,每一数据库实例均对应有上游数据库(即图5所示的upstream db)和下游数据库(即图5所示的downstream db(1)、(2))。
102.图5所示的路径包括如下:
103.1)探测路径a位于领导管理服务实例与下游数据库之间(即图5所示的db ham service与downstream db(1)之间);
104.2)探测路径b位于领导管理服务实例与上游数据库之间(即图5所示的db ham service与upstream db之间);
105.3)探测路径c位于领导管理服务实例与下游数据库(2)之间(即图5所示的db ham service与downstream db(2)之间);
106.4)探测路径d位于上游数据库与下游数据库(1)之间(即图5所示的upstream db与downstream db(1)之间);
107.5)探测路径e位于上游数据库与下游数据库(2)之间(即图5所示的upstream db与downstream db(2)之间);
108.6)探测路径-1等价于路径b,探测路径-1失败代表:路径b失败;
109.7)探测路径-2等于路径a+路径d,探测路径-2失败代表:路径a成功且路径d失败;
110.8)探测路径-3等价于路径c+路径e,探测路径-3失败代表:路径c成功且路径e失败。
111.其中探测异常通常指的是领导管理服务实例(db ham service)无法与数据库实例建立连接或者无法获取数据库实例的基础数据。
112.当领导管理服务实例对数据库集发起探测时,请参阅图4,图4所示的是本技术实施例中的多路径探测的流程框图,此部分内容对应步骤s33~步骤s35。
113.步骤s411、探测数据库实例对应的上游数据库,进入步骤s412。
114.需要说明的是,领导管理服务实例获取数据库实例对应的上游数据库的基础数据,上游数据库的基础信息包括其对应的下游数据库有哪些以及下游数据库的数据复制状态(数据复制状态包括复制进度、是否正常等)。对数据库实例对应的上游数据库发起探测,即对应探测路径-1。
115.步骤s412、判断领导管理服务实例与上游数据库连接是否正常(即对应图5所示的探测路径-1)。
116.若领导管理服务实例与上游数据库连接正常(即探测路径-1正常),则将获取到的基础数据进行持久化,结束整个探测流程;若领导管理服务实例与上游数据库连接异常(即探测路径-1异常),则进入步骤s413。
117.步骤s413、并行探测上游数据库对应的所有下游数据库,进入步骤s414。
118.需要说明的是,通过获取上游数据库的基础数据,获取到上游数据库其所有的下游数据库实例信息,对这些实例信息发起并行探测(如图5所示的downstream db(1)和downstream db(2))。
119.若领导管理服务实例与数据库实例对应的下游数据库连接正常(即探测路径a和探测路径b均正常)以及数据库实例对应的上游数据库分别与数据库实例对应的各下游数
据库连接异常(即探测路径d和探测路径e异常),确定数据库集中数据库实例对应的上游数据库发生故障。
120.若领导管理服务实例与数据库实例对应的下游数据库连接正常(即探测路径a和探测路径b均正常)以及数据库实例对应的上游数据库与至少一个数据库实例对应的下游数据库连接正常(即探测路径d或者探测路径e正常),确定数据库集中数据库实例对应的网络发生故障或者交换机端口故障。
121.若领导管理服务实例分别与数据库实例对应的各下游数据库连接异常(即探测路径a和探测路径b均异常),确定数据库集中数据库实例对应的交换机发生故障。
122.步骤s414、根据故障类型对进行相应的故障修复,进入步骤s415。
123.当确定数据库集中数据库实例对应的上游数据库发生故障时(对应探测路径-1、探测路径-2以及探测路径-3均异常),故障修复采用的方式是:选取其中一个数据库实例对应的下游数据库替换数据库实例对应的上游数据库,并更新数据库集对的复制拓扑关系。
124.当确定数据库集中数据库实例对应的网络发生故障或者交换机端口故障时(对应探测路径-1异常、探测路径-2或者探测路径-3正常),故障修复采用的方式是:对数据库实例对应的网络或者交换机端口进行故障修复。
125.当确定数据库集中数据库实例对应的交换机发生故障时(对应探测路径a、探测路径b以及探测路径c均异常),故障修复采用的方式是:对数据库实例对应的交换机进行故障修复。
126.步骤s415、如果进行故障修复失败,则生成携带有故障修复相关信息的告警信息,并将告警信息发送至终端。
127.需要说明的是,若故障修复失败,则会生成携带有故障修复相关信息的告警信息,当终端接收到告警信息时,管理人员可以通过告警信息来确定数据库集是否发生故障以及故障修复是否成功,若故障修复失败,则管理人员需要根据实际情况来决定是否人工干预故障修复。
128.通过上述步骤,能够很好地防止因探测路径单一而出现误判的问题,大大提高对数据库集监控管理的可靠性和安全性。
129.与前述的功能方法实施例相对应,本技术提供了一种数据库集管理装置、系统及相应的实施例。
130.图6示出了本技术实施例中的一种数据库集高可用装置的结构示意图。
131.请参阅图6,一种数据库集高可用装置60,包括:探测模块610。。
132.探测模块610用于利用所述领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测;
133.在探测结果符合第一预设条件时,确定所述数据库集中数据库实例对应的所述上游数据库发生故障;或,
134.在探测结果符合第二预设条件时,确定所述数据库集中数据库实例对应的网络发生故障或者交换机端口故障;或,
135.在探测结果符合第三预设条件时,确定所述数据库集中数据库实例对应的交换机发生故障。
136.如此,根据领导管理服务实例与数据库实例对应的上游数据库的连接情况、领导管理服务实例与数据库实例对应的下游数据库的连接情况以及数据库实例对应的上游数据库分别与数据库实例对应的各下游数据库的连接情况来判断数据库集的故障原因。采用多路径的探测方式能够很好地防止因探测路径单一而出现误判的问题,大大提高对数据库集监控管理的可靠性和安全性。
137.图7示出了本技术另一实施例中的一种数据库集高可用装置的结构示意图。
138.请参阅图7,一种数据库集高可用装置60,包括:检测模块620、选举模块630和探测模块610。
139.检测模块620用于对配置的数据库集的管理服务实例进行检测,其中所述管理服务实例包括领导管理服务实例和候选管理服务实例,其中所述领导管理服务实例用于对数据库集进行监控管理。
140.需要说明的是,数据库集高可用管理服务(db ham service)配置有至少两个管理服务实例,其中一个管理服务实例被配置为领导管理服务实例,其余管理服务实例被配置为候选管理服务实例,管理服务实例之间采用一致性协议。领导管理服务实例负责对数据库集进行监控管理,例如对数据库集进行故障检测、故障修复等。而其余管理服务实例则是当领导管理服务实例发生故障时,作为替换领导管理服务实例的“候选对象”141.选举模块630用于在检测到所述领导管理服务实例出现故障时,选取所述候选管理服务实例替换所述领导管理服务实例。
142.需要说明的是,实时对领导管理服务实例进行实时故障检测,若领导管理服务实例出现故障(例如发生宕机问题),将会从其余的候选管理服务实例中选取一个作为新的领导管理服务实例,以此来对数据库集进行监控管理,使得数据库集能够对外提供服务,保障数据库集的高可用性。
143.探测模块610用于利用领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测。
144.优选的,利用领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测时,采用的方式是:利用领导管理服务实例对数据库集中数据库实例对应的上游数据库进行探测,在探测异常后再对数据库实例对应的下游数据库进行探测。
145.在探测结果符合第一预设条件时,确定数据库集中数据库实例对应的上游数据库发生故障,其中,第一预设条件包括:领导管理服务实例与数据库实例对应的上游数据库连接异常,且领导管理服务实例与数据库实例对应的下游数据库连接正常以及数据库实例对应的上游数据库分别与数据库实例对应的各下游数据库连接异常。
146.在探测结果符合第二预设条件时,确定数据库集中数据库实例对应的网络发生故障或者交换机端口故障,其中,第二预设条件包括:领导管理服务实例与数据库实例对应的上游数据库连接异常,且领导管理服务实例与数据库实例对应的下游数据库连接正常以及数据库实例对应的上游数据库与至少一个数据库实例对应的下游数据库连接正常。
147.在探测结果符合第三预设条件时,确定数据库集中数据库实例对应的交换机发生故障,其中,第三预设条件包括:领导管理服务实例与数据库实例对应的上游数据库连接异常,且领导管理服务实例分别与数据库实例对应的各下游数据库连接异常。
148.如此,根据领导管理服务实例与数据库实例对应的上游数据库的连接情况、领导管理服务实例与数据库实例对应的下游数据库的连接情况以及数据库实例对应的上游数据库分别与数据库实例对应的各下游数据库的连接情况来判断数据库集的故障原因。采用多路径的探测方式能够很好地防止因探测路径单一而出现误判的问题,大大提高对数据库集监控管理的可靠性和安全性。
149.图8示出了本技术另一实施例中的一种数据库集高可用装置的结构示意图。
150.请参阅图8,一种数据库集高可用装置60,包括:检测模块620、选举模块630、探测模块610、故障修复模块640和告警模块650。
151.其中检测模块620、选举模块630、探测模块610的功能描述请参阅图7中的相关描述,此处不再赘述。
152.故障修复模块640用于根据故障类型对数据库集中数据库实例进行相应的故障修复。
153.当确定数据库集中数据库实例对应的上游数据库发生故障时(即探测结果符合第一预设条件时),故障修复采用的方式是:选取其中一个数据库实例对应的下游数据库替换数据库实例对应的上游数据库,并更新数据库集对的复制拓扑关系。
154.当确定数据库集中数据库实例对应的网络发生故障或者交换机端口故障时(即探测结果符合第二预设条件时),故障修复采用的方式是:对数据库实例对应的网络或者交换机端口进行故障修复。
155.当确定数据库集中数据库实例对应的交换机发生故障时(即探测结果符合第三预设条件时),故障修复采用的方式是:对数据库实例对应的交换机进行故障修复。
156.告警模块650用于如果进行故障修复失败,则生成携带有故障修复相关信息的告警信息,并将告警信息发送至终端。
157.需要说明的是,若故障修复失败,则会生成携带有故障修复相关信息的告警信息,当终端接收到告警信息时,管理人员可以通过告警信息来确定数据库集是否发生故障以及故障修复是否成功,若故障修复失败,则管理人员需要根据实际情况来决定是否人工干预故障修复。
158.图9示出了本技术实施例中的一种数据库集高可用系统的结构示意图。
159.请参阅图9,一种数据库集管理系统90,包括:数据库集管理服务端910、数据库集920;
160.数据库集管理服务端910,用于利用所述领导管理服务实例对所述数据库集中数据库实例对应的上游数据库和下游数据库进行探测;在探测结果符合第一预设条件时,确定所述数据库集中数据库实例对应的所述上游数据库发生故障;或,在探测结果符合第二预设条件时,确定所述数据库集中数据库实例对应的网络发生故障或者交换机端口故障;或,在探测结果符合第三预设条件时,确定所述数据库集中数据库实例对应的交换机发生故障
161.关于上述实施例中的装置及系统,其中各个模块及单元执行操作的具体方式已经在有关该装置及系统所对应的方法实施例中进行了详细描述,此处将不再做详细阐述说明。
162.请参阅图10,电子设备1000包括处理器1100和存储器1200。
163.处理器1100可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
164.存储器1200可以包括各种类型的存储单元,例如系统内存、只读存储器(rom)和永久存储装置。其中,rom可以存储处理器1100或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1200可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。存储器1200上存储有可执行代码,当可执行代码被处理器1100处理时,可以使处理器1100执行上文述及的方法中的部分或全部。
165.上文中已经参考附图详细描述了本技术的方案。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。本领域技术人员也应该知悉,说明书中所涉及的动作和模块并不一定是本技术所必须的。另外,可以理解,本技术实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,本技术实施例装置中的模块可以根据实际需要进行合并、划分和删减。
166.以上已经描述了本技术的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

技术特征:


1.一种数据库集管理方法,其特征在于,包括:利用领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测;在探测结果符合第一预设条件时,确定所述数据库集中数据库实例对应的所述上游数据库发生故障;或,在探测结果符合第二预设条件时,确定所述数据库集中数据库实例对应的网络发生故障或者交换机端口故障;或,在探测结果符合第三预设条件时,确定所述数据库集中数据库实例对应的交换机发生故障。2.根据权利要求1所述的数据库集管理方法,其特征在于,所述利用领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测之前,还包括:对配置的数据库集的管理服务实例进行检测,其中所述管理服务实例包括领导管理服务实例和候选管理服务实例,其中所述领导管理服务实例用于对数据库集进行监控管理;在检测到所述领导管理服务实例出现故障时,选取所述候选管理服务实例替换所述领导管理服务实例。3.根据权利要求2所述的数据库集管理方法,其特征在于,所述利用所述领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测,包括:利用所述领导管理服务实例对数据库集中数据库实例对应的上游数据库进行探测,在探测异常后再对数据库实例对应的下游数据库进行探测。4.根据权利要求3所述的数据库集管理方法,其特征在于:第一预设条件包括:所述领导管理服务实例与数据库实例对应的所述上游数据库连接异常,且所述领导管理服务实例与数据库实例对应的所述下游数据库连接正常以及数据库实例对应的所述上游数据库分别与数据库实例对应的各所述下游数据库连接异常。5.根据权利要求3所述的数据库集管理方法,其特征在于:所述第二预设条件包括:所述领导管理服务实例与数据库实例对应的所述上游数据库连接异常,且所述领导管理服务实例与数据库实例对应的所述下游数据库连接正常以及数据库实例对应的所述上游数据库与至少一个数据库实例对应的所述下游数据库连接正常。6.根据权利要求3所述的数据库集管理方法,其特征在于:所述第三预设条件包括:所述领导管理服务实例与数据库实例对应的所述上游数据库连接异常,且所述领导管理服务实例分别与数据库实例对应的各所述下游数据库连接异常。7.根据权利要求3所述的数据库集管理方法,其特征在于,还包括:根据故障类型对数据库集中数据库实例进行相应的故障修复;当确定所述数据库集中数据库实例对应的所述上游数据库发生故障时,该方法还包括:选取其中一个数据库实例对应的所述下游数据库替换数据库实例对应的所述上游数据库并更新所述数据库集对的复制拓扑关系进行故障修复;当确定所述数据库集中数据库实例对应的所述网络发生故障或者所述交换机端口故障时,该方法还包括:对数据库实例对应的所述网络或者所述交换机端口进行故障修复;
当确定所述数据库集中数据库实例对应的所述交换机发生故障时,该方法还包括:对数据库实例对应的所述交换机进行故障修复。8.一种数据库集管理装置,其特征在于,包括:探测模块,利用所述领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测;在探测结果符合第一预设条件时,确定所述数据库集中数据库实例对应的所述上游数据库发生故障;或,在探测结果符合第二预设条件时,确定所述数据库集中数据库实例对应的网络发生故障或者交换机端口故障;或,在探测结果符合第三预设条件时,确定所述数据库集中数据库实例对应的交换机发生故障。9.根据权利要求8所述的数据库集管理装置,其特征在于,还包括:检测模块,用于对配置的数据库集的管理服务实例进行检测,其中所述管理服务实例包括领导管理服务实例和候选管理服务实例,其中所述领导管理服务实例用于对数据库集进行监控管理;选举模块,用于在检测到所述领导管理服务实例出现故障时,选取所述候选管理服务实例替换所述领导管理服务实例。10.一种数据库集管理系统,其特征在于,包括:数据库集管理服务端、数据库集;所述数据库集管理服务端,用于利用所述领导管理服务实例对所述数据库集中数据库实例对应的上游数据库和下游数据库进行探测;在探测结果符合第一预设条件时,确定所述数据库集中数据库实例对应的所述上游数据库发生故障;或,在探测结果符合第二预设条件时,确定所述数据库集中数据库实例对应的网络发生故障或者交换机端口故障;或,在探测结果符合第三预设条件时,确定所述数据库集中数据库实例对应的交换机发生故障。11.一种电子设备,其特征在于,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至7中任一项所述的数据库集管理方法。12.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至7中任一项所述的数据库集管理方法。

技术总结


本申请涉及了一种数据库集管理方法、装置及系统。该方法包括:利用领导管理服务实例对数据库集中数据库实例对应的上游数据库和下游数据库进行探测;在探测结果符合第一预设条件时,确定数据库集中数据库实例对应的上游数据库发生故障;或,在探测结果符合第二预设条件时,确定数据库集中数据库实例对应的网络发生故障或者交换机端口故障;或,在探测结果符合第三预设条件时,确定数据库集中数据库实例对应的交换机发生故障。本申请采用多路径的探测方式能够很好地防止因探测路径单一而出现误判的问题,大大提高对数据库集监控管理的可靠性和安全性。监控管理的可靠性和安全性。监控管理的可靠性和安全性。


技术研发人员:

郑南成

受保护的技术使用者:

深信服科技股份有限公司

技术研发日:

2022.09.23

技术公布日:

2022/12/22

本文发布于:2024-09-25 02:23:20,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/45787.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据库   实例   集群   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议