一种服务器健康度评估方法和装置与流程



1.本发明涉及数据处理领域,具体涉及一种服务器健康度评估方法和装置。


背景技术:



2.随着信息化日益普及,企业对信息系统的依赖程度随之增加。服务器作为信息系统基础单元,稳定性和可靠性要求越来越高,服务器运行状态会影响信息系统运行状态,甚至导致业务系统失败。针对服务器进行监控、维护管理的需求随之而来,服务器健康状态重要性不言而喻。
3.服务器健康度是指服务器系统可用性、性能符合、资源利用的状态良好,不存在故障或隐患,针对服务器定期进行健康度评估,可以变被动的响应式服务为主动维护,全面掌握服务器运行状况,消除故障隐患,提高系统可用性,让运维监控人员从海量的告警分析、告警实时监测工作中解脱出来,最直观地了解宏观情况,判断优先级紧急程度,从而极大地提高工作效率。可以让高层领导实时、快速、动态地掌握服务器系统运行健康状况。
4.服务器健康度需要专门的监测指标来评估。监控工具通过对服务器关键运行指标的监控,实时掌握服务器运行性能状况,主动发现异常情况以及性能瓶颈,及时采取针对性的处理方法及优化措施,提高服务器运行质量以及业务的可靠性和可用性。
5.中国专利cn106776214b公开了一种服务器健康度评估方法,一种服务器健康度评估方法,包括步骤:获取服务器的网元指标;通过网管的指标阈值监控信息获取每一网元指标的告警等级以及每一告警等级的指标阈值,指标阈值包括指标阈值上限或/和指标阈值下限;实时获取每一网元指标性能值;当网元指标性能值未超出指标阈值上限或未低于指标阈值下限时,根据每一告警等级、每一告警等级的指标阈值以及每一网元指标性能值计算每一网元指标的健康度损减分数;计算服务器的健康度。这样不可避免会时刻占用主机内存资源、网络带宽,在服务器主机端进行监控,监控程序驻留在服务器主机上,占用服务器主机端资源,影响服务器业务处理。
6.因此,针对问题,需要提出一种服务器健康度评估方法,使得不占用服务器主机资源,独立监控服务器健康状态。


技术实现要素:



7.有鉴于此,本发明的目的在于提出一种改进的服务器健康度评估方法和装置,使得不占用服务器主机资源,独立监控服务器健康状态。
8.服务器健康度需要专门的监测指标来评估。监控工具通过对服务器关键运行指标的监控,实时掌握服务器运行性能状况,主动发现异常情况以及性能瓶颈,及时采取针对性的处理方法及优化措施,提高服务器运行质量以及业务的可靠性和可用性,现有监控方式不可避免会时刻占用主机内存资源、网络带宽,在服务器主机端进行监控,监控程序驻留在服务器主机上,占用服务器主机端资源,影响服务器业务处理,因此,我们提出一种服务器健康度评估方法,所述服务器健康度评估方法包括:监控工具定时发送ipmi指令,获取指标
实时数值;读取配置表信息,获取参与计算的指标项目,获取参与计算的指标权重;根据获取的配置信息,对参与计算的指标项目计算出各个指标的健康度;根据参与计算指标的健康度,加权计算出服务器的健康度。本发明通过发送带外ipmi指令获取服务器状态,加权计算得到服务器健康度数值,监测服务器健康状态,给服务器使用人员提供服务器健康程度的度量表征,方便服务器使用人员了解服务器健康状态,同时简化运维工作量,不访问服务器主机,不占用服务器主机资源,即可获取服务器健康度,提升用户满意度。
9.基于上述目的,一方面,本发明提供了一种服务器健康度评估方法,该方法包括以下步骤:
10.监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值;
11.读取配置表信息,获取参与计算的指标项目,获取参与计算的指标权重;
12.根据获取的配置信息,对参与计算的指标项目如cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标,计算出各个指标的健康度;
13.根据cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度参与计算指标的健康度,加权计算出服务器的健康度。
14.在根据本发明的服务器健康度评估方法的一些实施例中,所述监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值的方法,具体包括:
15.输入bmcip、用户名、密码;
16.定时发送带外ipmi指令;
17.获取cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标的当前数值。
18.在根据本发明的服务器健康度评估方法的一些实施例中,所述根据获取的配置信息,对参与计算的指标项目如cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标,计算出各个指标的健康度的方法,具体包括:
19.根据指标数值处于不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值范围内,分别计算健康度。
20.在根据本发明的服务器健康度评估方法的一些实施例中,当指标为cpu温度时,cpu温度范围为不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值。
21.在根据本发明的服务器健康度评估方法的一些实施例中,当指标为cpu功耗时,cpu功耗范围为不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值。
22.在根据本发明的服务器健康度评估方法的一些实施例中,当指标为内存温度时,内存温度范围为不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值。
23.当指标为内存功耗时,内存功耗范围为不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值;
24.当指标为存储功耗时,存储功耗范围为不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值。
25.在根据本发明的服务器健康度评估方法的一些实施例中,当指标为gpu温度时,gpu温度范围为不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值。
26.在根据本发明的服务器健康度评估方法的一些实施例中,在所述步骤根据cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度参与计算指标的健康度,加权计算出服务器的健康度中,服务器健康度计算公式为:
27.health=∑wi*hi28.其中,服务器健康度计算时首先分别计算单个指标健康度hi,再计算单个指标健康度与权重wi乘积,将所有指标健康度权重乘积累加起来即为服务器整体健康度。
29.本发明的另一方面,还提供了一种服务器健康度评估装置,所述服务器健康度评估装置包括:
30.实时数值获取模块,通过监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值;
31.指标权重获取模块,用于读取配置表信息,获取参与计算的指标项目,获取参与计算的指标权重;
32.健康度计算模块,基于获取的配置信息,对参与计算的指标项目如cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标,计算出各个指标的健康度;
33.健康度计算模块,基于cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度参与计算指标的健康度,加权计算出服务器的健康度。
34.在根据本发明的服务器健康度评估装置的一些实施例中,所述实时数值获取模块包括:
35.信息输入单元,用于输入bmcip、用户名、密码;
36.指令发送单元,定时发送带外ipmi指令;
37.指标数值获取单元,用于获取cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标的当前数值。
38.本发明至少具有以下有益技术效果:本发明通过发送带外ipmi指令获取服务器状态,加权计算得到服务器健康度数值,监测服务器健康状态,给服务器使用人员提供服务器健康程度的度量表征,方便服务器使用人员了解服务器健康状态,同时简化运维工作量,不访问服务器主机,不占用服务器主机资源,即可获取服务器健康度,提升用户满意度。
附图说明
39.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
40.在图中:
41.图1示出了服务器健康度评估方法的实现流程示意图;
42.图2示出了监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值方法的实现流程示意图;
43.图3示出了服务器健康度评估装置的结构示意图;
44.图4示出了实时数值获取模块的结构示意图。
具体实施方式
45.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
46.需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称的非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备固有的其他步骤或单元。
47.服务器健康度需要专门的监测指标来评估。监控工具通过对服务器关键运行指标的监控,实时掌握服务器运行性能状况,主动发现异常情况以及性能瓶颈,及时采取针对性的处理方法及优化措施,提高服务器运行质量以及业务的可靠性和可用性,现有监控方式不可避免会时刻占用主机内存资源、网络带宽,在服务器主机端进行监控,监控程序驻留在服务器主机上,占用服务器主机端资源,影响服务器业务处理,因此,我们提出一种服务器健康度评估方法,所述服务器健康度评估方法包括:监控工具定时发送ipmi指令,获取指标实时数值;读取配置表信息,获取参与计算的指标项目,获取参与计算的指标权重;根据获取的配置信息,对参与计算的指标项目计算出各个指标的健康度;根据参与计算指标的健康度,加权计算出服务器的健康度。本发明通过发送带外ipmi指令获取服务器状态,加权计算得到服务器健康度数值,监测服务器健康状态,给服务器使用人员提供服务器健康程度的度量表征,方便服务器使用人员了解服务器健康状态,同时简化运维工作量,不访问服务器主机,不占用服务器主机资源,即可获取服务器健康度,提升用户满意度。
48.本发明实施例提供了一种服务器健康度评估方法,如图1所示,示出了服务器健康度评估方法的实现流程示意图,所述服务器健康度评估方法,具体包括:
49.步骤s10,监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值;
50.步骤s20,读取配置表信息,获取参与计算的指标项目,获取参与计算的指标权重;
51.步骤s30,根据获取的配置信息,对参与计算的指标项目如cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标,计算出各个指标的健康度;
52.步骤s40,根据cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度参与计算指标的健康度,加权计算出服务器的健康度。
53.在本实施例中,本发明通过发送带外ipmi指令获取服务器状态,加权计算得到服务器健康度数值,监测服务器健康状态,给服务器使用人员提供服务器健康程度的度量表征,方便服务器使用人员了解服务器健康状态,同时简化运维工作量,不访问服务器主机,不占用服务器主机资源,即可获取服务器健康度,提升用户满意度。
54.同时,在本技术中健康度评估要预先制定监测指标及评估标准。对服务器选取1个到多个监测点,如cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度等指标进行监测。对于每个监测指标,预先根据经验设置好健康评估的区间值,方便后续健康度计算。这
些指标根据重要程度设置权重,服务器健康度是这些指标得分加权而得到,其中权重为归一化权重。健康度值越高(一般最高为1)表示系统越健康。当健康度值为0时,表示系统已经崩溃或处于不可用状态。
55.本发明实施例提供了监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值的方法,如图2所示,示出了监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值方法的实现流程示意图,所述监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值的方法,具体包括:
56.步骤s101,输入bmcip、用户名、密码;
57.步骤s102,定时发送带外ipmi指令;
58.步骤s103,获取cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标的当前数值。
59.示例性的,所述根据获取的配置信息,对参与计算的指标项目如cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标,计算出各个指标的健康度的方法,具体包括:
60.根据指标数值处于不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值范围内,分别计算健康度。
61.在本技术中,为了表征各项指标的健康度,需要大于指标健康度区间定义。
62.示例性的,根据cpu温度处于不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值,分别计算健康度,具体如表1所示。
63.表1 cpu温度健康度配置表
[0064][0065]
示例性的,根据cpu功耗处于不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值,分别计算健康度,具体如表2所示。
[0066]
表2 cpu功耗健康度配置表
[0067][0068]
示例性的,根据内存温度处于不可逆低阈值,严重低阈值,非严重低阈值,非严重
高阈值,严重高阈值,不可逆高阈值,分别计算健康度,具体如表3所示。
[0069]
表3内存温度健康度配置表
[0070][0071]
示例性的,根据内存功耗处于不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值,分别计算健康度,具体如表4所示。
[0072]
表4内存功耗健康度配置表
[0073][0074]
示例性的,本技术中,根据存储功耗处于不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值,分别计算健康度,具体如表5所示。
[0075]
表5存储功耗健康度配置表
[0076][0077]
示例性的,根据gpu温度处于不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值,分别计算健康度,具体如表6所示。
[0078]
表6 gpu温度健康度配置表
[0079]
[0080]
监控工具启动时读取配置信息。配置参数包含参与计算的指标项目,该指标项目的所占权重,参与计算的指标项目总权重为1。配置信息以json文件格式存储,其中一项内容如下:
[0081]
{
[0082]
{
[0083]
item:“cpu_temp”,
[0084]
include:“1”,
[0085]
weight:“0.2”[0086]
},
[0087]
}。
[0088]
默认地,根据cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度在服务器中重要性程度以及先验知识,可以确定指标权重,如表7所示,所有指标权重之和为1。
[0089]
表7指标权重系数表
[0090]
指标项目权重系数cpu温度0.2cpu功耗0.2内存温度0.15内存功耗0.15存储功耗0.15gpu温度0.15
[0091]
以上json文件中:item表示指标名称;include表示是否参与计算,1表示参与计算,0表示不参与计算;weight表示该指标在计算过程中的权重系数,该系数大于0小于1。其他指标项配置类似。在本技术中,指标参数的权重,反应了该指标参数对服务器状态的影响程度。指标权重系数可以从配置信息中获取。
[0092]
需要说明的是,以上权重系数针对通用性服务器而言,存储型服务器、计算型服务器等不同类型服务器指标参数所占权重又有不同,指标权重系数可以通过修改配置文件来进行修改更新。
[0093]
在所述步骤根据cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度参与计算指标的健康度,加权计算出服务器的健康度中,服务器健康度计算公式为:
[0094]
health=∑wi*hi[0095]
其中,服务器健康度计算时首先分别计算单个指标健康度hi,再计算单个指标健康度与权重wi乘积,将所有指标健康度权重乘积累加起来即为服务器整体健康度。
[0096]
本发明实施例提供了一种服务器健康度评估装置,如图3所示,示出了服务器健康度评估装置的结构示意图,所述服务器健康度评估装置,具体包括:
[0097]
实时数值获取模块100,通过监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值;
[0098]
指标权重获取模块200,用于读取配置表信息,获取参与计算的指标项目,获取参与计算的指标权重;
[0099]
健康度计算模块300,基于获取的配置信息,对参与计算的指标项目如cpu温度、
cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标,计算出各个指标的健康度;
[0100]
健康度计算模块400,基于cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度参与计算指标的健康度,加权计算出服务器的健康度。
[0101]
在本实施例中,服务器健康度需要专门的监测指标来评估。监控工具通过对服务器关键运行指标的监控,实时掌握服务器运行性能状况,主动发现异常情况以及性能瓶颈,及时采取针对性的处理方法及优化措施,提高服务器运行质量以及业务的可靠性和可用性。
[0102]
同时,在本技术中健康度评估要预先制定监测指标及评估标准。对服务器选取1个到多个监测点,如cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度等指标进行监测。对于每个监测指标,预先根据经验设置好健康评估的区间值,方便后续健康度计算。这些指标根据重要程度设置权重,服务器健康度是这些指标得分加权而得到,其中权重为归一化权重。健康度值越高(一般最高为1)表示系统越健康。当健康度值为0时,表示系统已经崩溃或处于不可用状态。
[0103]
本发明实施例提供了实时数值获取模块100,如图4所示,示出了实时数值获取模块100的结构示意图,所述实时数值获取模块100,具体包括:
[0104]
信息输入单元110,用于输入bmcip、用户名、密码;
[0105]
指令发送单元120,定时发送带外ipmi指令;
[0106]
指标数值获取单元130,用于获取cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标的当前数值。
[0107]
本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序指令,该计算机程序指令可以被处理器执行。该计算机程序指令310被执行时实现上述服务器健康度评估方法:
[0108]
监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值;
[0109]
读取配置表信息,获取参与计算的指标项目,获取参与计算的指标权重;
[0110]
根据获取的配置信息,对参与计算的指标项目如cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标,计算出各个指标的健康度;
[0111]
根据cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度参与计算指标的健康度,加权计算出服务器的健康度。
[0112]
本发明实施例的另一方面,还提供了一种计算机设备,包括存储器和处理器,该存储器中存储有计算机程序,该计算机程序被该处理器执行时实现上述任意一项实施例的方法。
[0113]
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。例如,上述计算机程序可以被分割成上述各个系统实施例提供的服务器健康度评估系统的单元或模块。
[0114]
本领域技术人员可以理解,上述终端设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,
例如可以包括输入输出设备、网络接入设备、总线等。
[0115]
所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
[0116]
上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等;存储数据区可存储根据服务器健康度评估系统的使用所创建的数据。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0117]
终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例系统中的全部或部分模块/单元,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个系统实施例的功能。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
[0118]
本发明通过发送带外ipmi指令获取服务器状态,加权计算得到服务器健康度数值,监测服务器健康状态,给服务器使用人员提供服务器健康程度的度量表征,方便服务器使用人员了解服务器健康状态,同时简化运维工作量,不访问服务器主机,不占用服务器主机资源,即可获取服务器健康度,提升用户满意度。
[0119]
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
[0120]
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
[0121]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思
路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

技术特征:


1.一种服务器健康度评估方法,其特征在于,所述服务器健康度评估方法包括以下步骤:监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值;读取配置表信息,获取参与计算的指标项目,获取参与计算的指标权重;根据获取的配置信息,对参与计算的指标项目如cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标,计算出各个指标的健康度;根据cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度参与计算指标的健康度,加权计算出服务器的健康度。2.根据权利要求1所述的方法,其特征在于,所述监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值的方法,具体包括:输入bmcip、用户名、密码;定时发送带外ipmi指令;获取cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标的当前数值。3.根据权利要求2所述的方法,其特征在于,所述根据获取的配置信息,对参与计算的指标项目如cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标,计算出各个指标的健康度的方法,具体包括:根据指标数值处于不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值范围内,分别计算健康度。4.根据权利要求3所述的方法,其特征在于,当指标为cpu温度时,cpu温度范围为不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值。5.根据权利要求4所述的方法,其特征在于,当指标为cpu功耗时,cpu功耗范围为不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值。6.根据权利要求5所述的方法,其特征在于,当指标为内存温度时,内存温度范围为不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值;当指标为内存功耗时,内存功耗范围为不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值;当指标为存储功耗时,存储功耗范围为不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值。7.根据权利要求5所述的方法,其特征在于,当指标为gpu温度时,gpu温度范围为不可逆低阈值,严重低阈值,非严重低阈值,非严重高阈值,严重高阈值,不可逆高阈值。8.根据权利要求5所述的方法,其特征在于,在所述步骤根据cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度参与计算指标的健康度,加权计算出服务器的健康度中,服务器健康度计算公式为:health=∑w
i
*h
i
其中,服务器健康度计算时首先分别计算单个指标健康度hi,再计算单个指标健康度与权重wi乘积,将所有指标健康度权重乘积累加起来即为服务器整体健康度。9.一种服务器健康度评估装置,其特征在于,所述服务器健康度评估装置包括:
实时数值获取模块,通过监控工具定时发送ipmi指令,获取到cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标实时数值;指标权重获取模块,用于读取配置表信息,获取参与计算的指标项目,获取参与计算的指标权重;健康度计算模块,基于获取的配置信息,对参与计算的指标项目如cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标,计算出各个指标的健康度;健康度计算模块,基于cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度参与计算指标的健康度,加权计算出服务器的健康度。10.根据权利要求9所述的装置,其特征在于,所述实时数值获取模块包括:信息输入单元,用于输入bmcip、用户名、密码;指令发送单元,定时发送带外ipmi指令;指标数值获取单元,用于获取cpu温度、cpu功耗、内存温度、内存功耗、存储功耗、gpu温度指标的当前数值。

技术总结


本发明提供了一种服务器健康度评估方法和装置,方法包括:监控工具定时发送IPMI指令,获取到CPU温度、CPU功耗、内存温度、内存功耗、存储功耗、GPU温度指标实时数值;读取配置表信息,获取参与计算的指标项目,获取参与计算的指标权重;根据获取的配置信息,对参与计算的指标项目如CPU温度、CPU功耗、内存温度、内存功耗、存储功耗、GPU温度指标,计算出各个指标的健康度;根据CPU温度、CPU功耗、内存温度、内存功耗、存储功耗、GPU温度参与计算指标的健康度,加权计算出服务器的健康度。本发明通过发送带外IPMI指令获取服务器状态,加权计算得到服务器健康度数值,不访问服务器主机,不占用服务器主机资源,即可获取服务器健康度,提升用户满意度。用户满意度。用户满意度。


技术研发人员:

郝林伟

受保护的技术使用者:

山东云海国创云计算装备产业创新中心有限公司

技术研发日:

2022.09.28

技术公布日:

2022/12/23

本文发布于:2024-09-23 11:13:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/44953.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:阈值   功耗   指标   服务器
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议