一种内存可靠性评估方法、装置及存储介质与流程



1.本技术涉及存储领域,尤其涉及一种内存可靠性评估方法、装置及存储介质。


背景技术:



2.计算设备中的动态随机存取存储器(dynamic random access memory,dram)是常用的随机存取存储器,随着计算技术的发展,dram的容量越来越大,同时故障率也随之升高。
3.相关技术中,对于计算设备的内存故障,可以由集中运维管理平台通过标准的故障上报接口(例如redfish接口)定期向被管理的计算设备收集内存故障信息,基于内存故障信息完成对计算设备内存的可靠性评估,并呈现告警。然而,有些计算设备没有定义标准的故障上报接口,无法获取其内存故障信息;或者因标准故障上报接口协议限制,上述集中运维管理平台通过标准接口收集的故障信息不全面,导致集中运维管理平台无法基于全面的故障信息对内存可靠性进行准确的评估。


技术实现要素:



4.本技术提供了一种内存可靠性评估方法、装置及存储介质,有助于基于全面的内存故障信息准确的评估内存可靠性。
5.为实现上述技术目的,本技术采用如下技术方案:
6.第一方面,本技术提供了一种内存可靠性评估方法,该方法应用于集中运维管理平台,方法包括:获取计算设备的目标运行日志包;对目标运行日志包进行解析,得到参数组数据;其中,参数组数据包括计算设备的内存故障参数;将参数组数据输入内存故障预测模型,得到计算设备的内存故障预测结果;其中,内存故障预测结果用于表征计算设备的内存故障的严重程度。
7.可以理解的是,采集计算设备的目标运行日志包,若目标运行日志是计算设备的全部运行日志包,则其中记录了计算设备的完整运行过程,其中包含计算设备的所有内存故障信息,因此获取目标运行日志包能够获得所有的内存故障信息,可以有效避免因标准接口协议限制导致收集的故障信息不全面的问题,从而可以基于全面的内存故障信息准确的评估内存可靠性,便于在后续维护设备和内存时,可以参考准确的技术评估值。
8.在一种可能的实现方式中,获取计算设备的目标运行日志包,包括:接收日志采集工具导入的计算设备的目标运行日志包。
9.可以理解的是,集中运维管理平台只需要接收日志采集工具发送的运行日志包,不需要占用集中运维管理平台的运算资源,减少对平台其他运算的影响。
10.在另一种可能的实现方式中,上述获取计算设备的目标运行日志包后,上述方法还包括:接收第一指令,通过第一指令对应的日志包解析流程对目标运行日志包进行解析,得到参数组数据;其中,第一指令用于指示目标运行日志包所属类别;类别包括带外运行日志包类别和带内运行日志包类别。
11.可以理解的是,通过接收第一指令来区分目标运行日志包的类别,可以快速对目标运行日志包的类别进行区分,节约集中运维管理平台的计算资源。
12.在另一种可能的实现方式中,上述获取计算设备的目标运行日志包,包括:向计算设备发送指示信息,指示信息用于指示获取目标运行日志包;接收计算设备针对指示信息返回的目标运行日志包。
13.可以理解的是,上述集中运维管理平台可以设置定时采集目标运行日志包的程序,根据设置自动获取目标运行日志包,该方法可以减少人工参与,提高获取目标运行日志包的效率,减少人力资源。
14.在另一种可能的实现方式中,上述对目标运行日志包进行解析,得到参数组数据,包括:当目标运行日志包属于带外运行日志包类别时,通过带外日志解析流程对目标运行日志包进行解析,得到参数组数据;当目标运行日志包属于带内运行日志包类别时,通过带内日志解析流程对目标运行日志包进行解析,得到参数组数据。
15.可以理解的是,对不同的目标运行日志包采取不同的解析方法,可以避免因格式不同而造成参数组的参数解析不出来的问题,或者不会因带内或带外日志包含的参数组的区别,而造成解析出来的参数组的具体内容不全面的问题,因此,该方法可以提高解析效率,同时能全面解析出参数组包含的参数。
16.在另一种可能的实现方式中,上述方法还包括:当计算设备的内存故障严重程度满足预设条件时,输出告警信息。
17.可以理解的是,输出告警信息的方法包括但不限于如通过大屏显示,或通过扬声器播放音频的方法。输出告警信息可以有效提示工作人员哪些计算设备的内存故障较为严重,从而及时采取解决措施。
18.在另一种可能的实现方式中,上述方法还包括:以内存故障严重程度由高到低的顺序输出多个计算设备的内存故障预测结果;其中,多个计算设备的内存故障预测结果是基于多个计算设备的目标运行日志包得到。
19.可以理解的是,将内存故障预测结果以内存故障严重程度由高到低的顺序通过显示屏输出,可以让运维人员直观的看到各个计算设备的内存的好坏,同时可以有先看到故障严重程度较高的计算设备,方便及时采取相关措施。另外,在后续采购内存时,避免内存可靠性差的内存,优先选择可靠性好的内存。
20.在一种可能的实现方式中,当目标运行日志包属于带外运行日志包类别时,参数组还包括计算设备的内存运行配置参数;计算设备的内存固有类别参数。
21.可以理解的是,带外运行日志包中包含上述参数组,而带内运行日志包中不包含上述与内存出厂参数及配置参数相关内容,因此只在运行日志包属于带外运行日志包类别时,选择解析上述参数。在后续对计算设备进行评估时,参考上述内容,可以更加全面的对计算设备的内存进行评估,其结果更可靠。
22.在另一种可能的实现方式中,参数组还包括:计算设备的内存运行状态参数。
23.可以理解的是,运行日志中还可以解析出上述参数内容,在后续对计算设备进行评估时,参考上述内容,可以更加全面的对计算设备的内存进行评估,其结果更可靠。
24.在另一种可能的实现方式中,内存故障预测模型使用的是机器学习算法。
25.可以理解的是,内存故障预测模型可以使用多种内存评估算法,但是机器学习算
法可以针对内存的各项参数,综合对内存可靠性进行评估,结果准确。
26.第二方面,本技术提供一种内存可靠性评估装置。该内存可靠性评估装置包括应用于第一方面或第一方面中任一种可能的设计方式的方法的各个模块。
27.第三方面,本技术提供一种内存可靠性评估装置,包括存储器和处理器。存储器和处理器耦合;存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。当处理器执行该计算机指令时,使得该内存可靠性评估装置执行如第一方面及其任一种可能的实现方式的内存可靠性评估方法。
28.第四方面,本技术提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令。其中,当计算机指令在内存可靠性评估装置上运行时,使得该内存可靠性评估装置执行如第一方面及其任一种可能的实现方式的内存可靠性评估方法。
29.第五方面,本技术提供一种计算机程序产品,该计算机程序产品包括计算机指令。其中,当计算机指令在内存可靠性评估装置上运行时,使得该内存可靠性评估装置执行如第一方面及其任一种可能的实现方式的内存可靠性评估方法。
30.本技术中第二方面到第五方面及其各种实现方式的具体描述,可以参考第一方面及其各种实现方式中的详细描述;并且,第二方面到第五方面及其各种实现方式的有益效果,可以参考第一方面及其各种实现方式中的有益效果分析,此处不再赘述。
31.本技术的这些方面或其他方面在以下的描述中会更加简明易懂。
附图说明
32.图1为本技术实施例提供的内存可靠性评估方法所涉及的一种实施环境示意图;
33.图2为本技术实施例提供的一种内存可靠性评估方法流程图;
34.图3为本技术实施例提供的一种集中运维管理平台的人机交互界面示意图;
35.图4为本技术实施例提供的一种内存可靠性评估装置的结构示意图;
36.图5为本技术实施例提供的另一种内存可靠性评估装置的结构示意图。
具体实施方式
37.为了方便理解,以下先对本技术实施例中涉及的相关术语进行简单介绍:
38.(1)运行日志,是指计算设备的系统中指定对象的某些操作和其操作结果按时间有序的集合,每条日志记录描述了一次单独的系统事件。计算设备的系统中运行日志的种类有很多,具体包括但不限于如:应用程序日志,安全日志、系统日志、域名系统(domain name system,dns)服务器日志、计算设备的操作系统运行日志、操作系统故障日志、计算设备的带外管理运行日志、计算设备的带外基板管理控制器(baseboard management controller,bmc)工作日志和云化系统运行日志等。
39.(2)运行日志包,是计算设备在运行过程中用于承载运行日志的文本文件,即运行日志包是文本文件,运行日志是文本文件中包含的信息。计算设备的带内系统生成的运行日志包属于带内运行日志包类别,带外系统生成的运行日志包属于带外运行日志包类别。
40.(3)术语“第一”、“第二”和“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。
41.计算设备中的dram是常用的随机存取存储器,随着计算技术的发展,dram的容量越来越大,同时故障率也随之升高。相关技术中,常用的方法是集中运维平台通过标准的故障上报接口(例如redfish接口)定期向该平台所管理的计算设备收集内存故障信息,基于内存故障信息进行完成对计算设备内存的可靠性评估,并呈现告警。
42.上述方案中,集中运维管理平台对获取到的故障信息进行内存可靠性评估的方法,由于部分计算设备没有定义标准故障上报接口,无法获取其内存故障信息;或者因标准故障上报接口协议限制,上述集中运维管理平台通过标准接口收集的故障信息不全面,导致集中运维管理平台无法基于全面的故障信息对内存可靠性进行准确的评估,从而在后期维护设备和内存时,无法参考准确的技术评估值。
43.基于此,本技术实施例提出了一种内存可靠性评估方法,该方法通过对计算设备的运行日志进行分析,得出计算设备的内存故障预测结果。首先,获取计算设备的目标运行日志包,对目标运行日志包进行解析,得到内存故障参数;其次,通过内存故障预测模型对内存故障参数进行分析,得到内存故障预测结果。可以理解的是,获取计算设备的目标运行日志包,该日志包中包含计算设备的运行日志,运行日志中记录了计算设备的完整运行过程,其中也包含所有内存故障信息,因此获取目标运行日志包能够获得所有的内存故障信息,可以有效避免因标准接口协议限制导致收集的故障信息不全面的问题,从而可以基于全面的内存故障信息对内存可靠性进行准确的评估,便于在后续维护设备和内存时,可以参考准确的技术评估值。
44.下面将结合附图对本技术实施例的实施方式进行详细描述。
45.请参考图1,其示出本技术实施例提供的一种内存可靠性评估方法所涉及的实施环境示意图。如图1所示,该实施环境可以包括:计算设备110、集中运维管理平台120和日志采集工具130。本技术实施例对计算设备110的数量不做限定。
46.示例性的,计算设备110可以是终端,例如平板电脑、桌面型、膝上型、笔记本电脑和上网本等,还可以是服务器。本技术实施例对该计算设备110的具体形态不作特殊限制。
47.集中运维管理平台120包含内存故障预测模型121。集中运维管理平台120是一种集中管理和运维多个计算设备110的管理软件/工具/平台,可以用于为包含多个计算设备110(例如服务的数据中心提供统一的故障收集、故障预警、故障上报、配置管理、设备管理、版本管理等功能。在本技术实施例中,集中运维管理平台120可以获取计算设备110的运行日志,并解析出用于进行内存故障评估的参数,然后,将该参数输入内存故障预测模型121,内存故障预测模型121输出内存故障预测结果。
48.示例性的,集中运维管理平台120可以是云服务化运维平台、集中式智能运维管理软件平台、云智能管理平台等。
49.示例性的,集中运维管理平台120可以是计算设备110中的软件,其可以安装在一台计算设备110上;也可以是独立于计算设备110之外的一个硬件设备。
50.日志采集工具130用于采集计算设备110的运行日志包,并发送给集中运维管理平台120。日志采集工具130可以是计算设备110中的一个软件工具,也可以是独立于计算设备110之外的一个硬件设备。
51.可选的,该实施环境还包括输出设备140,该输出设备可以是显示屏和/或扬声器等输出内存故障预测结果的设备。本技术实施例对输出设备140的具体形态不做限定。显示
屏,可以用于接收集中运维管理平台120的指示,显示内存故障预测结果。扬声器,可以用于接收集中运维管理平台120的指示,播放内存故障预测结果。
52.输出设备140可以是与集中运维管理平台120集成的设备,也可以是独立于集中运维管理平台120的设备。本技术实施例对输出设备140和集中运维管理平台120的设置方式不做限定。
53.下面将结合附图对本技术实施例的提出的内存可靠性评估方法进行详细描述。
54.请参考图2,为本技术实施例提供的一种内存可靠性评估方法流程图。如图2所示,该方法可以包括s101-s105。
55.s101:集中运维管理平台获取计算设备的目标运行日志包。
56.目标运行日志包是计算设备生成的多个运行日志包中任意一个或多个运行日志包,每个运行日志包记录了一个运行事件。运行日志包括带外运行日志包和带内运行日志包。
57.带外运行日志包,例如:bmc运行日志包、设备状态监控日志包等。
58.带内运行日志包,例如:带内操作系统(operating system,os)系统的运行日志包。
59.集中运维管理平台获取计算设备的目标运行日志包的方法可以包括但不限于如s101a-s101b或s101c-s101d。
60.s101a:当集中运维管理平台与计算设备连接时,集中运维管理平台向计算设备发送指示信息,指示信息用于指示获取目标运行日志包。
61.在一个示例中,集中运维管理平台向计算设备发送“获取带外运行日志包”的指示信息。
62.s101b:集中运维管理平台接收计算设备针对指示信息返回的目标运行日志包。
63.上述集中运维管理平台可以设置定时采集目标运行日志包的程序,根据定时设置自动获取目标运行日志包,该方法可以减少人工参与,提高获取目标运行日志包的效率,减少人力资源。
64.s101c:日志采集工具采集计算设备的目标运行日志包,并将目标运行日志包发送给集中运维管理平台。
65.s101d:集中运维管理平台接收日志采集工具导入的目标运行日志包。
66.上述日志采集工具可以一次采集一个计算设备的目标运行日志包,也可以一次批量采集多个计算设备的目标运行日志包。若有多个计算设备时,一次批量采集多个计算设备的目标运行日志包,可以提高采集效率,同时,集中运维管理平台只需要接收日志采集工具发送的目标运行日志包,不需要占用集中运维管理平台的运算资源,减少对平台其他运算的影响。
67.s102:集中运维管理平台对目标运行日志包进行解析,得到参数组数据。
68.其中,参数组包含计算设备的内存故障参数。
69.内存故障参数:是用于表征内存在运行过程中发生的故障的参数。
70.上述内存故障参数具体可以包括以下一项或多项内容,例如:可纠正错误(corrected error,ce)的类别、ce发生时间、ce出错次数、ce的物理地址信息、ce的系统地址信息、内存巡检出错次数、内存巡检出错行地址、内存巡检出错最多行地址、不可纠正错
误的类型、不可纠正错误的状态、不可纠正错误的发生时间、不可纠正错误的出错次数、不可纠正错误的物理地址信息、不可纠正错误的物理地址信息、ecc纠错寄存器信息、机器检查体系(machine-check architecture,mca)寄存器信息、mca报告(report)信息、模式寄存器(mode register,mr)寄存器信息中的至少一种。
71.其中,上述ce的类别包括巡检可纠正错误、读写可纠正错误、搬移可纠正错误、镜像回写可纠正错误等。
72.其中,上述不可纠正错误的类型包括突发致命错误、选择处理(sw recoverable action optional,srao)错误、不需要处理(uncorrected no action,ucna)错误、必须处理(sw recoverable action required,srar)错误、巡检不可纠正错误等。
73.上述物理地址信息用于指示上述错误在上述内存中的物理位置,包括行地址信息、列地址信息、存储库(bank)地址信息、存储库组(bankgroup)地址信息、设备(device)地址信息、地址(address)寄存器信息、状态(status)寄存器、通道(channel)地址信息、rank地址信息、subrank地址信息、双列直插式存储模块标识(dual inline memory modules identity document,dimm id)信息、中央处理器标识(central processing unit identity document,cpu id)信息。
74.本技术实施例中,上述内存故障参数包括但不限于上述内容。解析出上述内存故障参数,可以用于后续对内存故障进行评估。
75.可选的,上述参数组还可以包括计算设备的内存运行状态参数。
76.内存运行状态参数:是用于表征内存运行过程中的状态的参数。
77.上述计算设备的内存运行状态参数具体可以包括以下一项或多项内容,例如:cpu占用率信息、温度信息、运行程序信息、内存健康状态信息中的至少一种。
78.本技术实施例中,上述计算设备的内存运行状态参数包括但不限于上述内容。在后续对计算设备进行评估时,参考上述内容,可以更加全面的对计算设备的内存进行评估,其结果更可靠。
79.上述内存故障参数和内存运行状态参数是带内运行日志包和带外运行日志包中均可能包含的参数,当目标运行日志包属于带外运行日志包类别时,上述参数组还可以包括:计算设备的内存运行配置参数和/或计算设备的内存固有类别参数。
80.内存运行配置参数:是用于对内存运行前进行配置的参数。
81.内存固有类别参数:是指示内存性能指标的参数。
82.上述计算设备的内存运行配置参数具体可以包括以下一项或多项内容,例如:内存刷新频率、运行模式开关、性能模式开关、高可靠模式开关、隔离机制开关、ce上报开关、增强纠错开关等。
83.上述计算设备的内存固有类别参数具体可以包括以下一项或多项内容,例如:内存种类、内存型号、内存厂家、速率、主频、容量、位宽、工艺水平等。
84.本技术实施例中,上述计算设备的内存运行配置参数和计算设备的内存固有类别参数包括但不限于上述内容。
85.上述集中运维管理平台除了解析内存故障参数外,其余参数为可选参数,通过解析内存故障参数和可选参数,在后续对计算设备进行内存故障评估时,可以得到更全面的、可靠的评估结果。
86.在一些实施例中,上述参数组是预先在集中运维管理平台中设置好的,如果需要修改、增加或删除参数内容,可以对集中运维管理平台软件升级来实现,该升级方法简单高效。
87.每个计算设备运行过程中产生了多个运行日志包,对于带内运行日志包是由计算设备的os提供,不同公司生产的计算设备的生成的带内运行日志包的数据格式基本相同。带外运行日志包是由不同的操作系统、应用软件、网络设备和服务产生不同的日志文件,即使相同的服务如互联网信息服务(internet information services,iis)也可采用不同格式的日志包记录日志信息。目前国际上还没有形成标准的日志格式,各系统开发商和计算设备生产商往往根据各自的需要制定自己的日志格式,使得不同系统的日志格式和存储方式有所差别。另外,通过上述参数组可以看出,带内运行日志包中可以包含的参数为内存故障参数和内存运行状态参数,带外运行日志包中可以包含的参数为内存故障参数、内存运行状态参数、内存运行配置参数和内存固有类别参数。因此,需要对带内运行日志包和带外运行日志包选择不同的日志解析流程进行解析。
88.集中运维管理平台获取目标运行日志包后,需要知道目标运行日志包的所属类别。由于集中运维管理平台获取目标运行日志包的方法有多种,不同的获取方法有不同的类别区分方法。s101a-s101b中对应确定目标运行日志包的所属类别的方法包括s102a-s102b,s101c-s101d中确定对应目标运行日志包的所属类别的方法包括s102c-s102d。
89.s102a:集中运维管理平台向计算设备发送包含目标运行日志包类别的指示信息。
90.在一个示例中,集中运维管理平台向计算设备发送“获取全部带外运行日志包”。
91.s102b:集中运维管理平台确定出目标运行日志包的类别为指示信息指示的类别。
92.在一个示例中,指示信息指示的类别为带外运行日志包类别,集中运维管理平台判断出目标运行日志包的类别为带外运行日志包类别。
93.s102c:集中运维管理平台接收第一指令。
94.第一指令用于指示目标运行日志包所属类别;类别包括带外运行日志包类别和带内运行日志包类别。
95.示例性的,第一指令可以由人工通过语音输入方法,输入集中运维管理平台。
96.示例性的,第一指令可以由人工通过人机交互界面,输入集中运维管理平台。
97.在一个示例中,如图3所示,图3为集中运维管理平台的人机交互界面示意图,界面显示出目标运行日志包所属类别选项,用户可以通过该界面输入第一指令,用于确定目标运行日志包的类别。
98.s102d:集中运维管理平台基于第一指令确定目标运行日志包所属类别为第一指令指示的类别。
99.在一个示例中,第一指令指示目标运行日志包所属类别外带外运行日志包类别,集中运维管理平台判断出目标运行日志包的类别为带外运行日志包类别。
100.上述集中运维管理平台在确定目标运行日志包的类别后,为其选则不同的日志包解析流程。
101.当目标运行日志包属于带外运行日志包类别时,集中运维管理平台执行s102e;
102.当目标运行日志包属于带内运行日志包类别时,集中运维管理平台执行s102f。
103.s102e:集中运维管理平台通过带外日志解析流程对目标运行日志包进行解析,得
到对应参数组数据。
104.带外日志解析流程:集中运维管理平台根据目标运行日志包的文件名,确定生成该目标运行日志包的计算设备的公司,根据不同公司开发运行日志包的规则,对运行日志包中包含的内存故障参数、内存运行状态参数、内存运行配置参数和/或内存固有类别参数进行解析。
105.在一个示例中,公司a的计算设备的带外运行日志包的文件命名规则为年月日_dump_info.tar.gz,公司b的计算设备的带外运行日志包的文件命名规则ip地址+年月日.txt,从公司a和公司b的计算设备生成的带外运行日志包的文件命名格式,可以判断出生成目标运行日志包的计算设备的生产公司。
106.s102f:集中运维管理平台通过带内日志解析流程对目标运行日志包进行解析,得到对应参数组数据。
107.带内日志解析流程:集中运维管理平台对带内运行日志包中包含的内存故障参数和可选的内存运行状态参数进行解析。
108.对不同类型的目标运行日志包采取不同的解析方法,可以避免因格式不同而造成参数组的参数解析不出来的问题,或者不会因带内或带外日志包含的参数组的区别,而造成解析出来的参数组的具体内容不全面的问题,因此,该方法可以提高解析效率,同时能全面解析出参数组包含的参数。
109.上述通过不同的运行日志包解析流程对目标运行日志进行解析后,得到参数组数据。以下通过两个示例说明集中运维管理平台分别对带外运行日志包和带内运行日志包解析后得到的参数组数据。
110.在一个示例中,当目标运行日志包属于带内运行日志包类别时,集中运维管理平台通过带内运行日志包解析流程对该目标运行日志包解析后,得到参数组数据可以包含:ce的发生时间为xx年xx日xx时xx分、ce的出错次数为10次(内存故障参数),温度信息为10
°
(计算设备的内存运行状态参数)。
111.在另一个示例中,当目标运行日志包属于带外运行日志包类别时,集中运维管理平台基于带外运行日志包解析流程对该目标运行日志包解析后,得到参数组数据可以包含:ce发生时间为xx年xx日xx时xx分、ce出错次数为5次(内存故障参数),cpu占用率信息为10%(计算设备的内存运行状态参数)、内存刷新频率2400mhz(计算设备的内存运行配置参数)和内存厂家为a厂家(计算设备的内存固有类别参数)。
112.当集中运维管理平台获取计算设备的所有运行日志包后,可以获得计算设备各个部件运行过程中的全部事件,全部事件中包括了计算设备全部内存故障信息。因此,集中运维管理平台通过对全部运行日志包进行解析,可以解析出全面的内存故障信息,有效避免因接口协议限制导致获取到的计算设备的故障信息不全面的问题。
113.s103:集中运维管理平台将参数组的内容输入内存故障预测模型,得到计算设备的内存故障预测结果。该内存故障预测结果指示了内存的故障严重程度。
114.其中,内存故障预测结果用于表征计算设备的内存故障的严重程度,计算设备的内存的严重程度用于表征计算设备的内存可靠性。
115.计算设备的内存故障的严重程度可以基于一个运行日志包解析出来的参数组数据确定,也可以基于多个运行日志包解析出来的参数组数据确定,基于多个运行日志包确
定的内存故障预测结果能更准确的表征内存故障的严重程度,通过内存故障的严重程度可以对内存的可靠性进行评估。
116.可选的,集中运维管理平台将多个参数组数据输入内存故障预测模型,得到多个计算设备各自的内存故障预测结果。
117.内存故障预测模型是一种基于参数组数据,对计算设备的内存进行评估的模型,该模型可以使用机器学习算法,包括但不限于如:随机森林、梯度提升决策树算法(gradient boosting decision tree,gbdt)、梯度提升决策树算法(extreme gradient boosting,xgboost)、朴素贝叶斯、svm等机器学习算法;卷积神经网络(convolutional neural networks,cnn)、长短期记忆模型(long-short term memory,lstm)等深度学习算法;fedavg、fedprox、fedcs等优化类算法,以及模型压缩、加密类算法等。该模型还可以使用分级阈值算法。
118.内存故障预测模型可以使用多种内存评估算法,但是机器学习算法可以针对内存的各项参数内容,例如:带内运行日志包中的内存故障参数内容和内存运行状态参数内容,带外运行日志包中的内存故障参数内容、内存运行状态参数内容、内存运行配置参数内容和内存固有类别参数内容,综合对上述参数组数据进行评分,不同的内容对应不同的分值等级,运行状态越好得分越高,故障越多得分越低,以此来对内存可靠性进行评估,结果较为准确。
119.示例性的,内存故障预测模型通过参数组数据(例如ce出错次数为5次),对计算设备内存故障严重程度进行评分,例如:满分100分制,该计算设备的内存总得分80分,分值越高表明内存可靠性越好;和/或,对计算设备内存故障严重程度进行等级区分,例如:严重程度一级,严重程度二级等,其中严重程度对应的等级越高表明内存可靠性越差。
120.在一个示例中,如表1所示,表1包含计算设备1中的运行日志包序号、运行日志包类别、参数组、参数组数据、每项具体信息评分和计算设备1的总分。
121.表1
[0122][0123][0124]
在另一个示例中,如表2所示,表2包含计算设备2中的运行日志包序号、运行日志
包类别、参数组、参数组数据、每项具体信息评分和计算设备2的总分。
[0125]
表2
[0126][0127]
上述表1和表2为内存故障预测模型对不同计算设备中运行日志包进行评分的详细内容,通过表1和表2可知,不同计算设备的不同运行日志包,解析出来的参数组数据各有不同,计算设备的评分也各有不同。
[0128]
内存故障预测结果可以包含例如上述表1和表2中的计算设备的总分以及表中其他部分内容,可选的,内存故障预测结果还可以包含例如上述表1和表2中计算设备的总分对应的内存故障严重程度等级。
[0129]
在一个示例中,如表3所示,表3示出内存故障预测模型输出的n台计算设备的内存故障预测结果,包含:计算设备名称、计算设备的总分和总分对应的内存故障严重程度。其中,与计算设备的总分对应的内存故障严重程度可以设置为:20分及以下严重程度十级,21~30分严重程度九级,31~40分严重程度八级,41~50分严重程度七级,51~60六级,61~70五级,71~80四季,81~90三级,91~95二级,95分及以上一级。
[0130]
表3
[0131][0132][0133]
通过内存故障预测模型对多个计算设备的参数组数据进行评估,可以快速全面的评估多个计算设备的内存故障严重程度,获得各个计算设备的内存可靠性结果。
[0134]
相关技术中,内存故障预测模型内置在计算设备内部,用于接收内存故障信息并进行故障评估。该技术中,内存故障预测模型只能用于单个计算设备,当一个机房中有多个计算设备,需要对内存故障预测模型进行升级时,需要依次对每个计算设备进行版本升级,操作麻烦,效率较低。
[0135]
本技术实施例提出的内存可靠性评估方法中,内存故障预测模型设置在集中运维
管理平台中,当集中运维管理平台控制多台计算设备时,如果需要升级内存故障预测模型,只需操作一次即可,简单高效。
[0136]
s104:当计算设备的内存故障严重程度满足预设条件时,集中运维管理平台输出告警信息。
[0137]
可选的,当有多个计算设备,集中运维管理平台对多个计算设备的内存故障严重程度满足预设条件的计算设备,输出告警信息。
[0138]
当有一个计算设备时,内存故障严重程度满足预设条件包括:内存故障严重程度大于等于阈值。
[0139]
当有多个计算设备时,内存故障严重程度满足预设条件包括:内存故障严重程度最高,或者,内存故障严重程度大于等于阈值,或者,内存故障严重程度由高到低排名前n位(n大于等于计算设备的数量)。
[0140]
内存故障严重程度最高的计算设备,例如表3中内存故障严重程度为十级的计算设备,或者计算设备的总分为50分的计算设备。
[0141]
内存故障严重程度超过阈值的计算设备,例如表3中,若阈值设置为九级,则内存故障严重程度超过九级的计算设备;或阈值设置为60分,则计算设备的总分低于60分的计算设备。
[0142]
内存故障严重程度由高到低排名前n位的计算设备,例如表3中,若n设置为2,则计算设备1和计算设备2为排名前2的计算设备。
[0143]
告警信息可以包括:计算设备的标识信息,例如:名称和/或ip地址。
[0144]
输出告警信息的方法包括但不限于如通过大屏显示,或通过扬声器播放音频的方法。输出告警信息可以有效提示工作人员哪些计算设备的内存故障较为严重,从而及时采取解决措施。
[0145]
(可选的)s105:集中运维管理平台以内存故障严重程度由高到低的顺序输出多个计算设备的内存故障预测结果。
[0146]
其中,多个计算设备的内存故障预测结果是基于多个计算设备的目标运行日志包得到的。
[0147]
在一个示例中,集中运维管理平台通过显示屏,以故障严重程度由高到低的顺序显示计算设备的内存故障预测结果。
[0148]
将内存故障预测结果以内存故障严重程度由高到低的顺序通过显示屏输出,可以让运维人员直观的看到各个计算设备的内存的好坏,同时可以优先看到故障严重程度较高的计算设备,方便及时采取相关措施。另外,在后续采购内存时,避免内存可靠性差的内存,优先选择可靠性好的内存。
[0149]
本技术实施例提出的一种内存可靠性评估方法,该方法通过对计算设备的运行日志进行分析,得出计算设备的内存故障预测结果。首先,获取计算设备的目标运行日志包,对目标运行日志包进行解析,得到内存故障参数;其次,通过内存故障预测模型对内存故障参数进行分析,得到内存故障预测结果。可以理解的是,获取计算设备的目标运行日志包,该日志包中包含计算设备的运行日志,运行日志中记录了计算设备的完整运行过程,其中也包含所有内存故障参数,因此获取目标运行日志包能够获得所有的内存故障参数可以有效避免因标准接口协议限制导致收集的故障信息不全面的问题,从而可以基于全面的故障
信息对内存可靠性进行准确的评估,便于在后续维护设备和内存时,可以参考准确的技术评估值。
[0150]
以下,通过具体示例,说明参数组和参数组数据。
[0151]
实施例1:
[0152]
以下示例中,集中运维管理平台获取的a公司的计算设备的带外bmc运行日志包。
[0153]
[hardwareerrorlognumber]:4time:2019-08-1701:41:57
[0154]
cpu:0(socket:cpu1)
[0155]
errortype:correctederror
[0156]
address:[dimm011](bankgroup0,bank1,column1098,row128574)
[0157]
从上述带外bmc运行日志包可以看出,参数组及对应参数组数据为:硬件错误数量:4,日志生成时间:2019-08-1701:41:57,故障生成部位id:cpu0,错误类型:可纠正错误,物理地址:内存条编号011(块组id:0,块id:1,列:1098,行:128574)。
[0158]
实施例2:
[0159]
以下示例中,集中运维管理平台获取的计算设备的带内os下的运行日志包。
[0160]
[4741.849402]{3}[hardwareerror]:eventseverity:corrected
[0161]
[4741.849404]{3}[hardwareerror]:section_type:memoryerror
[0162]
[4741.849406]{3}[hardwareerror]:physical_address:0x00000027b561c000
[0163]
[4741.849410]{3}[hardwareerror]:node:0card:6module:0rank:1bank:4row:55473column:896
[0164]
从上述带内os下的运行日志包可以看出,参数组及对应参数组数据为:事件严重度:可纠正的,字段类型:内存错误,物理地址id,物理地址信息:节点0,存储卡id:6,单元id:0,反面,块id:4,行:55473,列:896。
[0165]
上述实施例1和实施例2展示了带外bmc运行日志包和带内os运行日志包中的部分代码,通过上述实施例1和实施例2可以看出,不同的运行日志包中包含的参数组及参数内容不同,格式也互不相同,集中运维管理平台需要通过不同的解析流程对运行日志包进行解析。
[0166]
上述主要从方法的角度对本技术实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术目标应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术目标可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0167]
本技术实施例还提供一种内存可靠性评估装置200,用于控制多个计算设备。如图4所示,为本技术实施例提供的一种内存可靠性评估装置200的结构示意图。
[0168]
其中,内存可靠性评估装置200包括:获取单元210,用于获取计算设备的目标运行日志包;日志解析单元220,用于对目标运行日志包进行解析,得到参数组数据;其中,参数组包括计算设备的内存故障参数,参数组数据包括计算设备的内存故障参数;输入单元230,用于将参数组数据输入内存故障预测模型,得到计算设备的内存故障预测结果;其中,内存故障预测结果用于表征计算设备的内存故障的严重程度。例如,结合图2,获取单元210
用于方法实施例中的s101,日志解析单元220用于方法实施例中的s102,输入单元230用于方法实施例中的s103。
[0169]
可选的,获取单元210具体用于,接收日志采集工具导入的计算设备的目标运行日志包。例如,结合图2,获取单元210用于方法实施例中的s101。
[0170]
可选的,日志解析单元220具体用于,接收第一指令,通过第一指令对应的日志包解析流程对目标运行日志包进行解析,得到参数组数据;其中,第一指令用于指示目标运行日志包所属类别;类别包括带外运行日志包类别和带内运行日志包类别。例如,结合图2,日志解析单元220用于方法实施例中的s102。
[0171]
可选的,获取单元210具体用于,向计算设备发送指示信息,指示信息用于指示获取目标运行日志包;接收计算设备针对指示信息返回的目标运行日志包。结合图2,获取单元210用于方法实施例中的s101。
[0172]
可选的,日志解析单元220具体用于,当目标运行日志包属于带外运行日志包类别时,通过带外日志解析流程对目标运行日志包进行解析,得到参数组数据;当目标运行日志包属于带内运行日志包类别时,通过带内日志解析流程对目标运行日志包进行解析,得到参数组数据。例如,结合图2,日志解析单元220用于方法实施例中的s102。
[0173]
可选的,内存可靠性评估装置200还包括输出单元240,用于当计算设备的内存故障严重程度满足预设条件时,输出告警信息。例如,结合图2,输出单元250用于方法实施例中的s104。
[0174]
可选的,输出单元240还用于,以内存故障严重程度由高到低的顺序输出多个计算设备的内存故障预测结果;其中,多个计算设备的内存故障预测结果是基于多个计算设备的目标运行日志包得到。例如,结合图2,输出单元240用于方法实施例中的s105。
[0175]
可选的,当目标运行日志包属于带外运行日志包类别时,参数组还包括计算设备的内存运行配置参数;计算设备的内存固有类别参数。
[0176]
可选的,参数组还包括:计算设备的内存运行状态参数。
[0177]
可选的,内存故障预测模型使用的是机器学习算法。
[0178]
当然,本技术实施例提供的内存可靠性评估装置200包括但不限于上述模块。
[0179]
图5是本技术实施例提供的另一种内存可靠性评估装置300的结构示意图,该内存可靠性评估装置300可以是如计算设备、平板电脑、桌面型、膝上型、笔记本电脑和上网本等计算设备。如图5所示,该内存可靠性评估装置300包括处理器301、存储器302和网络接口303。
[0180]
其中,处理器301包括一个或多个cpu。该cpu可以为单核cpu(single-cpu)或多核cpu(multi-cpu)。
[0181]
存储器302包括但不限于是随机存取存储器(random access memory,ram)、只读存储器(read-only memory,rom)、可擦除可编程只读存储器(erasable programmable read-only memory,eprom)、快闪存储器、或光存储器等。
[0182]
可选地,处理器301通过读取存储器302中保存的指令实现本技术实施例提供的内存可靠性评估方法,或者,处理器301通过内部存储的指令实现本技术实施例提供的内存可靠性评估方法。在处理器301通过读取存储器302中保存的指令实现上述实施例中的方法的情况下,存储器302中保存实现本技术实施例提供的内存可靠性评估方法的指令。
[0183]
网络接口303,包含发送器和接收器的一类装置,用于与其他设备或通信网络通信,可以是有线接口(端口),例如光纤分布式数据接口(fiber distributed data interface,fddi)、千兆以太网接口(gigabit ethernet,ge)。或者,网络接口303是无线接口。应理解,网络接口303包括多个物理端口,网络接口303用于通信等。
[0184]
可选地,内存可靠性评估装置300还包括总线304,上述处理器301、存储器302、网络接口303通常通过总线304相互连接,或采用其他方式相互连接。
[0185]
在实际实现时,上述获取单元210、日志解析单元220、输入单元230和输出单元240。可以由处理器调用存储器中的计算机程序代码来实现。其具体的执行过程可参考上述方法部分的描述,这里不再赘述。
[0186]
本技术另一实施例还提供一种内存可靠性评估装置,内存可靠性评估装置可以是如计算设备、平板电脑、桌面型、膝上型、笔记本电脑和上网本等计算设备。该内存可靠性评估装置包括存储器和处理器。存储器和处理器耦合;存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。其中,当处理器执行该计算机指令时,使得该内存可靠性评估装置执行上述方法实施例所示的内存可靠性评估方法的各个步骤。
[0187]
本技术另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当计算机指令在内存可靠性评估装置上运行时,使得内存可靠性评估装置执行上述方法实施例所示的内存可靠性评估方法流程中内存可靠性评估装置执行的各个步骤。
[0188]
本技术另一实施例还提供一种芯片系统,该芯片系统应用于内存可靠性评估装置。该芯片系统包括一个或多个接口电路,以及一个或多个处理器。接口电路和处理器通过线路互联。接口电路用于从内存可靠性评估装置的存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令。当内存可靠性评估装置处理器执行计算机指令时,内存可靠性评估装置执行上述方法实施例所示的内存可靠性评估处理方法流程中内存可靠性评估装置执行的各个步骤。
[0189]
在本技术另一实施例中还提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在内存可靠性评估装置上运行时,使得内存可靠性评估装置执行上述方法实施例所示的内存可靠性评估方法流程中内存可靠性评估装置执行的各个步骤。
[0190]
上述实施例可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,上述实施例可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本技术实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、服务器或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
[0191]
以上所述,仅为本技术的具体实施方式。熟悉本技术领域的技术人员根据本技术提供的具体实施方式,可想到变化或替换,都应涵盖在本技术的保护范围之内。

技术特征:


1.一种内存可靠性评估方法,其特征在于,所述方法包括:获取计算设备的目标运行日志包;对所述目标运行日志包进行解析,得到参数组数据;其中,所述参数组数据包括所述计算设备的内存故障参数;将所述参数组数据输入内存故障预测模型,得到所述计算设备的内存故障预测结果;其中,所述内存故障预测结果用于表征所述计算设备的内存故障的严重程度。2.根据权利要求1所述的方法,其特征在于,所述获取所述计算设备的目标运行日志包,包括:接收日志采集工具导入的所述计算设备的目标运行日志包。3.根据权利要求1或2所述的方法,其特征在于,所述对所述目标运行日志包进行解析,得到参数组数据,包括:接收第一指令,通过所述第一指令对应的日志包解析流程对所述目标运行日志包进行解析,得到所述参数组数据;其中,所述第一指令用于指示所述目标运行日志包所属类别;所述类别包括带外运行日志包类别或带内运行日志包类别。4.根据权利要求1所述的方法,其特征在于,所述获取计算设备的目标运行日志包,包括:向所述计算设备发送指示信息,所述指示信息用于指示获取所述目标运行日志包;接收所述计算设备针对所述指示信息返回的所述目标运行日志包。5.根据权利要求1至4任一项所述的方法,其特征在于,所述对所述目标运行日志包进行解析,得到参数组数据,包括:当所述目标运行日志包属于带外运行日志包类别时,通过带外日志解析流程对所述目标运行日志包进行解析,得到所述参数组数据;当所述目标运行日志包属于带内运行日志包类别时,通过带内日志解析流程对所述目标运行日志包进行解析,得到所述参数组数据。6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:当所述计算设备的内存故障严重程度满足预设条件时,输出告警信息。7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:以内存故障严重程度由高到低的顺序输出多个所述计算设备的内存故障预测结果;其中,多个所述计算设备的内存故障预测结果是基于多个所述计算设备的目标运行日志包得到。8.根据权利要求1至7任一项所述的方法,其特征在于,当所述目标运行日志包属于带外运行日志包类别时,所述参数组还包括所述计算设备的内存运行配置参数和/或所述计算设备的内存固有类别参数。9.根据权利要求1至8任一项所述的方法,其特征在于,所述参数组还包括:所述计算设备的内存运行状态参数。10.根据权利要求1至9任一项所述的方法,其特征在于,所述内存故障预测模型使用的是机器学习算法。11.一种内存可靠性评估装置,其特征在于,包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;
其中,当所述处理器执行所述计算机指令时,使得所述内存可靠性评估装置执行如权利要求1-10中任一项所述的方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令;其中,当所述计算机指令在内存可靠性评估装置上运行时,使得所述内存可靠性评估装置执行如权利要求1-10中任一项所述的方法。

技术总结


本申请公开了一种内存可靠性评估方法、装置及存储介质,涉及存储领域,有助于基于全面的内存故障信息准确的评估内存可靠性。方法包括:获取计算设备的目标运行日志包;对目标运行日志包进行解析,得到参数组数据;其中,参数组数据包括计算设备的内存故障参数;将参数组数据输入内存故障预测模型,得到计算设备的内存故障预测结果;其中,内存故障预测结果用于表征计算设备的内存故障的严重程度。表征计算设备的内存故障的严重程度。表征计算设备的内存故障的严重程度。


技术研发人员:

鲍全洋 张光彪 韦炜玮

受保护的技术使用者:

超聚变数字技术有限公司

技术研发日:

2022.09.23

技术公布日:

2022/12/30

本文发布于:2024-09-25 09:33:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/49621.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:内存   日志   设备   故障
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议