硬盘故障预测方法、计算设备及存储介质与流程



1.本技术涉及硬盘检测技术领域,具体涉及一种硬盘故障预测方法、计算设备及存储介质。


背景技术:



2.自我监测分析与报告技术(self-monitoring analysis and reporting technology,smart)作为一种自动监控机械硬盘(hard disk drive,hdd)驱动器完好状况和报告潜在问题的技术标准,是hdd普遍采用的数据安全技术。通过对hdd的硬件如磁头、盘片、马达、电路的运行情况进行监控、记录并与厂商所设定的预设安全值进行比较,若监控情况将或已超出预设安全值的安全范围,就可以通过主机的监控硬件或软件自动向用户做出警告并进行轻微的自动修复,以提前保障硬盘数据的安全。
3.当前的硬盘故障预测方法中,通常采用smart参数中的报错参数作为故障预测或故障判断的依据,该报错参数也即是由硬盘的输入/输出(input/output,io)错误引起数值变化的参数。
4.hdd内部存在纠错机制,通常在纠错能力范围内hdd可以正常响应io请求,此时smart参数还未达到预设安全值。然而,当hdd的健康状况进一步恶化,造成故障的报错参数超过hdd纠错能力,也即达到预设安全值时,可能会导致hdd在短时间集中出现多个io错误,从而影响计算设备的业务开展。


技术实现要素:



5.本技术提供一种硬盘故障预测方法及相关设备,用于在硬盘的内部硬件达到发生故障的临界点前尽可能地预测故障并处理,避免内部硬件的故障带来的短时间内的频繁报错,保障计算设备的业务开展。
6.第一方面,本技术提供了一种硬盘故障预测方法,应用于计算设备,该方法包括:
7.获取第一hdd的工作参数,该工作参数为在该第一hdd响应io请求的过程中该第一hdd的内部硬件反映的参数;
8.若该工作参数与该工作参数的标准值之间的关系满足对应预设条件,则对该第一hdd内的数据进行重构。
9.本技术中,通过获取hdd内部硬件在第一hdd响应io请求时反映的工作参数,并根据该工作参数、对应的标准值和对应预设条件确定第一hdd的工作状态;当该工作参数和该标准值之间的关系满足对应预设条件时,计算设备可以确定该第一hdd即将达到发生故障的临界点,然后对该第一hdd内的数据进行重构,从而可以避免第一hdd内部硬件的故障带来的短时间内的频繁报错,保障计算设备的数据安全和业务开展。
10.在一种可能的实现中,该标准值为该第一hdd出厂时的该工作参数。
11.本技术中,通过以出厂时的工作参数作为标准值,在第一hdd工作时可以检测实时的工作参数与出厂时的工作参数之间的偏差是否超过容忍阈值,从而判断第一hdd是否处
于即将发生故障的状态,以及是否需要重构数据,能够准确地判断第一hdd的状态。
12.在一种可能的实现中,该标准值为多个与该第一hdd相同型号的第二hdd在无故障状态下的对应该工作参数的平均值。
13.本技术中,通过以多个无故障状态下的相同型号的第二hdd的工作参数的平均值作为标准值,可以参考该多个第二hdd的工作环境、持续工作时间以及工作负载等因素,避免这些因素影响对当前第一hdd的状态的判断,使得判断结果更准确。
14.在一种可能的实现中,该工作参数包括该第一hdd的磁头的飞行高度,该飞行高度的标准值为标准飞行高度;该若该工作参数与该工作参数的标准值之间的关系满足对应预设条件,则对该第一hdd内的数据进行重构,包括:若在过去的第一预设时间段内,该磁头偏离该标准飞行高度的偏离时间和该第一预设时间段的比例大于等于第一比例,则对该第一hdd内的数据进行重构;其中,该磁头偏离该标准飞行高度是指该飞行高度与该标准飞行高度的差的绝对值大于第一阈值。
15.本技术中,通过监控磁头飞行的偏离时间与该第一预设时间段的比例,可以有效防止磁头的飞行高度突然过高或过低导致io读写发生连续错误,影响业务开展的情况。
16.在一种可能的实现中,该若在过去的第一预设时间段内,该磁头偏离该标准飞行高度的偏离时间和该第一预设时间段的比例大于等于第一比例,则对该第一hdd内的数据进行重构,包括:若在该第一预设时间段内,该偏离时间和该第一预设时间段的比例大于等于该第一比例,且在过去的第二预设时间段内,该偏离时间和该第二预设时间段的比例大于等于第二比例,则对该第一hdd内的数据进行重构;其中该第二预设时间段短于该第一预设时间段,该第二比例大于该第一比例。
17.本技术中,通过约束在过去第二预设时间段内的偏离时间大于等于第二比例时才执行对第一hdd中数据的重构,能够准确地判定磁头飞行高度偏离标准飞行高度的现象未被修复或解决,避免误判导致不必要的数据重构。
18.在一种可能的实现中,该若在过去的第一预设时间段内,该磁头偏离该标准飞行高度的偏离时间和该第一预设时间段的比例大于等于第一比例,则对该第一hdd内的数据进行重构,包括:若在该第一预设时间段内,该偏离时间和该第一预设时间段的比例等于1,则对该第一hdd内的数据进行重构。
19.本技术中,通过在磁头偏离所述标准飞行高度的偏离时间和第一预设时间段的比例等于1时对该第一hdd内的数据进行重构,能够提高计算设备对第一hdd的状态判断的准确性,减少误判导致不必要的数据重构。
20.在一种可能的实现中,该工作参数包括该第一hdd的磁头的磁阻,该磁阻的标准值为标准磁阻;该若该工作参数与该工作参数的标准值之间的关系满足对应预设条件,则对该第一hdd内的数据进行重构,包括:若该磁阻与该标准磁阻的差的绝对值大于第二阈值,则对该第一hdd内的数据进行重构。
21.其中,磁头的磁阻是指当前磁头的初始电阻与出厂时的初始电阻之间的相对变化数值,可以以百分比表示;初始电阻是指磁头在没有磁场影响下的电阻。
22.本技术中,通过监控磁头磁阻可以有效防止磁头的初始电阻变化过大,在同一磁信号强度下读取到不同的信号,导致io读写发生连续错误,影响业务开展的情况。
23.在一种可能的实现中,该工作参数包括该第一hdd的输入输出io平均时延,该io平
均时延的标准值为标准时延;该若该工作参数与该工作参数的标准值之间的关系满足对应预设条件,则对该第一hdd内的数据进行重构,包括:若该io平均时延大于第三阈值,则对该第一hdd内的数据进行重构。
24.本技术中,通过监控第一hdd的io平均时延,在该io平均时延过高时重构数据,可以有效防止第一hdd的内部硬件磨损或故障导致io平均时延过高损害业务性能,影响业务开展。
25.在一种可能的实现中,每个工作参数对应的预设条件包括第一条件和第二条件;若一个工作参数与该工作参数的标准值之间的关系满足对应第一条件,则计算设备可以对该第一hdd的数据进行重构;若至少两个工作参数与对应的标准值之间的关系满足对应的第二条件,则计算设备可以对该第一hdd的数据进行重构。
26.其中,该第二条件中工作参数偏离标准值的容忍阈值低于对应第一条件中该工作参数偏离标准值的容忍阈值。
27.在一种可能的实现中,若在过去的第一预设时间段内,磁头异常飞行的异常时间和该第一预设时间段的比例大于等于第一比例,且磁头的磁阻与标准磁阻的差的绝对值大于第五阈值,则计算设备可以对该第一hdd的数据进行重构;其中磁头异常飞行是指飞行高度与标准飞行高度的差的绝对值大于第四阈值。
28.其中,第四阈值小于第一阈值,第五阈值小于第二阈值。
29.在另一种可能的实现中,若磁头的磁阻与标准磁阻的差的绝对值大于第五阈值,且第一hdd的io平均时延大于第六阈值,则计算设备可以对该第一hdd的数据进行重构。
30.其中,第六阈值小于第三阈值。
31.在另一种可能的实现中,若在过去的第一预设时间段内,磁头异常飞行的异常时间和该第一预设时间段的比例大于等于第一比例,且第一hdd的io平均时延大于第六阈值,则计算设备可以对该第一hdd的数据进行重构。
32.本技术中,通过多个工作参数与各自的标准值的关系综合判断第一hdd是否处于即将发生故障的状态,可以得到更准确的预测结果,能够更好地保障数据安全和业务开展。
33.第二方面,本技术提供一种硬盘故障预测装置,该装置包括:
34.获取单元,用于获取第一hdd的工作参数,该工作参数为在该第一hdd响应io请求的过程中该第一hdd的内部硬件反映的参数;
35.重构单元,用于在该工作参数与该工作参数的标准值之间的关系满足对应预设条件时,对该第一hdd内的数据进行重构。
36.在一种可能的实现中,该标准值为该第一hdd出厂时的该工作参数。
37.在一种可能的实现中,该标准值为多个与该第一hdd相同型号的第二hdd在无故障状态下的对应该工作参数的平均值。
38.在一种可能的实现中,该工作参数包括该第一hdd的磁头的飞行高度,该飞行高度的标准值为标准飞行高度;该重构单元具体用于:若在过去的第一预设时间段内,该磁头偏离该标准飞行高度的偏离时间和该第一预设时间段的比例大于等于第一比例,则对该第一hdd内的数据进行重构;其中,该磁头偏离该标准飞行高度是指该飞行高度与该标准飞行高度的差的绝对值大于第一阈值。
39.在一种可能的实现中,该重构单元具体用于:若在该第一预设时间段内,该偏离时
间和该第一预设时间段的比例大于等于该第一比例,且在过去的第二预设时间段内,该偏离时间和该第二预设时间段的比例大于等于第二比例,则对该第一hdd内的数据进行重构;其中该第二预设时间段短于该第一预设时间段,该第二比例大于该第一比例。
40.在一种可能的实现中,该重构单元具体用于:若在该第一预设时间段内,该偏离时间和该第一预设时间段的比例等于1,则对该第一hdd内的数据进行重构。
41.在一种可能的实现中,该工作参数包括该第一hdd的磁头的磁阻,该磁阻的标准值为标准磁阻;该重构单元具体用于:若该磁阻与该标准磁阻的差的绝对值大于第二阈值,则对该第一hdd内的数据进行重构。
42.其中,磁头的磁阻是指当前磁头的初始电阻与出厂时的初始电阻之间的相对变化数值,以百分比表示;初始电阻是指磁头在没有磁场影响下的电阻。
43.在一种可能的实现中,该工作参数包括该第一hdd的输入输出io平均时延,该io平均时延的标准值为标准时延;该重构单元具体用于:若该io平均时延大于第三阈值,则对该第一hdd内的数据进行重构。
44.在一种可能的实现中,每个工作参数对应的预设条件包括第一条件和第二条件;该重构单元具体用于:若一个工作参数与该工作参数的标准值之间的关系满足对应第一条件,则计算设备可以对该第一hdd的数据进行重构;若至少两个工作参数与对应的标准值之间的关系满足对应的第二条件,则计算设备可以对该第一hdd的数据进行重构。
45.其中,该第二条件中工作参数偏离标准值的容忍阈值低于对应第一条件中该工作参数偏离标准值的容忍阈值。
46.在一种可能的实现中,该重构单元具体用于:若在过去的第一预设时间段内,磁头异常飞行的异常时间和该第一预设时间段的比例大于等于第一比例,且磁头的磁阻与标准磁阻的差的绝对值大于第五阈值,则计算设备可以对该第一hdd的数据进行重构;其中磁头异常飞行是指飞行高度与标准飞行高度的差的绝对值大于第四阈值。
47.其中,第四阈值小于第一阈值,第五阈值小于第二阈值。
48.在另一种可能的实现中,该重构单元具体用于:若磁头的磁阻与标准磁阻的差的绝对值大于第五阈值,且第一hdd的io平均时延大于第六阈值,则计算设备可以对该第一hdd的数据进行重构。
49.其中,第六阈值小于第三阈值。
50.在另一种可能的实现中,该重构单元具体用于:若在过去的第一预设时间段内,磁头异常飞行的异常时间和该第一预设时间段的比例大于等于第一比例,且第一hdd的io平均时延大于第六阈值,则计算设备可以对该第一hdd的数据进行重构。
51.第三方面,本技术提供一种计算设备,该计算设备包括:处理器、存储器;该存储器中存储有指令操作或代码;该处理器配置为与该存储器通信,并执行该存储器中的指令操作或代码以执行第一方面所述的方法。
52.第四方面,本技术提供一种计算机可读存储介质,该计算机可读存储介质包括指令,当该指令在计算机上运行时,使得计算机执行如第一方面所述的方法。
53.上述第二方面至第四方面提供的方案,用于实现或配合实现上述第一方面提供的方法,因此可以与第一方面达到相同或相应的有益效果,此处不再进行赘述。
附图说明
54.图1为本技术实施例提供的一种计算设备访问机械硬盘的系统框架图;
55.图2为本技术实施例提供的一种硬盘故障预测方法的流程示意图;
56.图3为本技术实施例提供的一种硬盘故障预测装置的结构示意图;
57.图4为本技术实施例提供的一种计算设备的结构示意图。
具体实施方式
58.下面结合附图,对本技术的实施例进行描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术发展和新场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
59.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
60.如图1所示,图1为本技术实施例提供的一种计算设备访问机械硬盘的系统框架图,该系统框架包括计算设备110和机械硬盘120。
61.计算设备110可以为服务器、存储控制器、交换机、路由器、控制器、计算卸载卡、计算加速卡、计算机、笔记本电脑等设备,本技术实施例对于图1所示的计算设备110的具体形式并不进行限定。
62.计算设备110用于和机械硬盘120的接口121进行数据交互,获取机械硬盘120中控制器122检测并记录的工作数据,该工作数据包括机械硬盘120的工作参数,以及smart技术标准中的关于io错误的报错参数。
63.其中,工作参数为机械硬盘120在响应io请求的过程中的内部硬件反映的参数,报错参数为机械硬盘120在发生io错误时内部硬件反映的参数。
64.机械硬盘120可以为串口硬盘(serial ata,sata),也可以为sas(serial attached scsi)硬盘。机械硬盘120包括接口121、控制器122、磁头和盘片。
65.其中,该磁头为磁阻(magneto resistive,mr)磁头。
66.接口121具体可以为sata接口,也可以为sas接口,还可以为高速串行计算机扩展总线标准(peripheral component interconnect express,pcie)下的nvme接口,用于与计算设备110进行数据交互;也就是说,机械硬盘120和计算设备110的连接方式可以是通过pcie接口连接,也可以是通过sata接口或sas接口连接。
67.接口121具体用于在接收到计算设备110的获取机械硬盘120的工作数据的请求时,向控制器122转发该请求。
68.控制器122用于周期性地采集机械硬盘120中包括磁头和盘片在内的内部硬件的工作数据,并在接收到接口121转发的上述请求时,将这些工作数据通过接口121返回至计算设备110。
69.其中,工作参数包括磁头飞行高度、磁头磁阻和io平均时延。
70.其中,磁头飞行高度是指磁头距离盘片表面的垂直距离,飞行高度过低则增加了磁头与盘片接触导致损坏的可能性,飞行高度过高则磁信号减弱,增大了读写错误率。因此可以通过检测磁头飞行高度是否处于正常范围以预测机械硬盘120是否会发生故障。
71.具体地,在磁头进行读写工作时,磁头中磁敏电阻的阻值会随着磁信号强度的变化而变化。因此,控制器122可以检测该磁敏电阻的阻值,并根据该阻值以及该磁敏电阻的磁阻参数,确定当前磁头所处磁场的磁信号强度。例如,控制器122可以根据该磁敏电阻两端的电压和经过该磁敏电阻的电流计算得到当前阻值,再根据该当前阻值从预设于控制器122的该磁敏电阻的电阻-磁信号强度表中获取对应的磁信号强度。
72.在获取当前的磁信号强度后,控制器122可以根据该磁信号强度,以及控制器122内预设的磁信号强度和飞行高度的映射关系确定当前磁头的飞行高度。
73.可以理解的是,在机械硬盘120出厂前,厂家会对机械硬盘120进行生产测试并记录测试数据;其中,该测试数据包括机械硬盘120的磁头不同飞行高度对应的磁信号强度。
74.具体地,磁头内部还包括加热器;控制器122可以利用热胀冷缩的原理,通过加热磁头使磁头膨胀形变,以降低飞行高度。进而,控制器122可以获取到不同飞行高度下,磁头所处磁场的磁信号强度。
75.在获取到两种映射关系后,厂家可以将该映射关系记录于机械硬盘120的控制器122中;当机械硬盘120工作时,可以根据当前磁头中磁敏电阻的阻值确定磁信号强度,再根据该磁信号强度确定当前磁头的飞行高度。
76.其中,磁头的磁阻是指当前磁头的初始电阻与出厂时的初始电阻之间的相对变化数值,以百分比表示;初始电阻是指磁头在没有磁场影响下的电阻。
77.具体地,控制器122可以在机械硬盘120上电后,盘片未转动时,通过磁头两端的电压和经过磁头的电流计算得到磁头当前的初始电阻;再根据该当前的初始电阻和出厂时的初始电阻的差值,计算该差值与该出厂时的初始电阻的比例,得到当前磁头的磁阻。
78.其中,机械硬盘120的io时延是指机械硬盘120根据io请求完成一次读写的时间,具体包括机械转动时延、寻址时延和块传输时延。控制器122可以统计机械硬盘120在一定周期内的io时延的平均值,通过检测该平均值是否处于可接受范围以预测机械硬盘120是否会发生故障。
79.具体地,由于io请求的数量较大,控制器122可以通过先进先出的方式记录最新的多个io请求的时延;在接收到计算设备110的获取请求时,根据该时延集合计算平均值作为机械硬盘120的io时延。或者,控制器122也可以周期性地记录一个时延平均值,每完成一次io请求后,根据该次io请求的时延更新该时延平均值,在每一周期结束时将该时延平均值置0;在接收到计算设备110的获取请求时,以该时延平均值作为机械硬盘120的io时延。
80.可以理解的是,厂家可以根据机械硬盘120的标准转速、磁道数量和扇区数量计算确定标准的机械转动时延、寻址时延和块传输时延,例如机械转动时延为磁盘旋转一周时间的一半;再根据这些标准值设置io时延的可接受范围的阈值。
81.例如,一个转速为15000转每分钟(revolutions per minute,rpm)的机械硬盘,其机械转动时延平均为2ms,寻址时延平均为2-3ms,块传输时延平均为0.1ms;则该机械硬盘的io时延平均为5ms。通过在该机械硬盘的控制器中预设可接受的io时延的阈值,例如
50ms,控制器可以在io时延过高时预测机械硬盘即将发生故障,进而执行对应的处理。
82.需要说明的是,在具体实现中,计算设备110和机械硬盘120可以是任何包括图1中类似结构的设备。本技术实施例不限定计算设备110和机械硬盘120的具体组成结构。此外,图1中示出的连接关系并不构成对计算设备110和机械硬盘120之间连接关系的限定,除图1所示的部件之外,该计算系统100可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
83.在如图1所示的系统框架中,现有技术通常通过控制器122对机械硬盘120的io错误进行检测、统计和存储,也即获取报错参数。例如,底层数据读取错误率(raw read error rate)、重映射扇区数(relocated sector count)和能够被延迟纠正的错误数(errors corrected with possible delays)。计算设备通过统计上述可纠正的或不可纠正的错误数,在错误数达到预设安全值时,向用户输出告警信息。
84.而在该错误数达到预设安全值时,机械硬盘120的内部硬件可能已达到无法正常工作的状态。例如此时的磁头飞行高度已持续超过临界值,则接下来的io读写过程中将频繁地出现错误。
85.因此,亟需一种新的硬盘故障预测方法,能够在硬盘的内部硬件达到发生故障的临界点前尽可能地预测异常或故障,避免内部硬件的异常或故障带来的短时间内的频繁报错,保障计算设备的业务开展。
86.基于图1所示的系统框架,可以参阅图2,图2为本技术实施例提供的一种硬盘故障预测方法的流程示意图,该方法应用于计算设备,具体包括步骤201和步骤202。
87.201、计算设备获取第一hdd的工作参数。
88.其中,第一hdd为与计算设备连接的一个或多个hdd中的任意一个hdd。
89.其中,该工作参数为该第一hdd在响应io请求的过程中第一hdd的内部硬件反映的参数。
90.具体地,该工作参数可以包括磁头的飞行高度、磁头的磁阻和io平均时延中的一个或多个。
91.其中,计算设备可以先向第一hdd的控制器发送获取工作参数的指令,再接收该控制器返回的第一hdd的工作参数。
92.其中,计算设备可以周期性地发送该获取工作参数的指令,也可以是响应用户的操作后发送该指令,还可以是根据计算设备的状态参数发送该指令,例如当计算设备的负载超过50%时发送。
93.202、若该工作参数与该工作参数的标准值之间的关系满足对应预设条件,则计算设备对该第一hdd内的数据进行重构。
94.其中,每个工作参数均设置有对应的标准值,用于在第一hdd工作时与实时的工作参数进行对比和调整,以免hdd的内部硬件发生异常或故障,导致影响业务,甚至损坏硬盘。
95.在一种可能的实现中,该标准值可以是预设于第一hdd中的,该第一hdd出厂时的工作参数,计算设备在第一次连接该第一hdd时获取得到该标准值并存储。
96.在另一种可能的实现中,该标准值可以是实时计算的,多个与第一hdd相同型号的第二hdd在无故障状态下的对应工作参数的平均值。
97.其中,该多个第二hdd可以是与该计算设备相连接的hdd。可以理解的是,当第二
hdd与计算设备无连接关系时,计算设备可以通过云端或其他计算设备获取该第二hdd的工作参数,进而计算该标准值。
98.可以理解的是,参与计算标准值的该多个第二hdd的工作参数可以是实时的工作数据,也可以是历史的工作数据。
99.其中,预设条件为预设于计算设备中的,用于约束对应工作参数的波动的数值条件;当一个工作参数与其标准值之间的关系满足对应的预设条件时,说明该工作参数的波动已经超过了容忍阈值,需要对该hdd进行对应的调整以尽可能地避免损失。
100.在一种可能的实现中,磁头飞行高度的标准值为标准飞行高度;若在过去的第一预设时间段内,磁头偏离标准飞行高度的偏离时间和所述第一预设时间段的比例大于等于第一比例,则对第一hdd内的数据进行重构。
101.其中,磁头偏离标准飞行高度是指磁头的飞行高度与标准飞行高度的差的绝对值大于第一阈值。
102.受盘片转动带来的磁场变化的影响,磁头在io读写过程中的飞行高度将产生波动;在检测到磁头的飞行高度偏离标准值时,第一hdd可以采用热飞高控制磁头技术,通过热胀冷缩的原理使磁头发生热变形,从而降低或升高磁头的飞行高度。
103.其中,计算设备可以获取该磁头的历史飞行高度数据,并根据在过去的第一预设时间段内磁头是否有大于第一比例的时间偏离标准飞行高度,判断第一hdd是否处于即将发生故障的状态,避免因为偶然因素突破该安全临界值而导致误判。
104.可选的,该第一预设时间段可以为24小时。
105.可选的,该第一比例可以为60%,也可以为80%或90%。
106.可选的,该标准飞行高度为10纳米,该第一阈值为标准飞行高度的20%。
107.可以理解的是,若计算设备根据该偏离时间判断第一hdd处于即将发生故障的状态,计算设备可以对第一hdd内的数据进行重构。
108.为了防止磁头在第一预设时间段的靠前时间达成该预设条件后,因为第一hdd的自我修复能力或外界因素导致磁头回归正常飞行高度,而计算设备仍然对第一hdd的数据进行重构的情况,本技术实施例还提出了进一步的方案。
109.在一种可能的实现中,若在第一预设时间段内,该偏离时间和该第一预设时间段的比例大于等于所述第一比例,且在过去的第二预设时间段内,该偏离时间和该第二预设时间段的比例大于等于第二比例,则对该第一hdd内的数据进行重构;其中该第二预设时间段短于该第一预设时间段,该第二比例大于该第一比例。
110.本技术实施例中,通过约束在过去第二预设时间段内的偏离时间大于等于第二比例时才执行对第一hdd中数据的重构,能够准确地判定磁头飞行高度偏离标准飞行高度的现象未被修复或解决,避免误判导致不必要的数据重构。
111.在另一种可能的实现中,若在该第一预设时间段内,该偏离时间和该第一预设时间段的比例等于1,则对该第一hdd内的数据进行重构。
112.在一种可能的实现中,磁头磁阻的标准值为标准磁阻;若磁头的磁阻与标准磁阻的差的绝对值大于第二阈值,则计算设备可以确定第一hdd处于即将发生故障的状态。
113.可选的,该第二阈值为标准磁阻的5%。
114.在一种可能的实现中,该标准值包括标准时延;若第一hdd的io平均时延大于第三
阈值,则计算设备可以确定第一hdd处于即将发生故障的状态。
115.可选的,该第三阈值为50ms。
116.可以理解的是,第一hdd的io数量较多,一一统计并记录将耗费大量的计算资源,因此该io平均时延可以为一个周期内采集的多个样本的平均时延。
117.在一种可能的实现中,每个工作参数对应的预设条件包括第一条件和第二条件;若一个工作参数与该工作参数的标准值之间的关系满足对应第一条件,则计算设备可以对该第一hdd的数据进行重构;若至少两个工作参数与对应的标准值之间的关系满足对应的第二条件,则计算设备可以对该第一hdd的数据进行重构。
118.其中,该第二条件中工作参数偏离标准值的容忍阈值低于对应第一条件中该工作参数偏离标准值的容忍阈值。
119.具体地,在一种可能的实现中,若在过去的第一预设时间段内,磁头异常飞行的异常时间和该第一预设时间段的比例大于等于第一比例,且磁头的磁阻与标准磁阻的差的绝对值大于第五阈值,则计算设备可以对该第一hdd的数据进行重构;其中磁头异常飞行是指飞行高度与标准飞行高度的差的绝对值大于第四阈值。
120.其中,第四阈值小于第一阈值,第五阈值小于第二阈值。
121.在另一种可能的实现中,若磁头的磁阻与标准磁阻的差的绝对值大于第五阈值,且第一hdd的io平均时延大于第六阈值,则计算设备可以对该第一hdd的数据进行重构。
122.其中,第六阈值小于第三阈值。
123.在另一种可能的实现中,若在过去的第一预设时间段内,磁头异常飞行的异常时间和该第一预设时间段的比例大于等于第一比例,且第一hdd的io平均时延大于第六阈值,则计算设备可以对该第一hdd的数据进行重构。
124.本技术实施例中,通过多个工作参数与各自的标准值的关系综合判断第一hdd是否处于即将发生故障的状态,可以得到更准确的预测结果,能够更好地保障数据安全和业务开展。
125.为了保障数据安全,避免第一hdd的突然损坏导致数据丢失,计算设备在确定第一hdd处于即将发生故障的状态之后,可以在与计算设备连接的第二hdd或者云端计算生成该第一hdd中的所有数据,以重构该第一hdd。
126.本技术实施例中,通过以第一hdd响应io请求时内部硬件反映的工作参数,以及该工作参数与对应的标准值之间的关系作为判断第一hdd是否发生故障的依据,能够根据内部硬件的工作状态完成对第一hdd是否即将发生故障的判断;并在判断该第一hdd处于即将发生故障的状态时重构该第一hdd,无需等待io错误发生后再进行统计和告警,避免了短时间内大量io错误影响计算设备的业务的情况。
127.结合本技术实施例提供的硬盘故障预测方法,本技术还提供一种硬盘故障预测装置300,具体请参阅图3,图3为硬盘故障预测装置300的结构示意图,硬盘故障预测装置300具体可以包括:
128.获取单元301,用于获取第一hdd的工作参数,该工作参数为在该第一hdd响应io请求的过程中该第一hdd的内部硬件反映的参数;
129.重构单元302,用于在该工作参数与该工作参数的标准值之间的关系满足对应预设条件时,对该第一hdd内的数据进行重构。
130.在一种可能的实现中,该标准值为该第一hdd出厂时的该工作参数。
131.在一种可能的实现中,该标准值为多个与该第一hdd相同型号的第二hdd在无故障状态下的对应该工作参数的平均值。
132.在一种可能的实现中,该工作参数包括该第一hdd的磁头的飞行高度,该飞行高度的标准值为标准飞行高度;该重构单元302具体用于:若在过去的第一预设时间段内,该磁头偏离该标准飞行高度的偏离时间和该第一预设时间段的比例大于等于第一比例,则对该第一hdd内的数据进行重构;其中,该磁头偏离该标准飞行高度是指该飞行高度与该标准飞行高度的差的绝对值大于第一阈值。
133.在一种可能的实现中,该重构单元302具体用于:若在该第一预设时间段内,该偏离时间和该第一预设时间段的比例大于等于该第一比例,且在过去的第二预设时间段内,该偏离时间和该第二预设时间段的比例大于等于第二比例,则对该第一hdd内的数据进行重构;其中该第二预设时间段短于该第一预设时间段,该第二比例大于该第一比例。
134.在一种可能的实现中,该重构单元302具体用于:若在该第一预设时间段内,该偏离时间和该第一预设时间段的比例等于1,则对该第一hdd内的数据进行重构。
135.在一种可能的实现中,该工作参数包括该第一hdd的磁头的磁阻,该磁阻的标准值为标准磁阻;该重构单元302具体用于:若该磁阻与该标准磁阻的差的绝对值大于第二阈值,则对该第一hdd内的数据进行重构。
136.其中,磁头的磁阻是指当前磁头的初始电阻与出厂时的初始电阻之间的相对变化数值,以百分比表示;初始电阻是指磁头在没有磁场影响下的电阻。
137.在一种可能的实现中,该工作参数包括该第一hdd的输入输出io平均时延,该io平均时延的标准值为标准时延;该重构单元302具体用于:若该io平均时延大于第三阈值,则对该第一hdd内的数据进行重构。
138.在一种可能的实现中,每个工作参数对应的预设条件包括第一条件和第二条件;该重构单元302具体用于:若一个工作参数与该工作参数的标准值之间的关系满足对应第一条件,则计算设备可以对该第一hdd的数据进行重构;若至少两个工作参数与对应的标准值之间的关系满足对应的第二条件,则计算设备可以对该第一hdd的数据进行重构。
139.其中,该第二条件中工作参数偏离标准值的容忍阈值低于对应第一条件中该工作参数偏离标准值的容忍阈值。
140.在一种可能的实现中,该重构单元302具体用于:若在过去的第一预设时间段内,磁头异常飞行的异常时间和该第一预设时间段的比例大于等于第一比例,且磁头的磁阻与标准磁阻的差的绝对值大于第五阈值,则计算设备可以对该第一hdd的数据进行重构;其中磁头异常飞行是指飞行高度与标准飞行高度的差的绝对值大于第四阈值。
141.其中,第四阈值小于第一阈值,第五阈值小于第二阈值。
142.在另一种可能的实现中,该重构单元302具体用于:若磁头的磁阻与标准磁阻的差的绝对值大于第五阈值,且第一hdd的io平均时延大于第六阈值,则计算设备可以对该第一hdd的数据进行重构。
143.其中,第六阈值小于第三阈值。
144.在另一种可能的实现中,该重构单元302具体用于:若在过去的第一预设时间段内,磁头异常飞行的异常时间和该第一预设时间段的比例大于等于第一比例,且第一hdd的
io平均时延大于第六阈值,则计算设备可以对该第一hdd的数据进行重构。
145.本技术实施例提供的硬盘故障预测装置300,其工作原理和有益效果可以参阅前述硬盘故障预测方法实施例部分的相应内容进行理解,此处不再重复赘述。
146.本技术实施例还提供一种计算设备400,如图4所示,该计算设备400包括处理器401和存储器403;
147.其中,该存储器403中存储有指令操作或代码;
148.处理器401配置为与存储器403通信,并执行存储器403中的指令操作或代码以执行如图2所提供的硬盘故障预测方法。
149.可选的,处理器401和存储器403通过总线402连接。
150.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质包括指令,当该指令在计算机上运行时,使得计算机执行如图2所提供的硬盘故障预测方法。
151.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术实施例的范围。
152.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
153.在本技术实施例所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
154.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
155.另外,在本技术实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
156.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

技术特征:


1.一种硬盘故障预测方法,其特征在于,所述方法包括:获取第一机械硬盘hdd的工作参数,所述工作参数为在所述第一hdd响应io请求的过程中所述第一hdd的内部硬件反映的参数;若所述工作参数与所述工作参数的标准值之间的关系满足对应预设条件,则对所述第一hdd内的数据进行重构。2.根据权利要求1所述的方法,其特征在于,所述标准值为所述第一hdd出厂时的所述工作参数。3.根据权利要求1所述的方法,其特征在于,所述标准值为多个与所述第一hdd相同型号的第二hdd在无故障状态下的对应所述工作参数的平均值。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述工作参数包括所述第一hdd的磁头的飞行高度,所述飞行高度的标准值为标准飞行高度;所述若所述工作参数与所述工作参数的标准值之间的关系满足对应预设条件,则对所述第一hdd内的数据进行重构,包括:若在过去的第一预设时间段内,所述磁头偏离所述标准飞行高度的偏离时间和所述第一预设时间段的比例大于等于第一比例,则对所述第一hdd内的数据进行重构;其中,所述磁头偏离所述标准飞行高度是指所述飞行高度与所述标准飞行高度的差的绝对值大于第一阈值。5.根据权利要求4所述的方法,其特征在于,所述若在过去的第一预设时间段内,所述磁头偏离所述标准飞行高度的偏离时间和所述第一预设时间段的比例大于等于第一比例,则对所述第一hdd内的数据进行重构,包括:若在所述第一预设时间段内,所述偏离时间和所述第一预设时间段的比例大于等于所述第一比例,且在过去的第二预设时间段内,所述偏离时间和所述第二预设时间段的比例大于等于第二比例,则对所述第一hdd内的数据进行重构;其中所述第二预设时间段短于所述第一预设时间段,所述第二比例大于所述第一比例。6.根据权利要求4所述的方法,其特征在于,所述若在过去的第一预设时间段内,所述磁头偏离所述标准飞行高度的偏离时间和所述第一预设时间段的比例大于等于第一比例,则对所述第一hdd内的数据进行重构,包括:若在所述第一预设时间段内,所述偏离时间和所述第一预设时间段的比例等于1,则对所述第一hdd内的数据进行重构。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述工作参数包括所述第一hdd的磁头的磁阻,所述磁阻的标准值为标准磁阻;所述若所述工作参数与所述工作参数的标准值之间的关系满足对应预设条件,则对所述第一hdd内的数据进行重构,包括:若所述磁阻与所述标准磁阻的差的绝对值大于第二阈值,则对所述第一hdd内的数据进行重构;其中,所述磁阻是指所述磁头当前的初始电阻与出厂时的初始电阻之间的相对变化数值,所述初始电阻为所述磁头在没有磁场影响下的电阻。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述工作参数包括所述第一hdd的输入输出io平均时延,所述io平均时延的标准值为标准时延;所述若所述工作参数与所述工作参数的标准值之间的关系满足对应预设条件,则对所述第一hdd内的数据进行重
构,包括:若所述io平均时延大于第三阈值,则对所述第一hdd内的数据进行重构。9.根据权利要求1至8中任一项所述的方法,其特征在于,每个所述工作参数对应的预设条件包括第一条件和第二条件,所述第二条件中所述工作参数偏离所述标准值的容忍阈值低于所述第一条件中所述工作参数偏离所述标准值的容忍阈值;所述若所述工作参数与所述工作参数的标准值之间的关系满足对应预设条件,则对所述第一hdd内的数据进行重构,包括:若一个所述工作参数与所述工作参数的标准值之间的关系满足对应的所述第一条件,则对所述第一hdd内的数据进行重构;若至少两个所述工作参数与所述工作参数的标准值之间的关系满足对应的所述第二条件,则对所述第一hdd内的数据进行重构。10.一种计算设备,其特征在于,所述计算设备包括:处理器、存储器;所述存储器中存储有指令操作或代码;所述处理器配置为与所述存储器通信,并执行所述存储器中的指令操作或代码以执行权利要求1至9中任一所述的方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1至9中任一所述的方法。

技术总结


本申请实施例公开了一种硬盘故障预测方法、计算设备及存储介质,该方法包括:获取第一HDD的工作参数,该工作参数为在该第一HDD响应IO请求的过程中该第一HDD的内部硬件反映的参数;若该工作参数与该工作参数的标准值之间的关系满足对应预设条件,则对该第一HDD内的数据进行重构。通过在该工作参数和该标准值之间的关系满足对应预设条件时,确定该第一HDD即将达到发生故障的临界点,然后对该第一HDD内的数据进行重构,从而可以避免第一HDD内部硬件的故障带来的短时间内的频繁报错,保障计算设备的数据安全和业务开展。设备的数据安全和业务开展。设备的数据安全和业务开展。


技术研发人员:

王振华

受保护的技术使用者:

超聚变数字技术有限公司

技术研发日:

2022.11.09

技术公布日:

2023/3/7

本文发布于:2024-09-25 02:32:57,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/69253.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:磁头   所述   阈值   参数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议