周期性指标判定方法、装置、设备及计算机可读存储介质与流程



1.本发明涉及数据处理技术领域,尤其涉及一种周期性指标判定方法、装置、设备及计算机可读存储介质。


背景技术:



2.随着互联网技术的飞速发展,系统架构越显复杂,衡量系统好坏的指标关系也越来越复杂,靠人为经验去梳理指标的网状关系耗时耗力,且系统更新迭代频繁,梳理进度赶不上真正的生产变化速度,这无疑对维护系统的工作人员增加更大的难度。也就是目前衡量系统好坏的指标关系越来越复杂,需要靠人为经验去梳理指标的网状关系,耗时耗力,且系统更新迭代频繁,梳理进度也无法赶上真正的生产变化速度,使得梳理出的周期性指标的准确有效性较低。


技术实现要素:



3.本发明的主要目的在于提供一种周期性指标判定方法、装置、设备及计算机可读存储介质,旨在解决如何提高确定周期性指标的准确有效性的技术问题。
4.为实现上述目的,本发明提供一种周期性指标判定方法,包括以下步骤:
5.采集数据中心的指标数据,并对采集的所述指标数据进行标注,以获取标注指标数据;
6.对所述标注指标数据中的所有特征数据进行聚合处理,以确定各所述特征数据对应的偏差度,并根据各所述偏差度对各所述特征数据进行调整,以获取新数据集;
7.基于预设的时间序列算法确定所述新数据集对应的检验值,并根据所述新数据集进行逻辑回归训练,以得到初始预测值;
8.根据所述检验值和所述初始预测值确定所述标注指标数据对应的指标是否为周期性指标。
9.可选地,对所述标注指标数据中的所有特征数据进行聚合处理,以确定各所述特征数据对应的偏差度的步骤,包括:
10.提取所述标注指标数据中的所有特征数据,并对各所述特征数据进行聚合分类处理,以得到所有聚合簇;
11.遍历各所述聚合簇,确定遍历的聚合簇中的所有聚合特征数据,根据预设的偏差度计算公式和各所述聚合特征数据计算偏差度。
12.可选地,根据预设的偏差度计算公式和各所述聚合特征数据计算偏差度的步骤,包括:
13.遍历各所述聚合特征数据,计算遍历的聚合特征数据与各所述聚合特征数据之间的所有平均相似度值;
14.确定各所述平均相似度值对应的聚合簇类数,并将各所述平均相似度值和所述聚合簇类数输入至预设的偏差度计算公式进行计算,以得到偏差度。
15.可选地,计算遍历的聚合特征数据与各所述聚合特征数据之间的所有平均相似度值的步骤,包括:
16.计算各所述聚合特征数据中的目标聚合特征数据和遍历的聚合特征数据之间的最小度量距离和最大度量距离;
17.根据所述最小度量距离和最大度量距离计算平均度量距离,并将所述平均度量距离作为所述遍历的聚合特征数据与所述目标聚合特征数据之间的平均相似度值。
18.可选地,根据各所述偏差度对各所述特征数据进行调整,以获取新数据集的步骤,包括:
19.依次确定各所述偏差度对应的取值范围,并根据各所述取值范围确定各所述偏差度的调整策略,根据各所述调整策略对各所述偏差度对应的特征数据进行调整,以获取新数据集。
20.可选地,根据所述检验值和所述初始预测值确定所述标注指标数据对应的指标是否为周期性指标的步骤,包括:
21.确定所述标注指标数据对应的预设权重,根据所述预设权重、所述检验值和所述初始预测值计算最终预测值;
22.根据检测所述最终预测值是否大于预设定值的检测结果确定所述标注指标数据对应的指标是否为周期性指标。
23.可选地,根据所述预设权重、所述检验值和所述初始预测值计算最终预测值的步骤,包括:
24.计算所述预设权重和所述初始预测值之间的第一乘积,并计算所述预设权重对应的第二权重和所述检验值之间的第二乘积;
25.计算所述第一乘积和所述第二乘积的和值,并将所述和值作为最终预测值。
26.此外,为实现上述目的,本发明还提供一种周期性指标判定装置,包括:
27.采集单元,用于采集数据中心的指标数据,并对采集的所述指标数据进行标注,以获取标注指标数据;
28.聚合单元,用于对所述标注指标数据中的所有特征数据进行聚合处理,以确定各所述特征数据对应的偏差度,并根据各所述偏差度对各所述特征数据进行调整,以获取新数据集;
29.训练单元,用于基于预设的时间序列算法确定所述新数据集对应的检验值,并根据所述新数据集进行逻辑回归训练,以得到初始预测值;
30.确定单元,用于根据所述检验值和所述初始预测值确定所述标注指标数据对应的指标是否为周期性指标。
31.此外,为实现上述目的,本发明还提供一种周期性指标判定设备,周期性指标判定设备包括存储器、处理器及存储在存储器上并可在处理器上运行的周期性指标判定程序,周期性指标判定程序被处理器执行时实现如上述的周期性指标判定方法的步骤。
32.此外,为实现上述目的,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有周期性指标判定程序,周期性指标判定程序被处理器执行时实现如上述的周期性指标判定方法的步骤。
33.本发明通过对采集的标注指标数据中的所有特征数据进行聚合处理,得到偏差
度,并根据各个偏差度对各个特征数据进行调整,得到新数据集,再确定新数据集的检验值和初始预测值,并根据检验值和初始预测值确定标注指标数据对应的指标是否为周期性指标,从而避免了现有技术中需要依赖人工进行周期性指标确定,导致耗时耗力,且梳理出的周期性指标的准确有效性较低的现象发生,提高了确定周期性指标的准确有效性。
附图说明
34.图1是本发明实施例方案涉及的硬件运行环境的终端\装置结构示意图;
35.图2为本发明周期性指标判定方法第一实施例的流程示意图;
36.图3为本发明周期性指标判定装置的装置单元示意图;
37.图4为本发明周期性指标判定方法中的模块流程示意图。
38.本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
39.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
40.如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
41.本发明实施例终端为周期性指标判定设备。
42.如图1所示,该终端可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
43.可选地,终端还可以包括摄像头、rf(radio frequency,射频)电路,传感器、音频电路、wifi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在终端设备移动到耳边时,关闭显示屏和/或背光。当然,终端设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
44.本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
45.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及周期性指标判定程序。
46.在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的周期性指标判定程序,并执行以下操作:
47.采集数据中心的指标数据,并对采集的所述指标数据进行标注,以获取标注指标数据;
48.对所述标注指标数据中的所有特征数据进行聚合处理,以确定各所述特征数据对
应的偏差度,并根据各所述偏差度对各所述特征数据进行调整,以获取新数据集;
49.基于预设的时间序列算法确定所述新数据集对应的检验值,并根据所述新数据集进行逻辑回归训练,以得到初始预测值;
50.根据所述检验值和所述初始预测值确定所述标注指标数据对应的指标是否为周期性指标。
51.参照图2,本发明提供一种周期性指标判定方法,在周期性指标判定方法的第一实施例中,周期性指标判定方法包括以下步骤:
52.步骤s10,采集数据中心的指标数据,并对采集的所述指标数据进行标注,以获取标注指标数据;
53.由于目前进行的指标分析流程是基于专业人士经验,对指标进行归类标注,再融入统计方法进行特征提取,再进行批量计算,其人工标注和梳理的成本较高,且在大数据情况下,人工标注梳理工作量级比较大,无法满足目前的需求。因此在本实施例中,通过对指标数据的特征进行聚合,根据聚合结果计算聚合出的特征偏离因子,以便根据特征偏离因子计算特征数据的偏离值(即偏差度),根据偏离值调整特征数据,得到调整后的数据集(即新数据集),对新数据集进行初始训练得到检验值,如adf(augmented dickey-fuller,单位根检验)-test(时间)检验值。同时利用逻辑回归模型进行迭代训练,得到初始预测值。并将初始预测值和检验值进行结合得到最终预测值,根据最终预测值来判断出周期性指标。也就是在本实施例中会将逻辑回归模型与adf-test检验值相结合,进行合理模型加权调参,实现结合实际指标属性预测周期性,提高预测的准确性的目的。并且本实施可以避免强依赖专业人士经验的现象发生,可以从业务各归属系统中,提取业务属性,对各业务类别进行特定聚合,降低人工标注成功。并且经实际生成模型应用评估,周期性预测准确率会得到大幅度提高。也就是本实施例中的周期性指标的判定方法可以如图4所示,包括指标采集模块、指标聚合模块、指标分析模块和指标训练模块。其中,指标采集模块包括数据抽取、数据去噪、指标筛选和指标标注。指标聚合模块包括特征提取、特征计算和指标归类。指标分析模块包括指标计算和指标分析。指标训练模块包括离线训练、指标预测和指标库。
54.因此,在本实施例中,可以先通过指标数据采集模块进行数据采集,即可以在提前设置的数据中心中确定所有的业务指标数据,并按照各个业务场景对所有的业务指标数据进行指标梳理,选取比较活跃的业务指标数据进行数据采样,以得到采集的业务指标数据。再对采集的业务指标数据进行数据平滑去噪处理,剔除因网络波动、常规异动引发的指标波动数据,从而得到采集的指标数据。再对采集的指标数据进行标注,得到标注指标数据。其中,若采集的指标数据为主机性能类指标,则该采集的指标数据对应的标注为应用层。标注指标数据,为具有标注的指标数据,并且标注指标数据的数量可以为多个或1个。
55.步骤s20,对所述标注指标数据中的所有特征数据进行聚合处理,以确定各所述特征数据对应的偏差度,并根据各所述偏差度对各所述特征数据进行调整,以获取新数据集;
56.当得到标注指标数据后,可以根据指标聚合模块对标注指标数据中的所有特征数据进行聚合处理,即根据标注指标数据的数据特性将其映射到[0-1]的区间,再对映射后的标注指标数据进行主成分特征提取(如通过正交变换将一组可能存在线性相关性的变量转换为一组线性不相关的变量),得到所有特征数据,再对各个特征数据进行聚合计算,按照聚合维度进行分类处理,得到多个聚合簇,如性能类聚合簇、业务类聚合簇等。再计算每个
聚合簇中的偏差度,即各个特征数据对应的偏差度。其中,在计算偏差度时,需要对各个特征数据进行特征降维处理,得到降维后的特征数据,然后选择特征贡献率较高的进行指标分析,以减少高维数据对模型训练的干扰。并在获取到各个偏差度后,需要根据各个偏差度对各个特征数据进行调整,以得到新数据集。
[0057]
即将各个特征数据作为样板数据集d=x1,x2,

,xm,并确定相似度量函数s,聚合簇类数k,偏差度α,其中,ci=xi,i=1,2,

,m,j=1,2,

,m,d(i,j)表示度量距离。
[0058]
最小度量距离公式为:
[0059][0060]
最大度量距离公式为:
[0061][0062]
平均度量距离公式为:
[0063][0064]
也就是根据最小度量距离公式计算各指标之间的最小度量距离,根据最大度量距离公式计算各指标之间的最大度量距离,再根据最小度量距离和最大度量距离计算平均度量距离,以便根据平均度量距离确定各特征数据之间的平均相似程度s
t
,t=1,2,

k;再将平均相似程度输入至偏差度因子计算公式中进行计算以得到偏差度。即:
[0065][0066]
再根据偏差度调整聚合簇中与偏差度关联的所有指标之间的指标偏差。即:
[0067]
yi=x
i-α
t

[0068]
其中,yi为调整后的指标数据,则生成的新数据集为θ=y1,y2,

,ym。
[0069]
步骤s30,基于预设的时间序列算法确定所述新数据集对应的检验值,并根据所述新数据集进行逻辑回归训练,以得到初始预测值;
[0070]
当获取到新数据集后,还需要对新数据集进行训练,即根据指标训练模块进行时序指标训练集抽取,即可以根据新数据集和标注指标数据的标注信息进行均等抽样,得到训练集和验证集,其中训练集和验证集的比例为8:2。再根据提前设置的时间序列算法对训练集进行计算,以得到检验值。在本实施例中,可以是对训练集进行arima(autoregressive integrated moving average model,差分整合移动平均自回归模型)模型训练,得到adf-test检验值γ。其中,0<γ<1,并且若γ越接近0,则确定所判定的标注指标数据对应的指标(如主机指标)越具有稳定性。其中,检验值是检验时间序列是否具有平稳性的含义。
[0071]
在本实施例中,还需要根据训练集进行逻辑回归训练,以得到初始预测值,即可以根据逻辑回归算法将时序性主机性能数据进行连续性映射,对训练集数据回归训练,得到训练模型,此训练模型的输出函数为:
[0072][0073]
其中,g(z)为初始预测值,并且g(z)的输出结果为(0,1)之间的值。步骤s40,根据所述检验值和所述初始预测值确定所述标注指标数据对应的指标是否为周期性指标。
[0074]
当获取到初始预测值和检验值后,可以将检验值和初始预测值进行融合,即将检验值融入到逻辑回归算法中进行模型训练,其函数表达式为:
[0075]
f(z)=βg(z)+(1-β)γ
[0076]
并且由于g(z)的输出结果为(0,1)之间的值,输出值越接近1,表示指标的周期性越强。而在实际分析指标的过程中,存在衡量指标,此指标不具有周期性分析价值,因此需要提前设置权重β,再根据权重β计算预测值f(z)。根据预测值f(z)的大小确定标注指标数据对应的指标是否为周期性指标。
[0077]
也就是在本实施例中,先从数据中心进行指标采集,如按照日/周频率进行指标采集;再对采集的指标进行预处理,平滑去噪,提取业务标注,并利用业务归类进行初级指标分类,例如:主机类,容器类,业务属性类等维度。再对已标注指标数据进行特征聚合,计算偏差度,对每一簇类的指标都进行偏差计算,调优数据,形成新数据集。对新数据集进行模型训练,得到adf-test检验值,并对数据进行整合,利用逻辑回归模型进行训练,输出具有周期性/无周期性的指标特性,归类入库。对已归类的指标数据进行可视化分析,对于存在周期性的指标数据建立异常数据检测模型,以便根据异常数据检测模型预测下周期数据趋势,从而发现异常点。对于无周期的指标数据,进行入库存留,等待新的数据入库后再进行迭代训练,若判定依旧为无周期性,则标记为无周期性,若存在周期性,则继续进行迭代训练。
[0078]
在本实施例中,通过对采集的标注指标数据中的所有特征数据进行聚合处理,得到偏差度,并根据各个偏差度对各个特征数据进行调整,得到新数据集,再确定新数据集的检验值和初始预测值,并根据检验值和初始预测值确定标注指标数据对应的指标是否为周期性指标,从而避免了现有技术中需要依赖人工进行周期性指标确定,导致耗时耗力,且梳理出的周期性指标的准确有效性较低的现象发生,提高了确定周期性指标的准确有效性。
[0079]
进一步地,基于上述本发明的第一实施例,提出本发明周期性指标判定方法的第二实施例,在本实施例中,上述实施例步骤s20,对所述标注指标数据中的所有特征数据进行聚合处理,以确定各所述特征数据对应的偏差度的步骤的细化,包括:
[0080]
步骤a,提取所述标注指标数据中的所有特征数据,并对各所述特征数据进行聚合分类处理,以得到所有聚合簇;
[0081]
在本实施例中,当获取到标注指标数据后,需要提取标注指标数据中的所有特征数据。其中,特征数据为标注指标数据对应的所有特征。如通过正交变换将一组可能存在线性相关性的变量转换为一组线性不相关的变量。在获取到所有特征数据后,可以对所有特征数据进行降维处理,再对经过降维处理后的所有特征数据进行聚合计算,按照聚合维度进行分类处理,得到多个聚合簇,如性能类聚合簇、业务类聚合簇等。
[0082]
步骤b,遍历各所述聚合簇,确定遍历的聚合簇中的所有聚合特征数据,根据预设的偏差度计算公式和各所述聚合特征数据计算偏差度。
[0083]
依次遍历各个聚合簇,确定遍历的聚合簇中所包含的所有特征数据,并将其作为聚合特征数据。再根据提前设置的偏差度计算公式和各个聚合特征数据来计算偏差度。
[0084]
在本实施例中,通过提取标注指标数据中的所有特征数据,并进行聚合分类处理,得到所有聚合簇,再进行遍历,并根据预设的偏差度计算公式计算遍历的聚合簇中的所有聚合特征数据,以得到偏差度,从而保障了获取到的偏差度的准确性。
[0085]
具体地,根据预设的偏差度计算公式和各所述聚合特征数据计算偏差度的步骤,包括:
[0086]
步骤c,遍历各所述聚合特征数据,计算遍历的聚合特征数据与各所述聚合特征数据之间的所有平均相似度值;
[0087]
在本实施例中,通过遍历各个聚合特征数据,并确定遍历的聚合特征数据,再计算遍历的聚合特征数据与所有的聚合特征数据之间的平均相似度值,并统计所有的平均相似度值。
[0088]
步骤d,确定各所述平均相似度值对应的聚合簇类数,并将各所述平均相似度值和所述聚合簇类数输入至预设的偏差度计算公式进行计算,以得到偏差度。
[0089]
再确定所有平均相似度值的总数量,并将所有的平均相似度值和总数量输入至提前设置的偏差度计算公式中进行计算,以得到偏差度。如:
[0090][0091]
其中,聚合簇类数k,偏差度α,平均相似度值s
t

[0092]
在本实施例中,通过遍历各个聚合特征数据,计算遍历的聚合特征数据和各个聚合特征数据之间的所有平均相似度值,再将各个平均相似度值对应的聚合簇类数和平均相似度值一起输入至偏差度计算公式进行计算,得到偏差度,从而保障了计算得到的偏差度的准确性。
[0093]
具体地,计算遍历的聚合特征数据与各所述聚合特征数据之间的所有平均相似度值的步骤,包括:
[0094]
步骤e,计算各所述聚合特征数据中的目标聚合特征数据和遍历的聚合特征数据之间的最小度量距离和最大度量距离;
[0095]
在本实施例中,计算平均相似度值时,可以是先确定各个聚合特征数据中的目标聚合特征数据(即准备和遍历的聚合特征数据进行计算的数据),再根据提前设置的最小度量距离计算公式,计算遍历的聚合特征数据和目标聚合特征数据之间的最小度量距离。并根据提前设置的最大度量距离公式计算遍历的聚合特征数据和目标聚合特征数据之间的最大度量距离。
[0096]
步骤f,根据所述最小度量距离和最大度量距离计算平均度量距离,并将所述平均度量距离作为所述遍历的聚合特征数据与所述目标聚合特征数据之间的平均相似度值。
[0097]
再将最小度量距离和最大度量距离输入至提前设置的平均度量距离公式进行计算,以得到平均度量距离。并将此平均度量距离作为遍历的聚合特征数据与目标聚合特征数据之间的平均相似度值。并且在本实施例中,对每个聚合特征数据都采用相同的方式进行计算,以得到各个聚合特征数据中每两个聚合特征数据之间的平均相似度值。
[0098]
在本实施例中,通过计算最小度量距离和最大度量距离,并根据最小度量距离和最大度量距离确定平均度量距离,并将其作为平均相似度值,从而保障了获取到的平均相似度值的准确有效性。
[0099]
进一步地,根据各所述偏差度对各所述特征数据进行调整,以获取新数据集的步骤,包括:
[0100]
步骤g,依次确定各所述偏差度对应的取值范围,并根据各所述取值范围确定各所
述偏差度的调整策略,根据各所述调整策略对各所述偏差度对应的特征数据进行调整,以获取新数据集。
[0101]
在本实施例中,当获取到各个特征数据对应的偏差度后,可以依次对各个偏差度进行检测,以确定各个偏差度的取值范围。例如若偏差度为α,若0<α<0.5,则确定聚合簇的指标之间的相似度较小,调整策略可以为微调指标距离,并且微调指标距离对指标整体分布特征影响较小,可达到优化训练模型的目的。若0.5≤α≤0.9,则说明指标之间相似度较大,调整策略可以为需要利用偏差度调整法剔除指标相似性干扰。若0.9≤α<1,则确定指标之间的相似度非常高,因此调整策略可以为剔除这些相似度非常高的指标的其中一个,保留另一个做迭代运算,直至聚类条件收敛为止。
[0102]
并在确定各个偏差度对应的调整策略后,可以根据各个调整策略对各个偏差度对应的特征数据进行调整,并将调整后的特征数据作为新数据集。
[0103]
在本实施例中,通过依次确定各个偏差度对应的取值范围,并基于各个取值范围确定调整策略,以便根据调整策略对各个特征数据进行调整,得到新数据集,从而保障了获取到的新数据集的准确性。
[0104]
进一步地,根据所述检验值和所述初始预测值确定所述标注指标数据对应的指标是否为周期性指标的步骤,包括:
[0105]
步骤k,确定所述标注指标数据对应的预设权重,根据所述预设权重、所述检验值和所述初始预测值计算最终预测值;
[0106]
在本实施例中,确定标注指标数据对应的预设权重(用户提前根据自身需求进行设置的权重,并且权重的取值范围在0-1之间)。再将提前设置好的预设权重β,检验值γ和初始预测值g(z)输入至提前设置的公式f(z)=βg(z)+(1-β)γ中进行计算,以得到最终预测值。
[0107]
步骤m,根据检测所述最终预测值是否大于预设定值的检测结果确定所述标注指标数据对应的指标是否为周期性指标。
[0108]
在获取到最终预测值后,将最终预测值和预设定值(用户提前设置的任意值)进行比较,若最终预测值大于预设定值,则确定标注指标数据对应的指标为周期性指标。若最终预测值小于或等于预设定值,则确定标注指标数据对应的指标为非周期性指标。
[0109]
在本实施例中,通过根据预设权重,检验值和初始预测值计算最终预测值,并根据最终预测值是否大于预设定值的检测结果确定指标是否为周期性指标,从而保障了检测到的周期性指标的有效性。
[0110]
具体地,根据所述预设权重、所述检验值和所述初始预测值计算最终预测值的步骤,包括:
[0111]
步骤n,计算所述预设权重和所述初始预测值之间的第一乘积,并计算所述预设权重对应的第二权重和所述检验值之间的第二乘积;
[0112]
在本实施例中,计算最终预测值时,可以先计算预设权重β和初始预测值g(z)的乘积,即第一乘积。同时需要计算预设权重对应的第二权重,在本实施例中第二权重设置为1-β。然后,再计算第二权重和检验值γ之间的乘积,即第二乘积。
[0113]
步骤x,计算所述第一乘积和所述第二乘积的和值,并将所述和值作为最终预测值。
[0114]
再计算第一乘积和第二乘积的和值,即βg(z)+(1-β)γ。并直接将此和值作为最终预测值。
[0115]
在本实施例中,通过计算预设权重和初始预测值之间的第一乘积,并计算第二权重和检验值之间的第二乘积,将第一乘积和第二乘积的和值作为最终预测值,从而保障了获取到的最终预测值的准确性。
[0116]
并且需要说明的是,在本实施例中,实际故障关联分析的场景中,可以根据数据中心平台提取主机性能指标、数据库性能指标以及接口耗时等数据集。根据数据平滑去噪方法进行数据预处理,并标注业务属性标签,再进行特征聚类,计算聚类偏差,得出调优后的接口性能类、业务类指标数据。进行模型训练,判断指标的周期性属性,经结果验证和模型迭代调优后,周期性指标判定准确率达91.2%。在判定出此周期性属性后,关联业务特征,做指标关联性分析,辅助故障定位和问题根源定位,如主机类性能指标与接口指标均属于周期性指标,根据周期性规律,判断两周期性指标的关联度,计算相关系数,若主机发生故障时,根据相关系数大小判断其关联的指标有哪些,从而辅助故障定位。
[0117]
此外,参照图3,本发明实施例还提供一种周期性指标判定装置,包括:
[0118]
采集单元a10,用于采集数据中心的指标数据,并对采集的所述指标数据进行标注,以获取标注指标数据;
[0119]
聚合单元a20,用于对所述标注指标数据中的所有特征数据进行聚合处理,以确定各所述特征数据对应的偏差度,并根据各所述偏差度对各所述特征数据进行调整,以获取新数据集;
[0120]
训练单元a30,用于基于预设的时间序列算法确定所述新数据集对应的检验值,并根据所述新数据集进行逻辑回归训练,以得到初始预测值;
[0121]
确定单元a40,用于根据所述检验值和所述初始预测值确定所述标注指标数据对应的指标是否为周期性指标。
[0122]
可选地,聚合单元a20,用于:
[0123]
提取所述标注指标数据中的所有特征数据,并对各所述特征数据进行聚合分类处理,以得到所有聚合簇;
[0124]
遍历各所述聚合簇,确定遍历的聚合簇中的所有聚合特征数据,根据预设的偏差度计算公式和各所述聚合特征数据计算偏差度。
[0125]
可选地,聚合单元a20,用于:
[0126]
遍历各所述聚合特征数据,计算遍历的聚合特征数据与各所述聚合特征数据之间的所有平均相似度值;
[0127]
确定各所述平均相似度值对应的聚合簇类数,并将各所述平均相似度值和所述聚合簇类数输入至预设的偏差度计算公式进行计算,以得到偏差度。
[0128]
可选地,聚合单元a20,用于:
[0129]
计算各所述聚合特征数据中的目标聚合特征数据和遍历的聚合特征数据之间的最小度量距离和最大度量距离;
[0130]
根据所述最小度量距离和最大度量距离计算平均度量距离,并将所述平均度量距离作为所述遍历的聚合特征数据与所述目标聚合特征数据之间的平均相似度值。
[0131]
可选地,聚合单元a20,用于:
[0132]
依次确定各所述偏差度对应的取值范围,并根据各所述取值范围确定各所述偏差度的调整策略,根据各所述调整策略对各所述偏差度对应的特征数据进行调整,以获取新数据集。
[0133]
可选地,确定单元a40,用于:
[0134]
确定所述标注指标数据对应的预设权重,根据所述预设权重、所述检验值和所述初始预测值计算最终预测值;
[0135]
根据检测所述最终预测值是否大于预设定值的检测结果确定所述标注指标数据对应的指标是否为周期性指标。
[0136]
可选地,确定单元a40,用于:
[0137]
计算所述预设权重和所述初始预测值之间的第一乘积,并计算所述预设权重对应的第二权重和所述检验值之间的第二乘积;
[0138]
计算所述第一乘积和所述第二乘积的和值,并将所述和值作为最终预测值。
[0139]
其中,周期性指标判定装置的各个功能单元实现的步骤可参照本发明周期性指标判定方法的各个实施例,此处不再赘述。
[0140]
此外,本发明还提供一种周期性指标判定设备,所述周期性指标判定设备包括:存储器、处理器及存储在所述存储器上的周期性指标判定程序;所述处理器用于执行所述周期性指标判定程序,以实现上述周期性指标判定方法各实施例的步骤。
[0141]
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述周期性指标判定方法各实施例的步骤。
[0142]
本发明计算机可读存储介质具体实施方式与上述周期性指标判定方法各实施例基本相同,在此不再赘述。
[0143]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0144]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0145]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0146]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:


1.一种周期性指标判定方法,其特征在于,所述周期性指标判定方法包括以下步骤:采集数据中心的指标数据,并对采集的所述指标数据进行标注,以获取标注指标数据;对所述标注指标数据中的所有特征数据进行聚合处理,以确定各所述特征数据对应的偏差度,并根据各所述偏差度对各所述特征数据进行调整,以获取新数据集;基于预设的时间序列算法确定所述新数据集对应的检验值,并根据所述新数据集进行逻辑回归训练,以得到初始预测值;根据所述检验值和所述初始预测值确定所述标注指标数据对应的指标是否为周期性指标。2.如权利要求1所述的周期性指标判定方法,其特征在于,所述对所述标注指标数据中的所有特征数据进行聚合处理,以确定各所述特征数据对应的偏差度的步骤,包括:提取所述标注指标数据中的所有特征数据,并对各所述特征数据进行聚合分类处理,以得到所有聚合簇;遍历各所述聚合簇,确定遍历的聚合簇中的所有聚合特征数据,根据预设的偏差度计算公式和各所述聚合特征数据计算偏差度。3.如权利要求2所述的周期性指标判定方法,其特征在于,所述根据预设的偏差度计算公式和各所述聚合特征数据计算偏差度的步骤,包括:遍历各所述聚合特征数据,计算遍历的聚合特征数据与各所述聚合特征数据之间的所有平均相似度值;确定各所述平均相似度值对应的聚合簇类数,并将各所述平均相似度值和所述聚合簇类数输入至预设的偏差度计算公式进行计算,以得到偏差度。4.如权利要求3所述的周期性指标判定方法,其特征在于,所述计算遍历的聚合特征数据与各所述聚合特征数据之间的所有平均相似度值的步骤,包括:计算各所述聚合特征数据中的目标聚合特征数据和遍历的聚合特征数据之间的最小度量距离和最大度量距离;根据所述最小度量距离和最大度量距离计算平均度量距离,并将所述平均度量距离作为所述遍历的聚合特征数据与所述目标聚合特征数据之间的平均相似度值。5.如权利要求1所述的周期性指标判定方法,其特征在于,所述根据各所述偏差度对各所述特征数据进行调整,以获取新数据集的步骤,包括:依次确定各所述偏差度对应的取值范围,并根据各所述取值范围确定各所述偏差度的调整策略,根据各所述调整策略对各所述偏差度对应的特征数据进行调整,以获取新数据集。6.如权利要求1-5任一项所述的周期性指标判定方法,其特征在于,所述根据所述检验值和所述初始预测值确定所述标注指标数据对应的指标是否为周期性指标的步骤,包括:确定所述标注指标数据对应的预设权重,根据所述预设权重、所述检验值和所述初始预测值计算最终预测值;根据检测所述最终预测值是否大于预设定值的检测结果确定所述标注指标数据对应的指标是否为周期性指标。7.如权利要求6所述的周期性指标判定方法,其特征在于,所述根据所述预设权重、所述检验值和所述初始预测值计算最终预测值的步骤,包括:
计算所述预设权重和所述初始预测值之间的第一乘积,并计算所述预设权重对应的第二权重和所述检验值之间的第二乘积;计算所述第一乘积和所述第二乘积的和值,并将所述和值作为最终预测值。8.一种周期性指标判定装置,其特征在于,所述周期性指标判定装置包括:采集单元,用于采集数据中心的指标数据,并对采集的所述指标数据进行标注,以获取标注指标数据;聚合单元,用于对所述标注指标数据中的所有特征数据进行聚合处理,以确定各所述特征数据对应的偏差度,并根据各所述偏差度对各所述特征数据进行调整,以获取新数据集;训练单元,用于基于预设的时间序列算法确定所述新数据集对应的检验值,并根据所述新数据集进行逻辑回归训练,以得到初始预测值;确定单元,用于根据所述检验值和所述初始预测值确定所述标注指标数据对应的指标是否为周期性指标。9.一种周期性指标判定设备,其特征在于,所述周期性指标判定设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的周期性指标判定程序,所述周期性指标判定程序被所述处理器执行时实现如权利要求1至7中任一项所述的周期性指标判定方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有周期性指标判定程序,所述周期性指标判定程序被处理器执行时实现如权利要求1至7中任一项所述的周期性指标判定方法的步骤。

技术总结


本发明公开了一种周期性指标判定方法、装置、设备及计算机可读存储介质,周期性指标判定方法包括:采集数据中心的指标数据,并对采集的所述指标数据进行标注,以获取标注指标数据;对所述标注指标数据中的所有特征数据进行聚合处理,以确定各所述特征数据对应的偏差度,并根据各所述偏差度对各所述特征数据进行调整,以获取新数据集;基于预设的时间序列算法确定所述新数据集对应的检验值,并根据所述新数据集进行逻辑回归训练,以得到初始预测值;根据所述检验值和所述初始预测值确定所述标注指标数据对应的指标是否为周期性指标。本发明提高了确定周期性指标的准确有效性。发明提高了确定周期性指标的准确有效性。发明提高了确定周期性指标的准确有效性。


技术研发人员:

刘苗苗 叶晓龙 傅建新 胡林熙 蒋通通 潘亮

受保护的技术使用者:

中国移动通信集团有限公司

技术研发日:

2021.06.04

技术公布日:

2022/12/22

本文发布于:2024-09-20 13:53:08,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/45039.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   数据   指标   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议