一种材料力热试验的异常数据监测方法及系统

1.本发明涉及数据处理技术领域，尤其涉及到一种材料力热试验的异常数据监测方法及系统。

背景技术：

2.在力热实验室中，需要对不同的试验材料在一定的条件下，完成不同的试验，如压缩试验，巴西试验等，每次试验中需要对试验材料从多方面进行监测采样。在采样的数据中，由于人为误差，系统误差，试验设备，数据变异等原因，会导致部分试验数据与总体的试验数据比较起来，存在行为特征、结构或者相关性不一致的情况。为保证试验数据的有效性，需要筛查出这些异常试验数据。
3.然而现有技术方案需要技术人员手工进行筛查。在筛查的过程中，首先就面临着试验数据量庞大的问题。而且试验数据多数往往是从多个维度进行采样的，需要结合不同维度的采样数据，才可以判断出试验数据的有效性。这些都会导致技术人员难以操作，负担较重。

技术实现要素：

4.本发明的主要目的在于提供一种材料力热试验的异常数据监测方法及系统，旨在解决目前材料力热试验的异常数据监测效率不高的技术问题。
5.为实现上述目的，本发明提供一种材料力热试验的异常数据监测方法，所述方法包括以下步骤：
6.s1：计算试验数据的紧密程度，选取密度值最大的k个采样点作为初始聚类中心；
7.s2：对试验数据使用k-means算法进行一次聚类；若轮廓系数小于0.5则返回步骤s1，重新确定k值，选取初始聚类中心；若轮廓系数大于0.5则进入步骤s3；
8.步骤3：计算异常度值a，再计算聚类准则函数j，判断是否满足准则函数要求；若是，则进入步骤s4；若否，则重新选择聚类中心，再使用k-means算法进行一次聚类，并重复判断是否满足准则函数要求；
9.步骤4：计算异常度值a，将a值大于平均值的采样点加入异常采样点集合u。
10.可选的，所述试验数据表示为rd空间上的x，x＝{x1,x2,x3,
…
,xn}；其中，n为采样的总数，d为试验数据的监测项的个数，xi为一个采样点的全部数据，xi＝{x
i1
,
…
,x
id
}，x
ij
为一个监测项的值。
11.可选的，所述步骤s1，具体包括：
12.s101：初始化聚类的k值；
13.s102：计算每个采样点的紧密度t(xi)，t(xi)的计算公式为：
[0014][0015]
其中，g为采样点xi的100个最近邻的采样点集合，d(xi,xm)为采样点xi和xm之间的
距离；
[0016]
s103：将密度值高于平均密度值的所有采样点，加入数据密集区集合x
′
；
[0017]
s104：从数据密集区集合x
′
中选取密度值最大的采样点作为第1个初始聚类中心p1，再从集合x
′
中取距离p1最远的采样点p2作为第2个初始聚类中心，再从集合x
′
中取距离p2最远的采样点p3作为第3个初始聚类中心，以此类推，得到初始聚类中心集合p＝{p1,p2,p3,...,pk}。
[0018]
可选的，聚类后的采样点集合表示为c＝(c1,...,cj,...,ck)，其中cj(j＝1,..,k)包括聚类到一个簇的所有采样点。
[0019]
可选的，所述步骤s2，具体包括：
[0020]
s201：计算每个采样点与聚类中心集合p中每个采样点的欧式距离d(xi,pj)；d(xi,pj)计算公式为：
[0021][0022]
其中，i为所有采样点的标记，i＝1,2,
…
,n；j为作为聚类中心的采样点的标记，j＝1,...,k；
[0023]
s202：针对于步骤s201中的每个采样点x，如果pj满足d(x,pj)＝d
min
(x,pj)，则将采样点x归于pj对应的聚类，将采样点x计入数据集合cj中；
[0024]
s203：计算轮廓系数判断对应的k值取值是否合理；若轮廓系数小于0.5，则返回步骤s1重新确定k值，重复步骤s104-步骤s202；若轮廓系数大于0.5，则进入步骤s3。
[0025]
可选的，所述计算轮廓系数，具体包括：
[0026]
计算内聚度：对于第i个采样点xi，计算xi与其同一个簇内的所有其他采样点距离的平均值，记作ai，用于量化簇内的凝聚度；
[0027]
计算分离度：选取xi外的一个簇b，计算xi与b中所有点的平均距离，遍历所有其他簇，到最近的这个平均距离,记作bi，用于量化簇之间分离度；
[0028]
计算轮廓系数：对于元素xi,其轮廓系数si的计算公式为：
[0029][0030]
计算所有x的轮廓系数，求出平均值作为当前聚类的整体轮廓系数。
[0031]
可选的，所述步骤s3，具体包括：
[0032]
s301：依次针对每个簇cj(j＝1,..,k)中每个采样点x,若采样点x与其聚类中心的距离d(x,pj)大于平均距离(1/oj)∑
x
′
∈cj
d(x
′
,pj)，则异常度值a(x)加1；其中，oj为cj的采样点总数；
[0033]
s302：设置初始聚类准则函数j0＝0，t＝1；
[0034]
s303：计算聚类准则函数j
t
，j
t
计算公式为：
[0035]
[0036]
其中，t表示第几次聚类；
[0037]
s304：若|j
t-j
t-1
|》1，则依次计算聚类生成的每个簇cj(j＝1,..,k)中所有采样点的坐标平均值，距离平均值最近的采样点作为最新聚类中心，生成最新聚类中心集合p＝{p1,p2,...,pk}，令t＝t+1,重复步骤201至步骤202再完成一次聚类，最后重复步骤3；若|j
t-j
t-1
|≤1，则进入下一步。
[0038]
可选的，所述步骤s4，具体包括：
[0039]
步骤401：重复步骤301；
[0040]
步骤402：计算所有采样点的a(x)(x＝1,...,n)的平均值，将异常度值a(x
l
)大于平均值的采样点x
l
加入异常采样点集合u。
[0041]
此外，为了实现上述目的，本发明还提供了一种材料力热试验的异常数据监测系统，所述系统包括：
[0042]
选取模块，用于计算试验数据的紧密程度，选取密度值最大的k个采样点作为初始聚类中心；
[0043]
聚类模块，用于对试验数据使用k-means算法进行一次聚类；若轮廓系数小于0.5则返回步骤s1，重新确定k值，选取初始聚类中心；若轮廓系数大于0.5则进入步骤s3；
[0044]
判断模块，用于计算异常度值a，再计算聚类准则函数j，判断是否满足准则函数要求；若是，则进入步骤s4；若否，则重新选择聚类中心，再使用k-means算法进行一次聚类，并重复判断是否满足准则函数要求；
[0045]
计算模块，用于计算异常度值a，将a值大于平均值的采样点加入异常采样点集合u。
[0046]
本发明的有益效果：
[0047]
(1)采用无监督聚类的方法，不需要对试验数据进行标注训练，操作简便、省时，在试验数据中比较有实用性。
[0048]
(2)在计算试验数据之间的相关性中，聚类可以同时考虑到监测的不同维度，且在聚类过程中设置的异常度值可以有效的到异常试验数据。
[0049]
(3)选择紧密度最大的点作为初始聚类中心，解决了初始簇中心的随机性问题；聚类准则函数可以使得聚类结果中簇内距离最小，即聚类效果最佳。
附图说明
[0050]
图1为本发明一种材料力热试验的异常数据监测方法的流程示意图。
[0051]
图2为力热试验中压缩试验的试验数据从两个维度监测的曲线图。
[0052]
图3为图2中试验数据聚类后的效果图。
[0053]
本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
[0054]
应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0055]
本发明实施例提供了一种材料力热试验的异常数据监测方法，参照图1，图1为本发明材料力热试验的异常数据监测方法实施例的流程示意图。
coefficient)，是聚类效果好坏的一种评价方式。它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者相同算法不同运行方式对聚类结果所产生的影响。该值处于[-1,1]之间，值越大，表示聚类效果越好。具体计算方法如下：
[0071]
第一步：计算内聚度。对于第i个采样点xi，计算xi与其同一个簇内的所有其他元素距离的平均值，计算距离的方法如公式(2)，记作ai，用于量化簇内的凝聚度。
[0072]
第二步：计算分离度。选取xi外的一个簇b，计算xi与b中所有点的平均距离，计算距离的方法如公式(2)，遍历所有其他簇，到最近的这个平均距离，记作bi，用于量化簇之间分离度。
[0073]
第三步：计算轮廓系数。对于每个采样点xi，ai表示第一步中的内剧度，bi表示第二步中的分离度，其轮廓系数si的计算如公式(3)下所示：
[0074][0075]
第四步：利用公式(3)计算所有x的轮廓系数，求出平均值即为当前聚类的整体轮廓系数。
[0076]
对于步骤三中的设定并计算出异常度值a。一个采样点的数据用x表示，聚类后的簇集合用c＝c1,...,cj,...,ck)表示，cj中采样点数据总数用oj表示，pj表示cj的簇中心，依次针对于每个簇cj(j＝1,..,k)中每个采样点x到其簇中心的距离d(x,pj),d(x,pj)的计算如公式(2)所示，若采样点x与其聚类中心的距离大于平局距离，即满足公式(4)，则a(x)++。
[0077][0078]
对于步骤三中的聚类准则函数j。由于最优的聚类结果，是簇内相似度高，簇间相似度低。簇的邻近度则是通过计算簇内的平均相似度来评价聚类质量，可以用组间平方和(ssb)表示，即簇的质心到簇内所有数据点的总平均值的距离的平方和，随着进一步的聚类ssb变化不大，说明聚类效果达到最佳。第t次聚类后的准则函数用j
t
表示，聚类后的簇集合表示为c＝c1,...,cj,...,ck)，簇的中心集合用p＝{p1,p2,p3,...,pk}表示，一个采样点的数据用x表示。d(x,pj)计算如公式(2)所示。第t次聚类后的准则函数用j
t
表示，j
t
的计算如公式(5)所示。
[0079][0080]
对于步骤三中的使用k-means算法进行一次聚类，其详细过程描述如步骤二中使用k-means算法进行一次聚类同理。
[0081]
如图3所示，为本实施例试验数据聚类后的效果图，其中：白圈中黑的采样点为聚类中心，黑圈中黑的采样点为监测出来的的异常采样点。
[0082]
在本实施例中，提供了一种材料力热试验的异常数据监测方法，先计算试验数据之间的紧密度，选取密度最大的采样点作为初始聚类中心，再对试验数据进行聚类，通过聚类结果计算所有采样点的异常度值，最后基于聚类后的异常值，出异常试验数据。采用无监督聚类的方法，不需要对试验数据进行标注训练，操作简便、省时；通过聚类可以联系采样的不同维度，来判断试验数据之间的相关性；在聚类过程中设置异常度值可以有效的
到异常试验数据。
[0083]
本技术还提供一种材料力热试验的异常数据监测系统，该材料力热试验的异常数据监测系统包括：
[0084]
选取模块，用于计算试验数据的紧密程度，选取密度值最大的k个采样点作为初始聚类中心；
[0085]
聚类模块，用于对试验数据使用k-means算法进行一次聚类；若轮廓系数小于0.5则返回步骤s1，重新确定k值，选取初始聚类中心；若轮廓系数大于0.5则进入步骤s3；
[0086]
判断模块，用于计算异常度值a，再计算聚类准则函数j，判断是否满足准则函数要求；若是，则进入步骤s4；若否，则重新选择聚类中心，再使用k-means算法进行一次聚类，并重复判断是否满足准则函数要求；
[0087]
计算模块，用于计算异常度值a，将a值大于平均值的采样点加入异常采样点集合u。
[0088]
本发明材料力热试验的异常数据监测系统的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。
[0089]
此外，本发明实施例还提出一种存储介质，所述存储介质上存储有材料力热试验的异常数据监测程序，所述材料力热试验的异常数据监测程序被处理器执行时实现如上文所述的材料力热试验的异常数据监测方法的步骤。因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本技术方法实施例的描述。确定为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。
[0090]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0091]
另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0092]
通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用cpu、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出
贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

技术特征：

1.一种材料力热试验的异常数据监测方法，其特征在于，所述方法包括以下步骤：s1：计算试验数据的紧密程度，选取密度值最大的k个采样点作为初始聚类中心；s2：对试验数据使用k-means算法进行一次聚类；若轮廓系数小于0.5则返回步骤s1，重新确定k值，选取初始聚类中心；若轮廓系数大于0.5则进入步骤s3；步骤3：计算异常度值a，再计算聚类准则函数j，判断是否满足准则函数要求；若是，则进入步骤s4；若否，则重新选择聚类中心，再使用k-means算法进行一次聚类，并重复判断是否满足准则函数要求；步骤4：计算异常度值a，将a值大于平均值的采样点加入异常采样点集合u。2.如权利要求1所述的材料力热试验的异常数据监测方法，其特征在于，所述试验数据表示为r
d
空间上的x，x＝{x1,x2,x3,
…
,x
n
}；其中，n为采样的总数，d为试验数据的监测项的个数，
i
为一个采样点的全部数据，x
i
＝{x
i1
,
…
,x
id
}，x
ij
为一个监测项的值。3.如权利要求2所述的材料力热试验的异常数据监测方法，其特征在于，所述步骤s1，具体包括：s101：初始化聚类的k值；s102：计算每个采样点的紧密度t(x
i
)，t(x
i
)的计算公式为：其中，g为采样点x
i
的100个最近邻的采样点集合，d(x
i
,x
m
)为采样点x
i
和x
m
之间的距离；s103：将密度值高于平均密度值的所有采样点，加入数据密集区集合x
′
；s104：从数据密集区集合x
′
中选取密度值最大的采样点作为第1个初始聚类中心p1，再从集合x
′
中取距离p1最远的采样点p2作为第2个初始聚类中心，再从集合x
′
中取距离p2最远的采样点p3作为第3个初始聚类中心，以此类推，得到初始聚类中心集合p＝{p1,p2,p3,...,p
k
}。4.如权利要求3所述的材料力热试验的异常数据监测方法，其特征在于，聚类后的采样点集合表示为c＝c1,...,
j
,...,
k
)，其中c
j
(j＝1,..,)包括聚类到一个簇的所有采样点。5.如权利要求4所述的材料力热试验的异常数据监测方法，其特征在于，所述步骤s2，具体包括：s201：计算每个采样点与聚类中心集合p中每个采样点的欧式距离d(x
i
,p
j
)；d(x
i
,p
j
)计算公式为：其中，i为所有采样点的标记，i＝1,2,
…
,n；j为作为聚类中心的采样点的标记，j＝1,...,k；s202：针对于步骤s201中的每个采样点x，如果p
j
满足d(x,p
j
)＝d
min
(x,p
j
)，则将采样点x归于p
j
对应的聚类，将采样点x计入数据集合c
j
中；s203：计算轮廓系数判断对应的k值取值是否合理；若轮廓系数小于0.5，则返回步骤s1
重新确定k值，重复步骤s104-步骤s202；若轮廓系数大于0.5，则进入步骤s3。6.如权利要求5所述的材料力热试验的异常数据监测方法，其特征在于，所述计算轮廓系数，具体包括：计算内聚度：对于第i个采样点x
i
，计算x
i
与其同一个簇内的所有其他采样点距离的平均值，记作a
i
，用于量化簇内的凝聚度；计算分离度：选取x
i
外的一个簇b，计算x
i
与b中所有点的平均距离，遍历所有其他簇，到最近的这个平均距离,记作b
i
，用于量化簇之间分离度；计算轮廓系数：对于元素x
i
,其轮廓系数s
i
的计算公式为：计算所有x的轮廓系数，求出平均值作为当前聚类的整体轮廓系数。7.如权利要求5所述的材料力热试验的异常数据监测方法，其特征在于，所述步骤s3，具体包括：s301：依次针对每个簇c
j
(j＝1,..,k)中每个采样点x,若采样点x与其聚类中心的距离d(x,p
j
)大于平均距离则异常度值a(x)加1；其中，o
j
为c
j
的采样点总数；s302：设置初始聚类准则函数j0＝0，t＝1；s303：计算聚类准则函数j
t
，j
t
计算公式为：其中，t表示第几次聚类；s304：若|j
t-j
t-1
|>1，则依次计算聚类生成的每个簇c
j
(j＝1,..,k)中所有采样点的坐标平均值，距离平均值最近的采样点作为最新聚类中心，生成最新聚类中心集合p＝{p1,p2,...,p
k
}，令t＝t+1,重复步骤201至步骤202再完成一次聚类，最后重复步骤3；若|j
t-j
t-1
|≤1，则进入下一步。8.如权利要求7所述的材料力热试验的异常数据监测方法，其特征在于，所述步骤s4，具体包括：步骤401：重复步骤301；步骤402：计算所有采样点的a(x)(x＝1,...,n)的平均值，将异常度值a(x
l
)大于平均值的采样点x
l
加入异常采样点集合u。9.一种材料力热试验的异常数据监测系统，其特征在于，所述系统包括：选取模块，用于计算试验数据的紧密程度，选取密度值最大的k个采样点作为初始聚类中心；聚类模块，用于对试验数据使用k-means算法进行一次聚类；若轮廓系数小于0.5则返回步骤s1，重新确定k值，选取初始聚类中心；若轮廓系数大于0.5则进入步骤s3；判断模块，用于计算异常度值a，再计算聚类准则函数j，判断是否满足准则函数要求；若是，则进入步骤s4；若否，则重新选择聚类中心，再使用k-means算法进行一次聚类，并重
复判断是否满足准则函数要求；计算模块，用于计算异常度值a，将a值大于平均值的采样点加入异常采样点集合u。

技术总结

本发明公开了一种材料力热试验的异常数据监测方法及系统，该方法先计算试验数据之间的紧密度，选取密度最大的采样点作为初始聚类中心，再对试验数据进行聚类，通过聚类结果计算所有采样点的异常度值，最后基于聚类后的异常值，出异常试验数据。采用无监督聚类的方法，不需要对试验数据进行标注训练，操作简便、省时；通过聚类联系采样的不同维度，来判断试验数据之间的相关性；在聚类过程中设置异常度值可以有效的到异常试验数据。解决了目前材料力热试验的异常数据监测效率不高的技术问题。题。题。