基于改进聚类算法的健康监测系统数据挖掘模型

马乃轩1,2，徐传昶1,2，孙文瑞3

（1.山东高速工程检测有限公司，山东济南 250002；2.桥梁结构大数据与性能诊治提升交通运输行业重点实验室，山东济南 250002；3.宁波杉工智能安全科技股份有限公司，浙江宁波 315153）

摘要：基于改进的聚类网络算法，结合有限元模型的影响线法计算荷载与桥梁响应的关系，并以济南第二黄河公路大桥结构安全监测系统数据为基础，训练聚类模型，确定聚类异常阈值，从而建立桥梁健康监测的数据挖掘模型。

关键词：数据挖掘；聚类算法；有限元模型；健康监测中图分类号：TP312 文献标识码：A

Data mining model of health monitoring system based on improved clustering algorithms

MA Nai-xuan1,2,XU Chuan-chang1,2,SUN Wen-rui3（1.Shandong Hi-Speed Engineering Testing Co.,Ltd ,Shandong Jinan 250002 China; 2. Key Laboratory for Bridge Structure Big Data, Performance Diagnosis and Treatment Improvement of Transportation Industry，Shandong Jinan 250002 China;3.N

ingbo Shangong Intelligent Security Technology Co., Ltd, Zhejiang Ningbo 315153 China）Abstract:This paper combine the influence line method of finite element model to calculate the relationship between load and bridge response , and based on the data of the structural safety monitoring system of jinan Yellow River No.2 highway bridge, the clustering model is trained to determine the clustering anomaly threshold, so as to establish the data mining model of bridge health monitoring.

Key words:data mining；clustering algorithm；element model；health monitoring

收稿日期： 2019—03—28

作者简介：马乃轩（1991—），男，山东济南人，硕士研究生，助理工程师。引言

八甲人在桥梁健康监测过程中，由于监测时间一般较长，传感器的种类和数量较多。监测系统将产生海量的数据，这些数据通常可能包含大量有价值的信息。如果仅仅通过可视化的方法对当前的数据进行处理会浪费很多的数据资源。借助数据挖掘理论可从积累的海量历史数据中发现某些关联规律，并且可利用发现的这些规律来评判桥梁健康监测系统所采集到的数据质量。

在现代的各种科学领域中，常用的聚类分析方法有：基于层次的聚类方法［1-2］、基于网格和密度的

聚类方法、划分式聚类算法、图论算法和基于模型的聚类算法。本文用到的聚类分析方法为基于模型的聚类算法，在桥梁健康监测系统中含有大量的数据，所以对数据挖掘算法的要求也是比较高的，要求聚类算法必须要具有较高的计算效率以及较好的精度。

在建立数据挖掘模型的过程中，首先对所使用的训练数据样本进行一定程度的预处理，并对算法进行训练。然后借助于结构的有限元分析模型确定挖掘模型识别异常数据的理论阈值。

以济南第二黄河公路大桥结构安全监测系统为例，基于监测系统数据，进行车辆荷载作用下数据挖掘模型的建立与研究，为后续的海量数据挖掘提供基础数据。

1 C-Kohonen聚类算法

1.1 基本概念

Kohonen聚类网络［3］由芬兰学者Kohonen于1981年根据生物学和脑科学研究结论提出。Kohonen 聚类网络的学习训练就是调整网络权重的过程。Kohonen聚类网络仅由两层组成，即输入层和输出层。输入层与输出层之间两两互相连接，每个输入层的神经元都在输出层有相应的映射，所以这种算法也称为自组织映射模型（SOM）。Kohonen聚类网络具

- 24 -

2019年第3期

山东交通科技

- 25 -

有明显优点的同时也伴随着缺陷，即在聚类过程中容易出现死神经元。Tsao 等人

［4］

将C-均值算法与

传统算法结合形成了新的模糊聚类神经网络算法（这里简称C-Kohonen 算法），这种算法克服了传统算法产生死神经元的缺点，从而广泛的被应用到数据挖掘工作中。1.2 算法计算步骤

选取一个正确数据的学习样本Y ={y 1,y 2,……,y n }，其中学习样本中包含的样本数是n ，并且每个样本向量是p 维向量，给定初始c （1≤c ≤n ）值（即聚类分析后形成几个类别）和用于聚类分析的特征距离（欧式距离）。

（1）步骤一：初始化聚类中心向量Z =（z 1,z 2,……，z c ），在聚类中心向量集合中的每个向量都

是p 维矢量，假定初始化训练次数T =0，最大训练次数为T max ，令隶属度初始加权幂指数为K 0（K 0﹥1），设定迭代的终止误差为ε﹥0。

（2）步骤二：计算输入模式中各个样本属于第i （2≤i ≤c ）类的隶属度记为r ik ，隶属度计算函数：

r ik =1∑c j =1

（）Y k -Z i Y k -Z j网络规划与优化技术

λ-12…………………… （1）在完成隶属度r ik 计算后，通过迭代更新来计算隶属度的学习率α，α的计算函数：

αik （T ）=r ik λ

λ= K 0-T （K 0-1）/T max (2)

式中：K 0—大于1的正常数，当T =T max 时，

λ=1）。

（3）步骤三：调整聚类中心向量，依据前一次的聚类中心向量Z 以及学习率α更新向量：

Z i （t

）=Z i （T -1）+∑∑

光纤电流互感器

k =1

αik （Y k -Z i （T -1））αik i =1,2，

…,c ………………………………………（3）从更新聚类中心向量可知，更新的结果取决于

输入向量和迭代更新的学习率或者可以说是隶属度。使用加权平均更新聚类中心向量的方式考虑到了输入模式和隶属度函数对聚类中心更新结果的影响。如果输入模式中某个样本属于某一类的隶属度比较大，则这类的输入模式向量对聚类中心向量的更新的影响就大。在实际情况下，这是很合理的。

（4）步骤四：计算能量函数［5］（即聚类中心向量Z 的修正误差，如果满足该条件，算法将停止迭

代），

Z （T ）-Z （T -1）2=∑c

i =1

Z i （T ）-Z i （T -1

）2≤ε当迭代次数大于初始设定的最大迭代次数T max 时，也会导致迭代终止，否则转入第二步继续进行计算迭代。

2 C-Kohonen 算法的改进

2.1 收敛速度改进

C-Kohonen 算法在迭代的前期，收敛速度比较快，然而随着迭代次数的增多，收敛速度逐渐下降，这样当计算要求的精度较高时，应用此算法进行运算的速度远远不能满足要求。算法的收敛速度主要影响因素为学习率，而学习率又受到幂指数函数以及隶属度函数两方面因素影响。学习率的幂指数函数为线性函数，因此学习率就是线性变化的，从而不能更快的变化。当计算输入样本属于各类的隶属度函数时，如果隶属度函数的最大值也很小，这个隶属度对修正聚类中心的作用也不会大，从而导致收敛速度慢。

2.1.1 改进一：引进隶属度增强抑制因子

r ik =

｛

1-u （1- ）

T T max ∑i ≠p

r ik ，if i =k u （1- ）T T max

r ik if i ≠k ， (4)

式中：u 的取值在0到0.5之间，在计算输入样本属于各类的隶属度时，当属于某一样本的隶属度大于其他隶属度时，也就是当i =k 时，增大此隶属度而减小其他隶属度。在引入隶属度的增强因子后，可以发现，调整后的隶属度大于属于其他类隶属度的总和。这使得属于第i 类的隶属度远大于属于其他类的隶属度，因此该隶属度函数在调整聚类中心时所作的贡献就越大，进而使得网络权值极快的靠近聚类中心，最终提高算法的计算速度。2.1.2 改进二：改进学习率的幂指数函数

在学习率的原始计算中，幂指数函数是线性函数的形式，并且线性函数随着学习次数的增加而线性递减。这样学习的速度并不是最快的，如果将线性形式的幂指数函数改指数形式的幂指数函数，那么算法在后期的收敛速度应该大大的增加，提出改进：λ（T ）=λ0

e T 2g

-………………………………

（5）将幂指数改成指数函数性质，其中函数中有两个未知参数λ0和g 。

在线性函数中，当T =0和T =T max 时，λ分别等于K 0和1，为了求得λ0和g ，保证两种形式函数的两个初始函数相同，这样可求得λ0和g ，最后可以得到幂指数函数的指数函数形式：

λ（T ）=λ0e

T 2T 2max

ln 1k

0 (6)

利用三组数据来测试算法改进后的效果，数据组一为含有5 000个数据的随机二维数据，数据组二为含有20 000个数据的随机二维数据，数据组三为含有5 000个数据的随机带状数据，其中数据组一、二的范围为x ∈［0,1］，y ∈［0,1］，数组三的范围

抑制血亲

马乃轩，徐传昶，孙文瑞：基于改进聚类算法的健康监测系统数据挖掘模型

- 26 -

为x ∈［0,10］，y ∈［-2,12］。

利用改进前后算法对三组随机数据进行聚类分析，对比算法改进前后的计算速度见图 1～图 3。通过对比可知，当达到某一误差精度时，改进后算法收敛速度得到了大大的提高。

图 1

数组一收敛速度对比

图 2 数组二收敛速度对比

2.2 收敛精度改进

将聚类算法应用于随机数组的聚类分析时，从聚类结果来看，数据组的聚类效果与实际情况存在一定的差异，见图 4。

图 4

原始算法聚类情况

图 3 数组三收敛速度对比

这说明原算法在对数据进行聚类时，聚类精度上存在一定的问题，这是因为在应用算法聚类分析时，没有考虑到神经元间的侧抑制作用。鉴于此，对算法改进：

r ik =

1∑c

j =1

（）Y k -Z i Y k -Z j

λ-11if Y k -Z i 2=min j ｛｛

Y k -Z j 2，r ik =exp ｛-Z j -Z i

2k ｛

(7)

σk =exp （） -T T max

………………………………（8）公式表明，在计算输入样本k 属于第i 类的隶属度时，如果输入样本k 距离第i 类的距离最近，那么应用原始公式进行隶属度函数的计算，否则应用改进后的公式进行计算。由改进后的公式中可知，当第j 类的聚类中心更接近输入样本时，计算的隶属度较大，

随着距离的增大，隶属度会以很快的速度减小，这可以充分的体现出神经元的侧抑制作用。

利用改进后算法对随机数组进行分析，聚类分析结果见图 5。

通过对比可得，无论从聚类中心的分布位置还是各类中数据的数量都可以看出改进后算法情况要明显优于原始算法，因此认为算法的改进效果很好。图 5 改进后算法聚类情况

2.3 算法优化后效果对比

为了反映算法的改进效果，将改进的C-Kohonen 算法与常用的K -均值聚类算法进行比较。应用matlab 自带数据，按照欧式距离进行聚类［6］，类目为5，数据共有560条，每种数据具有四种属性，聚类完成后，计算每一类的

Silhouette 值见图 6～图 7。

图 6 K-均值聚类算法

图 7 改进后算法

从聚类分析的结果可以看出，K -均值聚类算法的聚类结果中第4类的Silhouette 值有很多数据点偏小（出现了负值），这说明第4类没有与其他类很好的区分开，可得出改进后的算法要优于K -均值聚类算法。

3 基于改进后算法的数据挖掘模型建立

改进后的聚类算法由于其收敛速度以及精度得到保证，基于济南第二黄河公路大桥结构安全监测系统采集的海量数据，借助改进后的C-Kohonen 算法建立数据挖掘模型，实现济南第二黄河公路大桥结构安全监测系统的大数据挖掘。3.1 工程概况

济南第二黄河公路大桥为预应力混凝土连续-刚构组合体系箱型梁，桥型布置为65 m +160 m+210 m+160 m+65 m=660 m，见图8。

图 8 桥型立面

其健康监测系统监测项目主要包含环境温湿度、结构应力、结构温度、主梁挠度、结构振动、结构位移、裂缝监测、动态称重等，共计布设397个监测传感器，

2019年第3期

山东交通科技

- 27 -

济南第二黄河公路大桥结构安全监测系统见图9。

图 9 健康监测系统设计

3.2 荷载源分析

结构变形对结构安全状态影响较大，在利用改进聚类算法进行数据挖掘时，从主梁挠度数据着手分析，建立车辆荷载作用下桥梁不同挠度测点之间的数据挖掘模型。首先对车辆荷载源进行分析，基于济南第二黄河公路大桥结构安全监测系统，提取2018年12月期间运行数据，对车辆荷载数据进行分析，明确车辆荷载的分布情况见图10。

图 10 车重频率分布

从图11中可以看出，济南第二黄河公路大桥在运营过程中车流量巨大，超过55 t 的车辆所占比重虽然较低，但是重车数量也较大，超负荷的车辆荷载对结构安全造成一定隐患，因此建立车辆荷载作用下的结

构不同位置挠度测点之间的数据挖掘模型很有必要。

图11 车流量时程分布

3.3 数据挖掘模型的建立

在建立数据挖掘模型时，模型的异常阈值是一

项关键指标，而要想出合理的异常阈值，需要将监测数据与有限元理论计算结果相互结合，对异常阈值进行验证、迭代，最终确定合理的异常阈值［7］。3.3.1 数据源选取

济南第二黄河公路大桥结构安全监测系统中采用静力水准仪监测主梁挠度，选取次边跨跨中挠度数据、主跨L /4挠度数据以及主跨跨中挠度数据作为分析数据，建立起三维数据组来训练聚类分析模型。数据情况见图12～图

14。

图 12马红妹

次边跨跨中挠度数据

图 13 主跨L /4财政政策与货币政策

挠度数据图 14 主跨跨中挠度数据

3.3.2 有限元模型

利用midas civil 软件建立济南第二黄河公路大桥的有限元模型，通过在模型中模拟实际荷载计算出结构的理论变形值，并与数据源中的挠度数据进行对比，这是判断数据挖掘模型异常阈值设定是否合理的重要依据，在进行模型训练过程中，根据不合理的异常阈值识别出的异常数据是不准确的，这时进行有限元计算验证就显得尤为重要，有限元模型见图

15。

图 15 有限元模型

马乃轩，徐传昶，孙文瑞：基于改进聚类算法的健康监测系统数据挖掘模型

- 28 -

3.3.3 数据挖掘模型训练

在训练聚类分析模型时，以挠度数据为基础数据来确定数据挖掘模型的异常阈值。在设定初始阈值时，

一般根据经验进行设置。设定原始阈值为2.0，利用该阈值进行聚类分析，识别出数据组中的异常数据，将识别出的异常值与有限元计算结果进行对比。图16在有限元模型中模拟车辆荷载并计算车辆荷载作用下各测点挠度值的大小，而车辆荷载的加载大小以及加载位置可根据动态称重系统来确定，以称重系统所在位置为基点，根据车速以及车辆经过动态称重系统的时间来判断车辆与桥梁的位置关系，并以此来确定所

模拟车辆荷载的加载位置以及加载大小。

图 16 影响线法计算主梁挠度

根据数据对比计算的结果，判断所识别出的异常数据是真实的异常数据，还是由于数据挖掘模型中异常阈值设定偏小导致的正常数据被识别为异常数据，如果是后者，对数据挖掘模型的异常阈值进行反复迭代调整，直至异常阈值达到临界点，则该临界点异常阈值则为该数据组的数据挖掘模型异常阈值，通过计算分析可以得出，该异常阈值临界点为3.3。3.4 异常阈值验证

根据各个监测点的预警值设定情况，将正常数据组中的10条数据调整为超过监测预警值的数据，让其从正常数据变为“异常数据”，用该带有10条异常数据的数组对数据挖掘模型的异常阈值进行验证。见图17，从分析结果看，异常数据能够被精确的识

别出来，这说明该异常阈值设置的较为合理。

图 17 识别出的10条异常数据

4 结语

通过对传统聚类算法进行改进研究，得出一种高效且准确的聚类网络算法，并将其应用于结构安全监测系统大数据挖掘中，建立了基于挠度的数据挖掘模型。（1）对传统的聚类网络算法进行优化改进，从计算速度以及准确性两方面着手，通过优化隶属度、学习率两种参数以及引入侧抑制作用，令算法的计算速度和计算准确性大大提高。（2）利用结构安全监测系统中的动态称重和车牌识别系统，判断车辆与桥梁之间的相对位置，借助于有限元模型分析车辆荷载与桥梁响应之间的关系，确定挠度数据的理论值。（3）应用改进的聚类分析算法，建立了济南第二黄河公路大桥结构安全监测系统中挠度数据挖掘模型，经过验证，该模型具有良好的使用效果。

参考文献：

1 De Sa J P M. Pattern recognition: concepts, methods, and applications ［M ］.Springer Berlin Heidelberg, 2000:193-202.

2 Fred A L N, Leitao J M N. Partitional vs hierarchical clustering using a minimum grammar complexity approach ［M ］//Advances in Pattern Recognition. Springer Berlin Heidelberg, 2000:193-202.

3 杨占华，杨燕.SOM 神经网络算法的研究与进展［J ］.计算机工程,2006,32（16）:201-202.

4 谢维信，高新波，裴继江.模糊聚类理论发展及其应用［J ］.1999.

5 Zimmerman D C, Widengren M. Correcting ﬁnite element models using a symmetric eigenstructure assignment technique J . AIAA journal,1990,28（9）:1670-1676.

6 董辉.桥梁健康监测数据的数据挖掘模型［D ］.重庆: 重庆大学, 2006.

7 刘锋.基于数据挖掘的桥梁监测数据分析［D ］.长沙: 长沙理工大学, 2012.

本文发布于:2024-09-22 23:14:45，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68485.html

上一篇：mysql数据挖掘_数据挖掘（DataMining）概述

下一篇：如何运用数据挖掘提高客户满意度