结合互信息的因子分析对患癌因素的分类仿真

第38卷第2期计算机仿真2021年2月文章编号:1006 -9348(2021)02-0214-06
结合互信息的因子分析对患癌因素的分类仿真
孙士保1,赵鹏程1,李玉祥1,李元颖2
(1.河南科技大学信息工程学院,河南洛阳471023;
2.河南科技大学临床医学院,河南洛阳471023)
摘要:智慧医疗呈现出蓬勃发展的态势,因子分析是多维数据分析中常用的特征选择方法,而该方法无法处理非线性关系。
互信息是评估特征间依赖的强弱程度,具有良好非线性关系处理能力。鉴于此,提出结合互信息的因子分析方法,采用互信息对特征间的相关性进行计算,将结果转换为特征值矩阵作为评估标准确定公因子,由累积贡献率选择新特征以达到降维
目的,提升模型精度。选取神经网络作为分类器.采用实际数据对提出的算法进行对比实验,正确分类精度达到96. 51%, 损失函数为0.1138,仿真结果表明分类准确度在高维癌症数据集中得到提升,验证了方法的有效性。
关键词:互信息;因子分析;特征值矩阵;累积贡献率;癌症风险因素分类
中图分类号:TP391 文献标识码:B
Classification of Cancer Factors Based on Factor
Analysis with Mutual Information
SUN Shi - bao1,ZHAO Peng - cheng1,LI Yu - xiang1,LI Yuan - ying2
(1. Department of Information Engineering,Henan University of Science and Technology,
Luoyang Henan471023 ,China;
2. Department of Clinical Medical,Henan University of Science and Technology,Luoyang Henan471023, China)
A B S T R A C T:Wisdom medical treatment presents a booming trend.Factor analysis i s a commonly used feature selec­
tion method in multidimensional data analysis,and t h i s method cannot handle nonlinear relationshi
ps.Mutual infor­mation i s the strength of the evaluation of the dependence between features,and has a good nonlinear relationship processing ability.In view of this,a mutual factor- based factor analysis method i s proposed,which uses mutual in­formation t o calculate the correlation between features,converts the result into eigenvalue matrix as the evaluation standard to determine the common factor,and selects the new feature from the cumulative contribution rate to achieve the dimension reduction and improve model accuracy.The neural network was selected as the classifier,and the pro­posed algorithm was compared with the actual data.The classification accuracy was 96. 51 %and the loss function was0. 1138. The simulation results show that the classification accuracy i s improved in the high- dimensional cancer dataset,and the validity of the method i s verified.
K E Y W O R D S:Mutual information;Factors analysis;Feature matrix;Cumulative contribution rate;Early cancer di­agnosis
基金项目:国家自然科学基金项目(51474095 );河南省重点攻关项目
(152102210277 );赛尔网络下一代互联网技术创新项目
(NGII20180313,NGII20160517);河南省髙校科技创新团队支持计划
项目(17IRTSTHN010 );河南科技大学科技创新团队项目
(2015XTD011);河南科技大学重大产学研合作培育基金项目
(2015ZDCXY03)
收稿日期:2019 - 06 - 04修回日期:2019 -06-06
—214—
1引言
随着“人工智能+医疗”技术的发展,智慧医疗越来越被 人们所熟知和接受。人工智能(A I)正在越来越多地被开发 用于和诊断以及对患病风险进行评估和分类m。Ma-nogaran Gunasekara等人测量跨基因组DNA髙维数据集来诊 断癌症,使用贝叶斯隐马尔可夫模型(HMM)与高斯混合 (GM)聚类方法进行处理。廖志军等人利用随机森林分类 算法提取mRNA特征应用于六种癌症的诊断:3]。夏春秋通 过低秩表示从高维基因数据中到具有判别力的特征再对 癌症进行分类[4]。Molmid A bdar则是利用置信度加权投票 方法和增强集合技术对早期乳腺癌进行诊断[5]。Subhashis B aneijee等人在选择重要特征的同时利用自适应神经模糊分 类器对脑瘤分类,达到85. 83%的分类正确率[6]。
综上所述的研究都是对患者进行诊断,但是在早期阶段 的大多数癌症均没有明显症状,当诊断出癌症时,早期 的延误会增加病患的致死率,导致无法挽回的后果。因此,在智慧医疗领域中迫切需要准确对早期患癌风险进行筛查,尽早的发现癌症并进行,最大限度的延长患者的生命。研究者康桂霞使用ReliefF算法分析癌症的最具辨别力的特 征,通过决策树来预测癌症的风险[7]。Reedy J i l l采用因子 分析和指数分析比较3种膳食模式方法导致结直肠癌的风 险[8]。王云溪应用因子分析和L ogistics回归模型分析胃溃 疡癌变的潜在预测因子[9]。面对早期癌症数据这类高维复 杂性数据集,在处理过程中,采取因子分析的主要是将具有 错综复杂关系的变量(或特征)综合为若干个因子,以解释原 始数据与因子之间的相互关系,达到特征选择和降维的目 的,以便算法模型的预测和分类效果有效,降低计算复杂 度[1°]。但是因子分析在计算因子得分时用到最小二乘法、极大似然法,在面对非线性关系时容易失效,使得分类效果 欠佳。因子分析更倾向于描述原始变量之间的相关关系。
本文为解决传统的因子分析特征选择算法中(相关性矩 阵)协方差矩阵只能够衡量具有相关关系的特征。将互信息 引人到因子分析中进行特征选择,由于互信息能够利用信息 熵衡量特征与类别或者两个特征之间依赖程度的强弱,展现 出两个特征间拥有共同信息的含量,并且不局限于线性关 系tll]。从而更有效地对髙维数据进行特征选择,用以提高 算法的分类精度。因此,提出一种结合互信息的因子分析对 患癌因素的分类方法。人们可对早期癌症风险因素进行分 类,避免延误最佳时机。
2因子分析
因子分析是当前特征选择中应用最为广泛的方法之 一[12]。在髙维数据中,因子分析通过多个特征间协方差矩 阵的内部依赖性关系,到能够反映出所有特征主要信息的 公因子。
假设有n个样本量,P个指标(特征),X=(U2,…
为随机特征,其中协方差矩阵C ot(*) =■?;可得出本假
设的公共因子为f设协方差矩
阵cov(F) =1,则因子分析模型为:
X,==+…+ fllm
厂m+
A:=a n F\++ a2m^m+ 02
(1)
^==气1尸1+…
其中为特殊因子,则4 = (%)称为因子载荷矩阵,\为因
子载荷(loading),实质表示Jf,依赖因子。的程度[13]。该因
子分析模型满足正交,矩阵形式具体表示为
a\\°12 …ai m
a2l°22 …a2m(4, ,A2,-",A…)(2)
L Si%
-xt-'Ft-■〇'_
X =x2,  F =,e=〇2
-Fm-一8p-
因子模型简单表示
X = AF + e
(3)
式中C〇v(f,0) =0,公共因子和特殊因子满足不相关的条
件。针对高维数据集,使用因子分析进行降维,特征之间需
具有线性相关性,得出的各个公共因子应具有可解释性。因
子分析算法如下所示。
/raput:原数据集/V
特征尤=丨不,1广.:?…|
output:因子模型尤=AF+ S
1) 标准化原数据集/V;
2) 计算高维数据集/V中特征;f间协方差阵;
3)若 B W0e[0, 1]并 /OWO多0.5 则输出F
= t F1)F2-/'J;
4) 通过因子旋转,使得公共因子f更具有解释性;
5) 对因子F计算得分,转换为因子载荷/i= (4, ,/12,…,
并得出特殊因子
6) 输出因子模型:+
3结合互信息的因子分析对患癌因素的分类算法
3.1互信息相关知识
在信息和概率论中,两个随机变量的互信息(Mutual In­formation,M I)衡量它们之间相互依赖的程度, 解释为两个特
征之间共同拥有信息的含量[U]。互信息具有两个显著的
优点:
1) 能够对随机变量间复杂的关系进行处理,包括处理非 线性关系,保证特征与类别间在未知关系情况下依然有效;
2) 不局限于实值随机变量,并在特征空间的变换情况下 互信息的值不会改变,保证了在任意阶段都可以准确度量特
—215 —团队氛围
征间的关系。
一般地,两个变量X 和F 的互信息[15]可以定义为
I {X ;Y ) = Y j  土p U ,y )l 〇g (#;忠))</吨(5)
其中p U ,y )是X 和F 的联合概率分布函数,p (x )和P (y )分
别是它们的边缘概率分布函数。若/U ;F ) =0当且仅当X
和F 是独立的随机变量,可知
p {x ,y ) = p (x )p (y )因此
l o g (pf^^)=i 〇g l  =0综上所述,互信息具有非负性/u ;n  >〇和对称性/
(x ;y ) =/(y ;x )。x 和y 两者依赖程度越高,/u ;y )的值就
越大,类别与特征间包含的共有信息也就越多,反之,则类别
与特征相互独立,不存在任何共同信息。
3.2算法描述与分析
结合互信息的因子分析算法框架如图1所示。因子分
析中使用协方差矩阵只能反映出特征间的相关性,即为线性
关系,无法有效的评价特征间的非线性关系,而算法的思想
就是引人互信息,利用其评估特征间的共有信息这样的特异
性来优化特征选择的处理过程,使得算法不局限于线性
关系。
(6)
(7)
图1结合互信息的因子分析算法框架图
首先,对原数据的P 个指标标准化处理,消除特征在量
纲上的影响。根据标准化后的数据矩阵求出协方差矩阵Z 。
定义为原数据的互信息阵,使用拉格朗日因子法得到
协方差阵对应的特征值的特征向量。原数据特征值为
&,•••、,单位特征向量为
以丨丨 u l 2 u2i  U 22U  =L  UP \ UP 2
对于因子分析而言\=upmv /^,初始因子载荷阵为1
公式表示为
Ulm
U2m (8)
216 —A  = U V//AT L  /k  '/k un  V un  y ^2 ••U 2l  \/ A l y ^2&■/K (9)■up t  y x 7 u p 2 y A 7'" up m  /a  因此,在实际因子分析过程中采用互信息来替代协方差阵,本文提出一种结合互信息的因子分析(M I F A )特征选择 算法用于患癌风险因素的分类。得到因子模型为^ (10) 少是Z 的特征值构成的对角阵。由非负性/(Jf ;〇0 和互信息对称性/(A  1〇 = /(H )可知,不论是互信息(非对 角线元素表示两个特征间的互信息)或自信息(信息熵,对角 线元素表示的变量)均为实数,Z ,U m 为非负实数对称矩阵。然后,由各因子间为完全独立特征,根据因子载荷\求 得公因子方差比M M  = 2<4(j  = I ,2,…k) (11)i  = l 表示因子分析中公因子对特征的;f ,总方差所做出的贡 献,取值在〇 ~ 100%之间,数值越大,说明该特征能被公因子 解释的信息量越大。最终,选择贡献率为85%以上的前M  个公因子作为原数据新特征,统计学上指标达到85%即可认 为这些因子包含了全部特征的原始主要信息。若得出因子贡献率不显著,可进行最大方差正交旋转, 尽量使各因子方差差异达到最大,即载荷平方和M 达到最 大,以方便对因子解释。简化算法思想如下所示。/npirf :数据集Z )output : A /个新特征1) 标准化数据集2) 计算求得协方差矩阵Z ;3) Z 转换为心^^互信息阵,并求得特征值A  = U , ,A 2,…A 山4) 定义单位特征向量{/,由% 得因子载荷阵 A  = U /X ;;5) 矩阵符合/u ;〇0以及=/(r ;x ),那么可 以求得4f d /4 =必;6) 再由因子载荷ay 求得< =« = 17) 若< e  (0,1),那么就可以输出M 个新特征;8) 不满足区间(0,1),则继续进行因子旋转,直到符 合条件输出新特征M 。4实验分析本章节首先给出实验数据集的信息、
实验相关设定和算
法性能评价指标,然后分为3组实验对结果分析,并与文献
[7]中所采用ReliefF进行特征选择的多个分类算法进行比较。
4.1实验信息
仿真数据来自于开源的机器学习数据库U C I,选取了高 维度的宫颈癌(Cervical)、乳腺癌(Breast)和肝癌(H C C)数据 集,均属于可预防的癌症类型,早期发现患癌风险并进行治 疗即可完全治愈。因此数据集作为对患癌风险因素的分类 具有很好的借鉴作用,且高维特征符合实验要求,数据集信 息如表1所7K。仿真使用Python语言在U buntu系统(C P U Intel Corei5/8G R A M)中运行。
表1实验数据集信息
编号种类特征数样本量类别
1Cervical268582
2Breast305692
3HCC232042
实验组中神经网络分类算法评估学习模型选择常用的 两个参数:分类正确率accuracy和损失函数loss。其中损失 函数loss的表达式为
Loss = -ln{P,)= - \n{Pcorrect)(12) A是将样本分配到类别Z的概率,即正确分类概率Pcorrect。当对于一个迭代(Epoch)中含有无穷多个样本时:
Loss = E(- \r\{ accuracy))(13)即
accuracy = e_L™!(14)在神经网络中通常可知accuracy数值越高Joss越小,模 型性能越好。
4.2实验结果与分析
实验组1:本实验组在用于患癌风险因素分类时,对三个 数据集进行公因子提取。比较了通过F A与M I F A从原数据 集提取15个(累积贡献率>50%)的因子特征值和累积方差 贡献率,如表2、表3和表4所示。
表2数据集1:F A和M I F A求得的因子信息
2012皮鞋很忙FA MIFA
特征值贡献率%特征值贡献率%
17.0750. 16  3.9666.34
2  6.8756. 34  3.3470.56
3  5.9765. 37  2.8176.12
4  5.4767.77  2. 1781.34
5  3. 8370.39  1.4685.47
6  3. 1274.28  1.3487.06
7  2. 5680.48  1.2988. 13
8  1.8983.480.7889.99
9  1.3285.730. 4990.21
特征值
FA
贡献率%特征值
MIFA
贡献率%100. 7886.550.2392.34
110.5988.900. 1395. 87
120.2389.390. 0997. 75
130. 1893.590.0699.47
140. 1198.970.0599.99
150.091000.00100.0
通过表2可以得出,以因子累积贡献率等于85%作为指 标,以F A作为特征选择算法需要9个新特征才能解释原数 据全部信息,而采用M I F A则只需要5个新特征即可包含原 来的所以特征信息。从可解释性方面可以看出,在相同维度 下,F A的因子贡献率低于M I F A,例如同样在公因子5的情 况下,F A的贡献率为70. 39%,而M I F A的贡献率为 85. 47%。
同样地,由表3可以发现采用F A进行特征公因子选择 需要8个公因子数量,累积贡献率大于85%,而使用M I F A 方法仅需要5个公因子即可解释原始数据集实际意义。同理,通过表4可以清楚看出对于因子的可解释性,相同维度 下,例如在公因子8的情况下,因子分析的贡献率为81. 92%,而结合互信息的因子分析的贡献率则为89. 16%。
表3数据集2 :F A和M I F A求得的因子信息
FA MIFA
黑龙江省卫生信息网特征值贡献率%特征值贡献率%110.7850.237.9560.42
28. 8356.31  3.2571.25
37. 1764.31  2. 1478.41
4  4.0671.4
5  1.3983.05
5  2. 8978.9
6  1. 2087.06
6  2. 1480.210. 8789.96
7  1.7983.690.6292.01
8  1.0988.390.4694.08
90. 6391.690. 3995. 12
100.4993.550. 2597.76
110. 3396.300. 2097.06
120. 3096.480. 1198.51
130. 2597.900.0499.68
140. 1498. 130.0399.95
150. 111000.00100
217—
表4数据集3:F A 和M I F A 求得的因子信息
神经算法FA MIFA
图3-a 数据集2:FA 方法的分类精度和损失函数特征值贡献率%特征值贡献率%
1  1.4650.48  1.3357. 32
2  1.3856.50  1. 1763.34
3  1.2061.37  1. 1069.05
4  1. 1466.720. 9273. 84
5  1.0171. 130.8578. 35
60. 9075.000.7482. 2670.8278.630.7085. 38
80. 7581.920.6189. 16
90. 6584.730. 5391.99100.6087. 370. 4694. 43110. 5292.240.3396. 19120.3695.770. 2397. 42130. 2398. 850. 1998.43140. 1599.510. 1699.30150. 111000.00100切削油配方
综上所述,即可证明M I F A 降低的数据维度量和公因子 解释性高于传统的因子分析方法,有利于模型的分类正确 性。实验组2将采用常用的分类算法进一步验证。
风力摆实验组2:以实验组1降维之后的数据集作为分类算法 的输入进行仿真。本组实验以常用的神经网络(A N N )作为 分类器来验证因子分析(F A )与结合互信息的因子分析(MI ­F A ) 得到的公因子对宫颈癌活检进行预测。 神经网络分类 器包含有输人层(Input  layer )、隐藏层(Hidden  layer )、输出层 (Output  layer ),激励函数设置为sigmoid ;采用十折交叉验 证法。
通过图2 - a 看到F A 训练集和检测集产生很大的过拟 合现象,可以看到检测集的精确度只有89%左右。而通过图 2-b 可以明显看出M I F A 的模型过拟合现象被解决,检测集 的精确度逐渐达到95%,有较大的提升。通过图3-a 和3- b 明显看出F A 的损失函数并未趋于收敛,而M I F A 的损失函 数在完成10次迭代后快速收敛,最终的损失函数值只有0. 1138,说明算法达到实验效果。
图2-h 数据集1:M 1F A 方法的分类精度和损失函数
图3-h 数据集2: M IFA 方法的分类精度和损失函数图4-a 数据集3: FA 方法的分类精度和损失函数图4-h 数据集3: M IFA 方法的分类精度和损失函数 同样可以看出对于数据集2和3所得出的分类精度和 损失函数。如图3和4所示,数据集2、3在迭代15 -20次时 精确度出现很大波动,产生较大过拟合,检测集精度过低,相 对的损失函数也未趋于收敛,特别地,对于数据集3检测集 的损失函数过大,算法性能较差。而M I F A 则在处理高维度 癌症数据集产生较好的分类效果,神经网络循环迭代10次 后损失函数趋近于收敛,分类精度分别为95.96%和 %. 13% ,损失函数为 0. 1341 和 0. 1216。实验组3为了客
观展示实验结果,通过10次十字交叉 法验证,如图5所示。清楚地看出针对高维数据集采用MI ­F A  计算出的公因子作为分类器输人项所得到的分类正确率 高于F A 方法。—数据集IPA  •〇•数据集2FA  数据集3F A 数据集A  M IF .V •■数据集:! MIFAO -数据集3 M IFA 图5数据集交叉验证分类精度对比—218

本文发布于:2024-09-22 18:20:52,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/362636.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:因子   特征   分类   数据   进行   算法   互信息   癌症
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议