数据挖掘方法及其在医学领域中的应用

数据挖掘方法及其在医学领域中的应用
51
第12卷 第7期 2010 年 7 月
辽宁中医药大学学报
JOURNAL OF LIAONING UNIVERSITY OF TCM
Vol. 12 No. 7 Jul . ,2010
数据挖掘(Data Mining)是一个多学科交叉研究领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。数据挖掘就是应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识,这些知识或信息是隐含的,事先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等形式。也可以说,数据挖掘是一类深层次的数据分析。医学领域中包含着海量的信息,利用数据挖掘技术处理这些信息,可以取得事半功倍之效,数据挖掘相关方法在医学中常用的领域如下。
1 关联分析
关联分析(association analysis)是用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的联系可以用关联规则或者频繁项集的形式表示。关联规则挖掘就是从大量的数据中挖掘出描述数据项之间相互联系的有价值的有关知识。关联分析常用的算法是Apriori 算法,它利用了一个层次顺序搜索的循环方式来完成频繁项集的挖掘工作。该算法将关联规则的发现分为两步。第一步是识别所有的频繁项目集,即不低于用户最低支持度的项目集。第二步是从频繁集中的构造不低于用户最低信任度的规则。
关联规则在医学中主要用于以下几个方面:①用于DNA 序列间相似搜索与比较:对分别来自带病和健康组织的基因序列进行比较以识别两类基因间的差异,通常在带病样本中出现的频度超过健康样本的序列,可认为是导致疾病的基因基素。②用于识别同时出现的基因序列:大部分疾病不是由单一基因引起的,而是基因组合起来共同作用的结果,关医疗器械销售模式
联分析方法可用于帮助确定目标样本中同时出现的
基因的种类,此类分析将有助于发现基因间的交叉与联系的研究。③在患者生理参数分析
中的应用:生理参数数据是医学诊断最基本也是最主要的依据,例如有医师用关联分析研究糖尿病患者肌肉组织和脂肪组织含量与骨密度之间的联系,得出高肌肉和高脂肪组织含量可降低患者髋骨骨折危险度的结论;也有医师在研究中运用时间序列关联分析,发现QT 间期和Ⅰ型糖尿病患者夜间血糖浓度有关,以预警患者在夜间猝死的发生。④用于疾病相关因素分析:在病案信息库中存在大量关于患者病情和患者个人的信息,包括年龄、性别、居住地、职业、生活情况等,对数据库中的信息进行关联规则分析可以发现有意义的关系及模式,某种疾病的相关发病危险因素分析可以指导患者如何预防该疾病。⑤用于疾病预测:确定某些疾病的发展模式,根据患者的病史和以往病例归纳出诊断规则,预测疾病发展趋势,从而有针对性地预防疾病的发生。
2 聚类分析
聚类分析(Cluster Analysis)是将一个数据集划分为若干组或类的过程,并使同一组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。聚类技术主要包括传统的模式识别方法和数学分类学,如决策树归纳、贝叶斯分类、神经网络技术、基于知识的案例推理、遗传算法、粗糙集和模糊逻辑技术等。
路网
聚类分析在DNA 分析、医学影像数据自动分析、多种生理参数监护数据分析、中医的诊断和方剂的研究以及疾病危险因素的分析等多个领域得到了广泛的应用。例如,某医师用聚类分析法研究导致冠状动脉粥样硬化性心脏病的危险因素,对收集来的资料
数据挖掘方法及其在医学领域中的应用
胡灵芝
(陕西中医学院,陕西 咸阳 712046)
摘 要:简单扼要地介绍了数据挖掘中各种方法如关联分析、聚类分析、决策树方法等的相关内容和它们在医学
领域中的主要应用。
关键词:数据挖掘;医学;关联分析;聚类分析;人工神经网络;遗传算法
中图分类号:R857.11 文献标识码:A 文章编号:1673-842X (2010) 07- 0051- 02
收稿日期:2010-02-02
基金项目:陕西省中医药管理局资助项目(jc57)作者简介:胡灵芝(1977-),女,浙江宁波人,讲师,研究方向:计算机数据库技术及应用。
Data Mining Method and Its Application in Field of Medicine
HU Ling-zhi
(Shaanxi College of Traditional Chinese Medicine,Xianyang 712046,Shaanxi,China)
Abstract :
Brief introduction to various methods of data mining,such as correlation analysis,cluster analysis,decision tree method and the relevant content in the medical field of their major applications.
Key words :
data mining ;medical ;correlation analysis ;cluster analysis ;artificial neural network蛆疗
s ;genetic algorithms
辽宁中医药大学学报12卷
整理后,将可能与冠心病发生有关的15项因素(如年龄、高脂饮食、冠心病家族史、高血压家族史等)进行数量化,用两类间最远点的距离代表两类间的距离,距离间的测度采用Pearson相关对15项因素进行系统聚类分析,筛选出冠心病的危险因素为:年龄、冠心病家族史、舒张压、饮酒、高脂饮食。应用聚类分析方法筛选疾病的危险因素,可以用个数较少、彼此独立、具有代表性的因素作为疾病的危险因素,为进一步预防和控制疾病的发生、发展提供科学依据。
2017年高考试题全国卷3 决策树
决策树方法(decision tree)是通过一系列规则对数据进行分类的过程。具体而言是利用信息论中的互信息(信息增益)寻数据库中具有最大信息量的属性字段,建立决策树的一个节点;再根据该属性字段的不同取值建立树的分支,在每个分支子集中重复建立树的下层节点和分支的过程。
菅沼孝三>科学论文怎么写决策树在医学中的应用领域主要有:①用于基因与大分子序列分析,有研究者利用决策树对已知功能分类的蛋白质序列进行研究,建立了已知功能分类的蛋白质序列决策树模型,实现了模型对未知功能分类的蛋白质序列功能的预测。②用于疾病诊断,临床医生为患者做出医疗诊断可以看作是一个分类的过程,即医生根据他的知识和经验将患者分类到一个特定的疾病中,决策树产生的结果简洁明了,易于理解,并能提取相应的诊断规则,将其应用于疾病的分类诊断往往可以提高诊断的准确率,并为经验较少的临床医师提供帮助。③用于医院信息系统挖掘,决策树在医院信息系统的主要用途有医疗需求预测、医疗市场分析,预测未来某段时间内常发生的疾病种类及药品使用频率,分析疾病之间的关系以及疾病的影响因素,总结各种方案的效果等。④用于医疗卫生保健、医疗政策分析、医疗资源利用评价,决策树方法可以解决诸如家庭护理保健的需求分析、儿童预防保健的干预、为不同的卫生保健体提供实际可行的决策支持系统等一系列问题,为保健政策的制定与实施提供了相应的基础。决策树技术应用于医疗卫生政策的制定、理论的分析、方法的探讨,依赖已积累的与人健康状况相关的各种数据,利用知识管理优化库信息并从中提取知识结构为政策分析提供依据已经成为卫生管理人员和信息开发人员的共同任务。决策树技术应用于医疗资源利用评价可以使医疗资源合理分配、恰当运用,从而避免资源的闲置与浪费。
4 人工神经网络
人工神经网络(Aritificial Neural Network,简称ANN)是对人脑的某种程度上的抽象、简化和模仿。它是一个数学模型,能利用电子线路来实现或用计算机来模拟人的自然智能,从人脑的生理结构出发来研究人的智能行为,模拟人脑对信息处理的功能。它是集神经学科、数学、统计学、物理学、计算机科学及工程学等学科于一体的一种技术。现今有多种类型的神经网络,医学中应用比较广泛的是BP神经网络,也就是误差反响传播网络。
人工神经网络在医学中的应用主要有临床诊断、预后研究、临床决策分析、医学信号分析处理等。①在临床诊断方面,有研究者将12项血清学指标运用于BP网络进行肺癌诊断的研究,其资料构成是50例肺癌患者,40例肺良性疾病以及50例正常人的CEA、CA125、NSE等12项血清学指标,从中随机抽取了100例用于网络的训练,其余30例用于检测,研究的结果显示ANN的肺癌识别率及预测率均为100%,并且可以同时区分是正常、良性疾病还是肺癌。②在预后研究方面,有学者用BP网络筛选影响肝癌手术后复发的相关因素,通过对1000多份病例资料的分析,先对54个可能的影响因素作ANN的单因素分析,选取有意义的18项因子再作多因素分析,最终筛选出9个与预后相关密切的因子作为肝癌手术后复发
预测的重要指标,其结果与临床实际十分相符。③在临床决策分析方面,ANN能够为每个患者“量体裁衣”地给出一个特定的预测值,它的应用在同样对人大样本资料分析的基础上为率的个体化的实现提供了可能,也就为临床决策的个体化提供了可能,从而为决策的科学化提供了保证。
④在医学信号分析处理方面,ANN已被广泛地应用于医学信号(如心电、脑电、肌电、胃电等)的分析和处理中,尤其是在脑电和心电的分析处理方面,工作成果更为显著。
5 遗传算法
生物的进化是一个奇妙的优化过程,它通过选择淘汰、突然变异、基因遗传等规律产生适应环境变化的优良物种。遗传算法(Genetic Algorithm)是根据生物进化思想的启发而得出的一种全局优化算法。它可以看作是一种最优化方法,通过对问题进行类似染体的编码,给出了一种进化函数,通过某些遗传运算,如选择、交叉和变异等,将那些最合适的染体保留下来,即对应问题的最优化。

本文发布于:2024-09-21 12:32:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/412981.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分析   疾病   患者   研究
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议