转载：数据挖掘常用算法及其在医学大数据研究中的应用

转载：数据挖掘常⽤算法及其在医学⼤数据研究中的应⽤

医院信息化的发展及云计算、⼤数据、物联⽹、⼈⼯智能等在医疗领域的应⽤，为医学数据的获取、存储及处理提供了极⼤便利。数据挖掘也随着计算机技术得到了⼴泛应⽤，从⽽提⾼了数据利⽤效率，拓展了知识发现的⼴度与深度。⽬前，医院已积累了⼤量医疗相关数据。医学⼤数据与数据挖掘的结合，能够帮助⼈们从存储的⼤体量、⾼复杂的医学数据中提取有价值信息，加速医学成果转化，为医疗⾏业开拓⼀个新的时代。介绍了医学数据挖掘中常⽤算法及其在医学⼤数据中的研究成果，以期为今后医学⼤数据的挖掘利⽤提供参考。

爱玛先声夺人数据挖掘是指从数据库中，提取隐含在其中的⼈们事先未知、潜在的有⽤的信息和知识的过程。数据挖掘已有较多成熟⽅法，并在医学⼤数据挖掘中取得了⼀定成果。本研究对数据挖掘的常⽤算法及在医学⼤数据中的应⽤进⾏综述。

数据挖掘分类及常⽤算法

预测型数据挖掘预测型数据挖掘是从历史数据中发现的已知结果，推断或预测未知数据的可能值，有预测和回归两种类型。常⽤算法有线性回归、Logistic回归、K-NN算法、决策树（DT）、⼈⼯神经⽹络（ANN）、⽀持向量机（SVM）及各种集成算法等。

回归回归是指确定响应变量和⼀个或多个⾃变量之间依赖关系以构建预测模型。Kirkland等利⽤Logistic回归建⽴模型，对采集的病⼈临床指标等数据建⽴了疾病恶化预警模型，可对病⼈未来2-12⼩时可能出现的疾病恶化风险进⾏预测。Escobar等基于14家医院的电⼦病历数据，同样采⽤Logistic回归建⽴模型，⽤于病⼈⾮计划转⼊ICU的预测。

分类分类是指基于已知所属类别的历史数据的特征描述预先定义好的类别，构建预测类别的模型，再根据待查数据的相关特征与这些类别相应特征之间的相似程度，确定待查数据应划归⼊的类别，可⽤于预测性研究。Meng等[5]应⽤了Logistic回归、ANN及决策树三种分类算法建⽴了糖尿病预测模型。

star264描述型数据挖掘描述型数据挖掘是识别数据中的模式或关系，旨在探索被分析数据的内在性质，常⽤⽅法有关联规则、序列规则和聚类。

关联规则关联规则通过从⼤量数据中，发现数据之间某些未知的、潜在的且有实际意义的关联或联系，并以关联规则的形式表现出来。关联规则应⽤于医学研究，可以从医疗信息中揭⽰疾病发⽣、发展规律以及医学诊断、医学图像、症状与⽤药等某些内在联系，为疾病诊断和健康管理提供参考。李准等基于Apriori算法，对某综合性医院电⼦病历中不同的冠⼼病诊断结果与⽤药情况进⾏关联规则挖掘，发现不同药品对不同诊断的效果及冠⼼病危险因素。Qin Li等将Apriori算法⽤于⾼⾎压、房颤、⾎脂异常等8项⾼风险因素与中风之间关联性挖掘，提供了可⾏的中风预防、早期诊断和早期⽅式。

序列规则序列规则可挖掘相对时间或其他模式出现频率较⾼的模式，通过对时间序列数据挖掘，可获得与时间密切相关的信息，实现知识获取。王晨等将⾮线性时间序列分析中的算法引⼊胎⼉⼼电信号处理，成功实现胎⼉⼼电信号与母体⽣物电信号的分离，对提⾼胎⼉⼼电监护有很好的辅助作⽤。冯冰等认为时间序列在预测传染病发病中较好的效果，并建⽴了两种季节时间序列模型对某市细菌性痢疾⽉发病率预测效果进⾏对⽐研究，预测效果与实际情况基本⼀致。

聚类分析聚类可将整个数据集分成⼏个数据组，属于同⼀组的实例尽可能地相似，⽽属于不同组的实例则尽可能不同，常⽤算法如K-means 和TwoStep等。张勃等将K-means应⽤于冠脉光学相⼲断层成像的图像斑块分割，实现多区域斑块精确分割，为医⽣快速精确地读取图像和评估患者病情提供依据。TwoStep相⽐其他聚类的⼀个突出优点是，能够⾃动选择最佳分组数⽽⽆需预先设置，如杨美洁将TwoStep聚类算法⽤于电⼦病历中⾼⾎压患者数据聚类分析，得到了⾼⾎压重要的预测变量。

数据挖掘的过程

数据挖掘过程⼤致包括6个步骤：数据选择、数据清洗、数据赋值、数据转化、数据挖掘和结果解释与评估。数据选择包括数据源、数据类型、特征变量等的选择，其中，特征变量选择⾄关重要，许多分析建模探索往往始于数以百计甚⾄更多的变量，但通常来说，只有少数变量真正与⽬标变量有关，有助于降低模型训练时间和存储空间，提⾼模型的精度。研究者在建⽴预警模型时，以Logistic回归从

众多变量中筛选了特异性较⾼的变量⽤于模型建⽴；Khiabani等[20]则以filter 和wrapper两种变量选择法分别从55个变量中筛选特征变量，⽤于前驱糖尿病预测研究，并将预测结果与全变量模型的预测结果进⾏了对⽐，发现经过特征变量筛选的预测模型的精确性优于全变量模型。

卢荣友

数据挖掘在医学⼤数据研究中的应⽤

数据挖掘在医学⼤数据研究中已取得了较多成果，通过⽂献检索，总结了三⽅⾯的应⽤现状。

第一次熬夜疾病早期预警医疗领域往往需要更精确的实时预警⼯具，⽽基于数据挖掘的疾病早期预警模型的建⽴，有助于提⾼疾病的早期诊断、预警和监护，同时，也有利于医疗机构采取预防和控制措施，减少疾病恶化及并发症的发⽣。

疾病早期预警，⾸先要收集与疾病相关的指标数据或危险因素，然后建⽴模型，从⽽发现隐含在数据之中的发病机制和病情之间的联系。Forkan等采集⽇常监测的⼼率、舒张压、收缩压、平均⾎压、呼吸率、⾎氧饱和度等⽣命体征数据，以J48决策树、随机森林树及序列最⼩优化算法等建⽴疾病预警模型，⽤于远程家庭监测，识别未曾诊断过的疾病发⽣，并将监测结果发送到医疗急救机构，实现⽣命体征⼤数据、病⼈及医疗机构的完整衔接，以降低突发疾病及死亡的发⽣率。Easton等利⽤贝叶斯分类算法建⽴了中风后遗症死亡预测模型，认为中风后遗症死亡概率与中风发⽣后的时间长短成函数关系，有助于中风后遗症患者的后续监护。Tayefi等基于决策树算法建⽴了冠⼼病预测模型，该模型

发现hs-CRP作为新的冠⼼病预测标志物，⽐传统的标志物（如FBG、LDL）更具特异性。

慢性病研究糖尿病、⾼⾎压、⼼⾎管疾病等慢性病正在影响着⼈们的健康，识别慢性病危险因素并建⽴预警模型有助于降低慢性疾病并发症的发⽣。Alagugowr等建⽴的⼼脏病预警系统，从⼼脏病⼤数据库中提取特征指标，通过K-means聚类算法识别出⼼脏病危险因素，⼜以Apriori算法挖掘⾼频危险因素与⼼脏病危险等级之间的关联规则。Ilayaraja等则以⾼频项集寻⼼脏病危险因素并识别病⼈风险程度，该⽅法能够回避⽆意义项集的产⽣，从⽽解决了以往研究中项集数量多、所需存储空间⼤等问题。CH Jen等对慢性疾病并发症风险识别的研究分三个步骤，⾸先，选择健康⼈体检数据和慢性病患者相关疾病数据，以带有序列前项选择的线性判别分析来寻相关疾病的特征变量；然后，以K-NN对特征变量进⾏分类处理；最后，将K-NN算法的分类结果应⽤于慢性疾病预警模型的建⽴。Aljumah等先后以回归分析和SVM⽤于预测和判断糖尿病不同⽅式与不同年龄组之间的最佳匹配，为患者选择最佳⽅式提供依据。Perveen等对糖尿病的预测研

究，采⽤患者⼈⼝学数据和临床指标数据，并分别⽤Adaboost集成算法、Bagging算法及决策树三种算法来建⽴预测模型，认为Adaboost集成算法的精确性更⾼。

灵图天行者辅助医学诊断医学数据不仅体量⼤，⽽且错综复杂、相互关联。对⼤量医学数据的分析，挖掘出有价值的诊断规则，将对疾病诊断提供参考。Yang等基于决策树算法和Apriori算法，对肺癌病理报告与临

床信息之间的关联性进⾏了研究，为肺癌病理分期诊断提供依据，从⽽可回避诊断中需要⼿术⽅法获取病理组织。Becerra-Garcia等应⽤SVM、K-NN和CART三种算法对眼球电图进⾏信号预处理、脉冲检测和脉冲分类，为研究临床眼球电图检查中⾮⾃发扫视眼球运动的识别提供依据。彭⽟兰等对某医院5年的乳腺超声数据进⾏了关联规则挖掘，建⽴乳腺病理诊断与超声诊断之间的关联规则，并开发了乳腺超声数据库数据检索系统，便于医⽣快速获得超声诊断和病理诊断的各种诊断信息和病例信息。

医学⼤数据挖掘已呈现⼴阔的发展前景和巨⼤的应⽤价值，将为疾病研究、临床及管理决策、医疗服务个性化及图像识别等众多领域带来更多⽀持。麦肯锡在其报告中指出，⼤数据分析可以帮助美国医疗服务业⼀年创造3000亿美元的附加价值，⽽美国医疗协会也称，改善医疗卫⽣事业的关键在于⼤数据。⽬前，医院⼤数据中⼼、区域性卫⽣信息平台、国家医疗⼤数据中⼼的建⽴以及卫⽣信息互联互通标准和共享规范的制定，为数据存储和共享、推动医学⼤数据的应⽤提供了更多⽀撑。未来，医学⼤数据挖掘将不断更新，探索新的研究领域，推动研究成果转化。

⽂章来源：《中国数字医学》杂志2018年第03期，作者及单位：孙雪松王晓丽，上海市浦东卫⽣发展研究院。上海音乐学院汤爱民

本文发布于:2024-09-23 11:15:06，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68587.html

上一篇：浙大远程教育在线数据挖掘作业答案

下一篇：大数据时代的数据挖掘

标签：数据预测医学模型数据挖掘诊断

留言与评论（共有 0 条评论）