基于数据挖掘在医疗中的应用分析探讨

太阳能淋浴器140
基于数据挖掘在医疗中的应用分析探讨
赵志南
(广西大学计算机与电子信息学院,广西南宁530004)
摘要:随着现代信息技术的应用普及,医院的管理也逐渐走向信息化的道路,其数据库的规模也在不断地扩大,增加
了医院管理的难度。因此如何能够在大量复杂的信息中提取有效的信息资源,为医院的管理提供正确的决策,是当前医院在激烈的市场竞争中提高自身竞争力的重要途径。由于数据挖掘结合数据仓库技术能够充分地挖掘海量信息,发现其中具有价值的知识和信息,进而为医院的管理者提供可靠的数据支撑。文章重点研究了数据挖掘相关技术,以医疗费用作为主题,建立数据仓库,建立多维度的数据模型等工作,进而为相关领域的数据挖掘提供可靠的技术支撑。关键词:医疗;数据库;数据挖掘;分析中图分类号:R319文献标识码:A 文章编号:1673-1131(2016)09-0140-02医院的信息系统囊括了医院运行的整个数据信息系统,是医院管理的基础。但是目前医院信息系统的数据仅限于简单的查询,没有得到充分的挖掘和利用。人们需要随时获取患者、住院资金等信息方面的数据,并且能够准确无误地挖掘出
数据背后隐藏的具有价值的信息,进而提高医院管理的效率。随着医院管理的科学化发展,各级管理人员和决策人员需要对医院数据信息内部的环境进行充分的了解,正确挖掘医疗数据中费用的重要信息,进而加强医院医疗费用的管理,为医院的发展提供正确的数据信息。
1数据挖掘相关概述
防洪板数据挖掘技术作为一门相互交叉的学科,范围包括对数
据从低级的应用到高级的挖掘,可为决策提供支撑。数据挖掘就是在数据仓库中运用相关的技术提取对人们有价值的信息,进而帮助人们利用这些信息。因此可以说数据库是数据挖掘的源头和基础。数据存储在大型的数据库中,在实施智能化决策前需要对海量的数据进行多维度的分析,构建决策的基础,其次才能够挖掘数据后的信息,为智能决策提供支持。
打开收音机
数据挖掘的方法有关联分析、序列模式分析、分类分析以及聚类分析等方式,本文主要采用的是聚类分析的方式。聚类分析与分类分析相反的一个过程,能够按照一定的规则进行划分,按照若干分类,描述这些类别。主要目的在于能够将同一类别之间的距离缩小,不同类别的个体差距增大。数据挖掘是一个复杂的过程,整个过程可以分为问题定义、数据准备和预处理、数据挖掘和结果解释、评估等。问题定义是数据挖掘的一个重要的步骤,需要确定数据挖掘的实际需求,另一方面能够确定学习算法。数据准备分为数据的选择、预处理和变换。数据选取的目的是为了发现目标数据,按照用户的
非接触式扭矩传感器
需求从原始数据库中抽取一组数据。预处理是数据净化的一个关键步骤,该步骤能够消除数据的噪声,计算出数据的缺陷,避免重复的数据记录,便于将符号归纳。数据转换是数据挖掘中消减数据维度的一个重要的步骤。数据的挖掘阶段需要通过各种方法确定挖掘任务,确定使用算法等。最后通过结果分析和评估识别知识的真正有价值的模式,将模式可视化。
2数据仓库模型设计
2.1数据仓库设计
数据仓库中的每一个数据都有自身的确定主题,而主题数据也是企业所需要挖掘和分析的对象,该主题是针对企业的某一项问题而设定的。因此在不同的逻辑域中存放着不同的主题,并且具有自身独特的结构和模式。以数据仓库中的医疗费用主题数据来讲,常用关系表以独立的方式存储,这种存储方式交叉点少且查询的速度较快。按照主题的需求和决策的需要,初步处理数据设计医疗费用事实表和相关的维表。将住院患者的费用事实表进行收集。维表能够从医院的信息数据库中获取数据,每个维度涉及到的级别有很大的不同。如时间维度中有年月日,每个级别中有多个属性,如科室名称、临床属性、住院的标志等。
2.2数据处理
数据处理环节对整个数据挖掘的过程起着关键性的作
用,最终影响着数据价值的发挥。数据处理包含着多个环节。首先是数据的准备工作,需要选择数据,并进行修正和更改。其次为数据预处理,该阶段需要抽取任务相关的数据源,按照其中的约束规则对处理进行归纳和整理,生成需要挖掘的核心数据。数据预处理还包含着多个环节。如数据的清理—清理数据中的遗漏,洗清数据;数据的集成是将多种模糊的数据进行合并处理,形成一致性的数据并储存起来;数据归纳是将需要挖掘的数据整合成集合的形式,缩小数据挖掘的范围。
夹筋铝箔
2.2.1数据清洗
数据清洗过程是去除数据中的无关数据和噪声数据,防止数据遗漏,并且按照一定的时间变化顺序和规律对重复和空缺的数据进行处理,进而完成数据类型的转换。数据清理最常用的是空缺值处理。空缺值的判定和处理常采用回归和贝叶斯等形式处理,这些形式和方法能够按照现有的源数据信息计算出空缺值。噪声数据处理也是数据清洗的一种方式,数据中的噪声主要是数据由于测量变量而发生的随机错误或者是出现的一些偏差。按照数据平滑技术来平滑噪声,识别并删除孤立点。医疗费用包含的数据量大,且产生的噪声点也较多,因此在数据的挖掘中会出现一些缺失值和重复记录的现象。为了防止发生这些错误,需要通过监督技术使得数据能够得到有效的清洗。医疗费用数据的有监督数据清洗过程需要对收集整理的数据进行分析和处理,去噪声数据进行记录,填补数据的缺失。2.2.2数据集成与变换
数据挖掘需要进行数据的集成,也就是将大量的数据整合成一个集合的形式存储在数据仓库中,这样便于查和挖掘。如规范化能够提高数据的挖掘准确度和有效性。数据的
2016
(Sum.No165)
信息通信
INFORMATION &COMMUNICATIONS
2016年第9期(总第165期)
集成主要涉及到三个主要的步骤,首先是数据的选择,借助数据库中的元数据对不同信息源中的数据进行识别。其次针对同一属性的数据出现不同的命名问题需要进行处理。最后处理数据中不一致的数据信息。医院的医疗费用数据庞大且比较分散,数据表也比较多,有效的数据集成能够整合数据,建立数据表,从原有的医疗元数据中抽取适合数据挖掘的数据。转换后的数据常用数据的特征表示,数据的不变式用维度变换的方式寻到,对数据集成所产生的费用数据进行清洗除燥后进行变换。
2.2.3数据归纳
数据归约能够保持元数据的完整性,但数据量较小,在归约的数据上进行挖掘,时间短,资源占有量少,挖掘出的数据信息更加有效。数据归约分为不同的方式,如维归约、数据压缩、数据归约、概念分层等。
2.3建立多维数据集
经过提取后的数据需要经过多维度的分析才能够创建数据库。多维数据集作为数据的一个重要的组成方式,能够为建立数据模型奠定良好的基础。多维数据集能够简化数据分析的步骤,提高数据挖掘的效率。创建多维数据集后才能够对具有存储关系的数据进行转换,进而成为具有实际意义且能够方便查询的数据形式。星型架构是管理关系数据最经常使用的一种模型,在数据集的生成过程中能够将星型结构中的多个维度的数据联系在一起,得到一个多维的数据表。在此基础上能够对数据表中的数据进行分析和处理,将计算的结果存储在多维数据库中。一般多维数据库有两种形式,一种是使用多维数据集成向导,该方法能够制定数据源、事实数据表和维度值等。另一方法利用程序设计进行。经过多维度数据处理后,能够自发地发现数据间潜在的重要联系,并且进行数据的挖掘。本文中采用多维数据集向导的生成医疗费用为主题的多维数据集。
2.4数据仓库多维分析
OLAP的主要对象为多维数据集,它作为数据的一个重要的组成形式,在每一个多维数据集中数据都
有自己的结构和形式。在数据仓库中多维数据集表现为数据的集合形式。从数据仓库中的多维数据集提取源数据时需要按照一定的规则进行,最终生成事实数据。多维数据集能够为客户提供完善的信息功能,便于客户查询和使用。OLAP是使用多维数据表达式进行快速访问技术,能够通过多维组织形式采取数据的操作,能够帮助操作人员验证其合理性和科学性,这种操作的方式包括以下几个方面的内容。
2.4.1钻取
钻取是改变维的层次,变换分析的粒度,分为两个方向上的钻取。钻取数据需要查看多维数据表中的数据,这样能够方便用户的查询。经过数据的深层挖掘后才能够实现数据的钻取操作。在多层数据中能够通过钻取的方式让用户了解不同深度和层次的数据。
2.4.2切片和切块
切片作为多维数据集中某一个维度上的一个具体的操作项目,也就是多维数组如维1、维2...维n中选择一个,得到其子集成为维n上的一个切片。切块作为多维数据集中选定一个区域中的维度成员之一,一个维度代表着意合切块。切块作为维度上的选定值,主要分布在关心度量数据的剩余维度上。2.4.3旋转
旋转能够将多维数据中的数据顺序改变,例如如果多维数据为维1、维2...维n,经过旋转后可以成为维1、维2....维n-1。旋转能够变换维度的方向,重新将维度表格中的数据位置进行变换。
3数据挖掘应用实例
空气清净机本文按照多维数据集信息创新数据挖掘的模型采取Analysis Services OLAP管理器中的挖掘向导进行数据挖掘,并且建立一个新的维度,最后通过聚类分析法对医院一季度住院平均费用的数据进行挖掘。
在数据挖掘前需要将数据分为3:1的分区,较多的部分作为训练和测试的数据集,训练数据集运用到训练模型中,模型的准确性和科学性的验证使用测试数据集。数据模型的创建采用Analysis Services软件进行,将住院平均费用作为可预测列,将病历号、年龄等其他信息作为其他变量,然后保存模型进行处理。在决策窗口中有4个窗格,①显示焦点所在的决策树的部分;②显示树的完整视图;③显示特性信息;④相关联的节点路径。
数据挖掘结果显示:窗格①中颜代表着病人年龄段的密度,颜越深说明事例越多,代表着出院病人的数量;窗格②显示全部节点,平均住院费用在1000~2000元之间的占5.57%,2000~5000元的占0.96%,住院平均费用最多的是在200~500元之间,占57.64%,而500~1000元之间的占23.49%。选择树的节点不同,改变了百分比的表示,医院平均住院费用在1000~2000元的人数显示情况,显示出
32岁以下年龄段的平均住院费用为1000~2000元之间,其中男性大于女性。
因此通过数据挖掘能够分析出不同年龄段和性别对平均住院费用的影响,医院的管理者能够根据这些有用的信息调整医院的经营管理方案,以便更好的服务于患者。
4结语
随着医疗信息化的不断发展,医疗卫生数据越来越庞大,使用数据挖掘技术能够为医院的决策和诊断提供正确的技术支撑。在医院的管理中,需要综合运用各种数据挖掘算法,完善数据挖掘技术,进而为医疗事业的发展提供强大的技术支撑。
参考文献:
[1]林枫.云计算技术在医疗大数据挖掘平台设计中的应用
[J].电脑知识与技术,2015,23(30):3-4.
[2]丛晶,杨波,王乙红,梁庆宇,陈刚.数据挖掘在医疗质量安
全监控系统应用的可行性研究[J].中国卫生资源,2012,21(5):386-388.
[3]胡静.数据挖掘在医疗项目成本核算中的应用[J].中国卫
生经济,2014,28(11):87-88.
[4]张和华,向华,吴旋,苌飞霸,徐力,尹军.数据挖掘技术在医
疗设备行业中的应用研究[J].中国医学装备,2015,11(01): 48-50.
[5]陈轶.机器学习技术在医疗数据挖掘中的应用[J].电子测
试,2015,29(3):93-95.
作者简介:赵志南(1982-),男,广西南宁人,壮族,在职研究生,研究方向为医疗行业数据挖掘。
信息通信赵志南:基于数据挖掘在医疗中的应用分析探讨
141

本文发布于:2024-09-22 09:37:12,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/189974.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   能够   数据挖掘   进行   需要   医院
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议