数据挖掘研究

2021年第1期
信懇与电胭
China Computer & Communication獻探專技术
数据挖掘研究
杜治涵
(长江大学文理学院,湖北荆州434000 )
摘要:数据挖掘是指借助数据挖掘算法从大量的数据中搜寻有价值的信息,包括问题定义、数据获取、数据预处理、建立模型、模型评价和模型应用等步骤。常用的数据挖掘方法有关联规则法、决策树法、模糊集法、粗糙集法、神经网 络法和遗传算法。同时,数据挖掘过程中的道德和法律问题也值得关注。
关键词:数据挖掘;数据挖掘算法;步骤;数据安全
中图分类号:TP311.13 文献标识码:A文章编号:1003-9767 (2021) 01-169-03
Research on the Introduction of Data Mining步进电机驱动器
张鲁新
Du Zhihan
(School of A rts and Sciences,Yangtze U niversity,Jingzhou Hubei434000, China)
DANCE ME TO THE END OF LOVE
A b s tra c t:Data m in ing refers to searching fo r valuable inform ation from a large amount of data w ith the help o f data m ining alg o rith m s,in c lu d in g problem d e fin itio n,data a c q u is itio n,data preprocessing,m odel b u ild in g,m odel eva lu ation and model application.Commonly used data m ining methods include association rule method,decision tree method,fuzzy set method,rough set method,neural network method and genetic algorithm.A t the same tim e,the ethical and legal issues in the data m ining process are also worthy o f attention.
K e y w o rd s:data m ining;data m ining algorithm;steps;data security
〇引言
随着互联网的高速发展,信息爆炸带来的海量数据汇成 了数据的“海洋”。“数据海洋”中蕴藏着的“宝藏”,吸 引着无数的“海盗们”,数据挖掘技术就是“海盗们”的指 南针,整个世界进人动荡混乱的“大数据时代”。
近年来,数据挖掘一直是热门的研究方向,各类场景产 生的海量数据会保存在数据库中[1]〇数据挖掘
是基于集合论、统计学、模式识别、机器学习、人工智能和可视化等技术的 决策支持过程,使用算法自动化处理海量的数据,帮助决策 者制定并调整策略。数据挖掘的过程包括数据获取、数据预 处理、规则挖掘和分析应用。数据获取和预处理步骤从相关 的数据源中选取所需的数据,经过初步处理后得到适用于数 据挖掘模型的数据,以便后续进行规则挖掘分析;规则挖掘 步骤需要选择恰当的算法,输人预处理后的数据训练得到相 应的数据挖掘模型;分析应用过程尽量以易于理解的方式(如 可视化)展示数据挖掘得到的规律。
1常用数据挖掘算法
常用的数据挖掘算法有关联规则法、决策树法、模糊集法、粗糙集法、神经网络法和遗传算法等。
1.1关联规则法
关联规则法旨在确定不同事物之间的关联性。R A g ra w a l 等人首次提出了关联规则挖掘问题,并给出A p r io r i算法的 核心思想:首先出重复出现次数至少达到预定意义阈值的 所有关联项集合,然后根据该集合生成关联规则[2]。该算法 提出了最小支持度和最小可信度两个阈值概念。假设有两个 事件c x和P ,支持度为二者同时出现的概率,置信度指事 件c t发生时,事件P同时出现的概率,即在c t出现的条件下,P也出现的条件概率[3]。而最小支持度和最小置信度则没 有固定的计算公式,需要根据训练数据和具体的数据场景来 确定。
1.2决策树法
决策树是根据变量的目标效用构建的树形流程图,通过 固化的规则对数据进行分类。早在1986年,J R Q u in la n就 提出了基于决策树的ID3算法,此后在ID3算法的基础上又 提出了性能更好的C4.5算法[4]〇决策树法的构建过程简单且
作者简介:杜治涵(2000—),男,湖北仙桃人,本科。研宄方向:计算机。
瓤据庫技术
信麵与电睡
China Computer & Communication2021年第1期
易于理解,决策过程可见、高效而迅速[5]。但是决策树法无 法妥善处理存在组合变量的规律挖掘过程。决策树算法非常 适合基于非数值型数据的数据挖掘过程,且对大数据进行集 中处理的效率很高。
1.3模糊集法
都市艳情
现实中的很多问题可能无法用具体的数学公式进行描 述,此时可以使用模糊集来描述这些模糊问题,模糊集由论 域和隶属函数构成,使用隶属度来描述模事物的属性。所描 述的问题越复杂,精确描述该问题的难度就越大,问题的模 糊性就越强。对于数据掘过程中定义模糊不清的问题,采取 基于模糊集合理论的数学工具判断其模糊程度,商定解决模 糊问题的策略,对模糊问题中存在的模式进行识别并最终进 行模糊聚类分析[6]。
1_4粗糙集法
粗糙集法也称为粗糙集理论,是波兰数学家Z P a w la k于 20世纪80年代初提出的,也是一种处理含义不明、无法精 准描述问题的数学方法[7]。粗糙集法的处理过程可以不基于 先验知识,支持自动归纳出问题的潜在规律,但是对于连续 的属性值无法直接处理,需要对属性进行离散化预处理[8]。如何对连续属性进行恰当的离散化处理是粗糙集研究中的重 点,该理论主要应用于近似推理、数字逻辑分析、构建预测 模型等问题。
1.5神经网络算法
wald神经网络算法通过模拟生物大脑内的神经系统,设计 算法模拟神经元的结构和功能,构造训练模型,使用大量 数据来训练模型,并将模型中的每一个连接作为基本处理 单元,实现特征挖掘、分类、聚类等各种基本功能[9]。神经 网络的学习训练过程和人脑类似,主要通过修改中间神经层 的权值来不
断完善和优化训练模型,获得符合预期拟合效果 的模型。神经网络算法的抗噪音和异常值干扰性能非常好,适合非线性学习,具有自动联想功能,能够在复杂场景中得 到精准的预测结果,但是不适合处理高维变量,且训练过 程属于黑盒模型,不能观察中间的学习过程,输出结果不易 于理解,且训练模型效果对数据规模依赖较大,学习时间也 较长。
1_6遗传算法
遗传算法借鉴了生物进化规则,通过模拟自然选择过程 和遗传中发生的繁殖、交配和基因突变现象,构造复制、交叉、变异三种算子完成求解过程。遗传算法的优势是可以处理各 种类型的数据,并且支持对数据的并行处理;缺点是算法训 练过程中需要调整的参数太多,需要花费大量的时间,数据 和算法的编码过程也比较复杂,需要的数据量也很大,相应 的计算量也比较大。遗传算法经常用于优化神经元网络模型,也经常用于解决其他方法难以解决的问题。2数据挖掘的步骤
2.1定义问题
数据挖掘的首要任务是明确需要处理的业务问题并界定 业务范围,如得到某一类型目标客户的回购率以及同一产品 在不同类型客户体中可接受的定价范围等。对于不同的业 务目标,可能有完全不同的模型与之对应,需要事前考虑选 择哪些模型进行分析。
2.2数据获取
现实生活中各类业务场景中获取到的数据,存在结构化 的数据、半结构化的数据甚至是异构数据。在数据挖掘过程中,根据获取的数据类型,挖掘价值信息的方式可以是形式化的、非形式化的,也可以是总结归纳式的。最终被挖掘出来的价值 信息可以用于信息管理、查询优化、决策支持及数据维护等。
数据挖掘的数据源来自任何渠道,可以是关系数据库中 保存的结构化数据表,也可以是来自位置服务器保存的位置 数据、视频网站保存的多媒体数据、通信系统产生的时序数 据、门户网站的W e b数据等半结构化的数据,也可以是不同 电信运营商的运营数据、不同媒介中保存的多媒体数据等异 构的数据。对于不同类型的数据需要采用相对应的预处理方 法和分析模型进行数据挖掘。
2.3数据预处理
数据质量可能会对数据挖掘模型产生重大的影响。一般 来说,数据本身内置可以获取知识的上限,数据挖掘模型得 到的分析结果仅能无限趋近知识上限。此时需要通过各种数 据预处理技术,使输人的数据满足模型的输人要求,使得模 型的分析结果更好地达到知识上限,并使得模型的优化过程 更平滑。数据预处理包括数据清洗、数据转化和数据降维等。
2.3.1数据清洗
获得的原始数据格式往往不正确,需要进行清洗才能继 续使用,通常情况下需要采取缺失值处理和异常值检测两个 步骤。缺失值通常采用3种方法进行填充。第一,使用特殊值。缺失值本身代表特殊含义时可以使用特殊值进行表示,如使 用-1表示某项体检指标异常。第二,统计信息。有时为了保 持某些统计属性可以使用平均值、中位数、众数等表示缺失 值。第三,使用预测值等方法进行填充,如使用线性拟合得 到的线性表达式预测缺失值。
异常值表示与其他值存在很大差异的数据,通常是由记 录错误或者测量问题造成的,在数据预处理过程中需要尽可 能剔除这种异常的数据。在不预设数据分布的情况下,基于 特定距离计算方法的异常值检测算法通过计算每两个样本的 距离来判断是否是异常值,进而排除数据中的异常值。
2.3.2数据转换
数据挖掘过程中使用的数据挖掘模型有时对于数据类型
2021年第1期
信懇与电胭
China Computer & Communication獻探專技术
有特定的要求,因此需要对数据进行适当转化,包括但不限 于以下几种情况。第一,数字化。分类型值不适合直接操作,需要进行数字化使得适用于各种模型。常用的编码方法有一 键编码,即将分类值的每一个取值作为一个维度,有就是1没有就是0;顺序编码为每个可能的取值分配一个索引;定 制编码则指定专门的编码规则表示想要表示的数据。第二,离散化。对于连续型输入数据,模型无法直接处理数据,需 要离散化得到有限的数据后进行分析。通常可以采用连续取 样的方法对原始数据进行离散化,对于有特殊分布规律的数 据可以采用不同的取样方法进行数据离散化。第三,归一化。由于不同的属性通常采用不同的单位制,因此它们的平均值 和标准偏差通常不相同。但是,数值上的差异会使某些属性 看起来更“重要”,而其他属性则没有。经常使用的标准化 方法有M in-m a x规范化、Z分数归一化和十进制缩放规范化。第四,数值变换。数值变换可以采用指数变换、线性变换、极大似然变换等方法对原始数据进行处理,可获得拟合更好 的特征数据。
2_3_3数据降维
数据可能会有很多属性,但是这些属性可能是不相关的 或者属性之间是相关的,数据降维可以提高模型的训练效率, 防止出现过拟合问题。借助降维技术能够降低数据样本的维 数,从而减少数据的数量。
2.4建立模型
建立模型是一个迭代重复的过程,需要反复考量不同的 模型,以选择能够解决实际问题的模型。先用一部分数据作 为训练集并训练模型,再用剩余数据作为测试集来测试得到 的模型。有时需要额外的验证集,因为测试集会受模型本身 特性的影响,需要一个区别于原始测试数据的验证集来验证 模型的准确性。
2.5评价模型和应用模型
通过数据挖掘可以得到有效的数据分析模型,但是该模 型并不一定是正确的模型,模型建立过程中隐含的各种前提 条件是造成这一现象的主要原因。模型建立完成后,需要根 据一定的指标得到合理的结果,常用的指标有准确率、正确 率、R O C值等,而测试集中得到的各种指标值仅对训练集有 意义,还需要进一步对模型的适用性进行验证。
模型建立并完成验证后,主要有两种使用方法:第一,为专业数据分析人员提供参考,并应用到实际业务中;第二,将模型应用在不同的数据集上,以验证模型的普适性。在现实 世界中测试模型的方法也很重要,一般会先在小范围内应用模 型,评估模型的使用效果后,再判断是否进行大范围推广。
3数据挖掘存在的问题
数据挖掘过程往往涉及用户的隐私问题,例如:私营公 司老板可以通过访问应聘职工的就诊记录来筛
除有糖尿病或 者严重心脏病的人,从而节省保险支出。但是,此类行为会 导致伦理道德以及法律问题。正确使用数据挖掘可以为社会 产生非常大的价值,但也可能出现滥用医疗数据库的风险。例如,根据患者的医疗数据可以分析药物与副作用的关系。这种关系可能是非常偶然的情况,且可能会出现误判的情况。基于各种算法,数据挖掘方法可以获得用其他方法不可能发 现的潜在信息,但同样面临着各种安全风险,必须进行规范。
4结语
综上所述,数据挖掘的研究重点在于数据挖掘算法的选 择和数据处理方法对模型效果的影响。模型效果包括有效性 和正确性两个方面,在挖掘商业数据的过程中,除了需要考 虑正确性和有效性,还需考虑数据的安全性。
大气环流参考文献
[1]L i    C.Preprocessing M ethods and Pipelines o f Data M in in g:
A n O vervie w[Z].2019.
[2] R A gra w a l,R Srikant.Fast A lg o rith m s fo r M in in g A ssociation
R ules[Z].1994.
[3] 钟晓,马少平,张钹,等.数据挖掘综述[J].模式识别与人
工智能,2001,14(1):48-55.
[4] 千靓,王宏,都利勇.粗糙集和模糊集在数据挖掘中的应
用[J].科海故博览,2011(4):104.
[5] 邹志文,朱金伟.数据挖掘算法研究与综述[J].计算机工
程与设计,2005,26(9):2304-2307.
[6] 刘红岩,陈剑,陈国青.数据挖掘中的数据分类算法综述[J].
清华大学学报,2002,42(6):727-730.
[7] 黄芳.基于数据挖掘的决策树技术在成绩分析中的应用研
究[D].济南:山东师范大学,2009.
[8] 张月童.变精度模糊粗糙集理论与应用研究[D].哈尔滨:
哈尔滨工程大学,2008.
[9] 宫夏屹,李伯虎,柴旭东,等.大数据平台技术综述[J].系
统仿真学报,2014,26(3):489-496.

本文发布于:2024-09-22 21:35:30,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68513.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   模型   数据挖掘   过程   问题
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议