一文读懂数据挖掘的定义、分类以及方法

Y染体⼀⽂读懂数据挖掘的定义、分类以及⽅法
数据挖掘(Data Mining)是从⼤量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在
其中的、⼈们事先不知道的、但⼜是潜在有⽤的信息和知识的过程。
数据挖掘对象
根据信息存储格式,⽤于挖掘的对象有关系数据库、⾯向对象数据库、数据仓库、⽂本数据
源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。
数据挖掘流程
定义问题:清晰地定义出业务问题,确定数据挖掘的⽬的。
数据准备:数据准备包括:选择数据–在⼤型数据库和数据仓库⽬标中提取数据挖掘的⽬标数据集;数据
预处理–进⾏数据再加⼯,包括检查数据的完整性及数据的⼀致性、去噪声,填补丢失的域,删除⽆效数据等。
数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上
进⾏数据挖掘。
结果分析:对数据挖掘的结果进⾏解释和评价,转换成为能够最终被⽤户理解的知识。
蓝田股份公司
数据挖掘分类
直接数据挖掘:⽬标是利⽤可⽤的数据建⽴⼀个模型,这个模型对剩余的数据,对⼀个特定的
变量(可以理解成数据库中表的属性,即列)进⾏描述。
间接数据挖掘:⽬标中没有选出某⼀具体的变量,⽤模型进⾏描述;⽽是在所有的变量中建⽴起某种关系。
数据挖掘的⽅法
神经⽹络⽅法
神经⽹络由于本⾝良好的鲁棒性、⾃组织⾃适应性、并⾏处理、分布存储和⾼度容错等特性⾮
常适合解决数据挖掘的问题,因此近年来越来越受到⼈们的关注。
遗传算法
遗传算法是⼀种基于⽣物⾃然选择与遗传机理的随机搜索算法,是⼀种仿⽣全局优化⽅法。遗
平顶山热线传算法具有的隐含并⾏性、易于和其它模型结合等性质使得它在数据挖掘中被加以应⽤。
决策树⽅法
决策树是⼀种常⽤于预测模型的算法,它通过将⼤量数据有⽬的分类,从中到⼀些有价值
的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合⼤规模的数据处理。
粗集⽅法
粗集理论是⼀种研究不精确、不确定知识的数学⼯具。粗集⽅法有⼏个优点:不需要给出额外信息;简化输⼊信息的表达空间;算法简单,易于操作。粗集处理的对象是类似⼆维关系表的信息表。
旭日150
覆盖正例排斥反例⽅法
它是利⽤覆盖所有正例、排斥所有反例的思想来寻规则。⾸先在正例集合中任选⼀个种⼦,到反例集合中逐个⽐较。与字段取值构成的选择⼦相容则舍去,相反则保留。按此思想循环所有正例种⼦,将得到正例的规则(选择⼦的合取式)。法拉第电解定律
统计分析⽅法
在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采⽤统计学⽅法,即利⽤统计学原理对数据库中的信息进⾏分析。可进⾏常⽤统计、回归分析、相关分析、差异分析等。
模糊集⽅法
即利⽤模糊集合理论对实际问题进⾏模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越⾼,模糊性越强,⼀般模糊集合理论是⽤⾪属度来刻画模糊事物的亦此亦彼性的。
数据挖掘任务
关联分析
两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的⼀类重要
的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的⽬的是出数据库中隐藏的关联⽹。⼀般⽤⽀持度和可信度两个阀值来度量关联规则的相关性,还不断引⼊兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
聚类分析
聚类是把数据按照相似性归纳成若⼲类别,同⼀类中的数据彼此相似,不同类中的数据相异。聚类分析可以建⽴宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
分类
大同大学学报分类就是出⼀个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并⽤这种描述来构造模型,⼀般⽤规则或决策树模式表⽰。分类是利⽤训练数据集通过⼀定的算法⽽求得分类规则。分类可被⽤于规则描述和预测。
预测
预测是利⽤历史数据出变化规律,建⽴模型,并由此模型对未来数据的种类及特征进⾏预测。预测关⼼的是精度和不确定性,通常⽤预测⽅差来度量。
时序模式
时序模式是指通过时间序列搜索出的重复发⽣概率较⾼的模式。与回归⼀样,它也是⽤⼰知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
偏差分析
在偏差中包括很多有⽤的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是⾮常重要的。偏差检验的基本⽅法就是寻观察结果与参照之间的差别。
来源:多智时代

本文发布于:2024-09-24 13:18:17,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68574.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   数据挖掘   数据库   关联   规则   分类   选择   分析
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议