数据挖掘概述

1 数据挖掘概述
1.1    背景
磷酸氢镁1.2    数据挖掘定义
1.3    基本概念
1.4    主要功能
1.5    数据挖掘模型
1.6    实现流程
1.7    数据挖掘的应用
1.8    未来趋势
1.1背景
二十世纪末以来,全球信息量以惊人的速度急剧增长——据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据(信息)。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,从而导致“数据爆炸但知识贫乏”的现象。为了充分利用现有信息资源,从海量数据中出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。
    19898月,在美国底特律召开的第11届国际人工智能联合会议(AAAI)的专题讨论会上首次出现7.22事件数据库中的知识发现Knowledge Discovery in DatabaseKDD)这一术语。
随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议农业经济与管理(KDD’95)。由Kluwer Academic Publisher出版,1997年创刊的《Knowledge Discovery and Data Mining》是该领域中的第一本学术刊物。
最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义
词。现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(Data Mining),实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘(Data Mining,数据挖掘是KDD中一个非常重要的处理步骤,KDD的核心过程
数据挖掘是近年来出现的客户关系管理(Customer Relationship Management
CRM)、商业智能(Business Intelligence BI)等热点领域的核心技术之一。 目前,关于KDD的研究工作已经被众多领域所关注,如过程控制、信息管理、商业、医疗、金融等领域。作为大规模数据库中先进的数据分析工具,KDD的研究已经成为数据库及人工智能领域研究的一个热点。
数据挖掘是指从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、事先不知的、潜在有用的信息。数据挖掘涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等各个领域,其目的在于从大量数据中发现隐含的、新的、令人感兴趣的关系和规律。它不仅面向特定数据库的简单检索、查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导解决实际问题,发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。这样一来,就
把人们对数据的应用从低层次的末端查询操作,提高到为各级经营决策者提供决策支持的层次。
1.2数据挖掘定义
技术角度的定义
    数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。
    这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
商业角度的定义
    数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。
    简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。
数据挖掘与其他科学的关系
数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。
    此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。
数据挖掘与统计学的关系
近几年,人们逐渐发现数据挖掘中有许多工作都是由统计方法来完成的。甚至有些人(尤其是统计学家)认为数据挖掘是统计学的一个分支,当然大多数人(包括绝大多数数据挖掘研究人员)并不这么认为。
    但是,统计学和数据挖掘的目标非常相似,而且数据挖掘中的许多算法也源于数理统计,统计学对数据挖掘发展的贡献功不可没。
数据挖掘与传统数据分析方法区别
1)数据挖掘的数据源与以前相比有了显著的改变;
            数据是海量的;
            数据有噪声
            数据可能是非结构化的         
2传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是狂想曲数码发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来 。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据
坟墓”-里面的数据几乎不再被访问。也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。
国外数据挖掘的现状
IEEEKnowledge and Data Engineering会刊率先在1993年出版了千只眼美国经济简介KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。数据挖掘已经成了国际学术研究的重要热点之一。此外,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威(www.kdnuggets/ subscribe.html)。在网上还有许多自由论坛,如DM Email Club等。

本文发布于:2024-09-22 04:24:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68568.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   数据挖掘   知识   发现   领域   信息   数据库
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议