首页 > 学术百科

数据挖掘概述

1 数据挖掘概述

1.1 背景

磷酸氢镁1.2 数据挖掘定义

1.3 基本概念

1.4 主要功能

1.5 数据挖掘模型

1.6 实现流程

1.7 数据挖掘的应用

1.8 未来趋势

1.1背景

二十世纪末以来，全球信息量以惊人的速度急剧增长——据估计，每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据（信息）。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势，从而导致“数据爆炸但知识贫乏”的现象。为了充分利用现有信息资源，从海量数据中出隐藏的知识，数据挖掘技术应运而生并显示出强大的生命力。

1989年8月，在美国底特律召开的第11届国际人工智能联合会议（AAAI）的专题讨论会上首次出现7.22事件数据库中的知识发现（Knowledge Discovery in Database，KDD）这一术语。

随后，在1991年、1993年和1994年都举行KDD专题讨论会，汇集来自各个领域的研究人员和应用开发者，集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议农业经济与管理（KDD’95）。由Kluwer Academic Publisher出版，1997年创刊的《Knowledge Discovery and Data Mining》是该领域中的第一本学术刊物。

最初，数据挖掘是作为KDD中利用算法处理数据的一个步骤，其后逐渐演变成KDD的同义

词。现在，人们往往不加区别地使用两者。KDD常常被称为数据挖掘（Data Mining），实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘（Data Mining），数据挖掘是KDD中一个非常重要的处理步骤，是KDD的核心过程。

数据挖掘是近年来出现的客户关系管理（Customer Relationship Management，

CRM）、商业智能（Business Intelligence， BI）等热点领域的核心技术之一。目前，关于KDD的研究工作已经被众多领域所关注，如过程控制、信息管理、商业、医疗、金融等领域。作为大规模数据库中先进的数据分析工具，KDD的研究已经成为数据库及人工智能领域研究的一个热点。

数据挖掘是指从大型数据库中提取人们感兴趣的知识，这些知识是隐含的、事先不知的、潜在有用的信息。数据挖掘涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等各个领域，其目的在于从大量数据中发现隐含的、新的、令人感兴趣的关系和规律。它不仅面向特定数据库的简单检索、查询调用，而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理，以指导解决实际问题，发现事件间的相互关联，甚至利用已有的数据对未来的活动进行预测。这样一来，就

把人们对数据的应用从低层次的末端查询操作，提高到为各级经营决策者提供决策支持的层次。

1.2数据挖掘定义

▪ 技术角度的定义

数据挖掘（Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词包括：数据融合、数据分析和决策支持等。

这一定义包括好几层含义：数据源必须是真实的、海量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。

▪ 商业角度的定义

数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性信息。

简言之，数据挖掘其实是一类深层次的数据分析方法。因此，数据挖掘可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证己知的规律性，并进一步将其模型化的有效方法。

数据挖掘与其他科学的关系

数据挖掘作为一门新兴的交叉学科，涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。

此外，还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。

数据挖掘与统计学的关系

近几年，人们逐渐发现数据挖掘中有许多工作都是由统计方法来完成的。甚至有些人（尤其是统计学家）认为数据挖掘是统计学的一个分支，当然大多数人（包括绝大多数数据挖掘研究人员）并不这么认为。

但是，统计学和数据挖掘的目标非常相似，而且数据挖掘中的许多算法也源于数理统计，统计学对数据挖掘发展的贡献功不可没。

数据挖掘与传统数据分析方法区别

（1）数据挖掘的数据源与以前相比有了显著的改变；

数据是海量的；

数据有噪声；

数据可能是非结构化的；

（2）传统的数据分析方法一般都是先给出一个假设然后通过数据验证，在一定意义上是假设驱动的；与之相反，数据挖掘在一定意义上是狂想曲数码发现驱动的，模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。

在缺乏强有力的数据分析工具而不能分析这些资源的情况下，历史数据库也就变成了“数据

坟墓”－里面的数据几乎不再被访问。也就是说，极有价值的信息被“淹没”在海量数据堆中，领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法，使之能够智能地处理海量数据，即演化为数据挖掘。

国外数据挖掘的现状

IEEE的Knowledge and Data Engineering会刊率先在1993年出版了千只眼美国经济简介KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。数据挖掘已经成了国际学术研究的重要热点之一。此外，在Internet上还有不少KDD电子出版物，其中以半月刊Knowledge Discovery Nuggets最为权威（www.kdnuggets/ subscribe.html）。在网上还有许多自由论坛，如DM Email Club等。

本文发布于:2024-09-22 04:24:15，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68568.html

上一篇：医学数据挖掘解析

下一篇：“多变量分析”——数据挖掘、数据分析

标签：数据数据挖掘知识发现领域信息数据库

留言与评论（共有 0 条评论）