数据挖掘技术现状及未来发展方向(转)

数据挖掘技术现状及未来发展⽅向(转)
1. 数据挖掘的含义
近⼗⼏年来,信息数据增长之巨⼤已到了令⼈咂⾆地步,⼤型数据库、数据仓库被⽤于商业管理、政府办公、科学研究和⼯程开发等等。于是,我们⼜⾯临了新的问题:如何从中及时发现有⽤的知识,提⾼信息利⽤率?要想使数据真正成为⼀个公司的资源,只有充分利⽤它为公司⾃⾝的业务决策和战略发展服务才⾏,否则⼤量的数据只能成为包袱,甚⾄垃圾。因此,数据挖掘技术应运⽽⽣。
数据挖掘出现于20世纪80年代末,最早是在数据库领域发展起来的,称为数据库中的知识发现(KDD,Knowledge Discovery in Database)。数据挖掘是KDD过程中的⼀个环节,它的历史虽然较短,但从20世纪90年代以来,发展速度很快,⽬前还没有⼀个完整的定义,⼈们提出了多种数据挖掘的定义:
SAS研究所(1997):“在⼤量相关数据基础之上进⾏数据探索和建⽴相关模型的先进⽅法”。
Bhavani(1999):“使⽤模式识别技术、统计和数学技术,在⼤量的数据中发现有意义的新关系、模式和趋势的过程”。
Hand et al(2000):“数据挖掘就是在⼤型数据库中寻有意义、有价值信息的过程”。
根据以上定义,我们可以把数据挖掘理解为:数据挖掘就是从海量的数据(包括结构化和⾮结构化)中挖掘出隐含在其中的、事先不为⼈知的、潜在的、有⽤信息和知识的技术。这些信息是可能有潜在价值的,是⽤户感兴趣的、可理解、可运⽤的,⽀持决策,可以为企业带来利益,或者为科学研究寻突破⼝。
数据挖掘所能发现的知识有如下⼏种:
⼴义型知识,反映同类事物共同性质的知识;
特征型知识,反映事物各⽅⾯的特征知识;
差异型知识,反映不同事物之间属性差别的知识;
胡幼桃关联型知识,反映事物之间依赖或关联的知识;
金瓶梅1迅雷下载预测型知识,根据历史的和当前的数据推测未来数据;
偏离型知识,揭⽰事物偏离常规的异常现象。
所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满⾜不同⽤户、不同层次决策的需要。
超临界二氧化碳萃取
微分方程模型
2. 数据挖掘的功能
数据挖掘综合了各个学科技术,有很多的功能,当前主要功能如下:
(1)分类:按照分析对象的属性、特征,建⽴不同的组类来描述事物。例如:银⾏部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款⽅案。
(2)聚类:识别出分析对内在的规则,按照这些规则把对象分成若⼲类。例如:将申请⼈分为⾼度风险申请者,中度风险申请者,低度风险申请者。
(3)关联规则和序列模式的发现:关联是某种事物发⽣时其他事物会发⽣的这样⼀种联系。例如:每天购买尿布的⼈也有可能购买啤酒,⽐重有多⼤,可以通过关联的⽀持度和可信度来描述。与关联不同,序列是⼀种纵向的联系。例如:今天银⾏调整利率,明天股市的变化。
(4)预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。
(5)偏差的检测:对分析对象的少数的、极端的特例的描述,揭⽰内在的原因。例如:在银⾏的100万笔交易中有500例的欺诈⾏为,银⾏为了稳健经营,就要发现这500例的内在因素,减⼩以后经营的风险。
需要注意的是:数据挖掘的各项功能不是独⽴存在的,在数据挖掘中互相联系,发挥作⽤。
3. 数据挖掘应⽤现状
数据挖掘的应⽤⾮常⼴泛,只要该产业有分析价值与需求的数据库,皆可利⽤数据挖掘⼯具进⾏有⽬的的发掘分析。常见的应⽤案例多发⽣在零售业、制造业、财务⾦融保险、通讯及医疗服务:
(1)商场从顾客购买商品中发现⼀定的关联规则,提供打折、购物券等促销⼿段,提⾼销售额;
吉林农业大学学报
(2)保险公司通过数据挖掘建⽴预测模型,辨别出可能的欺诈⾏为,避免道德风险,减少成本,提⾼利润;
(3)在制造业中,半导体的⽣产和测试中都产⽣⼤量的数据,就必须对这些数据进⾏分析,出存在的问题,提⾼质量;
(4)电⼦商务的作⽤越来越⼤,可以⽤数据挖掘对⽹站进⾏分析,识别⽤户的⾏为模式,保留客户,提供个性化服务,优化⽹站设计;
⼀些公司运⽤数据挖掘的成功案例,显⽰了数据挖掘的强⼤⽣命⼒:
美国AutoTrader是世界上最⼤的汽车销售站点,每天都会有⼤量的⽤户对⽹站上的信息点击,寻求信息,其运⽤了SAS软件进⾏数据挖掘,每天对数据进⾏分析,出⽤户的访问模式,对产品的喜欢程度进⾏判断,并设特定服务,取得了成功。
Reuteres是世界著名的⾦融信息服务公司,其利⽤的数据⼤都是外部的数据,这样数据的质量就是公司⽣存的关键所在,必须从数据中检测出错误的成分。Reuteres⽤SPSS的数据挖掘⼯具SPSS/Clementine,建⽴数据挖掘模型,极⼤地提⾼了错误的检测,保证了信息的正确和权威性。
Bass Export是世界最⼤的啤酒进出⼝商之⼀,在海外80多个市场从事交易,每个星期传送23000份定单,这就需要了解每个客户的习惯,如品牌的喜好等,Bass Export⽤IBM的Intelligent Miner很好的解决了上述问题。
4.  数据挖掘技术的三⼤⽀柱
  随着DMKD研究逐步⾛向深⼊,⼈们越来越清楚地认识到,DMKD的研究主要有3个技术⽀柱,即数据库、⼈⼯智能和数理统计。
4.1      数据库技术
⽬前数据库专家除了关注万维⽹数据库、分布式数据库、⾯向对象数据库、多媒体数据库、查询优化
和并⾏计算等技术外,已经在开始反思。数据库最实质的应⽤仅仅是查询吗?查询是数据库的奴⾪,发现才是数据库的主⼈。
由于数据库⽂化的迅速普及,⽤数据库作为知识源具有坚实的基础;另⼀⽅⾯,对于⼀个感兴趣的特定领域——客观世界,先⽤数据库技术将其形式化并组织起来,就会⼤⼤提⾼知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库⽽⾔的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。
4.2      ⼈⼯智能技术
专家系统曾经是⼈⼯智能研究⼯作者的骄傲。在研制⼀个专家系统时,知识⼯程师⾸先要从领域专家那⾥获取知识,这⼀过程实质上是归纳过程,是⾮常复杂的个⼈到个⼈之间的交互过程,有很强的个性和随机性。因此,知识获取成为专家系统研究中公认的瓶颈问题。
  其次,知识⼯程师在整理表达从领域专家那⾥获得的知识时,⽤if-then等类的规则表达,约束性太⼤,⽤常规数理逻辑来表达社会现象和⼈的思维活动局限性太⼤,也太困难,知识表⽰⼜成为⼀⼤难题。
此外,即使某个领域的知识通过⼀定⼿段获取并表达了,但这样做成的专家系统对常识和百科知识相当缺乏,⽽⼈类专家知识是以拥有⼤量常识为基础的。
⼈⼯智能技术的三⼤难题:“知识获取、知识表⽰、缺乏常识”⼤⼤限制了专家系统的应⽤。⼈⼯智能学者开始着⼿基于案例的推理,尤其是从事机器学习的科学家们,不再满⾜⾃⼰构造的⼩样本学习模式的象⽛塔,开始正视现实⽣活中⼤量的、不完全的、有噪声的、模糊的、随机的⼤数据样本,从⽽与数据仓库技术相结合,转向数据挖掘技术。
4.3      概率与数理统计
数理统计是应⽤数学中最重要、最活跃的学科之⼀,它在计算机发明之前就诞⽣了, 迄今已有⼏百年的发展历史。如今相当强⼤有效的数理统计⽅法和⼯具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然⽽,数理统计和数据库技术结合得并不算快,数据库查询语⾔SQL中的聚合函数功能极其简单,就是⼀个证明。咨询业⽤数据库查询数据还远远不够。⼀旦⼈们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的⽣命⼒。⼀向以数理统计⼯具和可视化计算闻名的美国SAS公司,领先宣布进⼊DMKD⾏列。
5. 数据挖掘中存在的问题
同时数据挖掘技术也⾯临着许多的问题,这也为数据挖掘未来的发展提供了更⼤的空间。
(1)数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显的⾮常复杂,如何进⾏探索,选择分析变量,也就成为⾸先要解决的问题。
(2)⾯对如此⼤的数据,现有的统计⽅法等都遇到了问题,我们直接的想法就是对数据进⾏抽样,那么怎么抽样,抽取多⼤的样本,⼜怎样评价抽样的效果,这些都是值得研究的难题。
(3)既然数据是海量的,那么数据中就会隐含⼀定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。
(4)各种不同的模型如何应⽤,其效果如何评价。不同的⼈对同样的数据进⾏挖掘,可能产⽣不同的结果,甚⾄差异很⼤,这就涉及到可靠性的问题。
(5)当前互联⽹的发展迅速,如何进⾏互联⽹的数据挖掘,还有⽂本等⾮标准数据的挖掘,都引起了极⼤的兴趣。
(6)数据挖掘涉及到数据也就碰到了数据的私有性和安全性。
(7)数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。
总之,数据挖掘只是⼀个⼯具,不是万能的,它可以发现⼀些潜在的⽤户,但是不会告诉你为什么,也不能保证这些潜在的⽤户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果出合理的解释。
6. 数据挖掘研究热点
  就⽬前来看,将来的⼏个热点包括⽹站的数据挖掘、⽣物信息或基因的数据挖掘及其⽂本的数据挖掘。
6.1      ⽹站的数据挖掘(Web site data mining)
  随着Web技术的发展,各类电⼦商务⽹站风起云涌。如何让您的电⼦商务⽹站有效益,就必须吸引客户,增加能带来效益的客户忠诚度。电⼦商务业务的竞争⽐传统的业务竞争更加激烈,原因有很多⽅⾯,其中⼀个因素是客户从⼀个电⼦商务⽹站转换到竞争对⼿那边,只需点击⼏下⿏标即可。⽹站的内容和层次、⽤词、标题、奖励⽅案、服务等任何⼀个地⽅都有可能成为吸引客户、同时也可能成为失去客户的因素。⽽同时电⼦商务⽹站每天都可能有上百万次的在线交易,⽣成⼤量的记录⽂件(Log_files)和登记表,如何对这些数据进⾏分析和挖掘,充分了解客户的喜好、购买模式,甚⾄是客户⼀时的冲动,设计出满⾜于不同客户体需要的个性化⽹站,进⽽增加其竞争⼒,⼏乎变得势在必⾏。若想在竞争中⽣存进⽽获胜,就要⽐您的竞争对⼿更了解客户。
  在对⽹站进⾏数据挖掘时,所需要的数据主要来⾃于两个⽅⾯:⼀⽅⾯是客户的背景信息,此部分信息主要来⾃于客户的登记表;⽽另外⼀部分数据主要来⾃浏览者的点击流(Click-stream),此部分数据主要⽤于考察客户的⾏为表现。但有的时候,客户对⾃⼰的背景信息⼗分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进⽽再加以利⽤。
  就分析和建⽴模型的技术和算法⽽⾔,⽹站的数据挖掘和原来的数据挖掘差别并不是特别⼤,很多⽅法和分析思想都可以运⽤。所不同的是⽹站的数据格式有很⼤⼀部分来⾃于点击流,和传统的数据库格式有区别。因⽽对电⼦商务⽹站进⾏数据挖掘所做的主要⼯作是数据准备。⽬前,有很多⼚商正在致⼒于开发专门⽤于⽹站挖掘的软件。
6.2      ⽣物信息或基因的数据挖掘
辛沪光
  ⽣物信息或基因数据挖掘则完全属于另外⼀个领域,在商业上很难讲有多⼤的价值,但对于⼈类却受益⾮浅。例如,基因的组合千变万化,得某种病的⼈的基因和正常⼈的基因到底差别多⼤?能否出其中不同的地⽅,进⽽对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的⽀持。
  对于⽣物信息或基因的数据挖掘和通常的数据挖掘相⽐,⽆论在数据的复杂程度、数据量还有分析和建⽴模型的算法⽽⾔,都要复杂得多。从分析算法上讲,更需要⼀些新的和好的算法。现在很多⼚商正在致⼒于这⽅⾯的研究。但就技术和软件⽽⾔,还远没有达到成熟的地步。
6.3      ⽂本的数据挖掘(Textual Mining)
  ⼈们很关⼼的另外⼀个话题是⽂本数据挖掘。举个例⼦,在客户服务中⼼,把同客户的谈话转化为
⽂本数据,再对这些数据进⾏挖掘,进⽽了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。从这个例⼦可以看出,⽆论是在数据结构还是在分析处理⽅法⽅⾯,⽂本数据挖掘和前⾯谈到的数据挖掘相差很⼤。⽂本数据挖掘并不是⼀件容易的事情,尤其是在分析⽅法⽅⾯,还有很多需要研究的专题。⽬前市场上有⼀些类似的软件,但⼤部分⽅法只是把⽂本移来移去,或简单地计算⼀下某些词汇的出现频率,并没有真正的分析功能。
随着计算机计算能⼒的发展和业务复杂性的提⾼,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越来越⼤的作⽤。
7. 数据挖掘技术未来的研究⽅向
当前,DMKD研究正⽅兴未艾,预计在21世纪还会形成更⼤的⾼潮,研究焦点可能会集中到以下⼏个⽅⾯:
(1)  形式化描述的语⾔,即研究专门⽤于知识发现的数据挖掘语⾔DMQL,类似SQL语⾔⼀样⾛向形式化和标准化;
(2)  可视化的数据挖掘过程,寻求数据挖掘过程中的可视化⽅法,使知识发现的过程易于被⽤户理解和操纵,可使数据挖掘过程成为⽤户业务流程的⼀部分,也便于在知识发现的过程中进⾏⼈机交互;包括数据⽤户化呈现与交互操纵两部分。
(3)  Web⽹络中数据挖掘的应⽤,特别是在Internet上建⽴数据挖掘服务器,与数据库服务器配合,实现数据挖掘,从⽽建⽴强⼤的数据挖掘引擎与数据挖掘服务市场。
(4)  融合各种异构数据的挖掘技术,加强对各种⾮结构化数据的开采(Data Mining for Audio&Video),如对⽂本数据、图形数据、视频图像数据、声⾳数据乃⾄综合多媒体数据的开采;
(5)  处理的数据将会涉及到更多的数据类型,这些数据类型或者⽐较复杂,或者是结构⽐较独特。为了处理这些复杂的数据,就需要⼀些新的和更好的分析和建⽴模型的⽅法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的⼀些⼯具和软件。
(6)  交互式发现;
(7)  知识的维护更新。
但是,不管怎样,需求牵引与市场推动是永恒的,DMKD将⾸先满⾜信息时代⽤户的急需,⼤量的基于DMKD的决策⽀持软件产品将会问世。
只有从数据中有效地提取信息,从信息中及时地发现知识,才能为⼈类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。 

本文发布于:2024-09-22 06:55:16,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68562.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   数据挖掘   知识   数据库   客户
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议