首页 > 学术百科

人工智能技术与数据挖掘

摘要:数据挖掘是人工智能中的一个重要分支。对人工智能的发展及其最基本的技术:知识表示、知识推理、搜索,以及数据挖掘进行了详细介绍。通过实例给出了数据挖掘的定义,最后论述了数据挖掘与人工智能的联系,并结合国内外在该领域的研究成果指出了其广阔的发展前景。

关键词:人工智能;数据处理;展望

Data Mining and Technology of Artificial Intelligence

Abstract: Data mining is an important branch of artificial intelligence. Development of artificial intelligence and it sessential technologies such as knowledge expression, knowledge reference and searching, as well data mining are introduced in details. Then a definition about data mining is given by an example. Finally, the relation between datamining and artificial intelligence is discussed, and the trend is pointed out.

Key words: Artificial intelligence; Data processing; Forecast

一前言

当人工智能进展到一定程度时,对符号处理技术和神经网络处理技术相结合的要求越来越强烈,其中数据挖掘便是二者很好的结合。数据挖掘体现了人工智能技术的进展,其应用领域日益广泛。本文综述了人工智能和数据挖掘的产生、发展及其相互联系,以便引起更多研究者的关注。

二人工智能的发展

人工智能(Artificial Intelligence,简记为AI)研究计算和知识之间的关系[1]。用机器去模拟人的智能,使机器具有类似于人的智能,其实质是研究如何构造智能机器或智能系统,以模拟、延伸、扩展人类的智能。人工智能是在计算机科学、控制论、信息论、神经心理学、哲学、语言学等多种学科研究的基础上发展起来的。

人工智能是当前信息化社会的迫切要求。例如,人工智能技术在Internet和未来的信息高速公路上将发挥重要作用[2]。人工智能是1956年由McCarthyJ等正式提出的。随后人工智能的研究取得了许多引人注目的成就[3]。例如,1956年Samuel L研制出了跳棋程序,6年之后

击败了一个州的跳棋冠军;1958年美籍华人王浩在IBM2704计算机上用3～5min证明了有关命题演算的全部定理;1959年SelfrideO推出了一个模式识别程序;1965年Roberts编制出了可分辨积木构造的程序;Feigenbaum E A于1968年研制成功了DENDRAL专家系统;1972年法国人Comerauer A提出并设计实现了逻辑程序设计语言PROLOG;同一时期,斯坦福大学的Short liffe E H开始研制用于诊断和感染性疾病的专家系统MYCIN;1977年Feigenbaum E A在第五届国际人工智能联合会议上提出了“知识工程”的概念,对以知识为基础的智能系统的研究与建造起到了重要作用;1991年第12届国际人工智能联合会议上日本展出了PSI23智能工作站和由4X4PSI23构成的模型机系统;1997年,IBM公司制造的“深蓝”号计算机系统战胜了国际象棋大师卡斯帕罗夫等。

人工智能早期的研究领域有:专家系统、机器学习、模式识别、自然语言理解、自动定理证明、自动程序设计、机器人学、博弈、人工神经网络等;目前已涉及到以下研究领域:数据挖掘、智能决策系统、知识工程、分布式人工智能[4]等。其中,数据挖掘的出现是人工智能发展史上具有重大意义的事件。这是因为20世纪80年代初,美国、欧洲和日本制定的一批针对人工智能的大型项目都面临了重重困难:一是所谓的交叉问题,即传统方法只能模拟人类深思熟虑的行为,而不包括人与环境的交互行为;二是所谓的扩展问题,即传统人工智能方法只适

兰尼亨利合于建造领域狭窄的专家系统,不能把这种方法简单地推广到规模更大、领域更宽的复杂系统中去。以上两个根本性问题使人工智能研究进入低谷。数据挖掘的出现使人们又重新看到人工智能的希望[5,6]。

三数据挖掘

数据挖掘(Data Mining, DM)是指从大量的数据或信息中挖掘或抽取出知识的过程。这里包含数据的挖掘和智能信息的抽取过程,前者要从大量纷繁复杂的现实世界数据中挖掘出未知的、有价值的模式或规律,后者是对知识进行比较、选择,总结出原理和法则,形成所谓的智能[7,8]。

目前,在很多重要的领域,尤其是在银行、电信、保险、交通、零售(如超级市场)等商业应用领域,数据挖掘能够帮助解决许多典型的商业问题,如数据库营销(Database Marketing)、客户体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross2Selling)等市场行为,视觉点胶系统以及客户流失性分析(Churn Analysis)、客户信用评分(Credit Scoring)、欺诈发现(Fraud Detection)等等。

数据挖掘技术在企业市场营销中的应用是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”[8]。数据挖掘有两种分析处理形式,有监督学习和无监督学习,前者是在已知训练样本集合类别的基础上通过学习建立相应模型;后者是指训练样本类别与个数未知的学习。

例如,表1为某超市顾客信息数据库的部分内容,包括顾客信用卡号、姓名、性别、年龄、收入、职业、、购买商品信息、消费记录等属性描述,利用这些数据可以给潜在顾客发送用于促销的新产品宣传手册,以及将要开始的商品打折信息。

表1　某超市顾客信息表

顾客号姓名性别年龄收入职业消费记录户县八中股指仿真交易信用等级 …

101 江吉芳女 30 2000 科技人员学院路35号关联表1 一般 …

103 叶关丽女 20 1000 教师公主坟1号关联表3 高 …

104 张建国男 50 2500 销售代理西苑4号关联表4 中 …

…

…现代农村科技 … … … … … … … …

用“人工智能”的方法对以上信息进行处理的步骤为:首先,对原始数据进行填补遗漏数据、消除异常数据、平滑噪声数据等处理,提高数据挖掘进程的有效性和准确性。然后,利用AOI算法(基于属性归纳算法)对原始数据进行归纳抽象,即去掉取值过多且不均匀的属性和概念层次树中不存在的属性,最终得到一个更加泛化的关系表2。

表2　顾客信息泛化关系表

姓名年龄收入顾客类别

江吉芳 ≤30 中忠实顾客

姚玉民 30～40 高幸运顾客

叶关丽 ≤30 低摆动顾客

… … … …

最后,应用数据挖掘算法,河南省图书馆获得分类规则,对不同类别的顾客采用不同的宣传和打折策略。当新顾客的信息被加入到数据库中时,就需要对该顾客的类型进行判断,以决定是否给顾客发送相应的宣传手册和打折信息。有针对性地给有最大可能购买力的顾客发送其所需要的商品广告,使其保持最大购买共振状态,才是一种高效节俭的市场营销策略。

四数据挖掘与人工智能技术的联系

人工智能技术包括推理技术、搜索技术、知识表示与知识库技术、归纳技术、联想技术、分类技术、聚类技术等等,其中最基本的三种技术即知识表示、推理和搜索都在数据挖掘中得到了体现。

（1）知识表示

知识表示是指在计算机中对知识的一种描述,是一种计算机可以接受的用于描述知识的数据结构。由于目前对人类知识的结构及机制还没有完全搞清楚,因此关于知识表示的理论及规范尚未建立起来。尽管如此,人们在对智能技术系统的研究及建立过程中还是结合具体研究提出了一些知识表示方法:符号表示法和连接机制表示法[9]。

符号表示法使用各种包含具体含义的符号,以各种不同的方式和次序组合起来表示知识,它主要用来表示逻辑性知识。连接表示法是把各种物理对象以不同的方式及次序连接起来,并在其间相互传递及加工各种包含具体意义的信息。数据挖掘中关联规则的挖掘用到了符号表示法。关联规则挖掘是从大量的数据中挖掘出有价值的描述数据项之间相互联系的有关知识。例如,通过分析某个超市的数据库后,发现许多顾客在购买A牌子牛奶时,同时也购买了A牌子的面包,显然这是一个很重要的知识,因为它可以帮助商家对这两种商品打包出售,并且及时调整货架商品摆放。这一条知识可以用以下规则来表示:

A牌子的牛奶]A牌子的面包　[Support=20%,Confidence=60%]

其中　Support=20%表示支持度是20%,即交易库中同时包含A牌子的面包和A牌子的牛奶的记录占总记录数的20%,Confidence=60%表示有60%的顾客在购买A牌子的牛奶的同时,还会购买A牌子的面包。整条规则描述为如果顾客购买了A牌子的牛奶,那么他有60%的可能性去购买A牌子的面包。连接表示法对应于数据挖掘中神经网络分类法。神经网络通过调整权重来实现输入样本与其类别的对应,从而达到从训练后的神经网络中挖掘出知识。

（2）推理技术

推理技术从已知的事实出发,运用已掌握的知识,出其中蕴含的实事,或归纳出新的实事。推理可分为经典推理和非经典推理,前者包括自然演绎推理、归纳演绎推理、与/或形演绎推理等,后者主要包括多值逻辑推理、模态逻辑推理、非单调推理等。

一般而言,数据挖掘在处理过程中其基本思想是非经典的,而其依据的“剪枝”规则应该是经过经典推理严格证实的———有其严格的数学背景。比如,聚类处理时的基本思想是基于非经典推理,但为了提高效率而采取的“剪枝”技术必须保证完备性、正确性,经得起推理,否则便成了随意剪枝和删除信息,虽然提高了效率,但其正确性不能保证,就没有什么意义了。

本文发布于:2024-09-23 11:22:55，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68475.html

上一篇：数据挖掘中的文本挖掘的分类算法综述

下一篇：基于VAE的无监督异常检测技术

标签：人工智能知识数据挖掘

留言与评论（共有 0 条评论）