首页 > 学术百科

数据挖掘概念与技术（第三版）课后答案——第一章

数据挖掘概念与技术（第三版）课后答案——第⼀章

科尔曼

1.1 什么是数据挖掘？在你的回答中，强调以下问题：

(a)它是⼜⼀种⼴告宣传吗？

(b)它是⼀种从数据库、统计学、机器学习和模式识别发展⽽来的技术的简单转换或应⽤吗？

(c)我们提出了⼀种观点，说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗？你能基于该学科的发展历史提出这⼀观点吗？针对统计学和模式识别领域，做相同的事。

(d)当把数据挖掘看做知识发现过程时，描述数据挖掘所涉及的步骤。

答：数据挖掘不是⼀种⼴告宣传，它是⼀个应⽤驱动的领域，数据挖掘吸纳了诸如统计学习、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、⾼性能计算和许多应⽤领域的⼤量技术。

它是从⼤量数据中挖掘有趣模式和知识的过程。

数据源：包括数据库、数据仓库、Web、其他信息存储库或动态的流⼊系统的数据等。中国禽病论坛网

当其被看作知识发现过程时，其基本步骤主要有：

1. 数据清理：清楚噪声和删除不⼀致数据；

qiushi2. 数据集成：多种数据源可以组合在⼀起；

3. 数据选择：从数据库中提取与分析任务相关的数据；

4. 数据变换：通过汇总或者聚集操作，把数据变换和统⼀成适合挖掘的形式；

5. 数据挖掘：使⽤智能⽅法或者数据挖掘算法提取数据模式；

6. 模式评估：根据某种兴趣度量，识别代表知识的真正有趣的模式。

7. 知识表⽰：使⽤可视化和知识表⽰技术，向⽤户提供挖掘的知识。

1.2 数据仓库与数据库有什么不同？它们有哪些相似之处？

答：不同：数据仓库是多个异构数据源在单个站点以统⼀的模式组织的存储，以⽀持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。数据库系统也称数据库管理系统，由⼀组内部相关的数据（称作数据库）和⼀组管理和存取数据的软件程序组成，是⾯向操作型的数据库，是

河南农业大学学报组成数据仓库的源数据。它⽤表组织数据，采⽤ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。都是通过某个数据库软件，基于某种数据模型来组织、管理数据。

1.3定义下列数据挖掘功能：特征化、区分、关联和相关性分析、分类、回归、聚类、离点分析。

数据特征化：是⽬标类数据的⼀般性或特征的汇总。通常，通过查询来收集对应于⽤户指定类的数据。

例⼦：AllElectronics 的客户关系经理可能提出如下数据挖掘任务:“ 汇总⼀年之内在AllElectronics花费5000美元以上的顾客特征。”结果可能是顾客的概况，如年龄在40~50岁、有⼯作、有很好的信⽤等级。数据挖掘系统应当允许⽤户在任意维下钻，如在ocupation维下钻，以便根据这些顾客的职业类型来观察他们。

数据区分：是将⽬标类数据对象的⼀般特性与个或多个对⽐类对象的⼀般特性进⾏⽐较。⽬标类和对⽐类可以由⽤户指定，⽽对应的数据对象可以通过数据库查询检索。

例⼦：AllElectronics的客户关系经理可能想⽐较两组顾客⼀定期 (例如，每⽉多于2次)购买计算机产品的顾客和不经常(例如，每年少于3次)购买这种产品的顾客。结果描述提供这些顾客⽐较的概况，例如

频繁购买计算机产品的顾客80%在20~40岁之间，受过⼤学教育;⽽不经常购买这种产品的顾客60%或者年龄太⼤或者太年青，没有⼤学学位。沿着维下钻，如沿occupation维下钻，或添加新的维，如income. level维，可以帮助发现两类之间的更多区分特征。

频繁模式：频繁模式(frequent pattern)是在数据中频繁出现的模式。挖掘频繁模式导致发现数据中有趣的关联和相关性。

关联分析例⼦：假设作为AllEletronics的市场部经理，你想知道哪些商品经常⼀块被购买(即，在相同的事务中)。从AllElectronics的事务数据库中挖掘出来的这种规则的⼀个例⼦是

buys( X，“computer”) =>buys( X，“software”)[ support = 1 %，confidence = 50%]

其中，X是变量，代表顾客。50%的置信度或确信性意味，如果⼀位顾客购买计算机，则购买软件的可能性是50%。1%的⽀持度意味，所分析的所有事务的1%显⽰计算机与软件⼀起被购买。这个关联规则涉及单个重复的属性或谓词(即buys)。包含单个谓词的关联规则称做单维关联规则( single- dimensional association rule)。去掉谓词符号，上⾯的规则可以简单地写成“computer

=>sofwar[ 1%，50% ]”。

假设给定涉及购买的AllEleetronicis关系数据库。数据挖掘系统还可以发现如下形式的规则

age(X,“20. .29”) ^ income(X,"“40K. .49K" )=>buys(X," laptop" )[ support =2% ,confidence =60% ]

该规则指出，在所研究的AllElectronics 顾客中，2%的年龄是20~29岁，年收⼊为40 000 ~49 000美元，并且在AllElectronics 购买了便携式计算机。这个年龄和收⼊组的顾客购买便携机的概率为60%。注意，这是涉及多个属性或谓词(即age, income 和buys)的关联。采⽤多维数据库使⽤的术语，每个属性称做⼀个维，上⾯的规则可以称做多维关联规则。

分类：出描述和区分数据类或概念的模型( 或函数)，以便能够使⽤模型预测类标号未知的对象的类标号。导出模型是基于对训练数据集(即，类标号已知的数据对象)的分析。该模型⽤来预测类标号未知的对象的类标号。

回归：建⽴连续值函数模型，回归分析是⼀种最常⽤的数值预测的统计学⽅法。

例⼦：假设作为AllElctronics的销售经理，你想根据对促销活动的三种反应，对商店的商品集合分类：好的反应，中等反应和没有反应。你想根据商品的描述特性，如price、brand、place_ made 和category，对这三类的每⼀种导出模型。结果分类将最⼤限度地区别每类，提供有组织的数据集描述。

假设结果分类模型⽤决策树的形式表⽰。例如，决策树可能把price看做最能区分三个类的因素。该树

澳门美好世界可能揭⽰，除了price之外，帮助进⼀步区分每类对象的其他特征包括brand和place__made。这样的决策树可以帮助你理解给定促销活动的影响，并帮助你设计未来更有效的促销活动。

假设你不是预测顾客对每种商品反应的分类标号，⽽是想根据先前的销售数据，预测在AllElectronics的未来销售中每种商品的收益。

这是⼀个回归分析的例⼦，因为所构造的模型(或函数）将预测⼀个连续函数( 或有序值)。

聚类分析：不像分类和回归分析标记类的(训练)数据集，聚类( clustering)分析数据对象，⽽不考虑类标号。在许多情况下，开始并不存在标记类的数据。可以使⽤聚类产⽣数据组的类标号。对象根据最⼤化类内相似性、最⼩化类间相似性的原则进⾏聚类或分组。

也就是说，对象的簇(cluster) 这样形成，使得相⽐之下在同⼀个簇中的对象具有很⾼的相似性，⽽与其他簇中的对象很不相似。所形成的每个簇都可以看做⼀个对象类，由它可以导出规则。

聚类分析例⼦：可以在AIIElectronics的顾客数据上进⾏聚类分析，识别顾客的同类⼦。这些簇可以表⽰每个购物⽬标。下图显⽰⼀个城市内顾客位置的⼆维图。数据点的三个簇是显⽽易见的。

离点分析：数据集中可能包含⼀些数据对象，它们与数据的⼀般⾏为或模型不⼀致。这些数据对象是离点(outlier)。⼤部分数据挖掘⽅法都将离点视为噪声或异常⽽丢弃。然⽽，在⼀些应⽤中(例如，欺诈检测)，罕见的事件可能⽐正常出现的事件更令⼈感兴趣。离点数据分析称做离点分析或异常挖掘。

例⼦：通过检测⼀个给定账号与正常的付费相⽐付款数额特别⼤，离点分析可以发现信⽤卡欺骗性使⽤。离点还可以通过购物地点和类型或购物频率来检测。

1.4 给出⼀个例⼦，其中数据挖掘对于⼀种商务的成功⾄关重要的。这种商务需要什么数据挖掘功能？他们能够由数据查询处理或简单的统计分析来实现吗？

答：⾸先概括⼀下可以挖掘什么类型的模式：特征化与区分、频繁模式、分类与回归、聚类、离点分析。以航空公司为例，为提⾼⽤户体验度，最⼤限度提⾼乘客登机时的效率，减少登机所⽤时间。这就需要进⾏回归分析，⽐如以近⼏个⽉登机时的数据进⾏回归分析，来判断某时刻客户登机时的⼈流量符合哪种分布情况，以预测未来⼈流量从⽽提前做出相应改进措施提⾼⽤户登机效率。在这种情况下，简单的查询统计是满⾜不了该航空公司的。

1.5 解释区分和分类、特征化和聚类、分类和回归之间的区别和相似之处。

区分和分类：数据区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较；⽽分类则是出描述和区分数据类或概念的模型，以便能够使⽤模型对未知类标号的样例进⾏预测。

特征化和聚类：数据特征化是⽬标类数据的⼀般特性或特征的汇总，即在进⾏数据特征化时很清楚特征化的这些数据的特点是什么；

⽽聚类则只是分析数据对象，按照“最⼤化类内相似度、最⼩化类间相似度”的原则进⾏聚类或分组。

分类和回归：回归主要是建⽴连续值的函数模型，回归主要⽤来预测缺失的或难以获得的数值数据值，⽽不是离散的类标号，同时回归也包含基于可⽤数据的分布趋势识别。

1.6 根据你的观察，描述⼀种可能的知识类型，它需要由数据挖掘⽅法发现，但未在本章中列出。它需要⼀种不同于本章列举的数据挖掘技术吗？

⽐如对⽂本进⾏分类时往往需要进⾏某类的⾼频特征提取，⽽在某个分类下⾯拥有众多⽂档，⽂档中⼜往往包含众多特征词汇，此时就需要进⾏数据挖掘从⽽出可以代表该类的特征词，这就涉及到特征降维，我们可以⽤卡⽅统计等⽅法进⾏特征提取。该⽅法并未在本章中列出。

1.7 离点经常被当做噪声丢弃。然⽽，⼀个⼈的垃圾可能是另⼀个⼈的宝贝。例如，信⽤卡交易中的异常可能帮助我们检测信⽤卡的欺诈使⽤。以欺诈检测为例，提出两种可以⽤来检测离点的⽅法，并讨论哪种⽅法更可靠。

检测离点的⽅法可以通过聚类和分类两种⽅法来检测。⾸先来讲聚类，通过聚类可以把具有⼀定相似度的数据对象聚集在⼀起，⽽对于是离点的这些数据来说，往往离通过聚类得到的这些簇⽐较远，并且表现的⽐较分散，因此通过聚类之后，观察这些离簇⽐较远的数据对象则可以很⽅便的到离点。本⼈认为还可以通过分类来检测离点。因为在清楚了需要把数据对象分成⼏个⼤类时，我们可以通过合适的分类算法对数据进⾏分类，⽐如最简单的通过相似度去分类，那么当其相似度⼩于某⼀个阈值时，我们把这些数据认为是离点，然后把这些数据单独进⾏分析从⽽检测离点。分类⽅法⽤于离点检测时，往往需要很清楚的知道这些数据能够分成⼏个⼤类，⽽对于庞⼤的数据量来

说，根据不⽤的特征可能可以划分出好多⼤类，这样在进⾏数据预处理时可能会⽐较⿇烦，⽽聚类则相对来说要简单⼀些，并且通过聚类之后，采⽤⼀定的可视化技术可以很清楚的将离点显⽰出来，以便研究⼈员、⽤户等可以很⽅便的观测离点。因此，就这两种⽅法来说，聚类对于离点的检测更加可靠。

1.8 描述三个关于数据挖掘⽅法和⽤户交互问题的数据挖掘挑战。

涉及数据挖掘挑战⾃然是⽐较有深度、难度的数据挖掘，诸如交通拥堵、环境恶化、能耗增加等三个领域。⾸先来讲交通拥堵，对于交通拥堵，每辆车都会有传感器，⽽对于每辆车的定位则可以通过GPS、北⽃导航的定位系统进⾏定位，在解决交通拥堵问题时，可以将以上已知数据信息进⾏融合即多源数据融合，加之⼀定的数据挖掘算法从⽽去解决交通拥堵问题。在实时的解决交通拥堵问题时，将拥堵情况动态的展现给司机则涉及到了数据可视化，那么如何将这些实时的车流情况以及解决⽅式动态的呈现给司机则⼜是⼀⼤挑战。

环境恶化、能耗增加：这两⼤难题在现实⽣活中同样表现的⽐较突出，但是仅从单⽅⾯来讲，我们可以获取的信息也是⽐较充⾜的，⽐如⽓象条件、环境各项指标的检测数据、各燃油的销售量等等，那么如何将这些数据有效的融合并且提出有效的解决⽅案或者说是建⽴良好的数学模型则是摆在众多科研⼈员⾯前的⼀⼤挑战。

明光市教育局1.9 与挖掘少量数据（例如，⼏百个元组的数据集合）相⽐，挖掘海量数据（例如，数⼗亿个元组）的主要挑战是什么？

1.10 概述在诸如流/传感器数据分析、时空数据分析或⽣物信息学等某个特定应⽤领域中的数据挖掘的主要挑战？

这⼏个领域有⼀个共同的特点就是有可能有多源数据的存在，当存在多源数据时，如何对多源数据进⾏整合则是我们所⾯临的⼀⼤挑战；其次，对于多源数据的预处理也是⽐较困难，因为多源数据之间可能会相互影响；最后，对于这种复杂对象的挖掘，在数据挖掘领域也是研究⼈员所⾯临的⼀⼤挑战。

本文发布于:2024-09-21 20:36:25，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68472.html

上一篇：【5000字+ 内附代码】数据挖掘期末论文-时间序列预测

下一篇：符号化近似sax在时序数据挖掘中的应用研究