首页 > 专利信息

数据仓库习题集

一、选择填空.

数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。、

粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小，细节程度越高，综合程度越低，回答查询的种类越多。

维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。

连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ）

A 分类

B 关联

C 估值

D 预言

数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ）

A 数据抽取

B 数据转换

C 数据加载

D 数据稽核

数据分类的评价准则包括（ ABCD ）

A 精确度

B 查全率和查准率

C F-Measure

D 几何均值

层次聚类方法包括（ BC ）

A 划分聚类方法

自动包装机器人

B 凝聚型层次聚类方法

C 分解型层次聚类方法

D 基于密度聚类方法

贝叶斯网络由两部分组成，分别是（ A D ）

A 网络结构

B 先验概率

C 后验概率

D 条件概率表

置信度(confidence)是衡量兴趣度度量（ A ）的指标。

A、简洁性

B、确定性

C.、实用性

D、新颖性

关于OLAP和OLTP的区别描述，不正确的是: (C)

A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.

B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.

C. OLAP的特点在于事务量大，但事务内容比较简单且重复率高.

D. OLAP是以数据仓库为基础的，但其最终数据来源与OLTP一样均来自底层的数据库系统，两者面对的用户是相同的

简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（ B ）

A、层次聚类

B、划分聚类

C、非互斥聚类

D、模糊聚类

将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C)

A. 频繁模式挖掘

B. 分类和预测

C. 数据预处理

D. 数据流挖掘

为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？(B)

A. 探索性数据分析

B. 建模描述

C. 预测建模

废酸回收D. 寻模式和规则

6.在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ）

A 分类

B 关联

C 估值

D 预言

7.数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ）

A 数据抽取

B 数据转换

C 数据加载

D 数据稽核

8.数据分类的评价准则包括（ ABCD ）

A 精确度

B 查全率和查准率

C F-Measure

D 几何均值

9.层次聚类方法包括（ BC ）

A 划分聚类方法

B 凝聚型层次聚类方法

C 分解型层次聚类方法

D 基于密度聚类方法

10.贝叶斯网络由两部分组成，分别是（ A D ）

包装箱制作

A 网络结构

B 先验概率

C 后验概率

D 条件概率表

二、判断题

1. 数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。 (对)

2. 数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘。（对）

3. 图挖掘技术在社会网络分析中扮演了重要的角。（对）

转轮热回收4. 模式为对数据集的全局性总结，它对整个测量空间的每一点做出描述；模型则对变量变化空间的一个有限区域做出描述。（错）

5. 寻模式和规则主要是对数据进行干扰，使其符合某种规则以及模式。（错）

6. 离点可以是合法的数据对象或者值。（对）

7. 离散属性总是具有有限个值。（错）

8. 噪声和伪像是数据错误这一相同表述的两种叫法。　（错）

9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。　（对）

10. 特征提取技术并不依赖于特定的领域。（错）

11. 序列数据没有时间戳。（对）

12. 定量属性可以是整数值或者是连续值。　（对）

13. 可视化技术对于分析的数据类型通常不是专用性的。（错）

14. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。（对）

15. OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息，是继数据库技术发展之后迅猛发展起来的一种新技术。（对）

16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于：后者把结构强加于商务之上，一旦系统设计完毕，其程序和规则不会轻易改变；而前者则是一个学习型系统，能自动适应商务不断变化的要求。（对）

17. 数据仓库中间层OLAP服务器只能采用关系型OLAP （错）18．数据仓库系统的组成部分包括数据仓库，仓库管理，数据抽取，分析工具等四个部分. (错)

19. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性，它在验证用户提出的假设过程中提取信息. （错）

21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。（错）

22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数（对）。

23. 先验原理可以表述为：如果一个项集是频繁的，那包含它的所有项集也是频繁的。（错

24. 如果规则不满足置信度阈值，则形如的规则一定也不满足置信度阈值，其中是X的子集。（对）

25. 具有较高的支持度的项集具有较高的置信度。（错）

26. 聚类（clustering）是这样的过程：它出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。（错）

27. 分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。(对)28. 对于SVM 分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。（对）29. Bayes 法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。 (错)30.分类模型的误差大致分为两种：训练误差（training error ）和泛化误差（generalization error ）. (对)31. 在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。（错）32. SVM 是这样一个分类器，他寻具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimal margin classifier ） (错)33. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（错）34. 聚类分析可以看作是一种非监督的分类。（对）35. K 均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。（错36. 给定由两次运行K 均值产生的两个不同的簇集，误差的平方和最大的那个应该被视为较优。（错）37. 基于邻近度的离点检测方法不能处理具有不同密度区域的数据集。（对）38. 如果一个对象不强属于任何簇，那么该对象是基于聚类的离点。（对）39. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（错）40. DBSCAN 是相对抗噪声的，并且能够处理任意形状和大小的簇。（对）三、

计算题1.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定sup min =40%，conf min =40%，使用Apriori 算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。（15分）事务项目事务

项目 T1 T2

面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱 T4

T5啤酒、面包啤酒、牛奶解：（1）由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C 1，计算其支持度，取出支持度小于sup min 的项集，形成1-频繁集L 1，如下

表所示：

项集C1 支持度项集L1支持度

{面包}

{花生酱}

{牛奶} {啤酒}

4/5

3/5

CS CN2/5

2/5

{面包}

{花生酱}

{牛奶}

{啤酒}

4/5

3/5

2/5

(2)组合连接L1中的各项目，产生2-候选集C2，计算其支持度，取出支持度小于sup min的项集，形成2-频繁集L2，如下表所示：

项集C2支持度项集L2支持度{面包、花生酱} 3/5{面包、花生酱} 3/5

至此，所有频繁集都被到，算法结束，

所以，confidence（{面包}→{花生酱}）=（4/5）/（3/5）=4/3> conf min

confidence（{ 花生酱}→{面包}）=（3/5）/（4/5）=3/4> conf min

所以，关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

2.给定以下数据集（2 ，4，10，12，15，3，21），进行K-Means聚类，设定聚类数为2个，相似度按照欧式距离计算。（15分）

解：（1）从数据集X中随机地选择k个数据样本作为聚类的出示代表点，每一个代表点表示一个类别，

由题可知k=2，则可设m1=2，m2=4：场馆座椅

（2）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=2时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为2，8，10，13，1，19。

当m2=4时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-2，6，8，11，-1，17。

最小距离是1或者-1将该元素放入m1=2的聚类中，则该聚类为（2，3），另一个聚类m2=4为（4，10，12，15，21）。

（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均

值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点：

m1=2.5，m2=12：

（4）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=2.5时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-0.5，0.5，1.5，7.5，9.5，12.5，18.5。

当m2=12时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-10，-9，-8，2，3，9。

最小距离是1.5将该元素放入m1=2.5的聚类中，则该聚类为（2，3，4），另一个聚类m2=12为（10，12，15，21）。

（5）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点：m1=3，

m2=14.5：

（6）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=3时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-1，1，7，9，12，18，。

当m2=14.5时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-12.58，-11.5，-10.5，-4.5，-2.5，0.5，6.5。

最小距离是0.5将该元素放入m1=3的聚类中，则该聚类为（2，3，4），另一个聚类m2=14.5为（10，12，15，21）。

至此，各个聚类不再发生变化为止，即误差平方和准则函数的值达到最优。

K均值算法的过程为：

1：选择K个点作为初始质点。

2： repeat

3: 每个点指派到最近的质心，形成K个簇。

4. 重新计算每个簇的质心、

5. until质心不发生变化。

例题: A1,B1,C作为初始质点，距离函数是Euclidean函数，指派点到最近的质心，方法为计算其他点到质点的欧几里得距离。计算距离如下：A1-A2 ：dist=(2-2)2 +(5-10)2=25;

A1-A3:dist=(8-2)2+(4-10)2=72; A1-B2:dist=(7-2)2+(5-10)2 =50; A1-B3:dist=(6-2)2+(4-10) 2=52;

A1-C2:dist=(4-2)2+(9-10)2=5; B1-A2:dist=(2-5)2+(5-8)2=18; B1-A3:dist=(8-5)2+(4-8)2=25;

B1-B2:dist=(7-5)2+(5-8)2=13 B1-B3:dist=(6-5)2+(4-8)2=17

B1-C2:dist=(4-5)2+(9-8)2=2 C1-A2:dist=(2-1)2+(5-2)2=10 C1-A3:dist=(8-

1)2+(4-2)2=53 C1-B2:dist=(7-1)2+(5-2)2=45 C1-B3:dist=(6-1)2+(4-

2)2=29 C1-C2:dist=(4-1)2+(9-2)2=58

其他五个结点选择与其最近的质心，三个簇分别为：｛B1,C2,B3,B2,A3｝

{C1,A2}{A1}

本文发布于:2024-09-22 15:33:11，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/189977.html

上一篇：数据挖掘知识点概况及试题

下一篇：数据仓库与数据挖掘考试习题汇总

标签：数据聚类样本距离

留言与评论（共有 0 条评论）