数据仓库习题集

一、选择填空.
数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。、
粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。
连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。在数据挖掘的分析方法中,直接数据挖掘包括(ACD)
A 分类
B 关联
C 估值
D  预言
数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)
A 数据抽取
B 数据转换
C 数据加载
D 数据稽核
数据分类的评价准则包括(  ABCD  )
A 精确度
B 查全率和查准率
C F-Measure
D 几何均值
层次聚类方法包括(  BC  )
A 划分聚类方法
自动包装机器人
B 凝聚型层次聚类方法
C 分解型层次聚类方法
D 基于密度聚类方法
贝叶斯网络由两部分组成,分别是(  A D  )
A 网络结构
B 先验概率
C 后验概率
D 条件概率表
置信度(confidence)是衡量兴趣度度量(  A )的指标。
A、简洁性
B、确定性
C.、实用性
D、新颖性
关于OLAP和OLTP的区别描述,不正确的是: (C)
A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.
B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.
C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.
D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的
简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )
A、层次聚类
B、划分聚类
C、非互斥聚类
D、模糊聚类
将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)
A. 频繁模式挖掘
B. 分类和预测
C. 数据预处理
D. 数据流挖掘
为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)
A. 探索性数据分析
B. 建模描述
C. 预测建模
废酸回收D. 寻模式和规则
6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD)
A 分类
B 关联
C 估值
D  预言
7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)
A 数据抽取
B 数据转换
C 数据加载
D 数据稽核
8.数据分类的评价准则包括(  ABCD  )
A 精确度
B 查全率和查准率
C F-Measure
D 几何均值
9.层次聚类方法包括(  BC  )
A 划分聚类方法
B 凝聚型层次聚类方法
C 分解型层次聚类方法
D 基于密度聚类方法
10.贝叶斯网络由两部分组成,分别是(  A D  )
包装箱制作
A 网络结构
B 先验概率
C 后验概率
D 条件概率表
二、判断题
1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对)
2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)
3. 图挖掘技术在社会网络分析中扮演了重要的角。(对)
转轮热回收4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)
5. 寻模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)
6. 离点可以是合法的数据对象或者值。    (对)
7. 离散属性总是具有有限个值。        (错)
8. 噪声和伪像是数据错误这一相同表述的两种叫法。     (错)
9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。   (对)
10. 特征提取技术并不依赖于特定的领域。      (错)
11. 序列数据没有时间戳。      (对)
12. 定量属性可以是整数值或者是连续值。     (对)
13. 可视化技术对于分析的数据类型通常不是专用性的。    (错)
14. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。(对)
15. OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。(对)
16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。(对)
17. 数据仓库中间层OLAP服务器只能采用关系型OLAP          (错)18.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. (错)
19. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息.  (错)
21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)
22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。
23. 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错
24. 如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其中是X的子集。(对)
25. 具有较高的支持度的项集具有较高的置信度。(错)
26. 聚类(clustering)是这样的过程:它出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。(错)
27. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(对)28. 对于SVM 分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 (对)29. Bayes 法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。  (错)30.分类模型的误差大致分为两种:训练误差(training error )和泛化误差(generalization error ).    (对)31. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 (错)32. SVM 是这样一个分类器,他寻具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier )    (错)33. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错)34. 聚类分析可以看作是一种非监督的分类。(对)35. K 均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错36. 给定由两次运行K 均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。(错)37. 基于邻近度的离点检测方法不能处理具有不同密度区域的数据集。(对)38. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离点。(对)39. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(错)40. DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)三、
计算题1.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min =40%,conf min =40%,使用Apriori 算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)事务项目事务
项目    T1    T2
T3
面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱    T4
T5啤酒、面包啤酒、牛奶解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C 1,计算其支持度,取出支持度小于sup min 的项集,形成1-频繁集L 1,如下
表所示:
项集C1      支持度项集L1支持度
{面包}
{花生酱}
{牛奶}                {啤酒}
4/5
3/5
CS CN2/5
2/5
{面包}
{花生酱}
{牛奶}
{啤酒}
4/5
3/5
2/5
2/5
(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:
项集C2支持度项集L2支持度{面包、花生酱}            3/5{面包、花生酱}          3/5
至此,所有频繁集都被到,算法结束,
所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf min
confidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min
所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。
2.给定以下数据集(2 ,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分)
解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,
由题可知k=2,则可设m1=2,m2=4:场馆座椅
(2)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为2,8,10,13,1,19。
当m2=4时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1,17。
最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为(2,3),另一个聚类m2=4为(4,10,12,15,21)。
(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均
值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:
m1=2.5,m2=12:
(4)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-0.5,0.5,1.5,7.5,9.5,12.5,18.5。
当m2=12时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-10,-9,-8,2,3,9。
最小距离是1.5将该元素放入m1=2.5的聚类中,则该聚类为(2,3,4),另一个聚类m2=12为(10,12,15,21)。
(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=3,
m2=14.5:
(6)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=3时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-1,1,7,9,12,18,。
当m2=14.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-12.58,-11.5,-10.5,-4.5,-2.5,0.5,6.5。
最小距离是0.5将该元素放入m1=3的聚类中,则该聚类为(2,3,4),另一个聚类m2=14.5为(10,12,15,21)。
至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。
3.
K均值算法的过程为:
1:选择K个点作为初始质点。
2: repeat
3:  每个点指派到最近的质心,形成K个簇。
4.  重新计算每个簇的质心、
5.  until质心不发生变化。
例题:  A1,B1,C作为初始质点,距离函数是Euclidean函数,指派点到最近的质心,方法为计算其他点到质点的欧几里得距离。计算距离如下:A1-A2 :dist=(2-2)2 +(5-10)2=25;
A1-A3:dist=(8-2)2+(4-10)2=72;  A1-B2:dist=(7-2)2+(5-10)2 =50; A1-B3:dist=(6-2)2+(4-10) 2=52;
A1-C2:dist=(4-2)2+(9-10)2=5;  B1-A2:dist=(2-5)2+(5-8)2=18;  B1-A3:dist=(8-5)2+(4-8)2=25;
B1-B2:dist=(7-5)2+(5-8)2=13  B1-B3:dist=(6-5)2+(4-8)2=17
B1-C2:dist=(4-5)2+(9-8)2=2 C1-A2:dist=(2-1)2+(5-2)2=10 C1-A3:dist=(8-
1)2+(4-2)2=53  C1-B2:dist=(7-1)2+(5-2)2=45  C1-B3:dist=(6-1)2+(4-
2)2=29  C1-C2:dist=(4-1)2+(9-2)2=58
其他五个结点选择与其最近的质心,三个簇分别为:{B1,C2,B3,B2,A3}
{C1,A2}{A1}

本文发布于:2024-09-22 15:33:11,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/189977.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   聚类   样本   距离
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议