2015数据挖掘技术试卷A卷-参考答案

2015数据挖掘技术试卷A卷-参考答案
2014~ 2015学年第⼆学期期末考试
数据挖掘技术试卷(A 卷)参考答案使⽤班级 1250411/12/13/14 答题时间_120分钟_
西藏教育⼀、填空题(共10空, 每空1分,共10分)
1.数据挖掘的任务:分类、聚类、回归、关联分析、离点监测、演化分析、序列模式。
2.数据集的三个重要特性:_维度、稀疏性、分辨率。
⼆、判断题(共10⼩题, 每⼩题1分,共10分)
判断下列3~7⼩题的描述是否正确?
3.ID3算法不仅可以处理离散属性,还可以处理连续属性。( F )
4.决策树⽅法通常⽤于关联规则挖掘。( F )
5.先验原理可以表述为,⼀个频繁项集的任⼀⼦集也应该是频繁的。( T )
6.Clementine 是IBM 公司的专业级数据挖掘软件。( T )
7.具有较⾼的⽀持度的项集具有较⾼的置信度。( F )判断下列8~12⼩题的描述是否属于数据挖掘任务?
8.利⽤历史数据预测公司将来的股价。( T )
9.监测病⼈⼼率的异常变化。 ( F ) 10.监测地震活动的地震波。 ( F ) 11.提取声波的频率。 ( F )
12.根据顾客喜好摆放商品位置。( T )
三、简答题(6个⼩题,每⼩题5分,共30分)
13. 什么是信息熵?
答:信息熵(entropy)是⽤来度量⼀个属性的信息量(1分)。假定S 为训练集,S 的⽬标属性C 具有m 个可能的类标号值,C= {C1,C2,…,Cm},假定训练集S 中,Ci 在
所有样本中出现的频率为 (i=1,2,3,…,m),则该训练集S 所包含的信息熵定义为:(3分)
熵越⼩表⽰样本对⽬标属性的分布越纯,反之熵越⼤表⽰样本对⽬标属性分布越混乱。(1分) 14.
什么是⽂本挖掘?
答:⽂本挖掘是⼀个对具有丰富语义的⽂本进⾏分析,从⽽理解其所包含的内容和意义的过程。(2分)对其进⾏深⼊的研究可以极⼤地提⾼⼈们从海量⽂本数据中提取信息的能⼒,具有很⾼的商业价值。(1分)包括分词、⽂本表⽰、⽂本特征选择、⽂本分类、⽂本聚类、⽂档⾃动摘要等内容。(2分) 15. 什么是主成份分析?
答:主成份分析(PCA )是⼀种⽤于连续属性的线性变换技术,出新的属性(主成份),(1分)这些新属性是原属性的线性组合,(1分)是相互正交的,(1分)使得原来数据投影到较⼩的集合中,并且捕获数据的最⼤变差。(1分)PCA 通常揭⽰先前未曾觉察的联系,解释不寻常的结果。(1分) 16. 简述k -最近邻算法过程。答:KNN 分类算法的基本描述如下: 算法名:KNN
输⼊:最近邻数⽬K ,训练集D ,测试集Z (1分)输出:对测试集Z 中所有测试样本预测其类标号值(1分) (1)for 每个测试样本(1分) do
(2) 计算z 和每个训练样本之间的距离(1分) (3) 选择离z 最近的k 最近邻集合(1分) (4) 返回中样本的多数类的类标号(1分) (5)end for
17. 简述Apriori 算法原理。
答:Apriori 性质:⼀个项集是频繁的,那么它的所有⼦集都是频繁的。(1分)⼀个项集的⽀持度不会超过其任何⼦集的⽀持度。(1分)该算法采⽤逐层的⽅法出频繁项集,(1分)⾸先出1频繁-项集,通过迭代⽅法利⽤频繁k-1-项集⽣成k 候选项集,(1分)扫描数据库后从候选k-项集中指出频繁k-项集,直到⽣成的候选项集为空。(1分) 18. 什么是离点?
答:离点是在数据集中偏离⼤部分数据的数据,(2分)使⼈怀疑这些数据的偏离并⾮由随机因素产⽣,(1分)⽽是产⽣于完全不同的机制。(2分)
四、计算题(共2题, 每⼩题20分,共40分)
1221
()(,,...,)log m
m i i i Entropy S Entropy p p p p p ===-∑
(',')z x y Z =∈(,)x y D ∈z D D ?(',)d x x z D
19.数据集如下表:
以A1、B1、C1为初始簇中⼼,利⽤曼哈顿距离的k-means算法计算:
(1) 第⼀次循环后的三个簇中⼼;
(2) 最后的三个簇中⼼,以及各簇包含的对象。(要有计算步骤)
解:(1)计算其他7个数据点到三个中⼼的曼哈顿距离:
M(A2,A1)=11 M(A2,B1)=7 M(A2,C1)=4
M(A3,A1)=13 M(A3,B1)=3 M(A3,C1)=2
M(B2,A1)=8 M(B2,B1)=10 M(B2,C1)=7
M(B3,A1)=12 M(B3,B1)=2 M(B3,C1)=3
M(B4,A1)=3 M(B4,B1)=7 M(B4,C1)=8
M(C2,A1)=2 M(C2,B1)=10 M(C2,C1)=11
M(C3,A1)=8 M(C3,B1)=8 M(C3,C1)=5
经过本次循环,属于A1簇的数据点为(A1,B4,C2),(1分)中⼼为X1(1.67,2.33);(1分)属于B1簇的数据点为(B1,B3),(1分)中⼼为X2(5.5, 8.5);(1分)
属于C1簇的数据点为(C1,A2,A3,B2,C3),(1分)中⼼为X3(8, 5.2);(1分)
(2)计算10个点到三个新中⼼的距离:
M(A1,X1)=1 M(A1,X2)=11 M(A1,X3)=10.2
M(A2,X1)=10 M(A2,X2)=7 M(A2,X3)=1.2
M(A3,X1)=12 M(A3,X2)=2 M(A3,X3)=4.8
M(B1,X1)=9 M(B1,X2)=1 M(B1,X3)=5.8
M(B2,X1)=7.66 M(B2,X2)=10 M(B2,X3)=4.2
M(B3,X1)=11 M(B3,X2)=1 M(B3,X3)=5.8
M(B4,X1)=2 M(B4,X2)=8 M(B4,X3)=7.2
M(C1,X1)=10 M(C1,X2)=3 M(C1,X3)=2.8
M(C2,X1)=1.66 M(C2,X2)=11 M(C2,X3)=10.2
律师事务所从事证券法律业务管理办法M(C3,X1)=7 M(C3,X2)=8 M(C3,X3)=2.2
经过本次循环,属于X1簇的数据点为(A1,B4,C2),(1分)中⼼为Y1(1.67, 2.33);(1分)
属于X2簇的数据点为(A3,B1,B3),(1分)中⼼为Y2(6, 8.67);(1分)
属于X3簇的数据点为(A2,B2,C1,C3),(1分)中⼼为Y3(8.25, 4.25);(1分)
再次计算10个数据点到三个新中⼼的距离:
M(A1,Y1)=1 M(A1,Y2)=11.67 M(A1,Y3)=9.5
M(A2,Y1)=10 M(A2,Y2)=6.67 M(A2,Y3)=1.5
M(A3,Y1)=12 M(A3,Y2)=1.33 M(A3,Y3)=6
M(B1,Y1)=9 M(B1,Y2)=1.67 M(B1,Y3)=7
M(B2,Y1)=7.66 M(B2,Y2)=9.67 M(B2,Y3)=3
M(B3,Y1)=11 M(B3,Y2)=0.33 M(B3,Y3)=7
M(B4,Y1)=2 M(B4,Y2)=8.67 M(B4,Y3)=6.5
M(C1,Y1)=9 M(C1,Y2)=2.67 M(C1,Y3)=4
M(C2,Y1)=1.66 M(C2,Y2)=11.67 M(C2,Y3)=9.5
M(C3,Y1)=7 M(C3,Y2)=7.67 M(C3,Y3)=1.5
经过本次循环,属于Y1簇的数据点为(A1,B4,C2),(1分)中⼼为Y1(1.67, 2.33);(1分)
属于Y2簇的数据点为(A3,B1,B3,C1),(1分)中⼼为Y2(6.25, 8.25);(1分)
属于Y3簇的数据点为(A2,B2,C3),(1分)中⼼为Y3(8.67, 3.33);(1分)
电子导盲仪可以看到,已经不变了。(2分)
使⽤朴素Bayes算法预测⽓候状况为⾬天,⾼温,湿度中等,微风时,是否适合户外运动?
解:即求X={下⾬,⾼,中等,微风}的户外运动为可以的后验概率P(Y=y|X)和X在户外运动为不可以的后验概率P(Y=n|X),其中概率最⼤者为X的预测值。(3分)
根据Bayes定理,P(Y=y|X)=P(X|Y=y) * P(Y=y)=P(x1|Y=y)* P(x2|Y=y)* P(x3|Y=y)* P(x4|Y=y)* P(Y=y) (2分)
这⾥,P(x1|Y=y)=P(x1=下⾬|Y=y)=3/6 (1分)
P(x2|Y=y)=P(x2=⾼|Y=y)=1/6 (1分)
P(x3|Y=y)=P(x3=中等|Y=y)=4/6 (1分)
P(x4|Y=y)=P(x4=微风|Y=y)=5/6 (1分)
P(Y=y)=6/10 (1分)
因此,P(Y=y|X)=3/6*1/6*4/6*5/6*6/10=1/36 (1分)
中华人民共和国收养法同理,计算P(Y=n|X)= P(X|Y=n) * P(Y=n)=P(x1|Y=n)* P(x2|Y=n)* P(x3|Y=n)* P(x4|Y=n)* P(Y=n) (1分)其中,P(x1|Y=n)= P(x1=下⾬|Y=n)=1/4 (1分)
P(x2|Y=n)= P(x2=⾼|Y=n)=2/4 (1分)
P(x3|Y=n)= P(x3=中等|Y=n)=1/4 (1分)
P(x4|Y=n)= P(x4=微风|Y=n)=2/4 (1分)
P(Y=n)=4/10 (1分)
因此,P(Y=n|X)=1/4*2/4*1/4*2/4*4/10=1/160 (1分)
因为P(Y=y|X) > P(Y=n|X),故⽓候状况为⾬天,⾼温,湿度中等,微风时,户外运动应为适合。(2分)
五、应⽤题(共1题,共10分)
21.你作为银⾏信息中⼼⼯作⼈员,请阐述数据挖掘技术在银⾏业务中的应⽤,并写出相关的数据分析流程。
参考答案:利⽤数据预处理技术进⾏数据清洗、整理、集成等;(1分)
利⽤分类⽅法对客户进⾏分类,预测客户需要的服务;(2分)
利⽤聚类⽅法分析客户详细类别,有针对性地开展服务推⼴;(2分)
利⽤关联分析分析客户相关服务,⽅便推介服务;(1分)
渠道联盟
benchmark利⽤离点挖掘技术分析数据异常,防⽌⼊侵。(1分)
流程:
原始数据→预处理→数据挖掘→结果模式→评估与表⽰→知识。(3分)

本文发布于:2024-09-22 19:23:03,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68512.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   分析   属性   数据挖掘   项集   技术
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议