数据挖掘导论中文答案1.2.3.4.6.8.10章

习题一:
1。讨论是否每个以下活动是一个数据挖掘的任务。
(a)将公司的客户根据他们的性别。不。这是一个简单的数据库查询。
(b)将公司的客户根据他们的盈利能力。
不。这是一个会计计算,紧随其后的是应用程序一个阈值。然而,预测的盈利能力客户将数据挖掘。
(c)计算一个公司的总销售额。不。再次,这是简单的会计。
(d)排序一个库基于学生身份证号码。
不。再一次,这是一个简单的数据库查询。
(e)预测结果掷双骰子(公平)。
不。因为模具是公平的,这是一个概率计算。如果死是不公平的,我们需要估计的概率每个结果的数据,那么这是更像的问题认为数据挖掘。然而,在这种特定的情况下,解决方案这个问题是由数学家很长时间前,因此,我们不会认为它是数据挖掘。
(f)预测未来股价的公司使用历史记录。
是的。我们将尝试创建一个模型,该模型可以预测连续价值的股票价格。这是一个的例子数据挖掘领域称为预测模型。我们可以使用回归建模,尽管在许多领域的研究者开发了各种各样的技术来预测时间吗系列。
(g)监测病人的心率异常。
是的。我们可以建立一个模型,心脏的正常行为率和不同寻常的心行为发生时发出警报。这将涉及到数据挖掘的区域称为异常检测。这也可以被认为是一个分类问题如果我们有正常和异常的心行为的例子。
(h)监测地震活动的地震波。是的。在本例中,我们将构建一个不同类型的模型地震波与地震相关的活动和行为提高警报当其中一个不同类型的地震活动被观察到。这是数据挖掘领域的一个例子被称为分类。
(i)提取声波的频率。
不。这是信号处理。
2.假设你被录用,作为一个互联网数据挖掘咨询顾问搜索引擎公司。描述数据挖掘可以帮助公司通过给具体的例子如何技术,如聚类,分类、关联规则挖掘和异常检测可以应用。
答:以下是可能的答案的例子。•聚类可以把结果与类似的主题用户在一个更简洁的形式,例如通过报告集中的十大最频繁的词语。•分类可以将结果分配给预定义的类别等“体育”、“政治”,等等。•顺序关联分析可以发现,某些查询遵循一定的概率高的其他查询,允许更高效的缓存。•异常检测技术可以发现不寻常的模式用户流量。,这一个话题突然变得太多更受欢迎。可以调整广告策略这种发展的优势。
3.为每个数据集后,解释是否数据隐私是一个重要的问题。
(a)调查1900年至1950年收集的数据。
没有(
b)的IP地址和访问时间的网络用户访问你的网站。
是的
(c)从地球轨道卫星图像。
碳化硅粉
没有
(d)的人的姓名和住址,电话本。没有
(e)的姓名和地址从网上收集。没有
习题二
1。在最初的第二章的例子,统计学家说,“是的,2和字段3基本上是相同的。“你能告诉三行示例数据这是为什么她说吗?
字段2场3≈7显示的值。虽然它可能是危险的得出结论从这样一个小样本,似乎两个字段包含本质上相同的信息。
2。分类下面的属性作为二进制、离散或连续的。也把它们归入定性(名义或序数)或定量(间隔或率)。某些情况下可能有多个解释,简要说明你的推理,如果你觉得可能会有一些歧义。例如:年龄。答:离散、定量比率
(a)时间点或点。二进制、定性顺序
(b)亮度测光表来衡量。连续、定量、比
(c)亮度以人们的判断。离散的、定性的、序数
(d)的角度来衡量在0度◦◦和360。连续、定量、比
(e)铜、银和在奥运会上获得金牌。离散,定性,顺序
(f)海拔高度。连续、定量、间隔/比率(视情况而定海平面是否被认为是一个任意的起源)
(g)在医院的患者数量。离散、量化、比例
(h)ISBN编号为书。(在网上查格式。)离散,定性,名义(ISBN编号有订单信息,虽然)
(i)的能力,通过光的以下值:不透明,半透明的,透明的。离散的、定性的,顺序
(j)军衔。离散的、定性的,顺序
(k)距离校园的中心。连续、定量、间隔/比(取决于)
(i)用每立方厘米表示物质的密度。离散量化,比
(m)外套核对数目。(当你参加一个活动,你可以经常给反过来,你的外套的人给你一个号码,你可以使用你的外套当你离开)。离散的、定性的,名义上的
3。你是接洽当地一家公司的营销总监,他相信他设计了一个简单的方法来衡量客户的满意度。他解释说他的计划如下:“这太简单了,我不能相信之前没有人想到它。我刚跟踪客户的数量每个产品的投诉。在数据挖掘的书我读才是最重要的比属性,因此,我必须比衡量产品的满意度属性。但当我认为基于我的新产品客户满意度测量和显示给我的老板,他告诉我,我忽略了显而易见的,我的措施是一文不值。我认为他只是疯了因为我们的畅销产品以来最严重的满意度最抱怨。你能帮我让他认识到错误?”
(a)是正确的,营销总监还是老板?如果你回答说,他的老板,你会怎么做来修复满意度的测量?答:老板是对的。给出一个更好的衡量满意度(产品)=投诉的产品数量/销售产品的总数。(b)你会说些什么关于原始属性类型的产品满意度属性?
答:没有什么是原始测量的属性类型。例如,两个产品相同的客户满意度水平可能有不同数量的投诉,反之亦然。
4。(一)营销总监的麻烦?将他的方法生成工作吗产品的排名顺序变化的客户偏好?解释。
是的,营销总监是遇到了麻烦。客户可能不一致排名。例如,客户可能更喜欢1-2、2-3,但3比1。
(b)营销总监是否有办法解决的方法吗?更为普遍的是,你会说些什么试图创建一个顺序测量尺度呢基于两两比较?
答:一个解决办法:三个项目,只做前两个比较。一个更一般的解决方案:把选择客户的订购产品,但仍只允许两两比较。一般来说,创建一个基于两两比较的顺序测量尺度困难,因为可能不一致。
(c)的原始产品评估方案,整体排名产品差异是发现通过计算其平均超过所有测试对象。评论你是否认为这是一种合理的方法。其他方法可能你吃什么?
答:首先,问题的规模可能不是一个区间或比例规模。尽管如此,出于实用目的,平均可能是好的足够了。更重要的问题是,一些极端的评级可能导致一个误导性的总评。因此,或中位数修剪指(见第三章)可能是一个更好的选择。
5。你能想到的情况识别号码是有用的预测吗?
答:例如:学生id是一个很好的预测毕业日期。
6.(a)你将如何把这些数据转换成一种适合协会分析?
nvnu
答:关联规则分析与二进制属性,所以你必须把原始数据转换成二进制形式如下:
(b),你会什么类型的属性,有多少人?
400年不对称二进制属性。
7.下列哪个数量可能会显示更多的时间自相关:每日降雨量或日常温度?为什么?
空间自相关特性显示如果位置更接近彼此更相似的对该特性的值比远的位置。更常见的身体亲密的位置也有类似的温度比类似的大量降雨因为降雨非常本地化;,即突然,降雨的数量可以改变从一个位置到另一个地方。因此,每日温度显示更多的空间自相关然后每天的降雨量。
8.讨论为什么document-term矩阵是一个数据集的一个例子非对称离散或不对称连续特性。document-term ijth条目的矩阵的次数j发生在我文档。大多数文档包含只有一小部分所有可能的条件,因此,零条目并不是很有意义的在描述或比较文档。因此,document-term矩阵非对称离散特性。如果我们应用TFIDF正常化的条件和规范化的文档有一个L2范数为1,然后这将创建一个文档矩阵的连续特性。然而,特性仍然不对称,因为这些转换不创建非零项以前的任何条目0,因此,仍不是很零条目有意义的。
9.许多科学依靠观察代替(或补充)设计实验。比较科学观测的数据质量问题与实验科学和数据挖掘。
观察科学无法完全控制的问题他们获得的数据的质量。例如,直到地球轨道卫星成为可用的,测量海
洋表面温度依赖测量船舶。同样,通常天气测量从站位于城镇或城市。因此,它是必要的工作与数据的可用性,而不是来自一个精心设计的实验的数据。在这个意义上,观测科学数据分析与数据挖掘。
10.讨论了测量的精度和术语之间的区别单引号和双精度,因为它们被用于计算机科学,一般代表需要32和64位的浮点数,
浮点数的精度是最高的精度。更多的贵族统治,精度通常是表示有效数字的数量用于表示一个值。因此,单精度数只能代表值高达32位,≈9精度的小数位数。然而,通常精度值代表使用32位(64位)是远低于32位(64位)。
11。提供至少两个优点使用文本文件中存储的数据在一个二进制格式。
(1)文本文件可以很容易地检查输入文件或查看它文本编辑器。
(2)文本文件比二进制文件更便携,跨系统和项目。
(3)文本文件可以更容易地修改,例如,使用一个文本编辑器或perl。
12。区分噪声和离值。一定要考虑以下的问题。
(a)噪声曾经有趣的或可取的吗?离值吗?不,根据定义。是的。(参见第十章)。
(b)噪声对象可以例外吗?是的。随机数据的失真通常负责离值。
(c)是噪声对象总是异常值吗?不。随机变形会导致一个对象或值一样正常的一个。
(d)异常值总是噪声对象?不。通常离值仅仅代表一个类的对象是不同的从正常的对象。
(e)噪音可以典型值为一个不寻常的人,反之亦然?是的。
13.考虑的问题到一个数据对象的K最近的邻居。一个程序员设计算法2.2这一任务。
(a)描述该算法如果有重复的潜在问题数据集对象。只会假设的距离函数返回的距离为0的对象都是相同的。GUIPU1
有几个问题。首先,复制对象的顺序最近的邻居列表将取决于算法和细节顺序数据集对象。第二,如果有足够的副本,最近的邻居列表只可能由重复。第三,一个对象可能不是自己的最近邻。
暗香面具
(b)你将如何解决这个问题?
有各种各样的方法根据情况。一种方法是继续为每组重复的对象只有一个对象。在这种情况下,每个邻居都可以代表一个对象或一组重复的对象。
14。以下属性的测量一亚洲的大象:体重、身高、象牙长度、躯干长度,和耳朵区域。根据这些测量,什么样的相似性度量从2.4节你会使用比较这些大象或一组?证明你的答案和解释任何特殊情况。
这些属性都是数值,但可以有广泛不同范围的值,取决于使用的规模来衡量他们。此外,属性不是不对称和属性的大小事务。后面这两个事实消除余弦和相关措施。欧几里得距离,应用标准化后的属性的意思是0和1的标准偏差,将是合适的。
15。你给出一组米对象分为K组,mi i组的大小。如果目标是获得的样本大小n<m,以下两个抽样方案的区别是什么?(假设放回抽样。)
(a)我们随机选择从每组n∗mi/m元素。
(b)从数据集,我们随机选择n个元素不考虑对象所属的组。
第一个方案是保证从每组获得相同数量的对象,而对于第二个方案,从每组对象的数量将有所不同。更具体地说,第二个方案只有永发,平均而言,对象的数量从每个组将n∗mi/m。
16.考虑一个document-term矩阵,tfij第i个词的频率(术语)jt档和m文件的数量。考虑定义的变量变换特遣部队ij=tfij∗日志发展类金融机构(2.1)
dfi哪里第i个词出现的文档的数量,是吗被称为一词的文档频率。这个转换被称为逆文档频率转换。
(a)什么是这种转变的影响如果一个词出现在一个文档吗?在每一个文件吗?
条款,发生在每个文档0重量,而那些发生在一个文档最大重量,即。,logm。
(b)可能是这种转变的目的是什么?
这种标准化反映了观察,条款,发生在每个文档没有任何权力来区分从另一个文档,而那些相对少见。
17。假设我们应用一个平方根变换率属性x x∗来获得新的属性。作为你的分析的一部分,你确定一个时间间隔(a,b)x∗有一个线性关系到另一个属性。
(a)什么是相应的时间间隔(a,b)的x?
(a2,b2)
(b)给一个x与y的方程。
在这个区间,y=x2。
18.这个练习比较和对比一些相似性和距离的措施。
幻紫斑蝶(a)二进制数据,L1距离对应于汉明距离;也就是说,碎片的数量是不同的两个二进制向量。Jaccard相似度是衡量两个二进制向量之间的相似度。之间的汉明距离和Jaccard相似性计算以下两个二进制向量。
x=010*******
y=010*******
汉明距离=不同的数量=3Jaccard相似=1:1匹配数/(数量的比特数0-0的比赛)=2/5=0.4 (b)的方法,Jaccard或汉明距离,更相似简单的匹配系数,哪种方法更相似余弦度量?解释。(注意:汉明距离,而其他三个措施是相似之处,但不要让这种混淆你。)
SMC的汉明距离是相似的。事实上,SMC=汉明距离/位的数量。Jaccard措施类似于余弦度量因为忽略0-0的比赛。
(c)假设你是比较相似的两种不同的生物物种的基因的数量。描述这措施,汉明或Jaccard,你认为可能更合适比较两种生物的基因组成。解释。(假设每个动物都被表示为一个二进制向量,其中每个属性1如果一个特定的基因存在于生物体中,0。)
Jaccard更适合比较两个的基因组成生物,因为我们希望看到有多少这两个物种的基因份额。
(d)如果你想比较两种生物的基因组成相同的物种,例如两个人类,你使用的汉明距离,Jaccard 系数,或不同程度的相似性或距离吗?解释。(注意两个人类共享>相同基因的99.9%。)
两个人类共享>99.9%相同的基因。如果我们想要比较两个人类的基因组成,我们应该关注他们之间的分歧。因此,汉明距离在这种情况下更合适。
19。下列向量,x和y,计算表明相似或距离措施。
(a)x=(1,1,1,1),y=(2,2,2,2)cosine,correlation,Euclidean
cos(x,y)=1,corr(x,y)=0/0(undefined),Euclidean(x,y)=2
(b)x=(0,1,0,1),y=(1,0,1,0)cosine,correlation,Euclidean,Jaccard cos(x,y)=0,corr(x,y)=−1,Euclidean(x,y)=2,Jaccard(x,y)=0
(c)x=(0,−1,0,1),y=(1,0,−1,0)cosine,correlation,Euclidean
cos(x,y)=0,corr(x,y)=0,Euclidean(x,y)=2
农业生产资料市场监督管理办法
(d)x=(1,1,0,1,0,1),y=(1,1,1,0,0,1)cosine,correlation,Jaccard cos(x,y)=0.75,corr(x,y)=0.25,Jaccard(x,y)=0.6
(e)x=(2,−1,0,2,0,−3),y=(−1,1,−1,0,0,−1)cosine,correlation
cos(x,y)=0,corr(x,y)=0
20。在这里,我们进一步探索余弦和相关措施。
(a)什么是值的范围余弦度量吗?
(−1,1)。很多次的数据只有积极的条目,在这种情况下,范围是[0,1]。
(b)如果两个物体有一个余弦度量的,他们是相同的吗?解释。
不一定。我们知道的是,它们的属性的值相差一个常数因子。
(c)的余弦度量相关性是什么关系,如果有的话?(提示:看看统计平均值和标准偏差等措施的情况下余弦和相关性是相同的和不同)。
两个向量,x和y,平均0。柯尔(x,y)=cos(x,y)。
(d)的关系图2.1(一个)显示欧几里得距离的余弦度量100000随机生成的点被规范化的L2长度为1。一般观察你能什么欧几里得距离之间的关系和余弦相似度向量的L2范数1?
曲线上的所有100000点下跌以来,欧几里得距离之间的函数关系和余弦相似度归一化数据。更具体地说,有一个反余弦相似性和欧几里得距离之间的关系。例如,如果两个数据点是相同的,他们的余弦相似度是和欧氏距离为零,但如果两个数据点具有较高的欧几里得距离,他们的余弦值接近于零。注意所有的示例数据点积极的象限,即。只有积极的价值观。这意味着所有余弦和关联值将是积极的。

本文发布于:2024-09-22 21:23:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68511.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   距离   数量
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议