参考答案of数据挖掘

第一章
下列属于数据挖掘任务的是(    )
根据性别划分公司的顾客
计算公司的总销售额
预测一对骰子的结果
利用历史记录预测公司的未来股价
可以在不同维度合并数据,从而形成数据立方体的是(    )
数据库
数据源
数据仓库
数据库系统
目的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果的是(    )
数据清洗
数据集成
数据变换
数据归约
下述四种方法哪一种不是常见的分类方法(    )
决策树
支持向量
K-Means(聚类)
\
朴素贝叶斯分类
dm365下列任务中,属于数据挖掘技术在商务智能方面应用的是(    )
欺诈检测
垃圾邮件识别
根据因特网的搜索引擎查特定的Web页面
定向营销
异常检测的应用包括(    )
网络攻击
预测某股票的未来价格
计算公司的总销售额
)
根据性别划分公司顾客
将原始数据进行集成、变换、维度规约、数值规约是哪个步骤的任务(    )
常量元素频繁模式挖掘
分类和预测
数据预处理
院星航
数据流挖掘
KDD是(  数据挖掘与知识发现  )
下列有关离点的分析错误的是(    )
一般情况下离点会被当作噪声而丢弃
离点即是噪声数据
在某些特殊应用中离点有特殊的意义
信用卡在不常消费地区突然消费大量金额的现象属于离点分析范畴
下列关于模式识别的相关说法中错误的是(    )
模式识别的本质是抽象出不同事物中的模式并由此对事物进行分类
医疗诊断属于模式识别的研究内容之一
手机的指纹解锁技术不属于模式识别的应用
自然语言理解也包含模式识别问题
 (  )不属于数据挖掘的应用领域。
商务智能
信息识别
搜索引擎
医疗诊断
目前数据分析和数据挖掘面临的挑战性问题不包括(  )
数据类型的多样化
高维度数据
离点数据
分析与挖掘结果可视化
常见的机器学习方法有监督学习、无监督学习、半监督学习
数据挖掘是从大规模的数据中抽取或挖掘出感兴趣的知识或模式的过程或方法。
频繁模式是指数据集中频繁出现的模式
&
离点是指全局或者局部范围内偏离一般水平的观测对象
联机分析处理是数据仓库的主要应用
分类是指通过建立模型预测离散标签,回归是通过建立连续值模型推断新的数据的某个数值型属性
数据库是面向事务,数据仓库是面向主题
数据挖掘主要侧重解决的四类问题:分类、聚类、关联、预测
数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结。
特征化是一个目标类数据的一般特性或特性的汇总。
无监督学习可以在没有标记的数据集上进行学习。
陈吉龙是怎么回事聚类就是把一些对象划分为多个组或者聚簇,从而使同组内对象间比较相似而不同组对象
间差异较大。
事务数据库的每个记录代表一个事务。
}
数据仓库和数据库其实是相同的,都是数据或信息的存储系统。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
离点因偏离一般水平而不需要考虑和研究。
聚类过程的输入对象有与之关联的目标信息。拉瓦锡之死
数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
数据仓库一般存储在线交易数据,数据库存储的一般是历史数据。
数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,并提取出有用的信息的过程。
数据分析的定义:数据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
数据库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。(说的是数据仓库)
~
新疆医科大学学报
第二章
下面哪个不属于数据的属性类型(    )
标称
序数
区间
相异
属于定量的属性类型是(    )
标称
序数
区间
|
相异
一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是(    )
一年级
二年级
三年级
四年级
假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为(    )
~
考虑数据集{12 24 33 24 55 68 26},其四分位数极差是(    )
31
24
55
3
光年所属的属性类型为(    )
标称属性
序数属性
区间标度属性
>
比率标度属性
某班数学期末考成绩分组数据如下,则数据的中位数区间是(    )
60至69分
70至79分
80至89分
90至100分
军衔所属的属性类型为(    )
标称属性
序数属性
,
二元属性
数值属性
计算p1(2,1,4,10)和p2(3,0,3,8)两个对象之间的曼哈顿距离(    )
4
2
5
3
用AM 和PM 表示的时间的属性类型是(    )
标称
序数
'
二元
区间
属性可分为标称、序数、二元数值四类
中心趋势度量包括众数、均值、中位数中列数
假设给定的数据集的值已经分组为区间。区间和对应的频率如下。 则数据的近似分组中位数是____。
某部门的月薪情况如下(单位:千元),30,33,48,50,53,53,57,60,64,68,70,70,90,则该部门员工的月薪的均值为____。
数据集{5,10,11,13,15,15,35,50,55,72,92,204,215}的中位数为____,众数为____。35 15
假设小明某一学期的考试成绩及每门课的学分如下表所示,则小明本学期的加权平均成绩为。
给定两个对象的元组x=(4,3,5,1)与y=(1,6,7,3),它们之间的余弦相似度为____。
'
小明参加数学竞赛选拔赛,他十次测试成绩为:76,84,90,86,81,87,86,82,85,83。则小明
同学十次测试成绩的方差是____。
已知点A的空间坐标为(6,30,9),点B的空间坐标为(10,35,2),则A与B之间的切比雪夫距离为____。7
只有非零值才重要的二元属性被称作____。非对称二元属性

本文发布于:2024-09-23 17:13:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68584.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   属性   进行   分析   属于   数据挖掘   对象
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议