首页 > 学术百科

数据挖掘——精选推荐

注：

试题有填空、计算、简答

填空答案不知道在哪里

计算答案一个在课本（《数据仓库与数据挖掘》）P95一个在P112

红部分是简答答案

一：名词解释

数据仓库是一个支持管理决策过程的，面向主题的，集成的，相对稳定的，反映历史变化的数据集合。

数据挖掘是从大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。

OLAP（联机分析处理）是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互的存取，进而获得对数据深入了解的一种软件技术。其目标是满足在多维数据环境下的特定查询与报表需求，以及辅助决策支持的需求。

ODS（操作数据存储）是一种DW的混合形式，它包含面向主题的、及时的、最近的和集成的信息。用

于支持企业日常的全局应用和决策制定，其中的数据可以作为DW的通用数据源

BI（商业智能），分析和挖掘数据结构化的、特定领域的、经常是存储在信息仓库内信息的过程，用来帮助企业利用数据提高决策质量的技术集合

。

二．简答题

试述数据仓库系统与数据库系统的区别与相似之处。

区别：

传统的数据环境以数据库为中心，数据资源组织方式单一，存储的主要是在线交易数据；数据仓库环境以数据仓库数据库为核心，数据资源组织是面向主题的，存储的主要是历史数据。

传统的数据处理以事物处理为主，数据的存取操作频率高，而每次操作处理的时间短；数据仓库以分析处理为主，数据的存取操作量大，而一个分析处理程序可能要连续运行几个小时，从而消耗大量系统资源。

数据库是面向事务的设计，数据仓库是面向主题设计的。

数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。

相似之处：

二者都是对存储于数据库的数据进行加工的软件系统，都为数据挖掘提供了源数据。

试述数据仓库设计的步骤以及每一步所完成的工作。

概念模型：(1) 界定系统的边界(2) 确定主要的主题域

技术准备：(1) 技术评估（2）技术环境准备

逻辑模型：(1) 分析主题域，确定当前装载的主题

(2)确定粒度层次划分(3)确定数据分割策略

(4) 关系模式定义(5) 记录系统定义

安桥606

物理模型：(1)确定数据存储结构(2)确定索引策略

(3)确定数据存放位置(4)确定存储分配

pgl3

DW生成

运行维护建立DSS；要不断理解需求，改造和完善系统，维护DW

OLAP与OLTP的区别有哪些？它们适合于运行在同一个服务器上吗？为什么？

在数据挖掘前，为什么要对数据进行预处理，数据预处理的有哪些主要的处理方法？

答：(1)在现实社会中，存在着大量的“脏”数据，例如：不完整的数据、不一致的数据等

(2) 数据挖掘的数据源可能是多个互相独立的数据源，数据源可能是关系数据库、多维数据库甚至文档数据库

(3)为了数据挖掘的方便(4)便于海量数据的处理

(5)没有高质量的数据，就没有高质量的挖掘结果:①高质量的决策必须基于高质量的数据基础上②数据仓库是在高质量数据上的集成

处理方法：

数据清理(2)数据集成(3)数据归约和特征选取(4)数据的离散化

在现实世界的数据中，元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。壬辰变法

答：1）忽略元组2）人工填写空缺值3）使用一个全局常量填充空缺值

4）使用属性的平均值填充空缺值5）使用与给定元组属同一类的所有样本的平均值6）使用最可能的值填充空缺值。其中，

方法3

到6使数据倾斜，填入的值可能不正确。不过，方法6是最常用的方法

6.对于类特征化，基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么？讨

论哪种方法最有效，在什么条件下最有效。

答：数据立方体方法是基于数据仓库的，面向预计算的，物化视图的方法。它在OLAP或数据挖掘查询提交处理之前，脱机计算聚集。面向属

性归纳是面向关系数据库查询的，基于概化的，联机的数据分析处理技术。

面向属性归纳方法更有效，因为在面向属性归纳之前进行数据聚焦，根据数据挖掘提供的信息进行数据收集，选择相关的数据集不仅使数据挖

掘更有效，而且与整个数据库挖掘相比，能产生更有意义的规则。

数据仓库和数据集市的区别是什么？数据仓库的体系环境具有什么特点？有哪些建立数据仓库体系化环境的方法？它们各有何优劣？P18

数据仓库的环境是面向主题的，集成的，带有时间维的，稳定的。

两层架构

独立型数据集市

依赖型数据集市和操作型数据集市

逻辑型数据集市和实时数据仓库

8. 为了提高数据仓库的性能，可以在哪些方面作一些努力？在各个方面分别采用什么样的技术？这些技术易于实现吗？

提高性能：复杂的OLAP查询、多维视图、合并、更新驱动

残疾人教育条例9. 数据仓库中的数据是数据库中数据的简单堆积吗？它有哪些常用的数据组织方式？

数据仓库中的数据不是传统数据库中数据的简单堆积，而是通过多种主要方式来组织，其数据的组织必须方便基于数据仓库基础之上的数

据挖

掘和商业智能工作，为决策者提供访问、分析及共享信息的能力，从而发挥数据仓库的真正功效.

数据组织方式：简单堆积文件，转轮综合文件，简单直接文件，连续文件

10. 一般来说，数据仓库采用什么样的数据模型？与OLTP的数据库模型相比，这些模型有什么特点？

企业级数据仓库模型和多维模型（主要有星型、雪花型、事实星座模式）

(1)数据仓库的数据模型的数据是历史的、聚集的,、多维的集成的,、统一的，不包含纯操作型的数据。(2) 数据仓库的数据模型扩充

了码

结构，增加了时间属性作为码的一部分。(3) 数据仓库的数据模型中增加了一些导出数据。

11.数据仓库的设计包括哪些内容？

收集、分析和确认业务分析需求（2）分析和理解主题和元数据、事实（3）量度、粒度和维度的选择与设计（4）数据仓库的物理存储方

式的波士顿矩阵法

设

计等

12.在内容和使用者方面，数据仓库环境中的元数据与操作型环境中的元数据有何异同？P29

都描述了数据的结构、内容、链和索引等内容，数据仓库中，元数据定义了数据仓库中的对象，数据会存放一段时间，操作型环境中的元数据是对数据库中各个对象的描述

数据仓库的元数据服务于DSS专业人员，而不仅仅是IT人员

13.请解释OLAP中维、维层次与维成员的概念，并举例说明。

维（Dimension）：是人们观察数据的特定角度，是考虑问题时的一类属性，属性集合构成一个维（时间维、地理维等）。

维的层次（Level）：人们观察数据的某个特定角度（即某个维）还可以存在细节程度不同的各个描述方面（时间维：日期、月份、季度、年）。

维的成员（Member）：维的一个取值，是数据项在某维中位置的描述。（“某年某月某日”是在时间维上位置的描述）。

14.OLAP提供哪些基本操作？（P5）

钻取（上卷、下钻、交叉钻取，钻透），改变维的层次，变换分析的粒度。

切片和切块，是在一部分维上选定值后，关心度量值在剩余维上的分布，如果剩余维只有两个，则是切片；如果有三个或以上，则是切块。转轴（旋转），在表格中重新安排维的位置。

15.OLAP服务器有哪些实现方法？它们的优劣是什么？（P12）

ROLAP基本数据和集合数据均存放在RDBMS之中

MOLAP基本数据和集合数据均存放于多维数据集中

HOLAP是ROLAP与MOLAP的综合，基本数据存放于RDBMS之中，聚合数据存放于多维数据集中

ROLAP查询效率最低，MOLAP以空间换效率，查询时效率高，但生成立方块时需要大量的空间和时间，HOLAP具有更大的灵活性，聚合时需要比ROLAP更多的时间，查询效率比ROALP效率高，但低于MOALP。

16.为什么不能依靠传统的业务处理系统进行决策分析？

所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性，并不太关心数据查询的方便与快捷。

业务数据往往被存放于分散的异构环境中，不易统一查询访问，而且还有大量的历史数据处于脱机状态，形同虚设。

业务数据的数据库模式针对事务处理系统而设计，数据的格式和描述方式并不适合非计算机专业人员人员进行业务上的分析和统计。

17.自然演化体系结构中存在的问题？

数据缺乏可信性

生产效率低下

难以将数据转换为信息

蜘蛛网问题

忙碌的IT人员

18.试述建立多维数据库的过程。19数据挖掘的主要方法。

统计学方法，包括回归分析（线性回归）、判别分析（贝叶斯判别）、聚类分析，探索性分析等

机器学习方法，包括分类学习方法（决策树），遗传算法，粗糙集等

神经网络方法，包括BP算法、自组织神经网络等

数据库方法，多维数据分析或OLAP方法

20.数据挖掘中的数据分类是个两步的过程，简述每步过程。

答：第一步，在已知训练数据集上，根据属性特征，为每一种类别到一个合理的描述或模型，即分类规则。第二步，使用模型，对将来的

或未知的对象进行分类即根据规则对新数据进行分类

21.试述商业智能系统的演化过程

第一代：基于主机的查询与报表

第二代：数据仓库

第三代：商业智能

三．综合题

第一类：给定一个表的结构及数据，计算每个决策属性的信息增益（请同学们掌握该方法，不同的试题中给定的表结构及数据是不同的）P111- 116决策树

例一：假设有如下的“雇员基本信息”表的结构及数据，其中属性“工资”为类别标识属性，属性“部门”、“职位”、“年龄”作为决策属性集，请计算每个决策属性“部门”、“职位”、“年龄”的信息增益。（另外请同学们自己复习课上所讲的例子）

通过图可以看出其中属性“年龄”与“工资”已经离散化，属性“工资”列中还给出了相应元组的类别归属

根据类别属性的取值，分为三类（即m=3），分别是C1，C2，C3。样本数据集S中，共有11个元组，其中C1，C2，C3类所对应的子集R1，

R2，R3中元组的个数分别为r1=2，r2=5，r3=4。为了计算每一个决策属性的信息增益，首先利用公式I（r1，r2，…，rm）= -Σpilog2（pi ）

（i=1，2，…m）(pi为概率=属于类别C的样本数量/总数，p1=2/11,p2=5/11,p3=4/11)

计算得到集合S关于分类的期望信息量：I（r1，r2，r3）=I（2，5，4）=-2/11log2（2/11）-5/11log2（5/11）-4/11log2（4/11）=1.495。对每一个决策属性计算其期望信息量（即熵值）。

对属性“部门”有样本子集s(s1销售部，样本数量为3，s11：销售部属于类别C1的数量，p11=0/3，同理，s22：系统部属于类别C2的数量) 当部门=“销售部”时，s11=0，s21=1，s31=2，I（s11，s21，s31）=0.918

当部门=“系统部”时，s12=2，s22=2，s32=0，I（s12，s22，s32）=1

当部门=“市场部”时，s13=0，s23=2，s33=0，I（s13，s23，s33）=0

当部门=“秘书处”时，s14=0，s24=1，s34=2，I（s14，s24，s34）=0

由此得出属性“部门”的熵值：

E（部门）=3/11I（s11，s21，s31）+4/11I（s21，s22，s32）+2/11I（s13，s23，s33）+2/11I（s14，s24，s34）=0.614

因此，属性“部门”的信息增益为：

Gain（部门）=I（r1，r2，r3）-E（部门）=0.881

同理，可以分别得到属性“职称级别”及“年龄”的信息增益：

Gain（职称级别）=0.243

Gain（年龄）=0.326

第二类：利用Apriori算法寻事务集中的频繁项集，并由到的频繁项集产生强关联规则。（请同学们掌握该方法，不同的试题中给定的事

务集是不同的）例一：假设现有如下表所示的一个事务数据库，数据库中有10个事务，即|D|=10。假

定最小支持度minsup=20%，最小置

信度minsup=65%，利用Apriori算法寻D中的频繁项集，并由到的频繁项集产生强关联规则。（另外请同学们自己复习课上所讲的例子）

候选1-项集的集合C1：项集（{1}，{2}，{3}，{4}，{5}）支持度计数为（6，8，5，4，3）

比较候选支持度与最小支持度20%得出频繁1-项集L1：项集（{1}，{2}，{3}，{4}，{5}）支持度计数（6，8，5，4，3）

由L1产生候选C2（{1，2}，{1,3}，{1,4}，{1，5}，{2，3}，{2,4}，{2,5}，{3，4}，{3，5}，{4，5}）扫描D对每个候选计数，候选2-项集的集合C2为：项集（{1，2}，{1,3}，{1,4}，{1，5}，{2，3}，{2,4}，{2,5}，{3，4}，{3，5}，{4，5}）支持度计数为（5,，3，1，2，3，3，3，2，1，0）比较候选支持度与最小支持度20%得出L2：项集（{1，2}，{1,3}，{1，5}，{2，3}，{2，4}，{2,5}，{3，4}）

由L2产生候选C3（{1,2,3}，{1,2,4}，{1,2,5}，{1,3,4}，{1,3,5}，{1,4,5}，{2,3,4}，{2,3,5}，{2,4,5}，{3,4,5}）

因为项集{1,2,4}、{1,3,4}、{1,4,5}中的子集{1,4}不包含在L2中，故删除，项集{1,3,5}、{2,3,5}、{3,4,5}中的子集{3,5}不包含在L2中，故删除，{2,4,5}中的子集{4,5}不包含在L2中，故删除，所以候选C3为（{1,2,3}，{1,2,5}，{2,3,4}），支持度计数（2,2,1）

所以L3：项集（{1,2,3}，{1,2,5}

（关联规则P90-92）由L3产生的规则：

规则R1：{1,2,3}=>{1,2,5}，support（R1）=，confidence（R1）=

规则R2：{1,2,5}=>{1,2,3}，support（R2）=，confidence（R2）=

与minsup和minconf比较，》=则为强关联规则，否则为弱。L3无强规则由L2产生规则继续求解，省略几万字……

第三类：利用简单贝叶斯分类对数据进行分类（请同学们掌握该方法，不同的试题中给定的表结构及数据是不同的）

例一：假设有如下的“雇员基本信息”表的结构及数据，其中属性“工资”为类别标识属性，类别标识有3个取值（C1、C2、C3），属性“部

长安街车祸门”、“职位”、“年龄”作为决策属性集，请利用贝叶斯简单分类方法对未知数据：

X=（部门=‘系统部’，职位=‘高级’年龄=‘21…30’）进行分类。（另外请同学们自己复习课上所讲的例子）

P(c1)=2/11 P(c2)=5/11 P(c3)=4/11

本文发布于:2024-09-21 15:43:50，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/12577.html

上一篇：解密数据治理之道！从“业务驱动”转向“战略驱动”【值得关注】

下一篇：数据科学简化讲解：原理和过程

标签：数据数据仓库属性方法分析

留言与评论（共有 0 条评论）