数据仓库习题答案

第一章
1.为什么不能依靠传统的业务处理系统进行决策分析? (P1-3)
2.在将数据源中的数据加载到数据仓库之前需要完成那些工作?为什么要进行这些工作?(数据准备P13-14 另外加“抽取” )
3.(选做)如果创建一个数据仓库,主要是分析关于客户的人口统计(收入、家庭人口、家庭位置、爱好等)。数据仓库的目的在于将特定的产品推销给合适的潜在客户。这个数据仓库应该从哪些地方获取数据源,数据仓库的体系结构应该包含哪些部分。(P12, 8)
4.从数据挖掘与数据库、统计学、机器学习的关系来讨论什么是数据挖掘?
5.在数据挖掘过程中需要涉及到哪些过程?(P31-35)
1苒苒草). 确定挖掘对象
  清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.
2数据准备
1) 数据的选择选择出适用于数据挖掘应用的数据.
2) 数据的预处理研究数据的质量, 并确定将要进行的挖掘操作的类型.
3) 模型构建:建立一个分析模型.这个分析模型是针对挖掘算法建立的
(4)数据挖掘对所得到的经过转换的数据进行挖掘.
(5)结果分析解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.   
(6)知识的应用:将分析所得到的知识集成到业务信息系统的组织结构中去,重型工程洗轮机使其在实际的管理决策分析中得到应用
6.在现实中有哪些人需要使用数据挖掘技术来帮助他的工作? (P35)
第二章
名词解释;
  :关于一个组织想要记录的透视或实体。
  维表 :对维各个属性的描述。
  事实 :数值的度量。
事实表: 包括事实的名称或度量,以及每个相关维表的关键字。
  元数据: 数据的数据,可以对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下关系,使每个数据具有符合现实的真实含义,使用户可以了解这些数据之间的关系.
  粒度 :数据仓库中数据单元的详细程度和级别.
星型模型 : 最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统,为用户提供分析服务对象。核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。 
 雪花模型: 对星型模型的冗余的维度表进一步分解,对星型模型中的维度表进行了规范化处理。
低通滤波器设计
问答:
1.简述olap oltp的区别;
    Olap:在线分析处理;oltp:联机事务处理。
   
2.在一般的信息管理中采用哪些概念模型来描述信息处理的对象,这些概念数据模型是否适合数据仓库的开发环境?
略答:一般的业务处理系统中广泛采用实体-关系模型(ERD)来描述信息处理的对象,但 它无法表述数据仓库中所需要的分析数据、描述数据和细节数据之间的关系,无法反映出时间属性的存在和作用,更无法表现出数据的导出关系,因要对其进行修改,得到星型模型或雪花模型。
(CRUD矩阵在数据仓库的高层模型中反应实体的生成、引用、更新和删除不属于概念模型的范畴)
3.航空公司希望能够分析在其服务旅客中的常客旅行趋势,这样可以为公司正确定位航空市场中的常客市场。并且希望能够跟踪不同航线上旅客的季节变化情况和增长,并跟踪在不同航班上所消费的食品和饮料情况,这样可以帮助航空公司安排不同航线上的航班和食品供应。现在所面对的任务是为其设计一个数据仓库的概念模型、逻辑模型和物理数据模型。
事实表:
消费事实表(旅客编号ID int12,航班编号ID int12,食物编号ID int12,饮料编号ID int12,季节ID int12,乘坐次数int12,旅客类型char 2,食物消费数量int 4,食品消费金额 float 8,初次乘坐时间datatime 8)
维表:
(1)旅客基本情况表 (编号 int12, 姓名 char12, 证件类型 chat12 , 证件号 char18,  职业  char12, 收入 smallmoney 4, 乘坐季节 datatime 8)
(2)旅客变动情况表(编号 int12,省char20,市char20,县char20,街道char20 ,邮编 int 6, varchar 50)
(3)食品消费情况表 (食品编号 int12, 名称 char12,  类别 char 2, 数量 int 4)
(4)饮料消费情况表 饮料编号 int12, 名称 char12,  类别 char 2, 数量 int 4)
(5)航班情况表 (航班号 char12, 航线号 char12, 飞行里程 int4, 始发站 char10, 目的地 char 10,  时间 datatime 8)
4.为建立第3题中的数据仓库,需要哪些元数据?这些元数据在不同的阶段应该发挥什么作用?
略答:元数据:旅客基本信息,初次乘坐时间,食品消费情况,航班情况等
            初次乘坐时记录其编号,便于以后查询和修改
            每次乘坐时记录航班状况和食品消费状况
作用:p56-58
      第三章
1.为什么说数据仓库的开发是一个不断循环、逐步提升的开发过程? (P67)
2.数据仓库的生命周期应该包含哪几个阶段?需要完成哪些工作?(P65)
数据仓库的生命周期开发过程:(要求展开)
规划分析阶段:规划与确定需求、开发概念模型、开发逻辑模型;
设计实施阶段:设计体系结构、数据库与元数据设计、数据抽取转换与加载、开发中间件、填充与测试数据仓库;
使用维护阶段:数据仓库应用、数据仓库维护、数据仓库评价。
数据仓库的生命周期开发特点:
(1)数据仓库开发是从数据出发的;
(2)数据仓库使用的需求不能在开发初期明确;
(3)数据仓库的开发是一个不断循环的启发式过程。
3.在数据仓库的需求分析中需要对哪些人员进行需求调查,应该调查哪些内容?(P73)
4.请为购买商品趋势分析设计一个数据仓库的星型模型,并给出维表的层次结构。(P78图3.4,维表层次P75 表3-1 )
5.在数据仓库的开发过程中需要对哪些模型进行评审,不同模型的评审内容有哪些?(概念模型 P80,逻辑模型 P90,物理模型 P95)
第四章
名词解释:
维 (p106):决策分析的角度或出发点
多维数据集(p107):数据立方体或超立方体。
上卷(p110)从较低层次的数据开始沿某一个维的概念分层向上归约 ,得到概括性的数据
下钻(p110)从较高层次的数据开始沿某一个维的概念分层向下或引入新的维来实现,得到细节数据;
多维的切片(p109)在某两个维上取一定区间的维成员或全部维成员,而其余的维上选定一个维成员的操作。
多维的切块(p110): 在切片的基础上,进一步确定各个维成员的区间得到的片段体,即由多个切片叠合起来的。
旋转(p110): 对多维数据集改变其显示得维方向,得到不同视角的数据
多维OLAP(MOLAP) (p114)基于多维数据库存储方式建立起来的OLAP
关系OLAP(ROLAP) (p118)基于关系数据库存储方式建立起来的OLAP
移动终端安全问答:
1.什么是OLAP?OLAP是一种技术?还是一种数据库?(p105)
在线分析处理或联机分析处理 ,是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求,快速、灵活地对大量数据进行复杂的查询处理,并以直观的、容易理解的形式将查询结构提供给决策人员。
2.OLAP的系统结构是怎样的?这种结构在进行在线分析时有什么特点?(p113-114)
OLAP的系统结构分为瘦客户端系统和胖客户端系统。
胖客户端系统:将多维数据存储于客户端和OLAP服务器,这种系统由于客户在进行在线分析处理时,需要将数据加载到客户端,容易产生网络瓶颈。
瘦客户端系统:多维数据集不存储在客户端,存在OLAP服务器中,这在网络中所需传输的只是分析处理后的结果,而不是多维数据集。活动防盗窗
3.MOLAP和ROLAP在OLAP的数据存储中各有什么特点?在什么情况下,选择MOLAP?在什么情况下,选择ROLAP?
(p122-123 MOLAP:将数据和聚合都存储于多维数据结构中。
ROLAP:将数据和聚合都存储于关系数据结构中;KDYTT
如果需要建立一个大型的,功能复杂的企业级数据仓库可选择ROLAP,如果建立一个目标单一维数不是很多的数据集市,MOLAP是一个较好的选择。)

本文发布于:2024-09-23 03:20:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/243431.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   数据仓库   分析
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议