云计算和大数据简答题习题(含答案)

计算和⼤数据简答题习题(含答案)
1. ⼤数据现象是怎样形成的?
(1) 数据产⽣⽅式的改变
(2) ⼈类的活动越来越依赖数据
(3) 各⾏各业也越来越依赖⼤数据⼿段来开展⼯作
当数据量、数据的复杂程度、数据处理的任务要求等超出了传统数据存储与计算能⼒时,称之为“⼤数据(现象)”。
⼤数据(Big Data)⼜称为巨量资料,指需要新处理模式才能具有更强的决策⼒、洞察⼒和流程优化能⼒的海量、⾼增长率和多样化的信息资产。“⼤数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《⼤数据时代》中提出,指不⽤随机分析法(抽样调查)的捷径,⽽是采⽤所有数据进⾏分析处理。⼤数据有4V特点,即Volume(⼤量)、Velocity(⾼速)、Variety(多样)、Value(价值)。
2. 新摩尔定律的含义是什么
每18个⽉全球新增信息量是计算机有史以来全部信息量的总和。
3. 云计算有哪些特点
(1) 超⼤规模
  “云”具有相当的规模,Google云计算已经拥有100多万台服务器, Amazon、IBM、微软、Yahoo等的“云”均拥有⼏⼗万台服务器。企业私有云⼀般拥有数百上千台服务器。“云”能赋予⽤户前所未有的计算能⼒。
  云计算⽀持⽤户在任意位置、使⽤各种终端获取应⽤服务。所请求的资源来⾃“云”,⽽不是固定的有形的实体。应⽤在“云”中某处运⾏,但实际上⽤户⽆需了解、也不⽤担⼼应⽤运⾏的具体位置。只需要⼀台笔记本或者⼀个⼿机,就可以通过⽹络服务来实现我们需要的⼀切,甚⾄包括超级计算这样的任务。
(3) ⾼可靠性
  “云”使⽤了数据多副本容错、计算节点同构可互换等措施来保障服务的⾼可靠性,使⽤云计算⽐使⽤本地计算机可靠。
(4) 通⽤性
  云计算不针对特定的应⽤,在“云”的⽀撑下可以构造出千变万化的应⽤,同⼀个“云”可以同时⽀撑不同的应⽤运⾏。
(5) ⾼可扩展性
  “云”的规模可以动态伸缩,满⾜应⽤和⽤户规模增长的需要。
(6) 按需服务
  “云”是⼀个庞⼤的资源池,你按需购买;云可以像⾃来⽔,电,煤⽓那样计费。
(7) 极其廉价
  由于“云”的特殊容错措施可以采⽤极其廉价的节点来构成云,“云”的⾃动化集中式管理使⼤量企业⽆需负担⽇益⾼昂的数据中⼼管理成本,“云”的通⽤性使资源的利⽤率较之传统系统⼤幅提升,因此⽤户可以充分享受“云”的低成本优势,经常只要花费⼏百美元、⼏天时间就能完成以前需要数万美元、数⽉时间才能完成的任务。
  云计算可以彻底改变⼈们未来的⽣活,但同时也要重视环境问题,这样才能真正为⼈类进步做贡献,⽽不是简单的技术提升。
(8) 潜在的危险性
  云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断在私⼈机构(企业)⼿中,⽽他们仅仅能够提供商业信⽤。对于政府机构、商业机构(特别像银⾏这样持有敏感数据的商业机构)对于选择云计算服务应保持⾜够的警惕。⼀旦商业⽤户⼤规模使⽤私⼈机构提供的云计算服务,⽆论其技术优势有多强,都不可避免地让这些私⼈机构以“数据(信息)”的重要性挟制整个社会。对于信息社会⽽⾔,“信息”是⾄关重要的。另⼀⽅⾯,云计算中的数据对于数据所有者以外的其他⽤户云计算⽤户是保密的,但是对于提供云计算的商业机构⽽⾔确实毫⽆秘密可⾔。所有这些潜在的危险,是商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时,不得不考虑的⼀个重要的前提。
4. 云计算按照服务类型可以分为哪⼏类
三类:将基础设施作为服务(IasS)、将平台作为云服务(PaaS)、将软件作为服务(SaaS)
5. 云计算技术体系结构可以分为哪⼏层
云计算技术体系结构分为四层:物理资源层、资源池层、管理中间件层和SOA(service-oriented architecture,⾯向服务的体系结构)构建层
jasperreport
6. 简述Hadoop1.0与Hadoop2.0的优缺点,并⽐较⼆者区别与联系
1)从Hadoop整体框架来说
Hadoop1.0即第⼀代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中HDFS由⼀个NameNode和多个DateNode组成,MapReduce由⼀个JobTracker和多个TaskTracker组成。
Hadoop2.0即第⼆代Hadoop为克服Hadoop1.0中的不⾜:针对Hadoop1.0单NameNode制约HDFS的扩展性问题,提出
HDFSFederation,它让多个NameNode分管不同的⽬录进⽽实现访问隔离和横向扩展,同时彻底解决了NameNode单点故障问题;
针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持等⽅⾯的不⾜,它将JobTracker中的资源管理和作业控制分开,分别由ResourceManager(负责所有应⽤程序的资源分配)和ApplicationMaster(负责管理⼀个应⽤程序)实现,即引⼊了资源管理框架Yarn。同时Yarn作为Hadoop2.0中的资源管理系统,它是⼀个通⽤的资源管理模块,可为各类应⽤程序进⾏资源管理和调度,不仅限于MapReduce⼀种框架,也可以为其他框架使⽤,如Tez、Spark、Storm等
中国教育改革和发展纲要
2)从MapReduce计算框架来讲
MapReduce1.0计算框架主要由三部分组成:编程模型、数据处理引擎和运⾏时环境。它的基本编程模型是将问题抽象成Map和Reduce两个阶段,其中Map阶段将输⼊的数据解析成key/value,迭代调⽤map()函数处理后,再以key/value的形式输出到本地⽬录,Reduce阶段将key相同的value进⾏规约处理,并将最终结果写到HDFS上;它的数据处理引擎由MapTask和ReduceTask组成,分别负责Map阶段逻辑和Reduce阶段的逻辑处理;它的运⾏时环境由⼀个JobTracker和若⼲个TaskTracker两类服务组成,其中JobTracker负责资源管理和所有作业的控制,TaskTracker负责接收来⾃JobTracker的命令并执⾏它。
MapReducer2.0具有与MRv1相同的编程模型和数据处理引擎,唯⼀不同的是运⾏时环境。MRv2是在MRv1基础上经加⼯之后,运⾏于资源管理框架Yarn之上的计算框架MapReduce。它的运⾏时环境不再由JobTracker和TaskTracker等服务组成,⽽是变为通⽤资源管理系统Yarn和作业控制进程ApplicationMaster,其中Yarn负责资源管理的调度⽽ApplicationMaster负责作业的管理。
7. 简述解压包⽅式部署Hadoop的弊端
繁琐易错
8. 试着从架构上分析Hadoop的优缺点
山东省人口与计划生育条例修正案
⼀、HDFS缺点:
1. 不能做到低延迟:由于hadoop针对⾼数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟数据访问,不适合hadoop,对
于低延迟的访问需求,HBase是更好的选择,
2. 不适合⼤量的⼩⽂件存储:由于namenode将⽂件系统的元数据存储在内存中,因此该⽂件系统所能存储的⽂件总数受限于
namenode的内存容量,根据经验,每个⽂件、⽬录和数据块的存储信息⼤约占150字节。
3. 不适合多⽤户写⼊⽂件,修改⽂件:Hadoop2.0虽然⽀持⽂件的追加功能,但是还是不建议对HDFS上的 ⽂件进⾏修改,因为效率
低。
4. 对于上传到HDFS上的⽂件,不⽀持修改⽂件,HDFS适合⼀次写⼊,多次读取的场景。
5. HDFS不⽀持多⽤户同时执⾏写操作,即同⼀时间,只能有⼀个⽤户执⾏写操作。
黑斑息肉病
⼆、HDFS优点:
1. ⾼可靠性。Hadoop按位存储和处理数据的能⼒值得⼈们信赖。
2. ⾼扩展性。Hadoop是在可⽤的计算机集簇间分配数据并完成计算任务的,这些集簇可以⽅便地扩展到数以千计的节点中。
3. ⾼效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度⾮常快。
4. ⾼容错性。Hadoop能够⾃动保存数据的多个副本,并且能够⾃动将失败的任务重新分配。
5. 低成本。与⼀体机、商⽤数据仓库以及QlikView、Yonghong、Z-Suite等数据集市相⽐,hadoop是开源的,项⽬的软件成本因此会
⼤⼤降低。
6. Hadoop带有⽤Java语⾔编写的框架,因此运⾏在 Linux ⽣产平台上是⾮常理想的。Hadoop上的应⽤程序也可以使⽤其他语⾔编
写,⽐如 C++。
9. 虚拟化技术在云计算中的哪些地⽅发挥了关键作⽤
云计算中运⽤虚拟化技术主要体现在对数据中⼼的虚拟化,它有四个表现⽅式,分别是服务器虚拟化,存储虚拟化,⽹络虚拟化和桌⾯虚拟化。
10. ⽐较VMware、xen等虚拟化产品的关键技术,以及云计算技术提供的⽀持
Xen为了让内存可以被不同的虚拟机共享,它在虚拟内存(也称虚拟地址)到机器内存(也称物理地址)之间引⼊了⼀层中间地址,guest OS 看到的是这层中间地址,不是机器的实际地址,因此guest OS感觉⾃⼰的物理地址从0开始的、“连续”的地址。实际上,xen将这层中间地址真正地映射到机器地址上却可以是不连续的,这样保证了所有的物理内存可以任意分配给不同的guest OS。
VMware提供了云基础架构及管理、云应⽤平台和终端⽤户计算等多个层次上的解决⽅案,主要⽀持企业级组织机构利⽤服务器虚拟化技术,实现从⽬前的数据中⼼向云计算环境转变。
VMware的⽹络虚拟化技术主要通过VMware vsphere 中的vnetwork⽹络元素实现的,通过这些元素,部署在数据中⼼物理主机上的虚拟机可以像物理环境⼀样进⾏⽹络互连。
11. 服务器虚拟化、存储虚拟化和⽹络虚拟化都有哪些实现⽅式
服务器虚拟化分为寄居虚拟化和裸机虚拟化实现:1.CPU虚拟化 2.内存虚拟化 3.I/O设备虚拟化
存储虚拟化:基于主机的存储虚拟化、基于存储设备的存储虚拟化、基于⽹络的存储虚拟化
数据中⼼⽹络虚拟化分为核⼼层、接⼊层和虚拟机⽹络虚拟化三个⽅⾯
异构存储介质的互联和统⼀管理。存储虚拟化的核⼼任务是兼容多种属性的存储设备,屏蔽它们间不同的物理特性并向⽤户提供统⼀的虚拟逻辑设备访问⽅式,由⽹络连接的各种物理存储设备以虚拟卷的形式向⽤户呈现,⽽⽤户关注的是存储容量和数据安全策略,⽽存储容量的物理分配则对⽤户透明的,存储虚拟化管理系统及其所兼容的协议屏蔽了连接到存储⽹络中的各类设备的差异性,简化了逻辑存储设备的管理、配置和分配,并向⽤户提供在线划分、扩展、配置存储和在线增加与更替存储设备的虚拟化存储管理技术。
阿基里斯
数据的共享冲突与⼀致性。数据共享是存储虚拟化的主要功能之⼀,基于⽹络的虚拟存储对数据共享访问提出了很⾼的要求,存放在不同物理存储器中的数据拷贝为操作系统间及操作系统和数据仓库问的数据共享带来便利,但同时必须仔细设计锁机制算法、备份分发算法以及缓存⼀致性技术来保证数据的完整性。
数据的透明存储和容错容灾策略。数据的透明访问需要虚拟存储屏蔽存储设备的物理差异性,由系统按照资源的特性及⽤户的需求⾃动调度和利⽤存储资源,便于⽤户在逻辑卷的基础上对数据进⾏复制、镜像、备份以及实现虚拟设备级的数据快照等功能。
虚拟存储系统必需按照数据的安全级别建⽴容错和容灾机制,以克服系统的误操作、单点失效、意外灾难等因素造成的数据损失。系统必需对⽤户透明地的实现多种机制下的数据备份、数据系统容错和灾难预警及⾃动恢复等策略。
  性能优化和负载均衡。存储系统应该从全局的观点并根据不同存储设备的特性来优化存储系统,应该根据不同存储的存储响应时问、吞吐率和存储容量来安排多级存储体系结构,实现数据的多级⾼速缓存和数据预取功能。
  根据⽤户的需求安排不同的存储策略实现对数据的按需存取,仔细设计I/O均衡策略,根据具体的物理设备合理分配⽤户的I/O请求,使⽤条带化⽅法、数据分块、时空负载区分、数据主动存取和数据的过预取策略来提⾼数据的访问效率,为了进⼀步提⾼访问效率,也可以采⽤基于存储对象的存储主动服务策略来提⾼数据的主动预测服务。
  数据的安全访问策略。基于⽹络的存储必需对访问加以控制,数据被越权访问和恶意攻击是虚拟存储系统必需要避免的,透明的存储服务所带来的数据安全性必需由虚拟化管理软件来实现,其实现安全访问的策略是多样的,如基于密钥的认证管理及数据加密策略,以及在存储体之上增加⼀层可信的管理层节点等都是可⾏的⽅法。
⾼可靠性和可扩展性。⾼可靠和可扩展性是虚拟存储系统必需具备的特性,系统应该采⽤⾼效的故障
预测、故障检测、故障隔离和故障恢复技术来保证系统的⾼可靠性。
虚拟存储系统应该在不中断正常存储服务的前提下实现对存储容量和存储服务进⾏任意扩展,透明的添加和更替存储设备,虚拟存储系统还应该具有⾃动发现、安装、检测和管理不同类型存储设备的能⼒。
12.OpenStack是什么
矿业研究与开发OpenStack是⼀个管理计算、存储和⽹络资源的数据中⼼云计算开放平台
OpenStack是⼀个由NASA(美国国家航空航天局)和Rackspace合作研发并发起的,以Apache许可证授权的⾃由软件和开放源代码项⽬。
OpenStack是⼀个开源的云计算管理平台项⽬,由⼏个主要的组件组合起来完成具体⼯作。OpenStack⽀持⼏乎所有类型的云环境,项⽬⽬标是提供实施简单、可⼤规模扩展、丰富、标准统⼀的云计算管理平台。OpenStack通过各种互补的服务提供了基础设施即服务(IaaS)的解决⽅案,每个服务提供API以进⾏集成。

本文发布于:2024-09-24 21:16:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/565048.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   计算   服务   虚拟化   系统
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议