HDFS-为什么我们需要HDFS

HDFS-为什么我们需要HDFS
Hadoop实现了⼀个分布式⽂件系统(Hadoop Distributed File System),简称HDFS。对外部客户机⽽⾔,HDFS 就像⼀个传统的分级⽂件系统。可以创建、删除、移动或重命名⽂件,等等。很多时候,我们就叫它DFS(Distributed File System)。
繁峙秧歌
征服者1453Hadoop 是⼀个以⼀种可靠、⾼效、可伸缩的⽅式进⾏处理的,能够对⼤量数据进⾏分布式处理的系统框架。所以可以理解为hadoop是⼀个框架,HDFS是hadoop中的⼀个部件。
Paste_Image.png
高考2016⽂件系统是对⽂件存储器空间进⾏组织和分配,负责⽂件存储并对存⼊的⽂件进⾏保护和检索的系统。
为什么我们需要HDFS:
1.数据量巨⼤,磁盘开始很纠结的处理我们需要的海量信息。所以需要⽂件系统有⼤规模数据分布存储能⼒。
产能分析2.读取⼀块磁盘的所有数据需要很长时间,写⼊更是需要更长时间(写⼊时间⼀般是读取时间的3倍)即使有⽂件为1ZB,或者⼩点10EB时,这样的磁盘也⽆法做到随读随取。所以需要⽂件系统有⾼并发访问能⼒。
Paste_Image.png
3. 当数据集的⼤⼩超过⼀台独⽴物理计算机的存储能⼒时,就有必要对它进⾏分区并存储到若⼲台单独的计算机上。
Paste_Image.png
4. 从概念图上看,分布化的⽂件系统会因为分布后的结构不完整,导致系统复杂度加⼤,并且引⼊的⽹络编程,同样导致分布式⽂件系统更加复
杂。所以需要强⼤的容错能⼒。
Paste_Image.png
模糊数学模型Paste_Image.png
突变体
5. HDFS解决以上⽅案是分⽚冗余,本地校验,需要数据块存储模式
Paste_Image.png
Paste_Image.png
数据冗余式存储,直接将多份的分⽚⽂件交给分⽚后的存储服务器去校验。
Paste_Image.png
冗余后的分⽚⽂件还有个额外功能,只要冗余的分⽚⽂件中有⼀份是完整的,经过多次协同调整后,其他分⽚⽂件也将完整。
经过协调校验,⽆论是传输错误,I/O错误,还是个别服务器宕机,整个系统⾥的⽂件是完整的。
Paste_Image.png
6. 分布后的⽂件系统有个⽆法回避的问题,因为⽂件不在⼀个磁盘导致读取访问操作的延时,这个是HDFS现在遇到的主要问题。
现阶段,HDFS的配置是按照⾼数据吞吐量优化的,可能会以⾼时间延时为代价。但万幸的是,HDFS是具有很⾼弹性,可以针对具体应⽤再优化。

本文发布于:2024-09-21 16:28:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/37780.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:系统   需要   数据   磁盘   分布式   处理
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议