实现hadoop文件系统hdfs与对象存储s3数据互访方法及系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010482343.1
(22)申请日 2020.05.29
(71)申请人 深圳市瑞驰信息技术有限公司
地址 518000 广东省深圳市前海深港合作
区前湾一路1号A栋201(入驻深圳市前
海商务秘书有限公司)
(72)发明人 张涛 刘毅 林涛睿 林鹏程 
(74)专利代理机构 深圳市中科创为专利代理有
限公司 44384
代理人 彭西洋
(51)Int.Cl.
G06F  16/16(2019.01)
G06F  16/182(2019.01)
(54)发明名称
实现hadoop文件系统hdfs与对象存储s3数
据互访方法及系统
(57)摘要
本发明公开了一种实现hadoop文件系统
hdfs与对象存储s3数据互访方法及系统,其中该
方法包括步骤:配置含有文件系统hdfs的hadoop
大数据环境,及含有对象存储s3的分布式存储软
件ceph环境;所述hadoop大数据环境和分布式存
储软件ceph环境双方通过namenode节点与ceph -
mon节点通信;通过namenode节点对接文件系统
hdfs,通过ceph -mon节点对接对象存储s3;获取
外部数据访问指令;根据所述数据访问指令进行
相应的文件系统hdfs和对象存储s3之间的数据
访问。本发明打破这种不同文件系统之间的文件
互相读取访问的隔离壁垒,实现hadoop文件系统
hdfs与对象存储s3数据互相访问读取并共存,让
hdfs和对象存储s3优势互补共同促进大数据的
发展,
扩大大数据应用领域范围。权利要求书1页  说明书3页  附图1页CN 111708738 A 2020.09.25
C N  111708738
A
1.一种实现hadoop文件系统hdfs与对象存储s3数据互访方法,其特征在于,包括步骤:配置含有文件系统hdfs的hadoop大数据环境,及含有对象存储s3的分布式存储软件ceph环境;所述hadoop大数据环境和分布式存储软件ceph环境双方通过namenode节点与ceph -mon节点通信;
通过namenode节点对接文件系统hdfs,通过ceph -mon节点对接对象存储s3;
获取外部数据访问指令;
根据所述数据访问指令进行相应的文件系统hdfs和对象存储s3之间的数据访问。
2.根据权利要求1所述的实现hadoop文件系统hdfs与对象存储s3数据互访方法,其特征在于,所述获取外部数据访问指令,包括:
hadoop大数据环境的客户端hadoop -client写入大文件时,通过namenode节点计算后算出写到datanode节点中,然后存入hdfs文件系统。
3.根据权利要求1所述的实现hadoop文件系统hdfs与对象存储s3数据互访方法,其特征在于,所述获取外部数据访问指令,包括:
hadoop大数据环境的客户端hadoop -client写入小文件时,通过namenode节点计算后调用ceph -mon信息,然后将文件通过s3接口写入到对象存储里面。
4.根据权利要求1所述的实现hadoop文件系统hdfs与对象存储s3数据互访方法,其特征在于,所述获取外部数据访问指令,包括:
执行MapReduce的时候,文件通过namenode计算元数据信息,在文件系统hdfs和s3对象存储之间互相拷贝。
5.根据权利要求4所述的实现hadoop文件系统hdfs与对象存储s3数据互访方法,其特征在于,执行MapReduce的时候,计算结果也可根据自定义选择存储到hdfs或者对象存储s3中。
6.一种实现hadoop文件系统hdfs与对象存储s3数据互访方法,其特征在于,包括:含有文件系统hdfs的hadoop大数据环境,及含有对象存储s3的分布式存储软件ceph环境。
其中,所述hadoop大数据环境和分布式存储软件ceph环境双方通过namenode节点与ceph -mon节点通信;通过namenode节点对接文件系统hdfs,通过ceph -mon节点对接对象存储s3。
权 利 要 求 书1/1页CN 111708738 A
实现hadoop文件系统hdfs与对象存储s3数据互访方法及系统
技术领域
[0001]本发明涉及计算机数据交互领域,尤其涉及一种实现hadoop文件系统hdfs与对象存储s3数据互访方法及系统。
背景技术
[0002]Hadoop是一个开源的由apache基金会所开发的大数据框架,是一个开发与运行处理大规模数据的软件平台。它的三大核心组件分别是分布式文件系统hdfs、作业调度和集资源管理框架yarn、分布式运算编程框架MapReduce。他们分别解决hadoop大数据框架这三大核心问题,如何解决海量数据存储,如何解决计算资源任务的调度,如何解决海量数据的计算任务。其中hdfs是基于流式数据访问和处理海量大文件而专门设计的一个并没有严格遵守posix标准协议的分布式文件系统。由于其高度容错性以及提供高带宽等特点,其非常适合部署在大量廉价硬件设备上,也非常适合大规模的hadoop
大数据运算应用。[0003]由于hdfs的本身特性使其放宽了对posix的完全兼容性,已达到流式读取海量大文件的目的,且支持通过移动计算,支持大数据规模,大文件并发,大规模节点数等特性,保证了起在大数据计算领域的标杆地位。但是其缺点也很明显,首先不适合低时延(类似ms级别)数据访问,也就是说HDFS文件系统适合大并发IO访问,对IOPS要求高的应用支持不够好。另外对于大量小文件的读写访问支持很差,所以类似图片计算,大量小文件计算场景就不适合。
[0004]当前主流的分布式文件系统能够弥补hdfs缺点的就有对象存储系统s3,对象存储使用独特的文件存储方式,有别于文件存储系统以及块存储系统。首先底层文件接口是rest风格以及底层文件分布排列基于键值对的扁平化结构。尤其是扁平方式的数据组织方式能够解决海量的且大并发的小文件访问,且消除了对于元数据的依赖能够提供大iops的支持,非常适合当前主流大数据时代特征。随着互联网更加快速的发展,数据量也就成指数倍的增加,不论数据模式、数据大小、是否是结构化数据、对象存储s3结合hdfs文件系统共同使用并存才能加速大数据的发展。
[0005]但是hdfs和s3为两种完全不同风格以及使用完全不同的文件访问读取接口,这种不同文件系统之间的文件互相读取访问存在隔离壁垒,因此,现有技术存在问题,需要进一步改进。
发明内容
[0006]本发明为了弥补现有技术的不足,提供了一种实现hadoop文件系统hdfs与对象存储s3数据互访
方法及系统。
[0007]为实现上述目的,本发明的具体技术方案如下:
[0008]一种实现hadoop文件系统hdfs与对象存储s3数据互访方法,包括步骤:[0009]配置含有文件系统hdfs的hadoop大数据环境,及含有对象存储s3的分布式存储软件ceph环境;所述hadoop大数据环境和分布式存储软件ceph环境双方通过namenode节点与
ceph-mon节点通信;
[0010]通过namenode节点对接文件系统hdfs,通过ceph-mon节点对接对象存储s3;[0011]获取外部数据访问指令;
[0012]根据所述数据访问指令进行相应的文件系统hdfs和对象存储s3之间的数据访问。[0013]优选地,所述获取外部数据访问指令,包括:hadoop大数据环境的客户端hadoop-client写入大文件时,通过namenode节点计算后算出写到datanode节点中,然后存入hdfs 文件系统。
[0014]优选地,所述获取外部数据访问指令,包括:hadoop大数据环境的客户端hadoop-client写入小文件时,通过namenode节点计算后调用ceph-mon信息,然后将文件通过s3接口写入到对象存储里面;
[0015]优选地,所述获取外部数据访问指令,包括:执行MapReduce的时候,文件通过namenode计算元数据信息,在文件系统hdfs和s3对象存储之间互相拷贝。
[0016]进一步地,执行MapReduce的时候,计算结果也可根据自定义选择存储到hdfs或者对象存储s3中。
[0017]本发明还提供了一种实现hadoop文件系统hdfs与对象存储s3数据互访系统,包括:含有文件系统hdfs的hadoop大数据环境,及含有对象存储s3的分布式存储软件ceph环境。
[0018]其中,所述hadoop大数据环境和分布式存储软件ceph环境双方通过namenode节点与ceph-mon节点通信;通过namenode节点对接文件系统hdfs,通过ceph-mon节点对接对象存储s3。
[0019]本发明打破这种不同文件系统之间的文件互相读取访问的隔离壁垒,实现hadoop 文件系统hdfs与对象存储s3数据互相访问读取并共存,让hdfs和对象存储s3优势互补共同促进大数据的发展,扩大大数据应用领域范围。
附图说明
[0020]图1为本发明一种具体实施方式所提供的实现hadoop文件系统hdfs与对象存储s3数据互访方法流程图;
[0021]图2为本发明一种具体实施方式所提供的一种实现hadoop文件系统hdfs与对象存储s3数据互访系统结构示意图。
具体实施方式
[0022]为了便于本领域的普通技术人员能够理解并实施本发明,下面将结合附图对本发明实施例作进一步说明。
[0023]参考图1,本发明提供一种实现hadoop文件系统hdfs与对象存储s3数据互访方法,包括步骤:
[0024]S11、配置含有文件系统hdfs的hadoop大数据环境,及含有对象存储s3的分布式存储软件ceph环境;所述hadoop大数据环境和分布式存储软件ceph环境双方通过namenode节点与ceph-mon节点通信;
[0025]S12、通过namenode节点对接文件系统hdfs,通过ceph-mon节点对接对象存储s3;
[0026]S13、获取外部数据访问指令;
[0027]S14、根据所述数据访问指令进行相应的文件系统hdfs和对象存储s3之间的数据访问。
[0028]其中,步骤S13、获取外部数据访问指令包括以下方式:
[0029](1)hadoop大数据环境的客户端hadoop-client写入大文件时,通过namenode节点计算后算出写到datanode节点中,然后存入hdfs文件系统;
[0030](2)hadoop大数据环境的客户端hadoop-client写入小文件时,通过namenode节点计算后调用ceph-mon信息,然后将文件通过s3接口写入到对象存储里面;
[0031](3)执行MapReduce的时候,文件通过namenode计算元数据信息,在文件系统hdfs 和s3对象存储之间互相拷贝。计算结果也可根据自定义选择存储到hdfs或者对象存储s3服务中去。
[0032]参考图2,本发明还提供了一种实现hadoop文件系统hdfs与对象存储s3数据互访系统,包括:含有文件系统hdfs的hadoop大数据环境,及含有对象存储s3的分布式存储软件ceph环境。
[0033]其中,所述hadoop大数据环境和分布式存储软件ceph环境双方通过namenode节点与ceph-mon节点通信;通过namenode节点对接文件系统hdfs,通过ceph-mon节点对接对象存储s3。
[0034]针对这一访问系统,原先情况下hadoop大数据环境的客户端hadoop-client写入大量的小文件的时候,不管是多大的数据,hadoop集都会记录一个block大小为150比特,然后记录到元数据节点的内存中。但是当上亿数量的小文件同时需要写入的时候,每个文件需要占用一个block,此时元数据节点大约需要20G的空间。这样严重制约了hadoop集性能。
[0035]但采用上述方法之后,在进行大量小文件写入的时候,客户端则直接将文件写入到对象存储S3存储中。利用对象存储扁平化的基于键值对的存储方式消除了元数据的依赖,并且打通了hdfs文件系统与对象存储系统之间的壁垒,使得之前已存储的大量小文件可以直接拷贝到对象存储中,使得原有hadoop集的空间再次释放且文件没有丢失,达到双赢的效果。
[0036]本发明中,实际部署hadoop大数据环境一套,以及分布式存储软件ceph环境并提供s3接口支持对象存储服务。由于hadoop的hadoop-aws模块默认提供了对AWS集成的支持,且ceph提供的对象存储s3接口也兼容AWS,因此,hadoop大数据环境和分布式存储软件ceph 环境的通信成为可能。
[0037]通过以上所描述的本发明技术方案,可以实现hadoop大数据应用文件写入hdfs、对象存储,hdfs文件转入到对象存储、对象存储数据转入hdfs的数据互相访问,不同文件系统并存且文件互访,从而保障了hadoop大数据应用下不同文件大小对于不同存储的需求、以及高带宽、高io目的并存的应用需求,从而扩大大数据应用行业加速大数据的发展。[0038]以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

本文发布于:2024-09-22 08:28:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/399367.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   文件   对象   访问   环境   节点   互访
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议