一种基于通信可靠性的分布式存储方法

著录项
  • CN201310014722.8
  • 20130115
  • CN103095832A
  • 20130508
  • 北京邮电大学
  • 陆月明;孙松林;袁玉宇
  • H04L29/08
  • H04L1/00 H04L29/08

  • 北京市海淀区西土城路10号
  • 中国,CN,北京(11)
摘要
本发明涉及一种基于通信可靠性的分布式存储方法,该发明由网络结构分析模块、通信及流量风险分离分析模块、数据分布式存储风险分离分析模块组成,提出了备份存储路径概念,备份存储路径风险分离方法,数据服务器风险分离方法,可减少备份之间的存取风险。该发明可应用于分布式存储系统的文件备份存储、文件容灾、文件存储风险分离。
权利要求

1.本发明涉及一种基于通信可靠性的分布式存储方法,该发明应 用于分布式存储系统中,以减少备份之间的存取风险。

本发明的主要特点及权利要求有:

(1)本发明由网络结构分析模块、通信及流量风险分离分析模块、 数据分布式存储风险分离分析模块组成。

(2)本发明引出的存储路径、存储路径计算方法、存储路径风险 分离方法。

(3)本发明引出的数据服务器风险分离方法、区域风险分离方法、 数据分布式存储风险分离方法。

说明书
技术领域

本发明涉及一种基于通信可靠性的分布式存储方法,通过使用分 布式存储系统的网络结构的分析、通信及流量风险分离策略、数据 分布式存储风险分离策略三部分,以减少分布式存储系统的文件备 份之间的存取风险,属于信息技术领域。

互联网、互联网企业等产生了海量的数据,这些海量数据的存 储需要超级的数据中心,数据中心采用集的方式进行分布式存储 这些海量数据。目前分布式存储系统有HDFS(Hadoop Distributed  File System)、MogileFS(Mogile File System)、NAS(Network  Attached Storage)、NFS(Network File System)等。

通过对上述分布式存储系统的分析发现,为了提高分布式存储 系统的可靠性,这些系统在功能上一般支持文件的双备份和多备份。 当文件的其中一个备份出现故障,另外一个文件备份就会被激活并 提供服务,以替换出现故障的那个文件备份。多个文件备份能提高 系统的可靠性,但如果多个备份存在同一个服务器上,服务器故障 对分布式存储系统的可靠性是致命的,这样的存储策略可能使多个 备份同时故障。在另一方面,即使多个备份在不同的服务器上,但 如果这些服务器连接到同一个网络节点上,那么该网络节点的故障 对于在线服务的分布式存储系统也是致命的。为了从高层次上提高 分布式存储系统的可靠性,尤其是在线服务的分布式存储系统,研 究人员必须考虑分布式存储系统的网络结构风险、通信流量风险和 存储风险。

在分布式存储系统中,网络结构与服务性能、可靠性、流量风 险都是直接相关的。从网络通信风险的角度看,星型结构的网络风 险最大,中心交换机的故障直接导致分布式存储系统的瘫痪。对于 网状结构网络、冗余备份网络,如果存储、通信不当也会存在同样 的问题。为此,针对网状结构网络、冗余备份网络,本专利建议一 种基于通信可靠性的分布式存储方法。

专利“一种基于通信可靠性的分布式存储方法”通过使用分布式 存储系统的网络结构分析策略、通信及流量风险分离策略、数据分 布式存储风险分离策略三部分,以提高分布式存储系统的可靠性和 容错能力。

本发明“一种基于通信可靠性的分布式存储方法”由三部分组成, 它们是网络结构分析模块、通信及流量风险分离分析模块、数据分 布式存储风险分离分析模块。下面详细介绍“一种基于通信可靠性的 分布式存储方法”的结构、各个组成部分和执行流程。

(1)本发明形成的分布式存储系统结构及应用环境

为了实现本发明“一种基于通信可靠性的分布式存储方法”,要求 对现有的分布式存储系统进行修改,本发明形成的分布式存储系统 如图1所示。具体修改内容包括如下:

●本发明形成的分布式存储系统包含元数据服务器(Meta Server)、 数据服务器(Data Server),其中元数据服务器和应用服务器在同 一个区域,挂接在同一个边缘交换机上。

●本发明形成的分布式存储系统的元数据服务器具有获知集网络 的拓扑结构的能力,包括人工配置拓扑结构信息,其拓扑结构信 息包括节点IP地址、端口速率、相互之间的链路关系等。

●本发明形成的分布式存储系统的数据服务器必须位于不同的区 域,每个区域的数据服务器挂接到对应的边缘服务器上,这种挂 接方式可以避免网络流量拥塞和网络故障风险。

●本发明形成的分布式存储系统的集核心网络需要有网络冗余备 份,网络冗余备份可以高度体现本发明的优势。

(2)本发明的三个组成部分

本发明“一种基于通信可靠性的分布式存储方法”由三个模块组 成,本发明的组成如图2所示,它由网络结构分析模块、通信及流 量风险分离分析模块、数据分布式存储风险分离分析模块组成。

●网络结构分析模块:该模块有两个功能,一是通过人工配置等措 施获取网络结构信息,这些信息包括网络节点、数据服务器位置 等信息。该模块另外一个功能是对应用程序提供的存储需求提供 网络通信路径(这里称为“存储路径”)的计算。

●通信及流量风险分离分析模块:在应用程序对单个文件有多个备 份存储需求的情况下,在网络结构分析模块中到了其中一个备 份(称为“第一备份”)的存储路径后,该模块依据第一份备存储路 径,采用通信及流量风险分离算法,该模块计算出第二备份的存 储路径。

●数据分布式存储风险分离分析模块:在通信及流量风险分离分析 模块到第二备份的存储路径后,该模块依据服务器存储情况和 第二备份的存储路径,到第二备份的数据分布式存储风险分离 服务器。

(3)本发明各模块的执行流程

为了说明本发明执行流程,从文件的两个备份存储的过程描述 本发明各模块之间的关系和本发明的执行流程,本发明分成三个阶 段:第一备份路径的计算阶段、第二备份路径的计算阶段和数据服 务器确定阶段。本发明的具体执行流程如下:

●第一备份路径的计算阶段:应用程序需要把文件的两个备份写入 数据中心的两个服务器。应用程序首先把“请求”提交给网络结构 分析模块,网络结构分析模块依据“请求”,根据收集起来的网络拓 扑信息,采用最短路径计算(Shortest Path First)方法,计算出 第一备份的存储路径。第一备份的存储路径如图3所示。

●第二备份路径的计算阶段:网络结构分析模块依据“请求”计算出 第一备份存储路径后,提交给通信及流量风险分离分析模块。通 信及流量风险分离分析模块依据“风险分离算法”计算出多条第二 备份存储路径。

“风险分离算法”的执行流程分两步,第一步通信及流量风险 分离分析模块在拓扑图中去除第一备份存储路径的链路。第二步, 在第一步余下的拓扑中采用“最短路径”计算出多条第二备份存储 路径。

图4中是第二备份的两条存储路径(采用虚线表示)。可以看 出第二备份的两条存储路径和第一备份的存储路径没有共同的链 路,说明第一备份和第二备份在通信风险和流量上是分离的,有 利于规避通信风险和平衡流量。

●数据服务器确定阶段:依据图4的第二备份的存储路径,数据分 布式存储风险分离分析模块出第二备份的存储数据服务器,检 查第一备份存储数据服务器和第二备份存储数据服务器之间的关 系,依据存储风险分离原则,到第二备份存储数据服务器。

存储风险分离原则是一种检查原则,在这里,指第一备份和 第二备份不能存储在同一个区域的服务器,这样可以实现存储风 险分离。依据该原则,在图4的两个第二备份存储路径中,发现 两个第二备份的存储数据服务器B和C,但数据服务器C和第一 备份的存储数据服务器在同一个区域,存在共同的风险,C不适 合作为第二备份的存储数据服务器,而B和第一备份存储数据服 务器在不同的区域,B适合作为第二备份存储数据服务器。

(4)本发明的特点

本发明涉及两个方法:通信及流量风险分离方法、数据服务器 分布式存储风险分离方法;下面详细说明两种方法及其特点:

●通信及流量风险分离方法:该方法把第一备份和第二备份的数据 存储分布到不同的存储路径上,该算法避免了网络通信风险。

●数据分布式存储风险分离方法:该方法把第一备份和第二备份的 数据存储到风险分离的两台数据服务器上,该方法能够实现多备 份存储到不同风险区域的机制,避免了服务器存储风险。

图1是本发明形成的分布式存储系统示意图

图2是本发明的模块组成示意图

图3是第一备份的存储路径图

图4是第二备份的存储路径图

图5是分布式存储系统网络拓扑结构图

图6是文件F的第一备份存储路径图

图7是去除文件F的第一备份存储路径后的网络拓扑结构图

图8是文件F的第二备份存储路径图

图9是文件F的第二备份存储路径权重排序图

图10是重选的第二备份存储路径图

下面将结合本发明实施例中的附图,对本发明实施例中的技术 方案进行清楚、完整地描述,显然,所描述的实施例也仅仅是本发 明的一部分实施例,而不是全部实施例。基于本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其 他实施例,都属于本发明保护的范围。

假设位于应用服务器上的应用程序P需要把文件F存储到分布 式存储系统中,应用程序P要求分布式存储系统把文件F存储两个 备份F1和F2到数据服务器中,其中F1为文件F的第一备份,F2为 文件F的第二备份。在服务过程中,应用程序P优先访问文件F的 第一备份,访问路径为第一备份存储路径。当应用程序P通过第一 备份存储路径访问F1出现故障时,应用程序P应能够通过第二备份 存储路径访问F2。

假设分布式存储系统的网络结构如图5所示,应用程序P部署在 应用程序服务器A上,根据上述要求,应用程序P向元数据服务器 中的网络结构分析模块首先提出请求,网络结构分析模块接受请求, 进入本发明的第一备份存储路径计算阶段。

在文件F的第一备份存储路径计算阶段,元数据服务器中的网络 结构分析模块,依据图5的拓扑结构,采用最短路径计算方法,即在 网络拓扑结构中出从应用服务器A到其它数据服务器之间网络链 接权重之和最小的路径,计算出文件F的第一备份存储路径。文件F 的第一备份存储路径如图6所示,文件F的第一备份存储路径这里标 识为(A‑A1),此路径表明,文件F的第一备份F1将存储在数据服务 器A1中,A1为备选数据服务器。

计算完第一备份存储路径后,元数据服务器的通信及流量风险 分离分析模块为文件F计算第二备份存储路径。通信及流量风险分离 分析模块首先在图5中的网络拓扑结构中去除第一备份存储路径,即 得到如图7所示的网络拓扑结构。

通信及流量风险分离分析模块依据图7的拓扑结构,采用最短路 径计算方法,计算出文件F的第二备份存储路径。第二备份存储路径 如图8所示,这里用(A‑B1)所示,即采用数据服务器B1(B1为备 选数据服务器)来存储文件F的第二备份F2。

通信及流量风险分离分析模块计算完文件F的第二备份存储路 径后,数据分布式存储风险分离分析模块来确定备份存储的数据服 务器,进入数据服务器确定阶段。数据分布式存储风险分离分析模 块依据候选数据服务器A1和B1是否在同一区域、同一个服务器等确 定风险和流量拥塞,在本例中,候选的数据服务器A1和B1在同一个 区域,存在共同的区域的风险和网络风险,故候选数据服务器B1不 合适,那么进入第二次查第二备份存储路径。

在第二次查第二备份存储路径中,通信及流量风险分离分析模 块在图7中挑选出路径权重排序中第二的路径。假设存储路径权重排 序如图9,则路径(A‑B2)为选为第二备份存储路径。

通信及流量风险分离分析模块选择好第二备份存储路径后,数 据分布式存储风险分离分析模块来挑选第二备份的数据服务器,经 分析,重选的第二备份存储路径(A‑B2)位置如图10所示,B2和A1 位于不同区域,且应用程序P对上述两个备份的存储在路径上没有共 同的风险,那么数据服务器B2被选为第二备份F2的存储数据服务器。

本文发布于:2024-09-26 00:32:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/73444.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议