基于服务器集的热点元数据管理方法

著录项
  • CN201310552106.8
  • 20131108
  • CN103544322A
  • 20140129
  • 北京邮电大学
  • 陆月明;齐磊
  • G06F17/30
  • G06F17/30

  • 北京市海淀区西土城路10号
  • 中国,CN,北京(11)
摘要
本发明涉及一种基于服务器集的热点元数据管理方法,该发明应用于分布式文件系统中的元数据服务器集中,由元数据访问监控、元数据访问控制、目录树信息管理、目录子树信息管理、目录子树拆分、元数据迁移六个模块组成。该发明完成了系统对元数据访问的实时监控、元数据访问的可控性和目录子树分割形式的一致性等功能,达到了系统在出现热点元数据的情形下实现负载均衡的目标。
权利要求

1.本发明涉及一种基于服务器集的热点元数据管理方法,该方法应用于采用服 务器集的分布式文件系统中,以提高热点元数据的访问速度。本发明由元数 据访问监控、元数据访问控制、目录树信息管理、目录子树信息管理、目录子 树拆分、元数据迁移六个模块组成。

2.根据权利要求书(1)所述的方法,其特征在于本发明提出了相对的负载均衡,仅对 出现热点元数据的目录子树采用了负载均衡机制。

3.根据权利要求书(1)所述的方法,其特征在于本发明对用户的元数据访问采用了 实时监控机制。

4.根据权利要求书(1)所述的方法,其特征在于本发明对用户的元数据访问请求采 用了控制机制。

5.根据权利要求书(1)所述的方法,其特征在于本发明采用了统一的目录子树拆分 方法,并提出了拆分目录子树的标准形式。

说明书
技术领域

本发明涉及基于服务器集的热点元数据管理方法,该方法应用于采用服务 器集的分布式文件系统中,可提高热点元数据的访问速度,属于信息领域。

云计算、大数据和虚拟化场景等新兴技术与服务均是依赖于海量数据的存储, 应用于海量数据存储的分布式文件系统在这些领域中都发挥着很重要的作用,因 此分布式文件系统的性能提升也必然会促进这些新兴技术与服务的进步。然而, 分布式文件系统在设计目标、体系结构、系统规模、性能、可扩展性、可用性等 方面都有别于传统的文件系统。

目前应用较为广泛的分布式文件系统,比如HDFS、MooseFS和TFS均把文 件分成两部分,一部分是文件的元数据(Metadata),包括文件名、属性和权限、 修改时间等信息,另外一部分是文件的数据(即文件内容,简称数据)。这两部分 数据在分布式文件系统中被存储到不同的服务器中。在某些分布式文件系统中采 用了一台服务器来存储所有文件的元数据,这个服务器称为元数据服务器(简称 为MDS),但采用一台元数据服务器管理元数据要比采用多台元数据服务器(元数 据服务器集)管理的方式来说,在可靠性、可用性以及可扩展性等方面要逊 很多。

此外,分布式文件系统中文件读写操作与元数据密切相关,元数据管理效率 的高低在很大程度上影响了整个分布式文件系统读写性能。因此,有越来越多的 分布式文件系统采用元数据服务器集来管理元数据。

使用元数据服务器集管理元数据会涉及到元数据分配策略问题,目前使用 较为普遍的方式是子树分割法,子树分割法包括静态子树分割法和动态子树分割 法。静态子树分割法通过系统管理员的操作将文件目录(称为目录树)分割成多 个目录子树(子目录),并将这些目录子树部署到多台MDS上,单台MDS仅负责 管理单个目录子树,静态子树分割法的优点是管理简单,但缺点是当出现用户对 某个目录子树下的元数据(热点元数据)进行集中访问时就会出现存储热点元数 据的那台MDS负载过重的情况。子树分割法中第二种是动态子树分割法,它能够 将负载动态地分配到每台MDS上,但是当出现复杂的目录树结构或者是执行重命 名等操作时,会出现大量的元数据迁移,并且按这种方式构建的系统的结构也十 分复杂。

本发明提出基于服务器集的热点元数据管理方法,综合了静态子树分割法 和动态子树分割法的优点,在保证系统结构较为简单的同时,能够进行负载均衡, 解决热点元数据的集中访问问题。

本发明“基于服务器集的热点元数据管理方法”由元数据访问监控、元数 据访问控制、目录树信息管理、目录子树信息管理、目录子树拆分、元数据迁移 六个模块组成。下面详细介绍基于服务器集的热点元数据管理方法的结构和各 个组成部分的内容。

(1)本发明构架

为了实现本发明“基于服务器集的热点元数据管理方法”,要求对现有的分 布式文件系统的多元数据服务器集的体系结构进行修改,本发明形成的热点元 数据管理架构如图1所示。

(2)本发明的六个组成模块

本发明“基于服务器集的热点元数据管理方法”由元数据访问监控、元数 据访问控制、目录树信息管理、目录子树信息管理、目录子树拆分、元数据迁移 六个模块组成。以下就各功能模块及其方法作详细说明。

●元数据访问监控:该模块用于监控每个目录子树的元数据访问情况。这里首先 定义目录子树的访问热度和访问热度的阈值。每个目录子树都对应一个访问热 度,每到来一个用户的元数据请求时,相应目录子树的访问热度增1,等待时 间T后,访问热度减1。当目录子树的访问热度达到访问热度的阈值后,元数 据成为热点元数据。当该模块监测到某个目录子树出现热点元数据时,则通知目 录子树信息管理模块需要对这个目录子树进行拆分。

●元数据访问控制:该模块用于响应具体的元数据访问请求,建立用户与具体 MDS间的通信。当系统在进行目录子树的拆分操作时,会涉及到元数据迁移操作, 为保护元数据的安全性和一致性,元数据访问控制模块会暂时将对热点元数据的 访问请求置于等待状态,并存入等待队列中,直到目录子树完成拆分操作,并 向目录树信息管理模块和目录子树信息管理模块反馈相应的信息后,再开始处理 处于等待状态的元数据访问请求。

●目录树信息管理:该模块负责管理每个目录子树间的层次关系,以保障系统能够 根据用户提供的文件或目录的绝对路径定位到正确的目录子树上。在系统部署时, 由系统管理员对最初目录树进行人工拆分,将拆分得到的目录子树部署到不同 的MDS上。

●目录子树信息管理:该模块用于管理系统中所有的目录子树,保存每个目录子 树的位置信息,即每个目录子树位于哪台MDS上。

●目录子树的拆分:该模块的主要功能包括两个,即目录子树的分割和目录子树 的复制。该模块会对出现热点元数据的目录子树进行分割或复制,形成多个新 的目录子树,具体的方式如图2所示。这里将仅拥有单个目录的目录子树结构 称为简单类型,否则称之为复杂类型。如果出现热点元数据的目录子树结构为 复杂类型,如图2中左侧所示,则将其拆成多个简单类型的目录子树。如果出 现热点元数据的目录子树结构为简单类型,如图2中右侧所示,则将目录子树 进行复制,形成多个简单类型的目录子树,并通过加锁机制,保障元数据的安 全性和一致性。在完成目录子树的拆分操作后,再根据元数据服务器集中每 台MDS的负载情况,将新的目录子树部署到负载较低的MDS上。

●元数据迁移:该模块用于实现元数据迁移的功能。在进行目录子树的拆分操作时, 该模块具体实现将新目录子树迁移到负载低的MDS上。

(3)本发明各模块的执行流程

为了说明本发明的执行流程,图3从热点元数据的出现到系统完成负载均衡的整 个过程描述了本发明各模块之间的关系和本发明的执行流程,本发明的具体执行 流程如下:

●热点元数据监测阶段:元数据访问监控模块监测到某台MDS出现热点元数据,通 知元数据访问控制模块阻塞对该目录子树的元数据访问请求,并通知目录子树信 息管理模块需要对该目录子树进行拆分,以及哪些MDS负载较低,适合分担负载。

●负载均衡阶段:对出现热点元数据的目录子树进行拆分操作。并调用元数据迁移 模块,将热点元数据从原MDS迁移到新MDS上。

●目录树信息更新阶段:在上述操作完成之后,目录树信息管理模块和目录子树信 息管理模块需要完成相应信息的更新。

●元数据访问恢复阶段:在目录树信息更新完成后,通知元数据访问控制模块解除 对该目录子树元数据访问请求的阻塞,恢复元数据访问请求。

图1基于服务器集的热点元数据管理方法的系统结构

图2目录子树的拆分策略

图3本发明各模块的执行流程

图4系统在出现热点元数据时实现负载均衡的例子

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例也仅仅是本发明的一部分实施例,而不是全部实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获 得的所有其他实施例,都属于本发明保护的范围。

为了说明“基于服务器集的热点元数据管理方法”,这里给出一个“在MDS1 出现热点元数据的情形下,系统实现负载均衡”的例子。

●热点元数据监测阶段:元数据访问监控模块检测到MDS1上出现热点元数据,通 知元数据访问控制模块阻塞用户a、b、c对热点元数据的访问请求,并将这些访问 请求存入等待队列中。通知目录子树信息管理模块MDS1上的目录子树A需要进 行拆分,并告知其MDS2和MDS3上的负载较低,适合分担负载。

●负载均衡阶段:目录子树的拆分模块对目录子树A进行拆分,如图4所示,将目 录子树A拆分为新的目录子树E和F,并记录拆分后的目录子树对象的层次关系。 在拆分完成后,调用元数据迁移模块,原先存于MDS1中的新目录子树E和F迁 移至MDS2和MDS3下。

●目录树信息更新阶段:如图4所示,在目录子树信息管理模块中,用新目录子树E 和F取代原目录子树A。在目录树信息管理模块中,用新目录子树E和F的层次 关系取代原目录子树A在目录树中的位置。

●元数据访问恢复阶段:通知元数据访问控制模块模块恢复用户a、b、c的元数据访 问请求,处理保存在等待队列中的元数据访问请求。

本发明的优势

本发明涉及基于服务器集的热点元数据管理方法,本发明应用于目前分布式 文件系统的元数据管理中。本发明的优点主要有四个:

(1)负载均衡的相对性:本发明仅对出现热点元数据的目录子树采用了负载均衡机 制,从而保证了系统结构的简单稳定和系统运行的高效性。

(2)元数据访问的实时监控性:本发明对用户的元数据访问采用了实时监控机制, 记录了每个目录子树的访问热度,可以实时地监控元数据的访问情况,并及时 发现热点元数据的出现。

(3)元数据访问的可控性:本发明对用户的元数据访问请求采用了控制机制。通过 对用户的元数据访问请求的控制,在进行目录子树的负载均衡操作期间中,保 障了元数据的安全性和一致性。

(4)目录子树分割形式的一致性:本发明采用了统一的目录子树拆分方法,保障了 系统结构的稳定性。

本文发布于:2024-09-25 12:28:41,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/73263.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议