元数据存储

数据存储概述
摘  要:    信息的爆炸性增长对当前的存储技术提出了巨大挑战。新的对象存储技术,能为存储系统提供高性能和高可扩展性,是构建大规模、分布存储系统的基础,正逐渐成为存储领域研究的一个热点。元数据服务器子系统作为对象存储体系的一个核心部分,是实现分布式对象分布存储的关键。文件系统元数据描述文件系统及其管理的文件,其访问效率是文件数据访问性能的关键因素。在海量网络存储环境中,随着系统应用的多样化、应用需求规模的不断扩大,如何充分利用系统资源,提供高扩展能力的文件系统元数据服务,成为大规模分布式文件系统研究的热点问题。
关键词:    元数据;分布式;海量存储;查询;扩展
相关技术的发展
1.1  存储设备
存储设备主要包括光盘、闪存、磁带和磁盘等。光盘主要用于移动存储。由于其相对磁介质具有更长的使用寿命,可以用来更长时间的保存归档数据。但光盘容量有限,访问速度较慢,
不适合用作在线存储设备。闪存是消费电子的移动存储,其容量很小。磁带作为磁盘的后端支持设备,主要用作归档数据的存储。磁盘是主要的在线存储设备,用来存储活跃的生产数据。磁盘技术发展非常迅速,根据Seagate的数据,2006 年 3.5 英寸硬盘的存储能力达到 500GB,带宽达到1,000Mb/s,读寻道时间为 8 毫秒。预计到 2009 年,3.5 英寸硬盘将拥有 2,000GB 的存储能力,2,000Mb/s 的访问带宽和 7.2 毫秒的读寻道时间。到 2013 年,这些指标分别为8,000GB,5,000Mb/s 和 6.5 毫秒。磁盘性能的增强将弱化磁带在存储系统中的作用,将取代磁带成为归档数据的主要存储介质。
1.2  存储系统
从存储系统结构来看,服务器的存储系统经历了直连存储(Direct-Attached Storage,DAS),附网存储(Network-Attached Storage, NAS)和存储区域网络(Storage Area Network, SAN)等三个阶段的发展。
在 DAS 系统中,各个服务器通过 I/O 总线连接存储设备,并管理存储资源的使用。服务器不能直接使用其他服务器的存储设备,只能通过 FTP、SCP 等完成数据的共享。DAS 具有明显的缺点,包括:1)各个服务器独立管理其存储资源的使用,存储资源共享困难。2)
存储设备通过 I/O 总线连接,扩展能力受限于 I/O 总线的能力。存储设备很难独立于服务器扩展,限制系统的扩展能力。3)存储资源扩展要求计算资源的同步扩展,导致系统管理成本的剧增。4)数据共享困难。NAS 将 DAS 的存储设备集中,由专门的服务器管理,系统区分为客户端和文件服务器。各个客户端通过网络将数据读写请求提交给文件服务器,文件服务器转发客户端的数据请求。相对于 DAS 而言,NAS 能够解决存储和数据的共享问题。但文件服务器管理存储资源和转发数据读写请求的文件访问方式,将限制存储资源和数据读写性能的扩展。SAN 使用高速网络直接连接存储设备,并通过虚拟化存储技术集中管理存储资源。客户端直接与存储设备读写数据,提高系统的存储和数据共享能力。为方便系统的管理,SAN 需要 SAN 文件系统Menon为数据共享控制提供支持。
1.3  分布式文件系统
分布式文件系统的研究开始于 20 世纪 80 年代,其典型代表包括 NFS, SUN,Callaghan,Shepler和 CIFS等。从提供文件系统元数据服务的服务器结构看,分布式文件系统主要可以分为对称结构和非对称结构两大类。
1、对称结构的分布式文件系统
在对称结构的分布式文件系统中,没有专门的服务器提供文件系统元数据服务,系统的所有客户端需要协同提供文件系统元数据服务。这类分布式文件系统主要有 DEC的VAXCluster、DEC的Frangipani、RedHat 的GFS、IBM 的GPFS、Veritas 的 GFS、Polyserve 的Matrix、Microsoft 的FARSITE和国家智能中心的 COSMOS等。对称结构的分布式文件系统要求所有客户端协同提供文件系统元数据服务。它隐含要求:1)所有的客户端同等对待。不论客户端是否需要访问文件系统,都需要参加文件系统的管理工作,在一定程度上导致计算资源的浪费;2)系统对单个客户端的依赖。客户端的性能将影响整个文件系统的性能,系统存在性能“短板”;3)数据访问的并发控制需要很多服务器参与,影响面很大;4)客户端间必须相互信赖,存在安全隐患。
2、非对称结构的分布式文件系统
非对称结构的分布式文件系统由专门的元数据服务器(Metadata Server, MDS)提供分布式文件系统元数据服务,主要包括 CMU 的Andrew File System、Duke 的Slice、IBM 的StorageTank、SGI 的CXFS、ClusterFS 的Lustre、Panasas 的ActiveScale、UCSC 的Lazy Hybrid、HP 的DiFFS、国家高性能计算机工程技术研究中心的 BWFS和国家智能中
心的DCFS2等。系统可以由单个或多个服务器负责提供元数据服务。由于单个服务器有限的处理能力,多个元数据服务器将成为元数据服务的主流系统架构。在多个元数据服务器的集环境中,根据服务器间的关系,存在Active-Failover 和Active-Active 两种结构。在正常情况下,Active-Failover 方式的系统只有 Active的元数据服务器提供服务。当Active的服务器出现故障时,Failover服务器接替其工作,继续提供服务。Active-Active方式的系统则是多个服务器对等工作,服务器间能够做到相互冗余,提供高可用的元数据服务。
元数据存储服务
逻辑上,文件系统元数据服务由元数据存储和元数据访问构成。元数据存储服务是元数据请求服务的基础。如何合理有效地组织、管理和使用系统的物理存储资源是元数据存储服务的关键问题。本小节介绍BWMMS 的基于集中虚拟化存储技术的物理存储资源组织、分布式层次化的存储资源管理和完全共享的存储资源使用的元数据存储服务,有效解决存储资源的管理问题,为元数据请求管理提供坚实的基础。
2.1  元数据存储需求
从系统的逻辑结构来看,文件系统元数据服务包括提供文件系统元数据存储的元数据存储服务、提供文件系统元数据访问的元数据请求服务。元数据请求服务以元数据存储服务为基础,通过元数据存储服务完成元数据的存储和访问管理。文件系统元数据存储服务是文件系统元数据服务的基础问题。
存储资源的组织结构为存储资源的有效管理提供支持。只有通过合理的存储资源组织,才能有效地管理和使用系统的存储资源。在大规模系统环境中,存储资源管理和使用的参与者规模非常庞大,需要通过有效的存储资源管理机制管理,避免出现限制系统扩展的瓶颈。存储资源的使用模式是应用有效共享文件系统元数据的保证。只有通过有效的存储资源使用模式支持,存储资源用户间才能以较低的代价实现元数据的有效共享,提高元数据共享的效率。
所以,如何有效地组织异构的存储资源,加以有效的管理和使用,提供具有较强扩展能力的存储服务是文件系统元数据存储服务的关键问题。只有有效解决存储服务的关键问题,为文件系统元数据服务提供具有较强扩展能力的元数据存储服务,为有效解决元数据请求服务的关键问题提供基础,才能有效地提供文件系统元数据服务,提高文件
2.2  集中虚拟化的存储资源组织
已有的采用集中存储资源组织的系统,通常由各个存储资源用户直接管理物理存储资源。当系统规模非常庞大时,存储资源管理任务非常繁重,用户需要为存储资源管理做出很大的开销。为了提高系统的扩展能力、容错能力和可管理能力,增强系统各个部分的模块化,BWMMS 采用虚拟化存储技术管理系统的物理存储资源。它在系统的存储资源提供者和存储资源使用者之间加入存储资源虚拟化管理层(StorageVirtualization Layer,SVL),物理存储资源管理任务从存储资源使用者剥离,由 SVL 独立完成系统的物理存储资源管理。系统的物理存储资源组织和管理形成独立的存储子系统。除了管理物理存储资源,SVL 还需要建立和管理物理存储资源与逻辑存储资源之间的映射关系。对存储资源用户而言,系统的物理存储资源表现为可以通过某种寻址方式访问的逻辑存储空间。
由于 SVL 集中管理系统的物理存储资源,并且物理存储资源的任何变化将被 SVL屏蔽,系统的存储资源管理具有较强的扩展能力。并且,存储资源用户的加入和退出不需要与大规模的物理存储资源直接进行交互,用户的规模扩展同样得到支持。通过集中虚拟化的存储资源组织,BWMMS 面对的存储资源是通过虚拟化存储技术提供的逻辑存储空间,它采用 64 位的逻辑存储资源号标识,形成线性存储地址空间。
2.3  分布式层次化的存储资源组织
存储资源管理机制是存储服务的重要内容。集中的存储资源管理容易导致系统瓶颈出现,不能满足大规模系统的存储资源管理需要。层次化管理结构在存储资源的提供者和使用者间形成明显的层次关系,将资源管理功能分散到各个层次,消除可能的瓶颈限制。
BWMMS 通过层次化机制管理元数据存储资源,如图 1 所示。为避免瓶颈限制,逻辑资源管理功能分散,层次之间通过批量方式管理资源的分配和释放,层次间有效的缓存机制,降低层次化导致的资源请求时间延迟变长问题。
图1 分布式层次化的存储资源组织
元数据存储服务需要管理的逻辑资源包括索引节点、存放元数据的间接块、目录的数据块等,逻辑元数据资源采用 64 位的逻辑元数据资源号标识,支持文件系统规模的扩展。文件系统逻辑元数据资源访问需要经过“逻辑元数据资源〈——〉逻辑存储资源〈——〉物理存储资源”的映射过程。“逻辑存储资源〈——〉物理存储资源”由存储虚拟化层完成,支持物理存储资源的扩展、逻辑存储资源与物理存储资源的动态映射等。为使用扩展的逻辑存储资源,BWMMS 通过动态分配和动态映射方式完成“逻辑元数据资源〈——〉逻辑存储资源”的映射。逻辑存储资源管理者以批量方式从逻辑资源提供者获取可用的逻辑存储资源信息。
元数据的动态分配由逻辑资源使用者驱动,逻辑资源使用者通过元数据访问协议,驱动逻辑元数据资源拥有者分配元数据。逻辑元数据资源拥有者从 64 位线性的逻辑元数据资源进行分配,并动态建立分配的逻辑元数据资源与逻辑存储资源的映射关系。元数据访问通过动态映射完成物理存储资源的定位。逻辑资源使用者首先从逻辑元数据资源拥有者获得动态建立的逻辑元数据资源与逻辑存储资源的映射关系,然后从逻辑资源提供者获得逻辑
存储资源与物理存储资源的映射关系,最后访问物理资源提供者。逻辑元数据资源的释放同样由逻辑资源使用者动态驱动。逻辑元数据资源拥有者解除逻辑元数据资源和逻辑存储资源的映射,记录可用逻辑元数据资源,释放可用逻辑存储资源给逻辑存储资源管理者,逻辑存储资源管理者以主动或者被动的方式将可用逻辑存储资源释放给逻辑存储资源提供者。

本文发布于:2024-09-22 00:56:17,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/97433.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   存储资源   逻辑   服务器   资源   系统   管理
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议