一种基于Hadoop的大数据遥感卫星数据处理系统[发明专利]

(10)申请公布号
(43)申请公布日              (21)申请号 201510400968.8
(22)申请日 2015.07.09
G06F 17/30(2006.01)
(71)申请人中国资源卫星应用中心
地址100094 北京市海淀区永丰产业基地丰
贤东路5号
(72)发明人邵俊  徐文  喻文勇  徐大琦
冯春
(74)专利代理机构中国航天科技专利中心
11009
代理人
范晓毅
(54)发明名称
一种基于Hadoop 的大数据遥感卫星数据处
理系统
(57)摘要
本发明提供了一种基于Hadoop 的大数据遥
感卫星数据处理系统,该系统包括数据获取子系
统、Hadoop 数据平台计算处理子系统和应用子
系统,其中,Hadoop 数据平台包括分布式文件子
系统、资源管理子系统、数据库和物理存储单元;
该系统以数据在线化为基础,支持面向应用的分
布式存储和处理,可以同时支持横向跨行业和纵
向跨历史的数据分析。该系统具有灵活的可扩展
性,支持未来新发射的遥感卫星地面系统的快速
建设和在线接入。(51)Int.Cl.
(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页  说明书4页  附图1页CN 105045856 A 2015.11.11
C N 105045856
A
1.一种基于Hadoop的大数据遥感卫星数据处理系统,其特征在于:包括数据获取子系统、Hadoop数据平台、计算处理子系统和应用子系统,所述Hadoop数据平台包括分布式文件子系统、资源管理子系统、数据库和物理存储单元,其中:
数据获取子系统:接收外部采集系统发送的源数据,对所述源数据进行解压缩或格式转换,然后将数据发送到Hadoop数据平台的分布式文件子系统;
分布式文件子系统:接收数据获取子系统发送的数据,以及计算处理子系统发送的数据处理结果,将所述数据和数据处理结果按照分布式存储策略存储在物理存储单元中,并将所述存储数据和数据处理结果的元信息存储在数据库中;
资源管理子系统:接收应用子系统发送的指令,对所述指令进行解析,按照指令解析结果从数据库中读取相应数据的元信息,然后将指令解析结果和数据元信息发送到计算处理子系统;
计算处理子系统:接收资源管理子系统发送的数据元信息和指令解析结果,根据所述数据元信息在Hadoop数据平台的物理存储单元中读取相应数据,然后按照所述指令解析结果对数据进行相应处理,并将数据处理结果发送到分布式文件子系统进行存储;
应用子系统:发送指令到资源管理子系统,并通过分布式文件子系统读取数据处理结果进行显示。
2.根据权利要求1所述的一种基于Hadoop的大数据遥感卫星数据处理系统,其特征在于:Hadoop数据平台的存储物理单元为在线盘阵。
3.根据权利要求1所述的一种基于Hadoop的大数据遥感卫星数据处理系统,其特征在于:计算处理子系统包括多个分布式物理计算单元,并且所述分布式物理计算单元和资源管理子系统通过光纤网络实现互连。
4.根据权利要求3所述的一种基于Hadoop的大数据遥感卫星数据处理系统,其特征在于:资源管理子系统包括MapReduce计算框架,所述计算框架实现数据划分、计算调度和数据归约整合控制,具体控制实现方法如下:
(1)、MapReduce计算框架根据指令解析结果对数据处理任务进行划分,按照任务划分结果将各分任务对应的数据元信息和指令分发到计算处理子系统的各分布式物理计算单元;
(2)、各分布式物理计算单元根据接收到的数据元信息读取相应数据,并按照接收到的指令进行数据处理;
(3)、MapReduce计算框架根据步骤(1)的任务划分结果,对各分布式物理计算单元的数据处理结果进行归约整合,即各分布式物理计算单元按照MapReduce计算框架给出的归约整合指令将数据处理结果发送到分布式文件子系统进行存储。
5.根据权利要求3所述的一种基于Hadoop的大数据遥感卫星数据处理系统,其特征在于:应用子系统包括多个应用服务器,所述应用服务器通过如下方法实现数据查询和下载处理:
应用服务器接收外部输入的数据查询或下载命令,对所述命令进行解析后,按照命令解析结果在Hadoop数据平台的数据库中查数据元信息,然后按照所述数据元信息从物理存储单元中读取数据,并在用户计算机上对所述数据进行显示或下载。
一种基于Hadoop的大数据遥感卫星数据处理系统
技术领域
[0001] 本发明涉及计算机技术在遥感卫星数据处理系统中的应用领域,特别涉及一种基于Hadoop的大数据遥感卫星数据处理系统。
背景技术
[0002] 随着卫星遥感的快速发展,遥感卫星数据在国土、林业等领域逐渐呈现出业务化应用的趋势,而目前遥感卫星数据处理系统的体系架构,基于现有技术发展水平,以满足用户需求为导向,尚未对具有“3V(Volume;Variety;Velocity)”特征且不能用常规手段处理的遥感卫星大数据进行适应性分析与设计。随着硬件成本的降低,网络带宽的提升,分布式计算的兴起,网络技术的发展、智能终端及物
联网等的兴起与应用,遥感卫星数据的时空尺度和要素类型全面拓展,其种类和数据量急剧膨胀,逐渐呈现出多源、多维、大量、多态和高速的大数据特征,且用户在大数据时代对于数据信息的需求呈现多元化趋势,有效处理、存储、分析和应用这些大数据,满足用户的多元化需求已经成为未来遥感卫星数据处理系统设计的关键。
[0003] 当前,为满足多星地面处理系统功能和性能的要求,根据计算机、存储、网络和信息技术的发展,遥感卫星数据处理系统采用集中存储管理、集中处理的体系架构,分为数据获取层、数据存储层、数据处理与分析层及数据应用层,其架构如图1所示。现有的多个系统之间有独立的计算、存储、软件及算法资源,这些资源尚未得到很好的统筹利用。[0004] 然而,随着遥感卫星发射越来越密集,其载荷数据及应用多样性越来越显著,同时遥感卫星数据存储规模急速增长,用户对数据处理及应用的高时效性需求越来越强烈,系统还面临着高可扩展性需求及系统资源整合的紧迫性需求。当前遥感卫星数据处理系统架构无法满足大数据时代面临的新的挑战,必须结合当前大数据技术的发展,解决目前系统面临的挑战。
发明内容
[0005] 本发明的目的在于克服现有技术的不足,提供一种基于Hadoop的大数据遥感卫星数据处理系统,该系统采用基于Hadoop的数据平台实现数据分布式存储和管理,适用于大数据处理和分析。
[0006] 本发明的上述目的通过以下方案实现:
[0007] 一种基于Hadoop的大数据遥感卫星数据处理系统,包括数据获取子系统、Hadoop 数据平台、计算处理子系统和应用子系统,所述Hadoop数据平台包括分布式文件子系统、资源管理子系统、数据库和物理存储单元,其中:
[0008] 数据获取子系统:接收外部采集系统发送的源数据,对所述源数据进行解压缩或格式转换,然后将数据发送到Hadoop数据平台的分布式文件子系统;
[0009] 分布式文件子系统:接收数据获取子系统发送的数据,以及计算处理子系统发送的数据处理结果,将所述数据和数据处理结果按照分布式存储策略存储在物理存储单元
中,并将所述存储数据和数据处理结果的元信息存储在数据库中;
[0010] 资源管理子系统:接收应用子系统发送的指令,对所述指令进行解析,按照指令解析结果从数据库中读取相应数据的元信息,然后将指令解析结果和数据元信息发送到计算处理子系统;
[0011] 计算处理子系统:接收资源管理子系统发送的数据元信息和指令解析结果,根据所述数据元信息在Hadoop数据平台的物理存储单元中读取相应数据,然后按照所述指令解析结果对数据进行相应处理,并将数据处理结果发送到分布式文件子系统进行存储;[0012] 应用子系统:发送指令到资源管理
子系统,并通过分布文件子系统读取数据处理结果进行显示。
[0013] 在上述的基于Hadoop的大数据遥感卫星数据处理系统中,Hadoop数据平台的存储物理单元为在线盘阵。
[0014] 在上述的基于Hadoop的大数据遥感卫星数据处理系统中,计算处理子系统包括多个分布式物理计算单元,并且所述分布式物理计算单元和资源管理子系统通过光纤网络实现互连。
[0015] 在上述的基于Hadoop的大数据遥感卫星数据处理系统中,资源管理子系统包括MapReduce计算框架,所述计算框架实现数据划分、计算调度和数据归约整合控制,具体控制实现方法如下:
[0016] (1)、MapReduce计算框架根据指令解析结果对数据处理任务进行划分,按照任务划分结果将各分任务对应的数据元信息和指令分发到计算处理子系统的各分布式物理计算单元;
[0017] (2)、各分布式物理计算单元根据接收到的数据元信息读取相应数据,并按照接收到的指令进行数据处理;
[0018] (3)、MapReduce计算框架根据步骤(1)的任务划分结果,对各分布式物理计算单元的数据处理结果进行归约整合,即各分布式物理计算单元按照MapReduce计算框架给出的归约整合指令将数据处理结果发送到分布式文件子系统进行存储。
[0019] 在上述的基于Hadoop的大数据遥感卫星数据处理系统中,应用子系统包括多个应用服务器,所述应用服务器通过如下方法实现数据查询和下载处理:
[0020] 应用服务器接收外部输入的数据查询或下载命令,对所述命令进行解析后,按照命令解析结果在Hadoop数据平台的数据库中查数据元信息,然后按照所述数据元信息从物理存储单元中读取数据,并在用户计算机上对所述数据进行显示或下载。
[0021] 本发明与现有技术相比,具有以下优点:
[0022] (1)、本发明采用的Hadoop数据平台采用分布式存储策略实现大数据的存储,相对于现有技术中采用的集中存储方式,这种分布存储策略可以避免存储单元物理损坏造成大片数据丢失的问题,提高了数据存储的安全性,而且这种分布存储策略支持存储物理单元的规模扩展,从而实现存储容量的灵活扩充;
[0023] (2)、本发明采用的Hadoop数据平台采用在线盘阵作为物理存储单元,数据完全采用在线化存储,提高了数据存储和提取效率;
[0024] (3)、本发明的计算处理子系统由多个分布式计算单元组成,每个计算单元处理的数据类型和算法类型互补,各单元之间可以共享计算资源后可以实现多类型数据的多种处
理实现。
附图说明
[0025] 图1为现有技术中遥感卫星数据处理系统组成框图;
[0026] 图2为本发明的基于Hadoop的大数据遥感卫星数据处理系统组成框图。
具体实施方式
[0027] 下面结合附图和具体实施例对本发明作进一步详细的描述:
[0028] 如图2所示的系统组成框图,本发明的基于Hadoop的大数据遥感卫星数据处理系统包括数据获取子系统、Hadoop数据平台、计算处理子系统和应用子系统,其中,Hadoop数据平台包括分布式文件子系统、资源管理子系统、数据库和物理存储单元。
[0029] (一)、数据获取子系统
[0030] 数据获取子系统处于大数据获取层,用于接收外部采集系统发送的源数据。该源数据包括卫星遥感数据、定标数据、基础地理信息数据等。数据获取子系统需要根据源数据的类型进行数据整理,
如果源数据为压缩数据,则需要按照设定的压缩格式对该数据进行解压缩,而且需要将各源数据的数据格式统一为适应Hadoop数据平台的格式。完成数据整理后,将适应于Hadoop数据平台的数据发送到Hadoop数据平台的分布式文件子系统。[0031] (二)、Hadoop数据平台
[0032] 本发明的Hadoop数据平台为基于Hadoop的大数据平台,该平台基于分布式文件系统HDFS建立遥感卫星数据存储策略,可以满足不同时效性数据存储和读取需求,而且该平台采用YARN架构,如同平台的资源管理器,控制整个集并管理应用程序向基础计算资源的分配,允许多个应用程序同时、高效地运行在一个集上。而且该平台具有MapReduce 分布式计算框架,该计算框架可以进行数据划分、计算调度和数据归约整合,从而完成数据信息快速分布式处理。该平台的数据库采用HBase列式数据库系统,可以用来存储大量的数据元信息。该平台还具有spark、storm等计算框架,其中,spark计算框架为数据分析工具,storm用来处理流式数据。该平台通过ZooKeeper分布式协调系统对整个平台的资源进行协同服务。
[0033] 在以上的Hadoop应用环境中,本发明的Hadoop数据平台可以划分为分布式文件子系统、资源管理子系统、数据库和物理存储单元。本发明在工程实现中采用在线盘阵作为数据平台的物理存储单元,从而实现了数据完全在线化存储。
[0034] 分布式文件子系统接收数据获取子系统发送的数据,以及计算处理子系统发送的数据处理结果,
将所述数据和数据处理结果按照分布式存储策略存储在物理存储单元中,并将所述存储数据和数据处理结果的元信息存储在数据库中。该子系统基于Hadoop系统的HDFS分布式文件系统,按照该系统的分布策略进行数据分布存储,这种分布策略的效率高,而且允许对数据平台的在线盘阵进行灵活扩充,即本发明处理系统的存储物理单元为可扩展的在线盘阵。而且由于采用了数据分布式存储,可以避免存储单元物理损坏而引起的整组数据的丢失,提高了数据处理系统的安全性。
[0035] 资源管理子系统接收应用子系统发送的指令,对所述指令进行解析,按照指令解析结果从数据库中读取相应数据的元信息,然后将指令解析结果和数据元信息发送到计算

本文发布于:2024-09-21 18:32:36,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/394849.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   子系统   计算   平台   分布式   处理   结果   物理
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议