国外、国内Hadoop的应用现状

国外、国内Hadoop的应⽤现状
摘要:Hadoop是⼀个开源的⾼效云计算基础架构平台,其不仅仅在云计算领域⽤途⼴泛,还可以⽀撑搜索引擎服务,作为搜索引擎底层的基础架构系统,同时在海量数据处理、数据挖掘、机器学习、科学计算等领域都越来越受到青睐。本⽂将讲述国外、国内Hadoop的主要应⽤现状。
国外Hadoop的应⽤现状
1.Yahoo
Yahoo是Hadoop的最⼤⽀持者,截⾄2012年,Yahoo的Hadoop机器总节点数⽬超过42?000个,有超过10万的核⼼CPU在运⾏Hadoop。最⼤的⼀个单Master节点集有4500个节点(每个节点双路4核⼼CPUboxesw,4×1TB磁盘,16GBRAM)。总的集存储容量⼤于350PB,每⽉提交的作业数⽬超过1000万个,在Pig中超过60%的Hadoop作业是使⽤Pig编写提交的。
Yahoo的Hadoop应⽤主要包括以下⼏个⽅⾯:
⽀持⼴告系统
⽤户⾏为分析
⽀持Web搜索
反垃圾邮件系统
会员反滥⽤
it内容敏捷
个性化推荐
同时Pig研究并测试⽀持超⼤规模节点集的Hadoop系统。
2.Facebook
Facebook使⽤Hadoop存储内部⽇志与多维数据,并以此作为报告、分析和机器学习的数据源。⽬前Hadoop集的机器节点超过1400台,共计11?200个核⼼CPU,超过15PB原始存储容量,每个商⽤机器节点配置了8核CPU,12TB数据存储,主要使⽤StreamingAPI和JavaAPI编程接⼝。Facebook同时在Hadoop基础上建⽴了⼀个名为Hive的⾼级数据仓库框架,Hive已经正式成为基于Hadoop的Apache⼀级项⽬。此外,还开发了HDFS上的FUSE实现。
A9为Amazon使⽤Hadoop构建了商品搜索索引,主要使⽤StreamingAPI以及C++、Perl和Python⼯具,同时使⽤Java和StreamingAPI分析处理每⽇数以百万计的会话。A9为Amazon构建的索引服务运⾏在100节点左右的Hadoop集上。
4.Adobe
Adobe主要使⽤Hadoop及HBase,同于⽀撑社会服务计算,以及结构化的数据存储和处理。⼤约有超过30个节点的Hadoop-HBase⽣产集。Adobe将数据直接持续地存储在HBase中,并以HBase作为数据源运⾏MapReduce作业处理,然后将其运⾏结果直接存到HBase 或外部系统。Adobe在2008年10⽉就已经将Hadoop和HBase应⽤于⽣产集。
5.CbIR
⾃2008年4⽉以来,⽇本的CbIR(Content-basedInformationRetrieval)公司在AmazonEC2上使⽤Hadoop来构建图像处理环境,⽤于图像产品推荐系统。使⽤Hadoop环境⽣成源数据库,便于Web应⽤对其快速访问,同时使⽤Hadoop分析⽤户⾏为的相似性。
6.Datagraph
Datagraph主要使⽤Hadoop批量处理⼤量的RDF数据集,尤其是利⽤Hadoop对RDF数据建⽴索引。D
atagraph也使⽤Hadoop为客户执⾏长时间运⾏的离线SPARQL查询。Datagraph是使⽤AmazonS3和Cassandra存储RDF数据输⼊和输出⽂件的,并已经开发了⼀个基于MapReduce处理RDF数据的Ruby框架——RDFgrid。
Datagraph主要使⽤Ruby、RDF.rb以及⾃⼰开发的RDFgrid框架来处理RDF数据,主要使⽤HadoopStreaming接⼝。
7.EBay
单集超过532节点集,单节点8核⼼CPU,容量超过5.3PB存储。⼤量使⽤的MapReduce的Java接⼝、Pig、Hive来处理⼤规模的数据,还使⽤HBase进⾏搜索优化和研究。
8.IBM
IBM蓝云也利⽤Hadoop来构建云基础设施。IBM蓝云使⽤的技术包括:Xen和PowerVM虚拟化的Linux操作系统映像及Hadoop并⾏⼯作量调度,并发布了⾃⼰的Hadoop发⾏版及⼤数据解决⽅案。
Last.Fm主要⽤于图表计算、专利申报、⽇志分析、A/B测试、数据集合并等,也使⽤Hadoop对超过百万的曲⽬进⾏⼤规模的⾳频特征分析。
中国之网
节点超过100台机器,集节点配置双四核XeonL5520@2.27GHzL5630@2.13GHz,24GB内存,8TB(4×2TB)存储。
10.LinkedIn
LinkedIn有多种硬件配置的Hadoop集,主要集配置如下:
800节点集,基于Westmere的惠普SL170X与2×4的核⼼,24GB内存,6×2TBSATA。
1900节点集,基于Westmere的超微-HX8DTT,与2×6的核⼼,24GB内存,6×2TBSATA。
1400节点集,基于SandyBridge超微与2×6的核⼼,32GB内存,6×2TBSATA。
使⽤的软件如下:
操作系统使⽤RHEL6.3。
JDK使⽤SUNJDK1.6.0_32。
Apache的Hadoop0.20.2的补丁和ApacheHadoop的1.0.4补丁。
Azkaban和Azkaban⽤于作业调度。
Hive、Avro、Kafka等。
踏雪而归主要使⽤Hadoop应⽤在并⾏化算法领域,涉及的MapReduce应⽤算法如下。
信息检索和分析。
机器⽣成的内容——⽂档、⽂本、⾳频、视频。
⾃然语⾔处理。
项⽬组合包括:
移动社交⽹络。
⽹络爬⾍。
⽂本到语⾳转化。
三星c188
⾳频和视频⾃动⽣成。
12.Openstat
主要利⽤Hadoop定制⼀个⽹络⽇志分析并⽣成报告,其⽣产环境下超过50个节点集(双路四核Xeon处理器,16GB的RAM,4~6硬盘驱动器),还有两个相对⼩的集⽤于个性化分析,每天处理约500万的事件,每⽉15亿美元的交易数据,集每天产⽣⼤约25GB的报告。
使⽤的技术主要包括:CDH、Cascading、Janino。
13.Quantcast
3000个CPU核⼼,3500TB存储,每⽇处理1PB以上的数据,使⽤完全⾃定义的数据路径和排序器的Hadoop调度器,对KFS⽂件系统有突出贡献。
14.Rapleaf
超过80个节点的集(每个节点有2个双核CPU,2TB×8存储,16GBRAM内存);主要使⽤Hadoop、Hive处理Web上关联到个⼈的数据,并引⼊Cascading简化数据流穿过各种处理阶段。
15.WorldLingo
硬件上超过44台服务器(每台有2个双核CPU,2TB存储,8GB内存),每台服务器均运⾏Xen,启动⼀个虚拟机实例运⾏
Hadoop/HBase,再启动⼀个虚拟机实例运⾏Web或应⽤程序服务器,即有88台可⽤的虚拟机;运⾏两套独⽴的Hadoop/HBase机,它们各⾃拥有22个节点。Hadoop主要⽤于运⾏HBase和MapReduce作业,扫描HBase的数据表,执⾏特定的任务。HBase作为⼀种可扩展的、快速的存储后端,⽤于保存数以百万的⽂档。⽬前存储了1200万篇⽂档,近期的⽬标是存储4.5亿篇⽂档。
16.格拉斯哥⼤学的TerrierTeam
超过30个节点的实验集(每节点配置XeonQuadCore2.4GHz,4GB内存,1TB存储)。使⽤Hadoop促进信息检索研究和试验,特别是⽤于TREC,⽤于TerrierIR平台。Terrier的开源发⾏版中包含了基于HadoopMapReduce的⼤规模分布式索引。
17.内布拉斯加⼤学的HollandComputingCenter
运⾏⼀个中等规模的Hadoop机(共计1.6PB存储)⽤于存储和提供物理数据,以⽀持紧凑型μ⼦螺旋型磁谱仪(CompactMuonSolenoid,CMS)实验的计算。这需要⼀类能够以⼏Gbps的速度下载数据,并以更⾼的速度处理数据的⽂件系统的⽀持。
18.VisibleMeasures
将Hadoop作为可扩展数据流⽔线的⼀个组件,最终⽤于VisibleSuite等产品。使⽤Hadoop汇总、存储
和分析与⽹络视频观众收看⾏为相关的数据流。⽬前的⽹格包括超过128个CPU核⼼,超过100TB的存储,并计划⼤幅扩容。
国内Hadoop的应⽤现状
Hadoop在国内的应⽤主要以互联⽹公司为主,下⾯主要介绍⼤规模使⽤Hadoop或研究Hadoop的公司。
1.百度
百度在2006年就开始关注Hadoop并开始调研和使⽤,在2012年其总的集规模达到近⼗个,单集超过2800台机器节点,Hadoop机器总数有上万台机器,总的存储容量超过100PB,已经使⽤的超过74PB,每天提交的作业数⽬有数千个之多,每天的输⼊数据量已经超过7500TB,输出超过1700TB。
百度的Hadoop集为整个公司的数据团队、⼤搜索团队、社区产品团队、⼴告团队,以及LBS团体提供统⼀的计算和存储服务,主要应⽤包括:
数据挖掘与分析。
⽇志分析平台。
数据仓库系统。
推荐引擎系统。
⽤户⾏为分析系统。
同时百度在Hadoop的基础上还开发了⾃⼰的⽇志分析平台、数据仓库系统,以及统⼀的C++编程接⼝,并对Hadoop进⾏深度改造,开发了HadoopC++扩展HCE系统。
2.阿⾥巴巴
阿⾥巴巴的Hadoop集截⾄2012年⼤约有3200台服务器,⼤约30?000物理CPU核⼼,总内存100TB,总的存储容量超过60PB,每天的作业数⽬超过150?000个,每天hivequery查询⼤于6000个,每天扫描数据量约为7.5PB,每天扫描⽂件数约为4亿,存储利⽤率⼤约为80%,CPU利⽤率平均为65%,峰值可以达到80%。阿⾥巴巴的Hadoop集拥有150个⽤户组、4500个集⽤户,为淘宝、天猫、⼀淘、聚划算、CBU、⽀付宝提供底层的基础计算和存储服务,主要应⽤包括:
数据平台系统。
搜索⽀撑。
⼴告系统。
数据魔⽅。
量⼦统计。
淘数据。
推荐引擎系统。
搜索排⾏榜。
为了便于开发,其还开发了WebIDE继承开发环境,使⽤的相关系统包括:Hive、Pig、Mahout、Hbase等。
3.腾讯
腾讯也是使⽤Hadoop最早的中国互联⽹公司之⼀,截⾄2012年年底,腾讯的Hadoop集机器总量超过5000台,最⼤单集约为2000个节点,并利⽤Hadoop-Hive构建了⾃⼰的数据仓库系统TDW,同时还开发了⾃⼰的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务,其⽀持以下产品:
腾讯社交⼴告平台。
搜搜(SOSO)。
拍拍⽹。
腾讯微博。
腾讯罗盘。
QQ会员。
腾讯游戏⽀撑。
QQ空间。
2007年高考试题朋友⽹。
腾讯开放平台。
财付通。
⼿机QQ。
QQ⾳乐。
4.奇虎360
奇虎360主要使⽤Hadoop-HBase作为其搜索引擎so的底层⽹页存储架构系统,360搜索的⽹页可到千亿记录,数据量在PB级别。截⾄2012年年底,其HBase集规模超过300节点,region个数⼤于10万个,使⽤的平台版本如下。
HBase版本:facebook0.89-fb。
HDFS版本:facebookHadoop-20。
奇虎360在Hadoop-HBase⽅⾯的⼯作主要为了优化减少HBase集的启停时间,并优化减少RS异常退出后的恢复时间。
5.华为
华为公司也是Hadoop主要做出贡献的公司之⼀,排在Google和Cisco的前⾯,华为对Hadoop的HA⽅案,以及HBase领域有深⼊研究,并已经向业界推出了⾃⼰的基于Hadoop的⼤数据解决⽅案。
6.中国移动
中国移动于2010年5⽉正式推出⼤云BigCloud1.0,集节点达到了1024。中国移动的⼤云基于Hadoop的MapReduce实现了分布式计算,并利⽤了HDFS来实现分布式存储,并开发了基于Hadoop的数据仓库系统HugeTable,并⾏数据挖掘⼯具集BC-PDM,以及并⾏数据抽取转化BC-ETL,对象存储系统BC-ONestd等系统,并开源了⾃⼰的BC-Hadoop
版本。
中国移动主要在电信领域应⽤Hadoop,其规划的应⽤领域包括:
经分KPI集中运算。
经分系统ETL/DM。
结算系统。
信令系统。
云计算资源池系统。
物联⽹应⽤系统。
E-mail。
IDC服务等。
7.盘古搜索
盘古搜索(⽬前已和即刻搜索合并为中国搜索)主要使⽤Hadoop集作为搜索引擎的基础架构⽀撑系统,截⾄2013年年初,集中机器数量总计超过380台,存储总量总计3.66PB,主要包括的应⽤如下。
⽹页存储。
⽹页解析。
建索引。
Pagerank计算。
⽇志统计分析。
推荐引擎等。
即刻搜索(⼈民搜索)
冬芹
即刻搜索(⽬前已与盘古搜索合并为中国搜索)也使⽤Hadoop作为其搜索引擎的⽀撑系统,截⾄2013年,其Hadoop集规模总计超过500台节点,配置为双路6核⼼CPU,48G内存,11×2T存储,集总容量超过10PB,使⽤率在78%左右,每天处理读取的数据量约为500TB,峰值⼤于1P,平均约为300TB。
即刻搜索在搜索引擎中使⽤sstable格式存储⽹页并直接将sstable⽂件存储在HDFS上⾯,主要使⽤HadoopPipes编程接⼝进⾏后续处理,也使⽤Streaming接⼝处理数据,主要的应⽤包括:
⽹页存储。
解析。
建索引。
推荐引擎。

本文发布于:2024-09-21 20:21:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/566790.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:集群   节点   超过   系统   数据   机器   搜索   处理
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议