国外、国内Hadoop的应用现状

国外、国内Hadoop的应⽤现状

摘要：Hadoop是⼀个开源的⾼效云计算基础架构平台，其不仅仅在云计算领域⽤途⼴泛，还可以⽀撑搜索引擎服务，作为搜索引擎底层的基础架构系统，同时在海量数据处理、数据挖掘、机器学习、科学计算等领域都越来越受到青睐。本⽂将讲述国外、国内Hadoop的主要应⽤现状。

国外Hadoop的应⽤现状

1.Yahoo

Yahoo是Hadoop的最⼤⽀持者，截⾄2012年，Yahoo的Hadoop机器总节点数⽬超过42?000个，有超过10万的核⼼CPU在运⾏Hadoop。最⼤的⼀个单Master节点集有4500个节点（每个节点双路4核⼼CPUboxesw，4×1TB磁盘，16GBRAM）。总的集存储容量⼤于350PB，每⽉提交的作业数⽬超过1000万个，在Pig中超过60%的Hadoop作业是使⽤Pig编写提交的。

Yahoo的Hadoop应⽤主要包括以下⼏个⽅⾯：

⽀持⼴告系统

⽤户⾏为分析

⽀持Web搜索

反垃圾邮件系统

会员反滥⽤

it内容敏捷

个性化推荐

同时Pig研究并测试⽀持超⼤规模节点集的Hadoop系统。

2.Facebook

Facebook使⽤Hadoop存储内部⽇志与多维数据，并以此作为报告、分析和机器学习的数据源。⽬前Hadoop集的机器节点超过1400台，共计11?200个核⼼CPU，超过15PB原始存储容量，每个商⽤机器节点配置了8核CPU，12TB数据存储，主要使⽤StreamingAPI和JavaAPI编程接⼝。Facebook同时在Hadoop基础上建⽴了⼀个名为Hive的⾼级数据仓库框架，Hive已经正式成为基于Hadoop的Apache⼀级项⽬。此外，还开发了HDFS上的FUSE实现。

A9为Amazon使⽤Hadoop构建了商品搜索索引，主要使⽤StreamingAPI以及C++、Perl和Python⼯具，同时使⽤Java和StreamingAPI分析处理每⽇数以百万计的会话。A9为Amazon构建的索引服务运⾏在100节点左右的Hadoop集上。

4.Adobe

Adobe主要使⽤Hadoop及HBase，同于⽀撑社会服务计算，以及结构化的数据存储和处理。⼤约有超过30个节点的Hadoop-HBase⽣产集。Adobe将数据直接持续地存储在HBase中，并以HBase作为数据源运⾏MapReduce作业处理，然后将其运⾏结果直接存到HBase 或外部系统。Adobe在2008年10⽉就已经将Hadoop和HBase应⽤于⽣产集。

5.CbIR

⾃2008年4⽉以来，⽇本的CbIR（Content-basedInformationRetrieval）公司在AmazonEC2上使⽤Hadoop来构建图像处理环境，⽤于图像产品推荐系统。使⽤Hadoop环境⽣成源数据库，便于Web应⽤对其快速访问，同时使⽤Hadoop分析⽤户⾏为的相似性。

6.Datagraph

Datagraph主要使⽤Hadoop批量处理⼤量的RDF数据集，尤其是利⽤Hadoop对RDF数据建⽴索引。D

atagraph也使⽤Hadoop为客户执⾏长时间运⾏的离线SPARQL查询。Datagraph是使⽤AmazonS3和Cassandra存储RDF数据输⼊和输出⽂件的，并已经开发了⼀个基于MapReduce处理RDF数据的Ruby框架——RDFgrid。

Datagraph主要使⽤Ruby、RDF.rb以及⾃⼰开发的RDFgrid框架来处理RDF数据，主要使⽤HadoopStreaming接⼝。

7.EBay

单集超过532节点集，单节点8核⼼CPU，容量超过5.3PB存储。⼤量使⽤的MapReduce的Java接⼝、Pig、Hive来处理⼤规模的数据，还使⽤HBase进⾏搜索优化和研究。

8.IBM

IBM蓝云也利⽤Hadoop来构建云基础设施。IBM蓝云使⽤的技术包括：Xen和PowerVM虚拟化的Linux操作系统映像及Hadoop并⾏⼯作量调度，并发布了⾃⼰的Hadoop发⾏版及⼤数据解决⽅案。

Last.Fm主要⽤于图表计算、专利申报、⽇志分析、A/B测试、数据集合并等，也使⽤Hadoop对超过百万的曲⽬进⾏⼤规模的⾳频特征分析。

中国之网

节点超过100台机器，集节点配置双四核XeonL5520@2.27GHzL5630@2.13GHz，24GB内存，8TB（4×2TB）存储。

10.LinkedIn

LinkedIn有多种硬件配置的Hadoop集，主要集配置如下：

800节点集，基于Westmere的惠普SL170X与2×4的核⼼，24GB内存，6×2TBSATA。

1900节点集，基于Westmere的超微-HX8DTT，与2×6的核⼼，24GB内存，6×2TBSATA。

1400节点集，基于SandyBridge超微与2×6的核⼼，32GB内存，6×2TBSATA。

使⽤的软件如下：

操作系统使⽤RHEL6.3。

JDK使⽤SUNJDK1.6.0_32。

Apache的Hadoop0.20.2的补丁和ApacheHadoop的1.0.4补丁。

Azkaban和Azkaban⽤于作业调度。

Hive、Avro、Kafka等。

踏雪而归主要使⽤Hadoop应⽤在并⾏化算法领域，涉及的MapReduce应⽤算法如下。

信息检索和分析。

机器⽣成的内容——⽂档、⽂本、⾳频、视频。

⾃然语⾔处理。

项⽬组合包括：

移动社交⽹络。

⽹络爬⾍。

⽂本到语⾳转化。

三星c188

⾳频和视频⾃动⽣成。

12.Openstat

主要利⽤Hadoop定制⼀个⽹络⽇志分析并⽣成报告，其⽣产环境下超过50个节点集（双路四核Xeon处理器，16GB的RAM，4～6硬盘驱动器），还有两个相对⼩的集⽤于个性化分析，每天处理约500万的事件，每⽉15亿美元的交易数据，集每天产⽣⼤约25GB的报告。

使⽤的技术主要包括：CDH、Cascading、Janino。

13.Quantcast

3000个CPU核⼼，3500TB存储，每⽇处理1PB以上的数据，使⽤完全⾃定义的数据路径和排序器的Hadoop调度器，对KFS⽂件系统有突出贡献。

14.Rapleaf

超过80个节点的集（每个节点有2个双核CPU，2TB×8存储，16GBRAM内存）；主要使⽤Hadoop、Hive处理Web上关联到个⼈的数据，并引⼊Cascading简化数据流穿过各种处理阶段。

15.WorldLingo

硬件上超过44台服务器（每台有2个双核CPU，2TB存储，8GB内存），每台服务器均运⾏Xen，启动⼀个虚拟机实例运⾏

Hadoop/HBase，再启动⼀个虚拟机实例运⾏Web或应⽤程序服务器，即有88台可⽤的虚拟机；运⾏两套独⽴的Hadoop/HBase机，它们各⾃拥有22个节点。Hadoop主要⽤于运⾏HBase和MapReduce作业，扫描HBase的数据表，执⾏特定的任务。HBase作为⼀种可扩展的、快速的存储后端，⽤于保存数以百万的⽂档。⽬前存储了1200万篇⽂档，近期的⽬标是存储4.5亿篇⽂档。

16.格拉斯哥⼤学的TerrierTeam

超过30个节点的实验集（每节点配置XeonQuadCore2.4GHz，4GB内存，1TB存储）。使⽤Hadoop促进信息检索研究和试验，特别是⽤于TREC，⽤于TerrierIR平台。Terrier的开源发⾏版中包含了基于HadoopMapReduce的⼤规模分布式索引。

17.内布拉斯加⼤学的HollandComputingCenter

运⾏⼀个中等规模的Hadoop机（共计1.6PB存储）⽤于存储和提供物理数据，以⽀持紧凑型μ⼦螺旋型磁谱仪（CompactMuonSolenoid，CMS）实验的计算。这需要⼀类能够以⼏Gbps的速度下载数据，并以更⾼的速度处理数据的⽂件系统的⽀持。

18.VisibleMeasures

将Hadoop作为可扩展数据流⽔线的⼀个组件，最终⽤于VisibleSuite等产品。使⽤Hadoop汇总、存储

和分析与⽹络视频观众收看⾏为相关的数据流。⽬前的⽹格包括超过128个CPU核⼼，超过100TB的存储，并计划⼤幅扩容。

国内Hadoop的应⽤现状

Hadoop在国内的应⽤主要以互联⽹公司为主，下⾯主要介绍⼤规模使⽤Hadoop或研究Hadoop的公司。

1.百度

百度在2006年就开始关注Hadoop并开始调研和使⽤，在2012年其总的集规模达到近⼗个，单集超过2800台机器节点，Hadoop机器总数有上万台机器，总的存储容量超过100PB，已经使⽤的超过74PB，每天提交的作业数⽬有数千个之多，每天的输⼊数据量已经超过7500TB，输出超过1700TB。

百度的Hadoop集为整个公司的数据团队、⼤搜索团队、社区产品团队、⼴告团队，以及LBS团体提供统⼀的计算和存储服务，主要应⽤包括：

数据挖掘与分析。

⽇志分析平台。

数据仓库系统。

推荐引擎系统。

⽤户⾏为分析系统。

同时百度在Hadoop的基础上还开发了⾃⼰的⽇志分析平台、数据仓库系统，以及统⼀的C++编程接⼝，并对Hadoop进⾏深度改造，开发了HadoopC++扩展HCE系统。

2.阿⾥巴巴

阿⾥巴巴的Hadoop集截⾄2012年⼤约有3200台服务器，⼤约30?000物理CPU核⼼，总内存100TB，总的存储容量超过60PB，每天的作业数⽬超过150?000个，每天hivequery查询⼤于6000个，每天扫描数据量约为7.5PB，每天扫描⽂件数约为4亿，存储利⽤率⼤约为80%，CPU利⽤率平均为65%，峰值可以达到80%。阿⾥巴巴的Hadoop集拥有150个⽤户组、4500个集⽤户，为淘宝、天猫、⼀淘、聚划算、CBU、⽀付宝提供底层的基础计算和存储服务，主要应⽤包括：

数据平台系统。

搜索⽀撑。

⼴告系统。

数据魔⽅。

量⼦统计。

淘数据。

推荐引擎系统。

搜索排⾏榜。

为了便于开发，其还开发了WebIDE继承开发环境，使⽤的相关系统包括：Hive、Pig、Mahout、Hbase等。

3.腾讯

腾讯也是使⽤Hadoop最早的中国互联⽹公司之⼀，截⾄2012年年底，腾讯的Hadoop集机器总量超过5000台，最⼤单集约为2000个节点，并利⽤Hadoop-Hive构建了⾃⼰的数据仓库系统TDW，同时还开发了⾃⼰的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务，其⽀持以下产品：

腾讯社交⼴告平台。

搜搜（SOSO）。

拍拍⽹。

腾讯微博。

腾讯罗盘。

QQ会员。

腾讯游戏⽀撑。

QQ空间。

2007年高考试题朋友⽹。

腾讯开放平台。

财付通。

⼿机QQ。

QQ⾳乐。

4.奇虎360

奇虎360主要使⽤Hadoop-HBase作为其搜索引擎so的底层⽹页存储架构系统，360搜索的⽹页可到千亿记录，数据量在PB级别。截⾄2012年年底，其HBase集规模超过300节点，region个数⼤于10万个，使⽤的平台版本如下。

HBase版本：facebook0.89-fb。

HDFS版本：facebookHadoop-20。

奇虎360在Hadoop-HBase⽅⾯的⼯作主要为了优化减少HBase集的启停时间，并优化减少RS异常退出后的恢复时间。

5.华为

华为公司也是Hadoop主要做出贡献的公司之⼀，排在Google和Cisco的前⾯，华为对Hadoop的HA⽅案，以及HBase领域有深⼊研究，并已经向业界推出了⾃⼰的基于Hadoop的⼤数据解决⽅案。

6.中国移动

中国移动于2010年5⽉正式推出⼤云BigCloud1.0，集节点达到了1024。中国移动的⼤云基于Hadoop的MapReduce实现了分布式计算，并利⽤了HDFS来实现分布式存储，并开发了基于Hadoop的数据仓库系统HugeTable，并⾏数据挖掘⼯具集BC-PDM，以及并⾏数据抽取转化BC-ETL，对象存储系统BC-ONestd等系统，并开源了⾃⼰的BC-Hadoop

版本。

中国移动主要在电信领域应⽤Hadoop，其规划的应⽤领域包括：

经分KPI集中运算。

经分系统ETL/DM。

结算系统。

信令系统。

云计算资源池系统。

物联⽹应⽤系统。

E-mail。

IDC服务等。

7.盘古搜索

盘古搜索（⽬前已和即刻搜索合并为中国搜索）主要使⽤Hadoop集作为搜索引擎的基础架构⽀撑系统，截⾄2013年年初，集中机器数量总计超过380台，存储总量总计3.66PB，主要包括的应⽤如下。

⽹页存储。

⽹页解析。

建索引。

Pagerank计算。

⽇志统计分析。

推荐引擎等。

即刻搜索（⼈民搜索）

冬芹

即刻搜索（⽬前已与盘古搜索合并为中国搜索）也使⽤Hadoop作为其搜索引擎的⽀撑系统，截⾄2013年，其Hadoop集规模总计超过500台节点，配置为双路6核⼼CPU，48G内存，11×2T存储，集总容量超过10PB，使⽤率在78%左右，每天处理读取的数据量约为500TB，峰值⼤于1P，平均约为300TB。

即刻搜索在搜索引擎中使⽤sstable格式存储⽹页并直接将sstable⽂件存储在HDFS上⾯，主要使⽤HadoopPipes编程接⼝进⾏后续处理，也使⽤Streaming接⼝处理数据，主要的应⽤包括：

⽹页存储。

解析。

建索引。

推荐引擎。

本文发布于:2024-09-21 20:21:07，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/566790.html

上一篇：营销推广-社会化媒体营销的传播途径和方式

下一篇：SEO面试经典问题及答案整理