基于Hadoop平台的海量数据分析和处理

肉足虫2019.01
1概述
随着计算机技术和互联网技术的飞速发展,大量的
数据不断涌现。企业当务之急是改变其传统架构,以及如何分析这些数据,如何在海量数据面前充分利用数据的价值。同时,如何优化企业管理已成为现代企业转型过程中不可避免的问题。数据量只是大规模数据海量数据挑战的一个方面,速度和多样性是其另外两个方面。速度指的是响应速度需求收集、处理和数据查询数据。多样性指的是改变数据的格式和内容。在海量数据处理中,如何从海量数据中高效、快速地挖掘的潜在价值和转化能力,将为企业提供决策依据,并将成为企业的核心竞争力。数据分析的重要性是毋庸置疑的。但随着数据生成的速度越来越快,数据量越来越大,数据处理技术面临着越来越多的挑战。如何从海量数据中挖掘有用的价值,分析深层含义,转化为可操作的信息,已成为互联网公司必须处理的问题。在云平台上对海量数据处理模型和算法的并行分布式研究具有足够的研究价值。作为Had oop 云平台的研究平台,为大量的Web 日志数据处理模型,基于分布式数据挖掘的A priori 算法的海量数据处理性能的研究,有效地改进完善云平台,促进大数据处理技术发展而服务。
2海量数据的特征
海量数据通常用来描述大量的非结构化数据和半结
构化数据,这些在关系数据库中的数据在进行分析时下载起来需要花费大量的时间和金钱。海量数据分析和云计算常常联系在一起,因为对大数据集的实时分析要求与Map -Reduce 框架一样,分配给计算机数十、数百甚至数千个作业。
海量数据需要特殊的技术通过时间数据来有效处理大量的偏差。适用于海量数据技术,包括大规模并行处理(MPP )数据库、数据挖掘网格、分布式文件系统、分布式数据库、云计算平台、I nternet 和可扩展存储系统。对于海量数据的特性,可以使用量大、多样、价值、高速进行概括,如图1所示。
数据量是巨大的。从TB 跳到PB 乃至EB 级别。迄今为止,这是指相当于200PB 印刷材料包括的数据量,而所有人类的历史共有5EB 数据量。
数据类型范围:这种多样性还允许数据分为结构化数据和非结构化数据。与以前的基于文本的结构化数据存储相比,越来越多的非结构化数据被创造出来,给所有的制造商带来挑战。近年来,由于互联网和通信技术
基金项目:2018年江苏省高职院校青年教师企业实践计划项目(计划编号:2018QYSJ084)阶段性成果。
作者简介:张趁香(1980-),女,副教授,研究方向:软件技术、软件测试、教育教学改革。
公民与法收稿日期:2018-10-11
基于H adoop 平台的海量数据分析和处理
张趁香
苏州工业园区服务外包职业学院,江苏苏州215000)摘
要:从海量数据中迅速提取有效信息是应用软件开发者们在项目开发中遇到的最大难题。该问题
的出发点是在分析Hadoop 集技术组合的关键技术基础和其他现有的分布式存储和计算研究的基础上,以及它们的商业需求和实际的硬件和软件编程能力。提出了一种基于模型和数据结构设计程序的大规模Hadoop 数据处理方法,在组织和使用编程方法的几个过程中,介绍了模型的开发、日志数据预处理模型及其在大型网站中的应用。关键词:海量数据;数据处理;Hadoop 软件
图1海量数据特征图
S tructured
Semi-structured Unstructured
(Text,Video,Images,etc.)
Terabytes-Petabytes Petabytes-Exabytes Exabytes-Zettabytes Zettabytes-Yottabytes
Insight Data-Analytics on data at-rest
Stream illisecond to resnond
Uncertain Inconsistent Ambiguous
Variety Volume Velocity Veracity
Massive
data
95
DOI:10.16184/jkiprg.2019.01.033
2019.01
华硕m5000
的飞速发展,以及数据类型不是单一文本,除了Web 日志、音频、视频、图片和位置信息等数据类型外,数据处理能力也随着提高了。
价值密度低:值密度的级别与数据量成反比。例如,在视频中,一小时的视频,在不间断的监控过程中,可能有用的数据只有12秒。如何以更快的速度完成更强大的机器数据“净化”,是解决当前湍流背景下大数据量问题的一种方法。
快速处理速度:这是区别于传统数据挖掘的最重要的特征。面对大量的数据,数据处理的效率是他们的灵魂。
3Hadoop 云平台体系结构
H adoop 是一种分布式系统基础模式,用户可以在
不知道分布式应用程序开发的背后细节的情况下分布,利用高速计算能力和存储的集。H adoop 包含多个子项目,但主要由分布式存储(H DFS )、分布式计算(Ma pReduce )两个基本部分构成,典型的基本部署架构如图2所示。
分布式文件系统h dfs.hdfs (H adoop 的分布式文件系
统)是一个项目开发的H adoop 分布式文件系统,使用的是主从架构。H DFS 是名称节点(文件索引器节点)和大量的数据节点(da ta nodes )构成的。另外负责将文件块映射到数据节点。提供了由文件索引器节点对文件进行打开、关闭、重命名和目录等一些基本功能。然后由负责响应客户机特定文件读写的数据节点,在处理名称节点发起的创建时,删除并请求备份数据块。
并行计算体系Ma p Reduce 。Ma p Reduce 是一种为多个数据并行处理而设计的并行计算框架。Ma p Reduce
输入数据工作通常分为单独的数据块(由多个一般并行处理任务图划分的数据)。从本地硬盘的H DFS 数据删除映射器,减速器进一步地计算存储过程将导致网络映
射器下的本地硬盘输出(数据/结果)到H DFS 。Map Re -
duce 框架着重于有计划的任务,以及监控程序执行状态的任务,如果失败,将重新执行任务。计算节点和存储节点的计算通常是在一起的,这意味着相同的节点和
Map Reduce 同用于H adoop HDFS 。这使得Map Reduce 框架可以根据存储的数据进行分配。安排任务的情况。
Map Reduce 框架包括一个单独的主服务器作业跟踪器(工作分发服务器)和一组与任务追踪服务器(任务执行服务器)的数据节点一起安装的任务包。主服务器负责从服务器调度,并监控任务,以及重新执行失败的任务。
4基于Ha doop 平台的海量数据分析和处理
海量数据分析系统内部工作处理逻辑基本相同,都冬眠疗法
是用户发送请求,系统处理工作逻辑,并将结果反馈给客户显示。下面是针对海量数据分析系统的软件工程
U ML 类图和消息序列图,以核心数据查询为例,基于整个H adoop 系统的设计描述,海量数据分析系统类图如图3所示。
载脂蛋白e
在海量数据分析系统的类图设计中,所有的业务处理逻辑单元接口的Ba se Service ,Base Controller IMP1
对父类的所有实际业务逻辑采用Base Service 方法,比如查询数据的核心业务,它可以被定义为数据查询服务,采用了Base Service IMP1类,并且它拥有自己的核心方法来查询核心数据这是它独立的业务拓展,所以整个服务层的可重用性大大提高。Base Controller 接口到所有请求映射服务接口,其任务是通过用户页面H TTP
发送请求到服务器,这些请求根据一定的规则被提交至业务逻辑层,直到业务逻辑层处理完成后,调用显示视图,将结果呈现给用户。Base Controller IMP1实行Base
图2Hadoop 云平台架构图
图3
基于Hadoop 的海量数据分析类图
Z o o k e e p e r (C o o r d i n a t i o n )
A m b a r i (M a n a g e m e n t )
H b a s e (C o l u m n a r N o S Q L S t o r e )
P ig (Data Flow)
Hive (SQL)MapReduce
(Distributed Programming Framework)
Hcatalog
(Table&Schema Management)
HDFS
(Hadoop Distributed File System)
Compiled Processing Raw Processing
Structured Storage Untructured Storage
<<i nterface>>BaseController +queryData ()
<<interface>>BaseService +getData ()<<interface>>BaseData +getDataName ()<<interface>>BaseStrategy +getStragyName ()
BaseControllerImpl +queryData ()
BaseServiceImpl +getData ()Data -dataName +getData ()
无锡沦陷日
Strategy -strategyName
+getStrategyName ()
<<interface>>BaseDao +getEntity ()
BaseDaoImpl +getEntity ()
*
1
1*
DataList
-dataValue +putData ()
96
2019.01
多用户加入进来,很多冷门电影被记录下来,使得Us -er -based CF 的覆盖率更好。
5结语
介绍了User -based 的和I tem-based 的协同过滤算
法,并在不同量的数据集中进行了实验,通过准确率和覆盖度两个指标衡量了这两种算法。实验结果表明,随着数据量的增大I tem-based CF 的推荐准确率更高,Us -
er -based CF 的推荐覆盖率更高。
参考文献
[1]Symeonidis P,Nanopoulos A,Papadopouls A,et al.Col -laborative filtering based on user trends [J].Advances
in Data Analysis,2006,4425:375-382.[2]项亮.推荐系统实践[M].北京:人民邮电出版
社,2012,6:38-39.
[3]张宏,王慧.基于用户评分和共同评分项的协同过滤
算法研究[J/OL].计算机应用研究,2019,36(1).
[4]Segaran,T.集体智慧编程[M].北京:电子工业
出版社,2015,3:24-25.
[5]郝立燕,王靖.基于项目流行度的协同过滤Top N
推荐算法[J].计算机工程与设计,2013,34
(10):3499-3500.
Controller 接口,Base Dao 接口对于所有的业务逻辑对象接口实体,该接口的任务是,实体对象通过这些实体访问数据库对象和核心数据文件概括业务逻辑,该接口是交互保护业务逻辑和实际数据源。Base Dao IMP1Base
Dao 实现接口,业务逻辑对象的父类与数据库产生交互,那样可以把所有的交互项都实例化,更方便地面向对象编程。基于Had oop 的海量数据处理如图4所示。
5结语
从海量数据生成以及个性化网络开发着手,结合分
布式计算理论,提出了一种基于模型和数据结构设计程序的大规模Had oop 数据处理方法,首先,对分布式计
算和分布式平台的理论进行了讨论和分析,选择了
Had oop 的基本平台进行研究和分析,结合在组织和使用编程方法的几个过程中,介绍了模型的开发、日志数据预处理模型及其在大型网站中的应用。分析Had oop
集技术组合的关键技术基础和其他现有的分布式存储和计算研究的基础上,以及它们的商业需求和实际的硬件和软件编程能力。并且尝试在实验室中搭建并部署一个验证Had oop 云平台,研究了Had oop 云平台下海量
Web 日志数据处理模型,并给出了性能改进方案和分
析,然后对Had oop 平台进行了改进和性能分析,研究并讨论了基于A priori 算法的分布式数据挖掘算法,并给出了结果。
参考文献
[1]陈文光.大数据与高性能计算[J].大数据,2015,
(01).
[2]曹茜茜.基于Had oop 的电信大数据分析的设计与
实现[D ].西安科技大学,2015.
[3]Tan H,Luo W,Ni L M.Clost:a hadoop-based storage
system for big spatio-temporal data analytics[C]//Pro -ceedings of the 21st ACM international conference on Information and knowledge management.ACM,2012:2139-2143.
[4]Shang W,Jiang Z M,Hemmati H,et al.Assisting de -velopers of big data analytics applications when deplo ying on hadoop clouds [C]//Proceedings of the 2013International Conference on Software Engineering.IEEE Press,2013:402-411.
图4基于Hadoop 的海量数据处理流程图
T ypes of Challenges
Loading Data Heterogeneity Scalability Timeliness Privacy Human
Collaboration
Raw Data Collection
Filter Data
Create Meta Data
Data Discoverv
Organize Data Data Integration Analyzing Integrated
Data
Decision Making
(上接第94页)
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!97

本文发布于:2024-09-21 02:41:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/559739.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   海量   任务   数据处理   研究
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议