运营商经营分析系统大数据建设项目汇报

运营商经营分析系统大数据建设项目汇报
大数据项目综述
一、建设背景
在“移动互联网时代”的战略转型下,运营商从话务运营转向了流量运营,而完成“流量运营”需要引入互联网数据,以及网络信令等海量数据。为此,*省建设了经分大数据项目,来满足移动互联网海量数据的存储、计算、以及移动互联网用户内容分析支撑。并通过标准的数据访问服务,为经分仓库等系统共享大数据分析成果,为实现精准营销、实时营销提供了基础分析数据。
二、建设历程
*省经分大数据项目,在我司前期相继完成了对大数据重点技术,包括云ETL、大数据平台、流量经分wap日志分析等方面的实验与研发后,于2013年2月正式启动*省经分大数据项目。具体建设历程如下:
1、云ETL研究:在2011年启动了大数据平台关键技术的实验,通过与高等院校专家合作,完成了云ETL课题研究,同时优化了Hadoop平台;
2、大数据平台设计开发:2012年研发中心大数据组,着手设计开发TBE。TBE是针对大数据生态环境的部署、管理、运维于一体的管理平台,覆盖离线计算、海量数据查询、实时流计算三个技术方向的平台。包括hadoop HDFS、hadoop MR V1/V2、Hive 、Zookeeper、storm、redis的方案选型、平台架构和底层调优,构建了一套高效、可用、可运维的大数据平台。
3、流量经分WAP日志分析实验:2012年9月– 2013年4月,大数据研发团队完成了流量经分WAP日志分析专题的技术实现路线实验。主要基于华为、诺西的wap网关日志,按集团规范完成网页采集、内容处理、用户行为分析,输出用户级wap流量视图、网站级流量视图和终端APP视图等分析统计数据。
4、*省经分大数据项目实施:2013年2月中旬,正式启动大数据平台硬件集成和软件实施。具体实施过程包括:在3月完成了大数据平台集搭建;4月初完成大数据平台的安装部署以及基于华为、诺西的wap网关日志的大数据处理流程调试;4月底完成了数据源从W
AP日志接口到Gn口数据的调整;5-6月完成了11类流量类基础数据的统计输出。
当前平台的实施上线情况如下:
A、平台集情况:建成混合了sas和sata硬盘的26台PC大数据平台集,可用存储60T;集功能规划:2台爬虫,2台NameNode,5台管理运维平台(包括hive、hbase、mr操控节点;zk;数据库;管理平台),17台用于数据计算节点;
B、数据处理方面:已采用Gn口数据源作为大数据平台的主要数据源,基于26台PC平台集,2小时完成Gn口25亿条记录的业务流程处理,并与仓库互动实现流量专题的海量基础数据计算;
C、数据分析方面:为经分仓库输出11个流量类基础数据,其中4个流量报表已经完成前台展现,可以开展后续相关业务应用。
通过项目的实施上线,验证了该大数据平台和大数据处理技术在稳定性、可用性、时效性方面能够满足系统要求。在项目下一步规划中,将继续完善平台数据处理技术、安全管控、及数据分析等能力的支撑。
当前关键处理实验情况:
A、海量详单实验情况:6月初基于HBase完成50亿记录规模的用户上网日志详单的查询实验,通过建模和调优,目前可以在2毫秒内定位任意用户某天的所有访问记录。通过1亿、5亿、10亿和50亿规模数据的查询对比实验和原理分析,通过扩展机器规模实现千亿级以上的海量数据查询。
B、基于流计算的A口信令预研情况:
完成流计算平台监控、告警和管理功能。基于A口信令数据结构,按信令中携带的时间、地点、人物和动作等通过业务规则实现实时用户提取的设计和研发。
三、建设内容
加勒比海盗3电影*省经分大数据项目,是基于大数据平台进行设计实施。项目的整体建设内容,主要包括了四大部分:大数据平台、并行云ETL、网页内容采集处理、大数据日志处理等。
大数据平台:包括hadoop平台的安装、部署、监控、告警、管理和hadoop平台的调优;
并行云ETL:负责海量数据清洗,采用并行加载技术加载到大数据平台中;尼龙套管
网页内容采集处理:负责用户访问网页内容的采集和网页内容的文本挖掘;
大数据处理:负责网页日志处理、用户行为分析汇总、网站流量分析汇总等分析技术处理。
四、总体架构
系统总体架构如下图所示:
硬件层由X86集构成整体基础计算能力,采用低成本的x86架构设备搭建,满足项目对海量数据处理的高计算能力的要求。
大数据处理平台:采用基于HADOOP的分布式处理架构,以HADOOP开源软件为核心的分布式计算平台是业界常用的海量数据存储与处理主流方式,满足商用计算对海量数据处理高可靠性、高可用性要求。在平台层上,根据本项目要求主要建设云ETL和DM两类应用,初步满足实际业务应用需要。同时在X86集上实现对互联网数据采集与相关应用。
数据仓库:数据仓库是*省现有数据分析计算平台,具有大量的应用模型与业务数据积累,在本项目中作为汇总数据存储与业务分析平台,接受分布式平台预处理后的较小规模数据,结合已有数据进行复杂业务分析。
前端应用:体现业务应用支撑能力。本项目将充分复用已有应用的用户体验与习惯,构建流量监控与流量服务两大类应用,满足具体营销过程中对海量数据分析结果的需要。
项目成果
一、数据源
1、WAP网关日志接口:
接口说明:该类接口涉及13个接口,平均每天6亿条记录,300M存储。
接口使用:自2012年9月起,基于华为和诺西的wap网关日志进行了内容挖掘实验,分析了cmwap用户行为等业务。
2、Gn口数据接口:
接口说明:该类接口涉及2个接口,3台接口服务器,平均每天25亿条记录,0.8T存储。
存瑞小学接口使用:自2013年4月底,分析数据源切换到中兴提供的Gn口数据,覆盖cmwap与cmnet。
3、流量详单关键数据字段:
北大投毒案小额信贷运作与管理
字段
说明
手机号码
该话单对应的手机号码编码成唯一序列码。(因数据安全要求,手机号码采用序列号。)保证手机号码与序列号唯一对应关系
IMSI
手机卡IMSI号。
URL
实际访问URL。网关转码后的URL
UA
user agent
请求方法
HTTP协议定义的请求方法。例如GET、POST、HEAD等。
MIME
mimetype。网关转码后的MIME TYPE
远程端口
远程端口号
反馈状态
网站Web/wap服务器返回状态吗
流量(内容)
下载流量,字节。流量采集值,即应答消息Content-length长度,按照文件大小统计时使用。单位为字节。
开始时间(终端)
终端URL请求时间
KINGXCON
结束时间(终端)
终端访问终止时间
接入点
接入点,cmwap、cmnet等。
二、数据输出

本文发布于:2024-09-22 19:36:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/191860.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   平台   流量
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议