海量数据技术在电信业务内应用

钱煜明 丁 岩    冯 军中兴通讯股份有限公司
海量数据技术在电信业务内应用
酸类前言
数据就是财富
时至今日,海量数据时代的来临已经毋庸置疑,尤其是在互联网、电信、金融等行业,几乎已经到了“数据就是业务本身”的地步。物联网、社交网络等新的互联网技术在为人们带来便利的同时,也产生了大量的数据。如何有效地存储和查询这些数据,如何通过数据挖掘,从海量数据中获得有用的信息,为用户提供好的用户体验,增强电信企业的竞争力,是一个挑战。国际数据公司的研究表明,数字领域存在着1.8万亿GB 的数据,企业数据正在以55%的速度逐年增长。如今,只需两天就能创造出自文明诞生以来到2003年所产生的数据的总量。“大数据”已经成为重要的时代特征。麦肯锡全球研究机构2011年5月在《大数据:创新、竞争和生产力的下一个前沿领域》中指出,充分利用大数据可帮助全球个人定位服务提供商增加1000亿美元的收入,帮助欧洲公共部门的管理每年提升2500亿美元产值,帮助美国医疗保健行业每年提升3000亿美元产值,并可帮助美国零售业获得60%以上的净利润增长率。由此可见,充分使用大数据和挖掘大数据商业价值将为行业企业带来强大的竞争力。
数据带来机会
数据分析将感性判断转化为定量分析,在提升客户体验上发挥着重要的作用。数据也是衡量业绩的最佳标准。随着云计算和云存储的推广,越来越
关键词:数据挖掘 位置服务
多的数据可以搜集和利用了。我们面临的问题不再是缺少数据,而是如何透过数据的表象,分析出其背后的意义。数据只有经过有意识的加工、分析之后,才能为我们的工作带来益处。
数据量的增加为电信企业提供了精确把握用户体和个体网络行为模式的基础。如果能够充分利用这些数据,就可以提供个性化、精确化和智能化的广告推送和个性服务,创建比现有广告和产品推广形式性价比更高的全新商业模式。同时,电信企业也可以通过对大数据的把握,寻更多、更好的可增加用户黏性、降低运营成本的方法和途径。
在电信系统内,传统业务模式都是一个个独立的业务系统,之间互不共享存储和内容。随着云计算的引入,业务系统逐步形成共享资源池模式,要求对数据进行统一的存储、处理和展现。融合的数据带来了以往独立系统所不能够展现的一些信息。例如,我们就尝试使用了无线应用协议(wireless application protocol ,WAP )网关的用户互联网浏览行为指导推荐相关的手机应用及阅读内容,取得了较好的效果。
霍氏鲜清数据处理过程需要考虑的关键问题
数据存储 数据分为结构化数据与非结构化
数据。很多数据属于重复的存储数据,如何能够减少系统中无效副本的数量?如何有效利用数据压缩技术减少空间占用和处理时间?如何能够保证数据存储的安全性?如何针对不同类型的数据,实现高效、便利有针对性的存储?
数据查询 仅仅存储数据是不够的,更重要的是如何使用数据。对数据的高性能查询是基本需求之一。不同的使用情况会使得查询和业务分析的数据范围变化很大,因而必须要有合适的工作工具。在许多情况下,SQL查询能够支持快速查询,但传统的支持SQL的关系型数据库存在扩展问题,使得类似Hadoop的数据工具因不能提供索引完成快速查询(Hadoop比较适合一些需要深层分析查询的情况)。大部分情况,我们需要对数据查询工具进行封装,为业务人员提供便于使用的万维网(web)访问页面。
中兴公司研制的DHSS的分布式数据库、分布式数据分析挖掘引擎、分布式搜索引擎以及对应的云服务组件能够将海量数据的查询请求定制为SAAS方式,从而提供服务,有效处理结构化以及非结构化数据的查询需求。
实时数据处理 目前数据处理的模式大多是批量处理。考虑到不影响日间的业务效率,数据分析处理大部分放在半夜进行,第二天再看结果,但这种方式已经无法满足当前业务需求了。对数据处理的实时性需求很大程度是业务方面发展的需要,不仅业务经理希望能够实时看到业务运行的状况,用户也不希望等到第二天才能够享受服务。移动互联网的发展让以往的半夜不再是业务的低谷,而很可能是业务的高峰。因此,互联网需要做到24小时都能提供服务。实时处理成为快速不间断地处理业务系统需求的关键。不仅如此,实时数据处理还能将“批处理瀑布”情况最小化,甚至完全排除。夜间运行的故障会引起瓶颈,在没有人及时发现处理的情况下会导致更严重的延迟甚至事故。实时处理能够在第一时间发现系统的问题,并按照既定策略进行解决。
蓝潮痕
海量数据分析 海量数据的分析处理十分复杂,主要问题包括:(1)海量数据的高效清洗和导入。数据中任何异常都可能出现,在处理前必须要进行清洗,否则很可能在处理到一半时导致系统崩溃。大量数据处理都有时限要求,到了TB级别必须并行处理,否则都无法完成文件传输;(2)当单机无法满足需求计算能力和存储能力需求时,必须实行分布式处理。并行的数据处理算法与串行算法差异较大,对编程能力有较高的要求;(3)在线分析处理(online analytical processing,OLAP)与批量数据计算是互相辅助的关系,数据量大且关系复杂时,生成报表可能需要几个小时,而导入数据仓库,使用OLAP多维分析可能几分钟就能够得到结果;(4)需要利用采样,在损失较少精度情况下大幅降低处理数据量;(5)为提升处理速度,需要优化硬件。
数据的有效管理 由于数据已经处于核心位置,许多电信业务开始以数据为中心,重新审视业务系统,希望以此获取大数据带来的好处。但大数据并不是将数据扔进仓库就可以了,相反需要更加精细化的手段管理,才能够做到有效运营数据。具体措施包括:(1)考虑大数据的安全;(2)重新考虑数据解释、分析和预测的能力;(3)建立数据驱动业务的工作模式,将以领导意志为导向转变为以数据为导向;(4)解决流程与数据的矛盾,将流程与数据分离;(5)业务构建以应用为中心转向以数据为中心。面对不同的数据库和分析环境,企业向外和向上的扩展能力是非常重要的。具有简便易行的向外扩展功能是Hadoop迅速被企业采用的原因。其关键在于利用低成本的服务器集进行大规模并行处理,比其他的数据管理方式需要更少的专业技能,从而降低了对人员的要求,能够更经济地实现平滑扩展。
下面介绍电信业务内各种海量数据应用及其相应的处理方法。
海量数据的存储与使用
在云计算技术大规模发展之前,对数据存储的方式很简单,非关系型数据存储在文件系统中,关系型数据存储到数据库里。数据通过各种备份和复制方法保留多份拷贝。如今,我们更倾向于针对不同的业务场景和需求,使用不同的存储架构来满足需求。
为了满足可扩展性需求,针对非结构化数据,我们自研了ZXDFS 分布式文件系统,主要用于保存海量的数据文件,比如日志信息、话单信息、用户镜像文件、数据库备份信息和视频文件等。该系统目前已经在IPTV 、云计算等相关项目中广泛使用了。对于文件系统,为了提升性能,关键在于要将冷热数据分离,大小文件分离;根据服务等级协议(service-level agreement ,SLA ),还需采用不同的副本及备份策略。一套完整的文件系统实际上是由多套子文件系统组合而成。冷热数据分离后,我们可以针对冷热数据采用不同的设备和存储策略。热点数据基本上保存在内存和SSD 盘内,冷数据使用SATA 硬盘保存,这样可达到的性价比最高。大小文件分离也有助于选择合适的块大小,减少元数据量。
根据不同的应用情况,结构化的数据存储可细分为OLTP (on-line transaction processing ,联机事务处理系统)、OLAP 以及对于一致性要求稍低的NoSQL 存储。中兴在这三个方面均有对应的产品,下面分别介绍。
DHSS 是自主研发的分布式数据库,用于应对海量结构化数据的查询与OLAP 分析,提供SQL 方式访问接口,主要用在日志、话单等数据的实时查询数据仓库以及即时数据分析等。通过对访问层和存储层进行优化,能够存储PB 级数据,并在此基础上实现数据查询。
ZXeBase 是自研的内存数据库。内存数据库面
临的是高性能事务性数据处理,比如与计费、订购等相关的各种操作。为了让内存数据库能够支持海量数据,与普通的单机版数据库不同,我们提供了内存数据库集的解决方案,让数据通过
分片方式自动分配到多台主机并行进行数据计算。为了实现OLTP 处理,虽然一个数据可以有多个副本,但只有一个主副本是可写的,通过读写分离方式降低热点数据的压力,而且一个事物相关
狮子王球
的所有写操作必须在同一个节点上完成。
ZXDCache 是NoSQL 数据库的典型实现,应对高性能、低耦合数据的读写请求。对数据的关联操作由数据库本身转移到应用层面完成。应用的范围包括小图片存取,用户信息保存,社会网络服务(social network service ,SNS )关系管理,海量消息管理等。ZXDCache 同样支持三级存储策略LRU ,包括内存、SSD 和硬盘,根据不同的应用选择最优的存储介质,在保证大容量的同时,提供高效的数据读写方式。
数据营销与商业智能
电信系统对于商业智能的典型需求有8个:
固定的报表 比如定期反映用户访问量、报
告产品销售量等;
即席查询(ad-hoc query) 支持灵活的查
询分析,满足报表之外的信息需求。例如,查看有哪些客户购买了某些问题产品,以实现主动客户服务;
多维分析 从多个角度分析查询问题答案。
比如从地理区域、产品线、时间、用户等角度寻销售量下降的原因在哪里;
预警功能 例如某季度销售收入未达标时可以
把数字标成高亮,或发送提醒消息进行重点关注;
统计分析 例如通过回归分析,在价格、产
品、服务和效率等诸因素中出影响客户满意度的
图1 结构化数据存储
分析OLAP 事物OLTP
互联网NO SQL
高高低
海量存储系统·DHSS
·GreenPlum ·Teradata
开源数据库·PostgreSQL ·MySQL
内存数据库·ZXeBase ·TimesTen ·SolidDB
英联邦成员国
NoSQL数据系统·ZXDCache  ·MongoDB ·Cassandra ·HBase
性能需求图
新技术产品图
关键因素;
预测分析(forecasting) 例如预测未来一个月系统访问量是否会增加,应该如何增加空间和性能部署,才能满足业务需求,保证用户的服务体验;
数据挖掘建模分析 基于用户行为,细分客户,寻每个客户的行为特征以及潜在需求,推送个性化的信息和服务;
优化分析 从业务流程出发,研究如何进行优化能够提升用户体验,降低系统成本。对于系统来说,需要重点关注用户使用最频繁和用户量最大的功能,对于很少有用户使用的功能要勇于舍弃。
从技术方案角度,对Map-Reduce类数据处理与关系型数据处理进行比较,如表1所示。
由此看来,单纯的Hadoop集并不适合业务人员进行即时OLAP分析查询,主要原因在于:
1 Hadoop本质上是批量处理模式,业务分析很多情况需要对数据的即时查询、钻取;
2 OLAP分析必须进行大量的数据分组与表关联,这个不是Hadoop的强项,Hadoop根本没有索引概念。面向OLAP分析的数据库如我们研制的DHSS 对此专门做了混合存储、压缩、延迟加载、对存储数据块的预统计以及分片索引等技术优化。
传统的关系型数据库在进行商业智能(business intelligence,BI)分析方面也有缺陷,目前基于关系
型数据库OLAP存在的最大问题是:业务灵活多变,必然导致业务模型随之经常发生变化,而业务维度和度量一旦发生变化,技术人员需要把整个多维立方体(cube)重新定义并重新生成,业务人员只能在此多维立方体上进行多维分析,这样就限制了业务人员快速改变问题分析的角度,致使所谓的商业智能系统成为死板的日常报表系统。
将Hadoop与分布式关系型数据库结合来进行OLAP分析,能够最大程度地满足用户需求。首先将O L A P分析进一步细化为在线数据查询分析操作和离线数据订购操作;之后采用Hadoop集与DHSS分布式数据库结合进行多维数据集结合的方式来进行处理。Hadoop进行数据预处理、装载、转换、复杂计算, 数据挖掘以及批量的报表数据处理。DHSS负责即时多维分析。使用Hadoop进行离线多维分析,首先能解决维度难以改变的问题,利用Hadoop中数据非结构化的特征,采集来的数据本身就包含大量冗余信息。同时也可以将大量冗余的维度信息整合到事实表中,在冗余维度下灵活地改变问题分析的角度;其次利用Hadoop MapReduce强大的并行化处理能力,无论OLAP分析中的维度增加多少,开销并不显著增长。换言之,Hadoop可以支持一个巨大无比的多维立方体,包含了无数你想到或者想不到的维度,而且每次多维分析,都可以支持成千上百个维度,并不会显著影响分析的性能。
DHSS由于可以提供列式存储模式,因此比较适合于高维度稀疏矩阵的存储我们可以基于DHSS 构建巨大的多维立方体,在此基础上进行任意的在线分析。
系统主要由四部分构成:(1)数据采集处理系统;(2)并行数据分析挖掘系统;(3)数据仓库及数据集市;(4)实时数据处理分析。
表1 Map-Reduce
类数据处理与关系型数据处理的比较
数据采集处理系统从各种数据源采集数据,经过ETL 处理和数据清洗等过程后,导入到数据仓库内。并行计算系统对数据仓库内数据进行批处理方式的数据分析、汇总及挖掘,结果放入数据集市内供业务使用。业务人员或业务系统使用数据集市内数据,对数据进行更进一步的多维分析、报表和查
询等操作。对于需要立即处理的一些数据,典型场景是事件营销,例如用户进入百货商店内,根据用户历史画像记录,我们向用户推送该商场的不同商品。这里我们使用C E P 复杂事件处理引擎完成。
WAP用户分析
与画像
用户画像,在某些文献或系统中也叫用户模型(user model )或用户描
述文件(user profile ),它是对系统用户的基本属性、行为习惯和喜好的刻画。用户的基本属性包括用户的姓名、年龄、性别和地域等身份信息以及职业、收入和兴趣爱好等信息,这些信息通常是静止不变的,所以又称为静态用户画像;用户行为和兴趣的刻画源于对用户使用系统内容和服务的分析,
图2 电信业务大数据分析全景图
藏羌锅庄图3 WAP 用户画像流程
用户偏好分类体系
WAP网页
WAP用户日志结构化网页库网址库
IP库
网页-分类库
结构化网页库1
结构化网页库2
用户偏好分类体系
网址-分类库
IP-分类库
网页-分类库
用户偏好分类体系
No.1:
WAP网站爬取及分类流程
No.2:
WAP用户行为统计及偏好计算流程
偏好展现
偏好调整
用户-偏好-偏好度
IP-分类矩阵
URL-分类矩阵网页-分类矩阵
用户-IP矩阵用户-URL矩阵用户-网站矩阵
WAP用户日志

本文发布于:2024-09-22 12:36:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/37793.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   用户   分析   业务   系统   处理   进行   能够
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议