数据中台总结

2019是数据中台的元年,但是数据中台为啥突然⽕了?
数据中台被誉为⼤数据的下⼀站,由阿⾥兴起,核⼼思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了⼈们谈论的焦点。在 3 ⽉ 15 ⽇ ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。
数据中台的概念是最早由阿⾥巴巴⾸次提出,是为了应对像双⼗⼀这样的业务⾼峰、应对⼤规模数据的线性可扩展问题、应对复杂业务系统的解耦问题,⽽在技术、组织架构等⽅⾯采取的⼀些变⾰,其本质上还是⼀个平台,阿⾥称之为“共享服务平台(Shared Platform as Service,SPAS)”。SPAS采⽤的是基于⾯向服务的架构SOA理念的 “去中⼼化”的服务架构,所有的服务都是以“点对点”的⽅式进⾏交互。阿⾥之所以选择“去中⼼化”的分布式服务架构,主要是考虑到扩展性。
数据中台是指通过数据技术,对海量数据进⾏采集、计算、存储、加⼯,同时统⼀标准和⼝径。
数据中台把数据统⼀之后,会形成标准数据,再进⾏存储,形成⼤数据资产层,进⽽为客户提供⾼效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复⽤的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。
数据中台建设的基础还是数据仓库和数据中⼼,并且在数仓模型的设计上也是⼀脉传承,之所以我们
现在处处推崇数据中台建设及应⽤,⼀个是因为数据中台确实有过⼈之处,另⼀个是这套模型在阿⾥体现了巨⼤的应⽤价值。
数据中台跟之前⼤数据平台最⼤的区别,在于数据中台距离业务更近,能更快速地响应业务和应⽤开发的需求,可追溯,更精准。
数据中台最核⼼的是OneData体系。这个体系实质上是⼀个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理⼯具等。数据仓库是为
企业所有级别的决策制定过程,提供所有类型数据⽀持的战略集合,出于分析性报告和决策⽀持⽬的⽽创建。
数据中台是⼀个数据集成平台,它不仅仅是为数据分析挖掘⽽建,它更重要的功能是作为各个业务的数据源,为业务系统提供数据和计算服务。数据中台的本质就是“数据仓库+数据服务中间件”。中台构建这种服务时是考虑到可复⽤性的,每个服务就像⼀块积⽊,可以随意组合,⾮常灵活,有些个性化的需求在前台解决,这样就避免了重复建设,既省时、省⼒,⼜省钱。
数据中台是建⽴在分布式计算平台和存储平台,理论上可以⽆限扩充平台的计算和存储能⼒。⽽多数的传统数仓⼯具都是建⽴的单机的基础上,⼀旦数据量变⼤,会受单机容量的限制。
数据中台构成
“数据中台”⼀般包含以下⼏个部分:
1. 数据仓库:⽤来存储数据的,结构性数据、⾮结构性数据等,还有离线数据和实时数据等;
2. ⼤数据中间件:包含了⼤数据计算服务、⼤数据研发套件、数据分析及展现⼯具;
3. 数据资产管理:按照阿⾥的体系应该分为垂直数据、公共数据和萃取数据3层;
数据中台解决的问题可以总结为如下三点:
1. 效率问题:为什么应⽤开发增加⼀个报表,就要⼗⼏天时间?为什么不能实时获得⽤户推荐清单?当业务⼈员对数据产⽣⼀点疑问的
时候,需要花费很长的时间,结果发现是数据源的数据变了,最终影响上线时间。
2. 协作问题:当业务应⽤开发的时候,虽然和别的项⽬需求⼤致差不多,但因为是别的项⽬组维护的,所以数据还是要⾃⼰再开发⼀
遍。
3. 能⼒问题:数据的处理和维护是⼀个相对独⽴的技术,需要相当专业的⼈来完成,但是很多时候,我们有⼀⼤把的应⽤开发⼈员,⽽
数据开发⼈员很少。
这三类问题都会导致应⽤开发团队变慢。这就是中台的关键——让前台开发团队的开发速度不受后台数据开发的影响。
数据中台的出现,解决的是数据存储、连通和使⽤中所遇到的种种问题,如数据孤岛、数据治理、数据共享等等。
通过打通多源异构数据,统⼀治理、管理企业数据,数据中台可以让数据⾼效可⽤,为企业业务提供⽀持、为客户提供⾼效服务。
与传统数据库相⽐,数据中台还有⼀个重要的优点:提升⼈及其组织的⽣产效率。
数据中台最初诞⽣的初衷是解决组织膨胀所造成的效率下降问题。具体业务的开展需要技术、产品、市场等各个⽅⾯的⽀持,对于⼤型公司来说,这些基础⽀持⼯作会有很⼤程度上的重复。部门内部、部门间的协调颇为耗费精⼒,不仅信息⽆法共享,资源也会被浪费。
⼀个数据全⾯、技术能⼒过硬、可以统⼀调⽤的数据中台,能够为业务线提供统⼀⽀持,同时帮助企业精简业务团队配置,实现「扁平化」。管理效率和组织运作效率都可以得到提升,业务也更敏捷灵活。
Data API 是数据中台的核⼼,它是连接前台和后台的桥梁,通过 API 的⽅式提供数据服务,⽽不是直接把数据库给前台、让前台开发⾃⾏使⽤数据。
数据处理需求的演进历程
数据中台的核⼼理念在于“数据取之于业务,⽤之于业务”,即它相⽐于数据平台注重的是对业务的积累和沉淀,构建了从数据⽣产到消费,消费后产⽣的数据再回流到⽣产流程的闭环过程。
数据中台和数据仓库、数据平台的关键区别
概括地说,三者的关键区别有以下⼏⽅⾯:
1. 数据中台是企业级的逻辑概念,体现企业 D2V(Data to Value)的能⼒,为业务提供服务的主要⽅式是数据 API;
2. 数据仓库是⼀个相对具体的功能概念,是存储和管理⼀个或多个主题数据的集合,为业务提供服务的⽅式主要是分析报表;
3. 数据平台是在⼤数据基础上出现的融合了结构化和⾮结构化数据的数据基础平台,为业务提供服务的⽅式主要是直接提供数据集;
4. 数据中台距离业务更近,为业务提供速度更快的服务;
5. 数据仓库是为了⽀持管理决策分析,⽽数据中台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适⽤于交易型场
景;
6. 数据中台可以建⽴在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。
数据仓库具有历史性,其中存储的数据⼤多是结构化数据,这些数据并⾮企业全量数据,⽽是根据需求针对性抽取的,因此数据仓库对于业务的价值是各种各样的报表,但这些报表⼜⽆法实时产⽣。数据仓库报表虽然能够提供部分业务价值,但不能直接影响业务。
数据平台的出现是为了解决数据仓库不能处理⾮结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到⼀起,成为⼀个⼤的数据集,其中有结构化数据、⾮结构化数据等。当业务⽅有需求的时候,再把他们需要的若⼲个⼩数据集单独提取出来,以数据集的形式提供给数据应⽤。
⽽数据中台是在数据仓库和数据平台的基础上,将数据⽣产为为⼀个个数据 API 服务,以更⾼效的⽅式提供给业务。
数据中台优势:
灵活,随意组合
避免重复建设
通⽤业务能⼒沉淀,前台减负
统⼀服务接⼝,提升运营效率
建设数据中台的挑战及应对策略
数据中台建设⾯临的挑战包括:
梳理业务场景:搞清楚数据中台如何对业务产⽣价值。
建设数据中台的优先级策略:需求可能⼤⽽全,但我们不能直接建⼤⽽全的数据中台,应该根据业务重要性来排需求的优先级。
数据治理问题:和业务独⽴开的数据治理少有成功的,⼤的数据标准要有(数据资产⽬录),通过数据资产⽬录将共有的纬度、共性的业务模型提炼出来,在此基础之上数据治理需要跟业务场景紧密结合。
数据中台团队和技术选型
数据中台团队通常需要包含以下⾓⾊:
业务专家团队:了解业务、梳理业务场景,确定数据资产与业务场景的⼀⼀对应关系,确定业务场景的优先级,为数据中台的建设提供依据。
数据⼯程团队:建设和维护数据中台,包括 ETL、数据采集,以及数据中台性能和稳定性保证,利⽤中台的⼯具采集、存储、加⼯、处理数据。
数据分析团队:分析数据价值、探索场景,⽣产更多的数据服务。
数据治理团队:梳理数据标准、构件数据安全和隐私规范,利⽤开源去中⼼化的数据治理⼯具(⽐如 atlas、wherehows)来围绕业务场景解决数据质量和安全问题。
智能算法团队:为数据分析、业务探索提供智能和算法⼯具。
数据中台的核⼼价值是什么
创新⼒----帮助企业⽤数据思维激活⾏业沉淀,形成发展新动⼒。业务⼈员和技术⼈员需要从各⾃不同⾓度去发掘业务价值,并将业务价值转变为更接地⽓的⽤户⾓度的东西,易懂易⽤易理解,⽤户才会接受。
场景驱动----外部环境及内部业务调整,快速适应不断变化的需求。场景驱动需要将被动变成主动,问题发⽣时,能够基于数据资产体系及服务体系的积累快速给出响应。
经验沉淀----资产价值挖掘过程中,需将经验转换为数据资产体系的⼀部分。业务⽅通过对场景的理解,快速选择所需的数据能⼒验证数据价值,验证过程及结果数据,做为数据资产沉淀的重要部分,回馈到数据中台中,做为持续优化的关键能⼒。
从以上三点,我们可看出数据中台依托的是企业的内外部的业务需求驱动,⾃⾝创新挖掘以及根据业务场景进⾏驱动创新来赋能业务应⽤,这个过程是⼀个循环的过程,需要将这种过程资产形成经验积累下来,以此更好的打造数据中台的适应能⼒。

本文发布于:2024-09-20 12:34:26,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/87029.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   业务   中台   提供   场景   企业
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议