数据中台(方法论篇)

数据中台(⽅法论篇)
从上⼀篇⽂章我们知道数据中台是什么,解决什么问题,有什么价值,要做些什么,接下来我们去了解下通过什么⽅法来指导实施数据中台。
格兰杰检验
数据中台既不是⼀项技术,也不是⼀款产品,⽽是⼀套⽅法论,或者说是企业的⼀套战略,其本质是企业运营思路和模式的转变。数据中台并不是购买⼀套产品就能实现的,成功的数据中台战略的实施不仅需要⼯具和产品的⽀持,更需要公司架构和流程层⾯的配合。
数据中台建设过程本⾝需要⼀整套的⽅法论来指导,包括实施路线、技术架构、组织⽅式、⼈员协作等各个⽅⾯的指导⽅针。这⼀套⽅法论的核⼼原则是:业务驱动,使⽤可衡量的成果激发⾃主积极性;敏捷式的实施和迭代,快速落地和见效;强调规范的制定和⼯具的使⽤,可持续发展。
数据中台本质上是符合⼀定规范的⼤数据平台和数据仓库体系。这些规范总结为OneID、OneModel、OneService、TotalPlatform和TotalInsight。建设符合这些规范的数据中台,最重要的是建设时遵循⼀个合理的⽅法论,采⽤⼀个合理的体系架构。在⽅法论中,最主要的思想是业务驱动,数据赋能,快速落地,⼩步快跑。
在说数据⽅法论之前,我们看看阿⾥巴巴的数据中台。
阿⾥数据中台OneData
电控可调衰减器 evoa1.阿⾥数据中台
从阿⾥巴巴数据中台全景图中我们看到,阿⾥的数据中台主要由四个部分组成:数据资产管理IPaaS、数据中台DaaS、数据研发平台IPaaS、计算与存储平台IaaS。
(1)数据资产管理IPaaS
数据资产管理其核⼼是基于元数据管理技术实现数据资产的“可看、可、可⽤”,主要提供资产地图、资产分析、资产管理、资产应⽤、资产运营等功能。通过数据地图让数据管理和使⽤者,清楚的知道企业都有哪些数据,这些数据存在什么地⽅,数据被谁管理,如何获取等等;资产分析是利⽤BI技术对数据资产进⾏统计分析,并提供可视化服务,例如:按主题、类型的统计数据资产数量、数据资产的质量和数据资产的使⽤情况等;资产管理可以理解为对元数据的管理,包括元数据的增删改查;资产应⽤可以理解为通过元数据管理提升数据资产的利⽤率,⽐如:数据资产的热度分析、全链分析、影响分析等;⽽资产运营严格意义上说不能是⼀个功能,⽽是为了提升数据资产质量和使⽤效率的⼀系列措施,可能涉及组织、制度、绩效考核等等⽅⾯。通过数据资产管理激活企业的沉睡的数据,从⽽促进数据的使⽤。
(2)数据研发平台IPaaS
数据研发平台包括了数仓规划、模型构建、指标规范、数据同步、数据开发、任务调度、监控告警等功能,可以理解为数据仓库建设过程中所⽤到的相关技术与⼯具,⽽在这⽅⾯阿⾥有⼀个核⼼的产品Dataphin(智能数据构建与管理)是⼀款⽤于⼤数据平台建设的智能引擎,提供数仓规划、数据引⼊、规范定义、数据建模研发、数据资产管理、数据服务等的全链路智能数据构建及管理服务。
(3)计算与存储平台IaaS
计算与与存储平台主要提供计算和存储组件,包括实时计算和离线计算组件
(4)数据中台DaaS
数据中台DaaS主要包含了垂直数据中⼼:⾯向各垂直⾏业应⽤的统⼀数据接⼊平台OneClick;公共数据中⼼:⾯向公共数据中⼼以业务板块+业务过程+分析维度架构的Onedata体系;萃取数据中⼼:⾯向业务对象+数据标签的OneID体系;数据开放共享中⼼:⾯向应⽤及开放的统⼀数据服务中间件OneService。这四个“One”构成了阿⾥巴巴数据中台的核⼼!
2.OneData体系
阿⾥巴巴就提出了"⼤中台,⼩前台",倡导数据中台建设,核⼼⽅法论:OneData 。阿⾥云 OneData 数据中台解决⽅案基于⼤数据存储和计算平台为载体,以 OneModel 统⼀数据构建及管理⽅法论为主
⼲,OneID 核⼼商业要素资产化为核⼼,实现全域链接、标签萃取、⽴体画像,以数据资产管理为⽪,数据应⽤服务为枝叶的松耦性整体解决⽅案。其数据服务理念根植于⼼,强调业务模式,在推进数字化转型中实现价值。
数据中台到如今的建设成果主要体现在两⽅⾯:⼀个是数据的技术能⼒,另⼀个是数据的资产。
今天阿⾥的各个业务都在共享同⼀套数据技术和资产。阿⾥内部为这个统⼀化的数据体系命名为 “OneData”。OneData ⼜主要抽象成三个部分,分别是:OneID、OneModel、OneService。
第⼀部分:OneModel 致⼒于实现数据的标准与统⼀;
第⼆部分:OneID 致⼒于实现实体的统⼀,让数据融通⽽⾮以孤岛存在。
第三部分:OneService 致⼒于实现数据服务统⼀,让数据复⽤⽽⾮复制。
(1)OneModel
OneModel⽅法论是以维度建模为理论基础,构建总线矩阵,划分和定义业务板块、数据域、业务过程、维度、度量/原⼦指标、业务限定、时间周期、派⽣指标,设计出维度表、明细事实表、汇总事实表的过程。
OneModel 即建⽴企业统⼀的数据公共层,从设计、开发、部署和使⽤上保障了数据⼝径规范和统⼀,实现数据资产全链路管理,提供标准数据输出。OneModel⽅法论可以帮准企业建设标准的、稳定的数据中台,但再好的⽅法论如果不能规模化、产品化,对于客户⽽⾔,开发、管理都是更多的开发投⼊,以及对更多的数据技术专家的依赖。通过规范定义,定义维度、业务过程、业务限定、原⼦指标、派⽣指标,通过定义、配置以后,⾃动⽣成维度逻辑表、事实逻辑表、汇总逻辑表,帮助企业建设⾼效、标准的数据中台。
数据划分主题进⾏管理:表的命名,字段的命名等规范统⼀,做到见名知义数据格式和字段命名和定义规范化:具体参考离线数仓项⽬讲解的表和字段命名规范:数仓分层- 业务主题域-业务过程-基础信息-分区规则指标⼀致,不存在⼆义性:提供全局数据字典确保意义⼀致。
数据模型复⽤:推荐采⽤分层的设计⽅式,通常包括:ODS 原始数据层,DWD 明细数据层, DWS 轻度汇总数据层,ADS应⽤数据层 / DM数据集市层,DIM 公共维度层。
数据完善:数据中台尽可能的覆盖到所有业务过程,⽤户和系统的⼀切⾏为都被记录下来永久保存 OneData 体系的⽬标是构建统⼀的数据规范标准,让数据成为⼀种资产,⽽不是成本。资产和成本的差别在于资产是可以沉淀的,是可以被复⽤的。成本是消耗性质的、是临时的、⽆法被复⽤的。
(2)OneID
OneID 指统⼀数据萃取,是⼀套解决数据孤岛问题的思想和⽅法。即建⽴业务实体要素资产化为核⼼,实现全域链接、标签萃取、⽴体画像,其数据服务理念根植于⼼,强调业务模式。
数据孤岛是企业发展到⼀定阶段后普遍遇到的问题。各个部门、业务、产品,各⾃定义和存储其数据,使得这些数据间难以关联,变成孤岛⼀般的存在。OneID的做法是通过统⼀的实体识别和连接,打破数据孤岛,实现数据通融。简单来说,⽤户、设备等业务实体,在对应的业务数据中,会被映射为唯⼀识别(UID)上,其各个维度的数据通过这个UID进⾏关联。各个部门、业务、产品对业务实体的UID的定义和实现不⼀样,使得数据间⽆法直接关联,成为了数据孤岛。
基于⼿机号、⾝份证、邮箱、设备ID等信息,结合业务规则、机器学习、图算法等算法,进⾏ ID-Mapping,将各种 UID 都映射到统⼀ID 上。通过这个统⼀ID,便可关联起各个数据孤岛的数据,实现数据通融,以确保业务分析、⽤户画像等数据应⽤的准确和全⾯。
(3)OneService
OneService,数据即服务,强调数据中台中的数据应该是通过 API 接⼝的⽅式被访问。即数据被整合和计算好之后,需要提供给产品和应⽤进⾏数据消费,为了更好的性能和体验,需要构建数据服务层,通过统⼀的接⼝服务化⽅式对外提供数据服务。
从不同的系统取数据,应⽤开发需要定制不同的访问接⼝。⽽且如果数据发⽣异常,还不能查出影响到下游应⽤的那些应⽤或者报表。所以当你想下线⼀张表的时候,就⽆法实施,造成了上线容易,下线难的囧状。⽽ API 接⼝⼀⽅⾯对应⽤开发屏蔽了底层数据存储,使⽤统⼀标准的 API 接⼝查询数据,提⾼了数据接⼊的速度。另⼀⽅⾯,对于数据开发,提⾼了数据应⽤的管理效率,建⽴了表到应⽤的链路关系。
数据中台⽅法论
看完上⾯的阿⾥数据中台,发现中台的建设涉及到很多的东西:基础平台计算和存储,开发⼯具,业务驱动,不同部门,数据规范,数据融合,数据建模,数据资产等,根据这些要建设的内容,《数据中台:让数据⽤起来》这本书中提出了数据中台的建设⽅法论。
1种战略⾏动:把⽤数据中台驱动业务发展定位为企业级战略,全局谋划。
2项保障条件:通过宣导统⼀组织间的数据认知,通过流程加速组织变⾰。
3条⽬标准则:将数据的可见、可⽤、可运营3个核⼼准则始终贯穿于中台建设的全过程,保障建设在正确轨道上。
4套建设内容:通过技术体系、数据体系、服务体系、运营体系建设保证中台建设的全⾯性和可持续
性。
5个关键步骤:通过理现状、⽴架构、建资产、⽤数据、做运营5个关键⾏动控制中台建设关键节点的质量。
1种战略⾏动
建设数据中台是为了⽀撑企业数字化、智能化升级,通过全局的维度⽀撑业务,让企业在市场上更具竞争优势,因此需要从公司战略层⾯来规划。在中台建设过程中,会涉及所有相关业态、各块资源的协调和推进,这都需要站在更⾼的层⾯来考虑。当然,具体在实施过程中,为了能快速迭代推进,也会采取从点到⾯的突破⽅法,从某个业务或者某个部门开始,初步构建看到成效再逐步推⼴,但不影响其作为核⼼战略的定位。
1种战略⾏动建设数据中台是为了⽀撑企业数字化、智能化升级,通过全局的维度⽀撑业务,让企业在市场上更具竞争优势,因此需要从公司战略层⾯来规划。在中台建设过程中,会涉及所有相关业态、各块资源的协调和推进,这都需要站在更⾼的层⾯来考虑。当然,具体在实施过程中,为了能快速迭代推进,也会采取从点到⾯的突破⽅法,从某个业务或者某个部门开始,初步构建看到成效再逐步推⼴,但不影响其作为核⼼战略的定位。
2种保障条件
数据中台是企业级战略,⽀撑企业数字化转型,涉及企业的⽅⽅⾯⾯,数据中台战略的执⾏必然伴随着企业组织保障以及整个企业数据意识的提升。
⾸先,中台战略的实施需要有组织保障。与组织对应的是资源与责任,数据中台由谁来建、谁来维护、谁来经营、业务需求怎么承接、效果怎么衡量等问题,已经超出IT的范畴,需要企业更⾼层⾯对应的组织来保障。图所⽰为中台组织架构。企业实施数据中台战略,必须⾸先建⽴起数据中台团队,让他们负责中台的建设、维护、运营以及业务的承接和中台服务的推⼴等。另外,有了中台,企业的运转模式发⽣了变化,业务、后台、管理等团队也需要有对应的组织⼈员与中台团队对接。
王德彬其次,中台战略的实施需要提升全企业的数据意识(数据采集意识,数据标准化意识,数据使⽤意识,数据安全意识)。数据⽂化是数据中台战略不可或缺的部分,数据中台的推进依赖于数据⽂化的建⽴,反过来,企业数据⽂化的沉淀⼜是数据中台建设的产出。⼤家谈论⼤数据⽐较多,但经常对什么是⼤数据感到困惑,在笔者们看来,⼤数据和当年提的“互联⽹+”⼀样,是⼀种考虑问题的思维⽅式,⽤互联⽹思维、数据思维来发现问题,解决问题。因此,⽤⼀句话来概括数据⽂化:⽤数据说话
3项⽬标准则
数据中台的3项⽬标准则——可见、可⽤、可运营,不仅可作为企业在数据中台建设中的具体建设指引,也可⽤来客观评估⽬前建设内容的完整度。
数据可见:(指标管理,元数据管理,数据资产⽬录管理,数据源,数据集成,数据ETL,数据消费,数据建模,算法建模通通进⾏可视化)
数据可⽤:(数据内容,数据服务,数据任务,数据指标,数据标签,数据资产通通可⽤)
数据可运营:(质量量化管理,价值量化管理,数据运营⾓⾊)
丙型肝炎防治指南4套建设内容
建设内容是数据中台建设的核⼼,是可呈现的产出物,也是数据中台价值所在,前⾯的战略措施、保障条件、⽬标准则都是为了建设内容能够顺利产出并且可以持续发挥价值。数据中台的建设内容包含技术体系、数据体系、服务体系、运营体系四⼤体系,通过这四套体系的建设实现数据中台让数据持续⽤起来的⽬标。技术体系是基础⽀撑,就像是⾻架⼀样撑起整个数据中台。数据体系就像是数据中台的⾎⾁,数据中台对外呈现的主要内容就是数据体系。服务体系是数据中台的价值所在,就像数据中台的灵魂⼀样,激活静⽌的⾻架、⾎⾁,让中台动起来,发挥价值。运营体系是数据中台的守护者,通过运营体系保证整个中台的健康、持续运转。
(1)技术体系
技术体系分两个层⾯:⼤数据存储计算技术和数据中台⼯具技术组件,技术体系主要关注点是⼯具技
术组件。⼤数据存储计算技术,⽐如Hadoop、Spark、Flink、Greenplum、Elasticsearch、Redis、Phoenix等,相对标准,企业只需要进⾏合理选型即可,并不需要⾃⼰建设,⽽且技术难度很⼤,企业也不太可能⾃⼰建设。数据中台⼯具技术组件包括数据汇聚、数据开发、数据资产管理、数据服务管控等。数据中台是企业制定和实施数据汇聚、建模和加⼯规范的场所,也是企业数据体系存储管理的⼯具平台。通过⼯具化、产品化、可视化降低技术门槛,让数据能够被更⽅便地加⼯使⽤。对于平台有不同的⽤户对应到不同的技术:
⾯向数据运维,包括集运维。
⾯向数据开发,包括ETL。
⾯向数据管理,⽐如数据治理的具体的管理⼈员,元数据的管理⼈员,还有数据标准的相关管理⼈员。
⾯向应⽤开发。IT团队的应⽤开发也是数据中台的⼀个⽤户,我们后⾯在服务体系⾥边会给⼤家重点阐述。
⾯向数据分析。因为我们看到部分的企业⾥⾯把⼀些BI或者⼀些⼤屏也当作数据中台的平台⼯具类。
(2)数据体系
cdd数据体系是数据中台建设、管理、使⽤的核⼼要素,全企业的数据通过各种⽅式汇聚到数据中台,在数据中台按照⼀定的建模⽅式进⾏加⼯,形成企业的数据资产体系。数据中台始终围绕着数据体系的建设和使⽤,让数据体系尽可能完整、准确、使⽤⼴泛。不同企业的业务不同、数据不同,数据体系的内容不同,但是建设的⽅法和对⼯具的要求是相似的,需要在中台⼯具和建设⽅法的基础上针对不同的企业建设不同的数据体系。
(3)服务体系
数据中台与⼤数据平台的最主要区别是数据能更⽅便地以服务化的⽅式⽀撑业务,⽽这是通过数据中台服务体系实现的。服务体系是通过数据中台的服务组件能⼒,把数据变为⼀种服务能⼒,⽐如客户微观画像服务、信⽤评估服务、风险预警服务等,让数据能够⽅便地参与到业务中并为业务带去价值。笔者经常听到的数字化转型、数据化经营,就是让业务决策通过数据⽽不是仅凭经验,需要的正是数据服务能⼒。每家企业的业务不同,对数据服务的诉求也不同,数据中台⽆法产品化地提供企业所需的所有数据服务能⼒。数据中台通过提供数据服务⽣成、发布、监控、管理功能,帮助企业逐个建⽴属于⾃⼰的每⼀个数据服务,逐步完成企业数据服务体系的构建
(4)运营体系
运营体系是数据中台得以健康、持续运转的基础。运营体系包括平台流程规范执⾏监督、平台资源占
⽤的监管及优化推动、数据质量的监督及改进推动、数据价值的评估、数据服务的推⼴、稽查排名等。其⽬标是让平台可以持续健康运转,产⽣持续价值。数据中台是个复杂⼯程,数据的汇聚、开发、管理、服务都是要持续进⾏的⼯作,如果没有运营体系的保障,可能会导致后期的参与者⽆从下⼿,随着时间的推移,数据的质量、服务的效率也会持续下降,进⽽导致中台⽆法使⽤。数据中台是⼀个持续的过程,⼀旦启动,就不能暂停,更不能停⽌,⽽保障数据中台持续⾼效运转的就是这套运营体系。
5个关键步骤
数据中台在具体落地实施时,要结合技术、产品、数据、服务、运营等5个⽅⾯,逐步开展相关的⼯作,在构建闭环时会多考虑基础设施部分的能⼒。⼀旦闭环建设完成,就可以在各个环节不断丰富能⼒,逐步成为数据应⽤的完整体系。根据笔者的实践经验,数据中台的建设过程主要通过5个关键步骤来完成,如图所⽰。
(1)理现状
梳理企业的系统建设、已经拥有的数据以及业务特点等现状,了解企业对数据中台的认知,以及相应的数据⽂化建设情况。点对点地与业务部门、IT部门进⾏沟通,获取企业的产品和服务信息,形成业务现状调研报告,同时了解⽬前企业以怎样的组织形态来保证客户的服务能⼒。详细调研⽬前企业的I
基弗T建设情况和业务数据沉淀情况,⽐如采⽤的什么数据库、数据量、数据字段和更新周期等,以便后续更好地设计技术架构。
(2)⽴架构
根据现状形成整体的规划蓝图,形成技术产品、数据体系、服务⽅式以及运营重点等相关的⽅案,梳理并确⽴各块架构。企业信息架构经常谈到的4A,即业务架构、技术架构、应⽤架构和数据架构都需要在这个阶段进⾏确认。这4个架构具体介绍如下:
业务架构:保障数据中台能够适⽤于企业的业务运管模型和流程体系。
技术架构:主要是指技术体系中的数据基座,主要根据业务架构近远期规划,对数据的存储和计算进⾏统⼀的选型
应⽤架构:特指数据中台应⽤架构,后⾯⼏个关键步骤的内容所依赖的⼯具主要由数据中台作为平台应⽤来承接。
组织架构:主要是保证中台项⽬的顺利落地需要企业考虑的整体组织保障,其中的⾓⾊有业务⼈员、IT⼈员、供应商和相关负责⼈。
(3)建资产
结合数据架构的整体设计,通过数据资产体系建设⽅法,帮助企业构建既符合场景需求⼜满⾜数据架构要求的数据资产体系并实施落地。这个步骤涉及数据汇聚、数据仓库建设、标签体系建设以及应⽤数据建设,其中最关键的是标签体系建设。所谓标签体系是⾯向具体对象构建的全维度数据标签,通过标签体系可以⽅便地⽀撑应⽤,⼤数据的核⼼魅⼒和服务能⼒主要就体现在标签体系的服务能⼒上。
(4)⽤数据
从应⽤场景出发,将已经构建的数据资产通过服务化⽅式,应⽤到具体的业务中,发挥数据价值。将数据资产快速形成服务能⼒并与业务进⾏对接,在业务中产⽣数据价值,实现数据的服务化、业务化。在服务过程中,数据安全是不得不考虑的问题,哪些⼈能看到什么数字资产,能选择什么类型的服务都是需要严格审核的
(5)做运营
数据应⽤于业务后,其产⽣的价值通过运营的能⼒不断优化迭代,并让更多的⼈感知到数据的价值点。数据中台建设是⼀个持续建设和运营的过程,所谓持续建设和运营是指在架构基本稳定的情况下,不断循环第3~5步,多⽅⾓⾊会围绕核⼼KPI不断挖掘数据和业务场景的结合点,不断根据质量和价值两个点来运营优化。企业通过多个组织之间的配合推进,会逐步形成企业特有的数据⽂化和认
知,这是企业在数字化转型中⾮常重要但很难跨越的点。
参考:
《云原⽣数据中台:架构、⽅法论与实践》
《数据中台:让数据⽤起来》

本文发布于:2024-09-23 06:34:31,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/256766.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   业务   建设
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议