大数据平台的建设思考——数据汇聚

数据平台的建设思考——数据汇聚
⼤数据平台的建设思考(⼀)
常规⼤数据建设、数据中⼼建设,会经过以下阶段:数据汇聚、清洗整合、融合、数据融合,数据输出给各个⼤数据应⽤使⽤。
将整个数据流⽐作炒⼀道美味的菜肴,那么对应关系:
- 买菜——数据汇聚 (业务系统->ODS层)
- 洗切菜——清洗整合(ODS层->DWD层)
- 炒菜——数据融合(DW、DM层)
- 上菜——数据输出(API服务、数据交换)
捕虾笼注:数据仓库中,数据分为四个层级:接⼝层(ODS)、整合层(DWD)、中间层(DW)、汇总/集市层(DM)。
数据汇聚
数据汇聚,或者称作ETL,将不同的业务系统的数据加载到数据仓库中。数据汇聚有多种⽅式,按照数据汇聚的传输⽅式,可以分为⽂件传输、数据抽取、内容爬去和消息推送 (本次不多做介绍)等⽅式。
其中⽂件⽅式需要业务系统定时进⾏数据抽取,需要业务系统改造;数据抽取不需要业务系统改造,试⽤场景多;内容爬去,针对⽆法访问数据库,只能访问⽹页或者API的⽅式。
先来说说适⽤范围⽐较多的数据抽取⽅式,存在着诸多难点需要解决。
踩过的坑
1. 多数据源适配:业务系统的数据库是不确定的,有可能是MySql、MSSQL、DB2、Oracle等等,各种各样的数据源。⽽汇聚,就需
要适配各种数据源,并将数据抽取到数据仓库中。
2. 增量数据抽取:业务系统是24时不停歇的运转,对数据量较⼤的表,⽆法全量抽取,只能增量抽取,⽽增量抽取,如何判断哪些数据
是增量成为⼀个难点问题。主流的⽅法包括:时间戳、ORACLE的CDC、以及数据备份⽇志。
3. 数据传输过程中断:由于业务系统、⽹络等原因,会出现数据同步过程中同步任务中断。如何确保任务重启后不会出现数据重复的问
受机题、断点续传的问题。
4. 上游系统数据结构变更未通知:经常会出现上游业务系统升级改造,数据库表结构发⽣变更,⽽未及时通知下游的数据中⼼,导致抽
取的数据不对、缺失等问题。
5. 数据业务复杂难懂:部分业务系统由于业务逻辑复杂,导致库表的结构复杂、难懂,且没有相关⽂档说明字段⼝径,下游的数据仓库
⽆法直接利⽤这些数据。
6. 数据异常导致的任务失败:由于源端数据库与数据仓库不⼀致,导致部分数据抽取或⽂件⽅式中存在乱码、脏数据,进⾏LOAD过程
⽆法⼊库,导致任务中断。
7. 上游业务数据未处理完成:部分业务系统的数据处理量复杂,往往要等到第⼆天凌晨才能处理完前⼀天数据。此时,需要数据仓库判十字滑块联轴器
断上游业务系统处理任务有⽆完成,只有完成了进⾏抽取才能得到完整的数据。
以上这些问题,我在之前的项⽬中都遇到过,需要在项⽬建设过程中积累、沉淀,到各个问题的解决⽅法,如有机会在后续⽂章中分享。
气动加油泵
汇聚⼯具
在⼤型的数据平台的建设过程中,会使⽤特定⼯具进⾏数据汇聚,这样能⼤幅提⾼汇聚的效率。此类⼯具有很多,⽐如开源的kettle、IBM 的datastage等⼯具。当然很多⼤数据公司基于kettle也构建了⾃⼰的汇聚⼯具,⽐如databrige⼯具就挺好⽤的。
存储策略
沙画工具和嫩太阳能庭院灯汇聚到⼤数据平台的数据,我们称之为接⼝层,⼀般保留7+2天,⽤于回溯上游数据质量问题时使⽤。
如果这块展开写,可以写⾮常多,⽐如如何做数据源的适配、如何确保数据的完整性、如何监控上游
数据源表结构的变化等等。总之,数据汇聚的⽬的就是将数据准确、完整、原封不动的复制到⼤数据平台中供数据处理。
后续有机会可以详细和⼤家聊聊。

本文发布于:2024-09-21 22:34:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/189969.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   业务   抽取   系统   汇聚   需要   任务
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议