大数据的数据体系、采集、存储技术总结

透风窗
数据的数据体系、采集、存储技术总结
⼤数据的数据体系,⾃底向上包括四个层次:
1工业除湿机1 数据采集与清洗层
智慧教室互动黑板2 数据加⼯与汇聚层
三七的花怎样制成干茶>eva母
3 数据能⼒与开放层(体现平台即服务PAAS的概念)
4 数据价值与应⽤层
⼤数据采集技术:实时与离线采集
实时流处理模式:通过K-V查询接⼝,以流处理模式,逐条传输、ETL,融合并⼊库⾄业务平台。
agv驱动器离线批处理模式:通过SFTP传输接⼝,将数据离线批量采集⾄业务平台缓存中,再进⾏批量ETL、融合并⼊库到业务平台。
⼤数据的采集:基于开源爬⾍Webmagic与内存数据库Redis的分布式爬⾍技术
分布式存储技术:
使⽤⼤量普通PC服务器通过Internet互联,对外作为⼀个整体提供存储服务,以较低的成本满⾜⼤规模的存储需求
分布式块存储:将分布式的⼤量服务器硬盘经过分布式块存储变成统⼀的逻辑硬盘,再按逻辑卷分给虚拟机。适合于作为云主机资源池共享存储,IO要求⾼。
分布式⽂件存储:将⼤⽂件切分成多个⼩⽂件块。并将⼩⽂件块分布存储在服和器节点上,基于元数据服务器控制各个数据节点,适合于⼤数据⽂件的存储和处理,存储与计算⼀体化,例如作为Hadoop Spark的底层⽂件系统。
分布式对象存储:扁平化,⽂件之间没有层级或类型关系,适合于各种⼤⼩的海量⽂件基于互联⽹在线存储,访问和备份,如云存储服务等。

本文发布于:2024-09-23 01:39:59,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/224416.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   采集   分布式   作为   离线
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议