大数据采集与预处理技术

数据采集与预处理技术
第⼀章  三个点
1.1数据的处理流程
数据采集 (系统⽇志采集,互联⽹数据采集,ETL)          在⽹上采集各种信息
数据预处理(数据清理,数据集成,数据变换,数据规约)  采集到信息杂乱,需要处理
数据存储 ( HDFS,NoSQL,云存储)            处理完数据我们要把它存储起来
数据分析与挖掘 (关联,聚类,分类,预测,回归,机器学习)        对数据分析产⽣价值
数据可视化 (标签云,流式地图,聚类图,信息流热⼒图)        将数据更好的表达出信息
1.2 ⼤数据采集技术
1.系统⽇志采集
数据到来源 : 系统操作⽇志,Web服务器访问⽇志,应⽤程序⽇志
2.互联⽹数据采集
第⼆章  数据采集基础
1传统数据采集技术
采集系统分为 硬件 与 软件
硬件有分两类 1,微型计算机数据采集系统 2,集散型数据采集系统
第三章⼤数据采集基础
1
2
3⼤数据采集的挑战与困难  分布性 不稳定性 ⽆结构与冗余性 错误性 结构复杂
4,系统⽇志⽂件采集        ⽇志: 系统⾃动⽣成的记录⽂件.
5,ETL⼯具采集  数据源不同 格式不同 缺少整合 (E抽取 T转换 L 加载)
E(extract) 全量抽取 增量抽取(⽇志对⽐,时间戳,触发器,全表对⽐)
T(transform) 过滤 清洗 替换 验证 加解密
L(load)  ⾃有数据的加载  ⾮电⼦数据到数字化  对系统结构到清晰理解 ETL——ELT  API接⼝提供数据 6,互联⽹数据采集 ——⼈ 机 物
特性 多源异构 互交性 时效性 社会性 突发性 ⾼噪声
采集——⽹络爬⾍              通⽤⽹络爬⾍  聚焦⽹络爬⾍ 增量式⽹络爬⾍  分布式⽹络爬⾍
第四次课  ⼤数据采集架构  flume
(⼏种采集项⽬ )
⾯对到问题 :数据源多种多样 数据量⼤ 变化快 如何保证数据采集的可靠性到性能  如何避免重复到数据 如何保证数据质量
1,Flume数据采集
数据源 (Web Server)  数据搜集Agent (Source,Channel,Sink)  数据存储⽬的地(HDFS)
第四讲
数据源 web Server  数据收集Agent Source Channel sink
channel  通道
memory channel  写⼊内存  ⾮持久化存储 断电  碟机 丢失信息        file channel  写⼊⽂件持久化储存
第五讲 kafka
1,Scribe 数据采集  scribe 是facebook开源的⽇志收集系统 可以从各种⽇志源上收集⽇志存储到⼀个中央存储系统  特点 容错性好当后端的存储系统crash时scribe会将数据写到本地磁盘上,当存储系统恢复正常后,scribe 将⽇志重新加载到存储系统中
2,kafka数据采集  是发布订阅消息系统构建实时数据管道和数据流应⽤程序
结构 ⽣产者producer(数据采集的源头)  消费者consumer  kafka集 broker(topic partition  broker
节点)  zookeeper负责协调节点
(1)producer 负责向kafka的主题topic 提供数据(push)    topic是kafka的核⼼抽象 数据源可以⽤kafka按topic发布信息给定阅者
topic ⼀个主题 与多个分区维护⼀个分区⽇志 要求顺序写⼊均匀分布批量传输
(2)consumer 按组消费
(3)发布—订阅 Push and pull 机制    有主动获取与被动获取
(4)zookeeper 分布式服务框架 统⼀命名服务  状态同步管理
第六次课  ELK
ELK是⼀种数据采集架构  E (ElasticSearch)  L(Logstash)  K(Kibana)
Logstash ⽇志采集 (重点)        ES ⽇志存储和索引 (放在中间步骤)      Kibana 分析与展⽰ 数据可视化
logstash的⼯作过程 : input 数据收集 ——filters 修改数据——output 输出数据
input
(⼀)filters 的操作
1,grok 对数据进⾏切分整理
2,rename 重命名
3,update 更新⽂段
4,replace 替代
5,drop 删除满⾜条件的⽇志
6,clone克隆操作  克隆增加 与克隆删除
7,geoip 对数据的IP地址增添维度
output 将通过索引数据输给ES 集中大数据日志分析
(⼆)ElasticSearch
(三)Kibana

本文发布于:2024-09-21 11:03:14,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/386818.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   采集   系统
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议