大数据技术之数据采集篇

⼤数据技术之数据采集篇

【导读】数据采集是进⾏⼤数据分析的前提也是必要条件，在整个流程中占据重要地位。本⽂将介绍⼤数据三种采集形式：系统⽇志采集法、⽹络数据采集法以及其他数据采集法。

（⼀）系统⽇志采集法

系统⽇志是记录系统中硬件、软件和系统问题的信息，同时还可以监视系统中发⽣的事件。⽤户可以通过它来检查错误发⽣的原因，或者寻受到***时***者留下的痕迹。系统⽇志包括系统⽇志、应⽤程序⽇志和安全⽇志。（百度百科）⼤数据平台或者说类似于开源Hadoop平台会产⽣⼤量⾼价值系统⽇志信息，如何采集成为研究者研究热点。⽬前基于Hadoop平台开发的Chukwa、Cloudera的Flume以及Facebook的Scribe（李联宁，2016）均可成为是系统⽇志采集法的典范。⽬前此类的采集技术⼤约可以每秒传输数百MB的⽇志数据信息，满⾜了⽬前⼈们对信息速度的需求。⼀般⽽⾔与我们相关的并不是此类采集法，⽽是⽹络数据采集法。

在这⾥还是要推荐下我⾃⼰建的⼤数据学习交流:529867072，⾥都是学⼤数据开发的，如果你正在学习⼤数据，⼩编欢迎你加⼊,⼤家都是软件开发党，不定期分享⼲货（只有⼤数据软件开发相关的），包括我⾃⼰整理的⼀份最新的⼤数据进阶资料和⾼级开发教程，欢迎进阶中和进想深⼊⼤数据的⼩伙伴加⼊。

（⼆）⽹络数据采集法

做⾃然语⾔的同学可能对这点感触颇深，除了⽬前已经存在的公开数据集，⽤于⽇常的算法研究外，有时为了满⾜项⽬的实际需求，需要对现实⽹页中的数据进⾏采集，预处理和保存。⽬前⽹络数据采集有两种⽅法⼀种是API，另⼀种是⽹络爬⾍法。

1.API

API⼜叫应⽤程序接⼝，是⽹站的管理者为了使⽤者⽅⾯，编写的⼀种程序接⼝。该类接⼝可以屏蔽⽹站底层复杂算法仅仅通过简简单单调⽤即可实现对数据的请求功能。⽬前主流的社交媒体平台如新浪微博、百度贴吧以及Facebook等均提供API服务，可以在其官⽹开放平台上获取相关DEMO。但是API技术毕竟受限于平台开发者，为了减⼩⽹站（平台）的负荷，⼀般平台均会对每天接⼝调⽤上限做限制，这给我们带来极⼤的不便利。为此我们通常采⽤第⼆种⽅式——⽹络爬⾍。

2.⽹络爬⾍

⽹络爬⾍（⼜被称为⽹页蜘蛛，⽹络机器⼈，在FOFA社区中间，更经常的称为⽹页追逐者），是⼀种按照⼀定的规则，⾃动地抓取万维⽹信息的程序或者脚本。另外⼀些不常使⽤的名字还有蚂蚁、⾃动索引、模拟程序或者蠕⾍。（百度百科）最常见的爬⾍便是我们经常使⽤的搜索引擎，如百度，360搜

索等。此类爬⾍统称为通⽤型爬⾍，对于所有的⽹页进⾏⽆条件采集。通⽤型爬⾍具体⼯作原理见图1。

图1 爬⾍⼯作原理[2]

大数据日志分析给予爬⾍初始URL，爬⾍将⽹页中所需要提取的资源进⾏提取并保存，同时提取出⽹站中存在的其他⽹站链接，经过发送请求，接收⽹站响应以及再次解析页⾯，提取所需资源并保存，再将⽹页中所需资源进⾏提取......以此类推，实现过程并不复杂，但是在采集时尤其注意对IP 地址，报头的伪造，以免被⽹管发现禁封IP（我就被封过），禁封IP也就意味着整个采集任务的失败。当然为了满⾜更多需求，多线程爬⾍，主题爬⾍也应运⽽⽣。多线程爬⾍是通过多个线程，同时执⾏采集任务，⼀般⽽⾔⼏个线程，数据采集数据就会提升⼏倍。主题爬⾍和通⽤型爬⾍截然相反，通过⼀定的策略将于主题（采集任务）⽆关的⽹页信息过滤，仅仅留下需要的数据。此举可以⼤幅度减少⽆关数据导致的数据稀疏问题。

（三）其他采集法

其他采集法是指对于科研院所，企业政府等拥有机密信息，如何保证数据的安全传递？可以采⽤系统特定端⼝，进⾏数据传输任务，从⽽减少数据被泄露的风险。

【结语】⼤数据采集技术是⼤数据技术的开端，好的开端是成功的⼀半，因此在做数据采集时⼀定要谨慎选择⽅法，尤其是爬⾍技术，主题爬⾍应该是对于⼤部分数据采集任务⽽⾔是较好的⽅法，可以深⼊研究。

本文发布于:2024-09-23 04:31:32，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/387240.html

上一篇：golangjson获取所有key_请使用JSON格式记录日志,好吗?

下一篇：企业工作日志记录软件的设计与实现