09丨数据采集:如何用八爪鱼采集微博上的“DG”评论

09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
2019-01-02 陈旸
数据分析实战45讲进入课程讲述:陈旸
时长12:44大小11.68M 上一讲我给你讲了数据采集的来源,其中有一个很关键的工具叫做八爪鱼,今天我们就用八爪鱼实战模拟一下如何进行数据采集。
在文末你可以看到作的流程视频。
八爪鱼的基本操作
在开始操作前,我先来介绍下今天要讲的主角“八爪鱼”工具。相比使用 Python 进行爬虫,八爪鱼的使用更加简便,因为是所见即所得的方式,基本上不需要编写代码,除了在正则表达式匹配的时候会用到 XPath。
下载APP
这里简单介绍下 XPath,XPath 的英文是 XML Path Language,也就是 XML 的路径语言,用来在 XML 文件中寻我们想要的元素。所以八爪鱼可以使用 XPath 帮我们更灵活地定位我们想要的元素。
自定义任务 VS 简易采集
如果你想要采集数据就需要新建一个任务,在建任务的时候,八爪鱼会给你一个提示,是使用八爪鱼自带的“简易采集”,还是自定义一个任务。
简易采集集成了一些热门的模板,也就是我们经常访问的一些网站。它可以帮助我们轻松地实现采集,只需要我们告诉工具两个信息即可,一个是需要采集的网址,另一个是登录网站的账号和密码。
虽然简易采集比较方便快捷,但通常还是推荐使用自定义任务的方式,这样可以更灵活地帮我们提取想要的信息,比如你只想采集关于“D&G”的微博评论。
如何采集数据流程步骤
八爪鱼的采集共分三步:
1. 输入网页:每个采集需要输入你想要采集的网页。在新建任务的时候,这里是必填项。
2. 设计流程:这个步骤最为关键,你需要告诉八爪鱼,你是如何操作页面的、想要提取页面上的哪些信息等。因为数据条数比较多,通常你还需要翻页,所以要进行循环翻页的设置。在设计流程中,你可以使用简易采集方式,也就是八爪鱼自带的模板,也可以采用自定义的方式。
3. 启动采集:当你设计好采集流程后,就可以启动采集任务了,任务结束后,八爪鱼会提示你保存采集好的数据,通常是 xlsx 或 csv 格式。
如果你使用的是自定义采集,就需要自己来设计采集流程,也就是采集流程中的第二步。八爪鱼的流程步骤有两类,可以划分为基本步骤和高级步骤。
基本步骤就是最常用的步骤,每次采集都会用到,一共分为 4 步,分别是打开网页、点击元素、循环翻页、提取数据。
高级步骤是辅助步骤,可以帮我们更好地对数据进行提取,比如我们想要某个关键词的数据,就需要在网页输入框中输入对应的文字。有时候源网页的系统会提示需要输入验证码,我们就可以采用验证码识别的模块帮我们解决。有时候我们需要用下拉选项帮我们筛选想要的数据,或者某些判断条件下(比如存在某个关键词)才触发的采集等。这些操作可以更精细化地提取想要的数据。
下面我来介绍下基本步骤:
1. 打开网页
所有的采集默认第一项都是打开网页。所以在新建任务之后,系统会提示你输入网址。当你输入之后,八爪鱼就会自动建立一个“打开网页”的流程。
2. 点击元素
这里元素的定义比较广泛,它可以是某个按钮,或者某个链接,也或者是某个图片或文字。使用这个步骤是你在搜索或者提交某个请求。当你点击元素后,八爪鱼会提示你想要达到的目的:点击该按钮、采集该元素文本、还是鼠标移到该链接上。然后再选择“点击该按钮”进行确认即可。
如果我们点击某个元素的目的是循环翻页,或者提取数据,那么在点击之后,八爪鱼会确认你的目的,你只要点击相关的按钮即可。
3. 循环翻页
很多数据都存在翻页的情况,通常你需要到翻页的位置,比如网页底部的“下一页”按钮,点击它,会提示你“循环点击下一页”、“采集该链接文本”还是“点击该链接”。你需要确认这里是进行的“循环点击下一页”。
4. 提取数据
在网页上选择你想要提取的页面范围,鼠标移动到页面上会呈现蓝的阴影面积,它表明了你想提取的数据范围。然后点击鼠标后,在右侧选择“采集数据”即可。
这 4 个基本操作就像它们的名称一样简单直接,这里我给你一些使用的建议:
1. 尽量使用用户操作视角进行模拟的方式进行操作,而不是在“流程视图”中手动创建相应的步骤。因为八爪鱼最大的特点就是所见即所得,所以一切就按照用户使用的流程进行操作即可。
2. 使用“流程视图”方便管理和调整。右侧有“流程视图”的按钮,点击之后进入到流程视图,会把你之前的操作以流程图的方式展示出来。我会在文章下面详细介绍一下。
为什么要这么做呢?这样的话每个步骤流程清晰可见,而且你还可以调整每个步骤的参数,比如你之前的网址写错了想要修改,或者之前输入的文字需要调整等。
另外很多时候需要账号登录后才能采集数据,我们可以提前在八爪鱼工具里登录,这样再进行抓取的时候就是登录的状态,直接进行采集就可以了。
采集微博上的“Dolce&Gabbana”评论
在了解基本步骤之后,我们就可以自己动手采集内容了。比如说我想要采集微博上关
于“D&G”的评论,那么我可以先在浏览器上,人工操作下整个流程,梳理出来以下的步骤。
这几个流程具体是怎么做的呢?我来给你一一梳理一下。
1. 输入网页
对应基本步骤“打开网页”,我们输入微博搜索的地址。
2. 输入关键词
对应“输入文本”,我把鼠标移动到输入框中,点击后会在右侧进行操作目的的确认,选择“输入文本”即可,然后输入我们想要搜索的内容“D&G”。
3. 点击搜索
对应“点击元素”,我们点击“搜索按钮”,然后确认操作目的是“点击元素”。
4. 设置翻页
因为我们想要采集全量数据,因此需要先设置翻页。这里特别注意下,翻页的操作要在数据提取之前,因为翻页是个循环的命令,就像我们平时写 for 语句一样,一定是先设置 for 循环,然后在循环中进行数据提取。

本文发布于:2024-09-23 05:34:13,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/387094.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:采集   需要   数据   想要
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议