跟腱撕裂
爬⾍IP被限制怎么办?教你三招解决
有很多⼩⽩在学习Python的初期,都会遇到爬⾍IP被限制的情况,那么在⾯对这种突发情况,有什么好的解决办法吗?别急,IPIPGO教你三招!
2009年7月1日
美丽主妇
(⼀)降低访问速度,减⼩对于⽬标⽹站造成的压⼒。过快的访问会导致IP被封,我们⾸先要检测出⽹站设置的限制速度阈值,这样我们才可以设置合理的访问速度,建议不要设固定的访问速度,可以设置在⼀个范围之内,因为过于规律⽽被系统检测到,也会导致IP被封。有时候平台为了阻⽌频繁访问,会设置IP在规定时间内的访问次数,超过次数就会禁⽌访问。(⼆)设置代理IP辅助爬取。降低访问速度难以避免会影响到爬取效率,如果抓取速度过慢,就失去了使⽤爬⾍抓取的优势了。这时就可以使⽤代理IP,来规避⽹站对IP的检测来,通过切换不同的IP爬取内容,让代理服务器去帮我们获得⽹页内容,然后再转发回我们的电脑。选择代理时最好是IPIPGO这种住宅代理,真实家庭IP地址,不易被⽹站拦截。 山萘酚(三)user_agent 伪装和轮换帮忙节目
不同浏览器的不同版本都有不同的user_agent,是浏览器类型的详细信息,也是浏览器提交Http请求的重要头部信息。我们可以在每次请求的时候提供不同的user_agent,绕过⽹站检测客户端的反爬⾍机制。 ⽐如说,可以把很多的user_agent放在⼀个列表中,每次随机选⼀个⽤于提交访问请求,你可以到提供各种user_agent的⽹站来使⽤。
复杂网络