关于抖音、快手采集爬虫的一些思路,采视频、采评论、采用户喜欢等通用办法.

关于抖⾳、快⼿采集爬⾍的⼀些思路,采视频、采评论、采⽤
户喜欢等通⽤办法.
⼀、算法
飞星晒图机算法确实是很好⽤,但是破解难度⼤家应该都是知道的,随着版本的更新,算法经常也会变,⼀变你的软件也要随着更新,这⽆形中就增⼤了开发的成本,你要说采集效率吧! 我个⼈感觉也没快多少,毕竟访问频率也是有限制,你不可能访问⼀次就变换⼀次代理吧?这成本得有多⼤?
高压带电显示装置纳米导光板⼆、浏览器
不知道你们有没有发现,使⽤浏览器打开⽤户主页,但是⽤户作品根本没有显⽰出来,我相信很多⼈的算法都是通过⽹页版得来的,所以这就造成了⼀个现象,⽹页版的算法,经常要请求好多次才能返回⼀组数据.当然这⾥我不排除有⼤神是通过APP逆向得来的,这⾥我不探讨这种情况,因为逆向我也是半桶⽔.
花生油理疗环三、抓包(Fiddler)
Fiddler可以说是除了TCP之外⾮常通⽤的⼀个抓包⼯具了,证书安装好之后要啥有啥,缺点没有API可以调⽤,除⾮你对它进⾏⼆次开发.不过也不⽤灰⼼,因为Fiddler有提供⼀个给第三⽅调⽤的dll库,我们
在⾃⼰的程序中调⽤dll,把⾃⼰当成⼀个代理服务器,所有经过的请求都会先经过我这边,这样我就可以对数据进⾏处理了.
四、注意事项
雷电模拟器要⽤3.96.0版本的,apk⽤7.1版本的
我的思路:
1.利⽤Fiddler⾃制⼀个代理服务器,具体代码和dll库可以⾃⾏百度.
2.使⽤模拟器进⾏操作,安装好证书,挂上代理,你刷你的视频,我的服务器会⾃动过滤数据,把有⽤的留下了
(1)配置模拟器,模拟器要选择⼿机版本,分辨率随意
(2)⽤模拟器中的浏览器打开软件上⾯的链接(地址:端⼝), 例(192.168.0.109:8888)进⾏安装证书
(3)配置模拟器⽹络代理
就是这么简单,不知道你Get到点了没?这种⽅法,不管放到什么app上⾯,都是可⾏的,只要你要抓的数据是通过http或者https进⾏传输的,那么这种⽅法都是可⽤的,只不过模拟器段你可能要写个脚本来操作请求的触发,相对于破解算法,⼀个⾃动化操作的脚本,那还不是⼩菜⼀碟.
斗拱模型
关于抖⾳⽆法在模拟器中正常显⽰数据,这个⼤家可以去下7.1版本的apk,7.1版本的没有屏蔽模拟器.
这⾥放⼀个我⾃⼰写批量去⽔印下载的⽰例,感兴趣的可以⾃⾏下载试⽤,有什么问题或者需要更多的功能可以私信我交流,下载后右键属性解除锁定,否则可能⽆法正常使⽤.
对了,win7系统可能不⾏,因为很多win7的Fiddler证书⽆法正常安装,所以就导致软件⽆法抓取https,这个你们可以⾃⾏测试.

本文发布于:2024-09-24 22:36:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/247986.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模拟器   版本   可能   浏览器   操作   没有
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议