一种完整采集网页信息的方法和系统

(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 103186670 A
(43)申请公布日 2013.07.03
(21)申请号 CN201310102584.9
(22)申请日 2013.03.27
(71)申请人 中金数据系统有限公司
    地址 100176 北京市大兴区北京经济技术开发区博兴八路1号
(72)发明人 全小飞 柳香
(74)专利代理机构 北京三聚阳光知识产权代理有限公司
    代理人 寇海侠
(51)Int.CI
      G06F17/30
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种完整采集网页信息的方法和系统
(57)摘要
      本发明涉及一种完整采集网页信息的方法和系统,包括如下步骤:①在安装有FireBug以及Cookies Manager的浏览器中模拟用户浏览浏览器的行为并保存Cookies信息、所有URL请求及服务器返回的第一响应结果;②后台运行的浏览器模拟用户浏览浏览器的行为并保存第二响应结果;③将第一响应结果中存在的第二响应结果没有的网页信息补充到第二响应结果中;④后台运行的浏览器根据补充后的第二响应结果进行网页信息的采集,并保存。本发明所述的完整采集网页信息的方法和系统,后台运行的浏览器根据补充后的第二响应结果可完成所有网页信息的采集,且不占用浏览器的资源,从而解决了现有技术中动态网页采集方法无法获取AJAX动态生成的链接页面的问题。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种完整采集网页信息的方法,其特征在于,包括如下步骤:           
S1:在安装有FireBug插件以及Cookies Manager插件的浏览器中模拟用            户浏览浏览器的行为并保存浏览过程中产生的Cookies登陆信息、所有URL            请求及服务器返回的包括所述URL的第一响应结果;           
S2:后台运行的浏览器根据上述浏览器中保存的所述Cookies登录信息模            拟用户浏览浏览器的行为并保存浏览过程中产生的服务器返回的包括URL的            第二响应结果;           
S3:将所述第一响应结果中存在的所述第二响应结果没有的网页信息补            充到所述第二响应结果中;           
S4:后台运行的所述浏览器根据补充后的所述第二响应结果进行网页信            息的采集,并将采集结果保存。           
2.根据权利要求1所述的方法,其特征在于,步骤S1具体包括如下步骤:           
S10:在所述浏览器中的地址栏中输入网站的入口地址;           
S11:在请求得到的页面中输入登录信息,点击提交按钮,并保存Cookies            登陆信息;           
S12:在得到的响应页面中模拟用户浏览浏览器的行为与网站进行交互;           
S13:保存交互过程中产生的URL请求和服务器返回的所述第一响应结果。           
3.根据权利要求1或2所述的方法,其特征在于,步骤S2具体包括如下            步骤:           
S20:初始化后台运行的所述浏览器的WebClient对象并向该WebClient            对象中添加所述Cookies登录信息;           
S21:所述WebClient对象模拟用户浏览浏览器的行为向服务器发送URL            请求;           
S22:后台运行的所述浏览器保存服务器返回的第二响应结果。           
4.根据权利要求1-3任一所述的方法,其特征在于,步骤S4具体包括如            下步骤:           
S40:后台运行的所述浏览器根据补充后的所述第二响应结果构造目标页            面的抓取逻辑;           
S41:后台运行的所述浏览器根据所述抓取逻辑抓取目标页面;           
S42:构造目标页面内容的抓取逻辑,按照抓取逻辑抓取页面内容并将抓            取内容保存。           
5.根据权利要求4所述的方法,其特征在于,           
步骤S40具体包括如下步骤:           
S401:所述浏览器提取目标页面的标识信息;           
S402:对比提取出的目标页面的所述标识信息和所述目标页面的URL;           
S403:将所述URL对应的标识信息用参数值替代,根据所述参数值构造            目标页面的抓取逻辑;           
步骤S42具体包括如下步骤:           
S420:获取目标页面的Dom树;           

本文发布于:2024-09-23 05:29:09,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/465931.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:浏览器   信息   页面
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议