【CN109902236A】一种基于非概率模型的垃圾网页降级方法【专利】

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910172890.7
(22)申请日 2019.03.07
(71)申请人 成都数之联科技有限公司
地址 610000 四川省成都市武侯区一环路
西一段菊乐路口1栋4层2号
(72)发明人 不公告发明人 
(74)专利代理机构 成都帝鹏知识产权代理事务
所(普通合伙) 51265
代理人 黎照西
(51)Int.Cl.
G06F  16/9535(2019.01)
(54)发明名称
一种基于非概率模型的垃圾网页降级方法
(57)摘要
本发明公开一种基于非概率模型的垃圾网
页降级方法,包括通过网络爬虫爬取网页并对其
内容进行解析,获取网页URL列表;根据获得的
URL列表计算得到节点邻接表;根据节点邻接表
构建节点网络图;采用PageRank算法对节点网络
图中节点排序,将排名靠前的网页依次分类标注
为正常网页或垃圾网页;对已标注的网页赋予评
分初始值和跳转概率初始值;采用迭代算法进行
值传播,直到算法收敛,获得节点评分值;根据节
点评分值对节点网络图中所有节点进行降序排
序,得到页面的最终排序结果。本发明实现垃圾
网页降级处理,尽最大可能提升正常网页在搜索
引擎中的排名,同时降低垃圾网页的排名,有效
提高了垃圾网页降级的处理精度和速度。权利要求书2页  说明书5页  附图1页CN 109902236 A 2019.06.18
C N  109902236
A
1.一种基于非概率模型的垃圾网页降级方法,其特征在于,包括步骤:
S100,通过网络爬虫爬取网页并对其内容进行解析,获取网页URL列表;
S200,根据获得的URL列表计算得到节点邻接表;
S300,根据节点邻接表构建节点网络图;
S400,采用PageRank算法对节点网络图中节点进行排序,对排名靠前的网页依次分类标注,所述分类标注包括正常网页和垃圾网页;
S500,对已标注的网页赋予评分初始值和跳转概率初始值;采用迭代算法进行值传播,直到算法收敛,获得节点评分值;
S600,根据所述节点评分值对节点网络图中所有节点进行降序排序,得到页面的最终排序结果。
2.根据权利要求1所述的一种基于非概率模型的垃圾网页降级方法,其特征在于,将所获取网页的URL链接和其链出的URL链接以邻接表的形式存储在数据库中。
3.根据权利要求2所述的一种基于非概率模型的垃圾网页降级方法,其特征在于,所述节点网络图结构为G=(V ,E),G为有向无权图;
其中,V为所有节点的集合,E为所有边的集合;
如果节点v i 存在,且存在由节点v i 指向节点v j 的链接,则有<v i ,v j >∈E;对于任意节点v i ,指向自己的链接不包含在E中,
4.根据权利要求3所述的一种基于非概率模型的垃圾网页降级方法,其特征在于,在所述步骤S400中,对排名靠前的网页进行分类标注,包括步骤:
从排名最高的节点开始,依次进行标注,直到标注的正常网页和垃圾网页数量均不少于100个;标注后的正常网页集合为S n ,垃圾网页集合为Ss。
5.根据权利要求4所述的一种基于非概率模型的垃圾网页降级方法,其特征在于,在所述步骤S500中,采用迭代算法进行值传播,直到算法收敛,获得节点评分值,包括步骤:
对每一个节点v i ,记G(v i )表示其正向排序值,B(v i )表示其逆向排序值,In(v i )表示v i 的父节点集合,Out(v i )表示v i 的子节点集合;
采用迭代算法计算每个节点的G(v i )和B(v i ),
计算公式为:
其中,
G(v i )和B(v i )的初始值由IG(v i )和IB(v i )计算;λ取值0.85;算法迭代次数为100次。
6.根据权利要求5所述的一种基于非概率模型的垃圾网页降级方法,其特征在于,根据所述节点评分值对节点网络图中所有节点进行降序排序时,节点v i 的G(v i )和B(v i )用来作
权 利 要 求 书1/2页2CN 109902236 A

本文发布于:2024-09-20 12:16:43,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/804165.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:网页   节点   进行   垃圾   降级   算法
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议