搜索算法比较

封装盒
煅后焦-57-
科技论坛
搜索引擎排名算法比较研究
lncrna引物设计董富江
杨德仁
(宁夏医科大学理学院,宁夏银川750004)
开关电源模块并联供电系统
引言
搜索引擎成功地解决了有效检索和利用互联网上海量信息带来的巨大挑战,成为发现Web 信息的关键技术和用户访问万维网的最佳入口。搜索引擎优化技术(SEO )通过了解各类搜索引擎如何抓取互联网页面、如何建立索引、以及如何确定搜索引擎结果对某些特定关键词的搜索结果排名等技术,来对网站网页进行相关的优化,从而提高在搜索引擎上的排名。对主流搜索引擎的排名算法进行分析和比较研究具有很大的理论和现实意义。
1Google 的几种排名算法1.1PageRank 算法。PageRank 的原理类似于科技论文中的引用机制,即论文被引用次数越多,
就越权威。
从本质上讲,Google 把从A 页面到B 页面的链接解释为A 页面对B 页面的支持和投票,把链接作为网站编辑对页面的质量和相关性的投票,即PageRank 算法通过链接关系确定页面的等级和相关性,互联网中的链接就相当于论文中的
引用。页面的PageRank 主要基于导入链接
(in -bound links )的数量和提供这种链接的网页的PageRank 。Google 为互联网中每个页面赋予的数值权重范围是0-10,以表明页面的重要性,记作PR (E )。Google 根据投票来源(甚至来源的来源,即连结到A 页面的页面)和投票目标的等级来决定新的等级。
PageRank 算法独立于用户查询、是离线的、被实践证明具有快速响应能力和很高成功率。PageRank 确实是识别一流网站的好方法,对Google 的成功功不可没。然而它仍存在着明显缺陷:不考虑主题的相关性,从而使得那些从完全不相关链接的网站也在搜索结果中排名靠前;偏重旧网页,过分依赖网页的外部链接;面临着付费链接和交换链接人为操作的挑衅。
1.2TrustRank 算法。TrustRank 是一种改进PageRank 的方案,它旨在半自动地分离有用页面和垃圾页面,其基本思想是在为网页排名时,要考虑该页面所在站点的信任指数和权威性。TrustRank 基于如下理念:高质量页面一般不连接垃圾页面,而垃圾页面总试图连接到好页面以提
高其声望。TrustRank 的工作原理是:
先用人工去识别少量的、高质量的种子页面,种子页面指向的页面也可能是高质量的页面,即其TrustRank 值也高。与PageRank 相似,若网页获得了来自高TrustRank 值网页的连接,则也就获得了高TrustRank 值,并且TrustRank 这种可靠性随着页面远离种子页面集而衰减。
实施这一方法后极大地增加了短时间内操作排名的难度,迅速改善了搜索结果的质量。TrustRank 成功地区分了来自Spam 的链接与来自优质内容的链接。然而随着时间的推移,Trustrank 引起的问题开始显露,如搜索结果充斥着著名和权威站点的影子,即使这些页面内容可能是Spam 。用一些权重高的站点发布同样的内容页,排名要明显高得多。优秀的个人或企业站点,
尤其是新建的,即使内容再好,也难有排名优势。
1.3HillTop 算法。HillTop 算法用于发现与具
体关键词主题性相关的文档。
地铁门HillTop 算法的指导思想和PageRank 一致,都通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop 认为,来自具有相同主题的相关文档(专家文档)链接对于搜索者的价值会更大,即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。
HillToP 算法基本过程可以分为两步:首先,根据查询去寻专家网页;其次,给顶层专家网页链向的目标网页打分,这个过程综合了它与所有相关专家网页的链接关系。
作为对原始PageRank 算法的补充,Hilltop 算法具有以下优点:是主题灵敏的,通过来自权威性文挡的链接来确定网页的可信度;成功地解决购买离题链接等人为操作;Hilltop 与TrustRank 相似,但更加自动化。然而,Hiltop 在应用中还存在如下问题:而专家页面的质量和公平性在一定程度上难以保证;Hilltop 中根据查询主题从专家页面集合中选取与主题相关的子集也是在线运行的,这与前面提到的HITS 算法一样会影响查询响应时间;随着专家页面集合的增大,算法的可伸缩性也存在着不足。
2HITS 算法HITS (Hyperlink-Induced Topic Search )是由Kleinberg 在20世纪90年代末提出的基于链接分析的网页排名算法,有时也称为Hubs 和au -thorities 算法。该算法与查询主题相关。
用HITS 算法评估网页质量,可得到内容权威度(Authority )和链接权威度(Hub )。用内容权威度评估网页内容的价值;用链接权威度评估网页提
供的超链接的价值。
网页被引用得越多,其内容权威度越高;引用内容质量高的网页越多,网页的链接权威度越高。对整个Web 集合而言,Authority 和Hub 是相互依赖、相互加强、相互优化的关系,这是HITS 算法的基础。在HITS 算法中,首先检索搜索查询的结果集合,计算只针对这个结果集合而不是对所有页面。Authority 和hub 的值通过相互递归定义,即authority 的值是指向该页面的hub 值之和,而hub 的值则是该页面指向的页面的authority 值之和。在实施中还要考虑被链接页面的相关性。
与PageRank 相似,HITS 也是基于Web 文档链接的迭代算法,然而也有一些重要差别:首先,它是在查询时执行,而不是在建立索引时执行,与查询性能如时间等相关。因此,赋予页面的hub 和authority 权值也是与查询相关的。其次,它不是搜索引擎通用技术。再者,它计算了每个文档的两种值即hub 和authority 。第四,它只处理相关文档的一个小子集,而PageRank 针对文档全集。
3微软的BrowseRank 算法
微软研究人员指出,用户浏览情形更能确切
地描述浏览者的随机行进过程,因此,对计算页面自平衡两轮车
的重要性更有用。
用户访问网页的次数越多、在网页上浏览的时间越长,网页就可能更重要。以此评估数百万用户对网
页的重要性,进行隐式投票。
BrowseRank 有以下软肋:首先,BrowseRank 明显有利于社交性网站;其次,而用户行为的可靠性也值得怀疑,因这也能以各种方式操作;再者,最大问题是如何获得这种时间信息;第四,用浏览时间评估网页的重要性也不完全公道。
4Alexa 流量排名算法
Alexa 通过Alexa 工具条收集用户上网信息、统计网站流量以及相关信息。显示在ALEXA 工具栏和其它地方的流量排名以近三个月平均流量数据为基础进行计算,是页面浏览数和到达用户数的综合体现,具有代表性好和公正性等特点。Alexa 只基于使用Alexa 工具条用户的信息衡量网站浏览情况,而不能代表因特网的所有用户的信息,Alexa 承认排名中几项不准确性:首先,使用量较小的网站很难准确估量;其次,所采用的样本可能对不同浏览器的用户存在高估或低估的情况,具体程度不得而知;再者,所采用的样本可能对使用不同操作系统的用户存在高估或低估的情况,具体程度不得而知;第四,在某些情况下,流量数据
也许会受对"网站"定义的影响,
如镜像网站、域名、主页的变更不能得到及时反映;在安全页面上,Alexa 工作栏将自动关闭,所以具备安全页面的网站会在Alexa 流量数据上得不到充分体现。
Alexa 排名与Google Page Rank 的比较。首先,
PageRank 用10以内的数字为页面的外部链接的数量和质量排名;而Alexa 排名基于近三个月的网站用户数目和浏览的页面数为网站排名。其次,Alexa 从不基于网站因素而实施排名惩罚。再者,Alexa 排名基于流量,而不主观;Google 排名
基于Google 算法,
若不符合此算法,网站即使好,也可能排名为0。
结束语
随着Web 页面不断增加以及网络规模不断扩大,搜索引擎技术也在不断完善。搜索引擎在判
断页面的相关性时,还要考虑内容、
元信息、名气、访问量等因素。结合以上对搜索引擎页面排名算法的分析比较,结合搜索引擎的发展趋势,SEO 分析还应从市场角度、技术角度、推广角度、运营角度和历史角度等综合考虑。
参考文献
[1]杨帆.SEO 攻略-搜索引擎优化策略与实战案例详解[M].北京:人民邮电出版社,2009.
[2]吴泽欣.SEO 教程:搜索引擎优化入门与进阶[M].北京:人民邮电出版社,2009.
作者简介:董富江,硕士,助教,宁夏医科大学理学院,研究方向为数据库技术、人工智能。杨德仁,博士,教授,宁夏医科大学理学院,研究方向为
软件工程、人工智能,通信作者。项目名称:“标记语言教学应用研究”校级教学研究项目。
摘要:首先,将主流搜索引擎算法进行了分类;其次,将它们进行剖析和比较,分析了其优点和缺陷;最后,指出搜索引擎优化的方向。
关键词:搜索引擎;优化;排名算法;优化

本文发布于:2024-09-22 04:17:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/113410.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:页面   链接   网页   算法   网站
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议