浅析各类搜索引擎之间的联系与区别

浅析各类搜索引擎之间的联系与区别
摘要    internet上蕴藏着非常丰富的信息资源,但是要从浩如烟海的信息中准确、及时、方便、迅速的到自己所需要的信息,却并不是一件容易的事情.为此应对重点网络搜索引擎的检索技术和功能作一全面的介绍.使学生在网络信息检索中选择了好的搜索引擎,才能快速、准确地到所需要信息.本文主要对百度google两个典型搜索引擎之间的检索技术、各自特点进行全面的比较和分析,从而得出各类搜索引擎之间的联系与区别。
关键字  google  百度  搜索引擎  比较分析
    Google世界上最大的搜索引擎,通过对200多亿网页信息的整理,每天为世界各地提供1.5亿次以上的网上信息查询服务。百度是全球最大的中文搜索引擎, 拥有超过10多亿的中文网页数据库, 每天响应超过亿次的网络信息搜索请求。在这两大搜索引擎之间, 搜索的结果平均有85%的不同,因此,有网站把两者结合建立了百Google度。然而,这两大搜索引擎之间究竟有什么特点和区别,本文将根据数据加以分析、比较研究。
Google与百度的特点
  Google的特点
    google秉持着开发“ 确解用户之意, 切返用户之需” 的“ 完美的搜索引擎” , 使得搜索方式发生了根本性变化, 在业界独树一帜, 其强大的功能和独到的特点就在于:
(1) 网页快照” 功能。能从google服务器里直接取出缓存的网页。如果原地址打开很慢, 那么可以直接查看美帝国的崩溃电子书google缓存页面, 因为google服务器速度极快;如果原链接已经死掉或者因为网络的原因暂时链接不通, 那么可以通过google快照看到该页面信息;如果打开的页面信息量巨大, 一下子不到关键词所在位置zhif, 那么可以通过google快照, 因为快照中google用黄表明关键字位置。
(2) 单词英文解释” 功能。写英文文章的时候, 最头疼的事情就是对某个英文单词的用法不确定。现在有了google, 一切就迎刃而解了!无论你是想查某个生词的意思还是想了解某个单词的用法, 均可使用在线词典。
(3) 网页翻译” 功能。google提供了网页翻译功能, 虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文, 但是不得不承认, 这是个杰出功能, 只要你点击“Translate t
his page 按钮, google为你提供了人工智能的机器翻译, 翻译出来的结果让你大致能够看得明白。
(4) 搜索结果过滤” 功能。网络上的成人信息浩如烟海, 而且很多站点具有欺骗或者其他不良企图, 浏览者很容易掉入其中的陷阱。为此google新设立了成人内容过滤功能, google的设置页面,不过, 中文状态下的尚没有这个功能。
(5) 超文本匹配分析” 功能。google的搜索引擎, 同时也分析网页内容, 它并不采用单纯扫描基于网页的文本的方式, 而是分析网页的全部内容以及字体、分区及每个文字精确位置等因素, 同时还会分析相邻网页的内容, 以确保返回与用户查询最相关的结果。
(6) PageRank, 技术。通过对由超过5000万个变量和20亿个词汇组成的方程进行计算,PageRank能够对网页的重要性做出客观的评价, 它并不计算直接链接的数量, 而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票, 这样会根据网页B所收到的投票数量评估该页的重要性, 提供准确率极高的搜索结果。
7)“ 图片搜索” 功能。google可以检索390000000张图片, 并称为“ 互联网上最好用的图像搜索工具” , 对中国用户而言, google的图片搜索引擎是最好的图像搜索工具。
8)“ 新闻组搜索” 功能。新闻组有详尽的分类主题, 某些主题还有专人管理和编辑, 具有大量的有价值信息。由于新闻组包含的信息实在是海量, 因此不利用工具进行检索是不大可能的。2001googleDEJA收购并提供了所有DEJA的功能。现在, 除了搜索之外, google还支持新闻组的WEB方式浏览和张贴功能。
(9) 目录检索” 功能, 如果不想搜索广泛的网页, 而是想某些专题网站, 你可以访问google的分类目录。分类的网站目录一般由专人负责, 分类明确, 信息集中。
(10)其他功能。google的其他功能还包括查询电话号码、查PDF文件、股票报价、谁和你链接、查站点、查字典释意, 等等。
  百度的特点
  百度致力于倾听、挖掘与满足中国网民的需求, 秉承“ 用户体验至上” 的理念, 除网页搜索外, 还提供MP3、文档、地图、传情、影视等多样化的搜索服务, 将无数网民头脑中的智慧融人了搜索, 使“百度一下” 已经成为了人们进行搜索的新动词。其独有的功能和特点就在于:
1)“ 百度快照” 功能。如果无法打开某个搜索结果, 或者打开速度特别慢, 百度快照” 能帮您解决。每个被收录的网页, 在百度上都存有一个纯文本的备份, 称为“ 百度快照” 。由于百度速度较快, 您可以通过“ 快照” 快速浏览页面内容。
2)“ 相关搜索” 功能。搜索的结果不佳, 有时候是因选择的查询词不妥当。您可以通过参考别人的做法来获得一些启发。百度的“ 相关搜索” ,就是和您的搜索很相似的一系列查询词。
3)“ 拼音提示” 功能。如果只知道某个词的发音, 却不知道怎么写, 或者嫌某个词拼写输入麻烦, 这时百度拼音的提示能够帮您解决。只要您输人查询词的汉语拼音, 百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输人法。
4)“ 错别字提示” 功能。由于汉字输人法的局限性, 在搜索时经常会输人一些错别字, 导致搜索结果不佳, 这是百度会给出错别字纠正提示。错别字提示显示在搜索结果上方。
5)“ 英汉互译词典” 功能。百度在线英汉互译词典, 你随便输人一个英语单词, 或者输人一个汉字词语, 点击结果页上的“ 词典” 链接, 就可以得到高质量的翻译结果。百度在线词典
不但能翻译普通的英语单词、词组、汉字词语, 甚至还能翻译常见的成语, 具有直接使用英汉互译功能。
6)“ 计算器和度量衡转换” 功能。百度网页搜索内嵌的计算器功能, 则能快速高效解决你的计算需求, 你只需简单的在搜索框内输人计算式,回车即可看到计算式的结果。百度的搜索框中, 你也可以做度量衡转换, 当你输人:换算数量换算前单位=?换算后单位, 回车即可得到换算的结果。
7)“ 专业文档搜索” 功能。百度具有很好的office文档、Adobe PDF渝钛白文档、RTF文档进行了全文搜索。只要你在普通的查询词后面, 加一个“ filetype福永中心小学” 和文档类型限定。就可快速查看该文档的网页格式内容。你也可以通过百度文档搜索界面而功, 直接使用专业文档搜索功能。
(8) 股票、列车时刻表和飞机航班查询”功能。你在百度搜索框中输人股票代码、列车车次或者飞机航班号, 就能直接获得相关信息。例如, 输人股票代码“ 600001 , 搜索结果上方, 就显示邯郸钢铁的股票实时行情。
9)“ 天气查询” 功能。百度可以随时查询天气预报, 只要你在百度搜索框中输人你要查询的城市名称加上天气这个词, 您就能获得该城市当天的天气情况。百度支持全国多达400多个城市和近百个国外著名城市的天气查询。
10)“ 超链分析” 技术。百度将传统情报学中的引文索引技术同web中最基本的链接技术相结合, 通过分析链接网站的多少来评价被链接的网站质量, 使得在百度搜索时, 越受用户欢迎的内容排名越靠前.
      两大搜索引擎的相关特点折射出各类搜索引擎的联系。它们都有自己服务理念和目标,都有强大的功能为用户服务,并打造自身的技术特点和专长。为用户不断提供优秀的服务质量,并完善自身的技术和不足,吸引用户的使用和得到信赖,不断发展。
google与百度检索技术分析
评价一个搜索引擎的质量, 就需要对检索结果进行比较分析, 为此有必要对google与百度从更新时间、响应速度、查全率、检准率、文档搜索等方面进行比较分析。
(1)规模、内容及更新时间
        google多为月更新, 有部分日更新或时更新,搜索范围涵盖了世界各地的网页, 网页数达200多亿。百度平均为周更新, 中文信息大部分时更新,有超过10多亿中文网页, 9千万张图片, 拥有目前世界上最大的中文信息库, 并且还在以每天几十万页的速度快速增长, 涵盖了中国内地、港澳台、新加坡等华语地区及北美、欧洲部分网站。
2)搜索响应的速度
救护车打表计费    google1.5万台服务器, 200多条T3级宽带, 索引功能通过索引库  和排序器来实现。百度在中国各地和美国均设有服务器, 高效的搜索算法和本地服务器保证最快的响应速度。
    为了测试google和百度的响应速度, 笔者任意抽取了5个搜索词进行检索, 其结果是google的平均响应时间小于0.13, 百度的平均响应时间小于0.06秒(参见:搜索响应时间统计表), 百度的搜索响应的速度要快于google
                  搜索响应时间统计衰
      搜索词
    google
      百度
    李文红
  393000    0.23
  888000    0.001
  信息组织学
  1160      0.05
  308000    0.089
  美对售
  770000    0.22
  88300    0.082
  新农村文化建设
  4560000  0.07
  525000  0.001
网络信息资源检索
  3850000  0.06
  27300  0.125
  平均响应时间
        0.13
      0.06阻燃剂tbc
  3)资源查全率
        google收取了大概200亿的英文搜索页面,互联网上总的英文网页的数量大概在300亿左右,google已经覆盖了英文网页数据量的60%70%,在这个条件下, 所以它的用户满意度能达到60%70%。互联网上中文网页有效数量大致在100150亿之间, 而百度和收录的文网页量都在40亿到50亿之间, 因而, 百度和google的中文网络资源查全率一般只能达到任3040%。对西方网络信息资源查全率进行研究, 百度与google同样无与伦比。
4)网络信息资源检准率
    检准率是衡量网络信息检索质量的标准, 也是网络信息检索的一个突出问题。搜索引擎的检准率体现在两个方面, 一是搜索引擎对垃圾网页的抗干扰能力, 二是搜索引擎对检索结果的排序能力, 它主要取决与搜索引擎采用的排序算法的优劣。

本文发布于:2024-09-20 17:21:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/684576.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:搜索   百度   网页   功能   信息
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议