搜索引擎的种类

        搜索引擎的种类
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。

元搜索引擎 (META Search Engine)
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

除上述三大类引擎外,还有以下几种非主流形式:

1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区
别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。



google中支持的有:pdf、ps、doc、ppt、xls、rtf

搜索格式为:internet filetype:doc
    搜索技巧
搜索关键词提炼
  选择搜索关键词的原则是,首先确定你所要达到的目标,在脑子里要形成一个比较清晰概念,即我要的到底是什么?是资料性的文档?还是某种产品或服务?然后再分析这些信息都有些什么共性,以及区别于其他同类信息的特性,最后从这些方向性的概念中提炼出此类信息最具代表性的关键词。如果这一步做好了,往往就能迅速的定位你要的东西,而且多数时候你根本不需要用到其他更复杂的搜索技巧。
细化搜索条件
  你给出的搜索条件越具体,搜索引擎返回的结果也会越精确。  比方说你想查有关电脑冒险游戏方面的资料,输入game是无济于事的。computer game范围就小一些,当然最好是敲入computer adventure game,返回的结果会精确得多。  此外一些功能词汇和太常用的名词,如对英文中的“and”“how”“what” “web”“homepage”和中文中的等等搜索引擎是不支持的。这些词被称为停用词(Stop Words)或过滤词(Filter Words),在搜索时这些词都将被搜索引擎忽略。
用好搜索逻辑命令
  搜索引擎基本上都支持附加逻辑命令查询,常用的是“+”号和号,或与之相对应的布尔(Boolean)逻辑命令ANDORNOT。用好这些命令符号可以大幅提高我们的搜索精度。
精确匹配搜索
  除利用前面提到的逻辑命令来缩小查询范围外,还可使用""引号(注意为英文字符。虽然现在一些搜索引擎已支持中文标点符号,但顾及到其他引擎,最好养成使用英文字符的习惯)来进行精确匹配查询(也称短语搜索)。
特殊搜索命令
  标题搜索   多数搜索引擎都支持针对网页标题的搜索,命令是“title,在进行标题搜索时,前面提到的逻辑符号和精确匹配原则同样适用。  网站搜索   此外我们还可以针对网站进行搜索,命令是“siteGoogle)、“hostAltaVista)、“urlInfoseek)或“domainHotBot)。  链接搜索   在GoogleAltaVista中,用户均可通过“link:”命令来查某网站的外部导入链接(inbound links)。其他一些引擎也有同样的功能,只不过命令格式稍有区别。你可以用这个命令来查看是谁以及有多少网站与你做了链接。
简单查询
  在搜索引擎中输入关键词,然后点击搜索就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。
使用双引号用(" "
  给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入电传,它就会返回网页中有电传这个关键字的网址,而不会返回诸如电话传真之类网页。
使用加号(+
  在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真就表示要查的内容必须要同时包含电脑、电话、传真这三个关键词。
使用减号(-
  在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入电视台-中央电视台,它就表示最后的查询结果中一定不包含中央电视台
使用通配符(*?
  通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入 “computer*”,就可以到“computercomputerscomputerisedcomputerized”等单词,而输入 “comp?ter”,则只能到“computercompatercompeter”等单词。
使用布尔检索
  所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。  and,称为逻辑,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computerbook。  or,称为逻辑,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,
例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computerbook。  not,称为逻辑,它表示所连接的两个关键词中应从第一个关键词概念中排除第二个关键词,例如输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含car(小汽车)。  near,它表示两个关键词之间的词距不能超过n个单词。  在实际的使用过程中,你可以将各种逻辑关系综合运用,灵活搭配,以便进行更加复杂的查询。
使用括号
  当两个关键词用另外一种操作符连在一起,而你又想把它们列为一组时,就可以对这两个词加上圆括号。
使用元词检索
  大多数搜索引擎都支持元词metawords)功能,依据这类功能用户把元词放在关键词的前面,这样就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。例如,你在搜索引擎中输入“title:清华大学,就可以查到网页标题中带有清华大学的网页。在键入的关键词后
加上“domainrg”,就可以查到所有以org为后缀的网站。  其他元词还包括:image:用于检索图片,link:用于检索链接到某个选定网站的页面,URL:用于检索地址中带有某个关键词的网页。
区分大小写
  这是检索英文信息时要注意的一个问题,许多英文搜索引擎可以让用户选择是否要求区分关键词的大小写,这一功能对查询专有名词有很大的帮助,例如:Web专指万维网或环球网,而web则表示蜘蛛网.
参考资料:baike.baidu/view/1154.htm

本文发布于:2024-09-22 20:22:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/449682.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:搜索   关键词   搜索引擎   结果   查询
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议