信息检索技术方法及搜索引擎

信息检索技术方法及搜索引擎
第一节:信息检索技术
数字资源的检索技术
布尔逻辑检索技术
1
截词检索技术
2交通波
邻近检索技术
3
字段检索技术
4
布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法.
主要的布尔逻辑关系词有:逻辑与(AND),逻辑或(OR),逻辑非(NOT)
1 布尔逻辑检索技术
逻辑与
逻辑乘: "and"或"*"表示
组配方式:A*B或者A and B 表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息稻草秸秆
武夷学院图书馆作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率.  逻辑或
又称逻辑和:"or","+"
组配方式:A OR B或者A+B,表示检索含有A词,或含有B词,或同时包含A,B两词的文章. 作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率.
逻辑非
又称逻辑差: "not" "-"
组配方式:A-B,表示检索出含有A词而不含有B 词的文章.
作用:逻辑非用于排除不希望出现的检索词,它和"*"的作用相似,能够缩小命中文献范围,增强检索的准确性.
例如检索:"打印机驱动程序"
查询关键词:打印机,驱动程序
检索表达式:打印机 AND 驱动程序
例如检索:"微型计算机"方面的有关信息
查询关键词:微型计算机,微机
检索表达式:微型计算机OR 微机
布尔逻辑检索举例
布尔运算符优先级比较
有括号时:括号内的先执行;
无括号时:NOT > AND > OR
例:检索"唐宋诗歌"的有关信息.
关键词:唐,宋,诗歌;
检索表达式:
(唐 OR 宋)AND 诗歌;
唐 AND 诗歌 OR 宋 AND 诗歌;
错误表达式:
唐 OR 宋AND诗歌;
唐 AND 宋AND诗歌;
唐 OR 宋OR诗歌;
唐AND 宋OR诗歌;
布尔逻辑运算符优先级
请注意
在不同的数据库中,所使用的逻辑符号可能是不同的,有的用"and,or,not" 有的用"*,+,-". 一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中.
一些网络检索工具如搜索引擎甚至用"〕,,,-"(即空格,逗号,减号)来表示.
主要应用于西文数字资源的检索
定义:是指在检索式中用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化.
作用:主要是提高查全率
截词符一般用" "或"*"表示
2 截词检索技术
截词位置
按截词位置可分为前截词,后截词,前后截词和中间截词;
按截断字符数的不同,可分为有限截断和无限截断.
右截词,又称后截词,前方一致.允许检索词尾有若干变化.例如comput*将检索出computer ,computing,computerised,computerized,computerization等结果.
中间截词,又称前后方一致.允许检索词中间有若干变化.例如wom*n,检索到woman,women的结果.英美的不同拼法,defen*e可同时检出defence和defense的结果.
左截词,又称前截词,后方一致,允许检索词前有若干变化,例如*physics就可检索到physics,astrophysics,biophysics,chemophysics,geophysics等词的结果.
前后截词:词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式.如computer 可检索computer,computers,computerize,computerized,computerization,minicomputer,minicom puters,microcomputer,microcomputers等结果.
请注意
在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用" ",有的用"*",有的用"#",用的用"$"等.
即便常用的" "和"*"在不同的数据库中其用法也是不一定相同的.
在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比较少见.
我们将要使用的一些数据库,一般用"*"代表一个字符串,用" "代表任意一个字符.
邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置. 例如检索"生物防治"的文献,若用检索式"biological*control"检索,则会将"抑制生物"(control biological)的文献也查出来,这显然不是所需文献.
主要有相邻位置算符(W),(nW),(N),(nN),句子位置算符(S),字段算符(F).
3 邻近检索技术
(W) 算符
(W)是with(word)的缩写,表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号.
如biological (W) control相当于检索biological control
CD (W) ROM相当于检索CD ROM或CD-ROM.
(nW) 算符
(nW)是n words的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变. 如wear (1W) material相当于检索wear materials,wear of materials等.
(N)算符
商君书锥指(N)是near的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号.
information(N)retrieval
可检出: information retrieval
retrieval information
(nN)算符
(nN)表示两词间可插入最多n个词,词序可变.
如检索式environment (2N) protection 就可检索出包含"environment protection","environment of the protection ","environment of water protection","protection of forest environment"
(S),(F)算符
(S)是sentence的缩写,表示两个检索词须同时出现在文献记录的同一子字段中,两词的词序不限,两词间插入词的数量不限.
(F)算符:在联机检索中还有对同字段进行检索的(F)算符.(F)表示此算符两侧的检索词必须同时出现在信息记录的同一个字段内,两词的词序不限,两词间插入词的数量不限.用此算符时须指定所要查的字段,如题名字段,文摘字段,叙词字段等.例如digital (F) computer/TI表示在题名字段(TI)中同时出现这两个检索词的才算命中信息.
字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进行查.
3 字段检索技术
数据库中的字段包括
TI(题名),AB(摘要),DE(主题词),ID(标识词),SU(主题词),KW(关键词)
AU(著者),BN(国际标准书号),SN(国际标准刊号),CC(分类类目),CS(机构),DT(文献类型)或PT(出版物类型),JN(刊名)或JA(刊号),LA(语种),PY(出版年),SO(来源出版物)
注意:不同的数据库其字段代码可能不同.
举例
在EBSCO数据库检索中,某一用户需检索有关"数字图书馆与信息检索,参考咨询"方面的文献信息,检索要求:题名或文摘中包含数字图书馆digital library,数字图书馆要求考虑单复数,主题为信息检索information retrieval或参考咨询reference,请编制其检索策略(检索式).
(ti:digital librar* or ab:digital librar*) and su:(reference or information n2 retrieval)
第二节:信息检索方法
信息需求分析
选择信息资源
选定检索词
构造检索表达式
确定检索途径
对检索策略进行调整
实施并输出检索结果
1 信息需求分析
分析信息检索目的,制定检索目标.
分析所需信息涉及的学科,确定检索的学科范围.
分析所需信息的类型,年代,确定检索的信息类型和年代范围.
2 选择信息资源(数据库的选择)
数据库的类型
学科范围
时间范围
3 选定检索词
分析主题,出课题所包含的显性概念和隐含概念.
出核心概念,排除无关概念和重复概念.2010冷笑话
从待检数据库和检索工具的词表中选取规范化的词或词组.
选用上位词,近义词或下位词作为检索词.
4 构造检索表达式
分析检索提问式是数字资源检索中用来表达用户检索提问的逻辑表达式.
出在编制检索提问式时,准确,合理地运用位置逻辑算符,截词符,字段符等技术是编制检索式的基本要求.
5 确定检索途径
第一类是表示主题概念的检索词---主题词,包括标题词,单元词,叙词,关键词.
第二类是表示学科分类的检索词,如分类号.物理化学学报
第三类是表示作者的检索词,如作者姓名,机构名称等.
第四类是表示特殊意义的检索词,如专利号,国际标准书号,分子式等
举例
一个研究生在做论文题:"数字图书馆中的元数据体系与互操作研究",这是一个计算机科学,信息科学方面的课题,请你帮助他在维普数据库中到最新的参考文献.
第三节:搜索引擎
Search Engine
搜索引擎利用情况
搜索引擎的概念和作用
搜索引擎的工作原理
搜索引擎的分类
搜索引擎的一般检索技术
搜索引擎利用技巧
主要搜索引擎
目录
搜索引擎的应用现状
从用户使用的角度,国外的调查发现:
网上搜索信息的人很少考虑如何到他们所需要的信息,因此搜索信息时象动物猎食般盲目; 只有18%的用户表示总能在网上搜索到需要的信息.68%的用户说他们对搜索引擎很失望;
平均每个搜搜者在12分钟的徒劳搜索后就感到恼火和受挫.
46%的人只会用同一个关键词搜啊搜啊,而且是在同一个搜索引擎.
国外的应用状况
那些每周平均花5个小时以上时间上网的人,将其上网时间的71%都花在了搜索引擎上;
人机界面高手nielsen(google的设计者)研究表明:
略超过1/2的互联网用户属于search-dominant,
约1/5用户属于 link-dominant,
其它用户的搜索倾向属于混合行为型.
search- dominant在到达一个网站后直接就奔向搜索按钮,他们对浏览网站不感兴趣,他们有明确的目的,倾向于以最快速度到信息.
相反,link-dominant喜欢点击浏览一个网站,即使他们想特殊信息时也是这样,只有在他们用点击超链的方法已经实在不到了,才会想起搜索按钮.
国内的应用状况
国内的调查发现:
cnnic2004年1月的调查:
61.6%的中国互联网用户经常使用搜索引擎(仅次于E-mail).
83.4%的中国互联网用户得知新网站的主要途径是搜索引擎.
赛迪咨询的搜索引擎调查:截止2000年8月,92.9%的网民使用过搜索引擎,同时有六成左右的网民将搜索引擎列为经常使用的网络服务.
新浪搜索的统计表明:第1条搜索结果获得的点击量,是第2页第1条的150倍.
百度公司:百度2001年中国互联网用户搜索热点统计
搜索引擎是一个用来搜索世界各地Internet网络资源的WEB服务器.它像一本书的目录,Internet各个站点的网址就像是页码,可以通过关键词或主题分类的方式来查感兴趣的信息所在的WEB页面.
搜索引擎提供的导航服务(搜索引擎就是网络的指南针)已经成为互联网上非常重要的网络服务,成为和并列的最重要的互联网应用.
搜索引擎的概念和作用
(1)信息搜集
(2)信息索引
(3)信息查询
(4)检索结果的相关性处理
搜索引擎的工作原理
(1)信息搜集
各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的"网页搜索软件",在互联网中漫游,发现和搜集信息.
访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,要尽可能多,尽可能快地搜集各种类型的新信息.
因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接.
(2)信息索引
将"网页搜索软件"带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容. 有的搜索
引擎把"网页搜索软件"发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址,篇名,特点的段落和重要的词.
(3)信息查询

本文发布于:2024-09-23 15:27:52,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/122897.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检索   信息   搜索引擎   搜索
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议