信息检索

㈠因特网上存在一些误解:
①认为因特网无所不包、不所不能,所有信息均可在网上到;②认为因特网上到的、下载下来的信息都是正确的;③认为因特网可以完全取代其他媒体或信息渠道;④认为因特网上的信息物太多利用价值,仅限于聊天、菜谱、各种发烧友俱乐部等非正式、娱乐性信息,缺乏严肃类信息。
㈡网上有什么信息:
①政府信息(政府信息是网上最有价值的信息,具有权威、可靠等特点,政府信息来源国最大的国家是美国);②科研信息;③教育信息;④文化信息;⑤休闲娱乐信息(被称为是网上最成功的领域)。
㈢因特网信息资源的特点:
①无限性和广泛性;②多样性;③廉价性;④共享性;⑤新颖性;⑥无序性。
㈣因特网山信息资源的种类:
①Web信息资源(超文本传输协议HTTP、超文本标记语言、通用资源定位程序URL、主页、链接、浏览器)
URL又称信息资源的统一定位格式或统一资源定位器,实际上就是一个用以标识文档类型及其躲在网络地址的字符串,它的用途是用统一的方式指明因特网上信息资源的位置。URL包括3部分:多使用的传输协议、服务器名称、该服务器上定位文档的全路径名。
浏览器是一种应用于WWW的网络软件,它是运行在用户计算机上的客户程序,分为三大类:行式浏览器、文本浏览器、使用图形界面的浏览器。
②Telent指借助远程登录,在Telent的支持下,在远程计算机上登录,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问,使用远程登录计算机中对外开放的相应资源。
③FTP信息资源(FTP是因特网使用的文件传输协议,主要功能是完成一个系统到另一个系统完整的文件拷贝,即在因特网的联网计算机之间传输文件)
④用户组信息资源(网上各种各样的用户通信,服务组是因特网上最受欢迎的信息交流形式)
智能浴缸
⑤RSS信息资源(RSS是一种用于共享新闻和其他Web内容的数据交换规范,起源于Netscape公司1997年开发的技术,是将用户订阅的内容传送给他们的通信协同格式)
㈤评价的标准:
① 目的;②范围;③内容(准确性、权威性、新颖性、独特性、可靠性、链接、图形和多媒体设计、信息的展示与设计、可操作性、费用、评论)
㈥评价方法:
① 定性评价(即按照一定的评价标准对被评站点的各方面特征、质量作出主观评判,一般有问卷调查和专家评议方式)
② 定量评价(即利用数量分析方法,对调查统计数据进行分析,进而做出较系统、客观的评判)
㈦因特网信息资源检索的特点:
① 检索范围大;②检索效率高;③检索工具强大;④信息冗余大
*㈧基
于关键词检索的特点:
优点:①检索简单易行,利于上手;②检索到的信息较新,时效性好; ③可以到达较高的检全率;④符合检索语言的文献保障原则和与用户保障原则;
缺点:①关键词语言难以反映词间的相关关系;②分散主题,影响查准率;③自动标引无法完全解决标引不一致的问题。
㈨提高关键词检索的效率有哪些功能:
① 布尔检索;②截词检索;③位置检索;④加权检索;⑤字符串检索;⑥限制检索;
⑦概念检索;⑧模糊检索;⑨深入检索
㈩网络资源目录
由人工发现、抓取、辨别网上信息,依靠编目、标引人员的知识,按照图书分类、学科分类或其他分类依据,建立主题树分层目录,将采集、筛选后的信息分门别类地放入各大类或子类下面。
(十一)搜索引擎
它利用一个称为Robot的程序自动访问Web站点,提取站点上的网页,并根据网页中的链接进一步提取其他网页,或转移到其他站点上。
(十二)一个完整的搜索引擎应具备的5大部分:
① 搜索器;②搜索引擎数据库;③所引器;④检索引擎;⑤用户接口
(十二)根据分类知识的获取方法不同,将文本自动分类系统分类:
① 基于知识工程的分类系统;②基于统计的分类系统
(十三)自动分类方法分为:①自动归类;②自动聚类
(十四)网络信息检索模型:减速机测试
① 布尔检索模型;②扩展布尔模型;③向量空间模型
(十五)因特网检索工具的性能评价:
对网上信息检索工具的评价研究主要集中在系统功能设置、用户界面、数据库内容结构与更新,以及对国内外搜索引擎的准确性、易用性、可选择性、检索效果的分析、比较等方面。
(十六)检索功能:
检索功能直接影响信息检索的检全率、检准率、检索的灵活性、方便行及检索速度,是评价与选择因特网信息检索工具的核心指标。
功能评价指标包括:①检索方式;②检索技术;③检索限定
(十七)检全率:对于一项检索,实际检出的真正相关的文件数目r与所有应该被检出的文件数目R的比率,r/R即为检全率。
检准率:对于一项检索,如果检出的文件数是n,其中与本次检索真正相关的文件是r,那么检准率就是r/n。
(十八)搜索引擎发展简述:
所有搜索引擎的祖先是Archie;RBSE是第一个索引Html文件正文的搜索引擎,也是第一个在结果排列中引入关键字串匹配程度概念的引擎。
(十九)Goole数据库中的文档分类:
① 被索引的网页占73.1%;②未被索引的网页占25%;③其他类型文档占17.5%;④日常性再索引网页占0.15%
(二十)Goole的检索功能:
Goole支持不完全的布尔逻辑,也支持OR逻辑操作
,但注意在进行“或”操作时OR逻辑操作符必须大写,不支持截词符的使用,Goole特文档检索:如.xls、.ppt、.doc、.rtf、wordperfect文档、adobe的.pdf、shockwave的.swf文档(flash动画)
(二十一)AOL是全美最大的网络服务商。
(二十二)网络资源目录:
① 网络资源目录一般采用人工或半自动方式采集存储网络信息,网络资源目录主体范围一般有10—20个,一般分四级,所有网络资源目录都包括下列典型的一级类目如:商业贸易、计算机和网络、时事、娱乐和休闲、体育。
② 一个网络资源目录分层取决于哪些因素:⒈与使用的目录有关,有些首页目录之下多达八层;⒉取决于所选的类目;⒊与主题类目有关,一般在主题下有两到三层。
(二十三)网络资源目录使用的分类法:
拉长虾① 主体分类法:其特征是一个主题充当一个类目,类目像主题词表一样按字顺排列,而不是以逻辑顺序排列,主题分类法一般设置12~18个一级主题类目,层次是4级。
② 学科分类法:是以知识分类为基础,按照学科性质及从属、层次关系来组织网络资源,类目排序以字顺为标准,“网络指南针”下用的分类法之一便是学科分类法,一级类目共分58个学科。
③ 图书分类法:
④ 分面组配法:原理是首先确定几个分类标准,即分面,再确定每个分类标准中的若干特征值,即类目,每一面的类目与其他分面的类目分别组配,形成许多组配类目,达到细分的目的。
(二十四)国外的网络资源目录代表:Yahoo!
液压滑环
列举:Galaxy、BUBL LINK,http、The WWW Virtual Library(VL)、
(二十五)网易推出了开放式目录的示范和“中国最大的开放式引擎”。
*(二十六)网络资源目录主要使用于:
① 用户进行较宽泛的主题浏览和检索;②当用户尚未形成很精确的检索概念时,采用主题指南针作为检索起点非常有效。
搜索引擎适用范围:
① 搜寻某一领域的特定信息较为适用,也适用于检索难以确定学科归属、交叉、专深、具体的信息;②搜索引擎可谓用户提供多种检索手段和方式并得到最全面、最广泛搜索结果的网络信息检索系统。
*(二十七)网络资源目录和搜索引擎的比较:
网络资源目录:
优点:①可一定程度上保证提供资源的质量和权威性、稳定性;②人工干预提高了检索结果的相关性,保证了检索的准确性;③强调浏览功能,适合多数网络用户和新手;④用户从目录查询中得到的结果往往比从基于Robot的搜索引擎得到的结果更具参考价值。
局限性:①受人工标引的限制,网络资源目录的搜索范围较搜索引擎要小许多;②要保证目录结构的清晰性,每一类目下的条目也不宜过多
,因此大大地限制了网络资源目录的容量;③收录的网页数量和标引深度相对不足,很难检索到较深的信息,且信息更新速度相对较慢;④难于控制主题等级类目的质量,各系统的分类体系和标引方式不统一、不规范,如果检索者的检索思路与目录的划分标准不一致则会导致误查、漏查。
水的声阻抗搜索引擎:
优点:是查询全面而充分、方便快捷。搜索引擎基本上都采用基于关键词匹配的全文检索技术,实质上是应用计算机搜索软件进行关键字符的机械匹配,并结合布尔逻辑运算等构成“高级检索”表达式进行面向全因特网的信息查询。
缺点:①由于信息采集、组织标引、匹配检索等过程缺乏人工控制,缺乏概念语义控制而导致的虚假匹配较多见、检索噪声太大,虽返回了大量的检索结果,但其中会掺入许多不相关信息,用户要花较多时间在大量的检索结果中挑选有用的信息,也就降低了检索效率和检索的准确性。
② 使用搜索引擎的用户首先需要明确的检索词;
③其次要具备一定的检索知识,了解逻辑组配语法;
④最后还要了解每个搜索引擎的语法特点和检索符号的不同。
(二十八)元搜索引擎概述:
元搜索引擎是一种基于搜索引擎的网络检索工具,它是将多个搜索引擎集成在一起,通过一个统一的检索界面接受并处理用户的查询提问,在进行检索时调用一个或者多个独立搜索引擎结果的数据库,检索结果是来自独立搜索引擎的检索结果或者是来自多个搜索引擎结果集合的综合。呈现给用户的检索结果既可以是引用原始的独立搜索引擎的页面,也可以是有元搜索引擎重新定制后的形式。
元搜索引擎分类:①桌面元搜索引擎;②在线搜索引擎(并行检索式元搜索引擎和ALL-in-one式元搜索引擎);低频标签
ALL-in-one方式的元搜索引擎又称搜索引擎元目录。
(二十九)并行检索式元搜索引擎:
并行式元搜索引擎是将多个搜索引擎集成在一起,提供一个统一的检索界面,用户发出检索请求后,提问式被同时分别提交、发送给多个独立搜索引擎,同时检索多个数据库,最终输出的检索结果是经过聚合、去重之后反馈的多个独立搜索引擎查询结果的综合。它是一种集中的、跨平台的检索方式。
最大的优点是:省时,不用就同以提问一次次地反问所选定的搜索引擎,每次均要输入检索词等,用户可以使用同一指令语言检索不同的搜索引擎的索引数据库,检索的是多个数据库,检索的综合性、完整性也有所提高,检索结果经过了预处理,格式统一,检索噪声较小。
并行检索式元搜索引擎是真正意义上的元搜索引擎,由检索请求提高机制;检索接口代
理机制;检索结果显示机制三部分组成。
(三十)在选择、使用各元搜索引擎时应注意其在以下几方面的特点:
① 所集成搜索引擎的数量和名称;②检索提问的输入及处理;③其他检索选项;④检索结果的处理。
(三十一)常用的并发式元搜索引擎:
Dogpile  算是老资格的元搜索引擎之一,其历史可以追溯到1996年,Dogpile目前可检索多达26个搜索引擎和类信息资源:
WWW资源;Usent资源 Deja;FTP资源 Fast FTP Search;拍卖信息GO TO ;音频资源 Astraweb ,AudioGalaxy,MP3Board;图像资源Ditto;新闻Dogpile Web Catalog;商业讨论Hypermart;视频资源Singingfish.Com;
(三十二)图像检索分类:
① 基于文本的图像检索技术;②基于内容的图像检索(CBIR属于基于内容检索)
② 基于文本的图像检索技术的历史可以追溯到20世纪70年代末期;
(三十三)可以用帮助图像分析、标引的Web文档内容包括:
① 图像的文件名及其网址;②图像的替代文字;③图像周围的文字;④图像所在页面的标题;⑤图像所在网页彼此间的链接;
对于图像的内容特征,主要采用的是图像的颜、纹理及其形状等特征。
(三十四)OCLC:
FirstSearch是由美国OCLC创建的,是一个非营利、成员制的联机计算机图书馆服务和研究机构,也是世界上最大的文献信息服务机构。
OCLC自建的数据库:
① WorldCat 世界上最大的、每日更新的书目数据库。
② ArticleFirst:提供15000多种学术期刊中论文的书目信息。
③ ContentsFirst:提供15000多种学术期刊的目次页和馆藏信息。
④ FastDoc:是一个全文数据库;
⑤ NetFirst:是一个权威、可靠地Internet信息资源指南、目录。
⑥ PaperFirst:提供世界范围内各种学科学术会议论文的索引。
⑦ ProceedingFirst:提供在世界各地举行的各类学术会议的会议目录次表。
(三十五)CNKI平台:
由中国学术期刊、清华同方光盘股份有限公司创建,收录范围包括自然科学、工程技术、人文与社会科学。
(三十六)SOSIG社会科学信息网关:
① 由ESRC、JISC、European Union 3方投资组织创建,是一个有关社会科学信息资源的搜索引擎。
② 检索功能分类:Search SOSIG信息检索;Browse SOSIG信息浏览;What’s New更新信息;Add New Resourse添加新资源;Help帮助信息;
③ 包括3个参数限制检索范围:title、description、keyword
(三十七)ERIC:
ERIC美国教育资源信息中心,1996年创建,其资源核心ERIC数据库是世界上最大、使用最广泛的教育文献资源数据库。
(三十八)国外专业的心理学网上机构有:
美国心里学协会(APA)、美国心里学会(APS)、英国心里学会(BPS)
(三十九)工程技术信息检索工具:Ei Vi

本文发布于:2024-09-21 14:24:52,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/144884.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检索   信息   搜索引擎   资源   目录   结果   用户
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议