《信息检索》知识点

5、 《信息检索》若干问题
金燕  ******************
一、 信息检索的基本概念
(一)信息
1、什么是信息
信息的概念,至今众说纷纭
信息是不确定性的消除
信息是负熵
信息是客观事物自然性状的外露和表现
信息不是物质,也不是能量,信息就是信息
2、信息的特征:
(1)客观性与普遍性            (2)流动性与传递性
(3)多样性与综合性            (4)相对性与有效性
(5)积累性与价值性            (6)时效性
3、信息与其他相关概念的关系
数据  是信息的载体
知识  是正确的信息
情报  是知识中的一部分,知识+人的背景、思维方式
4、信息的类型
(1)按信息的加工程度:一次信息、二次信息(目录、文献、索引等)、三次信息(评论、年鉴、百科全书、指南等)
(2)按信息的表现形式:文字信息、音频信息、视频信息、实物信息等。
(3)按信息的出版类型:图书、期刊、报纸、会议论文等、网络信息、
5、信息的载体类型
(1)印刷型(如纸)
(2)缩微型(如缩微胶片、缩微胶卷)
(3)声像型(如录音带、录像带)
(4)电子型(指采用电子型载体。如光盘、软盘、网络载体等)
食品工业科技(二)信息检索
1、信息检索的概念
信息检索是从任何信息集合中识别和获取所需信息的过程及其所采取的一系列方法和策略。
广义上,它包括存储与检索两个方面。
侠义上,仅仅指信息检索的过程。
信息的存储主要包括对在一定专业范围内的信息选择基础上进行信息特征描述、加工并使其有序化的过程,目的是建立有序信息集合。
信息的检索是借助一定的设备与工具,采用一系列方法与策略从数据库中查出所需信息的过程。
信息检索的本质就是信息检索系统对信息集合与信息需求的匹配与选择。
2、信息检索的基本原理
二、信息检索的基本类型
根据存储和检索的内容:文献信息检索、数据信息检索、事实信息检索
根据检索的工具:手工检索、缩微品检索、计算机检索、(脱机检索、光盘检索、联机检索、网络检索)
根据所检信息的形式特征:文本信息检索(TREC国际著名文件检索会议Text REtrieval Conference
△文献信息检索
文献信息检索是指从文献信息集合中查所需文献或文献中包含的信息内容的过程
通常指的是检索系统存储的是以二次信息为对象(目录、索引、文摘)的信息,它们是文献信息的外部特征与内容特征的描述集合体。
检索信息线索而非信息本身
数据信息检索
是指检索系统中存储的是数值型数据
如统计年鉴、人口数据、气象数据等类型
事实信息检索
是指检索系统存储的是从原始文献中抽取的关于某一事物(事件、事实)发生的时间、地点和过程等方面的信息。
它是数值信息和系统数据信息的混合。
如MIS数据库中包含大量的人员、工资、销售统计、预测等信息。
文献信息检索的相关问题(6点):检索语言兼容与整合的研究、数据库与文档的研究、有关检索系统的研究、检索策略的研究、网络搜索工具研究、检索服务的研究
(1)文献信息类型演化及其结构形态
文献信息:以语言、文字、数据、图像、声音、视频等方式记录在特定载体上的信息。
零次文献:第一手的不公开发表的灰文献。
一次文献:正式出版发表的期刊论文、会议文献、发明专利、科技报告等。
二次文献:目录、索引、文摘等(是一次文献的序化)
三次文献:书目之书目、文献指南、综述等。
(2)文献信息的揭示与组织
萧红的女儿文献信息特征揭示与组织是描述文献内、外表特征,使其成为文献线索,并将这些线索按逻辑结构排列、组织起来。
内部特征是:表征文献实质意义的特征,如主题词(叙词、单元词、关键词)、分类号、化学符号等;  外部特征是:文献上显而易见的,一般情况下不反映文献实质意义的那些特征,如书名(题名、篇名)、人名、各种符号标识(专利号、标准号、报告号等)、机构名等。
方法:主题法 分类法
分类法
分类法是一种以直线性序列组织与揭示文献的方式。
体系分类法是一种直接体现知识分类的等级制概念标识系统。如杜威十进分类法、中图法、科图法等
分类法的优点:a、体现系统性;b、
主题法
歌迷大世界●概念
包括标题法
汉语主题词表      医学主题词表
(3)文献特征的描述
著录、标引、主题词、关键词、分类号、实质内容、题名、著者、外部特征
(4)信息检索系统
信息检索系统:是根据一定社会需要和为达到特定的信息交流目的而建立的一种有序化的信息资源集合体。拥有选择、整理、加工、存储、检索信息的设备与方法,并能向用户提供信息服务。
信息检索系统的发展历程:手工检索系统、联机检索系统、光盘检索系统、网络检索系统
文献信息检索系统
文献信息检索系统的要素构成
计算机应用与软件
IRS=信息资源+设备+方法与策略+人员
文献信息检索系统的系统构成
IRS=选择子系统+ 词表子系统+标引子系统+查寻子系统+匹配子系统+用户与系统之间的交互子系统
联机检索系统  P290
联机检索系统:是指用户在计算机检索系统的终端上,通过通信网络,使用特定的指令和算符,以人机对话方式,查询远程计算机检索系统核心的数据库,从中获取所需信息的计算机检索系统。
特点:速度快、效率高;信息资源丰富、质量高;可及时提供最新信息;检索费用高
比较著名的联机检索系统:Dialog  OCLC
光盘检索系统  P37
借助高密度光盘,进行信息检索的计算机检索系统。
特点:存储量大、易保存、便携带、可套录,有限花费、无限检索,可存储几十年甚至上百年。
缺点:
单机版、网络版并存。
国家突发公共事件总体应急预案
发展趋势:光盘检索网络化
网络检索系统
基于网络的检索系统
通常指基于互联网,利用计算机、通信协议
(5)检索语言与检索系统  P47
检索语言:是情报检索系统存贮与检索所使用的共同语言。是一种人工语言,它是专门用来描述文献的内容、外部特征和表达情报提问的一种人工语言。是根据检索的需要而编制的人工语言,又称文献语言、标引语言、索引语言、情报检索语言、信息检索语言、标识系统等。
检索语言可以是一系列概括文献信息内容的概念及其相互关系的标识系统(分类号码);也可以是自然语言中选择出来并加以规范化的一套词汇(主题词表或叙词表)。
分类法、主题词表、叙词表
检索语言的类型(补)
按检索语言的构成原理:分类、主题、代码
按其学科:综合性语言、专业性语言
按标识方法:先组式语言、后组式语言
检索语言的功能
检索语言需要解决的问题
蛋白酶抑制剂如何解决一词多义、一义多词
网络环境下检索语言的发展趋势
分类主题一体化
网络分类法出现发展
网络主题词表的出现
索引系统
索引:是将某种文献或某一个文献集合中所包含的各篇文章、所讨论的各种具体问题、所涉及到的各种事项(如人物、地名、机构名)分别摘录出来,指明其所在的位置,并将款目按照一定的规则排列和组织,以便人们“按图索骥”地获取隐含于文献中的各种数据、资料的一种检索工具。
一种索引通常由一批索引款目和参照系统构成。
索引款目是索引的基本成分,包括索引标目和索引地址。
参照系统:①显示各索引款目之间的关系;②提供多种检索途径
★分类索引:是一种按文献内容特征标引的索引,它的基本结构是展示类目之间等级关系和同位关系,揭示学科和各主题之间大量存在的从属关系,并通过类目划分的一定规则和
各种类目中必要的注释,表现学科之间存在的交叉关系。
★主题索引:字顺主题索引是按表征文献实质意义的经过规范化的词语排列起来的,其索引款目由标目+说明语+文献地址组成。并纳入标题表。
★关键词索引:关键词索引是主题索引的一种,与主题索引不同的是,关键词索引是建立在自然语言基础上的。关键词是未经优选和规范化的自然语言。
关键词索引的类型:①带上下文;②不带上下文
KWIC(Keyword in context) 题内关键词索引又叫上下文关键词索引。  P58
以文献篇名为基本素材,以篇名中的关键词做索引款目的标目,以关键词的上下文做说明语。
关键词和非关键词有保留
优点
缺点
KWOC 题外关键词索引(Keyword out of context )
将关键词从上下文中抽至索引条目的左上方,而在被抽出的那个词语空缺处用符号(+号或*号)取代。  例 P59

本文发布于:2024-09-23 13:23:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/155528.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信息   文献   检索
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议