关于网络信息检索文献综述

关于信息检索文献综述
工位管理系统
作者:***
摘要:
本文通过对信息检索的历史发展、现状分析以及发展趋势做出总结与分析,已达到对信息检索的更深层次的认识,并希望在信息检索方面对读者有所帮助。
关键词:信息检索、历史发展、搜索引擎、发展趋势
1、前言
信息检索(information retrieval) 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要出有关信息的过程。所以,它的全称又叫信息存储与检索(information storage and retrieval), 这是广义的信息检索。狭义的信息检索则仅指该过程的后一步,即从信息集合中出所需要信息的过程。相当于我们所说的信息查询(information search)。根据检索手段的不同,分为手工检索、计算机检索(光盘检索、联机检索和网络检索);根据检索对象、形式
的不同,分为文献型信息检索、数据型信息检索、事实型信息检索。本文通过对以往关于信息检索的文献进行综述,并从中总结出观点,达到对信息检索更深层次的认识。
2、历史发展
1950年,莫尔斯(Calvin N.Mooers)首次提出信息检索(Information Retrieval)一词。其后,随着信息检索理论和实践的更新发展,人们对信息检索的认识也在不断深入。主要存在三种角度的认识: 时间性通讯、信息处理和文献查。从时间性通讯角度来看,通过信息检索得到了一些文献,从而使得著者与读者(信息检索的用户)之间建立起了一种通讯。从信息处理角度,信息检索的基本问题,是如何处理信息和信息的结构。从文献查角度看,信息检索就是查出含有用户所需信息的文献的过程。在信息检索领域,这是一种传统的主流观点。
从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档。检索模型为基本的布尔模型和向量空间模型。Cornell University的Prof. Salton成为这个领域的先驱,著名的IR向量空间模型的创始人,开发了著名的SMART向量空间模型IR系统,并免
费开放源代码,大大促进了IR的发展。80年代,IR技术出现在大型文档数据库中。90年代,可以在互联网上利用Archie对FTP服务器上的文档进行搜索。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。1994年4月,Stanford两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。1995年发布AltaVista,它是网上最早的爬行搜索引擎。AltaVista搜索技术从纯文本搜索技术开始,到1997年,其搜索能力扩展到25种语言搜索;1999年开始多媒体文件的搜索;2001年首次推出网上免费新闻搜索,2003年AltaVista被Overture收购。以雅虎初期为代表的第一代搜索引擎以人工目录分类为基础的网站搜索开辟了一个时代。第一代搜索引擎指主要依靠人工分拣的分类目录搜索,这种方式是被动的搜索,更新慢、搜索能力不足。
3、现状分析
如今最主要的信息检索是网络信息检索。网页是因特网的最主要的组成部份,也是人们获取网络信息的最主要的来源,为了方便人们在大量繁杂的网页中寻自己需要的信息,这
类检索工具发展的最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页,然后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络可访问的数据库,供人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同,它不会将整个网络中每个网站的所有页面都放进去,而是由专业人员谨慎地选择网站的首页,将其放入相应的类目中。网络目录的信息量要比搜索引擎少得多,再加上不同的网络目录分类标准有些混乱,不便人们使用,因此虽然它标引质量比较高,利用它的人还是要比利用搜索引擎的人少的多。
但是由于网络信息的复杂性和网络检索技术的限制,这类检索工具也有着明显的不足。(1)随着网页数量的迅猛增加,人工无法对其进行有效的分类、索引和利用。网络用户面对的是数量巨大的未组织信息,简单的关键词搜索,返回的信息数量之大,让用户无法承受。(2)信息有用性评价困难。一些站点在网页中大量重复某些关键字,使得容易被某些著名的搜索引擎选中,以期借此提高站点的地位,但事实上却可能没有提供任何对用户有价值的信息。(3)网络信息日新月异的变更,人们总是期望挑出最新的信息。然而网络信息时刻变动,实时搜索几乎不可能,就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。
随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完美都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及mp3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决注意登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求(检索字串)等繁琐操作,于是基于网络检索工具诞生了。目前这列检索工具只有两种:集成搜索引擎和元搜索引擎。所谓元搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时随所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如 FLASH、MP3、等)搜索引擎集成链接,深受特定用户欢迎。例如国内天网搜索和百度搜索,国外比较著名的有“搜索之家”、“网际瑞士军刀”、等。另一个是元搜索引擎,用户只需交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现在用户面前。国外2010年主流的元搜索引擎有Google、Yahoo、MSN Search、AOL Search、Netscape search、lwon。目前国内还没有见到真正意义上的元搜索引擎。
4、发展趋势
4.1、智能化
    智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。用户所需要做的仅仅是告诉计算机想做什么,至于怎样实现则无须人工干预,这意味着用户将彻底从繁琐的规则中解脱出来。近几年来,智能信息检索(intelligent information retrieval)作为人工智能(AI)的一个独立研究分支得到了迅速发展。在Internet技术迅速普及的今天,面向Internet的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与突破口。
 
4.2可视化
  可视化(visualization)的历史可以追溯到2400多年前。哲学家柏拉图指出,我们通过看来
识别物体。据统计,人获取信息有70%一80%靠视觉,20%靠听觉,10%靠触觉。用图像(visual)取代文字帮助人们检索的优点在于:图像的表达方式生动、形象、准确、效率更高,能从多角度揭示,而纯文字的表达方式是模糊、一维的。
 
4.3、简单化
    未来家用电脑将朝着智能化、网络化、人性化和绿环保的方向发展;操作系统的用户友好性将不断增强,如微软和苹果公司都在致力于操作系统网络化研究,以便使其中的任一应用程序都能“连接”进行“网络检索”,并与网络“交互”;各搜索引擎检索界面更加“傻瓜化”。使用户学习和进行网络信息检索更加容易;网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体技术、动态链技术、数据挖掘和信息推拉等技术逐步发展、完善,会越来越方便用户及时准确地检索信息。这些硬件与软件技术的发展都有利于网络信息检索的简单化。
 
4.4、多样化
844vv    多样化首先表现在可以检索的信息形态多样化,如文本、声音、图像、动画。目前网络信息检索的主体是文本信息,基于内容的检索技术和语音识别技术的发展,将使多媒体信息的检索变得逐渐普遍。
多样化的第二个表现是检索工具向多国化、多语种化方向发展。网络的迅速发展,使得整个世界变成了地球村,世界各地上网人数的不断增多,使得英语已无法满足所有用户的需要,语言障碍越来越明显。
    多样化的第三个表现是网上检索工具的服务多元化。网上检索工具已不仅仅是单纯的检索工具,正在向其他服务范畴扩展,提供站点评论、天气预报、新闻报道、股票点评、各种黄页(如电话号码)、航班和列车时刻表、地图等多种面向大众的信息服务、免费,以多种形式满足用户的需要。无论是在国际上还是在国内,检索工具都在朝多元化方向发展,为用户提供全方位服务。
多样化还表现在网络信息检索可以间接地服务于其他行业。例如数据挖掘技术可用于分析
历史数据的变化趋势,预测未来发展方向,发现大量数据中潜在的模式规律,为投资、科研、项目评估等提供有力的依据;还可以系统地、定量地分析目前较为热门的研究发展领域及查询频繁更新的文献资料种类,可使信息中心、图书馆等信息服务机构不断调整文献资料及图书的订阅、收集工作,有的放矢,向以需求为驱动的方向发展,建立一套更为系统、科学的管理方式。
 
4.5、个性化
    个性化指各网站注重内容的特化和注重个性化的服务。
    网络资源的指数级膨胀,使得用户在获得自己需要的信息资源时要花费大量的时间和精力。随着互联网的飞速发展,每个人的不同信息需求将凸现于标准化、单一的“大众需求”之上,并成为各个搜朋够或网站努力追求的对象。不同的打有消费者个人烙印的产品将成为某个消费者区别他人、感觉自我存在及独特的外在标志,个性化服务成功的实质在于提供了真正适应用户需要的产品,贯彻了以用户为中心的理念。
电缆防盗报警装置 
4.6、商业化
    网络检索系统拥有全世界数量众多的用户,吸引了大量的广告,为电子信息的增值服务提供了广阔的空间。网络检索系统已成为新的投资热点。网络检索系统不再仅仅是一种检索工具,而且成为一项产业,它的商业利益成为推动系统完善和扩展的主要动力,网络信息的检索与利用由公用性转向商业化。美国著名的数字媒体评估公司Jupiter Media Metrix日前发布研究报告称,“搜索引擎公司推出的付费添加服务是一个正在兴起的、前景光明的因特网领域,相对于目前低迷的在线广告市场来说,它的发展潜力是非常巨大的。”
5、总结
如何检索和利用信息资源,是一门学问,是现代人才的必备素质,也是一个人知识和能力可持续发展的重要条件。教育部和国家教委早在1984年就要求各高校开设文献检索课,并作为必修课,目的就是培养大学生的信息意识和获取文献信息的技能。近几年,随着计算机和通信技术的发展,社会信息进程加快,信息、物质、能源成为人类社会的三大财富,
高纯球形硅微粉谁拥有信息谁就拥有财富,信息对于经济和社会的发展、科技文化的进步都起着重要的作用,谁掌握了最新信息,谁就掌握了主动权。
参考文献:
[1]王曰芬,丁晟春. 网络信息资源检索与利用[M].江苏:东南大学出版社,2009
[2]史红改,方芳. 实用网络文献信息资源检索与利用[M].北京:清华大学出版社,2009
[3]林海.信息检索发展浅析[J].科技情报开发与经济,2007,第17卷(10期):100—102页视频显示器
[4]肖燕. 20世纪我国信息检索研究的历史回顾[J]. 图书馆学研究,1999,第06期
[5]丁明,祝博,李龙森. 网络信息检索发展趋势展望[J]. 科技资讯,2006,第04期

本文发布于:2024-09-21 16:42:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/144889.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检索   信息   网络
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议