黄页检索语言的探索

黄页检索语言的探索
周毅俊
目的男子喝水银被救治
通过对情报检索语言的研究,探讨一个与黄页相适合的检索语言,并探寻目前黄页检索中不足和可能的解决途径。由于黄页产品的多样性,在检索语言的选择上也可能不是单一的,在这方面本文也会做一些探讨。
正文
中央电视台直播阅兵黄页的生命力在于信息,在目前信息化的社会,黄页作为一个信息的媒体,给予人们的信息量是巨大的。要在一个数据量巨大的信息库中寻到一些自己需要的信息,人们很自然会想到需要一个科学的检索方法以帮助人们能够快速、准确地到信息。可以说只要有大量信息的存在,检索就有起其存在的价值。情报检索语言就是根据人们对信息检索的需要而创造的人工语言,又可称为检索语言。目前世界上有成千种情报检索语言。例如,《中国图书馆图书分类法》、《汉语主题词表》、《国际主题词表》、《NASA叙词表》等等,都是情报检
索语言的一个语种。虽然有如此多的检索语言,其实他们的基本原理是一致的,只是它们在表达各种概念及其相互关系时和解决对它们提出的那些共同要求时所采用的方法不同,因而形成了不同的类型和语种。
情报检索语言按其结构原理,可分为分类语言、描述语言和代码语言三大类型。下面将简单介绍一下这三种类型的语言。
分类语言用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。分类语言包括等级体系分类语言(体系分类法)和分析-综合分类语言(组配分类法)。它们统称为分类法系统。
体系分类法是一种直接体现知识分类的等级制概念标识系统。它是对信息内容的概括及某些外表特征的概念进行逻辑分类(划分和概况)和系统排列构成的。体系分类法的主要特点是按学科、专业集中信息,并从知识分类角度揭示各类信息在内容上的区别和联系,提供一种检索的途径。体系分类法采用的是对事物概念进行层层划分、层层隶属的方法来形成一系列专指的分类标识,并构成一个具有隶属、并列关系的秩序井然的概念等级体系,来达到对信息内容进行分类的目的。但是,体系分类法的类目是列举式的,而要详尽无遗
地列举一切事物概念事实上是不可能的,对于这个问题,在下面说到的组配分类法中会谈到解决的方法。目前在黄页系统中使用的分类表就是属于体系分类法的一种。对于黄页来说,该分类法能按专业集中地、系统地揭示企业性质,可使使用者“一览全貌”,“触类旁通”,这对于使用者系统地搜索和利用一个专业范围的信息来说,是很方便和有效的,而且检全率也很高。但是,现代企业从事产品的多元化和产品之间互相渗透和综合,使得越来越难于充分地、合乎客观实际地反映多维性的企业性质。这使得对一些企业的专业范围很难界定,体系分类法对黄页来说检准率面临着非常大的挑战。
组配分类法的构成基于概念的可分析性和可综合性。即一个复杂的概念可分析为若干简单概念,若干简单概念可以综合为一个复杂概念。因此,一个复杂的主题概念可以用若干个表达简单概念的组配来表达。组配分类法是体系分类法的发展。创制组配分类法的目的,主要是为了克服体系分类法的列举式列类方法所造成的不能无限容纳概念的局限性。由于组配分类法中的组配过程是在检索时动态进行的,对于纸质号簿来说并不适用,对于电子类的黄页产品可以考虑使用,但由于组配的逻辑非常复杂,对于检准率方面有欠缺。
描述语言用词语来表达各种概念,将各种概念不管其相互关系完全按字顺排列。描述语言
包括标题词标引语言(标题法)、单元词描述语言(单元词法)、叙词描述语言(叙词法)和关键词描述语言(关键词法)等。他们可统称为主题法系统。标题法的检索标识是在编表时就固定组配好的,即所谓“先组式”的;单元词法和叙词法的检索标识一般是在检索时才组配起来,即所谓“后组式”的。标题法、单元词法和叙词法都要对取自自然语言的词语加以规范化,而关键词法一般认为是直接使用自然语言不加规范,其实它也要进行某种程度的规范化处理,被称为后控词库(后面相关内容中会提及)。标题法、单元法和叙词法在表达各种概念及其相互关系的方法上各有特点,但许多方法是通用的。所以,要在它们之间划一个明确的界限比较困难。事实上,目前分类法系统和主题法系统也互相渗透,各种方法互相采用。我们的黄页分类也采用了以体系分类法为主,穿插使用了主题词法的方式,例如在黄页分类中的“计算机”就是采用的主题词法。我感觉描述语言在黄页中的使用还只是很初步,作为一个目前广泛使用的检索语言,我认为我们还有不少方面的检索,特别是基于计算机的检索,可以依赖这种检索语言,这在下文中还会详细提及。
代码语言一般只就事物的某一方面特征,用某种代码系统来加以标引和排列。例如,化合物的分子式索引系统,环状化合物的环系索引系统等。这种检索语言比较适用于某一专业的检索,黄页一般都是综合性的检索,这类检索方式对于黄页来说距离比较远,这里就不
再详细叙述了。
以上简单介绍了目前存在的几种主要的检索语言,现在来看看黄页对检索语言使用的现状。目前我们基本上使用的是体系分类法。但由于市场的需求,在某些方面已掺入了主题词作为分类项。这个分类法我感觉对于我们的工商类的纸质号簿应该说很适用。很符合人们对这些产品的检索思路。但对于消费类的号簿和电子类的号簿,我本人感觉并不是很适用。因为这些类型的产品,人们的检索思路很多都是根据主题来的,例如我今天吃饭,想吃面,面就是一个主题。围绕着这个主题我可以看到很多相关的信息。所谓的“衣、食、住、行”我感觉就是一个很好的消费类主题。
另外基于这些日子的学习,我想围绕黄页谈谈对于检索语言方面的一些想法。主要有以下3个方面:中毒
第一、类目索引的编排希望增加相关索引的方式。目前我们黄页索引广泛采用的都是直接索引。所谓直接索引,就是将分类表中的类目按照字顺排列(音序、笔序等)。这种索引比较简单,但用户如果不知道该类目的名称仍然无法查询,所以意义不大,其实这种方式在检索语言中也很少使用。在检索语言中较常使用的索引称为相关索引,又称双关索引。
这种索引编制的方法是:(1气浮垫)按标题法的原则将类目名称进行仔细加工规范;(2)对涉及两个主题概念的类名做两条索引款目,以便在两个标题下都能查到;(3)利用倒置标题形式进行轮排,以使某些概念在特称和类称标题下都能查到,并可使用族概念集中;(4)补充分类表类名和注释中未列的概念(如同义词、主题词等);(5)对于须进一步依复分表分、仿分以及可交替使用的类目,用一定的符号或形式表示出来。为了便于大家比较直观的理解,现将相关索引举例如下:
类目原名                                    索引
                                            肥料
农家肥料                                        采空区处理方法,农家
微量元素肥料                                    ,微量元素
速效肥料                                        ,速效
抗生菌肥料                                      ,抗生菌
这种做法的好处,我认为首先它可以提供给用户一个类似于主题词的查询方式,可以将我们目前的体系分类法与主题词法有机结合。弱化体系分类法在主题表现方面的不足。其次,由于为了弥补体系分类法在某些方面的不足,目前我们的分类表中较多采用了主题词作为分类类目,但这种方式如果过多采用会影响到体系分类的编目原则,使类目混乱。采用相关索引方式我感觉一来可以达到我们所要达到的目的,二来只是在分类索引上做文章不会影响到分类体系。当然如果采用这种方式,会增加一定的工作量,这也是一个要需要考虑的问题。
第二、关键词法、分类法结合。为什么要将这两种检索语言结合使用呢?我的考虑是这样的:关键词法是自然语言为基础的,大多的用户并不会受过体系分类法中规范化语言的培训,检索信息基本上用的都是自然语言,如果将关键词法作为一个与用户交互的检索语言无疑将对用户来说非常方便。而体系分类法作为目前我们黄页普遍使用的检索语言,我们的分类表,我们的分类体系都趋于完善,换而言之,利用体系分类法,我们的检全与检准率是可以保障的。那么一个用户喜欢的前台和一个保证质量的后台如何结合?我想从关键词检索谈起。说到关键词检索,由于是自然语言检索很容易大家就会想到同义词、近义词缺乏控制的问题。例如用户要查“计算机”分类中的内容,而用户输入的可能是“电脑”、“电
子计算机”等,当然不可能建立那么多的相似分类。为了提高检全率,减轻用户检索时拟定检索策略的智力负担,可以想到的是建立一个后台的词库,被称为后控词库,这种后控词表只用于检索而不用于标引。有了后控词表,就可以把各种“自由散漫”的自然语言标识组织起来,形成一个语义网络,以便于检索。用户假如从“电脑”入手查,通过后控词表计算机可以自动把“计算机”分类到,甚至还可以把“计算机”的相关分类都检索出来,例如“计算机维修”、“计算机销售”等供用户选择。一个简单的检索关系可以参考如下图示:
第五种快乐
这种检索方案对黄页来说目前是一种最大限度保留现有资源而做的一种扩充,比较容易实现,但真正与自然语言结合最好的应该不是分类而是主题词。也就是说,如果我们要将上面那个流程走得非常顺畅,应该是将分类法改成主题词法,但对于目前我们已经使用了那么多年,而且效果显著的分类法我们也不可能舍弃,那么我们该如何处理?请看一下我的第三点想法。
第三、分类主题一体化。所谓分类主题一体化是指分类法和主题法的有机结合,即对分类表和叙词表的术语、参照、标识和索引实施统一的控制,使两者有机地融为一体。近年来,分类主题一体化词表成了国内检索语言研究的一个热点,无论在理论研究方面还是在词表编制方面都取得了不少成果。根据统计,近年来我国探讨分类主题一体化的论文多达百余篇,编辑出版的一体化词表多达20多部。其实我们可以充分借鉴这些经验,探索一个适用于黄页的分类主题一体化表。我查了一些相关文献,到一体化词表的编制模式大体可分为4种:
1.改造分类表。即对一部现存的体系分类法进行分面改造,使之成为一部分半分面分类表,同时要对分类表的词形、词义等实施严格的词汇控制,然后在此基础上用机编词表软件,自动生成一部对应的字顺叙词表。
2.改造叙词表。通过对叙词表的分面改造,将叙词表的范畴索引和词族索引改造为一部分面或半面的分类表,或合二为一组成一个新的范畴索引,从而改善词表的分类显示功能并提高
3.词表的易用性。
对现有的分类表和叙词表进行标引,编制双向对照索引。
4.新编分面分类表,自动生成字顺叙词表。
具体的编制步骤请参阅相关资料,这里不再详细叙述。这里主要谈到了一个思路,但如何去做、做的过程中可能的问题还需要经过大量细致的研究和实践才能得出。毕竟关于一体化的研究在黄页方面应该说还是一个空白。
对照上面的参考图,在建立分类主题一体化之后,这个检索过程会如下图示:
这样做的几个好处:
1.通过转换,同时完成分类和主题词的标引,提高标引质量,大大节省人力和物力。

本文发布于:2024-09-21 14:46:50,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/447575.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:文献考试总结
标签:分类   检索   分类法   语言   体系   黄页   概念   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议