叙词表的OWL表示方法研究

作者简介:杨建伟,男,1981年生,硕士研究生,研究方向为情报学;张志平,男,1963年生,研究员,研究生导师,研究方向为智能信息处理技术。
词表的OWL 表示方法研究
蛋白芯片技术R esearch on the R epresenting Method of the Thesauri in OWL
杨建伟 张志平
(中国科学技术信息研究所 北京 100038)
摘 要 叙词表是图书情报和信息管理领域传统的信息组织方式,而语义网的核心之一本体是一种新的信息组织方式。OWL 是W3C 推荐的语义网本体的描述语言标准。研究叙词表和OWL ,提出了用OWL 表示和描述现有的叙词表的方法,为基于叙词表来构建本体奠定了基础。关键词 叙词表 OWL  表示方法 本体 语义网
1 叙词表
叙词表(Thesauri )是收录某一领域中所有叙词(Preferredmmpi-2
Term ,PT )和非叙词(NonPreferred Term ,NPT )并按照一定顺
序排列而成的词表。G B13190—91《汉语叙词表编制规则》中,对叙词表是这样定义的:“叙词表是将文献、标引人员或用户的自然语言转换成规范语言的一种术语控制工具,它是概括各门或某一学科领域并由语义相关、族性相关的术语组成的可以不断补充的规范化的词表。”叙词表由叙词和非叙词及其之间关系组成,能够反映叙词间基本语义关系,并可以随着使用的需要不断补充、完善和调整。它所能描述的概念间(包括叙词与非叙词)的关系主要有:上位词(Broader Term ,B T )、下位词(Narrower Term ,N T )、相关词(Related Term ,RT )和用、代关系(Use and Use For )。其中
,只有叙词之间可以拥有上位词、下位词和相关词的关系;叙词和非叙词以用、代关系相关联(如图1所示)。长江村发黄金
图1 基本叙词表关系
叙词表主要用于对信息进行标引时的自动或辅助选择索引词以及进行检索时的后控制,是提高查全率、查准率,实现多语种检索和智能化概念检索的重要途径[2]。在图书情报领域,叙词表是非常重要的一种传统的信息资源管理的知识组织工具。
叙词表开发的目的就是表达某一领域资源概念以及之间
的关系,从而达到标引和检索的智能化、人性化[3]。然而,无论从概念的语义及关系描述上来说,还是从推理功能上来说,叙词表都不能满足未来语义网环境下对网络信息资源的语义要求,于是便引入了本体的概念。
2 本体
本体(Ontology )的概念最初起源于哲学,被哲学家用来描述事物的本质。之后,本体的概念被知识工程、人工智能和信息管理等领域的研究者引入其相关研究领域,也出现了很多不同的定义。其中最有影响的应属Gruber 提出的“本体是概念化的明确的规范说明”。
在信息处理领域,尽管不同研究者可能对本体的定义不同,但是从内涵上来看,都把本体看作是某一领域内可共享的、通用的、概念化和形式化的规范描述,目的是使信息能够在人与人之间、人和系统之间以及各种异构系统之间能够进行广泛的交流。
Perez 等人用分类法组织了本体并归纳出5个基本的建奥运会的知识
模元语:类或概念、关系、函数、公理和实例[4]。从语义上讲,本体中基本的关系共有4种:part -of 、kind -of 、instance -of 和attribute -of 。
在实际本体构建过程中,不一定要严格地按照上述5个
基本元语来构造,概念之间的关系不仅限于4种基本关系,可以根据领域的具体情况定义相应的关系,以满足应用的需要。
电话卡复制
本体和叙词表是有一定的相似性,甚至可以说叙词表就是一种最简单的本体形式,它们都是用来描述特定学科知识,都可以用作特定学科信息(知识)的组织工具,都包含对概念及概念属性和概念之间关系的语义描述。但是本体所拥有的丰富的语义关系和强大的推理能力,是叙词表所不能比拟的。
J o ur nal of Inf or m a ti o n No.3,2007
情报杂志2007年第3期
要构建本体,要实现智能的语义网,就必须有一个机器可以理解和处理的语言,用于描述网络信息的内容,这种需求促成了网络本体描述语言OWL的出现。
3 OWL
OWL(Web Ontology Language)是W3C开发的一种网络本体语言,用于对本体进行语义描述。由于OWL是针对各方面的需求在DAML+OIL的基础上改进而开发的,所以一方面要保持对DAML+OIL/RDFS的兼容性,另一方面又要保证更加强大的语义表达能力,同时还要保证描述逻辑(DL, Description Logic)的可判定推理。因此,W3C的设计人员针对各类特征的需求制定了三种相应的OWL的子语言,即OWL Lite、OWL DL和OWL Full,而且各子语言的表达能力逐步递增[5]。
OWL Lite是表达能力最弱的子语言,它是OWL DL的一个子集,它通过降低OWL DL中的公理约束,保证了迅速高效的推理。它支持简单基数约束,即基数值只能为0或l。OWL Lite用于提供给那些仅需要一个分类层次和简单约束的用户[6~7]。
OWL DL(Description Logic,描述逻辑)将可判定推理能力和较强表达能力作为首要目标,而忽略了对RDFS的兼容性。OWL DL包括了OWL语言的所有语言成分,但使用时必须符合一定的约束,受到一定的限制。OWL DL提供了描述逻辑的推理功能,描述逻辑是OWL的形式化基础。
OWL Full包含OWL的全部语言成分并取消了OWL DL 中的限制,它将RDFS扩展为一个完备的本体语言,支持那些不需要计算性保证但需要最强表达能力和完全自由的RDFS 用户[6]。在OWL Full中,一个类可以看成是个体的集合,也可以看成是一个个体。由于OWL Full取消了基数限制中对可传递性质
的约束,因此不能保证可判定推理。
OWL Full可以看成是对RDFS的扩展,而OWL Lite和OWL DL可以看成是对一个受限的RDF版本的扩展。所有的OWL文档(Lite,DL,Full)都是一个RDF文档;在表达含义和语义方面,OWL比RDF(S)有更多的表达手段。因此在Web上表达机器可理解内容的能力也比RDF(S)强一些。
4 OWL表示和描述现有叙词表的方法
叙词表可以作为本体构建的重要资源。因为有着几十年的编纂、标引、检索等实践应用的叙词表,应该也能够在本体的研究和构建及语义网的发展中发挥其应有的作用。
国内外有很多学者致力于用OWL表示和描述现有词表,甚至将现有词表直接升级成本体。在这方面,国内外都有一些项目实例,也有一些论文介绍了转化过程中总结的一些方法。但是,其中绝大多数都是基于某一项目或某一具体词表的转化过程,很难通用于所有的叙词表。笔者在仔细阅读了国内外的相关研究和项目基础上[8~9],总结了可以通用的用OWL表示和描述叙词表的方法步骤和规则,愿意和大家共同讨论。
 4.1 实现过程
a.准备阶段。这一阶段中,主要是分析现有叙词表。如果认为有理解模糊的地方,有必要联系叙词表
的原作者。对叙词表的分析应该包括以下内容:分析叙词表的概念模型,作为转换的背景知识;分析概念模型和数字模型之间的关系。
b.类、概念和属性的确定。这一阶段的主要工作是分析现有叙词表所涉及的叙词、非叙词及其之间的关系,并从用OWL描述的角度确定类、概念和属性。本文的目的是用网络本体语言OWL表示和描述叙词表,使它既符合OWL语言的规范,具有良好的可推理性,又要能够方便地更新和维护,能够方便地转换成高效率的数据库结构和生成传统的书本式叙词表和各种对照表。因此,类、概念和属性的确立就显得尤为重要[6]。
c.建立语法对照表和语义关系对照表。由于叙词表的概念描述与OWL语法不同,要想实现叙词表的OWL表示,就必须要有从叙词表到OWL的语义转化规范。只有这样才能实现充分利用现有词表资源进行OWL描述,缩短工作时间。这一步骤可以通过建立通用的转化规则映射表来实现。
d.描述阶段。上面的工作都是为这一步骤做准备,如果前面三个阶段做得到位,那么这一阶段的工作做起来会相对容易些。在这一阶段,我们主要是按照前面步骤中确定的概念、关系、类、属性和语法、语义对照表,进行表示和描述。转化过程中,我们应该遵循以下规则[10]:使用基于XML的数据类型;尽量保留原始命名;尽量和叙词表的原始结构保持相近;不要转化一些与语义无关的命令信息,避免信息过量。
 4.2 描述实例 《汉语分类主题词表》是一部国家级的大型综合性分类主题一体化叙词表,结合了《中国图书馆图书分类法》和《汉语主题词表》的成果,共收录分类法类目5万余个,主题词及主题词串21万余条,涵盖了哲学、社会科学和自然科学各领域的学科和主题概念。该词表是由中国科学技术信息研究所等40余家单位历时8年编纂而成,于1994年正式出版,现已广泛应用于全国各类图书馆和信息机构的文献标引工作,具有一定的代表性。现从《汉语分类主题词表》中截取一个片断,并以此作为本文例子[11]。
▲半导体存储器
TP333.5
D大规模集成电路存储器
Z存储器
C局部存储器
C随机存取存储器
C只读存储器
C主存储器
上面以▲开头的“半导体存储器”是被描述的概念,即叙词;“TP333.5”是“半导体存储器”在《汉语分类主题词表》中的分类号;其中的“D”表示“代”(即“大规模集成电路存储器”这个概念可以用“半导体存储器概念代替”),反应了概念之间的同义关系;“Z”表示族首词,就是一个词族中最上位的词;
情报杂志2007年第3期                  J o ur nal of Inf or m a ti o n No.3,2007
“C ”表示参,反映了概念之间的相关关系[12]。下面我们按照
4.1介绍的过程对所给叙词表片断进行OWL 描述。
a.准备。分析所给叙词表片断,理解其所表示的概念及
其之间的语义关系
图2 叙词表片断概念及关系
b.类、概念和属性的确定。《汉语分类主题词表》中的每
一个叙词都可以看作一个概念,属、分、参等关系则可以看作是概念的属性。这样,我们就可以把所有叙词的集合定义成一个Concept 类,每一个叙词都是Concept 类的Individual ,也就是一个概念,每一个叙词对应的属、分、参等关系作为它的属性。
c.建立语法对照表和语义关系对照表。根据所给叙词表
片断中所涉及的类、概念和属性,我们可以列出其对应的
OWL 表示[13](见表1)。
表1
叙词表OWL 叙词集Concept 类
sf公司叙词Concept 类的Inividual PT HasPreferredTerm B T Has Broader Term RT HasRelatedConcept U F
HasNonPreferredTerm
  描述阶段:
<OWL :Class ID =“Concept ”></OWL :Class >
<Concept rdf :ID =“半导体存储器”>
<rdfs :comment >semiconductor memory </rdfs :comment ><HasPreferredTerm rdf :res ource =“#半导体存储器”/>
<HasNonPreferredTerm rdf :res ource =“#大规模集成电路存储器”/><Has Broader Term rdf :res ource =“#存储器”/><HasRelatedConcept rdf :res ource =“#局部存储器”/><HasRelatedConcept rdf :res ource =“#随机存取存储器”/><HasRelatedConcept rdf :res ource =“#只读存储器”/><HasRelatedConcept rdf :res ource =“#主存储器”/><CLCCode >TP333.5</CLCCode ></Concept >
……
用OWL 描述后的叙词表,不仅在语法上符合了W3C 对
语义网的推荐标准,而且在功能上具有了语义网中本体应该具备的基本语义和推理的功能,可以算是轻量级本体。
当然,由于叙词表所描述的叙词和非叙词之间关系只有用、代、属、分、参,因此用OWL 表示后所能描述的关系也只限于这几种,其所能够表达的关系概念属性或关系是非常受限制的。而一个真正意义上的功能强大的本体所能够表示的概念关系和属性是不受此限制的,从而保证本体可以根据用户的需
要具有合适的语义复杂程度和推理能力。
5 今后工作的展望
文中旨在用OWL 表示和描述现有叙词表,作为从叙词表到大规模本体构建和应用的过渡,并提出表示方法和实例片断。
由于用OWL 表示叙词表后可以使其具备语义网所需要的本体的基本语义关系和推理功能,这不但可以使人们尽快体验到本体应用的优越性,也能够充分有效地利用人类已有知识,保持了科学的延续性和继承性。这样不仅可以加快本体的构建进程和语义网的发展,同时也是叙词表的发展方向。
然而,对语义网的整个研究和发展进程来说,用OWL 表示现有叙词表仅仅是初步实现语义网对网络信息资源的语义要求,还远远不能真正实现智能语义网。在语义网体系结构中,对本体构建的自动化仍在艰难探索,对规则层、逻辑层、证明层和信任层的研究只是刚刚开始。语义网,是我们的远景目标,而本体的构建又是实现这一目标的关键环节。
参考文献
1 张继东,余以胜.利用叙词表构建本体的方法研究.现代图书情报技术,
2006;(4)
2 李 景,钱 平.叙词表与本体的区别与联系.中国图书馆学报,2004;(1)3 毛 军.基于RDF 的叙词表研究.情报学报,22;(2):163-168
4 Asuncion G omez Perez.Overview of Knowledge Sharing and Reuse Components :
Ontologies and Problem -S olving Methods.Proceedings of the I J CAI299work 2shop on Ontologies and Problem -S olving Methods (KRR5),1999
5 OWL Web Ontology Language Reference.http :///TR/owl -ref/6 OWL Web Ontology Language Guide.http :///TR/owl -guide/7 OWL Web Ontology Language Overview.http :///TR/owl -fea 2
tures/
8 Dietrich H.Fischer.Converting a Thesaurus to OWL :Notes on the Paper The
National Cancer Institute ’s Thesaurus and Ontology.Elsevier ’s Journal of Web Semantics ;1(1)
9 L F.S oualmia.Representing the MeSH in OWL -Towards a Semi -Automatic
Migration.http ://www.ea3888.univ -rennes1.fr/lim/doc-91.pdf
10 Mark van Assem.A Method for Converting Thesauri to RDF/OWL.Interna 2
tional Semantic Web Conference (ISWC 2004)11 汉语分类主题词表.北京:华艺出版社,1994
12 宋 炜,张 铭.语义网简明教程.北京:高等教育出版社,2004
13 曾新红.中国分类主题词表的OWL 表示及其语义深层揭示研究.情报学
报,24;(2)
(责编:梅加勃)
J o ur nal of Inf or m a ti o n No.3,2007
情报杂志2007年第3期

本文发布于:2024-09-22 09:48:12,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/447538.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:词表   语义   本体   概念   关系   描述   信息   表示
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议