基于DSpace的知识服务平台的设计与开发

基于 DSpace的知识服务平台的设计与开发
韩露
1.北京理工大学图书馆,北京,100081
摘要:本文通过对DSpace的二次开发和改造建立了一个符合本校使用需求的的知识服务平台。文中详述了元数据的制定、基于SRU的核心服务封装、基于OAI的元数据收割及以用户为中心的服务优化等主要开发过程。
Design and development of knowledge service platform based on DSpace
Han lu1  Ding yi2
1. Beijing Institute of Technology's LibraryBeijing  100081
2. China University of Geosciences, Beijing    100083
Abstract: The paper through  second development and reform based on DSpace establishe
d a knowledge service platform with the features of Universities. This paper described the main development process心无旁骛抓落实 about
establishing specification for metadata, SRU-based encapsulation for core sevice, OAI-based metadata harvesting and user-centered service optimization.
1.研究背景
随着知识更新速度的加快和学术资源创新成果的猛增,各种科研机构需要多种学术交流方式,目前较为活跃的是机构知识库,它成为高校的学术交流的主要载体,许多高校都纷纷建立了自己知识库。大多数机构知识库是以资源为中心的,主要目的是实现资源的长期保存和开放存取。但是随着信息服务水平的提高,信息服务不是简单的资源检索,而更重视知识的组织、分类与用户的使用习惯,以往机构知识库的服务已经不能满足科研工作者的需要,此外在高校的实际应用中,机构知识库不能是一个独立的平台,需要集成到整个数字图书馆环境中或其他相关的信息系统中才能充分发挥资源的作用。因此本文在开源机构库软件DSpace的基础上设计并改造了一个知识服务平台,针对目前存在的问题提出了解决方案。
2.DSpace简介及优势
DSpace是2002年MIT与HP公司根据Apache基础协议开发的[1]DSpace 是一个完全的开源软件,他也引用和很多其他的开源工程。但是他的优势是吸收了相关领域很多早期的研究和开发成果,比如它的系统框架采用了美国空间数据系统咨询委员会提出的开放档案信息系统(OAIS)参考模型索爱m600。DSpace是通过元数据采掘OAI协议(OAI-PMH)部分实现互操作,以提供跨资源库的访问服务。在2002年之后陆续建立的机构知识库多数都采用了它进行定制开发。DSpace的数据模型更接近机构本身的特点,易于在研究机构中使用。采用DSpace为基础进行开发的主要优势体现在以下几个方面:
1. DSpace采用Java语言进行开发,其所使用的第三方软件也是开放的源代码,如PostgreSQL、JDK、Apache等具有有良好的跨平台性,易于系统移植,利用Java API可灵活扩充功能。
2. DSpace可以存储各种已知和未知类型的数据,可以存储、管理和发布任何已经和未经出版的本地馆藏,保证印刷和数字文献的统一索引和定位.国内外许多高校都利用它作为机构典藏的系统平台,因此已被证明具有很强的稳定性和实用性,可支持大存储量数据的运
作。
  3. DSpace会聚了大量优秀的开源软件,如它采用了免费的Lucene搜索引
擎, DSpace的索引和检索模型为其开放了API接口,可以方便地定制索引,指
定检索范围,在不重建索引的情况下增加索引内容。这些特能够符合建立一个
高效的信息检索平台的需要。
  4.  DSpace 的数据管理采用以事件触发构建工作流的技术机制,增加了工
作的互动交流。
3.系统总体设计
    系统的设计采用了DSpace原有的3层架构,DSpace采用了分层的封装和调用的机制,保证分层架构的逻辑完整性和系统的可维护扩展性。在二次开发时要根据需求在相应层中进行扩展。DSpace的三层架构分别为存储层、业务逻辑层和应用层,本文在此基础上进行了改造,见图1。
图1.改造后的知识服务平台结构
存储层主要负责物理存储,DSpace采用了SRB(Storage Resource Broker)的存储方式。主要用于操作后台的数据库和存储数字流。数据库中存储的主要是管理、描述每一条目信息的元数据。对于数字流测存储是通过底层的API来完成的,每一种不同格式的数据都有不同的驱动和存储机制。对于这部分基本没有做更多的改动。业务逻辑层主要包含了一些系统业务模块,为应用层提供公用的API,如DSpace本身的检索、索引、浏览模块,工作流管理,用户认证授权等。除上述基本业务模块外本文增加了数据统计模块、原文传递模块。数据统计主要用于每种文献的收录数量、被访问次数、最新上传的数据等信息进行统计,目的是根据这些统计信息有效地向用户推送资源,同时为将来实现数据挖掘奠定基础;原文传递是完全新增的服务,为了方便校内外用户的使用同时保护部分具有知识产权的文献,对于不能直接下载的文献可通过请求原文传递的方式由图书馆员查询并传递给用户。应用层位于最前端,是与用户交互的界面,如各种浏览、检索、数据批量导入、数据批量导出等都是在该层提供,应用扩展基本上是通过重新组合或调用业务逻辑层的API来完成的。应用层的服务种类较多,不同级别的用户对不同的文献的使用权限有差异,如有的文献涉及到知识产权的问题,可以在校内可以获取全文,但是在校外只能通过原文传递的方式获取。本文对应用层的各种服务实现了聚合,并建立了使用情景模型,利用情景敏感
的方式驱动信息系统,引导用户使用权限范围内的各种服务。在图1 中可以看出应用层的服务分为两大部分,一个是与资源检索有关的服务聚合,一个是用户的个人空间。DSpace所建立的机构知识库是一个B/S结构的服务平台,在客户端采用JSP+Sevlet的方式实现用户与系统之间的交互,在Sevlet中集中对各种请求进行调度,调用相应的业务逻辑层的公用API。基本上二次开发都是从业务逻辑层和应用层入完成的。     
此外在高校的信息化环境中知识服务平台主要还存在以下几方面的问题,本文分别提出了相应的解决方案。
1.大多数的机构知识库重在资源的推送忽略了资源分类,因此在建立本平台的时除了按照机构组织资源,更重要的是按照文献类型进行分类,例如目前已有的分类包括会议论文、期刊论文、电子书、项目研究报告。DSpace对于资源的描述采用了DC(Dublin Core)元数据作为统一的元数据描述模板[2],但是对于不同的文献类型的分类描述存在很大局限,特别是对于像会议论文这种文献类型支持的不够充分,本文以DC元数据为核心 ,参照中国数字图书馆标准规范建设的研究成果[3](CDLS)对上述几种文献类型的元数据进行了扩展,建立了元数据规范,形成了每种文献类型的元数据描述模板,在提交数据时可根据
文献类型选择正确的元数据模板来描述资源;
2.高校的机构知识库不能作为一个独立的平台存在,往往要嵌入整个数字图书馆系统中才能充分发挥其资源的价值,此外一些校内的信息系统也需要对机构库的资源服务进行集成。因此本文对机构知识库的核心检索功能进行了Web Service分封装,封装是基于SRU检索协议来实现的,利用DSpace和SRU接口共同完成检索服务,将检索嵌入到其他的信息系统中。
3.机构知识库大多开放存取资源,其内容和形式比较集中,大都支持OAI-PMH这种轻量级的元数据协议,因此开展元数据收割是扩大现有资源,实现横向跨库检索的有效方法。此外通过对元数据的解析,可以做到全文的获取和索引。为此本文利用开源软OAIharvester开发了基于OAI的收割工具。
4.关键问题与解决方案
4.1制定元数据规范
DSpace的元数据采用了DC核心元数据。DC的核心元数据集是一种跨领域的信息资源描述
标准,它的1.1版本共包含了15个核心元素[11]。但是这些核心元素不能满足所有资源对元数据描述的需求,因此我们在此基础上进行了扩展,扩展原则是如果1.1版本的修饰词已经提供了要扩展的元数据的描述项,则直接采用该修饰词,如果修饰词中没有需要的描述项则遵循“向上兼容”的修饰原则进行扩展。在建立元数据规范时本文参考了CDLS制定的《我国数字图书馆标准规范专门数字对象描述元数据规范》。表1为经过规范后的会议论文元数据。为每种规范建立模板,并在系统中注册。提交资源时根据文献类型选择元数据模板。元数据规范是机构知识库建设的重要内容,统一的元数据可以提高机构库之间的互操作能力,因此许多国家在开展机构库实践的同时建设了统一的元数据标准,如加拿大的“CARL收割机”(The CARL Harvester)的搜索引擎[4]和日本国立情报研究所JAIRO[5]就是采取这种方式并在各机构中推广的。因此对于将来建立机构联盟或在各机构之间开展横向收割来说,统一的元数据是非常重要的。目前仅在本校、分校、相关团体等使用该知识服务平台的机构中使用该规范。
表1.会议论文元数据规范
秋天的怀念教学反思电子杂志制作软件哪个好
序号
元素名称(中)
元素名称(英)
修饰词
定义
1
题名
title
 
DC 定义,所赋予的资源的名称。
2
交替题名
title
alternative
除正题名以外的其它题名。可以替代正题名,或作为正题名的其它题名。
3
作者
creator
 
同 DC 定义,创建资源内容的主要个人或团体。
4
作者机构
creator
organization
指论文责任者所在机构名称
5
主题
心理战术Subject
 
同 DC 定义,指资源内容的主题。
6
描述
description
 
同 DC 定义,有关资源内容的描述。
7
目次
description
tableOfContents
资源各组成部分的清单
8
摘要
description
abstract
资源内容的摘要
9
关键字
description
key
资源内容的关键字,可以提供多个
10
责任人
contributors
 
同 DC 定义,对资源内容创建作出贡献的其他责任者。
11
日期
date
 
同 DC 定义,在资源生命周期中一个事件的日期。
12
提交日期
date
Available
接收资源的日期
13
修改日期
date
modified
资源产生之后又发生变化的日期。
14
发布日期
date
Issued
资源正规出版或发布日期
15
文献类型
type
 
同 DC 定义,有关资源内容的特征或类型。
16
标识符
identifier
 
同 DC 定义,在一定背景下可对资源作无二义性参照。
17
DOI
identifier
DOI
自定义,统一标识符,该标准中为论文集和论文相互关联的编号。
18
文献引用
特钢厂identifier
bibliographicCitation
同 DC 定义,资源的参考引用信息(是指该资源被引用时所使用的标识方式)。通常包括期刊题名、ISSN 号、年、卷、期、页等信息。
19
语种
language
 
同 DC 定义,描述论文知识内容的语言。
4.2基于SRU的WebService封装

本文发布于:2024-09-22 01:06:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/687665.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:资源   数据   机构   文献   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议