数字人文环境下历史文献资源共建共享模式新探

-贯彻落实党'十九届五中全会精神专题:公共数字文化9设研究-
数字人文环境下历史文献资源共建共享模式新探*
*本文系国家哲学社会科学基金项目“支撑城市记忆项目的'数据基础设施'理论建构与实践探索”(项目编号:19BTQ007 )研究成果之一。 收稿日期:2021-02-18;责任编辑:柴若熔
夏翠娟 贺晨芝 刘倩倩 朱武信
(1.上海图书馆 上海 200031)
摘要:数字人文的勃兴为GLAM 领域的资源共建共享提出了新的需求。文章以上海图书馆“中文古籍联合目录及
循证平台”“中国家谱知识服务平台”“人名规范库”“历史文献众包平台”为例,介绍数字人文环境下新的历史文献资
源共建共享模式,主要包括“资源与服务全托管模式”“资源与服务半托管模式”“联合编目模式”“数据中心模式”“开
放链接模式”“众包模式”等六种,随后分析比较其适用范围和可行的技术方案。通过实践案例论证了解决数字人文
环境下GLAM 领域的资源共建共享问题,利用以技术的手段作为政策和机制的补充,提供一种技术驱动的低成本 资源共建共享途径。
关键词:数字人文;资源共建共享;最佳实践;模式研究中图分类号:G122
文献标识码:A  D01:10.11968/tsyqb.1003-6938.2021008
New  Exploration  on  the  Co-construction  and  Sharing  Mode  of  Historical  Literature  Resources  in  the  Digital  Human  Environment
Abstract  The  development  of  Digital  Humanities  has  brought  forward  new  demands  for  Resource  Co- Construction
and  Sharing  in  GLAM. Taking  the  "Chinese  Ancient  Books  Union  Catalogue  and  Evidence  -based  Platform", "Chinese  Genealogy  Knowledge  Service  Platform H , "Authority  Names  Database" and  "Historical  Document  Crowd-sourcing  Plat ­form" as  examples, this  paper  explores  the  mode  of  co-construction  and  sharing  of  historical  literature  resources  in  the  digit
al  human  i t  i es  environment, including  six  modes. The  paper  analyzes  and  compares  the  application  scope  and  feasi ­ble  technical  solutions. Through  practical  cases, the  paper  demonstrates  that  the  problems  of  resource  co  construction  and  sharing  in  GLAM  field  under  the  digital  human  environment  can  be  solved  by  technical  means  as  a  supplement  to  policies  and  mechanism.
Key  words  digital  humanities; resource  co  construction  and  sharing; best  practice; mode  research
新华月报
1引言
图书馆界对于资源共建共享历来十分重视,建 国以来各种多机构合作修纂联合目录如《中国丛
书综录》《中国古籍善本书目》《中国古籍总目》《中 国家谱总目》等工作起到了摸清家底的作用,为新 世纪伊始数字图书馆建设大潮中数字化历史文献资
源的共建共享打下了基础。21世纪初互联网时代的 到来,对网络环境下文献资源共建共享的研究达到 一个高峰,从现状调查和反思[1],到管理机制[1]、运行
展开剂模式[2],再到实践[3]进行了全方位的探讨&由国家
(原)文化部、财政部共同发起并组织实施的三项重
大公共数字文化工程(简称“三大工程”),即“全国文
化信息资源共享工程”“数字图书馆推广工程”和“公 共电子阅览室计划”,在公共文化服务体系的资源共
建共享方面取得了一定的成就, 初步完成了信息基
础设施建设, 在资源建设方面也制定了系统性的资 源数字化加工、数字对象管理、资源描述、长期保存
的标准规范,为不同机构间的资源共建共享奠定了
一定的基础&高校图书馆经过中国高等教育文献保
障系统(CALIS )、大学数字图书馆国际合作计划 (CADAL )等项目在高校图书馆界的资源共建共享
等方面也取得了类似的成就。
国家十四五规划提出实施文化产业数字化战略,上海市全面推进城市数字化转型,强调以新技术广泛
应用为重点,大力提升城市创新能级。而随着“数智时代”的到来和数字人文的兴起,为数字人文研究提供“数据基础设施”支撑和数字学术环境保障成为历史文献资源开发利用的目的之一。“数据基础设施”需要充分体现资源覆盖全,数据规模大,覆盖时间长,地域范围广,描述粒度小、维度多等特点,以支持全网域(Webb-scale)的数据调度、融合和自动化的分析、统计,以及大规模数据的可视化%这就对历史文献资源的共建共享提出了更高的要求%数字图书馆时代以三大工程为代表的资源共建共享都有着自上而下的政策和管理驱动的特点,成本较高%数智技术不仅为数字资源的管理加工提供了更为高效的平台和工具,也改变了资源收藏者的观念,对资源使用者催生了新的需求,而能否通过新技术的应用,为跨机构的协同共建和开放共享提供更为便捷轻型的解决方案,满足实际情况下各个机构对资源共建共享的不同需求,提供灵活的选择,正是本文试图通过家谱、古籍、人名规范库、众包等数字人文项目实践来探讨的问题%
2文献调研
为避免重复建设和服务的均等化,资源的共建共享是必然的需求叫我国自“十二五”时期开始加强对公共数字文化资源建设的重视,并推出大量涉及公共数字文化资源整合的策略叫随着三大工程的实施,各地政府推出地方数字文化网站、资源共享平台(中心),建设地方特数字资源,但由于各地建设技术不一、数据结构各异,造成总体内容不成体系、无法互链共享、更新维护欠佳等问题,也难以为公众提供全面高质量的数字文化资源服务戸」。
国外资源共建共享项目起步于上世纪90年代,至今已推出各类较为成熟的跨机构、跨地域历史文献资源共建共享平台,如欧盟的Europeana、纽约公共图书馆的DPLA、法国国家图书馆的Gallica、澳大利亚国家图书馆的Trove、美国国会图书馆主导开发的WDL等,集合了不同机构的大量数字文化资源,为公众提供一站式服务叫
资源建设方面,各平台以规范的数据格式上传资源、遵循约定协议关联整合等方式汇聚资源。Eu-ropeana制定了EDM数据模型(Europeana data mod­el)以语义技术融合各类资源元数据,不同机构自行加工数据,将符合要求的资源元数据上传至平台*9+% Gallica则根据参与机构数字化能力提供不同的建设方式,除了提供基于OAI-PMH协议的资源共建方式外,还为资源尚未数字化的机构提供数字化服务并将其纳入平台,对于资源已数字化但没有独立数字资源发布平台的机构,在将其资源纳入平台的同时,还提供基于Gallica平台、在界面设计(配)上根据机构意愿个性化定制的数字资源发布平台建设服务[10]o Trove在机构与机构共建数据的基础上,引入了基于用户贡献的众包理念,邀请用户通过文献标弓I、全文抄录的方式与机构共同建设资源数据*11+%资源共享与服务方面,在提供资源统一检索门户的基础上,部分网站还提供了更为深入的知识服务、数据开放服务%WDL的资源元数据都可点击关联至相关检索结果,Gallica提供与主题作者等相关的资源推荐,通过不同资源间的关联提高资源利用率与可见度%WDL还利用国际图象相互操作框架支持图像资源的共享、关联与再利用%DPLA和Euro­peana除了常规的服务平台以外,还有专业版服务平台,通过开放Search APIRecord API、IIIF APIs、SPARQL、OAI-PMH Service等各类资源接口提供数据开放服务*12-13+%
3数字人文环境下历史文献资源共建共享模式——实践探索
图书馆参与数字人文项目的最初出发点是利用新技术更好地整合开发馆藏资源,尤其是用活用好珍贵的历史文献资源,以为研究者提供更好的数字学术支撑环境,以上海图书馆为例,其作为研究型公共图书馆,需要利用数据可视化、AR、VR等技术拉近专业性较强的历史文献资源与普通大众的距离,从总体上提高资源的利用率%上海图书馆的数字人文项目建设始于2014年,从上图的特资源家谱开始,利用以关联数据、知识图谱为主的语义万维网
(Semantic Web)技术,融合597家馆藏机构和众多私人收藏者的家谱元数据记录、专家的研究成果(姓氏、祠堂、家规家训)、相关的网络资源、人名词典,基于本体(Ontology)建模的方法重组整合数据,建成“中国家谱知识服务平台”,在提供更好的文献查阅服务之外还提供数据驱动的知识服务,为使该平台成为一个不断生长的有机体,还开发了在线捐赠、在线识谱、在线修谱、联合编目等各种众包功能,吸纳用户贡献内容。经过数年的探索实践,上海图书馆建设了手稿、档案、古籍、红文献等文献知识库,并以人名规范库等知识库作为不同机构、不同类型的文献的数据链接中心和知识共享中心,形成了将各种文献库和知识库融为为一体的人文数据基础设施(在这个过程中,不可避免地涉及到跨机构的资源共建共享的问题,根据各个机构的资源管理服务政策、现状和需求,探索了不同的资源共建共享模式(在“中国家谱知识服务平台”中,探索了“联合编目模式”和“众包模式”;在“中文古籍联合目录及循证平台”中探索了“资源与服务全托管模式”、“资源与服务半托管模式”和“开放链接”
频率控制字模式;而人名规范库则是通过一个人物实体作为“数据中心”,来链接来自不同机构和不同类型的文献资源;“历史文献众包平台”则是一个旨在为不同机构、不同种类的历史文献提供众包项目分发、管理和回收的综合性众包平台,面向个人用户,支持元数据编目和全文图像抄录成文本,是典型的“众包模式”。
3.1资源与服务全托管模式
“资源与服务全托管模式”是指资源收藏机构无独立的特藏资源服务站点,将要服务的资源元数据和数字化全文扫描影像提交给托管机构,由托管机构负责进行数据加工和格式转换及系统开发,在云平台上提供元数据和数字化全文扫描影像服务,并支持功能开发及后续维护(数据更新、站点维护管理等)。
如澳门大学图书馆与上海图书馆的古籍项目合作就是采用资源与服务全托管模式(澳门大学图书馆将其馆藏2480种古籍的MARC元数据和数字化全文扫描影像托管给上海图书馆,上海图书馆数字人文团队对元数据进行数据清洗和知识提取,提取元数据中的作品、版本、责任者等信息,按照上图古籍本体的知识结构进行重组和RDF格式转换,对PDF格式的古籍扫描影像进行IIIF的转换,并在上图中文古籍联合目录及循证平台(gj.library.sh. cn)上为澳门大学图书馆发布了单独的古籍目录站点,直接在云端为该馆读者提供独立的古籍馆藏服务站点(gj.library.sh/org/mcu)(澳门大学图书
馆可以自行对该站点的界面外观、高级检索字段、详情页面显示的字段、排序规则等进行个性化设置(见图1),也可对资源和用户进行维护和管理。平台支持澳门大学图书馆管理员对资源元数据进行查询修改、馆藏导出或新增资源的批量上传,以上设置和维护也可全权委托上海图书馆。
同时,澳门大学图书馆也可共享平台提供的1400余家机构馆藏目录一站式检索的“联合目录”功能,和融合各种联合目录、史志目录、官修目录、私家目录和避讳字、藏印、刻工等各种外挂知识库的“循证研究”功能,以及还原各种古籍目录并提供全文检索和阅览的“古籍目录”功能等(
这种模式适用于资源收藏机构无暇投入人力自行开发馆藏资源服务站点,其优点是资源托管机构成熟的技术方案和开发经验,能快速按既有流程完成开发,提高了开发的效率,双方的数据深度融合形成规模化优势;由于采用一致的数据模型和技术方案,确保了双方资源整合时数据标准和技术架构的统一,避免了不同技术体系带来的互操作障碍;此外,资源集中存储,服务在云端,在后续的更新和维护上,也有一定的便利性(
3.2资源与服务半托管模式
明日之星学习机
资源与服务半托管模式是指资源收藏机构已有独立的特藏资源服务站点,但将要建设的元数据和数字化全文扫描影像提交给资源托管机构,由后者负责进行数据加工和格式转换,在云平台上提供元数据和数字化全文扫描影像服务,以及平台功能开发及后续的维护(资源更新、站点维护管理等),云平
台的服务作为前者已有服务站点的补充(
如柏克莱加州大学东亚图书馆与上海图书馆的合作就是采用资源与服务半托管模式。前者曾将馆
图1中文古籍联合目录及循证平台澳门大学图书馆藏古籍服务站点的个性化配置
藏的清乾隆六十年以前所有中文刻本及稿、钞、校本编著为《柏克莱加州大学东亚图书馆中文古籍善本书志》公开出版,其中收录该馆所藏中文古籍善本802种,每种书志的著录非常详细和完善,包括书名、卷数、著者、版本、册数、行款、版匡高广、牌记、刻工、写工、原书序跋、著者仁履、内容提要、版本考订、收藏或经眼者批校题跋、收藏概况、铃印等项,为反映海外图书馆汉籍收藏的一本重要工具书。上海图书馆以此书为基础与柏克莱加州大学东亚图书馆进行合作,双方商定,前者为后者提供中文古籍联合目录与循证平台的所有登录用户可访问的内容和服务,后者允许前者将802种善本书志的内容数据化后融入中文古籍联合目录和循证平台。
上海图书馆数字人文团队对善本书志进行了结构化、数据清洗和知识提取,提取元数据中的分类、作品、版本、责任者、铃印等信息,按照上海图书馆古籍本体的知识结构进行重组和RDF格式转换,融入 中文古籍联合目录及循证平台。并对该馆提供的279种全文扫描影像进行IIIF转换,在上海图书馆的中文古籍联合目录及循证平台上发布了单独的柏克莱加州大学东亚图书馆古籍目录站点( gj.library.sh/org/bkl),为该馆读者提供独立的善本书志目录全文检索和部分全文扫描影像的IIIF服务。
柏克莱加州大学东亚图书馆可以自行对站点的主页进行个性化设置和资源维护。同时,根据柏克莱加州大学东亚图书馆的要求:善本书志的内容无条件地公开访问,但数字化全文扫描影像则只供双方用户在局域网访问。针对此需求,平台采用IP控制和用户权限控制的方式,支持双方的用户通过统一用户登录后,在IP控制的范围内,访问“中文古籍联合目录及循证平台”上的所有向登录用户开放的内容和功能,而除数字化全文扫描影像外的全部内
容,不登录也可以访问"
这种模式适用于收藏机构有一定的信息化和开发能力,但希望托管机构提供更好的服务作为已有服务的补充。针对收藏机构在数字化全文扫描影像服务策略上的不同需求,托管机构需提供灵活的服务方式。如上海图书馆中文古籍联合目录及循证平台就支持对数字化全文扫描图像的访问权限进行灵活的控制,如可配置的IP控制、用户角权限控制、针对某种古籍单独的权限控制等。
3.3联合编目模式
2018年,上海图书馆主持的国家哲学社会科学基金重大课题“编纂《1949年以来中国家谱总目》(18ZDA329)”立项。该课题的创新点之一是,充分利用互联网+分布式工作的思维和上海图书馆数字人文项目建设已有的成果,在中国家谱知识服务平台已有的新家谱目录数据基础上,由上海图书馆研发家谱联合编目系统,支持参与新家谱总目编纂的各家机构基于一致的著录规范,在同一系统在线协同联合编目,编目数据实时与中国家谱知识服务平台同步,一边协同编目,一边就能向各个收藏机构和广大用户提供服务。新家谱目录编目完成后,由系统按照书本式目录的格式生成%1949年以来中国家谱总目》草稿。
家谱联合编目系统(jplb.library.sh)于2020年3月研发完成开始投入使用,截至2021年2月,已有56家机构参与联合编目,已完成1800余种家谱的著录。系统支持不同的机构遵循一致的著录规范进
地方时计算
行编目。在著录界面提供详细的著录范例,并对字段内容,字段格式、字段长度按照著录规范进行自动数据校验。系统支持著录查重,著录人员在著录之前需先查重,如查到手头待著录的家谱已有其它机构著录过,则只需添加本机构馆藏信息如索书号、册数、是全本还是残本等说明。一方面减少了著录人员的工作量,另一方面提升了家谱目录数据的质量,有利于系统按作品-实例-单件(复本)这样的结构生成书本式目录,减轻了总目编纂人员的工作负担。系统支持流程控制和质量控制。编目工作的整个生命周期分为草稿,待初审,待定审三种状态。著录人员在著录过程中,可以提交,也可以暂存为草稿。提交后,著录工作单发送到机构专家初审,机构专家负责本机构著录工作的质量控制,确认无误后,提交到编委会专家。编委会专家对各个机构的著录结果以出版的要求进行第二次质量控制,对有问题的著录工作单进行修改,确认完成定审操作。定审后,数据就会实时同步到家谱知识服务平台提供服务。除了单条目录著录外,系统也支持批量查重、批量数据导入、批量数据导出功能。
“联合编目模式”适用于历史文献资源联合目录的共建共享,其优点在于数据加工规范和格式的一致性,和在线协同工作方式的高效性,可以极大地避免重复建设,提高工作效率。但系统的研发维护成本较高、对系统稳定性和用户体验要求较高。范照兵是谁的秘书
3.4数据中心模式
“数据中心模式”是从多源异构数据中采集数据,在云端建设统一的数据中心中,记录数据来源,反过
来再根据其来源链接处于不同网域中的资源,关联开放数据云(Linked Open Data Cloud)即是一种典型的数据中心模式。
上海图书馆在数字人文的项目建设中,将人名、地名、时间、事件数据从不同的资源中抽取出来,分别建设了人名规范库,地理名词表,历史纪年表,历史文化事件知识库,作为链接不同资源的数据中心。其中人名规范库建设的初衷是提供互联网环境下人名规范控制,后来逐步成为多源异构资源的数据链接中心。现已收录人物共133万余人,来自上海图书馆的中国家谱知识服务平台、中文古籍联合目录及循证平台、手稿档案知识库、上海年华系列专题库、革命(红)文献服务平台,融合了国家图书馆人名规范档、哈佛大学中国历代人物传记资料库(CBDB)、各种人名大辞典的数据,另有浦东区图书馆、华东师范大学图书馆、韬奋纪念馆等机构也提供了部分人物数据。
人名规范库作为数据中心体现在两个方面,一是开放数据链接,通过一个人物链接到不同机构不同网域中的资源,包括文献资源、相关人物、故居等,以“冯契”的人物信息页面为例,打开页面,可以看出其小传数据来自《中国近现代人物名号大辞典》、国家图书馆人名规范档和华东师范大学名师库,并链

本文发布于:2024-09-22 08:24:29,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/213567.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:资源   数据   机构   数字   服务   提供
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议