古籍数字化方案

DESi拓展应用方案
灿烂的中华文化是古籍数字化的源泉
我国具有五千年悠久的文明史,拥有灿烂丰富的历史文化宝库。
而古籍正是中国五千年文化积淀的瑰宝,代表着中华文化底蕴的汉语文古籍是中华民族悠久历史和古代文明的象征,维系中华传统文明的进步与传承,也是我国各图书馆馆藏的重要组成部分。最近一项对国内22个公共图书馆和38个学术图书馆的调查表明:这些图书馆中藏有1400多万册古籍。专家估计全国古籍藏量应当在5千万册上下。
天一阁藏书楼是我国现存历史最久的私家藏书楼,也是世界上现存最早的三个私家藏书楼之一,建于明嘉靖四十年至四十五年(公元1561—1566)之间,原为明兵部右侍郎范钦的藏书处。于1982年被国务院公布为全国重点文物保护单位。现藏各类古籍近30万卷,其中珍椠善本8万卷,尤以明代地方志和科举录最为珍贵。近年来,我馆事业发展迅速,先后新增中国地方志珍藏馆、银台第官宅博物馆、麻将起源地陈列馆等处。中国地方志珍藏馆收藏全国各
级各类当代地方志6730多册,占总数的80%以上。银台第博物馆展示了清代官宦人家的家居艺术和建筑艺术,获2000年度“全国博物馆十大精品陈列最佳创意奖”。麻将起源地陈列馆以三维空间展示麻将的起源及与宁波的历史溯源。建于二十年代的秦氏支祠以其独特的祠堂文化,精湛的民间工艺为游客所叹服,并列入第五批全国重点文物保护单位行列。
古籍数字化的意义
古籍都是不可再生的宝贵的财富。正由于其弥足珍贵,普通的读者是不可能接触到这些稀世珍品,据国家图书馆善本部张志清副主任介绍,一部古籍每翻阅一次都会使它“折寿”60年。另一方面,古籍由于年代久远,纸张极易风化粉碎、残破、变形、霉变,形成不可挽回的损失。由于人为破坏和自然灾害,许多典籍早已荡然无存。明代叶盛说:“夫天地间物,以余观之,难聚而易散者,莫书若也。”
如何保护珍贵的历史文化典籍,如何使之走下神坛,让这些“昔日王榭堂前燕,飞入寻常百姓家”,让一般人能领略其博大精深;如何弘扬中华文化,让全世界的华人、汉学家方便了解研究中国的文学作品以及历史、军事和哲学;如何使文史研究工作者能够快速到所需资料,提高他们的研究效率……是图书馆界和IT界的共同的心声和梦想,也是每一个关注
民族文化的国人的梦想。
高科技手段被认为是目前保护古籍的最佳选择。中国从1985年起,开始用缩微照相方式复制古籍,到目前已抢救了两万多种古代文书。缩微胶卷或平片有经济、耐用等优点,一直是保存档案资料的一种有效手段。但缩微胶片的使用需要专用设备,伴随而来的是难以管理和不易使用的缺点。随着计算机技术的发展,古籍“数字化”也已经成为一种新的保护和利用的办法。
国际图联文献保护中心主任M·T·G瓦拉莫夫女士认为:“在较长的一段时期里,缩微技术和光盘、数字化技术之间不是谁会取代谁的问题,至少缩微技术还在发展,世界上不少图书馆仍在进行大规模的文献缩微计划,以美国报纸拍摄计划(USNewspaperProgram)为例,这项以国会图书馆为主体的计划,要求将美国及其托管领地出版的所有报纸实现缩微化”。
从技术的角度,缩微胶卷也为古籍的数字化提供方便、简捷的资料的来源。
古籍的数字化和上网,是中华优秀文明由纸张等媒质流传方式转为数字信息等现代方式传
播的重要步骤,是对传统的中华文化传播和继承方式的革命。古籍的数字化和上网,是互联网上中文信息完整性的重要保障,对确立中华文化在互联网上的整体优势地位和树立文化大国形象具有不可替代的地位。传统古籍的数字化和上网还具有现实的价值,可以有效地解决古籍保存与使用之间的矛盾。古籍通常是1911年以前抄写、出版的图书,包括民国时期出版的古人所著的线装图书,往往具有重要的史料价值和很高的文化价值。许多古籍保存单位严格限制古籍的使用,以达到古籍保护的目的,但同时也使古籍的研究利用受到影响。古籍的数字化和网上发布,使研究者可以在网络终端上浏览古籍,还能避免直接接触对古籍造成的损坏,能有效地解决古籍保存和使用的矛盾,为中外学者方便地研究古籍提供便利,对古籍研究工作必将产生巨大的推动作用。
4.1.2目前国内古籍数字化的现状
2002年4月16-20日,来自中、日、韩、英、美及澳大利亚等国图书机构和研究单位的近百位专家、学者齐聚一堂,参加了在北京嘉苑饭店举行的为期五天的“《永乐大典》编纂600周年国际研讨会”。会上,中外学者回顾了600年间尤其是20世纪以来收藏、保护、研究《永乐大典》的状况,会议期间《永乐大典》的数字化问题成为与会专家最为关注、讨
论最热烈的话题。这次会议充分展示了国际上中文古籍的数字化的现有的技术水平和发展的前景。
目前我国古籍数字化的工作取得了一定的成绩,已经完成或正在进行的有关古籍数字化的项目主要分为全文本方式和图像方式两大类:
全文本方式数字化
电子版《四库全书》,由上海人民出版社、香港迪志公司、北京书同文公司合作开发,选用国际标准ISO/IEC10646(GB13000/Unicode)作为数字化的字符集,采用XML语言作为文献内容的标识语言,使用OCR技术实现图文数码转换,使用数据库加知识工具库多种信息关联的全文检索引擎。书同文公司是大陆最大的致力于古籍数字化的公司,现拥有《四库全书》、《四部丛刊》、《康熙字典》的电子版。目前在制作《永乐大典》和《历代石刻史料汇编》的全文检索版。
北京大学中文系《全唐诗》网上电子检索系统,由211工程资助、北京大学中文系李铎博士主持开发,历时一年完成。该项目主体部分由《全唐诗》及《全唐诗补编》组成,辅助项
由《乐府诗集》、《玉台新咏》、《文选》等组成。参考类则由重要唐代史料《新唐书》、《旧唐书》、《唐才子传》、《历代诗话》、《唐诗纪事》等资料组成,共1700万字。全部文献错误率控制在三万分之一以下(共五校),《全唐诗》文本控制在五万分之一以下(共六校)。所有文献均使用Unicode内码,在Windows2000平台上,不需要任何转码工具,全球任何语言的操作系统均可在网上直接检索《全唐诗》及相关资料,并且兼容Windows9x,WindowsNT,Unix,Linux等平台。检索系统由两个版面组成,一是浏览界面,它提供以原书为序浏览,浏览内容只限于《全唐诗》。另一界面是检索界面,此界面是本系统的核心,可以检索全部资料。主体部分除全文检索功能外,另有诗题检索、作者检索、体裁检索、音韵检索等功能,检索结果显示诗歌全文(以首为单位)、作者小传、诗文校注、诗歌体裁、原书页码、册、卷等。
“中国基本古籍库”光盘工程,由北京大学刘俊文先生主持,是北京大学的重点项目,1998年经全国高校古委会的批准立项,正式启动。著名学者季羡林、国家图书馆馆长任继愈担任编纂委员会主任,两院院士罗霈霖、工程院院士李国杰担任技术委员会主任,由北大方正技术研究院提供技术支持。全套光盘库共500张,根据中国古籍自身的特点,参照国际通行的图书分类法分为哲科、史地、艺文、综合4个子库,20个大类,近百个细目。范围涉及
先秦至民国的重要典籍1万余种,每种典籍有1个通行版本的全文信息,另附1-2个珍贵版本的图像数据,预计全文20亿字,版本图像2千万页。基本可以满足文史和其他方面研究者的研究需求。适用于中、英、日、韩多语种操作平台,并提供多重检索功能。用户只需懂得一些基本的电脑操作方法,就可在极短的时间内,查所需的资料,每次检索均可在5秒内完成。
台湾中央研究院《汉籍电子文献》,始于1984年7月,前身是为开发二十五史全文数据库而成立的“史籍自动化计划”,现已完成的数据库,共约一亿两千万字,其中较大型的是二十五史、医药文献、明实录、历代史料笔记丛刊和十三经,这些数据库已包括中国唐代以前的大部份重要文献(道教资料除外);正在建设中的数据库多达一亿八千万字,准备逐步将宋代以下的重要文献数字化。所有文献通过人工与机器共进行3次校对。在制作技术上得到中央研究院计算中心的支持。使用者可以在一秒之内,查到二十五史数据库中四千万字的任何字词。
“国际敦煌学项目”(The International Dun huang Project,简称IDP),旨在通过国际合作促进敦煌写卷的研究与保护。由英国图书馆开发,开始于1993年。项目计划逐步将全
世界各国各收藏单位的敦煌文献数字化。目前可在线查看英国图书馆收藏的3万余件中亚写本和印本文件,以及15000余件残卷的高质量彩图片。2001年3月,中国国家图书馆与英国国家图书馆签署五年合作项目,加入此项目。中国国家图书馆国际敦煌学项目的数字化内容主要包括:1、馆藏敦煌文献数字化。使用扫描图像展示写卷的全部内容——正面、背面,甚至没有文字的地方,图像的清晰度与看原卷没有区别。同时使用国际敦煌学项目提供的专门设计的4D数据库详细描述写卷的物理性质。2、研究论著目录数据。包含四个专题书目数据库:敦煌吐鲁番学日文论著目录数据库;敦煌吐鲁番学西文论著目录数据库;敦煌文献研究论著目录数据库和敦煌吐鲁番学学者档案数据库。3、中国国内散藏敦煌文献联合目录。
扫描方式数字化古籍扫描仪
国内图书馆界在古籍数字化方面也先后进行了大量的探索,积累了丰富的经验,为文明的传承和文化的传播,做出了不可磨灭的贡献。
中山图书馆  1998年,中山图书馆借助缩微胶片扫描仪开始了缩微制品的数字化的建设。扫描方法与纸质文献类似,在性能指标上要求缩微胶片扫描仪可以处理16mm,35mm卷片
、平片等缩微品,扫描和数字化处理的速度应达到国内外同类产品的性能要求。选择了日本MINOLYA公司的microDAX3000电子影像系统(ugbrid imaging system)。包括Ms3000缩微胶片扫描仪和Powerfilm电子影像处理软件,软件平台Powerfilm提供了简单易用的中文图像界面,将缩微胶卷转换成数码格式、以TIFF文件格式储存并自动生成有序的文件名,符合公共图书馆提供给读者检索的要求。截止目前为止,我们已经完成约50万拍缩微文献(包括古籍和报纸)的转换。
上海图书馆  上海图书馆收藏有古籍文献170余万册,其中包括古籍图书、碑帖拓片、名人手札、专人档案资料等,不乏许多稀世珍品。1997年,上海图书馆启动了古籍数字化项目,1998年市政府对数字图书馆进行了专项投入,主要进行历史文献和特馆藏的抢救性整理和数字化工作。上海图书馆最早启动的项目是3223种馆藏善本的数字化工作,数字化总量为130万页。
1999年是上海图书馆进行大规模数字化的一年,这一年一共进行了7个数字化项目,包括“上海图典”、“上海文典”、“点曲台”、“民国图书”、“古籍善本”、“中国报刊”、“科技百花园”等,总数据量将近200GB。这些馆藏资源的数字化形成了数字图书馆的基本馆藏。
上海图书馆建立了一套古籍影像光盘制作及检索系统,该“古籍影像光盘制作及检索系统”包括两个部分:标引建库制作子系统和存储及检索子系统。制作子系统由一台专用服务器(作数据库及打印服务器)连接一台激光打印机、6台扫描工作站(各配有奔腾主机和扫描仪,其中4台A3黑白扫描仪,一台A3彩扫描仪,一台A4黑白扫描仪)、一台标引工作站和一台光盘刻录系统和组成;存储子系统由一台CD-ROM光盘库服务器、一台数据库服务器、一台大型(可存放725张光盘)CD-ROM自动换盘机及查询工作站,通过大楼布线系统与古籍阅览室中的4台检索工作站相联。制作子系统基本实现了基于网络的自动工作流程调度管理,古籍文件通过5台扫描工作站扫描压缩后,先临时存储在各自的硬盘工作区中,由标引工作站建立索引,并校对已扫描好的数据;扫描的图象目前采用TIFF格式存储黑白图象,以JPEG格式存储彩图象,压缩比至少为20:1;经过黑白扫描的古籍原文如有必要再经过彩扫描,可自动替换;古籍粘签页与原书页分别扫描,经设定后在显示时可分别显示原页及粘签页。
古籍光盘的检索提供四种途径:书号、分类、书名和著者,检索到书目信息后可根据权限调出原文影像,影像显示具有放大、缩小、旋转、翻页及指定页等功能。

本文发布于:2024-09-21 20:22:57,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/369706.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:古籍   数字化   检索
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议