中文信息处理60年

[收稿日期]2009-07-22
太阳能景观灯
[作者简介]宗成庆,中国科学院自动化研究所研究员,博导,主要研究口语信息处理、机器翻译和自动分词等中文信息处理的基础理论;曹右琦,中国中文信息学会常务副理事长,中国科学院软件研究所研究员;俞士汶,北京大学教授,博导,主要研究计算语言学。
北京德科岛金*本文的相关研究工作得到国家自然科学基金项目(60736014)、 863 计划项目(2006AA010108 4)、国家支撑计划项目(2006BAH03B02)和国家973课题(2004CB318102)的支持。
中文信息处理60年
*
宗成庆1 曹右琦1 俞士汶2(1 中国科学院 北京 100190;2 北京大学 北京 100871)
[摘要]本文首先简要回顾中国语文现代化走过的历程、取得的重要成果及其对
中文信息处理的影响,然后对汉字信息处理和汉语信息处理的其他工作予以归纳阐
述,并对这一领域的学术活动与国际交流情况做简要介绍,最后对中文信息处理所面
临的挑战和未来发展的目标给予粗略的展望。
[关键词]中文信息处理;自然语言处理;自然语言理解;计算语言学
[中图分类号]H08[文献标识码]A[文章编号]1003 5397(2009)04 0053 09
Sixty Years of Chinese Information Processing
ZO NG Chengqing ,C AO Youqi ,YU Shiwen
Abstract :The Chinese Information Processing (CIP)is a charming flower in the garden
of natural language processing (NLP).In the recent sixty years,she has been giving out
fantastic colors and invited so many linguists,computational linguists,and NLP engineers
working to devote the mselves to CIP.Fruitful results have been made in the past decades.This
paper first briefly revie ws the process of Chinese language modernization in China,the
important results,and the effects on CIP,and then summarizes the related work on Chinese
charac ter information processing as well as Chinese language information processing.The
academic activities and international exchanges in this area are also introduced.Finally,the
challenges that CIP faces to are roughly analyzed and the future development is prospected.
银针秀
Keywords :Chinese information processing;Natural language processing;Na tural
langua ge understanding;Computational linguistics
2009年11月
第4期语言文字应用Applied Linguistics Nov.,2009No.4
一 引 言
顾名思义, 中文 就是中国的语言文字。从广义上理解,她可以是中国各民族使用的所有语言文字的总称。但是,由于汉族在人口数量和地域分布上都占有绝对优势,而且长期以来,中国(如新加坡、马来西亚等)华人使用的汉语文字被称为华文或中文,因此,在不引起混淆的情况下,我们认为 中文 与 汉语 指同一概念。根据国家标准GB12200 1 90 汉语信息处理词汇01部分:基本术语 的解释, 中文(Chinese) 特指汉语。本文不涉及民族语言文字信息处理的内容。
中文信息处理是自然语言处理领域的一枝奇葩,几十年来不断放射出奇光异彩,吸引着众多语言学家、计算语言学家和从事自然语言处理技术研究、开发的工程人员为之奋斗,取得了累累硕果。尤其近20年来,随着计算机网络和手机等现代通讯技术的迅速发展与普及,自然语言处理成为计算机科学与语言学交叉领域研究的热点。伴随我国经济实力和国力的不断增强,汉语在世界范围内逐渐成为一种继英语之后的强势语言,世界华人和中国市场对自然语言处理技术的巨大需求,吸引着众多科学家和企业界的目光。因此,不管是发达国家还是落后国家,没有人敢忽视或藐视汉语。中文信息处理技术已经不再是中国人自己关注的问题,而成为整个国际自然语言处理领域共同关注的焦点。
本文首先简要回顾中国语文现代化所走过的主要历程、取得的重要成果及其对中文信息处理的影响,然后重点对汉字信息处理和汉语信息处理的方方面面予以归纳阐述,并对这一领域的学术活动和国际交流情况做简要介绍,最后对中文信息处理目前所面临的挑战和未来发展的目标给予粗略的展望。
二 早期语文现代化工作回顾
语言文字的信息化或者说语言文字信息处理技术的发展水平是关乎国家现代化、社会信息化的大事。中国语文现代化的早期工作及其成果对后来汉字信息处理技术的发展起到了奠基性的作用[1]
中国语文现代化的开始可以追溯到中华人民共和国建国前后。1949年8月7日,吴玉章等发起组织了中国文字改革协进会,同年10月10日,新中国的第一个全国性文字改革组织  中国文字改革协会宣告成立。1952年2月5日,新中国第一个主管文字改革工作的国家机构  中国文字改革研究委员会成立。整理和简化汉字成为中国文字改革研究委员会的既定工作任务之一。1956年1月,国务院通过了 关于公布 汉字简化方案 的决议 ,并首次正式公布 汉字简化方案 。1986年10月,经国务院批准决定,国家语委重新发表了 简化字总表 ,共收2235字,对原 简化字总表 中的个别字做了调整。1988年国家语委、国家教委发布
现代汉语常用字表 ,1997年国家语委、新闻出版署发布 现代汉语通用字笔顺规范 [2]。
如果说汉字简化与规范化对汉字信息处理有重要影响,其重要意义更多地体现在有利于汉字教学和应用、提高国民文化水平,那么,与其并称为文字改革三大核心任务的制定推行汉语拼音方案和推广普通话则是汉字信息化进程中不可或缺的关键环节。从1958年2月11日全国人大一届五次会议通过决议,正式批准 汉语拼音方案 ,到1982年汉语拼音被国际标准化组织(ISO)接纳,成为拼写汉语的国际标准,以及1984年10月中国文字改革委员会发表 汉语拼音正词法基本规则(试用稿) ,1996年正式颁布国家标准(GB  T 16159 1996) 汉语拼音正 54    语言文字应用2009年第4期
词法基本规则 ,汉语拼音的推广使用对于普及汉字和汉语教学、促进国际交流起到了非常重要的作用,
对中国社会生活的各个方面都产生了极其深远的影响[3,4]。尤其值得指出的是,汉语拼音对于计算机汉字输入和中文电脑普及起到了至关重要的作用。50多年的实践证明,汉
语拼音方案是既能体现拉丁化优点、又符合汉语汉字本身特点的最优方案[5]。
纵观几十年来中国语文现代化的历史,老一代专家学者高瞻远瞩的战略思想和一系列英明举措对汉字信息处理技术的发展起到了重要的奠基作用。毋庸置疑,语文现代化与社会信息化、知识经济化有着密切关系。或许可以说,语文现代化是对我国工业现代化、农业现代化、国防现代化和科学技术现代化的重要补充,其历史意义和现实意义不容低估。
三 汉字信息处理概要
育苗营养块
我们知道,语言和文字既是信息、知识、文化的载体,也是文化的组成部分[6]
。汉字作为中华民族璀璨文化中独具特的一项发明,在数千年一脉相传、源远流长的历史中,为记载、继承和传播中华文化建立了不朽的功勋。然而,当20世纪40年代电子计算机问世,并迅速引发席卷全球的信息技术革命,如何对汉字进行编码、存储、输入和输出等一系列关于汉字处理的难题,曾一度成为电脑在中国普及和推广的 拦路虎 。因此,从20世纪70年代中期到80年代末期,汉字信息处理技术成为当时的研究热潮。
汉字信息处理主要指以汉字为处理对象的相关技术,包括汉字字符集的确定、编码、字形描述与生成、存储、输入、输出、编辑、排版以及字频统计和汉字属性库构造等等[6]。一般而言,汉字信息处理关注的是文字(一种特殊的图形)本身,而不是其承载的语义或相互之间的语言学关系,因此,本文将其分离出来单独介绍,而后面将要重点介绍的 汉语信息处理 部分则是指对传递信息、表达概念和知识的词、短语、句子、篇章乃至语料库和网页等各类语言单位及其不同表达形式的处理技术。
在汉字信息处理中,有两个问题最引人注目,一是汉字的输入问题,二是汉字的排版、印刷问题。汉字输入问题又分为键盘输入和非键盘输入两种。所谓键盘输入是指通过对汉字进行 编码 ,即利用普通计算机键盘上的英语字母键之间的组合,建立与汉字之间的对应关系,并将这种对应关系以编码对照表的形式存储在计算机内部,最终利用转换软件将键入的字符串转换为对应的汉字。最早的计算机汉字编码输入始于20世纪50年代的俄汉机器翻译研究,当时只能用电报码和四角号码做汉字编码。60年代完成了 见字识码 的方案设计和码本。1978年5月,上海推出了一台汉字信息处理实验样机。80年代,在联想汉卡、四通中文电脑打字机之后,中国的汉字编码出现了 万马奔腾 的局面,从五笔字型,到自然码、郑码、拼音输入法、智能ABC 、智能狂拼等,较规范、易学易用的输入法层出不穷。国家七五、八五重点科技攻关项目 PJS 普及型中文输入系统  规范码汉字输入系统 和 认知码 等都对汉字编码输入方
法进行了深入研究,并取得了一批研究成果[7]。尤其值得提及的是,速记专家唐亚伟先生发明
的亚伟中文速录机,实现了由手写速记跨越到机械速记的历史性突破,这一成果被迅速推广应用,催生出了速录行业和速记师职业。2005年,92岁高龄的唐亚伟获得我国中文信息处理领域的最高科学技术奖  钱伟长中文信息处理科学技术奖一等奖。
非键盘输入是指不借助键盘直接将汉字或数字等字符输入计算机的技术,常用的方法包括文字识别、语音识别等。汉王文字识别技术是一个成功的代表。以北京大学王选院士为代表的从事汉字照排和印刷技术研究的老一代专家,在解决巨量 55
2009年第4期宗成庆等:中文信息处理60年
汉字字形信息存储和输出等问题中做出了卓越贡献。1981年,第一台汉字激光照排系统 原理性样机 通过鉴定,1985年,激光照排系统在新华社正式运行。1987年, 经济日报 采用激光照排系统出版了世界上第一张采用计算机屏幕组版、整版输出的中文报纸,成为国内第一家全部废除铅字排版的报纸。此后,国产激光照排系统迅速推广应用,在中国掀起了 告别铅与火,迎来光与电 的印刷技术革命[7]
另外,20世纪80年代完成的 汉字频度表  现代汉语频度词典 、GB2313 80、6763汉字属性信息库等一系列基础性工作,都为后来的汉语信息处理研究奠定了很好的基础。四 汉语信息处理技术成果与应用
本部分重点关注在汉语词、短语、句子、篇章乃至语料库等各类语言单位处理方面所取得的研究成果及应用情况。为了便于描述,我们将其分为基础资源建设、理论方法研究和应用技术开发三个方面。
1 基础资源建设
语言资源库(包括语料库、词汇知识库、语法语义词典等)在不同层面构成了自然语言处理各种方法赖以实现的基础,有时甚至是建立或改进一个自然语言处理系统的 瓶颈 。因此,世界各国对语言资源库的开发建设都给予了极大的关注。自1979年以来,中国开始进行机读语料库建设,并先后建成汉语现代文学作品语料库(1979年,武汉大学,527万字)、现代汉语语料库(1983年,北京航空航天大学,2000万字)、中学语文教材语料库(1983年,北京师范大学,106
万字)和现代汉语词频统计语料库(1983年,北京语言学院,182万字)[8]。近20多年来,北京
大学、清华大学、教育部语言文字应用研究所、山西大学、哈尔滨工业大学、北京语言大学、东北大学、中科院自动化所、科技部中信所、中国传媒大学、台湾中央研究院和香港城市大学等相当一批大学和研究机构都对汉语资源库建设做了大量工作。其中,北京大学计算语言学研究所开发的 综合型语言知识库 、董振东等开发的 知网 (HowNet)是两项有代表性的成果,而中文语言资源联盟(Chinese Language Data Consortium,缩写:Chinese LDC)则是为推动我国语言资源共享所建立的第一个联盟性学术组织。
(1)综合型语言知识库
北京大学计算语言学研究所的语言资源建设工作始于1986年,从研制 现代汉语语法信息词典 [9]
起步。该词典曾获1998年度教育部科技进步奖二等奖。在此成果的基础上,于1995年提出建立综合型语言知识库的规划,经过十多年的努力,综合型语言知识库取得了阶段性成果,并于2007年获教育部科技进步奖一等奖。
申报奖励之前,综合型语言知识库通过了教育部组织的技术鉴定: 其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平。 该项成果为推动以汉语为核心的多语言信息处理技术的发展做出了重要的贡献,并取得了显著的经济效益。作为单项技术成果,在北京大学创下了转让次数最多的纪录。
综合型语言知识库[10]在汉语计算语言学理论、汉语语言知识形式化描述、语言知识库构
建技术以及多语言知识融合技术等方面都有所创新。目前它包含的语言资源包括现代汉语语法信息词典、现代汉语语义词典、中英文概念词典、汉语短语结构知识库、现代汉语大规模基本标注语料库、汉英双语对齐语料库以及多个专业领域的术语库。 56    语言文字应用2009年第4期
综合型语言知识库仍在继续发展。研制中的综合型语言知识库系统不仅把现有的语言知识资源集成为一个有机的整体,各个成员知识库可以相互参照,互相印证,而且进一步挖掘深层的语言知识,发展概率型汉语词汇知识库,让语言知识库建设更上一层楼,同时,将有新成员不断加入综合型语言知识库的大家庭。
(2)知网
知网(HowNet)是董振东教授提出并创建的语言知识库,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
知网作为一个构思严密的知识系统,是一个名副其实的意义网络,它着力要反映的是概念的共性和个性。在知网中,义原是一个很重要的概念,指最基本的、不易于再分割的意义的最小单位。知网体系的基本设想是,所有的概念都可以分解成各种各样的义原,同时,也存在一个有限的义原集合,其中的义原组合成一个无限的概念集合。董振东教授认为,中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。因此,知网从大约6000个汉字中提取出了这
个有限的义原集合[11,12]。知网的规模主要取决于双语知识词典数据文件的大小。由于它是在
线的,修改和增删都很方便,因此,它的规模是动态的。目前知网已作为中文信息处理技术研究和系统开发重要的基础资源,被广泛地应用于词汇语义相似性计算、词义消歧、名词实体识别和文本分类等许多方面。
(3)中文语言资源联盟
在国家重点基础研究发展规划项目(973项目) 图像、语音、自然语言理解与知识挖掘 (资助号:G1*******)的支持下,由中科院自动化所、清华大学、教育部语用所和中科院计算所发起,于2003年成立了中文语言数据联盟。该联盟挂靠在中国中文信息学会,目标是建成达到国际水平的,具有完整性、系统性、规范性和权威性的通用中文语言资源库及中文信息处理的评测体制,为汉语语言信息处理的基础研究和应用开发提供支持,促进汉语语言信息处理技术的不断进步[13]。目前该联盟已拥有会员单位70多个、各类语言资源80余种,包括8~10万词的 汉语通用词表 、25000~30000词的 汉语语法信息词典(高频词) 、500万字的 分词词性标注语料库 、100万字的 汉语语法树库 、20万句对的 中英双语语料库 等。其中30%数据资源对会员免费,从而在全世界范围内实现中文语言数据资源的共享。Chinese LDC 于2006年运营以来,平均每天都有数十人次的网站访问和电话咨询。到目前为止,该组织已共享资源200多套,授权使用单位40多个,包括美国、加拿大、德国、日本、澳大利亚等国内外著名科研机构和公司若干单位已经通过该平台获取了中文信息处理科研工作所需的基础资源[14,15]。
2 理论方法研究
我国最早利用计算机进行自然语言处理研究的项目是机器翻译。1956年国家把机器翻译研究列入科学工作发展规划并设立课题,1957年中科院语言所和计算所合作开展了俄汉机器翻译研究。机器翻译是一个高度综合性的研究课题,涉及词法分析、句法分析、语义分析和语言生成等各个层面,因此,伴随机器翻译研究,中文信息处理相关的各种理论方法研究随之展开。在过去50多年的曲折历程中,中文信息处理理论研究的脚步从来都没有停止过。
1958年刘涌泉、刘倬等提出的 中介成分理论 曾在早期的中国机器翻译研究中发挥了重要的作用。70年代末期冯志伟最先开展了对汉字信息熵的研究,经过几年的语料收集和手工 57
2009年第4期宗成庆等:中文信息处理60年
统计,在当时艰苦的条件下测定了汉字的信息熵为9 65比特(bit),这与80年代末期北京航空学院刘源等通过计算机对大规模语料统计得到了汉字信息熵为9 71比特的结论相当接近。
进入20世纪80年代以后,汉语分词与词性标注方法研究得到了快速发展。全切分分词方法、最短路径分词方法、N  最短路径分词方法、基于隐马尔可夫模型(HMM )或n 元语法(n  gram)的分词方法等一系列分词方法相继提出。1992年, 信息处理用现代汉语分词规范 被国
高压电线杆家技术监督局批准(GB13715),并于1993年5月1日在全国正式实行[16]。
20世纪90年代,面向机器翻译提出的SC 文法[17],从某种意义上拓展了复杂特征集理论
和合一文法,而 现代汉语语法信息词典 和 知网 是我国学者结合汉语特点和规律对词汇主义思想的进一步发展和应用。
另外,概念层次网络理论的提出也是中文信息处理研究中一个有益的探索。
3 应用技术开发
相对于理论方法研究而言,中文信息处理应用技术开发和产业化进程中的成果可谓琳琅满目。除了前面提到的汉字存储、显示、输入、激光照排等实用技术以外,机器翻译、搜索引擎、文语转换等应用系统也如雨后春笋不断涌现。
20世纪80年代中期到90年代初期,我国的机器翻译研究开始走向繁荣。军事科学院研制的 KY  1 英汉机器翻译系统获得了国家科技进步二等奖,后来发展为 译星 ,成为中国第一个商品化机器翻译系统。中科院计算所研制的 I MT  EC863 英汉机器翻译系统于1995年荣获国家科技进步一等奖,获得了可观的经济效益。
510669
进入21世纪以后,基于大规模语料库的统计方法在自然语言处理中得到快速发展,以语料库为研究对象和基础的语料库语言学迅速崛起,并进一步推动了自然语言处理相关技术的快速发展,统计机器翻译逐渐成为国际机器翻译研究的主流。中科院计算所、自动化所、哈尔滨工业大学、厦门大学和中科院软件所等在统计机器翻译研究中进行了富有成效的探索和实践。中科院自动化所还在语音翻译研究方面做了大量开创性的工作,先后实现了基于个人电脑、PDA 和普通手机的汉英、汉日双向语音翻译系统。
近几年来,以机器翻译技术为支柱发展起来的中科院华建集团公司和沈阳格微软件有限公司在机器翻译应用方面取得了十分可喜的成就。
与此同时,在语音识别、语音合成和人机对话系统等方面,中科院自动化所、声学所、中国科大、清华大学、北京交通大学、哈尔滨工业大学等都做了大量研究和开发工作。语音识别、语音合成系统已在实际应用中取得了丰硕的成果。
近10年来,随着国际互联网技术的迅速发展和普及,国内一批面向计算机网络的信息搜索系统脱颖而出,TRS 、百度和中搜等一批优秀企业成为当前信息领域十分耀眼的明星。
值得提及的是,由国家语言文字工作委员会组织编纂发布的 中国语言生活绿皮书
是当代中国语言规划的一项重要举措,体现着新世纪国家语言文字工作的一些新理念,体现着中国语言研究的一些新进展。编辑出版 中国语言生活绿皮书 的目的,是为国家语言方针政策的决策提供参考,为语言文字研究者、语言文字产品研发者和社会其他人士提供语言服务,引
领社会语言生活走向和谐[18]。 中国语言生活绿皮书 既是中文信息处理研究成果的具体体
现,也是中文信息处理研究的重要参考。五 学术活动与国际交流随着中文信息处理研究的逐步深入和人才队伍的迅速壮大,由钱伟长、甄健民、安其春等 58    语言文字应用2009年第4期

本文发布于:2024-09-22 06:54:13,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/135208.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语言   研究   中国   技术   发展
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议