汉语自动分词中若干关键技术の研究

%慨
摘要
l近年来,随着国民经济信息化的不断发展以及Intemet的普及,中文信息处
理技术的应用日益广泛。由于中文文本是按旬连写的,词间无间隙,因而中文
信息处理的首要问题是词的切分问题,自动分词已成为中文信息处理的一个前沿课题。)—’/一
本文设计并实现了一个汉语自动分词系统,对系统中采用的关键技术进行具体介绍。
词典查是影响系统切分速度的重要因素。本文提出一种基于Trie索引的词典组织机制,对分词过程中几种常用的词典查尤其是最大匹配查的速度有很大提高。餐饮业会计核算
歧义字段切分是影响系统切分精度的一个重要因素。本文针对交集型歧义字段设计了统计与规则相结合的切分算法,对多义型歧义字段采用枚举性规则的切分算法。
未登录词识别是汉语自动分词中最为困难也是最具挑战性的问题。本文对数字词短语、中国姓名、中国
地名、音译名和机构名等主要类型的未登录词都给出了具体的识别算法,并提出基于并发和竞争处理机制的专有名词识别集成策略。最后提出了一种动态词典机制,利用未登录词在输入文本中的全局信息,力图使系统的未登录词识别性能达到最佳。
关键词:中文信息处理、汉语自动分词、最大匹配、词典组织机制、
歧义字段切分、未登录词识别、信息集成
规划功能分区Abstract
MoreandmoreChineseinformationarenowavailableinmachine-readableformduetotherapiddevelopmentofcommunicationnetworksandinexpensivemassivestorage.BecausetherearenoseparatorsbetweenChinesewords,automaticwordsegmentationplaysthefundamentalroleinChinese
informationprocessing.Thisthesisintroducesth
earchitectureofourChinesewordsegmentationsystemandsomekeyalgorithmsusedinthesystem.
ThedictionarymechanismSelVesasoneofthebasiccomponentsinChinesewordsegmentationsystem.Itsperformanceinfluencesthesegmentationspeedsignificantly.Inthisthesis,wedesignandimplementadictionarymechanismbasedonTRIEindexingtree.ItCallbeseenthatthismodeliscapableoffulfillingtheneedforspeedofpracticalChinesewordsegmentortothemaximumextent.
ThesolutionofambiguitiesisstillanopenissueinthestudyofChinesewordsegmentation.Forcrossingambiguities,weuserulesbasedonstatisticalinformationandcollocationofwordsandpartofspeech.Forcombinativeambiguities.wegiveenumerativerulesonambiguousphrasesseparately.
UnknownwordidentificationisthemostdifficultbutalsothemostchallengingtaskofChinesewordsegmentation.Thisthesispresentstheidentificationmethodforvariouscategoriesofunknownword:Numericphrases,Chinesename,Chineselocation,TransliteratenameandOrganizationname.Then,aninformationintegratedapproachisproposed.Intheend,adynamicdictionarymechanismisintroducedtoutilizethecomprehensiveinformationofunknownwordintextrange.
Keywords:Chineseinformationprocessing,Chinesewordsegmentation,
MMmethod,dictionarymechanism,disambiguationstrategy,
氢氧化钴unknownwordidentification,informationintegration
第一章引言
中文信息处理技术是我国重要的计算机应用技术。在计算机产业中,唯有中文信息处理技术是我国的专长,在国际上享有得天独厚的优势。国务院制定的“国
家中长期科技发展纲领”中明确指出:“中文信息处理技术是高新技术发展的重
点”。我国软件产业发展的重点之一是中文信息处理软件,中文信息处理的发展
已经得到国家的高度重视。
我们日常工作中的信息,绝大部分是以语言文字作为媒介进行传播交换和记载的。这些语言信息的自动输入和输出,文本的校勘和分类,信息的提取和检索
以及语言翻译等语言工程,都是国民经济和国防信息化建设的重要基础。中文信
息处理涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。当前汉
语信息处理的主战场已从“字处理”转移到“词处理”。由于中文文本是按句连
写的,词间无间隙,因而中文文本处理中的首要问题是词的切分问题。在八十年
代初期,自动分词技术就受到重视,陆续有各种分词模型和软件提出,成绩是明
显的。近年来,随着国民经济信息化的不断发展以及Internet的普及应用,在中
文信息处理的广泛应用中,迫切要求实现汉语词典和语料库等中文资源的共享和
复用,对自动分词的要求也越来越高。在信息产业需求的强大动力驱动下,自动
分词已经引起多方面的关注,成为中文信息处理的一个前沿课题。
1.1自动分词是中文信息处理的基础工程
多肿瘤蛋白芯片
汉语与英语不同,英语文本是小字符集上的词串,而汉语文本是大字符集上的字串。因此,汉语处理增加了大字符集处理和字串到词串处理这两大任务。汉
字编码和输入方法的研究,是为了解决大字符集的问题。把字串分隔成词串,就
是分词系统要做的工作。【刘开瑛ool
一.自动分词的重要性
1.自动分词是现代汉语句法分析器的一项基础性工作。汉语语言理解有着极其广泛的应用价值,在人机接口、问答系统、机器翻译等众多的应用领域中,对
输入文本进行句法分析是一项必不可少的处理任务。计算机从事句法分析所凭借
的语法信息不外乎来自机器词典和句法规则库。机器词典收录了每个词条的语
法、句法和语义知识,而句法规则一般来讲是在词类等知识基础上构造的。因此,
对汉语句子必须先进行词语切分处理后,才有可能进行句法分析。如果对输入的
源文件中的句子未经分词处理,仍然是一些字串序列,就无法根据句子中出现的
每个具体词到机器词典中去查相应的语言知识;而且,如果不知道每个具体词
的词性等词汇知识,也就不可能直接调用相关的句法规则来判断句子的句法结构。
2.词语的计量分析己广泛应用于词频统计、新词辨识、计算机辅助词典编纂、词语搭配研究和文章或作者的风格学研究等众多领域。例如,词典编纂中选入词典中的词条,每条词语的用法(或义项)及其相应的例句,不应是由编辑者生造,而都应从大规模真实语料中获取。这些语料库的每个文本或实体,都应是在对语料进行切分、词性标注等处理后才能提供使用。
3.汉语文献处理自动化只有以词为文本特征,词性、词义和句法结构等更深层的语言知识才有用武之地。现从以下几个领域来说明。
(1)自动索引(automaticindexing)。是用机器抽取或赋予索引词。索引词是指与文献主题相符的或密切相关的词语,也就是文献的关键词或主题词。所以,中文文本自动索引中离不开词这个基本单位。
(2)自动分类(automaticclassification)。是指利用计算机对一批实体或对象进行分类,包括建立分类体系及其自动更新。自动分类主要应用于文档聚类和关键词聚类等研究领域。文档聚类的关键技术是计算文档相似度(documentsimilarity),即不同文档之间属性的相似度。文档的属性通常用关键词或标引词代表,因此只有通过对文本的自动分词处理,才能进行文档聚类技术的研究。关键词聚类(termclustering)是根据词与词之间的关联信息,采用统计或计算的方法对关键词进行聚合,生成某种词类或词。词与词之间的
关联信息,一般也以文本中词的出现频数、位置和权重等来确定。它主要应用于词表或类表的自动生成。
纺织材料与应用
(3)信息检索(informationretrieval)。泛指用户从包含各种信息的文档集中查所需要的信息或知识的过程。信息社会的信息包括文本、数字、声音、图像等多种类型。以文本信息的检索为例,首先需要构造查询模型,即用户需求信息的表示;然后构造文档索引,即对文档内容的识别和表示。查询模型和文档索引的构造都是以词为基础的。进入网络时代以来,信息资源除二次文献外,出现越来越多的是全文数据。全文检索就是在这种社会需求的背景下应运而生的。国内流行的全文检索系统,主要都是按词检索的,它内嵌汉语自动分词系统,具有比按字检索高得多的查准率和空间利用率。
(4)信息抽取(informationextraction)。是另外一种从文档集中搜寻所需信息的应用,与信息检索中返回含所需信息的文档不同,信息抽取得到的是更精确的信息表达。以产品信息抽取为例,系统从给定的产品报道中抽取产品的名称、类型、价格和生产厂家等产品相关信息,这些信息大多是词典中未能收录的未登录词,而未登录词识别正是分词技术中的一个重要方面。信息模板的构造和对象的分析都必须以词为前提。
雨霖铃赏析4“以词定字”、“以词定音”方法是解决错别字辨识、多音字的字音辨识和简一繁体转换等的主要手段。
(1)“以词定字”是汉语文本自动校对系统实现检错一纠错功能的重要技术之一。如果一个字在某些词中的出现是不合理的,校对系统就判定它是别字或错字。如,音同或音近的字:“知识份(分)子“、见风使驼(舵);字形相近的字:于(干)预、手(生)产;字义相近的字:故技(伎)重演、英明(名)其妙等。
(2)汉语多音字的字音辨识是汉语文本一语音转换课题的关键技术之一。只有通过对汉语文本的自动分词处理,采用“以词定音”或句中前后词的语境才能实现字音的辨识。
例:好人(ha02)l爱好(ha04)重(zhon94)奖I重(chon92)逢
扒(bal)车l静k(pa2)窃学校(xia04)l校(jia04)对
(3)汉字从简体字到繁体字的转换中常遇到一个简体字可能对应多个繁体字的现象,也需要采用“以词定字”或上下文来解决,例如简体字“干”,可对应于传承字“干”和繁体字“乾”、“斡”,如“干涉、干戈、乾脆、乾燥、活斡、调斡”。对于多音多义字的简一繁转换,更需要“以词定字”来解决多(音)对一或多对多现象。
二.分词系统的设计原则【吴立德97]
自动分词系统只是中文信息处理系统的一部分,分词本身并不是目的,而只是后续过程的必备手段。分词单位的选取,一般情况下要以分词规范为准,但还要考虑具体的应用环境,灵活地加以控制,此外,还需兼顾大规模语料库处理的特殊要求。因此,自动分词原则应包括以下几点:
(1)分词单位的选取必须有利于标注、句法分析等后续过程的处理。这一点具体地体现在某些词组的处理上,这些词组包括数字词组(如:五分之三),时间词组(如:三月六日),人名(如:张胜利)等。
(2)分词准确率是分词系统最重要的性能指标。而作为中文信息处理子系统的分词系统,其准确率直接影响着后续过程的准确率,同时,分词速度远远高于标注、分析等过程,不构成系统的处理瓶颈,即使采用较为复杂的方案,所需的处理时间仍远少于后续过程。这就使我们可以把主要的精力放在提高处理精度上来。
(3)为处理大规模的语料,要求系统有较好的容错性能。另外,分词词典必须有良好的可扩充性,具备从语料库中自动学习的能力。
(4)分词系统必须有较好的可移植性。好的分词系统不应该只能在一种环境下运行,而应该在稍作修改的情况下,就能移植到另一个系统中。

本文发布于:2024-09-23 23:32:33,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/2995.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分词   信息   处理   系统
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议