中文分词算法概述_龙树全

中⽂分词算法概述_龙树全
软件设计开发本栏⽬责任编辑:谢媛媛中⽂分词算法概述
点火时间龙树全,赵正⽂,唐华
(西南⽯油⼤学计算机科学学院,四川成都610500)
摘要:当前搜索引擎技术被⼴泛地应⽤,这使得全⽂检索技术和中⽂分词技术的研究逐渐深⼊。中⽂分词是中⽂信息的关键技术之⼀,其质量⾼低直接影响中⽂信息处理效率。⽂章致⼒于研究中⽂分词算法,对多种中⽂分词算法、⾃动分词系统的理论模型进⾏了详细的阐述和讨论,为中⽂分词的进⼀步发展提供基础和⽅向。
关键词:中⽂分词;全⽂检索;算法;搜索引擎;歧义切分
烟腹毛脚燕中图分类号:TP391.1⽂献标识码:A ⽂章编号:1009-3044(2009)10-2605-03
Overview on Chinese Segmentation Algorithm
LONG Shu-quan,ZHAO Zheng-wen,TANG Hua
(Department of Computer Science and Technology,Southwest Petroleum University,Chengdu 610500,China)
Abstract:Currently,the search engine technology has been widely used,which brings in-depth researches to full-text search technology and Chinese segmentations;Chinese Segmentation is one of the key technologies of Chinese information,it directly affects the quality of Chinese information processing efficiency.This article dedicated to Research on Chinese Segmentation Algorithm,described in detail and discuss to some kinds of Chinese Segmentation Algorithms,Theoretical model of Auto-Segmentation system.Provide foundation and di -rection for the further development of Chinese segmentations.
Key words:chinese segmentations;full-text search;algorithm;search engine;ambiguous word segmentation
1引⾔
⾃然语⾔处理是⼈⼯智能的⼀个重要分⽀。中⽂分词是中⽂⾃然语⾔处理的⼀项基础性⼯作,也是中
⽂信息处理的⼀个重要问题。随着搜索引擎技术的⼴泛应⽤,全⽂检索技术和中⽂分词技术也逐步受到⼴泛的研究和应⽤,然⽽到⽬前为⽌,还没有完全成熟实⽤的中⽂分词系统⾯世,这成为严重制约中⽂信息处理发展的瓶颈之⼀。本⽂致⼒于研究中⽂分词算法,通过分词算法对分词的质量做出客观的判断和评估,从⽽为中⽂分词的进⼀步发展提供基础和⽅向。
2中⽂分词技术综述
2.1全⽂检索技术
所谓全⽂检索是指计算机索引程序通过扫描⽂章中的每⼀个词,对每⼀个词建⽴⼀个索引,指明该词在⽂章中出现的次数和位置,当⽤户查询时,检索程序就根据事先建⽴的索引进⾏查,并将查的结果反馈给⽤户的检索⽅式。在中⽂⽂档中根据是否采⽤分词技术,索引项可以是字、词或词组,由此可分为基于字的全⽂索引和基于词的全⽂索引。
基于字的全⽂索引是指对于⽂章中的每⼀个字都建⽴索引,检索时将词分解为字的组合。对于各种不同的语⾔⽽⾔,字有不同的含义,⽐如英⽂中字与词实际上是合⼀的,⽽中⽂中字和词有很⼤分别。此⽅法查全率较⾼,但查准率较低。有时会出现令⼈啼笑皆⾮的检索结果,如检索货币单位“马克”时,会把“马克思”检索出来。
基于词的全⽂索引是指对⽂章中的词,即语义单位建⽴索引,检索时按词检索,并且可以处理同义项等。英⽂等西⽅⽂字由于按照空⽩切分词,因此实现上与按字处理类似,添加同义处理也很容易。中⽂⽂字则需要切分字词,以达到按词索引的⽬的。对中⽂⽂档进⾏切词,提⾼分词的准确性,抽取关键词作为索引项,实现按词索引可以⼤⼤提⾼检索的准确率。
2.2中⽂分词技术
中⽂分词与英⽂分词有很⼤的不同,对英⽂⽽⾔,⼀个单词就是⼀个词,⽽汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要⼈为切分。中⽂分词系统是利⽤计算机对中⽂⽂本进⾏词语⾃动识别的系统,对其研究已经取得了很多成果,出现了众多的算法。根据其特点,可以将现有的分词算法分为四⼤类:基于字符串匹配的分词⽅法、基于理解的分词⽅法、基于统计的分词⽅法和基于语义的分词⽅法等。
3中⽂分词⽅法
中⽂分词⽅法的基本原理是针对输⼊⽂字串进⾏分词、过滤
雪地里的红棉袄处理,输出中⽂单词、英⽂单词和数字串等⼀系列分割好的字符
声波速度
串。中⽂分词模块的输⼊输出如图1所⽰。3.1基于字符串匹配的分词⽅法
这种⽅法⼜叫作机械分词⽅法、基于字典的分词⽅法,它是按照⼀定的策略将待分析的汉字串与⼀个“充分⼤的”机器词典中的词条进⾏匹配。若在词典中到某个字符串,则匹配成功(识别出⼀个词)。该⽅法有三个要素,即分词词典、⽂本扫描顺序和匹配原则。⽂本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最⼤匹配、最⼩匹配、逐词匹配和最佳匹配。
收稿⽇期:2009-02-11
图1中⽂分词原理图
ISSN 1009-3044
Computer Knowledge and Technology 电脑知识与技术
Vol.5,No.10,April 2009,pp.2605-2607E-mail:xsjl@www.doczj/doc/181411666.html
www.doczj/doc/181411666.html
Tel:+86-551-569096356909642605
本栏⽬责任编辑:谢媛媛软件设计开发
Computer Knowledge and Technology 电脑知识与技术第5卷第10期(2009年4⽉)
1)最⼤匹配法(MM )。基本思想是:假设⾃动分词词典中的最长词条所含汉字的个数为i ,则取被处理材料当前字符串序列中的前i 个字符作为匹配字段,查分词词典,若词典中有这样⼀个i 字词,则匹配成功,匹配字段作为⼀个词被切分出来;若词典中不到这样的⼀个i 字词,则匹配失败,匹配字段去掉最后⼀个汉字,剩下的字符作为新的匹配字段,再进⾏匹配,如此进⾏下去,直到匹配成功为⽌。统计结果表明,该⽅法的错误率为1/169。
2)逆向最⼤匹配法(RMM )。该⽅法的分词过程与MM 法相同,不同的是从句⼦(或⽂章)末尾开始处理,每次匹配不成功时去掉的是前⾯的⼀个汉字。统计结果表明,该⽅法的错误率为1/245。
3)逐词遍历法。把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料,⼀直到把全部的词切分出来为⽌。不论分词词典多⼤,被处理的材料多么⼩,都得把这个分词词典匹配⼀遍。
4)设⽴切分标志法。切分标志有⾃然和⾮⾃然之分。⾃然切分标志是指⽂章中出现的⾮⽂字符号,如标点符号等;⾮⾃然标志是利⽤词缀和不构成词的词(包括单⾳词、复⾳节词以及象声词等)。设⽴切分标志法⾸先收集众多的切分标志,分词时先出切分标志,把句⼦切分为⼀些较短的字段,再⽤
MM 、RMM 或其它的⽅法进⾏细加⼯。这种⽅法并⾮真正意义上的分词⽅法,只是⾃动分词的⼀种前处理⽅式⽽已,它要额外消耗时间扫描切分标志,增加存储空间存放那些⾮⾃然切分标志。
5)最佳匹配法(OM )。此法分为正向的最佳匹配法和逆向的最佳匹配法,其出发点是:在词典中按词频的⼤⼩顺序排列词条,以求缩短对分词词典的检索时间,达到最佳效果,从⽽降低分词的时间复杂度,加快分词速度。实质上,这种⽅法也不是⼀种纯粹意义上的分词⽅法,它只是⼀种对分词词典的组织⽅式。OM 法的分词词典每条词的前⾯必须有指明长度的数据项,所以其空间复杂度有所增加,对提⾼分词精度没有影响,分词处理的时间复杂度有所降低。
由上⾯的算法,不难看出基于字符串匹配的分词⽅法的优缺点:
优点:简单,易于实现。
缺点:1)匹配速度慢;2)存在交集型和组合型歧义切分问题;3)词本⾝没有⼀个标准的定义,没有统⼀标准的词集;4)不同词典产⽣的歧义也不同;5)缺乏⾃学习的智能性。
3.2基于理解的分词⽅法
该⽅法⼜称基于⼈⼯智能的分词⽅法,其基本思想就是在分词的同时进⾏句法、语义分析,利⽤句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词⼦系统、句法语义⼦系统和总控部分。
在总控部分的协调下,分词⼦系统可以获得有关词、句⼦等的句法和语义信息来对分词歧义进⾏判断,即它模拟了⼈对句⼦的理解过程。这种分词⽅法需要使⽤⼤量的语⾔知识和信息。⽬前基于理解的分词⽅法主要有专家系统分词法和神经⽹络分词法等。由于汉语语⾔知识的笼统、复杂性,难以将各种语⾔信息组织成机器可直接读取的形式,因此⽬前基于理解的分词系统还处在试验阶段。
1)专家系统分词法。从专家系统⾓度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实现分词过程的推理机中独⽴出来,使知识库的维护与推理机的实现互不⼲扰,从⽽使知识库易于维护和管理。它还具有发现交集歧义字段和多义组合歧义字段的能⼒和⼀定的⾃学习功能。
2)神经⽹络分词法。该⽅法是模拟⼈脑并⾏,分布处理和建⽴数值计算模型⼯作的。它将分词知识所分散隐式的⽅法存⼊神经
⽹络内部,通过⾃学习和训练修改内部权值,以达到正确的分词结果,最后给出神经⽹络⾃动分词结果。
3)神经⽹络专家系统集成式分词法。该⽅法⾸先启动神经⽹络进⾏分词,当神经⽹络对新出现的词不能给出准确切分时,激活专家系统进⾏分析判断,依据知识库进⾏推理,得出初步分析,并启动学习机制对神经⽹络进⾏训练。该⽅法可以较充分发挥神经⽹络与专家系统⼆者优势,进⼀步提⾼分词效
率。
3.3基于统计的分词⽅法
该⽅法的主要思想:词是稳定的组合,因此在上下⽂中,相邻的字同时出现的次数越多,就越有可能构成⼀个词。因此字与字相邻出现的概率或频率能较好反映成词的可信度。可以对训练⽂本中相邻出现的各个字的组合的频度进⾏统计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度⾼于某⼀个阈值时,便可以认为此字组可能构成了⼀个词。该⽅法⼜称为⽆字典分词。
该⽅法所应⽤的主要的统计模型有:N 元⽂法模型、隐Markov 模型和最⼤熵模型等。在实际应⽤中⼀般是将其与基于词典的分词⽅法结合起来,既发挥匹配分词切分速度快、效率⾼的特点,⼜利⽤了⽆词典分词结合上下⽂识别⽣词、⾃动消除歧义的优点。
3.4基于语义的分词⽅法
语义分词法引⼊了语义分析,对⾃然语⾔⾃⾝的语⾔信息进⾏更多的处理,如扩充转移⽹络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。
1)扩充转移⽹络法。该⽅法以有限状态机概念为基础。有限状态机只能识别正则语⾔,对有限状态机作的第⼀次扩充使其具有递归能⼒,形成递归转移⽹络(RTN )。在RTN 中,弧线上的标志不仅
可以是终极符(语⾔中的单词)或⾮终极符(词类),还可以调⽤另外
无味红霉素的⼦⽹络名字分⾮终极符(如字或字串的成词条件)。这样,计算机在
运⾏某个⼦⽹络时,就可以调⽤另外的⼦⽹络,还可以递归调⽤。词
法扩充转移⽹络的使⽤,使分词处理和语⾔理解的句法处理阶段交
互成为可能,并且有效地解决了汉语分词的歧义。
2)矩阵约束法。其基本思想是:先建⽴⼀个语法约束矩阵和⼀
个语义约束矩阵,其中元素分别表明具有某词性的词和具有另⼀词
性的词相邻是否符合语法规则,属于某语义类的词和属于另⼀词义
类的词相邻是否符合逻辑,机器在切分时以之约束分词结果。
4中⽂分词算法中的难点
4.1歧义问题
歧义切分字段处理⼀个汉语句⼦是以连续字串的形式书写的。图2中⽂⾃动分词系统的框架
2606
软件设计开发本栏⽬责任编辑:谢媛媛由于可能存在歧义,分词并不是⼀个简单的从输⼊串中发现合法词的过程。⼀个句⼦经常对应⼏个合法词序列,因此,汉语分词中的⼀个重要问题就是在所有这些可能的序列中选出⼀个正确的结果。歧义切分是⾃动分词中不可避免的现象,是⾃动分词中⼀个⽐较棘⼿的问题。对歧义切分字段的处理能⼒,严重影响到汉语⾃动分词系统的精度。实践表明,只⽤机械匹配进⾏分词,其精度不可能⾼,虽然有时也能满⾜⼀些标准不⾼的需要,但不能满⾜中⽂信息处理⾼标准的要求。
4.2未登录词识别问题
未登录词辨别未登录词包括中外⼈名、中国地名、机构组织名、事件名、货币名、缩略语、派⽣词、
各种专业术语以及在不断发展和约定俗成的⼀些新词语。是种类繁多,形态组合各异,规模宏⼤的⼀个领域。对这些词语的⾃动辨识,是⼀件⾮常困难的事。5⾃动分词的评价准则
⾃动分词系统的最主要的⼯作是进⾏分词。对于分词⽽⾔,不仅要求所研制的软件在分词的正确率和速度⽅⾯满⾜⼀定的要
求,⽽且要象开发⼤型传统软件那样,在各个阶段不断地进⾏评价,其⽬的主要是检查它的准确性和实⽤性,分词的评价主要有以下⼏个⽅⾯:
5.1分词正确率
书⾯汉语的⽂本可以看成是字符序列,分词的正确率直接影响更⾼⼀级的处理。现有的分词系统切分错误主要集中在歧义字段和专有名词(如⼈名、地名、机构名和未登录词等)。为了获得分词系统切分正确率,应该进⾏整体测试,歧义测试和专业词测试。因此,⾃动分词系统的切分正确率的基本公式为:
其中,S 1,S 2,S 3。分别为总体测试、歧义测试和专业词测试的正确率;
B i (i=1,2,3)为三种测试加的权值。
5.2切分速度
切分速度是指单位时间内所处理的汉字个数。在分词正确率基本满⾜要求的情况下,切分速度是另⼀个很重要的指标,特别对于算法不单⼀,使⽤辅助⼿段,诸如联想,基于规则,神经⽹络,专家系统等⽅法更应注意这⼀点。通常中⽂信息处理的⽂本数量是相当⼤的,因此必须考虑⽅法是否能使系统总开销合理。在⼈机交互⽅式下处理歧义问题的策略和⼈机接⼝的设计,有时会严重地影响切分速度,这也是应考虑的因素。
5.3功能完备性
⾃动分词⽅法除了完成分词功能外,还应具备词库增删、修改、查询和批处理等功能。
5.4易扩充性和可维护性
这是提供数据存储和计算功能扩充要求的软件属性,包括词库的存储结构,输⼊/输出形式的变化等⽅⾯的扩展和完善。这项指标与系统清晰性、模块性、简单性、结构性、完备性以及⾃描述性等软件质量准则有直接的联系,对于研究实验性质的软件是⾮常重要的,因为这类软件需要不断提⾼与改进,使之适应中⽂信息处理的各种应⽤。
5.5可移植性
可移植性是指⽅法能从⼀个计算机系统或环境转移到另⼀个系统或环境的容易程度。⼀个好的分词⽅
法不应该只能在⼀个环境下运⾏,⽽应该稍作修改便可在另⼀种环境下运⾏,使它更便于推⼴。
6结论
由于中⽂的独特性,⽬前还没有完美的中⽂分词算法。中⽂分词算法的进⼀步完善应该在已经取得的成绩的基础上,综合运⽤多种⽅法,并引⼊新的模型和⽅法,通过不断探索,使中⽂分词算法越来越完善。
参考⽂献:
[1]
马⽟春,宋涛瀚.web 中中⽂⽂本分词技术研究[J].计算机应⽤,2004,24(4):134-136.[2]
曹桂宏,何丕廉,吴光远,等.中⽂分词对中⽂信息检索系统性能的影响[J].计算机⼯程与应⽤,2003(19):78-79.[3]
刘开瑛.中⽂⽂本⾃动分词和标注[M].北京:北京商务印书馆,2000.[4]Chien Lee-Feng.PA T-tree-based adaptive keyphrase extraction for intelligentChinese information retrieval [J].Information Pro-cessing
andManagement,1999(35):501-521.
丙烯基硫脲龙树全(1982-),男,四川阆中⼈,硕⼠,主
要研究⽅向:计算机软件与理论, 分
布式应⽤程序。
赵正⽂(1969-),男,博⼠,教授,主要研究⽅向:数据库系统实现技术,数据仓库,数据挖掘;
唐华(1983-),男,硕⼠,主要研究⽅向:计算机软件与理论。
龙树全等:中⽂分词算法概述
2607

本文发布于:2024-09-21 12:39:08,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/36388.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分词   匹配   处理   歧义   系统   词典   算法
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议