中文分词算法——基于词典的方法

中⽂分词算法——基于词典的⽅法
1、基于词典的⽅法(字符串匹配,机械分词⽅法)
定义:按照⼀定策略将待分析的汉字串与⼀个“⼤机器词典”中的词条进⾏匹配,若在词典中到某个字符串,则匹配成功。
按照扫描⽅向的不同:正向匹配和逆向匹配
按照长度的不同:最⼤匹配和最⼩匹配
1.1正向最⼤匹配思想MM
至于夏水襄陵
1》从左向右取待切分汉语句的m个字符作为匹配字段,m为⼤机器词典中最长词条个数。
2》查⼤机器词典并进⾏匹配。若匹配成功,则将这个匹配字段作为⼀个词切分出来。
若匹配不成功,则将这个匹配字段的最后⼀个字去掉,剩下的字符串作为新的匹配字段,进⾏再次匹配,重复以上过程,直到切分出所有词为⽌。
1.2逆向最⼤匹配算法RMM
广告业专用发票该算法是正向最⼤匹配的逆向思维,匹配不成功,将匹配字段的最前⼀个字去掉,实验表明,逆向最⼤匹配算法要优于正向最⼤匹配算法。
1.3 双向最⼤匹配法(Bi-directction Matching method,BM)
内蒙古移动彩铃
双向最⼤匹配法是将正向最⼤匹配法得到的分词结果和逆向最⼤匹配法的到的结果进⾏⽐较,从⽽决定正确的分词⽅法。据SunM.S. 和Benjamin K.T.(1995)的研究表明,中⽂中90.0%左右的句⼦,正向最⼤匹配法和逆向最⼤匹配法完全重合且正确,只有⼤概9.0%的句⼦两种切分⽅法得到的结果不⼀样,但其中必有⼀个是正确的(歧义检测成功),只有不到1.0%的句⼦,或者正向最⼤匹配法和逆向最⼤匹配法的切分虽重合却是错的,或者正向最⼤匹配法和逆向最⼤匹配法切分不同但两个都不对(歧义检测失败)。这正是双向最⼤匹配法在实⽤中⽂信息处理系统中得以⼴泛使⽤的原因所在。
1.4设⽴切分标志法
收集切分标志,在⾃动分词前处理切分标志,再⽤MM、RMM进⾏细加⼯。婚育与健康
1.5最佳匹配(OM,分正向和逆向)
对分词词典按词频⼤⼩顺序排列,并注明长度,降低时间复杂度。
优点:易于实现
分频器设计缺点:匹配速度慢。对于未登录词的补充较难实现。缺乏⾃学习。
算法流程图如下:
油纸电容式套管

本文发布于:2024-09-21 08:40:53,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/36386.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:匹配   逆向   词典   分词   算法   实现
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议