一种基于拼音相似度与语言模型的文本检测与纠正方法[发明专利]

专利名称:一种基于拼音相似度与语言模型的文本检测与纠正方法
专利类型:发明专利
发明人:韩竞,李晓冬,梁木,吴蔚,王鑫鹏
申请号:CN202011169315.0
申请日:20201028
公开号:CN112232055A
公开日:
20210115
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于拼音相似度与语言模型的文本检测与纠正方法,包括搜集大量正确的指令文本语句作为训练语句;从训练语句中选择专业领域的词语,构建自定义词典;利用HanLP语言处理工具包和自定义词典,对训练语句进行分词;统计分词结果中每个词语以及每种词语组合在所有训练语句中的出现次数,并构建Bi‑Gram语言模型;将待纠正语句转化为对应的待纠正拼音,将自定义词典的词语转化为对应的词典拼音;根据待纠正拼音与词典拼音的拼音相似度,结合待纠正语句的句子合理性对待纠正语句进行纠正,获得纠正后的语句。本发明通过词语拼音相似度计算和句子合理性分析,考虑了句子的语义信息和语境,有利于检测出句子中错误的词语,并提高纠正的准确率。
申请人:中国电子科技集团公司第二十八研究所
地址:210000 江苏省南京市秦淮区苜蓿园东街1号
国籍:CN
代理机构:江苏圣典律师事务所
代理人:胡建华

本文发布于:2024-09-22 01:10:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/414409.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语句   纠正   拼音   词语   句子   训练
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议