首页 > 专利信息

一种基于拼音相似度与语言模型的文本检测与纠正方法[发明专利]

专利名称：一种基于拼音相似度与语言模型的文本检测与纠正方法

专利类型：发明专利

发明人：韩竞，李晓冬，梁木，吴蔚，王鑫鹏

申请号：CN202011169315.0

申请日：20201028

公开号：CN112232055A

公开日：

20210115

专利内容由知识产权出版社提供

摘要：本发明公开了一种基于拼音相似度与语言模型的文本检测与纠正方法，包括搜集大量正确的指令文本语句作为训练语句；从训练语句中选择专业领域的词语，构建自定义词典；利用HanLP语言处理工具包和自定义词典，对训练语句进行分词；统计分词结果中每个词语以及每种词语组合在所有训练语句中的出现次数，并构建Bi‑Gram语言模型；将待纠正语句转化为对应的待纠正拼音，将自定义词典的词语转化为对应的词典拼音；根据待纠正拼音与词典拼音的拼音相似度，结合待纠正语句的句子合理性对待纠正语句进行纠正，获得纠正后的语句。本发明通过词语拼音相似度计算和句子合理性分析，考虑了句子的语义信息和语境，有利于检测出句子中错误的词语，并提高纠正的准确率。

申请人：中国电子科技集团公司第二十八研究所

地址：210000 江苏省南京市秦淮区苜蓿园东街1号

国籍：CN

代理机构：江苏圣典律师事务所

代理人：胡建华

本文发布于:2024-09-22 01:10:40，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/414409.html

上一篇：一种基于自然语言处理的文本主题聚类算法[发明专利]

下一篇：基于可伸缩表示学习的长短文本分类方法[发明专利]