首页 > 学术百科

网站错别字识别方法和系统[发明专利]

专利名称：网站错别字识别方法和系统专利类型：发明专利

发明人：邬鹏程，陈可义，邹林杰

申请号：CN202010826076.5

申请日：20200817

公开号：CN111984845A

公开日：

20201124

专利内容由知识产权出版社提供

摘要：本发明提供网站错别字识别方法和系统，包括以下步骤：针对特定的主域名地址，利用分布式爬虫按照预先设定的爬取深度和爬取页面地址的规则进行爬取获得符合爬取深度要求的所有子页面的源代码，根据抓取的源代码获得正文文字并利用正则将正文文字中长句切分为短句，并将短句分词；基于预先训练完成的kenlm模型，利用kenlm模型对各个词打分，根据打分结果识别出网站所有子页面中包含的错别字词。本发明使用方便，用户只需提供需要监控的网站地址即可，按需求识别该网站相关子页面错别字。

申请人：江苏百达智慧网络科技有限公司

地址：215128 江苏省苏州市苏州工业园区若水路388号H214-2室

国籍：CN

代理机构：南京纵横知识产权代理有限公司

代理人：朱远枫

本文发布于:2024-09-20 15:16:48，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/766008.html

上一篇：一种带有二维码的墓碑以及墓碑的扫墓方法[发明专利]

下一篇：通信设备及方法[发明专利]