网站错别字识别方法和系统[发明专利]

专利名称:网站错别字识别方法和系统专利类型:发明专利
发明人:邬鹏程,陈可义,邹林杰
申请号:CN202010826076.5
申请日:20200817
公开号:CN111984845A
公开日:
20201124
专利内容由知识产权出版社提供
摘要:本发明提供网站错别字识别方法和系统,包括以下步骤:针对特定的主域名地址,利用分布式爬虫按照预先设定的爬取深度和爬取页面地址的规则进行爬取获得符合爬取深度要求的所有子页面的源代码,根据抓取的源代码获得正文文字并利用正则将正文文字中长句切分为短句,并将短句分词;基于预先训练完成的kenlm模型,利用kenlm模型对各个词打分,根据打分结果识别出网站所有子页面中包含的错别字词。本发明使用方便,用户只需提供需要监控的网站地址即可,按需求识别该网站相关子页面错别字。
申请人:江苏百达智慧网络科技有限公司
地址:215128 江苏省苏州市苏州工业园区若水路388号H214-2室
国籍:CN
代理机构:南京纵横知识产权代理有限公司
代理人:朱远枫

本文发布于:2024-09-20 15:16:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/766008.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:网站   爬取   地址   错别字   页面   利用   提供
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议