(12)发明专利说明书 | ||
(10)申请公布号 CN 114090775 A (43)申请公布日 2022.02.25 | ||
权利要求说明书 说明书 幅图 |
本发明属于网页文本处理领域,具体涉及一种基于BERT算法的网页有害文本识别方法及系统,所述识别方法包括:步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对初始文本进行文本整理,得到待识别文本集合;步骤3:将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;步骤4:对识别结果进行人工验证,并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本,利用已有的有害文本判断模型实现网页文本内容识别,同时还通过人工校正对有害文本判断模型进行训练更新,进一步提升有害文本判断模型的准确性。 | |
法律状态公告日 | 法律状态信息 | 法律状态 |
2022-02-25 | 公开 | 发明专利申请公布 |
2022-03-15 | 实质审查的生效IPC(主分类):G06F16/35专利申请号:2021113761617申请日:20211119 | 实质审查的生效 |
本文发布于:2024-09-24 12:22:28,感谢您对本站的认可!
本文链接:https://www.17tex.com/tex/1/402803.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |