一种基于BERT算法的网页有害文本识别方法及系统

(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 114090775 A
(43)申请公布日 2022.02.25
(21)申请号 CN202111376161.7
(22)申请日 2021.11.19
(71)申请人 国家计算机网络与信息安全管理中心广东分中心;天津市国瑞数码安全系统股份有限公司
    地址 510075 广东省广州市天河区建中路4号
(72)发明人 周小敏 应鸿晖 林国池 石易 麦丽娟 莫凡 林佳涛 李高翔 黄福鸿 卓采标 廖淑敏 杨慧强 宋宜昌 黄正国 周毅 吴冠标 李新 蒋维 曹勇 高欢
(74)专利代理机构 11504 北京力量专利代理事务所(特殊普通合伙)
    代理人 王鸿远
(51)Int.CI
      G06F16/35(20190101)
      G06F16/33(20190101)
      G06F16/951(20190101)
      G06F16/957(20190101)
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种基于BERT算法的网页有害文本识别方法及系统
(57)摘要
      本发明属于网页文本处理领域,具体涉及一种基于BERT算法的网页有害文本识别方法及系统,所述识别方法包括:步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对初始文本进行文本整理,得到待识别文本集合;步骤3:将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;步骤4:对识别结果进行人工验证,并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本,利用已有的有害文本判断模型实现网页文本内容识别,同时还通过人工校正对有害文本判断模型进行训练更新,进一步提升有害文本判断模型的准确性。
法律状态
法律状态公告日
法律状态信息
法律状态
2022-02-25
公开
发明专利申请公布
2022-03-15
实质审查的生效IPC(主分类):G06F16/35专利申请号:2021113761617申请日:20211119
实质审查的生效
权 利 要 求 说 明 书
【一种基于BERT算法的网页有害文本识别方法及系统】的权利说明书内容是......
说  明  书
【一种基于BERT算法的网页有害文本识别方法及系统】的说明书内容是......

本文发布于:2024-09-24 12:22:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/402803.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   识别   网页   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议