一种基于BERT算法的网页有害文本识别方法及系统

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 114090775 A (43)申请公布日 2022.02.25

(21)申请号 CN202111376161.7

(22)申请日 2021.11.19

(71)申请人国家计算机网络与信息安全管理中心广东分中心;天津市国瑞数码安全系统股份有限公司

地址 510075 广东省广州市天河区建中路4号

(72)发明人周小敏应鸿晖林国池石易麦丽娟莫凡林佳涛李高翔黄福鸿卓采标廖淑敏杨慧强宋宜昌黄正国周毅吴冠标李新蒋维曹勇高欢

(74)专利代理机构 11504 北京力量专利代理事务所(特殊普通合伙)

代理人王鸿远

(51)Int.CI

G06F16/35(20190101)

G06F16/33(20190101)

G06F16/951(20190101)

G06F16/957(20190101)

权利要求说明书说明书幅图

(54)发明名称

一种基于BERT算法的网页有害文本识别方法及系统

(57)摘要

本发明属于网页文本处理领域，具体涉及一种基于BERT算法的网页有害文本识别方法及系统，所述识别方法包括：步骤1：使用网络爬虫爬取网页原始内容，得到初始文本；步骤2：基于HTML协议对初始文本进行文本整理，得到待识别文本集合；步骤3：将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别，得到识别结果；步骤4：对识别结果进行人工验证，并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本，利用已有的有害文本判断模型实现网页文本内容识别，同时还通过人工校正对有害文本判断模型进行训练更新，进一步提升有害文本判断模型的准确性。

法律状态

法律状态公告日	法律状态信息	法律状态
2022-02-25	公开	发明专利申请公布
2022-03-15	实质审查的生效IPC(主分类):G06F16/35专利申请号:2021113761617申请日:20211119	实质审查的生效