一种人物属性抽取训练数据集构建方法[发明专利]

专利名称:一种人物属性抽取训练数据构建方法专利类型:发明专利
发明人:赵忠华,孙小宁,李欣,万欣欣,袁钟怡,张小明申请号:CN201810636331.2
申请日:20180620
公开号:CN109033166A
公开日:
20181218
专利内容由知识产权出版社提供
摘要:本发明公开了一种人物属性抽取训练数据集构建方法。首先,下载HTML页面中的文本数据内容,提取描述人物正文内容和属性信息的信息框数据,并进行编码存储和语句切分;然后,对切分后的语句,选取既包含人物名称、人物属性值内容的语句构建人物属性抽取语料数据集;最后,提取人物属性抽取语料数据集中的所有动词,基于信息熵的方法对所有动词进行排序,提取排名靠前的动词作为属性触发词,把人物属性抽取语料数据集中不包含属性触发词的语句删除掉,剩下的语句就组成了人物属性抽取训练数据集。本发明综合利用的网页数据采集、词性分析、词语信息熵计算等技术自动构建人物属性抽取训练数据集,对提高训练数据集构建的效率具有重要意义。
申请人:国家计算机网络与信息安全管理中心
地址:100029 北京市朝阳区裕民路甲3号
国籍:CN
代理机构:北京慧泉知识产权代理有限公司
代理人:李娜

本文发布于:2024-09-22 16:51:58,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/449773.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   人物属性   抽取   构建   内容   训练   语句   北京市
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议