发明人:赵忠华,孙小宁,李欣,万欣欣,袁钟怡,张小明申请号:CN201810636331.2
申请日:20180620
公开号:CN109033166A
公开日:
20181218
摘要:本发明公开了一种人物属性抽取训练数据集构建方法。首先,下载HTML页面中的文本数据内容,提取描述人物正文内容和属性信息的信息框数据,并进行编码存储和语句切分;然后,对切分后的语句,选取既包含人物名称、人物属性值内容的语句构建人物属性抽取语料数据集;最后,提取人物属性抽取语料数据集中的所有动词,基于信息熵的方法对所有动词进行排序,提取排名靠前的动词作为属性触发词,把人物属性抽取语料数据集中不包含属性触发词的语句删除掉,剩下的语句就组成了人物属性抽取训练数据集。本发明综合利用的网页数据采集、词性分析、词语信息熵计算等技术自动构建人物属性抽取训练数据集,对提高训练数据集构建的效率具有重要意义。
申请人:国家计算机网络与信息安全管理中心
地址:100029 北京市朝阳区裕民路甲3号
国籍:CN
代理机构:北京慧泉知识产权代理有限公司
代理人:李娜