专利名称:一种数字人文知识图谱的构建方法
专利类型:发明专利
发明人:梁晨阳,段飞虎,吴璟,丁琨,成鑫,冯自强,张宏伟申请号:CN202010084140.7
申请日:20200210
公开号:CN111324742A
公开日:
20200623
专利内容由知识产权出版社提供
摘要:本发明公开了一种数字人文知识图谱的构建方法,包括:采用序列标注模型Bi‑LSTM+CRF 算法对文本数据进行实体识别并构建实体词典;把通过Bi‑LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体,并设置语料的实体标志位;对语料进行分类,用以抽取不同的信息;采用Bi‑LSTM+CRF模型进行关系识别,并抽取实体的关系;采用Bi‑LSTM+CRF模型进行属性识别,并抽取实体的属性。本发明用于抽取信息的语料为古代相关文献,既能确保数字人文知识图谱的准确性,又能高效的排除噪声数据对信息抽取的干扰;该方法在信息抽取的规划中,兼顾准确率、召回率以及效率。 申请人:同方知网(北京)技术有限公司,同方知网数字出版技术股份有限公司
地址:100084 北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室
国籍:CN
代理机构:北京天奇智新知识产权代理有限公司
代理人:王泽云