基于Lattice LSTM的古文领域命名实体识别方法和系统[发明专利]

专利名称:基于Lattice LSTM的古文领域命名实体识别方法和系统
专利类型:发明专利
发明人:刘秀磊,陈若愚,刘旭红,崔丹丹,李臻
申请号:CN202010454177.4
申请日:20200526
公开号:CN111738002A
公开日:
20201002
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于Lattice LSTM的古文领域命名实体识别方法、系统、电子设备及可读存储介质,其中,该方法包括:采用甲言分词对预训练古文数据进行分词;采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量;将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练,得到优化后的Lattice LSTM模型;将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。该方法采用甲言(jiayan)分词工具进行古文数据的分词,分词效果较好且符合语境,提高了古文分词的准确性;利用word2vec训练古文字、词向量,通过大量的文本获得质量更高的字词向量;将字向量和词向量共同作为Lattice LSTM模型的输入,提升了古文领域数据实体识别的效果。
申请人:北京信息科技大学
地址:100101 北京市朝阳区北四环中路35号
国籍:CN
代理机构:北京青松知识产权代理事务所(特殊普通合伙)
代理人:郑青松

本文发布于:2024-09-21 22:08:17,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/404711.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分词   训练   数据   知识产权   向量   北京   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议