专利名称:基于Lattice LSTM的古文领域命名实体识别方法和系统
专利类型:发明专利
发明人:刘秀磊,陈若愚,刘旭红,崔丹丹,李臻
申请号:CN202010454177.4
申请日:20200526
公开号:CN111738002A
公开日:
20201002
摘要:本发明公开了一种基于Lattice LSTM的古文领域命名实体识别方法、系统、电子设备及可读存储介质,其中,该方法包括:采用甲言分词对预训练古文数据进行分词;采用word2vec模型对分词后的预训练古文数据进行预训练得到预训练的字词向量;将数据集数据和所述预训练的字词向量输入至Lattice LSTM模型中进行训练,得到优化后的Lattice LSTM模型;将待识别古文数据输入至优化后的Lattice LSTM模型进行命名实体识别。该方法采用甲言(jiayan)分词工具进行古文数据的分词,分词效果较好且符合语境,提高了古文分词的准确性;利用word2vec训练古文字、词向量,通过大量的文本获得质量更高的字词向量;将字向量和词向量共同作为Lattice LSTM模型的输入,提升了古文领域数据实体识别的效果。 申请人:北京信息科技大学
地址:100101 北京市朝阳区北四环中路35号
国籍:CN
代理机构:北京青松知识产权代理事务所(特殊普通合伙)
代理人:郑青松