上海电力大学学报
Jou nae of Shanghai Univesiey of Eeeeeie Powe 第36卷第4期2020年8月
VoL36,No.4Aug. 2020DOE 10.3969/j.issn.2096 -8299.2020.04.003
雷景生,钱叶mkdv-02
(上海电力大学计算机科学与技术学院,上海200082)
摘要:针对新闻文本分类方法中词向量的表示无法很好地保留字在句子中的信息及其多义性,利用知识增 强的语义表示(ERNE )预训练模型,根据上下文计算出字的向量表示,在保留该字上下文信息的同时也能根 据字的多义性进行调整,增强了字的语义表示。在ERNE 模型后增加了双向门限循环单元(BiGRU ),将训练 后的词向量作为BiGRU 的输入进行训练,得到文本分类结果。实验表明,该模型在新浪新闻的公开数据集 THUCNews 上的精确率为94.32%,召回率为94.12%,耳值为0.942 2,在中文文本分类任务中具有良好的性 能。
大阅兵2013我不喜欢有风的日子关键词:文本分类;利用知识增强的语义表示模型;双向门限循环单元模型;预训练模型;知识整合 中图分类号:TP391.1 文献标志码:A 文章编号:2096 -8299(2020)04 -0329 -07
Chinese-text Classification Method Based on ERNIE-BiGRU
吹来一缕春风LEI Jingsheng ,QIAN Ye
(School of Computer Science and Technology ,Shanghai University of Electric Power ,Shanghai 200082,China )Abstract : In the news text classification method ,the representation of word vectors cannot weH preserve the information of he words in he sentence and its ambinuity. Using ERNE p*e-Tained model ,the vector of words is calculated according to the context. While retaining the context infor mation of he word ,it can also be adjusted according h the ambiguity of the word ,which enhances 1heseman icrepresen aion of1heword.A BiGRU aayerisinnovaiveay added afer1heERNEE modea , and 1he rained word vec1orisused as 1he inpu1of 1he BiGRU for raining 1o ob ain 1heex1 caa s ificaion resua.Theexperimen sshow 1ha11heaccuracy of1hemodeaon 1hepubaicdaase1 THUCNewsofSinaNewsis 94. 32%,1heao s raeis 94. 12%,and 1he A 1 vaaueis 0. 9422 , which hasgood performancein Chinese ex1caa s ificaion asks.Key wor-s : text classification ; enhaned representhion through knowledge integration ; bidiree-ionaagaed recu r en1uni ; pre-rained modea ; knowaedgein egraion 文本分类是自然语言处理领域中非常重要的
詹姆斯 罗伯特一部分。其研究内容主要包括新闻文本的类别划
分和情感分析。得益于网络媒体的迅速发展,使 得该领域的研究具备海量文本数据的支持,这些 数据蕴含着丰富的信息。如何管理这些数据,并 从中准确高效地获取有价值的信息,这是目前很 多研究者关注的问题[1] &近年来,对于文本分类的研究已经取得了不 错的进展& PANG B 等人⑵利用词袋模型,结合 贝叶斯、最大爛、支持向量机等分类器对电影评论
收稿日期:2020-02-24
甲基四氢苯酐通信作者简介:钱叶(1994—),男,在读硕士&主要研究方向为自然语言处理& E-maU : 1320838950@ qq. com &