基于ERNIE-BiGRU模型的中文文本分类方法

上海电力大学学报
Jou  nae  of  Shanghai  Univesiey  of  Eeeeeie  Powe 第36卷第4期2020年8月
VoL36,No.4Aug. 2020DOE  10.3969/j.issn.2096 -8299.2020.04.003
基于ERNIE-BiGRU 模型的中文文本分类方法
雷景生,钱叶mkdv-02
(上海电力大学计算机科学与技术学院,上海200082)
摘要:针对新闻文本分类方法中词向量的表示无法很好地保留字在句子中的信息及其多义性,利用知识增 强的语义表示(ERNE )预训练模型,根据上下文计算出字的向量表示,在保留该字上下文信息的同时也能根 据字的多义性进行调整,增强了字的语义表示。在ERNE 模型后增加了双向门限循环单元(BiGRU ),将训练 后的词向量作为BiGRU 的输入进行训练,得到文本分类结果。实验表明,该模型在新浪新闻的公开数据集 THUCNews 上的精确率为94.32%,召回率为94.12%,耳值为0.942 2,在中文文本分类任务中具有良好的性 能。
大阅兵2013我不喜欢有风的日子关键词:文本分类;利用知识增强的语义表示模型;双向门限循环单元模型;预训练模型;知识整合 中图分类号:TP391.1 文献标志码:A  文章编号:2096 -8299(2020)04 -0329 -07
Chinese-text  Classification  Method  Based  on  ERNIE-BiGRU
吹来一缕春风LEI  Jingsheng ,QIAN  Ye
(School  of  Computer  Science  and  Technology ,Shanghai  University  of  Electric  Power ,Shanghai  200082,China )Abstract : In  the  news  text  classification  method ,the  representation  of  word  vectors  cannot  weH preserve  the  information  of  he  words  in  he  sentence  and  its  ambinuity. Using  ERNE  p*e-Tained model ,the  vector  of  words  is  calculated  according  to  the  context. While  retaining  the  context  infor ­mation  of  he  word ,it  can  also  be  adjusted  according  h  the  ambiguity  of  the  word ,which  enhances  1heseman  icrepresen  aion  of1heword.A  BiGRU  aayerisinnovaiveay  added  afer1heERNEE  modea , and  1he  rained  word  vec1orisused  as  1he  inpu1of  1he  BiGRU  for  raining  1o  ob  ain  1heex1 caa s ificaion  resua.Theexperimen  sshow  1ha11heaccuracy  of1hemodeaon  1hepubaicdaase1 THUCNewsofSinaNewsis  94. 32%,1heao  s raeis  94. 12%,and  1he  A 1 vaaueis  0. 9422 , which  hasgood  performancein  Chinese  ex1caa s ificaion  asks.Key  wor-s : text  classification  ; enhaned  representhion  through  knowledge  integration  ; bidiree-ionaagaed  recu  r en1uni  ; pre-rained  modea ; knowaedgein  egraion 文本分类是自然语言处理领域中非常重要的
詹姆斯 罗伯特一部分。其研究内容主要包括新闻文本的类别划
分和情感分析。得益于网络媒体的迅速发展,使 得该领域的研究具备海量文本数据的支持,这些 数据蕴含着丰富的信息。如何管理这些数据,并 从中准确高效地获取有价值的信息,这是目前很 多研究者关注的问题[1] &近年来,对于文本分类的研究已经取得了不 错的进展& PANG  B 等人⑵利用词袋模型,结合 贝叶斯、最大爛、支持向量机等分类器对电影评论
收稿日期:2020-02-24
甲基四氢苯酐通信作者简介:钱叶(1994—),男,在读硕士&主要研究方向为自然语言处理& E-maU : 1320838950@ qq. com &

本文发布于:2024-09-23 13:26:56,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/256710.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   分类   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议