E2E-CER一种基于端到端的对话情感识别分类模型

2021年2月第2期Vol. 42 No. 2 2021
小型微型计算机系统
Journal  of  Chinese  Computer  Systems
E2E-CER : 一种基于端到端的对话情感识别分类模型
孙鹏,彭敦陆
(上海理工大学光电信息与计算机工程学院,上海200093)
E-mail : pengdl@ usst. edu. cn
摘 要:人机对话中的情感识别对提升人机交互效率具有重要意义.当前,人机对话系统中的情感识别主要由特征提取和回归 两步完成.但是,通常这两个步骤是相互独立的,目标并不一致,难以判断提取的特征是否为合适的情感特征.再者,在特征融合 方面,传统方法仅将不同模态特征简单拼接,忽略了不同模态对分类结果形响的大小.针对以上问题,本文提出了 一种端到端的
对话情感识别模型E2E-CER,该模型将情感识别过程整合在一个统一的系统中.此外,还引入了基于
注意力机制的多模态融合 方法,提高了对上下文语境的学习能力,改善了动态特征融合效果.最后基于公共数据集EEMOCAP 进行情了感分类识别实验,
实验结果显示,同对话情感识别基线相比,所提模型表现明显高于平均水平,表明其在情感识别上的有效性.
关键词:端到端;多模态融合;情感识别;记忆网络;注意力机制中图分类号:TP391
文献标识码:A  文章编号:1000-1220(2021)02-0235-06
E2E-CER : END-TO-END  Conversational  Emotion  Recognition  Classification  Model
SUN  Peng,PENG  Dun-lu
(School  of  Optical-Electrical  and  Computer  Engineering , University  of  Shanghai  for  Science  and  Technology , Shanghai  200093 , China )
Abstract : The  emotion  recognition  in  human-machine  dialogue  is  of  great  significance  to  improve  the  efficiency  of  human-machine  in ­teraction. Currently , the  emotion  recognition  in  human-machine  dialogue  system  is  mainly  completed  by  feature  extraction  and  regres ­
sion. However,usually  these  two  steps  are  independent  of  each  other,their  targets  are  not  consistent ,it  is  difficult  to  judge  whether  the
extracted  features  are  the  appropriate  emotional  characteristics. In  addition , in  terms  of  feature  fusion , different  modal  characteristics  of
the  traditional  methods  will  only  simple  splicing , ignoring  the  different  modal  influence  on  the  classification  result. In  view  of  the  a- bove  problem , this  paper  proposes  E2E-CER : an  end-to-end  dialogue  emotion  recognition  model , which  integrates  emotion  recognition  process  in  a  unified  system. Furthermore , we  also  introduce  the  multimodal  fusion  method  based  on  attention  mechanism , which  im ­
proves  the  learning  ability  of  context. Finally , based  on  the  common  data  set  IEMOCAP , the  experiment  on  emotion  classification  and  recognition  was  conducted. The  experimental  results  show  that  compared  with  the  baseline  of  conversation  emotion  recognition , the
proposed  model  is  significantly  higher  than  the  average  level , indicating  its  effectiveness  in  emotion  recognition.
Key  words : end-to-end  ; multimode  fusion ; emotional  recognition  ; memory  network  ; attention  mechanism
1引言
开发具有情商的聊天机器人一直是人工智能的一个长期 目标⑴•近十年来,情感识别领域致力于理解情绪的声学表 现,并追求对语音内容更稳健的识别⑵.然而,随着此类系统 在移动设备上的普及,尤其是语音等实时对话软件的普
遍应用,用户对此类系统的期望值也有所提高.一个重要的表 征就是,人们期待机器能够理解对话中所携带的情感和意图, 并能够以一定的同理心做出回应,从而可以改善整个人机交
互体验.
然而,想要跟踪对话中的情感动态是一项较大的挑战.因 为对话人之间的情感是会被互相影响的,两者之间存在复杂
的依赖关系.根据Morris 和Keltner 的研究表明,对话中的情 感动态变化主要由两个因素影响:自我依赖和他人依赖⑶. 自我依赖也被称作情感惯性,指的是对话过程中自身对自身
造成的情感影响.他人依赖则指的是其他人的情感状态也会
引起自身的情感状态变化.因此,在对话过程中对话双方更倾 向于考虑对方的情感表达从而建立更融洽的对话情境.图1
中来自数据集的一段对话很好的印证了自我依赖和他人依赖
对情感动态的影响.然而现有的大多数对话系统只考虑到了 自身依赖.例如Better 提出的根据当前的会话推断情绪的上
下文无关系统.Poria 提出的利用长短时记忆网络(LSTM )对 上下文语境进行建模等⑷.
本文提出的E2E-CER 综合考虑到了上述的两种情感依
赖.可将本文的贡献可以总结为以下几点:
1) 本文提出了一种基于端到端的对话情感识别模型 E2E-CER,以原始数据作为输入,充分考虑了自我依赖和他人
依赖对情感检测的影响;
2) 本文针对语音和文本的多模态融合,提出了基于注意
力机制的融合方法,以不同模态数据对分类结果的贡献值不
收稿日期:2020-01-24收修改稿日期:2020Q2-20基金项目:国家自然科学基金项目(61772342,61703278)资助.作者简介:孙 鹏,男, 1993年生,硕士研究生,研究方向为自然语言处理;彭敦陆,男,1974年生,博士,教授,CCF 会员,研究方向为大数据管理、Web 数据管理、轨迹数 据压缩技术、自然语言处理.
236小型微型计算机系统2021年
同,为每种模态输出一个注意力评分,生成融合特征;
3)实验结果表明,该方法在IEMOCAP数据集上表现明
显高于基线模型平均水平.
2相关工作
多年以来,情感识别一直是一个跨学科的研究领域⑸.
这一领域的初步研究主要涉及视觉和听觉处理.随着Alm等
人的研究,文本在情感分析中的作用越来越明显W目前该
领域的研究主要是从多模态的角度,分析不同模态对识别结
果的影响,以获得更好的识别效果.由于最近在机器智能任务
中应用深度学习方法的激增,相关工作进一步证明了对话情
A birth certificate,a
因此在本文的研究中,着重考虑上下文中隐含的语境信息,通过注意力机制将上下文信息嵌入到声音表现中,以进一步提高语音对话中的情感识别.例如,Hazarika等人利用一个记忆网络模拟对话双方当前话语和历史话语的相关性实现情感语音识别[1,].Ruo等人提出了一种基于框架级声学特征的交互转换模型[切.虽然这些工作都有对语境信息进行建模,然而,这些研究使用的都是手工制作的特征或预处理特征作为输入的深度学习方法.其实深度神经网络应该能够自己提取这些特征,比如Marcel AJ等人采取了一种不同的方法,将原始音频和视频样本提供给网络⑴〕.然而,他们主要是为计算机视觉设计网络,没有进行任何调整或考虑不同模态的融合方式.
为了对当前话语u,进行分类,需要先获取到对话双方的历史对话记录H a和,对话双方分别表示为匕和P”,同样用多模态特征向量表示疋,在对话部分建模的时候,分成三个部分,首先是将对话双方的历史对话利用GRU建模到记忆单元中,也就提供了会话的上下文信息,也称作语境建模.下一步为了考虑情感在对话过程中的传递性以及对话者之间情感的依赖性,引入了一个全局GRU,用来对全局的情绪状态进行建模.然后利用注意力机制将需要预测的当前话语与记忆单元匹配,生成一个注意力向量P e R k.最后利用一个多跳机制,不断迭代计算,根据注意力机制过滤出与话语“,相关的内容,每一跳的输出都会成为下一跳的输入.E2E-CER模型如图3所示.
超声冲击
实验3.不同模态特征对模型性能的影响
从表5可以看出文本加音频特征的各项性能都比单模态
特征表现要好.而对于单模态特征,可以看出文本特征的表现
比音频特征要好,可能是因为相对于视听资源,文本的噪声信
号更少,因此在多模态方法中提供了更好的特征.也说明了文
本特征在多模态方法中的重要性.在融合方法方面,拼接是最
常用的融合方法之一,但可以从表5中看出,加入了注意力机
制的融合相比拼接融合提高了  1.7%,说明釆用注意力机制
进行融合可以进一步提高模型的性能.
表5不同模态及融合机制对MicFl值彫响
Table5Influence of different modes and
fusion mechanism on the experimental MicFl value
模态模型文本音频文本+音频
拼接融合文本+音频注意力融合
memnet0.4850.5150.590/
bc-LSTM0.5120.4090.549/
bc-LSTM+Att0.5510.4410.562/
CMN0.5810.4660.561/
ICON0.5720.4850.631/
DialogueRNN0.6110.5830.645/
E2E-CER0.5970.4920.6180.635
实验4.超参数值对模型性能的影响
从图6可以看出本文提出的模型在超参数K(上下文窗口)和R(跳数)的不同值下的性能趋势.图6(a)中,可以看出当R取值较小时准确率明显提高,体现了多跳机制在整个模型中的重要性•然而随着R值的进一步增加,每增加一跳都会产生一组新的参数,从而导致模型总参数的增加,使模型更容易发生过拟合,本文选取跳数为3时模型表现最好.上下文窗口大小的取值也很重要.随着K值不断增加,有更多的历史话语参与模型建模作为历史记忆,图6(b)中可以观察到当K值取40时,模型效果最好,但如果历史话语过多同样会导致模型性能饱和,从而导致模型的性能下降.
XXIX4图6R(跳数)和K(上下文窗口大小)
值变化时模型的性能趋势
Fig.6Trends of the model as R(number of hops)
and K(context window size)values change
5总结与展望
本文提出的端到端对话情感分类模型E2E-CER,利用端到端的方法对原始文本和原始波形进行处理,并在多模态融合过程中运用到注意力机制,考虑到了不同模态特征对分类结果的影响大小,对于对话双方的情感依赖性.利用一个记忆网络对其进行模拟,并通过多组对比实验,证明了本文方法的有效性.
对多模态对话情感分类的研究仍然可待拓展,例如针对主题的特定说话人的情感检测,多元对话,对话的讽刺性检测等都可以成为新的研究方向.
References:
[1]Hazarika D,Poria S.Conversational memory network for emotion
recognition in dyadic dialogue videos[C]//Human Language Technologies,2018:2122-2132.
[2]Wand Zhong-min,Liu Ge,Song Hui.Speech emotion recognition
method based on multiple kernel learning feature fusion[J].Com­puter Engineering,2019,45(8);248-254.
[3]Morris M,Keltner D.The social functions of emotional expression
in negotiations[J].Researchin Organizational Behavior,2000,22
(6):l-50.
[4]Bertero D, Siddique F.Real-time speech emotion and sentiment rec­
ognition for interactive dialogue systems[C]//Proceedings of the 2016Conference on Empirical Methods in Natural Language Pro­cessing(EMNLP),2016:1042-1047.
[5]Chen Tian,Chen Zhan-gang,Yuan Xiao-hui,et al.Emotion recog­
nition method based on instantaneous energy of electroencephalo­graphy[J].Computer Engineering,2019,45(4):196-204.
[6]Zhou Jin-feng,Ye Shi-ren,Wang Hui.Text sentiment classification
based on deep convolutional neural network model[J].Computer Engineering,2019,45(3):300-308.
[7]Alm C,Roth D.Emotions from text:machine learning for text-based
海与毒药
emotion prediction[C]//Natural Language Processing,2005:579-586.
[8]Han K,Yu    D.Speech emotion recognition using deep neural net­
work and extreme learning machine[C]//Conference of the Inter­national Speech Communication Association,2014:641-645.
[9]Shen Chang,Ji Jun-zhong.Text sentiment classification algorithm
based on double channel convolutional neural network[J].Pattern Recognition and Artificial Intelligence,2018,31(2):
158-166.

本文发布于:2024-09-22 01:00:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/7065.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:对话   情感   模型   模态   特征   识别   注意力
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议