2021年2月第2期Vol. 42 No. 2 2021
小型微型计算机系统
Journal of Chinese Computer Systems
孙鹏,彭敦陆
(上海理工大学光电信息与计算机工程学院,上海200093)
E-mail : pengdl@ usst. edu. cn
摘 要:人机对话中的情感识别对提升人机交互效率具有重要意义.当前,人机对话系统中的情感识别主要由特征提取和回归 两步完成.但是,通常这两个步骤是相互独立的,目标并不一致,难以判断提取的特征是否为合适的情感特征.再者,在特征融合 方面,传统方法仅将不同模态特征简单拼接,忽略了不同模态对分类结果形响的大小.针对以上问题,本文提出了 一种端到端的 对话情感识别模型E2E-CER,该模型将情感识别过程整合在一个统一的系统中.此外,还引入了基于
注意力机制的多模态融合 方法,提高了对上下文语境的学习能力,改善了动态特征融合效果.最后基于公共数据集EEMOCAP 进行情了感分类识别实验,
实验结果显示,同对话情感识别基线相比,所提模型表现明显高于平均水平,表明其在情感识别上的有效性.
关键词:端到端;多模态融合;情感识别;记忆网络;注意力机制中图分类号:TP391
文献标识码:A 文章编号:1000-1220(2021)02-0235-06
E2E-CER : END-TO-END Conversational Emotion Recognition Classification Model
SUN Peng,PENG Dun-lu
(School of Optical-Electrical and Computer Engineering , University of Shanghai for Science and Technology , Shanghai 200093 , China )
Abstract : The emotion recognition in human-machine dialogue is of great significance to improve the efficiency of human-machine in teraction. Currently , the emotion recognition in human-machine dialogue system is mainly completed by feature extraction and regres
sion. However,usually these two steps are independent of each other,their targets are not consistent ,it is difficult to judge whether the
extracted features are the appropriate emotional characteristics. In addition , in terms of feature fusion , different modal characteristics of
the traditional methods will only simple splicing , ignoring the different modal influence on the classification result. In view of the a- bove problem , this paper proposes E2E-CER : an end-to-end dialogue emotion recognition model , which integrates emotion recognition process in a unified system. Furthermore , we also introduce the multimodal fusion method based on attention mechanism , which im
proves the learning ability of context. Finally , based on the common data set IEMOCAP , the experiment on emotion classification and recognition was conducted. The experimental results show that compared with the baseline of conversation emotion recognition , the
proposed model is significantly higher than the average level , indicating its effectiveness in emotion recognition.
Key words : end-to-end ; multimode fusion ; emotional recognition ; memory network ; attention mechanism
1引言
开发具有情商的聊天机器人一直是人工智能的一个长期 目标⑴•近十年来,情感识别领域致力于理解情绪的声学表 现,并追求对语音内容更稳健的识别⑵.然而,随着此类系统 在移动设备上的普及,尤其是语音等实时对话软件的普
遍应用,用户对此类系统的期望值也有所提高.一个重要的表 征就是,人们期待机器能够理解对话中所携带的情感和意图, 并能够以一定的同理心做出回应,从而可以改善整个人机交
互体验.
然而,想要跟踪对话中的情感动态是一项较大的挑战.因 为对话人之间的情感是会被互相影响的,两者之间存在复杂
的依赖关系.根据Morris 和Keltner 的研究表明,对话中的情 感动态变化主要由两个因素影响:自我依赖和他人依赖⑶. 自我依赖也被称作情感惯性,指的是对话过程中自身对自身
造成的情感影响.他人依赖则指的是其他人的情感状态也会
引起自身的情感状态变化.因此,在对话过程中对话双方更倾 向于考虑对方的情感表达从而建立更融洽的对话情境.图1
中来自数据集的一段对话很好的印证了自我依赖和他人依赖
对情感动态的影响.然而现有的大多数对话系统只考虑到了 自身依赖.例如Better 提出的根据当前的会话推断情绪的上
下文无关系统.Poria 提出的利用长短时记忆网络(LSTM )对 上下文语境进行建模等⑷.
本文提出的E2E-CER 综合考虑到了上述的两种情感依
赖.可将本文的贡献可以总结为以下几点:
1) 本文提出了一种基于端到端的对话情感识别模型 E2E-CER,以原始数据作为输入,充分考虑了自我依赖和他人
依赖对情感检测的影响;
2) 本文针对语音和文本的多模态融合,提出了基于注意
力机制的融合方法,以不同模态数据对分类结果的贡献值不
收稿日期:2020-01-24收修改稿日期:2020Q2-20基金项目:国家自然科学基金项目(61772342,61703278)资助.作者简介:孙 鹏,男, 1993年生,硕士研究生,研究方向为自然语言处理;彭敦陆,男,1974年生,博士,教授,CCF 会员,研究方向为大数据管理、Web 数据管理、轨迹数 据压缩技术、自然语言处理.
236小型微型计算机系统2021年
同,为每种模态输出一个注意力评分,生成融合特征;
3)实验结果表明,该方法在IEMOCAP数据集上表现明
显高于基线模型平均水平.
2相关工作
多年以来,情感识别一直是一个跨学科的研究领域⑸.
这一领域的初步研究主要涉及视觉和听觉处理.随着Alm等
人的研究,文本在情感分析中的作用越来越明显W目前该
领域的研究主要是从多模态的角度,分析不同模态对识别结
果的影响,以获得更好的识别效果.由于最近在机器智能任务
中应用深度学习方法的激增,相关工作进一步证明了对话情
A birth certificate,a
certificate?【frustrated】
而且本文模型可扩展到多人会话中.
3端到端对话情感分类模型E2E-CER
本文提出的E2E-CER可以作为对话语音情感识别的通
用框架.网络完整的体系结构可以分为以下几个模块:多模态
特征提取,多模态融合,情绪语境建模,多跳记忆网络.如图3
所示.
3.1问题定义
由于本文研究的是二元对话,所以将对话双方分别表示
为乙和P b,U可以表示为对话双方在一组对话中的有序集
合,"={“[,“2,…,"畀,丁表示一段对话中有几句话.«f(«e
1,2,-,7)代表P。或者P”的发言,所以可将U中P”的发言
由集合/表示,/={u,\Ui e U\,其中坷是由P a说的话,P”
的发言由集合匕表示,/={叩",隹U},其中“,是由P”说
的话,且有U=U°UU».
u*Yeah.We keep it on file, but we need an ID to access
that file,[frustrated]Yes but my wallet was stolen,I don*t have anything.I don't have any credit cards,I don't have my ID. Don*t you have things on file here?【frustrated】-
:I don,t understand why this is11-----;--------'-----------------------iso complicated for people whenl lEat s out of control,[anger】i they get here.It's just a simple[
|form.I just need an ID.
'Langer1
表1当上下文窗口K=4时,历史会话集合
Table1Historical session collection when context window K=4 U国,琨,谄,哦,谄,喲
%Ub I«1,{谄,“?}
测试话语
HaEb W,咗},{谄,谄}
图1p”最终的情感受到了p b的影响
Fig.1P's final emotion is affected by P b
感识别率的显著提高.例如Han等人使用深度神经网络对话语层面的情绪进行建模⑷.Trigeorgis等人将卷积神经网络与长短时记忆相结合,学习到对原始数据更好的表示[,).Mirsa-madi等人使用基于注意力机制的CNN提取帧级特征实现语音情感识别虽然已有的工作对语音情感取得了较好的识别效果,但其建立的模型往往侧重于孤立地对语音段里的语音信息进行建模而忽略了考虑上下文对最终语音情感识别的影响.
因此在本文的研究中,着重考虑上下文中隐含的语境信息,通过注意力机制将上下文信息嵌入到声音表现中,以进一步提高语音对话中的情感识别.例如,Hazarika等人利用一个记忆网络模拟对话双方当前话语和历史话语的相关性实现情感语音识别[1,].Ruo等人提出了一种基于框架级声学特征的交互转换模型[切.虽然这些工作都有对语境信息进行建模,然而,这些研究使用的都是手工制作的特征或预处理特征作为输入的深度学习方法.其实深度神经网络应该能够自己提取这些特征,比如Marcel AJ等人采取了一种不同的方法,将原始音频和视频样本提供给网络⑴〕.然而,他们主要是为计算机视觉设计网络,没有进行任何调整或考虑不同模态的融合方式.
相比之下,本文提出的E2E-CER利用了一种新的基于端到端的深度学习方法,将原始数据作为输入,将最终的分类结果作为输出,能够自动地学习特征的最佳表示,不受任何由预处理引起的约束•另外.E
2E-CER的不同之处在于融合不同模态特征时引入了一个注意力机制,根据不同模态对最终情感分类的贡献值不同,为不同模态分别输出一个注意力评分.
本文的研究目的在于推测出当前对话中的语句情感.假设在一个时间步长卍[1,门,本文的模型需要推断的就是r 时刻话语的情感,也就是话语u,的情感.P”和P b的历史对话分别由H a和表示,将选取的历史对话上下文窗口设为K,则比={“川w[r-K,r-1],吗w如,同理凤={叩i w[f-K,t-l],u i£U b\,并且由1比丨+表1可以更清晰的看出当上下文窗口K=4时对话双方的历史对话表示.
托尔斯泰主义3.2语音文本特征提取
对于输入文本,先进行清洗和预处理,利用Tokenizer方法对文本分词,生成单词索引对,利用预先在谷歌新闻数据训练好的300维词嵌入.这使我们能够考虑到更多的上下文信息,然后进行匹配得到嵌入矩阵输入到CNN中.CNN的结构受到Kim 的启发“叫卷积层包括大小为3、4和5的过滤器,每个过滤器有50个特征图,再执行最大池化,滑动窗口大小为2x2.最后,利用由50个神经元组成的全连接层,激活函数为RELU,将激活值作为输出文本对话的特征,生成50维特征向量.
而音频通道关注的更多是语音中的声学和韵律信息,即非语言信息•端到端的方法直接采用语音原始波形作为输入,用一维向量表示,而不是常用的光谱图或手工调整的特征,因为CNN可以宜接从音频中自动提取相关特征皿).本文为了计算速度,将音频波形降采样到8kHz并标准化均值为0和方差为1.选取
32000个采样点,则输入向量长度为32000,设置第一个卷积层感受野为80,卷积步长为4,过滤器为256,然后通过一个池化层,池化窗口大小为4.第二个卷积层设感受野为3,过滤器为100,卷积步长为1,再通过第二个池化层,池化窗口为4,输出向量维度为(500,256),最后使用全局平均池化层平均256个特征映射,最终得到一个256维向量.
3.3多模态融合
同一个对象有不同的表现形式是很自然的事情.但是由
2期孙鹏等:E2E-CER:一种基于端到端的对话情感识别分类模型237
于不同模态的数据大小和表示方式不统一,很难直接集成.所以如何通过融合方法揭示模态之间的语义信息是很关键的问题.注意力机制能够将注意力集中在与分类结果最相关的部分,从而提高深度神经网络的性能但并不是所有的模态在情绪分类中都是同等重要的.以往的关于语音会话情绪的研究,对模态之间的融合只是简单的拼接,忽略了不同模态对情绪分类结果影响的大小.所以为了优先考虑重要的模态,本文引入了一个注意力网络,将音频和文本作为输入,并为每个模态输出一个注意力评分.
\1X3161X300
■卷积层+RELU
°!池化层
串联
旳全连接层+RELU
日全局平均池化
图2文本与语音特征处理过程
Fig.2Text and speech feature processing 在将文本和语音两种模态输入到注意力网络之前,通过一个全连接层将维数均衡到d=300,V=[匕,V」.其中V”表示语音特征,V,表示文本特征,VeR dx2.如图2所示.
注意力权重向量和融合后的多模态特征向量F计算方法如下:
P F=tanh(W F.V)(1)
a f=softmax〈w T F.P F)(2)
F=V.a;(3) 3.4会话记忆网络
为了对当前话语u,进行分类,需要先获取到对话双方的历史对话记录H a和,对话双方分别表示为匕和P”,同样用多模态特征向量表示疋,在对话部分建模的时候,分成三个部分,首先是将对话双方的历史对话利用GRU建模到记忆单元中,也就提供了会话的上下文信息,也称作语境建模.下一步为了考虑情感在对话过程中的传递性以及对话者之间情感的依赖性,引入了一个全局GRU,用来对全局的情绪状态进行建模.然后利用注意力机制将需要预测的当前话语与记忆单元匹配,生成一个注意力向量P e R k.最后利用一个多跳机制,不断迭代计算,根据注意力机制过滤出与话语“,相关的内容,每一跳的输出都会成为下一跳的输入.E2E-CER模型如图3所示.
3.4.1对话人GRU
本模块主要处理会话双方的历史对话弘和弘,利用GRU针对历史对话建模,尝试从中模拟出说话者的情感惯性.对于每句历史对话Mj<,e每一个GRU单元计算一个隐层状态,可定义为hj=GRU(hj_\,u),其中Ui表示测试话语,勺―表示之前的记忆状态.
5 W Q M 注意力融合
----)-
二二二
H-i
”讐
t\GRU b
多跳记忆网络
图3E2E-CER模型
Fig.3E2E-CER model
GRU是Cho等人(2014)引人的门控循环单元,在时间步j,GRU通过计算个门单元重置门和更新门今以及之前的状态勺"可得到隐层状态S”计算公式如下所示:
z j=a(V z x j+W z sj_i+b z)(4)
q=a(V r x j+W r s j_l+b r)(5)片=tanh(V r x j+〃(号“㊈弓)+b h)(6)
(7)上式中,输入y=Uj f Sj=hj.
3.4.2全局GRU
为了考虑情感在对话过程中的传递性和对话者之间情感的依赖性,引入了一个全局GRU对全局的情感状态进行建模,接受对话历史纪录GRU建模的输出作为输入,并在每个时间步上递归更新,将每个时间步的输出存储到一个记忆单元中.全局GRU的状态g k同样由当前输入和之前的状态计算得到,对于任意“[1,K],当前的输入会话为,之前的状态为,则全局状态g*可由下式计算得:
(GRU(此,U(t-K+k-1)G Ha
g k=<(8)
\GRU(h^b9g k_i)t if e H b
3.4.3网络输入输出
由全局GRU建模生成的记忆序列可表示为鈴品,•••,&]e R dxK.利用注意力机制从记忆库中读取记忆,将每个记忆单元m t e M和当前测试语句进行匹配,生成一个注意力向量标准化后的评分代表着记忆单元和测试语句的相关性.计算过程如下:
V a…=softmax{{Myu,)(9)上式中softmax^x t)=4/幼刃.式(9)得到的注意力评分可以计算出记忆单元的加权表示.
皿=汕(%)*•(%)="•%
(10)
238小型微型计算机系统2021年
最后通过将测试话语和记忆单元的加权表示合并进行更新:
u',=tanh{m+«,)(11)在本文中,还应用到了一个多跳机制,将记忆单元M作为输入重新生成序列M,,公式表示为M,=GR"(M),其中GRU的各项参数是互相共享的.则经过R跳后,测试会话表示为:
M(«+i)=tan^m R+u*)u(⑵再对R跳之后的测试话语向量“厂小利用softmax函数可以得到最终的预测:
0=softmax^+b°)(13)式(13)中,炉为转换矩阵,b。为偏置.为了更好的分类,一般将O的维数设定等于类C的数目,OeC.利用分类交叉嫡作为损失函数.伊通进修网站
楚辞 招魂Loss=-y-X11(Z j)(14)
式(14)中,N表示所有话语的数量是训练集中第i个话语的点热向量,%是预测属于j类的概率.
记忆网络可以用如下算法1概括:
算法1.多跳记忆网络算法
输入:预测话语,历史记忆,上下文窗口,跳数
输出:最后话语的情感分类结果
1.{u t,H a,H b,K,R)/预测幻的情感*/
2.感-GRU(HJ憾一G RU(H»)
协―疋UA^
3.for r in[1y R}do/*多跳机制*/
4.M("j M(一J
5.咋)softmax(()r u}r))
6.=£(%”">)*.(匹)=M")•%⑺
X=1
7.«S rtl)=tanA(m<r)+u;r))
&return O=softmax{W°u\R*1^+Z>°)
4实验
本文实验所选用的数据集为IEMOCAP,这是一个由多段二元对话组成的多模态数据集,包括10个对话人(5男5女),分成了五组,每组在多个不同的对话场景进行对话并为每段语句都被打上情感标签.本文为了能和之前的语音会话识别框架做比较,取愤怒、快乐、悲伤、中立、兴奋、沮丧六类做实验.使用14组的对话作为训练集,第5组的对话作为测试集.表2为具体数据集划分.
表2实验数据集分割
Table2Experimental data set segmentation 数据集分割文本对话数目音频数目IEMOCAP训练/校验集5810120
测试集162331
4.1实验参数
本文采用20%的训练集作为超参调优的验证集.使用Adam优化器优化参数〔⑷.初始学习率设为0.001.
使用准确率P(Precision)、召回率R(Recall),F1值(Fl-Score)以及微平均对模型做出评估,微平均的计算公式如下所示:
MicP=
MicR=
V.t sys^correct(emotion=i)
${sys_proposed(emotion=i)
X jSys+correct{emotion=z)
X igold(emotion=i)
(15)
(16)
(17)
_2xMicPxMicR
MicP+MicR
MicF\
式(17)i表示分类情绪,goM(emotion=i)表示样本标注情绪为i的数目,sys_correct(emotion=i)表示模型预测结果与标注结果一致的数目,sys_proposed(emotion=i)表示模型预测情绪为i的数目.
4.2实验结果与分析
本文一共进行了4组实验,第1组实验将本文提岀的端到端模型与非端到端模型进行对比.第2组实验将本文提出的模型与基线模型做比较.第3组实验验证了多模态特征的重要性.第4组实验反应了两个重要的超参数K(上下文窗口大小),R(跳数)取值不同对实验结果的影响.
表3E2E-CER模型实验结果
Table3E2E-CER model experiment results
情绪P R Fl
Happy0.2960.3340.328
Sad0.7060.7750.744
Neutral0.5990.6140.606
Angry0.6820.6800.682
Excited0.7220.6630.684
Frustrated0.7190.6210.662
微平均0.6510.6140.635
实验1.E2E-CER模型与非端到端模型的比较
为了验证端到端方法的有效性,同NAACL2018任务E-motion Recognition in Conversation结果做对比,该任务模型输入为TextCNN提取的文本特征向量和OpenSmile提取的音频特征向量.从表3的结果数据可以看出,本文提出的E2E-CER模型性能较好,相比表4非端到端模型的实验结果,其MicFl提高了3.8%.
表4对比模型实验结果
Table4Compare the results of model experiments
情绪P R Fl
Happy0.4760.2710.345
Sad0.7010.5840.661
Neutral0.5520.5940.572
Angry0.6330.6180.625
Excited0.6530.6350.644
Frustrated0.5610.7110.627
微平均0.6460.6010.621
图4可以更清晰的看出对比模型对各个类F1值的比较
2期孙鹏等:E2E-CER:一种基于端到端的对话情感识别分类模型239
结果.但是也可以发现,在对情绪分类时,唯独对happy这个
类的分类效果表现不够理想.从数据集来说,数据分布不平衡
可能是导致这种现象的主要原因.
实验2.与基线模型比较
本文将所提出的模型与当前对话情绪识别领域的基线模
型进行了比较,横轴为情绪分类,纵轴表示F1值.由图5可
知,本文提出的E2E-CER模型在各类情绪的F1值均明显高
于平均水平,与NAACL2018对话情感识别任务中第1名Di-
alogueRNN的分数接近,比第2名ICON分数略高,比第3名
CMN的F1值提高了7.3%,验证了本文方法的有效性.其中
添加了注意力模块的bc-LSTM模型表现相比bc-LSTM也有
所提升,再一次说明了注意力机制在对话情感识别中的重要
性,可以很好的模拟出上下文语境信息.
■memnet q ICON
图5对比基线模型实验结果
Fig.5Compare baseline model results
超声冲击
实验3.不同模态特征对模型性能的影响
从表5可以看出文本加音频特征的各项性能都比单模态
特征表现要好.而对于单模态特征,可以看出文本特征的表现
比音频特征要好,可能是因为相对于视听资源,文本的噪声信
号更少,因此在多模态方法中提供了更好的特征.也说明了文
本特征在多模态方法中的重要性.在融合方法方面,拼接是最
常用的融合方法之一,但可以从表5中看出,加入了注意力机
制的融合相比拼接融合提高了 1.7%,说明釆用注意力机制
进行融合可以进一步提高模型的性能.
表5不同模态及融合机制对MicFl值彫响
Table5Influence of different modes and
fusion mechanism on the experimental MicFl value
模态模型文本音频文本+音频
拼接融合文本+音频注意力融合
memnet0.4850.5150.590/
bc-LSTM0.5120.4090.549/
bc-LSTM+Att0.5510.4410.562/
CMN0.5810.4660.561/
ICON0.5720.4850.631/
DialogueRNN0.6110.5830.645/
E2E-CER0.5970.4920.6180.635
实验4.超参数值对模型性能的影响
从图6可以看出本文提出的模型在超参数K(上下文窗口)和R(跳数)的不同值下的性能趋势.图6(a)中,可以看出当R取值较小时准确率明显提高,体现了多跳机制在整个模型中的重要性•然而随着R值的进一步增加,每增加一跳都会产生一组新的参数,从而导致模型总参数的增加,使模型更容易发生过拟合,本文选取跳数为3时模型表现最好.上下文窗口大小的取值也很重要.随着K值不断增加,有更多的历史话语参与模型建模作为历史记忆,图6(b)中可以观察到当K值取40时,模型效果最好,但如果历史话语过多同样会导致模型性能饱和,从而导致模型的性能下降.
XXIX4图6R(跳数)和K(上下文窗口大小)
值变化时模型的性能趋势
Fig.6Trends of the model as R(number of hops)
and K(context window size)values change
5总结与展望
本文提出的端到端对话情感分类模型E2E-CER,利用端到端的方法对原始文本和原始波形进行处理,并在多模态融合过程中运用到注意力机制,考虑到了不同模态特征对分类结果的影响大小,对于对话双方的情感依赖性.利用一个记忆网络对其进行模拟,并通过多组对比实验,证明了本文方法的有效性.
对多模态对话情感分类的研究仍然可待拓展,例如针对主题的特定说话人的情感检测,多元对话,对话的讽刺性检测等都可以成为新的研究方向.
References:
[1]Hazarika D,Poria S.Conversational memory network for emotion
recognition in dyadic dialogue videos[C]//Human Language Technologies,2018:2122-2132.
[2]Wand Zhong-min,Liu Ge,Song Hui.Speech emotion recognition
method based on multiple kernel learning feature fusion[J].Computer Engineering,2019,45(8);248-254.
[3]Morris M,Keltner D.The social functions of emotional expression
in negotiations[J].Researchin Organizational Behavior,2000,22
(6):l-50.
[4]Bertero D, Siddique F.Real-time speech emotion and sentiment rec
ognition for interactive dialogue systems[C]//Proceedings of the 2016Conference on Empirical Methods in Natural Language Processing(EMNLP),2016:1042-1047.
[5]Chen Tian,Chen Zhan-gang,Yuan Xiao-hui,et al.Emotion recog
nition method based on instantaneous energy of electroencephalography[J].Computer Engineering,2019,45(4):196-204.
[6]Zhou Jin-feng,Ye Shi-ren,Wang Hui.Text sentiment classification
based on deep convolutional neural network model[J].Computer Engineering,2019,45(3):300-308.
[7]Alm C,Roth D.Emotions from text:machine learning for text-based
海与毒药
emotion prediction[C]//Natural Language Processing,2005:579-586.
[8]Han K,Yu D.Speech emotion recognition using deep neural net
work and extreme learning machine[C]//Conference of the International Speech Communication Association,2014:641-645.
[9]Shen Chang,Ji Jun-zhong.Text sentiment classification algorithm
based on double channel convolutional neural network[J].Pattern Recognition and Artificial Intelligence,2018,31(2):
158-166.