一种基于多模态的情感分类方法、装置、设备及存储介质与流程



1.本发明涉及人工智能领域,尤其涉及一种基于多模态的情感分类方法、装置、设备及存储介质。


背景技术:



2.随着社交网络的持续发展,表达情感的形式也愈发多元,传统单一的情感识别模型,如仅仅使用语音信号的时域、频域以及相关联特性来表征情感,已经不足以鉴别复杂的情感信息。因而,使用多模态情感识别成为应对复杂的情感的一种有力识别手段,多模态情感识别中包含由更多信息,如在语音信号中,加入文本信息可以传达出更加丰富的情感,捕获更多可能蕴含在语音之中的信息。
3.现有的多模态情感识别一般通过构建不同的子模型来捕获不同模态数据对应的情感特征,最后对不同的情感特征进行融合,而在此过程中,不同模态之间的关联性和交互性较弱,从而影响了多模态对情感分类的准确度。因此,如何增强不同模态之间的交互性,以提高多模态对情感分类的准确度成为亟待解决的问题。


技术实现要素:



4.基于此,有必要针对上述技术问题,提供一种基于多模态的情感分类方法、装置、设备及存储介质,以解决多模态对情感分类准确度较低的问题。
5.第一方面,提供一种基于多模态的情感分类方法,所述方法包括:
6.提取语音信息中的语音特征与文本特征,得到所述语音信息对应的语音特征序列与所述语音信息对应的文本特征序列;所述语音特征序列包括至少一段语音对应的特征向量;所述文本特征序列包括至少一段文本对应的特征向量;
7.使用预设的第一双向长短期记忆模型对所述语音特征序列进行编码处理,得到所述语音特征序列对应的语音隐藏特征序列,使用预设的第二双向长短期记忆模型对所述文本特征序列进行编码处理,得到所述文本特征序列对应的文本隐藏特征序列;
8.计算所述语音隐藏特征序列中的每个特征与所述文本隐藏特征序列中的任意特征之间的注意力权值,利用所述注意力权值,更新语音隐藏特征序列,得到目标特征序列;所述目标特征序列的长度与所述文本隐藏特征序列长度相同;
9.将所述目标特征序列中的特征,与所述文本隐藏特征序列中的对应特征进行特征融合,得到融合特征,将所述融合特征输入至全连接层,得到所述语音信息的情感分类结果。
10.第二方面,提供一种基于多模态的情感分类装置,所述装置包括:
11.语音特征序列与文本特征序列提取模块,用于提取语音信息中的语音特征与文本特征,得到所述语音信息对应的语音特征序列与所述语音信息对应的文本特征序列;所述语音特征序列包括至少一段语音对应的特征向量;所述文本特征序列包括至少一段文本对应的特征向量;
12.隐藏特征序列提取模块,用于使用预设的第一双向长短期记忆模型对所述语音特征序列进行编码处理,得到所述语音特征序列对应的语音隐藏特征序列,使用预设的第二双向长短期记忆模型对所述文本特征序列进行编码处理,得到所述文本特征序列对应的文本隐藏特征序列;
13.注意力权值获取模块,用于计算所述语音隐藏特征序列中的每个特征与所述文本隐藏特征序列中的任意特征之间的注意力权值,利用所述注意力权值,更新语音隐藏特征序列,得到目标特征序列;所述目标特征序列的长度与所述文本隐藏特征序列长度相同;
14.分类模块,用于将所述目标特征序列中的特征,与所述文本隐藏特征序列中的对应特征进行特征融合,得到融合特征,将所述融合特征输入至全连接层,得到所述语音信息的情感分类结果。
15.第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于多模态的情感分类方法。
16.第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于多模态的情感分类方法。
17.本发明与现有技术相比存在的有益效果是:
18.提取语音信息中的语音特征与文本特征,得到语音信息对应的语音特征序列与语音信息对应的文本特征序列,语音特征序列包括至少一段语音对应的特征向量;文本特征序列包括至少一段文本对应的特征向量,使用预设的第一双向长短期记忆模型对语音特征序列进行编码处理,得到语音特征序列对应的语音隐藏特征序列,使用预设的第二双向长短期记忆模型对文本特征序列进行编码处理,得到文本特征序列对应的文本隐藏特征序列,计算语音隐藏特征序列中的每个特征与文本隐藏特征序列中的任意特征之间的注意力权值,利用注意力权值,更新语音隐藏特征序列,得到目标特征序列;目标特征序列的长度与文本隐藏特征序列长度相同,将目标特征序列中的特征,与文本隐藏特征序列中的对应特征进行特征融合,得到融合特征,将融合特征输入至全连接层,得到语音信息的情感分类结果,对语音特征序列与文本特征序列进行交互处理,得到语音特征序列与文本特征序列中对应特征的注意力权值,通过注意力权值增加语音特征与文本特征之间的关联性,从而得到更准确的融合特征,进而提高了情感分类的准确度。
附图说明
19.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
20.图1是本发明一实施例提供的一种基于多模态的情感分类方法的一应用环境示意图;
21.图2是本发明一实施例提供的一种基于多模态的情感分类方法的流程示意图;
22.图3是本发明一实施例提供的一种基于多模态的情感分类置的结构示意图;
23.图4是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
24.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
26.还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
27.如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0028]
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0029]
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0030]
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0031]
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
[0032]
本发明一实施例提供的一种基于多模态的情感分类方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、个人数字助理(personal digital assistant,pda)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集来实现。
[0033]
参见图2,是本发明一实施例提供的一种基于多模态的情感分类方法的流程示意图,上述基于多模态的情感分类方法可以应用于图1中的服务端,上述服务端连接相应的客户端,为客户端提供基于多模态的情感分类管理服务。如图2所示,该基于多模态的情感分类方法可以包括以下步骤:
[0034]
s201:提取语音信息中的语音特征与文本特征,得到语音信息对应的语音特征序列与语音信息对应的文本特征序列。
[0035]
在步骤s201中,从语音信息中分别提取语音特征与文本特征,语音特征序列包括至少一段语音对应的特征向量;文本特征序列包括至少一段文本对应的特征向量,语音特征序列包括每一语音帧的特征向量,文本特征序列包括每个词的词向量。
[0036]
本实施例中,通过声学模型提取语音信息中的语音特征,得到语音特征序列,其中声学模型是对声学、语音学、环境的变量、说话人性别、口音的差异化的知识表示,包括基于隐马尔可夫(hidden markov model,hmm)的声学模型,例如混合高斯-隐马尔可夫模型(gmm-hmm)和深度神经网络-隐马尔可夫模型(dnn-hmm)表示,隐马尔可夫模型是一个离散时域的加权有限状态自动机。当然,还可以包括端到端的声学模型,例如连续时序分类-长短时记忆(ctc-lstm)模型和注意力(attention)模型。声学模型的每个状态表示语音单元(例如词、音节和因素等)的语音特征在该状态的概率分布,通过状态与状态之间的转移连接成一个有序的状态序列,即得到一段语音信息的语音特征序列。
[0037]
通过语言模型提取语音信息的文本特征,得到文本特征序列,对语音新机型编码处理,提取对应的语音特征,将多组语音特征输入至语言模型中,语言模型用于估计每组可能的语音的概率(或者说合理性),从多组可能的语音特征中确定概率最大的一组特征向量,概率最大的一组特征向量对应的文本序列最符合语法规则。最后语言模型基于发音词典获得最佳特征向量对应的文本序列,将该文本序列作为语音信息对应的文本特征序列。
[0038]
需要说明的是,声学模型包括但不限于基于gmm-hmm的声学模型、基于dnn-hmm的声学模型、基于rnn-hmm的声学模型、基于cnn-hmm的声学模型等混合声学模型,连续时序分类-长短时记忆模型ctc-lstm、注意力模型等端到端的声学模型。对于声学模型的选取,本发明实施例不做任何限制。语言模型包括但不限于统计语言模型和神经网络语言模型。经典的统计语言模型包括n-gram语言模型。对于语言模型的选取,本发明实施例不做任何限制。
[0039]
可选地,提取语音信息中的语音特征与文本特征,得到语音信息对应的语音特征序列与语音信息对应的文本特征序列,包括:
[0040]
提取语音信息的时域特征,并将时域特征转化为频域特征,得到语音信息的语音特征序列;
[0041]
使用预设的预训练模型,对文本特征进行训练,得到文本特征对应的目标文本特征序列。
[0042]
本实施例中,在提取语音特征序列时,通过提取语音信息的时域特征与频域特征,得到语音特征序列,将时域特征转换为固定窗口的帧数,例如,可以对涉及多段对象的语音信息样本进行分帧处理,得到多个语音帧,将该多个语音帧根据时间顺序依次排列,得到涉及多段对象的语音帧序列。或者,可以在得到多个语音帧后,基于预定采样间隔,对该多个语音帧进行采样,将采样得到的语音帧按时间顺序排列,从而得到语音帧序列。从语音帧序列中确定出固定窗口对应的帧数,其中,预定采样间隔大于等于1帧。通过对语音帧进行采样,可以在保证训练精度的同时减少计算量。这是由于通常一个文字的发音会持续多个语音帧。将分帧处理的得到的进行加窗处理窗口化过程中,最小化了在帧的开始和结束时出现的中断。在此过程之后,连续语音信息被转换为加窗帧。这些窗口帧被传递到离散傅里叶变换器,该变换器将加窗帧转换为频域特征,通过频域特征计算梅尔频率倒谱系数(mel-frequency cepstral coefficien ts,mfccs)得到语音特征向量,根据语音特征向量得到
语音特征序列。
[0043]
本实施例中,通过前馈神经网络模型得到语音信息对应的文本特征,其中,前馈神经网络模型中,历史信息的表示方法与n-gram语言模型,采用前n-1个词表示。
[0044]
需要说明的是,获取文本特征时,也可以使用循环神经网络语言模型提取语音信息中文本特征,循环神经网络语言模型与前馈神经网络语言模型的主要区别在乎对词的历史信息采用不同的表示方法。循环神经网络模型则通过隐含层的不断循环,并对其进行学习来获得历史信息,在循环神经网络中,隐含层可表示的历史信息而不仅是前n-1词,这种模型理论上可w表示更长的上下文信息。
[0045]
本实施例中,得到语音信息对应的文本特征后,通过预设的预训练模型对文本特征进行训练,得到文本特征序列。预训练模型为将文本特征转化为嵌入向量。在预训练模型中往往模型在大规模数据集上完成多个预训练任务后,其抽取特征的部分的能力非常强,以至可以适应更多复杂的任务,这一个阶段便称为微调阶段,微调阶段只需要针对不同的任务更换网络的分类器,非常方便。得益于庞大的预训练数据和多种预训练任务的锻炼,模型具有非常强的泛化性,使得微调任务的精度被大幅提升预训练模型是在庞大的数据集上使用特定的目标任务训练网络中提取特征的部分,由于模型中大部分参数已经无需训练,所以微调阶段模型的收敛速度非常快。
[0046]
可选地,使用预设的预训练模型,对文本特征进行训练,得到文本特征对应的目标文本特征序列,包括:
[0047]
使用预设的预训练模型,对文本特征进行训练,得到初始文本特征序列;
[0048]
通过mask机制,对初始文本特征序列进行补充处理,得到目标文本特征序列。
[0049]
本实施例中,使用的预训练模型为bert预训练模型,由transformer的双向编码器表示。bert在通过联合调节所有层中的上下文来预先训练深度双向表示,主要运用了transformer的encoder。bert预训练模型通过对大量语料的训练,对所有层的上下左右的文本信息进行提取,实现文本的双向表示。由于其对上下文、单词、句子等做了详细的提取,所以其得到的词向量是动态的,保证了同一个单词在不同语言环境内所获得的词向量是不同的,可以更好的表达单词、句子和上下文之间的关系。
[0050]
bert预训练模型的输入特征表示由词嵌入、片段嵌入、位置嵌入三部分组成,最终输入模型的向量表示由它们的对应位置相加得到的。例如,词嵌入的矩阵维度为[4,768],片段嵌入的矩阵维度是[3,768],位置嵌入的矩阵维度为[2,768],对于一个字,其词的独热编码为[1,0,0,0],位置的独热编码为[1,0,0],片段的独热编码为[1,0]。把三个独热编码合并后的特征为[1,0,0,0,1,0,0,1,0],将其通过维度为[4+3+2,768]=[9,768]的全连接层,所得到的词向量等价于三个矩阵维度相加所得到词向量。因此,bert与训练模型采用对三个维度进行求和所得到的词向量作为模型的输入。bert预训练模学习到融合后特征的文本语义信息,有利于模型的训练,提升模型的准确度。
[0051]
通过bert预训练模型,得到文本特征对应的嵌入词向量,在一段文本中,由词向量构成词向量序列,得到初始文本特征序列。
[0052]
初始文本序列的长度为一段对话中的句子个数,当一段对话中的句子个数不同时,得到初始文本特征序列的长度不同,为了得到定长的文本特征序列,对初始文本特征进行不定长序列处理,补齐初始文本特征序列中长度较短的序列,使用mask机制进行补齐,对
文本特征序列中长度较短的序列使用0进行补齐。首先从得到的多个文本特征序列中查询得到长度最长的文本特征序列,该文本特征序列的长度作为模板长度,将其余的文本特征序列中使用0进行补齐得到目标文本特征序列,假设有一个长度为5的向量:x=[1,9,3,4,5],将该向量序列使用mask机制补齐到长度位为8的向量,则得到x=[1,9,3,4,5,0,0,0]。
[0053]
可选地,使用预设的预训练模型,对文本特征进行训练,得到初始文本特征序列,包括:
[0054]
对文本特征进行分词处理,得到文本特征对应的分词数据;
[0055]
使用预设的预训练模型,对分词数据进行训练,得到始文本特征序列。
[0056]
本实施例中,对文本特征进行训练时,一般文本特征包含多个语句,一个语句又包含多个词语,与训练模型是对词语向量的训练,所以将文本特征进行分词处理,得到对应的分次数据。
[0057]
分词处理时,对于英文文本可以按照其空格进行分词,对于中文文本可以,它是将文本内容中的字符串与分词词典进行比对,通过对比如果词典中含有该字符串,那么字符串与词语匹配成功,则在字符串的两端进行切分,反之不切分。该方法一般基于一个非常大的分词词典之上,如果该分词词典不足或者有误,则分词效果将会大大降低。基于统计分词算法主要有n元文法模型和隐马尔科夫模型,它们是基于语句中相邻字符出现的频率进行工作,跟据频率的大小判断两个字符是不是同一个词。这种方法能够将文本中的所有字符进行切分,属于全切分的方法。本实施例中使用两者相结合的方法对文本特征进行分词处理,得到分词数据。
[0058]
使用预训练模型对分词数据进行训练时,通过增加特征字符来区分每一个句子,每一句子首位添加上一个特殊标记[cls],对被作为是整个句子或句子对的表征。这个特殊标记[cls]虽然会参加序列的编码,但最终输出会被忽略掉,所以预训练模型会把一段文本特征打包为单一的句子来处理。通过预训练模型的预训练便可以得到文本特征所对应的词向量,从而得到包含词向量的文本特征序列。
[0059]
s202:使用预设的第一双向长短期记忆模型对语音特征序列进行编码处理,得到语音特征序列对应的语音隐藏特征序列,使用预设的第二双向长短期记忆模型对文本特征序列进行编码处理,得到文本特征序列对应的文本隐藏特征序列。
[0060]
在步骤s202中,提取语音特征序列与文本特征序列中的隐藏特征序列,隐藏特征序列将语音特征序列与文本特征序列抽象化,表示了语音特征序列与文本特征序列在不同时刻的状态。
[0061]
本实施例中分别使用第一双向长短期记忆模型与第二双向长短期记忆模型对语音特征序列与文本特征序列进行编码处理,双向长短期记忆模型包含两个相互独立的隐藏,其传播方向相反,由此针对于同一输入数据,最终可以得到两个隐藏输出,即两个关于输入信息的特征向量。之后双向长短期记忆模型通过将两个特征向量拼接或取平均值的方法得到一个向量,再将其进行输出处理。
[0062]
需要说明的是,双向长短期记忆模型通过bptt(back propagation through time)算法对包括输入层,隐藏和输出层在内的所有参数进行训练并更新。模型训练的关键是计算误差关于模型参数的梯度,然后使用梯度下降法学习出好的参数。由于采用了方向完全相反的两次输入,那么在某方向上后输入的信息在另一方向上会被优先输入,如此一
来模型关于输入信息先后造成的不同影响力就能够被削弱,双向长短期记忆模型可以缓解梯度消失的问题。
[0063]
s203:计算语音隐藏特征序列中的每个特征与所述文本隐藏特征序列中的任意特征之间的注意力权值,利用注意力权值,更新语音隐藏特征序列,得到目标特征序列。
[0064]
在步骤s203中,目标特征序列的长度与文本隐藏特征序列的长度相同。将语音隐藏特征序列中的特征与文本隐藏特征序列中的特征进行对齐,计算语音隐藏特征序列中的特征与文本隐藏特征序列中的任意特征之间的权值,权值为语音隐藏特征序列中的特征与文本隐藏特征序列中的特征之间最终状态的注意力概率分布,根据对应的权值,更新语音隐藏特征序列中的特征向量,语音隐藏特征序列中的目标特征。
[0065]
本实施例中,通过注意力机制,计算语音隐藏特征序列中的特征与文本隐藏特征序列中的特征之间的不同的影响力,基于注意力机制的双向长短记忆模型利用各个时刻下的语音隐藏特征序列与文本隐藏特征序列中结合的最终状态,计算出各个时刻对于最终状态的注意力概率分布,从而利用语音隐藏特征序列中的特征与文本隐藏特征序列中的特征之间的注意力概率分布来对最终状态进行计算,得到语音隐藏特征序列与任意文本隐藏特征序列中任意特征的影响力,即注意力权值。利用注意力权值,更新语音隐藏特征序列,得到目标特征序列,利用注意力权值优化了目标特征序列中的特征,如式(1)所示。
[0066][0067]
式(1)中,为目标特征序列中第j个语音特征向量,di为语音隐藏特征序列中的第i个语音特征向量,α
j,i
为文本特征特征向量hj在语音特征向量di上的注意力权重。
[0068]
注意力机制的加入能够在双向长短记忆模型中对历史节点的计算加以不同的权重,使特征在保留最有效信息的基础上,最大程度解决信息冗余的问题,从而优化语音特征与文本特征,进一步优化特征表示。
[0069]
需要说明的是,多模态特征中,注意力关注语音特征和文本特征,因而对语音隐藏特征序列和文本隐藏特征序列都分别使用了注意力来获取更多的信息。
[0070]
可选地,计算语音隐藏特征序列中的每个特征与文本隐藏特征序列中的任意特征之间的注意力权值,包括:
[0071]
使用对齐函数计算文本隐藏特征序列中任一特征与语音隐藏特征序列中的所有特征之间的映射概率;
[0072]
根据映射概率,计算文本隐藏特征序列中任一特征在语音隐藏特征序列中每一个特征中的注意力分布大小,得到文本隐藏特征序列中任一特征与语音隐藏特征序列中每一个特征的注意力权重。本实施例中,使用tanh函数作为对齐函数,通过注意力机制,可以得到语音隐藏特征序列中的特征与文本隐藏特征序列中的特征之间的注意力概率分布,基于特征之间的概率分布,计算语音隐藏特征与文本隐藏特征最终状态之间的概率,即注意力权值。如下式(2)与式(3)所示。
[0073][0074][0075]
式(2)中,tanh函数为对齐函数,di为语音隐藏特征序列中的第i个语音特征向量,hj
为文本隐藏特征序列中的第j个文本特征向量,u,v为可学习的参数矩阵,a
j,i
为语音特征向量di在文本特征特征向量hj中的映射概率。式(3)中n为语音隐藏特征序列的长度,α
j,i
为文本特征特征向量hj在语音特征向量di上的注意力大小,即注意力权重。
[0076]
利用注意力概率分布,可以控制语音隐藏特征对于文本隐藏特征的影响力大小,在保留更有价值信息的同时,减小无关或弱相关信息对输出数据的影响。
[0077]
需要说明的是,在通过对齐模型进行对齐操作时,得到语音隐藏特征与文本隐藏特征之间的相关性,当使用注意力机制对单模态特征进行映射时,是学习单模态特征与标签之间的相关性,学习标签在单模态特征上的注意力分布,本实施例中,使用注意力机制对多模态进行映射时,是学习语音隐藏特征与文本隐藏特征之间的相关性,学习文本隐藏特征在语音隐藏特征上的注意力分布。
[0078]
s204:将目标特征序列中的特征,与文本隐藏特征序列中的对应特征进行特征融合,得到融合特征,将融合特征输入至全连接层,得到语音信息的情感分类结果。
[0079]
在步骤s204中,将目标特征序列中的特征与文本隐藏特征序列中的对应特征进行特征融合,得到融合特征,融合特征表示了语音信息中的语音特征与文本特征,将融合特征通过全连接层,得到语音信息的情感分类结果。
[0080]
本实施例中,将不同模态的特征组合在一起,形成总的特征,总的特征即表示语音隐藏特征序列中的特征,也表示了文本隐藏特征向量中的特征,将总的特征输入至全连接层中的分类器中,得到情感分类结果。
[0081]
可选地,将目标特征序列中的特征,与文本隐藏特征序列中的对应特征进行特征融合,得到融合结果,包括:
[0082]
将目标特征序列中的特征与文本隐藏特征序列中的对应特征进行拼接处理,得到多模态特征向量序列;
[0083]
使用预设融合模型,对多模态特征向量序列进行融合处理,得到融合特征。
[0084]
本实施例中,将述目标特征序列中的特征与文本隐藏特征序列中的对应特征进行拼接处理,得到多模态特征向量序列,拼接处理将多模态特征信息联系起来,起到相互补充的作用。
[0085]
将多模态特征向量序列作为输入特征,输入至双向门控循环模型中,通过双向门控循环模型对多模态特征向量序列进行融合处理,双向门控循环模型是在经典的门控循环模型上增加了逆向推理机制,即输入的最后一个特征向量沿着时间步逆向传递。将正向学习和逆向学习的最后一个特征向量对应的向量连接后得到的向量作为最后的结果输出,增强模型的表达能力。可以发现,使用双向门控循环模型可以更好的解决相连特征之间的的长期依赖性,能在当下输出中充分体现前期输入与后期输入之间的关系。
[0086]
可选地,将融合特征输入至全连接层,得到语音信息的情感分类结果,包括:
[0087]
通过池化层,对融合特征进行最大池化运算,得到标准融合特征;
[0088]
将标准融合特征输入至全连接层,对融合特征值进行分类,得到语音信息的情感分类结果。
[0089]
本实施例中,将融合特征进行最大池化处理,将最大的特征作为当前感受野内的特征表达,降低融合特征的维度,得到固定长度的标准融合特征,将标准融合特征输入至全连接层,进行进一步的特征提取,得到特征向量,将特征向量发送到softmax层进行最终的
情感分类,其中目标函数的设置常常是基于交叉熵损失函数设置的。
[0090]
提取语音信息中的语音特征与文本特征,得到语音信息对应的语音特征序列与语音信息对应的文本特征序列,语音特征序列包括至少一段语音对应的特征向量;文本特征序列包括至少一段文本对应的特征向量,使用预设的第一双向长短期记忆模型对语音特征序列进行编码处理,得到语音特征序列对应的语音隐藏特征序列,使用预设的第二双向长短期记忆模型对文本特征序列进行编码处理,得到文本特征序列对应的文本隐藏特征序列,计算语音隐藏特征序列中的特征与文本隐藏特征序列中的任意特征之间的注意力权值,利用注意力权值,得到目标特征序列,将目标特征序列中的特征,与文本隐藏特征序列中的对应特征进行特征融合,得到融合特征,将融合特征输入至全连接层,得到语音信息的情感分类结果,对语音特征序列与文本特征序列进行交互处理,得到语音特征序列与文本特征序列中对应特征的注意力权值,通过注意力权值增加语音特征与文本特征之间的关联性,从而得到更准确的融合特征,进而提高了情感分类的准确度。
[0091]
请参阅图3,图3是本发明实施例提供的一种基于多模态的情感分类装置的结构示意图。本实施例中该终端包括的各单元用于执行图2对应的实施例中的各步骤。具体请参阅图2以及图2所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。
[0092]
参见图3,分类装置30包括:
[0093]
特征提取模块31,用于提取语音信息中的语音特征与文本特征,得到语音信息对应的语音特征序列与语音信息对应的文本特征序列;语音特征序列包括至少一段语音对应的特征向量;文本特征序列包括至少一段文本对应的特征向量;
[0094]
隐藏特征确定模块32,用于使用预设的第一双向长短期记忆模型对语音特征序列进行编码处理,得到语音特征序列对应的语音隐藏特征序列,使用预设的第二双向长短期记忆模型对文本特征序列进行编码处理,得到文本特征序列对应的文本隐藏特征序列;
[0095]
目标序列确定模块33,用于计算语音隐藏特征序列中的每个特征与文本隐藏特征序列中的任意特征之间的注意力权值,利用注意力权值,更新语音隐藏特征序列,得到目标特征序列;
[0096]
分类模块34,用于将目标特征序列中的特征,与文本隐藏特征序列中的对应特征进行特征融合,得到融合特征,将融合特征输入至全连接层,得到语音信息的情感分类结果。
[0097]
可选的是,上述特征提取模块31包括:
[0098]
语音特征序列获取单元,用于提取语音信息的时域特征,并将时域特征转化为频域特征,得到语音信息的语音特征序列;
[0099]
目标序列获取单元,用于使用预设的预训练模型,对文本特征进行训练,得到文本特征对应的目标文本特征序列。
[0100]
可选的是,上述目标序列获取单元包括:
[0101]
初始序列获取子单元,使用预设的预训练模型,对文本特征进行训练,得到初始文本特征序列;
[0102]
补充处理子单元,用于通过mask机制,对初始文本特征序列进行补充处理,得到目标文本特征序列。
[0103]
可选的是,上述目标序列确定模块33包括:
[0104]
对齐单元,用于通过对齐模型,得到语音隐藏特征序列中的特征与文本隐藏特征序列中的任意特征之间的映射概率;
[0105]
注意力权值获取单元,用于根据映射概率,计算得到语音隐藏特征序列中的特征与文本隐藏特征序列中的任意特征之间的注意力权值。
[0106]
可选的是,上述分类模块34包括:
[0107]
多模态序列获取单元,用于将目标特征序列中的特征与文本隐藏特征序列中的对应特征进行拼接处理,得到多模态特征向量序列;
[0108]
使用预设融合模型,对多模态特征向量序列进行融合处理,得到融合特征。
[0109]
池化处理单元,用于通过池化层,对融合特征进行最大池化运算,得到标准融合特征;
[0110]
分类结果获取单元,用于将标准融合特征输入至全连接层,对融合特征值进行分类,得到语音信息的情感分类结果。
[0111]
图4是本发明实施例提供的一种计算机设备的结构示意图。如图4所示,该实施例的计算机设备包括:至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个基于多模态的情感分类方法步骤。
[0112]
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
[0113]
所称处理器可以是cpu,该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0114]
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
[0115]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元
既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
[0116]
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
[0117]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0118]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0119]
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0120]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0121]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

技术特征:


1.一种基于多模态的情感分类方法,其特征在于,包括:提取语音信息中的语音特征与文本特征,得到所述语音信息对应的语音特征序列与所述语音信息对应的文本特征序列;所述语音特征序列包括至少一段语音对应的特征向量;所述文本特征序列包括至少一段文本对应的特征向量;使用预设的第一双向长短期记忆模型对所述语音特征序列进行编码处理,得到所述语音特征序列对应的语音隐藏特征序列,使用预设的第二双向长短期记忆模型对所述文本特征序列进行编码处理,得到所述文本特征序列对应的文本隐藏特征序列;计算所述语音隐藏特征序列中的每个特征与所述文本隐藏特征序列中的任意特征之间的注意力权值,利用所述注意力权值,更新语音隐藏特征序列,得到目标特征序列;所述目标特征序列的长度与所述文本隐藏特征序列长度相同;将所述目标特征序列中的特征,与所述文本隐藏特征序列中的对应特征进行特征融合,得到融合特征,将所述融合特征输入至全连接层,得到所述语音信息的情感分类结果。2.如权利要求1所述的基于多模态的情感分类方法,其特征在于,所述提取语音信息中的语音特征与文本特征,得到所述语音信息对应的语音特征序列与所述语音信息对应的文本特征序列,包括:提取所述语音信息的时域特征,并将时域特征转化为频域特征,得到所述语音信息的语音特征序列;使用预设的预训练模型,对所述文本特征进行训练,得到所述文本特征对应的目标文本特征序列。3.如权利要求2所述的基于多模态的情感分类方法,其特征在于,所述使用预设的预训练模型,对所述文本特征进行训练,得到所述文本特征对应的目标文本特征序列,包括:使用预设的预训练模型,对所述文本特征进行训练,得到初始文本特征序列;通过mask机制,对所述初始文本特征序列进行补充处理,得到目标文本特征序列。4.如权利要求3所述的基于多模态的情感分类方法,其特征在于,所述使用预设的预训练模型,对所述文本特征进行训练,得到初始文本特征序列,包括:对所述文本特征进行分词处理,得到所述文本特征对应的分词数据;使用预设的预训练模型,对所述分词数据进行训练,得到始文本特征序列。5.如权利要求1所述的基于多模态的情感分类方法,其特征在于,所述计算所述语音隐藏特征序列中的每个特征与所述文本隐藏特征序列中的任意特征之间的注意力权值,包括:使用对齐函数计算所述文本隐藏特征序列中任一特征与所述语音隐藏特征序列中的所有特征之间的映射概率;根据所述映射概率,计算所述文本隐藏特征序列中任一特征在所述语音隐藏特征序列中每一个特征中的注意力分布大小,得到所述文本隐藏特征序列中任一特征与所述语音隐藏特征序列中每一个特征的注意力权重。6.如权利要求1所述的基于多模态的情感分类方法,其特征在于,所述将所述目标特征序列中的特征,与所述文本隐藏特征序列中的对应特征进行特征融合,得到融合特征,包括:将所述目标特征序列中的特征与所述文本隐藏特征序列中的对应特征进行拼接处理,
得到多模态特征向量序列;使用预设融合模型,对所述多模态特征向量序列进行融合处理,得到融合特征。7.如权利要求1所述的基于多模态的情感分类方法,其特征在于,所述将所述融合特征输入至全连接层,得到所述语音信息的情感分类结果,包括:通过池化层,对所述融合特征进行最大池化运算,得到标准融合特征;将所述标准融合特征输入至全连接层,对所述融合特征值进行分类,得到所述语音信息的情感分类结果。8.一种基于多模态的情感分类装置,其特征在于,所述装置包括:特征提取模块,用于提取语音信息中的语音特征与文本特征,得到所述语音信息对应的语音特征序列与所述语音信息对应的文本特征序列;所述语音特征序列包括至少一段语音对应的特征向量;所述文本特征序列包括至少一段文本对应的特征向量;隐藏特征确定模块,用于使用预设的第一双向长短期记忆模型对所述语音特征序列进行编码处理,得到所述语音特征序列对应的语音隐藏特征序列,使用预设的第二双向长短期记忆模型对所述文本特征序列进行编码处理,得到所述文本特征序列对应的文本隐藏特征序列;目标序列确定模块,用于计算所述语音隐藏特征序列中的每个特征与所述文本隐藏特征序列中的任意特征之间的注意力权值,利用所述注意力权值,更新语音隐藏特征序列,得到目标特征序列;分类模块,用于将所述目标特征序列中的特征,与所述文本隐藏特征序列中的对应特征进行特征融合,得到融合特征,将所述融合特征输入至全连接层,得到所述语音信息的情感分类结果。9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于多模态的情感分类方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于多模态的情感分类方法。

技术总结


本发明适用于人工智能技术领域,尤其涉及一种基于多模态的情感分类方法、装置、设备及存储介质,提取语音信息中的语音特征与文本特征,得到语音信息对应的语音特征序列与语音信息对应的文本特征序列,使用预设双向长短期记忆模型得到语音隐藏特征序列与文本隐藏特征序列,计算得到目标特征序列,与文本隐藏特征序列中的对应特征进行特征融合,将融合特征输入至全连接层,得到语音信息的情感分类结果,对语音特征序列与文本特征序列进行交互处理,得到语音特征序列与文本特征序列中对应特征的注意力权值,通过注意力权值增加语音特征与文本特征之间的关联性,从而得到更准确的融合特征,进而提高了情感分类的准确度。进而提高了情感分类的准确度。进而提高了情感分类的准确度。


技术研发人员:

于凤英 王健宗 程宁

受保护的技术使用者:

平安科技(深圳)有限公司

技术研发日:

2022.07.12

技术公布日:

2022/10/24

本文发布于:2024-09-21 03:21:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/22972.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   序列   语音   文本
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议