语音情感识别方法和装置与流程



1.本公开涉及语音数据处理技术领域,尤其涉及一种语音情感识别方法和装置。


背景技术:



2.随着人工智能的发展,越来越多的科研人员开始关注语音情感识别方向。情感是一种综合了人类行为、思想和感觉的现象。一个人的感情是可以从他的语言中感受出来的,而语音信息在语言中又占了至关重要的位置,它不仅包含说话人想要表达的内容,同时又包含了说话人当时的情感信息,是愤怒还是喜悦。这在某些行业起着至关重要的作用,比如服务行业,可以根据顾客话语中表达出来的情绪做出相应的服务调整;在心理中也可以根据病人情绪调整方案。
3.当然一个人的情感表达不仅可以从一个完整的句子或者是某些单词、词组这些语言中体现出来,也可以从一些非语言信息中体现,比如一个人伤心时,会伴随一些抽泣的声音,一个人兴奋时发出尖叫的声音,这些都是非语言信息,它们也可以表达出一个人的情感。
4.目前语音情感识别方面常见的技术有:
5.1.使用单一特征集作为模型输入,例如,传统的机器学习算法如svm(support vector machine,支持向量机)、xgboost(extreme gradient boosting,极端梯度提升算法)、gmm(gaussian mixture model,高斯混合模型)、knn(k-nearestneighbor,k最邻近分类算法)、hmm(hidden markov model,隐马尔可夫模型)等。可以用一些低水平的手工特征集llds(low level descriptors,低水平特征)或者在此基础上做一些统计而得到的hsfs(high level statistics functions,在llds的基础上做一些统计而得到的特征)特征集带入模型中进行训练;或者,使用声谱图+crnn(convolutional recurrent neural network,卷积循环神经网络结构)或者手工特征+crnn的深度学习方法。对原始信号进行分帧加窗后,可以得到很多帧,对每一帧做fft(fast fourier transform,快速傅里叶变换),傅里叶变换的作用是把时域信号转为频域信号,把每一帧fft后的频域信号(频谱图)在时间上堆叠起来就可以得到声谱图。手工特征包括:compare特征集(computational paralinguistics challenge,compare挑战赛用到的特征集)、boaw(bag-of-audio-words,音频词袋)等。从13年开始,compare的挑战都会要求使用一个设计好的特征集,这个特征集包含了6373个静态特征,是在lld上计算各种函数得到的,称为compare特征集。boaw是特征的进一步组织表示,是根据一个codebook对llds做计算得到的。
6.但是,这种使用单一特征集作为模型输入的方法存在以下问题:由于当前语音情感特征表示不明确,用单一特征集去表示某一情感可能造成情感信息的缺失,导致分类会不准确。
7.2.使用单一模型,例如,使用原始语音信号加深度学习网络模型。从音频文件中读取出来的原始语音信号通常称为raw waveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率fs为16khz,表示一秒钟内采样16000个点,这个时候如果音频长度是
10秒,那么raw waveform中就有160000个值,值的大小通常表示的是振幅。
8.但是,这种使用单一模型的方法存在以下问题:由于人的情感有很多类,每个模型对不同情感的分辨能力不一样,很难出现对每一类情感都有很好的分类效果的模型,进而导致对某些情感类别分类不准确的问题。


技术实现要素:



9.为了解决现有技术的问题,本发明实施例提供了一种语音情感识别方法和装置,可以提高语音情感识别的准确性。技术方案如下:
10.根据本公开的一方面,提供了一种语音情感识别方法,该方法包括:
11.获取待识别语音数据;
12.根据所述待识别语音数据,提取梅尔倒谱系数特征、compare特征集以及音频词袋特征集;
13.将所述梅尔倒谱系数特征、compare特征集以及音频词袋特征集输入训练完毕的语音情感识别模型,所述语音情感识别模型包括双通道神经网络子模型以及极端梯度提升子模型;
14.根据所述梅尔倒谱系数特征、音频词袋特征集以及双通道神经网络子模型,得到第一概率矩阵,根据compare特征集以及极端梯度提升子模型,得到第二概率矩阵;
15.将所述第一概率矩阵和第二概率矩阵融合为综合概率矩阵,根据所述综合概率矩阵,确定所述待识别语音数据的预测结果。
16.根据本公开的另一方面,提供了一种语音情感识别装置,所述语音情感识别装置用于执行上述语音情感识别方法,所述装置包括:
17.获取模块,用于获取待识别语音数据;
18.提取模块,用于根据所述待识别语音数据,提取梅尔倒谱系数特征、compare特征集以及音频词袋特征集;
19.输入模块,用于将所述梅尔倒谱系数特征、compare特征集以及音频词袋特征集输入训练完毕的语音情感识别模型,所述语音情感识别模型包括双通道神经网络子模型以及极端梯度提升子模型;
20.处理模块,用于根据所述梅尔倒谱系数特征、音频词袋特征集以及双通道神经网络子模型,得到第一概率矩阵,根据compare特征集以及极端梯度提升子模型,得到第二概率矩阵;
21.确定模块,用于将所述第一概率矩阵和第二概率矩阵融合为综合概率矩阵,根据所述综合概率矩阵,确定所述待识别语音数据的预测结果。
22.根据本公开的另一方面,提供了一种电子设备,包括:
23.处理器;以及
24.存储程序的存储器,
25.其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述一种语音情感识别方法中任一项所述的方法。
26.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述一种语音情感识别方法中任一项
所述的方法。
27.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现上述一种语音情感识别方法中任一项所述的方法。
28.本技术实施例中提供的一个或多个技术方案,采用了一种同时使用梅尔倒谱系数特征和手工特征的双通道深度神经网络模型,同时补充xgboost模型作为融合的方案,解决了单一特征集表达情感特征不足的问题,以及单一模型在某些情感类别上分类不准确的问题,进而提高了语音情感识别的准确性。
附图说明
29.在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
30.图1示出了根据本公开示例性实施例的一种语音情感识别方法的流程图;
31.图2示出了根据本公开示例性实施例的一种对初始语音情感识别模型进行训练的方法的流程图;
32.图3示出了根据本公开示例性实施例的初始语音情感识别模型的整体结构示意图;
33.图4示出了根据本公开示例性实施例的第一通道模块的结构示意图;
34.图5示出了根据本公开示例性实施例的第二通道模块的结构示意图;
35.图6示出了根据本公开示例性实施例的一种基于语音情感识别模型进行语音情感识别的方法的流程图;
36.图7示出了根据本公开示例性实施例的一种语音情感识别装置示意性框图;
37.图8示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
38.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
39.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
40.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
41.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
42.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
43.以下参照附图1描述本公开的一种语音情感识别方法,该方法可以由电子设备实现,电子设备可以包括终端或者服务器,该方法包括以下步骤:
44.步骤101、获取待识别语音数据;
45.步骤102、根据待识别语音数据,提取梅尔倒谱系数特征、compare特征集以及音频词袋特征集;
46.步骤103、将梅尔倒谱系数特征、compare特征集以及音频词袋特征集输入训练完毕的语音情感识别模型,语音情感识别模型包括双通道神经网络子模型以及极端梯度提升子模型;
47.步骤104、根据梅尔倒谱系数特征、音频词袋特征集以及双通道神经网络子模型,得到第一概率矩阵,根据compare特征集以及极端梯度提升子模型,得到第二概率矩阵;
48.步骤105、将第一概率矩阵和第二概率矩阵融合为综合概率矩阵,根据综合概率矩阵,确定待识别语音数据的预测结果。
49.可选地,双通道神经网络子模型包括第一通道模块、第二通道模块以及分类模块;
50.根据梅尔倒谱系数特征、音频词袋特征集以及双通道神经网络子模型,得到第一概率矩阵,包括:
51.将梅尔倒谱系数特征输入到第一通道模块,得到64维的第一特征向量;
52.将音频词袋特征集输入到第二通道模块,得到64维的第二特征向量;
53.通过分类模块对第一特征向量以及第二特征向量进行处理,得到第一概率矩阵。
54.可选地,第一通道模块包括两个卷积层、两层的lstm网络以及全连接层;
55.将梅尔倒谱系数特征输入到第一通道模块,得到64维的第一特征向量,包括:
56.将输入的梅尔倒谱系数特征经过两个卷积层进行卷积,每次卷积后均经过批正则化操作和整流线性单元激活,并使用最大池化层进行下采样;
57.将下采样后的特征数据经过两层的lstm网络进行特征提取,将提取到的数据输入全连接层,通过全连接层得到64维的第一特征向量。
58.可选地,第二通道模块包括两个全连接层;
59.将音频词袋特征集输入到第二通道模块,得到64维的第二特征向量,包括:
60.将音频词袋特征集输入到两个全连接层,每次经过全连接层后均进行批正则化操作和整流线性单元激活,再进行丢弃处理,得到64维的第二特征向量。
61.可选地,分类模块包括拼接子模块、全连接层以及softmax(柔性最大传递函数)函数;
62.通过分类模块对第一特征向量以及第二特征向量进行处理,得到第一概率矩阵,包括:
63.通过拼接子模块将第一特征向量以及第二特征向量进行拼接,得到128维的特征向量;
64.将128维的特征向量输入全连接层,将全连接层的输出使用softmax函数激活后,得到第一概率矩阵。
65.可选地,将第一概率矩阵和第二概率矩阵融合为综合概率矩阵,包括:
66.将第一概率矩阵和第二概率矩阵相应位置的两个数值组成一个新的二维向量;
67.根据下述公式(1),计算新的二维向量的l2范数:
[0068][0069]
其中,a
ji
表示第一概率矩阵的一个数值,b
ji
表示第二概率矩阵的一个数值,j表示矩阵的行数,也即待识别语音数据中的第j条语音数据,i表示矩阵的列数,p
ji
为第j条语音数据的第i类标签的预测概率;
[0070]
根据新的二维向量的l2范数(一种欧几里得范数),组成综合概率矩阵。
[0071]
可选地,语音情感识别模型的训练过程包括:
[0072]
获取未训练的初始语音情感识别模型,初始语音情感识别模型包括初始双通道神经网络子模型以及初始极端梯度提升子模型;
[0073]
获取训练集,对训练集进行数据增强;
[0074]
根据增强后的训练集,提取训练集的梅尔倒谱系数特征、compare特征集以及音频词袋特征集;
[0075]
根据训练集的梅尔倒谱系数特征以及音频词袋特征集,对初始双通道神经网络子模型进行训练,得到训练好的双通道神经网络子模型;
[0076]
通过gridsearchcv(grid search cross validation,网格搜索算法)对初始极端梯度提升子模型的参数进行网格搜索,确定初始极端梯度提升子模型的初始参数,根据提取到的compare特征集对确定初始参数后的初始极端梯度提升子模型进行训练,得到训练好的极端梯度提升子模型;
[0077]
获取开发集,提取开发集的梅尔倒谱系数特征、compare特征集以及音频词袋特征集;
[0078]
根据开发集的梅尔倒谱系数特征、音频词袋特征集以及训练好的双通道神经网络子模型,得到开发集的第一概率矩阵,根据compare特征集以及极端梯度提升子模型,得到开发集的第二概率矩阵;
[0079]
将开发集的第一概率矩阵和开发集的第二概率矩阵融合为开发集的综合概率矩阵,根据开发集的综合概率矩阵,确定开发集的预测结果;
[0080]
根据开发集的预测结果评估训练好的语音情感识别模型的性能。
[0081]
本公开实施例中,采用了一种同时使用梅尔倒谱系数特征和手工特征的双通道深度神经网络模型,同时补充xgboost模型作为融合的方案,解决了单一特征集表达情感特征不足的问题,以及单一模型在某些情感类别上分类不准确的问题,进而提高了语音情感识别的准确性。
[0082]
以下参照附图2描述本公开的一种对初始语音情感识别模型进行训练的方法,该方法可以由电子设备实现,电子设备可以包括终端或者服务器,该方法包括以下步骤:
[0083]
步骤201、获取未训练的初始语音情感识别模型,初始语音情感识别模型包括初始双通道神经网络子模型以及初始极端梯度提升子模型。
[0084]
一种可行的实施方式中,该初始语音情感识别模型的整体结构可以如图3所示,将输入数据分别带入第一通道模块和第二通道模块中,将两个通道的结果合并后经过分类模块,得到模型预测类别的输出。其中:
[0085]
(1)第一通道模块:该模块的设计可以如图4所示,将输入的梅尔倒谱系数特征经过两个卷积层,卷积核都为3*3,并且每次卷积后都经过批正则化操作和整流线性单元激活,并且使用池大小为2的最大池化层进行下采样。之后经过两层的lstm(long short-term memory,长短时记忆)网络,设置该lstm网络的hidden size(隐藏层尺寸)为128,dropout rate(丢弃率)为0.5。将2层lstm最后一时刻的隐藏层状态拼接起来送入fc全连接层,最后输出64维的特征向量。
[0086]
(2)第二通道模块:该模块的设计可以如图5所示,将提取的音频词袋特征集作为输入送到两个fc全连接层,两个全连接层的输出维度分别为512和64,并且每次经过全连接层后都要进行批正则化操作和整流线性单元激活,再进行丢弃处理防止过拟合,最后输出为64维的特征向量。
[0087]
(3)分类模块:该模型的设计可以参考图3中的分类模块部分,将两个通道输出的64维结果进行拼接,得到128维的特征向量,再经过一个全连接层并且使用softmax函数激活后,得到一个6维的输出向量,分别对应6个标签的预测概率大小。
[0088]
步骤202、获取训练集和开发集。
[0089]
一种可行的实施方式中,训练模型用到的数据集的获取方式有多种,其中一种可行的方式是由法兰克福市mpi的natalie holz提供,特征是笑声、哭泣、呻吟或尖叫等具有不同情感强度的发声,表明不同的情绪。数据集由625个训练集(可称为train集)和460个开发集(可称为development集)组成,其中都是女声。
[0090]
可选地,为了更准确的评估训练完毕的模型性能,还可以使用测试数据对训练完毕的模型进行测试。测试数据有276个男性声音。这些数据集有6个标签,包括成就、愤怒、恐惧、痛苦、快乐和惊喜,每次采样持续时间约为1秒。
[0091]
需要说明的是,法兰克福市mpi的natalie holz提供的数据库中各类型标签的数量相对平衡,因此不需要采取补偿措施。
[0092]
步骤203、对训练集进行数据增强。
[0093]
一种可行的实施方式中,数据增强可以提升数据的多样性,提升模型鲁棒性,一般用于训练集。神经网络需要大量的参数,许许多多的神经网路的参数都是数以百万计,而使得这些参数可以正确工作则需要大量的数据进行训练,但在很多实际的项目中,难以到充足的数据来完成任务。为了解决这个问题,可以随机改变训练样本来代替准备大量的训练样本,这样可以降低模型对某些属性的依赖,从而提高模型的泛化能力。
[0094]
本公开使用librosa库(一个python语音信号处理的第三方库)对训练集中的样本数据进行变速和声调的增强。由于训练集跟开发集都是女声,而测试集都是男声,为了减少两者的差异,本公开还使用parselmouth库(歌声合成语音合成标注库)对测试语音做了男女声的转换,将男声转换为女声,从而减少训练跟测试过程的不匹配程度。
[0095]
步骤204、根据增强后的训练集,提取训练集的梅尔倒谱系数特征、compare特征集以及音频词袋特征集。
[0096]
一种可行的实施方式中,下面分别对梅尔倒谱系数特征、compare特征集以及音频词袋特征集进行说明:
[0097]
(1)梅尔倒谱系数特征:
[0098]
梅尔倒谱系数(mfcc,mel-frequency cepstral coefficients)为语音信号处理
中的常见特征之一。提取梅尔倒谱系数特征的过程可以是:先对输入的语音数据做截断或者用零填充的方式进行数据对齐,将其统一到1s的长度,数据对齐是为了好分批次带入深度网络模型进行计算,如一条语音1.5s长度,另一条语音0.8s长度,那么它们提取出的特征长度也不相同,就无法将这两条语音分到统一批次里面进行计算。数据对齐之后再用librosa工具对1s的语音数据做梅尔倒谱系数特征提取,其中的n_mfcc参数取40,得到一个40*88的梅尔倒谱系数特征。librosa是一个用于音频、音乐分析、处理的python工具包,包含时频处理、特征提取、绘制声音图形等多种常见功能。
[0099]
(2)compare特征集:
[0100]
从13年开始,compare的挑战都会要求使用一个设计好的特征集,这个特征集包含了6373个静态特征,是在lld上计算各种函数得到的,称为特征集。可以通过opensmile开源包来获得,opensmile是一款以命令行形式运行的工具,通过配置config文件,可以用于信号处理和机器学习的特征提取器,它具有高度模块化和灵活性等特点。opensmile最基础的功能可用于语音信号特征的提取,当然,它还可以分析其他形态的信号,如视觉信号,医学生理信号等等。opensmile使用c++编写的,具有高速、高效的特点,拥有灵活的体系结构,并且可以在各大主流操作系统上运行。
[0101]
(3)音频词袋特征集(可称为boaw特征集)
[0102]
boaw是特征的进一步组织表示,该过程是使用上一步得到的compare特征集进一步计算得到的,可以用openxbow开源包来获得boaw表示,最终提取到2000个特征。openxbow,这是一个用于从多模态输入生成词袋(bow)表示的开源工具包。在bow原理中,词的直方图首先被用作文档分类的特征,但其思想是并且可以很容易地适应的,例如,声学或视觉描述符,引入了向量量化的前一步。openxbow工具包支持任意数字输入特性和文本输入,并将计算子包连接到最终包,它提供了各种扩展和选项。openxbow是第一个用于生成跨通道词汇包的公开工具包,该工具的功能已经在不同的场景中得到了验证:推文中的情感分析,鼾声分类,以及基于声音、语言和视觉信息的时间依赖性情感识别,结果优于其他特征表征。
[0103]
步骤205、根据训练集的梅尔倒谱系数特征以及音频词袋特征集,对初始双通道神经网络子模型进行训练,得到训练好的双通道神经网络子模型。
[0104]
一种可行的实施方式中,在对初始双通道神经网络子模型训练时,使用了以下训练参数:
[0105]
(1)训练轮数:80;
[0106]
(2)数据批次大小:32;
[0107]
(3)初始学习率:0.001;
[0108]
(4)学习率衰减率:97%;
[0109]
(5)损失函数:交叉熵损失;
[0110]
(6)优化器:adam;
[0111]
将[32*40*88]大小的梅尔倒谱系数特征和[32*2000]大小的boaw送入模型;其中,梅尔倒谱系数特征中的32为数据批次大小,40为输入的梅尔倒谱系数特征向量维度,88为输入语音的帧长;boaw特征中的32为数据批次大小,2000为输入的boaw特征向量维度。
[0112]
在第一通道中使用[32*40*88]大小的梅尔倒谱系数特征进行计算,先将该特征变
成[32*1*40*88]大小,新增的1代表1个通道数,为了方便后续二维卷积运算。将该特征带入第一个卷积层之后,并且经过池化层,变成[32*16*20*44]大小的tensor数据(一种神经网络的数据格式)。将该数据再带入第二个卷积层,之后经过池化层变成[32*32*10*22]大小的tensor数据。再将该数据经过维度变换变成[22*32*320]大小,将其带入lstm层,输出的隐藏层状态为[32*2*128],32代表数据批次大小,2代表隐藏层层数,128代表隐藏层特征维度。将两层隐藏层进行拼接变成[32*256]大小的数据。将其经过全连接层变成[32*64]大小的tensor数据。
[0113]
在第二通道中使用[32*2000]大小的boaw特征进行计算,将该特征经过第一个全连接层变成[32*512]大小的数据,再将其经过第二个全连接层变成[32*64]大小的tensor数据。
[0114]
在classification block中将第一通道输出的[32*64]大小的tensor数据和第二通道的输出的[32*64]大小的tensor数据进行拼接,变成[32*128]大小的tensor数据。将该数据带入全连接层并且经过softmax后,变成[32*6]大小的输出数据。该数据代表一个[32*6]的概率矩阵,其中,32为数据批次大小,6为各类别的预测概率。将输出的矩阵与真实的训练数据标签带入交叉熵损失函数计算损失值,再经过adam优化算法进行反向传播去减少损失,从而提升模型分类效果。
[0115]
步骤206、通过gridsearchcv网格搜索算法对初始极端梯度提升子模型的参数进行网格搜索,确定初始极端梯度提升子模型的初始参数,根据提取到的compare特征集对确定初始参数后的初始极端梯度提升子模型进行训练,得到训练好的极端梯度提升子模型。
[0116]
一种可行的实施方式中,由于xgboost参数众多,本公开使用sklearn工具包里的gridsearchcv对xgboost参数进行网格搜索,gridsearchcv网格搜索,可以实现自动调参并返回最佳的参数组合。例如,当选定一个训练模型或者拟合的策略并且给定参数列表选择,通过网格搜索可以自动调参至最优,并返回参数的组合和得分。最终确定xgboost各参数为:
[0117]
(1)learning_rate=0.3;
[0118]
(2)min_child_weight=1;
[0119]
(3)max_depth=6;
[0120]
(4)gamma=0;
[0121]
(5)alpha=0;
[0122]
(6)subsample=1;
[0123]
其中learning_rate为学习率范围[0,1],默认为0.3,该参数越小,计算速度越慢,该参数越大,有可能无法收敛;min_child_weight为每个叶子里面的最小权重和,范围[0,+∞),默认为1,该参数越大,越不容易过拟合;max_depth为每颗树的最大深度,范围[0,+∞),默认为6,该参数越大,越容易过拟合;gamma控制叶子个数的参数,范围[0,+∞),默认为0,该参数越大,越不容易过拟合;alpha为l1正则化参数,范围[0,+∞),默认为0,该参数越大,越不容易过拟合。subsample样本采样比率,范围(0,1],默认为1,如果取0.5代表随机用50%的样本集用来训练。
[0124]
确定好参数后,将每条语音的6373维compare手工特征和每条语音对应的标签带入模型中进行训练,得到训练好的极端梯度提升子模型。
[0125]
步骤207、获取开发集,提取开发集的梅尔倒谱系数特征、compare特征集以及音频词袋特征集。
[0126]
一种可行的实施方式中,提取开发集的梅尔倒谱系数特征、compare特征集以及音频词袋特征集的方法可以参照上述步骤204,本公开此处不做赘述。
[0127]
步骤208、根据开发集的梅尔倒谱系数特征、音频词袋特征集以及训练好的双通道神经网络子模型,得到开发集的第一概率矩阵,根据compare特征集以及极端梯度提升子模型,得到开发集的第二概率矩阵。
[0128]
一种可行的实施方式中,由于开发集中包括460条语音数据,因此,第一概率矩阵以及第二概率矩阵均为[460*6]规格的矩阵。
[0129]
步骤209、将开发集的第一概率矩阵和开发集的第二概率矩阵融合为开发集的综合概率矩阵,根据开发集的综合概率矩阵,确定开发集的预测结果。
[0130]
一种可行的实施方式中,将双通道神经网络模型预测的第一概率矩阵和xgboost模型预测的第二概率矩阵进行一个l2范数的融合,融合方式如下:
[0131]
假定是双通道神经网络模型预测的第一概率矩阵,是双通道神经网络模型预测的第一概率矩阵,是xgboost预测的第二概率矩阵,j表示开发集中的第j个语音数据。
[0132]
将它们相应位置的数组成一个新的二维向量i为标签类别数,然后,根据下述公式(1)计算新的二维向量的l2范数:
[0133][0134]
其中,a
ji
表示第一概率矩阵的一个数值,b
ji
表示第二概率矩阵的一个数值,j表示矩阵的行数,也即待识别语音数据中的第j条语音数据,i表示矩阵的列数,p
ji
为第j条语音数据的第i类标签的预测概率。
[0135]
将新的二维向量的l2范数组成[460*6]的矩阵,即为综合概率矩阵。
[0136]
步骤210、根据开发集的预测结果评估训练好的语音情感识别模型的性能。
[0137]
一种可行的实施方式中,综合概率矩阵为[460*6]规格的矩阵,其中,每行6个数值为开发集中一条语音数据对应的6个标签的概率,从6个概率中选出最大的概率,将最大的概率对应的标签确定为该语音数据对应的预测标签。举例来说,第一条语音的预测概率向量为标签序列为[成就感,生气,害怕,痛苦,愉快,惊喜],则预测标签为概率最大值0.5对应的位置标签,即该语音预测的标签为痛苦。
[0138]
本公开实施例中,采用了一种同时使用梅尔倒谱系数特征和手工特征的双通道深度神经网络模型,同时补充xgboost模型作为融合的方案,解决了单一特征集表达情感特征不足的问题,以及单一模型在某些情感类别上分类不准确的问题,进而提高了语音情感识别的准确性。
[0139]
以下参照附图6描述本公开的一种基于语音情感识别模型进行语音情感识别的方法,该方法可以由电子设备实现,电子设备可以包括终端或者服务器。本公开实施例中,在对待识别语音数据进行识别时,待识别语音数据可以是一条语音数据,也可以是多条语音数据;当待识别语音数据是一条语音数据时,本公开实施例中的概率矩阵即为[1*6]的矩
阵,该矩阵也可以看作是6个元素组成的向量;当待识别语音数据是多条语音数据时,本公开实施例中的概率矩阵为[n*6]的矩阵,n表示语音数据的数量。
[0140]
本公开实施例中,语音情感识别模型包括双通道神经网络子模型以及极端梯度提升子模型,双通道神经网络子模型包括第一通道模块、第二通道模块以及分类模块。该方法包括以下步骤:
[0141]
步骤301、获取待识别语音数据。
[0142]
步骤302、根据待识别语音数据,提取梅尔倒谱系数特征、compare特征集以及音频词袋特征集。
[0143]
一种可行的实施方式中,提取特征的过程可以参照上述实施例中的步骤204,本公开在此不做赘述。
[0144]
步骤303、将梅尔倒谱系数特征输入到语音情感识别模型的双通道神经网络子模型的第一通道模块,得到64维的第一特征向量。
[0145]
可选地,第一通道模块包括两个卷积层、两层的lstm网络以及全连接层。
[0146]
一种可行的实施方式中,步骤303具体可以包括以下步骤3031-3032:
[0147]
步骤3031、将输入的梅尔倒谱系数特征经过两个卷积层进行卷积,每次卷积后均经过批正则化操作和整流线性单元激活,并使用最大池化层进行下采样。
[0148]
步骤3032、将下采样后的特征数据经过两层的lstm网络进行特征提取,将提取到的数据输入全连接层,通过全连接层得到64维的第一特征向量。
[0149]
步骤304、将音频词袋特征集输入到语音情感识别模型的双通道神经网络子模型的第二通道模块,得到64维的第二特征向量。
[0150]
可选地,第二通道模块可以包括两个全连接层。
[0151]
一种可行的实施方式中,使用两个全连接层对音频词袋特征集进行特征提取的过程可以如下:
[0152]
将音频词袋特征集输入到两个全连接层,每次经过全连接层后均进行批正则化操作和整流线性单元激活,再进行丢弃处理,得到64维的第二特征向量。
[0153]
步骤305、通过分类模块对第一特征向量以及第二特征向量进行处理,得到第一概率矩阵。
[0154]
可选地,分类模块可以包括拼接子模块、全连接层以及softmax函数。
[0155]
一种可行的实施方式中,步骤303可以具体包括以下步骤3051-3052:
[0156]
步骤3051、通过拼接子模块将第一特征向量以及第二特征向量进行拼接,得到128维的特征向量。
[0157]
步骤3052、将128维的特征向量输入全连接层,将全连接层的输出使用softmax函数激活后,得到第一概率矩阵。
[0158]
步骤306、根据compare特征集以及极端梯度提升子模型,得到第二概率矩阵。
[0159]
一种可行的实施方式中,将待识别语音数据的梅尔倒谱系数特征以音频词袋特征集输入到双通道神经网络子模型,得到第一概率矩阵,将待识别语音数据的compare特征集输入到极端梯度提升子模型,得到第二概率矩阵。第一概率矩阵与第二概率矩阵的规格完全相同。
[0160]
步骤307、将第一概率矩阵和第二概率矩阵融合为综合概率矩阵。
[0161]
一种可行的实施方式中,可以将第一概率矩阵与第二概率矩阵进行一个l2范数的融合,相应的操作可以如下述步骤3071-3073:
[0162]
步骤3071、将第一概率矩阵和第二概率矩阵相应位置的两个数值组成一个新的二维向量。
[0163]
举例来说,假定是第一概率矩阵,是第二概率矩阵,那么,将两个概率矩阵相应位置的数值组成一个新的二维向量其中,j表示待识别语音数据中的第j条语音数据,i为标签类别数。
[0164]
步骤3072、根据下述公式(1),计算新的二维向量的l2范数:
[0165][0166]
其中,a
ji
表示第一概率矩阵的一个数值,b
ji
表示第二概率矩阵的一个数值,j表示矩阵的行数,也即待识别语音数据中的第j条语音数据,i表示矩阵的列数,p
ji
为第j条语音数据的第i类标签的预测概率。
[0167]
步骤3073、根据新的二维向量的l2范数,组成综合概率矩阵。
[0168]
一种可行的实施方式中,将p
ji
按照下角标的位置组成矩阵,即为综合概率矩阵。
[0169]
步骤308、根据综合概率矩阵,确定待识别语音数据的预测结果。
[0170]
一种可行的实施方式中,综合概率矩阵为[n*6]规格的矩阵,其中,n表示待识别语音数据中语音数据的条数,每行6个数值为待识别语音数据中一条语音数据对应的6个标签的概率,从6个概率中选出最大的概率,将最大的概率对应的标签确定为该语音数据对应的预测标签。
[0171]
本公开实施例中,采用了一种同时使用梅尔倒谱系数特征和手工特征的双通道深度神经网络模型,同时补充xgboost模型作为融合的方案,解决了单一特征集表达情感特征不足的问题,以及单一模型在某些情感类别上分类不准确的问题,进而提高了语音情感识别的准确性。
[0172]
本公开实施例提供了一种语音情感识别装置,该装置用于实现上述语音情感识别方法。如图7所示的语音情感识别装置的示意性框图,语音情感识别装置700包括:获取模块701、提取模块702、输入模块703、处理模块704以及确定模块705。
[0173]
获取模块701,用于获取待识别语音数据;
[0174]
提取模块702,用于根据所述待识别语音数据,提取梅尔倒谱系数特征、compare特征集以及音频词袋特征集;
[0175]
输入模块703,用于将所述梅尔倒谱系数特征、compare特征集以及音频词袋特征集输入训练完毕的语音情感识别模型,所述语音情感识别模型包括双通道神经网络子模型以及极端梯度提升子模型;
[0176]
处理模块704,用于根据所述梅尔倒谱系数特征、音频词袋特征集以及双通道神经网络子模型,得到第一概率矩阵,根据compare特征集以及极端梯度提升子模型,得到第二概率矩阵;
[0177]
确定模块705,用于将所述第一概率矩阵和第二概率矩阵融合为综合概率矩阵,根据所述综合概率矩阵,确定所述待识别语音数据的预测结果。
[0178]
可选地,所述双通道神经网络子模型包括第一通道模块、第二通道模块以及分类模块;
[0179]
所述处理模块704,进一步用于:
[0180]
将所述梅尔倒谱系数特征输入到第一通道模块,得到64维的第一特征向量;
[0181]
将所述音频词袋特征集输入到第二通道模块,得到64维的第二特征向量;
[0182]
通过分类模块对所述第一特征向量以及所述第二特征向量进行处理,得到第一概率矩阵。
[0183]
可选地,所述第一通道模块包括两个卷积层、两层的lstm网络以及全连接层;
[0184]
所述处理模块704,进一步用于:
[0185]
将输入的梅尔倒谱系数特征经过两个卷积层进行卷积,每次卷积后均经过批正则化操作和整流线性单元激活,并使用最大池化层进行下采样;
[0186]
将下采样后的特征数据经过两层的lstm网络进行特征提取,将提取到的数据输入全连接层,通过全连接层得到64维的第一特征向量。
[0187]
可选地,所述第二通道模块包括两个全连接层;
[0188]
所述处理模块704,进一步用于:
[0189]
将所述音频词袋特征集输入到两个全连接层,每次经过全连接层后均进行批正则化操作和整流线性单元激活,再进行丢弃处理,得到64维的第二特征向量。
[0190]
可选地,所述分类模块包括拼接子模块、全连接层以及softmax函数;
[0191]
所述处理模块704,进一步用于:
[0192]
通过所述拼接子模块将所述第一特征向量以及所述第二特征向量进行拼接,得到128维的特征向量;
[0193]
将所述128维的特征向量输入所述全连接层,将全连接层的输出使用softmax函数激活后,得到第一概率矩阵。
[0194]
可选地,所述确定模块705,进一步用于:
[0195]
将所述第一概率矩阵和第二概率矩阵相应位置的两个数值组成一个新的二维向量;
[0196]
根据下述公式(1),计算新的二维向量的l2范数:
[0197][0198]
其中,a
ji
表示所述第一概率矩阵的一个数值,b
ji
表示所述第二概率矩阵的一个数值,j表示矩阵的行数,也即待识别语音数据中的第j条语音数据,i表示矩阵的列数,p
ji
为第j条语音数据的第i类标签的预测概率;
[0199]
根据新的二维向量的l2范数,组成综合概率矩阵。
[0200]
可选地,所述装置还包括训练模块706;
[0201]
所述训练模块706,用于:
[0202]
获取未训练的初始语音情感识别模型,所述初始语音情感识别模型包括初始双通道神经网络子模型以及初始极端梯度提升子模型;
[0203]
获取训练集,对所述训练集进行数据增强;
[0204]
根据增强后的训练集,提取训练集的梅尔倒谱系数特征、compare特征集以及音频
词袋特征集;
[0205]
根据训练集的梅尔倒谱系数特征以及音频词袋特征集,对所述初始双通道神经网络子模型进行训练,得到训练好的双通道神经网络子模型;
[0206]
通过gridsearchcv网格搜索算法对所述初始极端梯度提升子模型的参数进行网格搜索,确定所述初始极端梯度提升子模型的初始参数,根据提取到的compare特征集对确定初始参数后的初始极端梯度提升子模型进行训练,得到训练好的极端梯度提升子模型;
[0207]
获取开发集,提取开发集的梅尔倒谱系数特征、compare特征集以及音频词袋特征集;
[0208]
根据开发集的梅尔倒谱系数特征、音频词袋特征集以及训练好的双通道神经网络子模型,得到开发集的第一概率矩阵,根据compare特征集以及极端梯度提升子模型,得到开发集的第二概率矩阵;
[0209]
将开发集的第一概率矩阵和开发集的第二概率矩阵融合为开发集的综合概率矩阵,根据开发集的综合概率矩阵,确定所述开发集的预测结果;
[0210]
根据开发集的预测结果评估训练好的语音情感识别模型的性能。
[0211]
本公开实施例中,采用了一种同时使用梅尔倒谱系数特征和手工特征的双通道深度神经网络模型,同时补充xgboost模型作为融合的方案,解决了单一特征集表达情感特征不足的问题,以及单一模型在某些情感类别上分类不准确的问题,进而提高了语音情感识别的准确性。
[0212]
参考图8,现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0213]
如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0214]
电子设备800中的多个部件连接至i/o接口805,包括:输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备,输入单元806可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元804可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
[0215]
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如,在一些实施例中,上述一种语音情感识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述一种语音情感识别方法。
[0216]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0217]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0218]
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
[0219]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0220]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
(lan)、广域网(wan)和互联网。
[0221]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

技术特征:


1.一种语音情感识别方法,其特征在于,包括:获取待识别语音数据;根据所述待识别语音数据,提取梅尔倒谱系数特征、compare特征集以及音频词袋特征集;将所述梅尔倒谱系数特征、compare特征集以及音频词袋特征集输入训练完毕的语音情感识别模型,所述语音情感识别模型包括双通道神经网络子模型以及极端梯度提升子模型;根据所述梅尔倒谱系数特征、音频词袋特征集以及双通道神经网络子模型,得到第一概率矩阵,根据compare特征集以及极端梯度提升子模型,得到第二概率矩阵;将所述第一概率矩阵和第二概率矩阵融合为综合概率矩阵,根据所述综合概率矩阵,确定所述待识别语音数据的预测结果。2.如权利要求1所述的语音情感识别方法,其特征在于,所述双通道神经网络子模型包括第一通道模块、第二通道模块以及分类模块;所述根据所述梅尔倒谱系数特征、音频词袋特征集以及双通道神经网络子模型,得到第一概率矩阵,包括:将所述梅尔倒谱系数特征输入到第一通道模块,得到64维的第一特征向量;将所述音频词袋特征集输入到第二通道模块,得到64维的第二特征向量;通过分类模块对所述第一特征向量以及所述第二特征向量进行处理,得到第一概率矩阵。3.如权利要求2所述的语音情感识别方法,其特征在于,所述第一通道模块包括两个卷积层、两层的lstm网络以及全连接层;所述将所述梅尔倒谱系数特征输入到第一通道模块,得到64维的第一特征向量,包括:将输入的梅尔倒谱系数特征经过两个卷积层进行卷积,每次卷积后均经过批正则化操作和整流线性单元激活,并使用最大池化层进行下采样;将下采样后的特征数据经过两层的lstm网络进行特征提取,将提取到的数据输入全连接层,通过全连接层得到64维的第一特征向量。4.如权利要求2所述的语音情感识别方法,其特征在于,所述第二通道模块包括两个全连接层;所述将所述音频词袋特征集输入到第二通道模块,得到64维的第二特征向量,包括:将所述音频词袋特征集输入到两个全连接层,每次经过全连接层后均进行批正则化操作和整流线性单元激活,再进行丢弃处理,得到64维的第二特征向量。5.如权利要求2所述的语音情感识别方法,其特征在于,所述分类模块包括拼接子模块、全连接层以及softmax函数;所述通过分类模块对所述第一特征向量以及所述第二特征向量进行处理,得到第一概率矩阵,包括:通过所述拼接子模块将所述第一特征向量以及所述第二特征向量进行拼接,得到128维的特征向量;将所述128维的特征向量输入所述全连接层,将全连接层的输出使用softmax函数激活后,得到第一概率矩阵。
6.如权利要求1所述的语音情感识别方法,其特征在于,所述将所述第一概率矩阵和第二概率矩阵融合为综合概率矩阵,包括:将所述第一概率矩阵和第二概率矩阵相应位置的两个数值组成一个新的二维向量;根据下述公式(1),计算新的二维向量的l2范数:其中,a
ji
表示所述第一概率矩阵的一个数值,b
ji
表示所述第二概率矩阵的一个数值,j表示矩阵的行数,也即待识别语音数据中的第j条语音数据,i表示矩阵的列数,p
ji
为第j条语音数据的第i类标签的预测概率;根据新的二维向量的l2范数,组成综合概率矩阵。7.如权利要求1所述的语音情感识别方法,其特征在于,所述语音情感识别模型的训练过程包括:获取未训练的初始语音情感识别模型,所述初始语音情感识别模型包括初始双通道神经网络子模型以及初始极端梯度提升子模型;获取训练集,对所述训练集进行数据增强;根据增强后的训练集,提取训练集的梅尔倒谱系数特征、compare特征集以及音频词袋特征集;根据训练集的梅尔倒谱系数特征以及音频词袋特征集,对所述初始双通道神经网络子模型进行训练,得到训练好的双通道神经网络子模型;通过gridsearchcv网格搜索算法对所述初始极端梯度提升子模型的参数进行网格搜索,确定所述初始极端梯度提升子模型的初始参数,根据提取到的compare特征集对确定初始参数后的初始极端梯度提升子模型进行训练,得到训练好的极端梯度提升子模型;获取开发集,提取开发集的梅尔倒谱系数特征、compare特征集以及音频词袋特征集;根据开发集的梅尔倒谱系数特征、音频词袋特征集以及训练好的双通道神经网络子模型,得到开发集的第一概率矩阵,根据compare特征集以及极端梯度提升子模型,得到开发集的第二概率矩阵;将开发集的第一概率矩阵和开发集的第二概率矩阵融合为开发集的综合概率矩阵,根据开发集的综合概率矩阵,确定所述开发集的预测结果;根据开发集的预测结果评估训练好的语音情感识别模型的性能。8.一种语音情感识别装置,包括:获取模块,用于获取待识别语音数据;提取模块,用于根据所述待识别语音数据,提取梅尔倒谱系数特征、compare特征集以及音频词袋特征集;输入模块,用于将所述梅尔倒谱系数特征、compare特征集以及音频词袋特征集输入训练完毕的语音情感识别模型,所述语音情感识别模型包括双通道神经网络子模型以及极端梯度提升子模型;处理模块,用于根据所述梅尔倒谱系数特征、音频词袋特征集以及双通道神经网络子模型,得到第一概率矩阵,根据compare特征集以及极端梯度提升子模型,得到第二概率矩阵;
确定模块,用于将所述第一概率矩阵和第二概率矩阵融合为综合概率矩阵,根据所述综合概率矩阵,确定所述待识别语音数据的预测结果。9.一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。10.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-7中任一项所述的方法。

技术总结


本公开涉及语音数据处理技术领域,尤其涉及一种语音情感识别方法和装置,方法包括:获取待识别语音数据;根据待识别语音数据,提取梅尔倒谱系数特征、ComParE特征集以及音频词袋特征集;将梅尔倒谱系数特征、ComParE特征集以及音频词袋特征集输入训练完毕的语音情感识别模型,语音情感识别模型包括双通道神经网络子模型以及极端梯度提升子模型;根据梅尔倒谱系数特征、音频词袋特征集以及双通道神经网络子模型,得到第一概率矩阵,根据ComParE特征集以及极端梯度提升子模型,得到第二概率矩阵;将第一概率矩阵和第二概率矩阵融合为综合概率矩阵,根据综合概率矩阵,确定待识别语音数据的预测结果。采用本公开,可以提高语音情感识别的准确性。感识别的准确性。感识别的准确性。


技术研发人员:

梁兴伟 邹友 杨波

受保护的技术使用者:

康佳集团股份有限公司

技术研发日:

2022.07.19

技术公布日:

2022/9/9

本文发布于:2024-09-23 01:28:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/70381.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:矩阵   概率   特征   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议