基于音视频的情绪识别方法、装置及设备与流程

1.本公开涉及人工智能技术领域，具体涉及一种基于音视频的情绪识别方法、装置、设备、介质和程序产品。

背景技术：

2.大型呼叫中心尤其是银行业催收场景下，话务员极易与客户发生言语冲突，当前多依赖于事后人工录音抽检，存在人力成本高、时效差、检查范围覆盖不全等问题，如何在事中高效地识别话务员情绪变化，及时采取干预或疏导措施，提高现场管理效率，进而维护银行业的对客服务形象，是亟待解决的问题。

技术实现要素：

3.鉴于上述问题，本公开提供了一种基于音视频的情绪识别方法、装置、设备、介质和程序产品。
4.根据本公开的第一个方面，提供了一种基于音视频的情绪识别方法，包括：采集音视频数据；对音视频数据进行预处理，得到语音数据和视频数据；将语音数据输入语音情绪识别模型，得到第一概率分布，第一概率分布用于表示语音情绪识别模型得到的语音情绪识别结果；将视频数据输入视频情绪识别模型，得到第二概率分布，第二概率分布用于表示视频情绪识别模型得到的视频情绪识别结果；根据语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类。
5.根据本公开的实施例，将语音数据输入语音情绪识别模型，得到第一概率分布包括：将语音数据进行预处理，并提取语音数据的特征参数；利用隐马尔科夫模型对语音数据的特征参数进行识别，得到语音数据的特征向量；利用预先建立的人工神经网络对语音数据的特征向量进行分类，得到语音情绪识别的第一概率分布。
6.根据本公开的实施例，利用预先建立的人工神经网络对语音数据的特征向量进行分类包括：对语音数据的特征向量进行归一化，得到待识别特征矩阵；将待识别特征矩阵作为人工神经网络的输入；计算待识别特征矩阵和与样本语音情绪对应的标准特征矩阵中的各元素的匹配概率，语音情绪识别的第一概率分布。
7.根据本公开的实施例，语音数据的特征参数包括基音频率、短时能量和振幅。
8.根据本公开的实施例，将视频数据输入视频情绪识别模型，得到第二概率分布包括：将视频数据进行预处理，并提取视频数据的面部表情图像；利用局部二值拟合算法对面部表情图像进行特征提取，得到视频数据的特征向量；利用随机森林算法对视频数据的特征向量进行分类，得到视频情绪识别的第二概率分布。
9.根据本公开的实施例，利用局部二值拟合算法对面部表情图像进行特征提取，得到视频数据的特征向量包括：对面部表情图像进行人脸检测，得到人脸部分图像；根据人脸部分图像利用局部二值拟合算法提取人脸关键点；根据人脸关键点构建视频数据的特征向量。
10.根据本公开的实施例，根据语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类包括：根据预设的先验概率作为权重参数，根据权重参数、第一概率分布、二概率分布使用argmax函数计算情绪识别的综合评分，并确定情绪分类。
11.根据本公开的实施例，对音视频数据进行预处理，得到语音数据和视频数据包括：对音视频数据进行语音检测，得到语音数据；对音视频数据进行视频提取，得到视频数据。
12.根据本公开的实施例，确定情绪分类后还包括：将情绪分类与预设异常情绪样本集进行匹配；若匹配成功，则对异常情绪进行干预处理。
13.本公开的第二方面提供了一种基于音视频的情绪识别装置，包括：采集模块，用于采集音视频数据；处理模块，用于对音视频数据进行预处理，得到语音数据和视频数据；语音情绪识别模块，用于将语音数据输入语音情绪识别模型，得到第一概率分布，第一概率分布用于表示语音情绪识别模型得到的语音情绪识别结果；视频情绪识别模块，用于将视频数据输入视频情绪识别模型，得到第二概率分布，第二概率分布用于表示视频情绪识别模型得到的视频情绪识别结果；融合判断模块，用于根据语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类。
14.本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述基于音视频的情绪识别方法。
15.本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述基于音视频的情绪识别方法。
16.本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述基于音视频的情绪识别方法。
附图说明
17.通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：
18.图1示意性示出了根据本公开实施例的基于音视频的情绪识别方法的应用场景示意图；
19.图2示意性示出了根据本公开实施例的基于音视频的情绪识别方法的流程图；
20.图3示意性示出了根据本公开实施例的将语音数据输入语音情绪识别模型，得到第一概率分布的方法流程图；
21.图4示意性示出了根据本公开实施例利用预先建立的人工神经网络对语音数据的特征向量进行分类的方法流程图；
22.图5示意性示出了根据本公开实施例的将视频数据输入视频情绪识别模型，得到第二概率分布的方法流程图；
23.图6示意性示出了根据本公开实施例的利用局部二值拟合算法对面部表情图像进行特征提取，得到视频数据的特征向量的方法流程图；
24.图7示意性示出了根据本公开实施例的对音视频数据进行预处理，得到语音数据和视频数据的方法流程图；
25.图8示意性示出了根据本公开实施例的对异常情绪进行干预处理的方法流程图；
26.图9示意性示出了根据本公开实施例的基于二维向量的情绪表达模型的分布示意图；
27.图10示意性示出了根据本公开实施例的基于hmm和ann的混合识别模型的结构示意图；
28.图11示意性示出了根据本公开实施例的基于音视频进行情绪识别和员工管理的方法流程图；
29.图12示意性示出了根据本公开实施例的基于音视频的情绪识别装置的方框图；
30.图13示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的方框图。
具体实施方式
31.以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。
32.在本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。
33.在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
34.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。
35.在使用类似于“a、b和c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。在使用类似于“a、b或c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b或c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
36.附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。
37.基于现有呼叫中心难以及时识别话务员情绪变化，难以及时采取干预或疏导措施的问题，本公开的实施例提供了一种基于音视频的情绪识别方法、装置、设备、介质和程序产品，应用于金融领域，可以实时对话务员的情绪进行识别，有效对话务员情绪波动进行预警，对内降低话务中心的管理成本，对外提高对客服务质量。
38.图1示意性示出了根据本公开实施例的可以应用于基于音视频的情绪识别方法的应用场景图。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
39.如图1所示，根据该实施例的应用场景100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
40.用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、搜索类应用、即时通信工具、社交平台软件等(仅为示例)。
41.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
42.服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
43.需要说明的是，本公开实施例所提供的基于音视频的情绪识别方法一般可以由终端设备101、102、103和服务器105执行。相应地，本公开实施例所提供的基于音视频的情绪识别系统一般可以设置于终端设备101、102、103和服务器105中。本公开实施例所提供的基于音视频的情绪识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集执行。相应地，本公开实施例所提供的基于音视频的情绪识别系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集中。
44.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
45.以下将基于图1描述的场景，通过图2～图13对公开实施例的基于音视频的情绪识别方法进行详细描述。
46.图2示意性示出了根据本公开实施例的基于音视频的情绪识别方法的流程图。
47.如图2所示，该基于音视频的情绪识别200可以包括操作s210～s250。
48.在操作s210，采集音视频数据。
49.通过音/视频采集设备进行音视频数据的采集，音频采集设备固定放置于所需采集音视频场景的接收清楚声音范围内，能够帮助音频采集设备进行清楚的声音采集，能够保证采集到的声音数据质量较高；视频采集设备固定放置于所需采集音视频场景的采集清晰的人脸图像范围内，能够帮助视频采集设备进行清晰的人脸图像采集，能够保证采集到的人脸图像数据质量较高；音频采集设备和视频采集设备可以为同一设备。
50.在本公开的实施例中，在获取用户的音视频数据之前，可以获得用户的同意或授权。例如，在操作s210之前，可以向用户发出获取用户音视频数据的请求。在用户同意或授权可以获取用户音视频数据的情况下，执行所述操作s210。
51.在操作s220，对音视频数据进行预处理，得到语音数据和视频数据。
52.将所述同步采集的音视频数据进行分割，分别得到语音数据和视频数据，在下一步中，该语音数据和视频数据将分别进行处理。
53.在操作s230，将语音数据输入语音情绪识别模型，得到第一概率分布，第一概率分布用于表示语音情绪识别模型得到的语音情绪识别结果。
54.在操作s240，将视频数据输入视频情绪识别模型，得到第二概率分布，第二概率分布用于表示视频情绪识别模型得到的视频情绪识别结果。
55.在将采集的数据输入情绪识别模型之前，还包括从情感语音数据库和人脸表情识别图片库收集语音情感样本、表情情感样本。接着采用人工智能算法和分类器对语音样本、视频样本进行情绪识别模型训练，情绪识别模型包括对语音进行情绪识别的模型和对视频进行情绪识别的模型，两个模型分别输出语音情绪识别结果和视频情绪识别结果。该训练使得本公开的方法对人类情绪的识别更加准确，更具有实时性。
56.在操作s250，根据语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类。
57.最后，根据语音情绪识别结果和视频情绪识别结果进行融合判断，确定情绪分类。本公开的方法通过联合图像、语音的全面情绪识别系统研究人类情绪识别的两大主要方法(语音情绪识别、人脸图像情绪识别)，提升了识别人类情绪的时效性和准确性。
58.图3示意性示出了根据本公开实施例的将语音数据输入语音情绪识别模型，得到第一概率分布的方法流程图。
59.如图3所示，该将语音数据输入语音情绪识别模型，得到第一概率分布的方法可以包括操作s231～s233。
60.在操作s231，将语音数据进行预处理，并提取语音数据的特征参数。
61.在操作s232，利用隐马尔科夫模型对语音数据的特征参数进行识别，得到语音数据的特征向量。
62.在操作s233，利用预先建立的人工神经网络对语音数据的特征向量进行分类，得到语音情绪识别的第一概率分布。
63.隐马尔科夫模型(hidden markov model，hmm)是一种统计模型，用来描述具有隐含未知参数的从一个状态到另一个状态的转移过程，可以通过观测向量序列状态对该模型的状态进行观察，其中，每一个观测向量都是具有某种概率密度分布的状态分量产生，而又都通过某种概率分布表现为各种状态。应用隐马尔科夫模型对语音进行识别时，是通过马尔科夫链的不同状态对语音信号的形成过程进行描述，存储不同状态下对应的概率输出、循环运算获取模型参数，通过该算法求出不同模型的条件概率和条件概率最大值相应的语音即为识别结果，虽然隐马尔科夫模型能很好的对连续语音进行处理，但隐马尔科夫模型但分类能力弱、模式识别性能差。而人工神经网络(artificial neural network，ann)在并行处理和分类的问题上表现出了极大的优势，这得益于神经网络极强的输入输出映射能力，在大词汇量连续语音识别中，在噪声环境下语音识别率会大幅降低。因此，本公开针对
隐马尔科夫模型和ann的优缺点，结合hm的动态时序建模能力和ann的分类决策能力形成混合模型，hm模型输出成为ann的输入，对语音情感进行分类和识别，提高了语音识别的精确度。
64.图4示意性示出了根据本公开实施例的利用预先建立的人工神经网络对语音数据的特征向量进行分类的方法流程图。
65.如图4所示，该利用预先建立的人工神经网络对语音数据的特征向量进行分类的方法可以包括操作s2331～s2333。
66.在操作s2331，对语音数据的特征向量进行归一化，得到待识别特征矩阵。
67.在操作s2332，将待识别特征矩阵作为人工神经网络的输入。
68.在操作s2333，计算待识别特征矩阵和与样本语音情绪对应的标准特征矩阵中的各元素的匹配概率，语音情绪识别的第一概率分布。
69.为了使得人工神经网络与隐马尔科夫模型输出的语音数据的特征向量很好的对接，首先对语音数据的特征向量进行归一化得到归一化后的待识别特征矩阵，将该待识别特征矩阵输入至人工神经网络的输入层，待识别特征矩阵中包含多个分量(多个帧的目标语音信号)，训练好的人工神经网络模型中的样本语音情绪对应的标准特征矩阵中包含多个元素，计算待识别特征矩阵与标准特征矩阵中各元素的匹配概率，得到语音情绪识别的第一概率分布。
70.本公开将隐马尔科夫模型和人工神经网络两者结合对语音信号进行识别，能避免单一的hmm模型带来的分类能力弱、模式识别性能差的局限性或神经网络带来的对动态特性表述能力差的局限性而带来的对语音的识别精确度较低的问题。
71.在本公开的实施例中，语音数据的特征参数包括基音频率、短时能量和振幅。
72.原始语音信号中包含多种信息，首先要选取更易于反应情绪状态的特征，本文选取基音频率、短时能量、振幅3个特征。基音频率是发音声带振动的基本频率，基因频率的变化模式成为音调。音调包含大量的语音情感唤起度信息。短时能量即音量高低，激动情绪状态下如生气或惊讶时易表现出较高的短时能量。振幅表示短时能量的波动情况，悲伤或平静时语音信号振幅较小，愤怒或震惊时振幅较大。
73.图5示意性示出了根据本公开实施例的将视频数据输入视频情绪识别模型，得到第二概率分布的方法流程图。
74.如图5所示，该将视频数据输入视频情绪识别模型，得到第二概率分布的方法可以包括操作s241～s243。
75.在操作s241，将视频数据进行预处理，并提取视频数据的面部表情图像。
76.在操作s242，利用局部二值拟合算法对面部表情图像进行特征提取，得到视频数据的特征向量。
77.在操作s243，利用随机森林算法对视频数据的特征向量进行分类，得到视频情绪识别的第二概率分布。
78.对视频数据进行预处理包括对整张视频图像进行灰度化、直方图均衡化，以消除光照噪声因素对人脸检测和人脸关键点检测的影响，提高图像质量，再提取视频数据的面部表情图像。采用局部二值拟合(local binary fitting，lbf)对该面部表情图像进行处理，并将得出的特征值作为情图像的特征向量，利用随机森林算法(random forest，rf)进
行分类识别，得到视频情绪识别的第二概率分布。
79.图6示意性示出了根据本公开实施例的利用局部二值拟合算法对面部表情图像进行特征提取，得到视频数据的特征向量的方法流程图。
80.如图6所示，该利用lbf算法对面部表情图像进行特征提取，得到视频数据的特征向量的方法可以包括操作s2421～s2423。
81.在操作s2421，对面部表情图像进行人脸检测，得到人脸部分图像。
82.在操作s2422，根据人脸部分图像利用局部二值拟合算法提取人脸关键点。
83.在操作s2423，根据人脸关键点构建视频数据的特征向量。
84.通过adaboost算法或其它算法对预处理后的视频图像进行人脸检测，定位人脸的位置；通过lbf算法训练并检测得到人脸关键点，关键点包含了人的脸颊、双眼、鼻子和嘴唇部位，利用人脸表情变化时，这些特征点的位置会随着人体器官做出相应变化，基于这一特征求取它们相对于彼此的位置来表示该图像的表情。
85.在上述实施例的基础上，根据语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类包括：根据预设的先验概率作为权重参数，根据权重参数、第一概率分布、二概率分布使用argmax函数计算情绪识别的综合评分，并确定情绪分类。
86.本公开对音频单模态情绪识别结果和视频单模态情绪识别结果进行决策融合判断，每一个模态识别对应一个分类器，对分类器输出进行组合，根据分类器输出概率给予对应全重，使用如下规则得出最终分数：
[0087][0088]
其中，r为分类器数量，p(xc)是情绪分类c的先验概率，yi是c在混合分类器i的权重函数。
[0089]
图7示意性示出了根据本公开实施例的对音视频数据进行预处理，得到语音数据和视频数据的方法流程图。
[0090]
如图7所示，该对音视频数据进行预处理，得到语音数据和视频数据的方法可以包括操作s221～s222。
[0091]
在操作s221，对音视频数据进行语音检测，得到语音数据。
[0092]
在操作s222，对音视频数据进行视频提取，得到视频数据。
[0093]
对所述音视频数据进行预处理，分别得到语音数据和视频数据，再使用人工智能处理方法分别对语音数据和视频数据进行处理，进而分别得到语音情绪识别结果和视频情绪识别结果。
[0094]
图8示意性示出了根据本公开实施例的对异常情绪进行干预处理的方法流程图。
[0095]
如图8所示，该对异常情绪进行干预处理的方法可以包括操作s261～s262。
[0096]
在操作s261，将情绪分类与预设异常情绪样本集进行匹配。
[0097]
在操作s262，若匹配成功，则对异常情绪进行干预处理。
[0098]
在话务中心等使用场景下，确定情绪分类后还进一步将最终得到的情绪分类与异常情绪样本进行匹配，判断当事人的情绪是否异常，可以及时对异常情绪的当事人进行干预或疏导，有利于维护对客服务形象。
[0099]
下面通过具体实施方式对本公开作进一步说明。在以下实施例中对上述基于音视频的情绪识别方法及装置进行具体说明。但是，下述实施例仅用于对本公开进行例示，本公开的范围不限于此。
[0100]
本实施例构建了一套面向大型话务中心的通用情绪识别和预警系统，包括音视频采集、音视频分离、语音/面部情绪识别训练、语音/面部情绪判断、话务员情绪波动预警，对内降低话务中心的管理成本，对外提高对客服务质量。
[0101]
本实施还提供一种面向大型呼叫中心基于音视频进行情绪识别和员工管理的方法，其主要包括如下步骤：
[0102]
步骤1：音视频信息采集：
[0103]
步骤101：音视频采集设备部署，话务员工位部署音视频采集设备，每台设备与物理工位信息绑定，物理工位信息映射到具体话务员；
[0104]
步骤102：音视频信息收集，话务员办理业务时通过旁路或者同步方式采集音视频信息，存储至集中对象存储中心；
[0105]
步骤2：情绪识别模型训练：
[0106]
步骤201：训练数据收集和标注：采集音视频片段信息或收集行业共享数据，人工进行情绪标注，本文采用基于唤起(arousal)和积极(valence)程度高低的二维向量表达方式表示情绪状态，如图9所示，其中纵轴“激发维”反应的是话者生理上的激励程度或对采取某种行动所作的准备，是主动的还是被动的；而横轴“积极维”反应的是话者对事物正面或负面的评价。在这种表达模型中，每种情感可被看成是连续体的一部分，不通同的情感可被映射成二维空间上的一个点；
[0107]
步骤202：情绪识别模型训练：本文采用基于hm和ann相结合的混合情绪分类器。hm模型基于先验统计概率判断语音情绪状态，对动态时间序列具有较强的建模能力，但分类能力弱、模式识别性能差。ann模型具有较强的分类决策能力和自适应学习能力，但对动态特性表述能力差。本实施例的混合情绪分类器针对两种模型的优缺点，结合hm的动态时序建模能力和ann的分类决策能力形成混合模型，如图10所示，hmm模型输出成为ann的输入，对语音情感进行分类和识别。情感特征是原始语音信号中包含多种信息，首先要选取更易于反应情绪状态的特征，本实施例选取基音频率、短时能量、振幅3个特征。
[0108]
步骤3：情绪识别。
[0109]
步骤301：音视频信息分离：将实时采集的话务员音视频信息分离为独立的音频流和视频流，如图11所示；
[0110]
步骤302：语音信号特征提取：语音分帧提取声纹特征、基音频率、能量参数、共振峰值频率等；
[0111]
步骤303：语音状态译码：预先针对每种情感状态建立好hm模型，输入提取的特征向量匹配基础情感的概率分布；
[0112]
步骤304：视频图像采样：对采样帧中的面部表情进行预处理；
[0113]
步骤305：面部特征提取：采用lbf(局部二值模式)算法提取图像帧特征；
[0114]
步骤306：面部情绪判断：采用rf算法对提取特征进行模型判断，并以视频帧的情绪均值作为单模态的情绪识别结果；
[0115]
步骤307：情绪识别融合判断：音频信号和面部表情信息的互补性，在一定程度上
可提高情绪识别的准确率。本文对音频单模态情绪识别结果和视频单模态情绪识别结果进行决策融合判断，每一个模态识别对应一个分类器，对分类器输出进行组合，根据分类器输出概率给予对应全重，使用如下规则得出最终分数：
[0116][0117]
其中，r为分类器数量，p(xc)是情绪分类c的先验概率，yi是c在混合分类器i的权重函数。
[0118]
步骤4：异常情绪事件预警
[0119]
步骤401：预设异常情绪样本匹配集；
[0120]
步骤402：事件触发：持续若干时间识别出异常情绪时产生事件信息提示；
[0121]
步骤403：现场管理人员处理事件：现场管理人员调阅音视频确认事件有效性，采取及时干预措施。
[0122]
本公开的基于音视频的情绪识别方法和装置，基于音频和视频的多模态识别，有效提高了情绪识别的准确性；基于事件驱动的异常情绪预警系统，可以在事中及时定点发现问题，提升现场管理效率，最大可能挽回对客服务形象损失；除异常情绪外，可进一步基于视频信息的肢体动作等引入话务员异常行为识别模型，扩展本系统可监测的异常事件范围；本公开的方法在现场管理场景下具有较强的通用性。
[0123]
图12示意性示出了根据本公开一实施例的基于音视频的情绪识别装置的方框图。
[0124]
如图12所示，该基于音视频的情绪识别装置1200包括：采集模块1210、处理模块1220、语音情绪识别模块1230、视频情绪识别模块1240、融合判断模块1250。
[0125]
采集模块1210，用于采集音视频数据。根据本公开的实施例，该采集模块1210例如可以用于执行上文参考图2所描述的s210步骤，在此不再赘述。
[0126]
处理模块1220，用于对音视频数据进行预处理，得到语音数据和视频数据。根据本公开的实施例，该处理模块1220例如可以用于执行上文参考图2所描述的s220步骤，在此不再赘述。
[0127]
语音情绪识别模块1230，用于将语音数据输入语音情绪识别模型，得到第一概率分布，第一概率分布用于表示语音情绪识别模型得到的语音情绪识别结果。根据本公开的实施例，该语音情绪识别模块1230例如可以用于执行上文参考图2所描述的s230步骤，在此不再赘述。
[0128]
视频情绪识别模块1240，用于将视频数据输入视频情绪识别模型，得到第二概率分布，第二概率分布用于表示视频情绪识别模型得到的视频情绪识别结果。根据本公开的实施例，该视频情绪识别模块1240例如可以用于执行上文参考图2所描述的s240步骤，在此不再赘述。
[0129]
融合判断模块1250，用于根据语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类。根据本公开的实施例，该融合判断模块1250例如可以用于执行上文参考图2所描述的s250步骤，在此不再赘述。
[0130]
需说明的是，根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模
块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
[0131]
例如，采集模块1210、处理模块1220、语音情绪识别模块1230、视频情绪识别模块1240、融合判断模块1250中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，采集模块1210、处理模块1220、语音情绪识别模块1230、视频情绪识别模块1240、融合判断模块1250中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，采集模块1210、处理模块1220、语音情绪识别模块1230、视频情绪识别模块1240、融合判断模块1250中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
[0132]
图13示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的方框图。图13示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0133]
如图13所示，本实施例中所描述的电子设备1300，包括：处理器1301，其可以根据存储在只读存储器(rom)1302中的程序或者从存储部分1308加载到随机访问存储器(ram)1303中的程序而执行各种适当的动作和处理。处理器1301例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))，等等。处理器1301还可以包括用于缓存用途的板载存储器。处理器1301可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0134]
在ram 1303中，存储有系统1300操作所需的各种程序和数据。处理器1301、rom 1302以及ram 1303通过总线1304彼此相连。处理器1301通过执行rom 1302和/或ram 1303中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，程序也可以存储在除rom 1302和ram 1303以外的一个或多个存储器中。处理器1301也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0135]
根据本公开的实施例，电子设备1300还可以包括输入/输出(i/o)接口1305，输入/输出(i/o)接口1305也连接至总线1304。系统1300还可以包括连接至i/o接口1305的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至i/o接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算
机程序根据需要被安装入存储部分1308。
[0136]
根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被处理器1301执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0137]
本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的基于音视频的情绪识别方法。
[0138]
根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的rom 1302和/或ram 1303和/或rom1302和ram 1303以外的一个或多个存储器。
[0139]
本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的基于音视频的情绪识别方法。
[0140]
在该计算机程序被处理器1301执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0141]
在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1309被下载和安装，和/或从可拆卸介质1311被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
[0142]
在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被处理器1301执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0143]
根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java，c++，python，“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备
或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0144]
需要说明的是，在本公开各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。
[0145]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0146]
本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0147]
尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

技术特征：

1.一种基于音视频的情绪识别方法，其特征在于，包括：采集音视频数据；对所述音视频数据进行预处理，得到语音数据和视频数据；将所述语音数据输入语音情绪识别模型，得到第一概率分布，所述第一概率分布用于表示所述语音情绪识别模型得到的语音情绪识别结果；将所述视频数据输入视频情绪识别模型，得到第二概率分布，所述第二概率分布用于表示所述视频情绪识别模型得到的视频情绪识别结果；根据所述语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类。2.根据权利要求1所述的基于音视频的情绪识别方法，其特征在于，所述将所述语音数据输入语音情绪识别模型，得到第一概率分布包括：将所述语音数据进行预处理，并提取所述语音数据的特征参数；利用隐马尔科夫模型对所述语音数据的特征参数进行识别，得到所述语音数据的特征向量；利用预先建立的人工神经网络对所述语音数据的特征向量进行分类，得到所述语音情绪识别的第一概率分布。3.根据权利要求2所述的基于音视频的情绪识别方法，其特征在于，所述利用预先建立的人工神经网络对所述语音数据的特征向量进行分类包括：对所述语音数据的特征向量进行归一化，得到待识别特征矩阵；将所述待识别特征矩阵作为所述人工神经网络的输入；计算所述待识别特征矩阵和与样本语音情绪对应的标准特征矩阵中的各元素的匹配概率，所述语音情绪识别的第一概率分布。4.根据权利要求2所述的基于音视频的情绪识别方法，其特征在于，所述语音数据的特征参数包括基音频率、短时能量和振幅。5.根据权利要求1所述的基于音视频的情绪识别方法，其特征在于，所述将所述视频数据输入视频情绪识别模型，得到第二概率分布包括：将所述视频数据进行预处理，并提取所述视频数据的面部表情图像；利用局部二值拟合算法对所述面部表情图像进行特征提取，得到所述视频数据的特征向量；利用随机森林算法对所述视频数据的特征向量进行分类，得到所述视频情绪识别的第二概率分布。6.根据权利要求5所述的基于音视频的情绪识别方法，其特征在于，所述利用局部二值拟合算法对所述面部表情图像进行特征提取，得到所述视频数据的特征向量包括：对所述面部表情图像进行人脸检测，得到人脸部分图像；根据所述人脸部分图像利用局部二值拟合算法提取人脸关键点；根据所述人脸关键点构建所述视频数据的特征向量。7.根据权利要求1所述的基于音视频的情绪识别方法，其特征在于，所述根据所述语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类包括：
根据预设的先验概率作为权重参数，根据所述权重参数、所述第一概率分布、所述二概率分布使用argmax函数计算情绪识别的综合评分，并确定情绪分类。8.根据权利要求1所述的基于音视频的情绪识别方法，其特征在于，所述对所述音视频数据进行预处理，得到语音数据和视频数据包括：对所述音视频数据进行语音检测，得到所述语音数据；对所述音视频数据进行视频提取，得到所述视频数据。9.根据权利要求1所述的基于音视频的情绪识别方法，其特征在于，所述确定情绪分类后还包括：将所述情绪分类与预设异常情绪样本集进行匹配；若匹配成功，则对异常情绪进行干预处理。10.一种基于音视频的情绪识别装置，其特征在于，包括：采集模块，用于采集音视频数据；处理模块，用于对所述音视频数据进行预处理，得到语音数据和视频数据；语音情绪识别模块，用于将所述语音数据输入语音情绪识别模型，得到第一概率分布，所述第一概率分布用于表示所述语音情绪识别模型得到的语音情绪识别结果；视频情绪识别模块，用于将所述视频数据输入视频情绪识别模型，得到第二概率分布，所述第二概率分布用于表示所述视频情绪识别模型得到的视频情绪识别结果；融合判断模块，用于根据所述语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类。11.一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～9中任意一项所述的基于音视频的情绪识别方法。12.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～9中任意一项所述的基于音视频的情绪识别方法。13.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～9中任意一项所述的基于音视频的情绪识别方法。

技术总结

本公开提供了一种基于音视频的情绪识别方法，应用于人工智能领域或其它领域，包括：采集音视频数据；对音视频数据进行预处理，得到语音数据和视频数据；将语音数据输入语音情绪识别模型，得到第一概率分布，第一概率分布用于表示语音情绪识别模型得到的语音情绪识别结果；将视频数据输入视频情绪识别模型，得到第二概率分布，第二概率分布用于表示视频情绪识别模型得到的视频情绪识别结果；根据语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类。本公开还提供了一种基于音视频的情绪识别系统、电子设备、存储介质和程序产品。存储介质和程序产品。存储介质和程序产品。