一种情绪识别方法、装置、存储介质及终端设备与流程

1.本技术涉及计算机应用技术领域，特别涉及一种情绪识别方法、装置、存储介质及终端设备。

背景技术：

2.随着移动互联网的快速发展，人机交互成为人们日常生成比不可少的交互方式。人们在进行人机交互过程中，普遍希望与之交互的设备(机器) 具有类似人的识别和理解情绪的能力，从而对人机交互技术提出了更高的要求。目前，大多数情绪识别(例如，情感分析和情绪识别)普遍集中在人脸表情识别、肢体动作识别、语音情绪识别以及文本情绪分析等，但是现有情绪识别方式中普遍存在信息量不足且容易受到外界各种因素的干扰的问题(例如，面部被部分遮挡、语音受环境噪声干扰、文本信息受上下文及说话者性格特征的影响等)，从而导致无法准确识别情绪。

技术实现要素：

3.本技术要解决的技术问题在于，针对现有技术的不足，提供一种情绪识别方法、装置、存储介质及终端设备。
4.为了解决上述技术问题，本技术实施例第一方面提供了一种情绪识别方法，所述方法包括：
5.获取待识别的视频数据，其中，所述视频数据包括若干对话方之间的语音对话；
6.确定所述语音对话中的各对话语句各自对应的情绪特征，并基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，其中，所述语句关联性集合包括各对话语句之间的关联性；
7.基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型。
8.所述情绪识别方法，其中，所述确定所述语音对话中的各对话语句各自对应的情绪特征具体包括：
9.提取所述视频数据携带的音频信息以及图像信息，以及确定所述音频信息对应的文本信息；
10.基于所述音频信息、图像信息以及所述文本信息，确定所述语音对话中的各对话语句各自对应的情绪特征。
11.所述情绪识别方法，其中，所述基于所述音频信息、图像信息以及所述文本信息，确定所述语音对话中的各对话语句各自对应的情绪特征具体包括：
12.获取所述语音对话中的各对话语句，其中，所述语音对话中的每一对话语句均分别对应一对话方；
13.确定所述语音对话中的各对话语句各自对应的情绪特征；其中，对于每个对话语句，确定该对话语句对应的图像信息块以及文本信息块，其中，所述图像信息块包括于所述
图像信息中，所述文本信息块包括于所述文本信息中；确定该对话语句对应的语音情绪特征、该图像信息块对应的图像情绪特征，以及该文本信息块对应的文本情绪特征；基于该语音情绪特征、图像情绪特征以及文本情绪特征，确定该对话语句对应的情绪特征，以得到各对话语句各自对应的情绪特征。
14.所述情绪识别方法，其中，所述基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，其中，所述语句关联性集合包括各对话语句之间的关联性具体包括：
15.将各对话语句各自对应的情绪特征作为图节点，并将各图节点按照语音对话的对话顺序依次连接，以得到若干第一连接边；
16.对于每个图节点，获取该图节点对应的候选图节点，并将该图节点与其对应的候选图节点连接以得到若干第二连接边，其中，所述候选图节点对应的对话方与该图节点对应的对话方相同，并且候选节点与该图节点相邻；
17.将所述图节点以及若干第一连接边和若干第二连接边构成的图结构作为所述语音对话对应的语句关联性集合。
18.所述情绪识别方法，其中，所述语句关联性集合采用图结构，所述基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型具体包括：
19.对所述语句关联性集合进行图运算，以得到所述图特征；
20.基于所述图特征对语句关联性集合中的各图节点各自对应的情感类型，以得到所述语音对话中的各对话语句各自对应的情绪类型。
21.所述情绪识别方法，其中，所述对所述语句关联性集合进行图运算，以得到所述图特征具体包括：
22.获取所述语句关联性集合对应的拉普拉斯矩阵，并基于所述拉普拉斯矩阵确定所述语句关联性集合对应的目标卷积核；
23.基于所述目标卷积核对所述语句关联性集合进行图运算，得到所述图特征。
24.所述情绪识别方法，其中，所述基于所述目标卷积核对所述语句关联性集合进行图运算，得到所述图特征具体包括：
25.将所述语句关联性集合输入经过训练的图卷积网络，其中，所述图卷积网络中的图卷积层的卷积核为所述目标卷积核；
26.通过所述图卷积网络输出所述语句关联性集合对应的图特征。
27.所述情绪识别方法，其中，所述获取所述语句关联性集合对应的拉普拉斯矩阵，并基于所述拉普拉斯矩阵确定所述语句关联性集合对应的目标卷积核具体包括：
28.获取所述语句关联性集合对应的邻接矩阵以及度矩阵，基于所述邻接矩阵以及度矩阵确定所述语句关联性集合对应的拉普拉斯矩阵；
29.对所述拉普拉斯矩阵进行正则化，以得到所述语句关联性集合对应的目标卷积核。
30.所述情绪识别方法，其中，所述基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型之后，所述方法还包括：
31.对于语音对话中的目标对话语句，基于该对话语句以及该目标对话语句对应的情绪类型，确定该目标对话语句对应的应答信息。
32.本技术实施例第二方面提供了一种情绪识别装置，所述情绪识别装置包括：
33.获取模块，用于获取待识别的视频数据，其中，所述视频数据包括若干对话方之间的语音对话；
34.第一确定模块，用于确定所述语音对话中的各对话语句各自对应的情绪特征，并基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，其中，所述语句关联性集合包括各对话语句之间的关联性；
35.第二确定模块，用于基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型。
36.本技术实施例第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的情绪识别方法中的步骤。
37.本技术实施例第五方面提供了一种终端设备，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；
38.所述通信总线实现处理器和存储器之间的连接通信；
39.所述处理器执行所述计算机可读程序时实现如上任一所述的情绪识别方法中的步骤。
40.有益效果：与现有技术相比，本技术提供了一种情绪识别方法、装置、存储介质及终端设备，所述方法包括获取待识别的视频数据；确定所述语音对话中的各对话语句各自对应的情绪特征，并基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，其中，所述语句关联性集合包括各对话语句之间的关联性；基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型。本技术通过视频数据确定语音对话中的各对话语句的情绪特征，并基于情绪特征构建语句关联性集合，以通过语句关联性集合确定对话语句对应的情绪类型，这样通过语句关联性集合的关系表达能力，可以学习到各对话语句各自对应的情绪特征之间的关联性，从而可以提高各对话语句各自对应的情绪类型的准确性。
附图说明
41.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。
42.图1为本技术提供的情绪识别方法的流程图。
43.图2为本技术提供的情绪识别方法的流程示例图。
44.图3为本技术提供的情绪识别方法中语句关联性集合的示意图。
45.图4为本技术提供的情绪识别方法中图特征的示意图。
46.图5为本技术提供的情绪识别装置的结构原理图。
47.图6为本技术提供的终端设备的结构原理图。
具体实施方式
48.本技术提供一种情绪识别方法、装置、存储介质及终端设备，为使本技术的目的、
技术方案及效果更加清楚、明确，以下参照附图并举实施例对本技术进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
49.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
50.本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语 (包括技术术语和科学术语)，具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
51.发明人经过研究发现，移动互联网的快速发展产生了大量的视频、图片、音频和文本数据，人们的交互方式也从人际间的交互更多的转向人机间的交互，人们期望与之交互的设备(机器)具有类似人的识别和理解情感和情绪的能力，对人机交互技术提出了更高的要求。目前大多数情感计算(情感分析和情绪识别)集中在人脸表情识别、肢体动作识别、语音情绪识别、文本情感分析等单模态领域，虽然人脸、姿态和语音等均能独立表示一定的情感，但是单模态信息量不足且容易受到外界各种因素的干扰，例如：面部被部分遮挡、语音受环境噪声干扰、文本信息受上下文及说话者性格特征的影响等，导致从单一模态中很难准确识别出人的情感和情绪。
52.为了解决上述问题，在本技术实施例中，在获取待识别的视频数据后，确定所述语音对话中的各对话语句各自对应的情绪特征，并基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，其中，所述语句关联性集合包括各对话语句之间的关联性；基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型。本技术通过视频数据确定语音对话中的各对话语句的情绪特征，并基于情绪特征构建语句关联性集合，以通过语句关联性集合确定对话语句对应的情绪类型，这样通过语句关联性集合的关系表达能力，可以学习到各对话语句各自对应的情绪特征之间的关联性，从而可以提高各对话语句各自对应的情绪类型的准确性。
53.下面结合附图，通过对实施例的描述，对申请内容作进一步说明。
54.本实施例提供的一种情绪识别方法，该方法可以由情绪识别装置来执行，所述装置可以由软件实现，应用于诸如智能手机、平板电脑或个人数字助理等之类的智能终端上。参见图1和图2，本实施提供了一种情绪识别方法具体包括：
55.s10、获取待识别的视频数据。
56.具体地，所述视频数据可以是运行该情绪识别方法的终端设备拍摄得到的，或者是，外部设备发送的运行该情绪识别方法的终端设备的，或者是，通过网络(例如，百度)下载的，或者是，存储于运行该情绪识别方法的终端设备本地的等。所述视频数据包括图像数据以及音频数据，所述音频数据中包括若干对话方之间的语音对话，所述图像数据包括若
干对话方中各对话方的图像信息，由此，所述视频数据包括若干对话方之间的语音对话，其中，视频数据包括的若干对话方可以为一个对话方，也可以为多个对话方，并且语音对话对应多个对话方时，视频数据也可以进包括多个对话方中的部分对话方的图像数据，或者包含全部对话方的图像数据。例如，所述视频数据为用户a和用户b的之间的对话视频，那么用户a和用户b均为对话方，用户a说的对话以及用户b说的对话为对话方之间的语音对话，用户a说话时的动作和表情以及用户b说话时的动作和表情均为视频数据中的图像数据。又如，所述视频数据为用户c与机器人之间的对话视频，那么用户c和机器人作为对话方，机器人可以配置本实施例提供的情绪识别方法，用户c的说话时的动作和表情为视频数据中的图像数据，以使得机器人可以基于本实施例提供的情绪识别方法获取用户c的情绪类型，以便于后续基于用户c的对话语句以及对话语句对应的情绪类型，确定对话语句的应答信息。
57.在本实施例的一个实现方式中，所述视频数据是运行该情绪识别方法的终端设备拍摄得到的。该终端设备配置有图像采集设备以及音频采集设备，图像采集设备用于采用对话方的图像信息，音频采集设备用于采集对话方之间的语音对话，图像采集设备采集的图像信息以及音频采集设备采集的语音对话构成该视频数据。此外，图像采集设备与音频采集设备同步采集，使得视频数据中的图像信息和音频数据按照时间戳同步，这样对于视频数据中的每帧视频图像，在视频数据中均可以选取到该视频图像对应的音频信息。
58.s20、确定所述语音对话中的各对话语句各自对应的情绪特征，并基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，其中，所述语句关联性集合包括各对话语句之间的关联性。
59.具体地，所述语音对话包括若干对话语句，若干对话语句中的每个对话语句对应于一个对话方。可以理解的是，每个对话语句均为一个对话方说的一句话。并且若干对话语句中至少存在对话语句a和对话语句b，对话语句a对应的对话方和对比语句b对应的对话方不同。
60.举例说明：视频数据包括的语音对话为对话方1和对话方2的对话，视频数据包括的语音对话为：
61.对话方1：咱们出去玩吧！
62.对比方2：好。
63.对话方1：我们去海边走走。
64.对比方2：恩，我们可以在海边骑自行车。
65.那么语音对话包括的对话语句为“咱们出去玩吧！”、“好。”、“我们去海边走走。”以及“恩，我们可以在海边骑自行车。”，其中，“咱们出去玩吧！”和“我们去海边走走。”对应的对话方均为对话方1；“好。”以及“恩，我们可以在海边骑自行车。”对应的对话方均为对话方2，并且“咱们出去玩吧！”对应的对话方和“好。”对应的对话方不同。
66.所述情绪特征用于反映语对话语句携带的情绪信息，各对话语句各自对应的情绪特征用于反映各对话语句写的情绪信息。其中，所述情绪信息可以包括生气(anger)、厌恶(disgust)、害怕(fear)、快乐(happy)、悲伤(sadness)、兴奋(surprise)以及中性neutral(neutral)等。各对话语句各自对应的情绪特征所反映的情绪信息可以为生气(anger)、厌恶(disgust)、害怕(fear)、快乐(happy)、悲伤(sadness)、兴奋 (surprise)以及中性neutral(neutral)中的一种，各对话语句各自对应的情绪特征所反映的情绪信息可以相
同，也可以不同。例如，对话语句“我很开心”对应的情绪特征所反映的情绪信息为快乐(happy)，又如，对话语句“我很生气”对应的情绪特征所反映的情绪信息为生气(anger)。
67.在本实施例的一个实现方式中，所述确定所述语音对话中的各对话语句各自对应的情绪特征具体包括：
68.提取所述视频数据携带的音频信息以及图像信息，以及确定所述音频信息对应的文本信息；
69.基于所述音频信息、图像信息以及所述文本信息，确定所述语音对话中的各对话语句各自对应的情绪特征。
70.具体地，所述音频信息和所述图像信息均包括于所述视频数据中，所述音频信息用于反映所述视频数据携带的各对话语句，所述图像信息用于反映所述音频信息对应的图像内容，其中，所述图像信息可以为视频数据中的若干视频帧，对于若干视频帧中的每个视频帧，所述音频信息中存在一子音频信息，该子音频信息的时间戳与该视频帧的时间戳同步。当然，在实际应用中，为了提高基于图像信息获取的图像情绪特征的准确性，在获取到若干视频帧后，对于若干视频帧中的每个视频帧，提取该视频帧中的人物图像，并采用提取到的人物图像替换该视频帧，其中，所述人物图像为该视频帧对应的对话语句所属的对话方的图像。
71.所述文本信息为基于所述音频信息转换得到，为所述音频信息对应的文字内容，例如，所述音频信息为“今天真累呀”，那么所述文本信息为“今天真累呀”。此外，由所述音频信息包括若干对话语句可知，所述文本信息包括若干文字语句，若干文字语句与所述若干对话语句一一对应，每个文字语句为其对应的对话语句对应的文字内容。所述图像信息包括的若干视频帧可以根据若干对话语句划分为若干视频帧组，若干视频帧组与若干对话语句一一对应，并且每个视频帧组为若干视频帧均为若干连续视频帧，并且若干连续视频帧构成的视频段对应的时间戳与该视频帧组对应的对话语句的时间戳相同。例如，音频信息包括对话语句“咱们出去玩吧！”，“咱们出去玩吧！”对应的时间戳为11分10秒-11分20秒，那么图像信息中存在视频帧组，该视频帧组对应的时间戳为11分10秒-11分20秒，并且该视频帧组中的视频帧组构成的视频段为对话方说该对话语句时的图像信息。
72.在本实施的一个实现方式中，所述基于所述音频信息、图像信息以及所述文本信息，确定所述语音对话中的各对话语句各自对应的情绪特征具体包括：
73.获取所述语音对话中的各对话语句，其中，所述语音对话中的每一对话语句均分别对应一对话方；
74.确定所述语音对话中的各对话语句各自对应的情绪特征；其中，对于每个对话语句，确定该对话语句对应的图像信息块及文本信息块；确定该对话语句对应的语音情绪特征、该图像信息块对应的图像情绪特征，以及该文本信息块对应的文本情绪特征；基于该语音情绪特征、图像情绪特征以及文本情绪特征，确定该对话语句对应的情绪特征，以得到各对话语句各自对应的情绪特征。
75.具体地，所述语音对话包括若干对话语句，若干对话语句中的每个对话语句对应一个对话方，若干对话语句中至少存在两个对应的对话方不同的对话语句，并且若干对话语句中可以存在两个对应的对话方相同的对话语句。所述图像信息块包括于所述图像信息中，并且所述图像信息块对应的时间戳与所述对话语句对应的时间戳相同。所述文本信息
块包括于所述文本信息中，所述文本信息对应的文字内容与所述对话语句对应的语音内容相同。换句话说，所述图像信息块为对话方陈述对话语句时的图像画面，图像画面可以包括对话方的姿态动作以及面部表情等等，所述文本信息块为对话语句的语音内容对应的文字内容。
76.所述语音情绪特征为基于音频信息确定，用于反映音频信息对应的情绪信息；所述图像情绪特征为基于音频信息确定，用于反映图像信息对应的情绪信息；所述文本情绪特征为基于文本信息确定，用于反映文本信息对应的情绪信息。其中，语音情绪特征为语音模态的情绪特征，图像情绪特征为图像模态的情绪特征，文本情绪特征为文本模态的情绪特征，这样基于该语音情绪特征、图像情绪特征以及文本情绪特征，确定该对话语句对应的情绪特征，使得了通过多模态来确定对话语句对应的情绪特征。可与提高情绪特征的准确性。这是由于有学者研究发现人类大脑在进行感知时，不同感官会被无意识地自动结合在一起对信息进行处理，任何感官信息的缺失或不准确都会导致大脑对外界信息的理解产生偏差，从而采用多模态来确定情绪特征，可以提高情绪特征的准确性。另外，从人体生物测试(例如，脑电波信号采集、湿电极心电信号采集、眼球运动监测、面部肌肉运动分析、血压脉搏测试、肾上腺激素分析等)可知，即多模态综合识别的效果优于单一模态。
77.在本实施例的一个实现方式中，所述的语音情绪特征、图像情绪特征和文本情绪特征用于反映一对话方说该对话语句是的三种模态特征，所述语音情绪特征、图像情绪特征和文本情绪特征在时间上对齐。由此，在获取到语音情绪特征、图像情绪特征和文本情绪特征，将语音情绪特征、图像情绪特征和文本情绪特征进行拼接以得到该对话语句对应的情感特征，使得该情感特征携带有该对话语句的三种模态特征。
78.举例说明：假设对话语句a对应图像信息块a以及文本信息块1，对话语句a、图像信息块a以及文本信息块1按时间戳同步；采用经过训练的卷积神经网络模型确定该图像信息块a对应的图像情绪特征向量，记为fi，维度是di；采用经过训练的卷积神经网络模型确定该对话语句a对应的语音情绪特征向量，记为fa，维度是da；采用经过训练的卷积神经网络模型确定该文本信息块1对应的文本情绪特征向量，记为ft，维度是dt。在获取到fi，fa以及ft后，将fi，fa以及ft直接进行concatenate拼接操作，形成融合后的情绪特征向量fr＝[fi；fa；ft]，维度是di+da+dt。当然，在实际应用中，在确定图像情绪特征向量、语音情绪特征向量以及文本情绪特征向量时，还可以采用其他方法，例如，循环神经网络模型等，这里就不一一说明，这样可以获取到图像情绪特征向量、语音情绪特征向量以及文本情绪特征向量的方法均可以，并且图像情绪特征向量、语音情绪特征向量以及文本情绪特征向量还可以采用不同的方法获取。
[0079]
所述语句关联性集合用于反映语音对话中各对话语句之间的关联性，其中，所述关联性用于反映各对话语句之间是否具有关联，当两个对话语句之间具有关联时，两个对话语句之间具有关联性，反之，当两个对话语句之间不具有关联时，两个对话语句之间不具有关联性。所述关联性可以根据实际需要来确定，例如，当对话语句a和对话语句b属于相同的对话方时，可以说明对话语句a和对话语句b之间存在关联性；又如，当对话语句c的对话顺序和对话语句d的对话顺序相邻，可以说明对话语句c和对话语句d之间存在关联性等；例如，当对话e和对话f之间的内容具有关联，比如对话e为疑问句，对话f为对话e的回答，可以说明对话语句e 和对话语句f之间存在关联性。此外，对于每个对话语句，在语句关联性集
合中均可以获取到与该对话语句相关联的对话语句，并且与该对话语句相关联的对话语句包括于若干对语句。
[0080]
在本实施例的一个实现方式中，所述语句关联性集合采用为图结构，述语句关联性集合包括若干图节点以及若干连接边，所述连接边的两个端点为若干图节点中的两个图节点。这样通过利用图结构数据的关系表达能力，可以通过该语句关联性集合学习到各对话语句之间的关联性。相应的，在本实施例的一个实现方式中，所述基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，其中，所述语句关联性集合包括各对话语句之间的关联性具体包括：
[0081]
将各对话语句各自对应的情绪特征作为图节点，并将各图节点按照语音对话的对话顺序依次连接，以得到若干第一连接边；
[0082]
对于每个图节点，获取该图节点对应的候选图节点，并将该图节点与其对应的候选图节点连接以得到若干第二连接边，其中，所述候选图节点对应的对话方与该图节点对应的对话方相同，并且候选节点与该图节点相邻；
[0083]
将所述图节点以及若干第一连接边和若干第二连接边构成的图结构作为所述语音对话对应的语句关联性集合。
[0084]
具体地，所述语音对话的对话顺序指的是语音对话中各对话语句各自对应的时间戳的顺序。所述第一连接边为有向连接边，并且第一连接边的连接方向为从按照对话顺序从前向后连接，用于反映各对话语句之间的上下文关系。这是由于语音对话是动态的，语音对话中的前后的上下文很重要，一个对话方的应答反馈对另一对话方的情绪影响也很重要。例如：“好。”的前文如果是“咱们出去玩吧！”，则“好。”蕴含的情绪是正面的；如果“好。”的前文是“工作做得那么差，居然还请假，快去干活！”，则“好。”这句话蕴含的情绪则是负面的。由此，语音对话中的语境即上下文和说话人之间的互动会对情绪的产生影响。因此，采用第一连接边将各图节点按照语音对话的对话顺序依次连接，使得语句关联性集合中包涵了语音会话中的上下文因素对情绪的影响以及他人的应答对说话者自身情绪的影响。
[0085]
第一连接边连接的两个对话语句为按照对话顺序相连接的两个对话语句，并且第一连接线的连接方向为从两个对话语句中按照对话顺序位于前的对比语句指向位于后的对话语句。例如，如图3所示，语音对话包括3 个对话方，10个对话语句，p(person)代表对话方；u(utterance)代表一对话语句；pn-un代表第n个说话人说的第n句话，10个对话语句各自对应的情感特征可以表示为p1-u1、p2-u2、p1-u3、p1-u4、p2-u5、p3-u6、 p2-u7、p3-u8、p2-u9以及p3-u10；那么若干第一连接边包括9个第一连接边，9个第一连接边分别为p1-u1指向p2-u2的连接边，p2-u2指向p1-u3 的连接边，p1-u3指向p1-u4的连接边，p1-u4指向p2-u5的连接边；p2-u5 指向p3-u6的连接边；p3-u6指向p2-u7的连接边；p2-u7指向p3-u8的连接边；p3-u8指向p2-u9的连接边；p2-u9指向p3-u10的连接边。
[0086]
此外，对话方的性格特征也会对情绪产生影响，例如，心理学指出一个人在说话中的情绪是稳定的，有延续性，除非这个情绪状态被外界的变化而打破；心理学同时指出一个人的性格特征在对话情绪中也有所体现，比如，一个性格急躁之人，说不了几句话就会很烦，情绪偏向负面的概率较高。本实施例在构建语句关联性集合时将一对话方对应的各对话语句进行连边，以使得语句关联性集合包涵对方话自身的情绪影响。由此，在确定若干第一连接边后，在同一对话方对应的各图节点之间建立第二连接边，所述第二连接边为有向
连接边，对于每个图节点，以该图节点为起始点向与其对应的候选图节点连接线，以得到该图节点对应的第二连接边，该图节点对应的第二连接边由该图节点指向该图节点对应的候选图节点。其中，所述候选图节点对应的对话方与该图节点对应的对话方相同，并且候选节点与该图节点相邻。例如，如图3所示，语音对话包括3个对话方，10个对话语句，p(person)代表对话方；u(utterance)代表一对话语句；pn-un 代表第n个说话人说的第n句话，10个对话语句各自对应的情感特征可以表示为p1-u1、p2-u2、p1-u3、p1-u4、p2-u5、p3-u6、p2-u7、p3-u8、p2-u9 以及p3-u10。对话方p2对应的对话语句有p2-u2、p2-u5、p3-u6、p2-u7 以及p2-u9，那么对于p2-u2，p2-u2对应的候选图节点包括p2-u7以及 p2-u5，那么p2-u2对应的第二连接边包括p2-u2指向p2-u5的连接边，和 p2-u2指向p2-u7的连接边。
[0087]
s30、基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型。
[0088]
具体地，所述情绪类型用于反映对话语句的情绪信息，所述情绪类型可以为生气(anger)、厌恶(disgust)、害怕(fear)、快乐(happy)、悲伤(sadness)、兴奋(surprise)或者中性neutral(neutral)的一种，每个对话语句对应一种情绪类型，各对应语句对应的情绪类型可以相同，也可以不同，例如，对话语句包括对话语句a和对话语句b，对话语句a对应的情绪类型为生气，对话语句b对应的情绪类型为快乐等。
[0089]
在本实施例的一个实现方式中，所述基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型具体包括：
[0090]
对所述语句关联性集合进行图运算，以得到所述图特征；
[0091]
基于所述图特征对语句关联性集合中的各图节点各自对应的情感类型，以得到所述语音对话中的各对话语句各自对应的情绪类型。
[0092]
具体地，所述图运算对所述语句关联性集合进行卷积操作，所述图特征为图结构数据，该图特征中的图节点与语句关联性集合中的图节点相同，该图特征中的连接边与语句关联性集合中的连接边不同。例如，如图3所示的语句关联性集合，经过图运算得到的图特征可以如图4所示。
[0093]
此外，所述卷积操作对应的目标卷积核为基于所述语句关联性集合确定，从而在对所述语句关联性集合进行图运算时，需要确定该图运算对应的目标卷积核。相应的，在本实施例的一个实现方式中，所述对所述语句关联性集合进行图运算，以得到所述图特征具体包括：
[0094]
获取所述语句关联性集合对应的拉普拉斯矩阵，并基于所述拉普拉斯矩阵确定所述语句关联性集合对应的目标卷积核；
[0095]
基于所述目标卷积核对所述语句关联性集合进行图运算，得到所述图特征。
[0096]
具体地，所述拉普拉斯矩阵用于以矩阵形式表示所述语句关联性集合，所述目标卷积核为用于对语句关联性集合进行卷积操作是所采用的卷积核，其中，所述卷积核为基于所述拉普拉斯矩阵确定。所述卷积核为矩阵形式，所述卷积核的矩阵维度与所述拉普拉斯矩阵的矩阵维度相同，例如，拉普拉斯矩阵的矩阵维度为10*10，那么卷积核的矩阵维度为10*10。
[0097]
在本实施例的一个实现方式中，所述拉普拉斯矩阵为基于对话图对应的邻居矩阵和度矩阵确定得到。相应的，所述获取所述语句关联性集合对应的拉普拉斯矩阵，并基于所
述拉普拉斯矩阵确定所述语句关联性集合对应的目标卷积核具体包括：
[0098]
获取所述语句关联性集合对应的邻接矩阵以及度矩阵，基于所述邻接矩阵以及度矩阵确定所述语句关联性集合对应的拉普拉斯矩阵；
[0099]
对所述拉普拉斯矩阵进行正则化，以得到所述语句关联性集合对应的目标卷积核。
[0100]
具体地，所述邻居矩阵用于反映是表示语句关联性集合中的图顶点之间相邻关系的矩阵，例如，假设语句关联性集合为g＝(v,e)，其中， v＝{v1,v2,
…
,vn}为图顶点集合，那么语句关联性集合g对应的邻接矩阵n 阶方阵，并且邻居矩阵具有图顶点vi的出度为第i行所有非零元素的个数，而图顶点的入度为第i列所有非零元素的个数，并且用邻接矩阵法表示语句关联性集合共需要n^2个空间。所述度矩阵用于反映语句关联性集合每个图顶点的度数，即由该图顶点发出的连接边的数量。所述拉普拉斯矩阵等于度矩阵与邻居矩阵的矩阵差，例如，邻居矩阵表示为a，度矩阵标识为 d，拉普拉斯矩阵表示为l，那么l＝d-a。此外，所述拉普拉斯矩阵的正则化过程可以为：l＾＝i-d
(-1/2)
ad
(-1/2)
，其中，i为特征矩阵。
[0101]
在本实施例的一个实现方式中，该卷积操作通过图卷积神经网络进行的，可以理解的是，在获取到语句关联性集合后，通过经过图卷积神经网络对该语句关联性集合进行卷积操作，以得到该语句关联性集合对应的图特征。相应的，所述基于所述目标卷积核对所述语句关联性集合进行图运算，得到所述图特征具体包括：
[0102]
将所述语句关联性集合输入经过训练的图卷积网络，其中，所述图卷积网络中的图卷积层的卷积核为所述目标卷积核；
[0103]
通过所述图卷积网络输出所述语句关联性集合对应的图特征。
[0104]
具体地，所述图卷积网络的输入项为语句关联性集合，输出项为图特征，并且所述图卷积网络中的图卷积层配置的卷积和为目标卷积核。所述图卷积网络包括两个图卷积层，所述两个图卷积层级联，两个图卷积层均配置有目标卷积核，通过两个图卷积层对语句关联性集合进行两次卷积操作，以得到图特征。在本实施例的一个实现方式中，两个图卷积层中的每个图卷积层对应的卷积操作均可以表示为：
[0105]
x
(l+1)
＝ρ(l＾x
(l)w(l)
)
[0106]
其中，l＾表示目标卷积核，ρ表示非线性激活函数，例如，relu函数等；w为可学习权重，由梯度下降算法迭代更新；l(为小写l)代表图卷积层数，初始取值为0，递增到1，x
(l)
为图卷积层的输入项。
[0107]
在获取到图特征后，确定图特征中每个图顶点对应的情绪类型，以得到各对话语句各自对应的情绪类型。在确定各图顶点对应的情绪类型时，可以采用分类器，所述分类器预先配置有若干默认情绪类型，通过该分类器确定的各对话语句各自对应的情绪类型均包括于若干默认情绪类型中。例如，若干默认情绪类型包括生气(anger)、厌恶(disgust)、害怕(fear)、快乐(happy)、悲伤(sadness)、兴奋(surprise)以及中性neutral (neutral)。
[0108]
在本实施例的一个实现方式中，所述分类器可以采用softmax分类器， softmax分类器预先配置有生气(anger)、厌恶(disgust)、害怕(fear)、快乐(happy)、悲伤(sadness)、兴奋(surprise)以及中性neutral (neutral)，当将图特征输入softmax分类器后，softmax分类器基于生气(anger)、厌恶(disgust)、害怕(fear)、快乐(happy)、悲伤(sadness)、兴奋(surprise)以及中性neutral(neutral)对各图顶点进行标注，以得到各对话语句各自对应
的情感类型。其中，所述softmax分类器执行节点分类操作的过程可以表示为：
[0109]
z＝softmax(ρ(l＾xw))
[0110]
其中，l＾表示目标卷积核，ρ表示非线性激活函数，例如，relu函数等；w为可学习权重，由梯度下降算法迭代更新；，x为图特征。
[0111]
此外，为了说明本实施例提供的情绪识别方法的效果，本实施例将采用现有情绪识别模型和本实施例提供的情绪识别方法对同一视频数据进行识别，得到对比数据如表1所示。
[0112]
表1：实验数据对比
[0113][0114]
在本实施例的一个实现方式中，所述基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型之后，所述方法还包括：
[0115]
对于语音对话中的目标对话语句，基于该对话语句以及该目标对话语句对应的情绪类型，确定该目标对话语句对应的应答信息。
[0116]
具体地，目标对话语句可以为语音对话中的任一对话语句，也可以为目标对话方对应的对话语句，还可以是目标对话方在情绪类型获取时所说的对话语句等，其中，目标对话方包含于若干对话方内。例如，本实施例的一个应用场景为用户a与机器人对话，语音对话为用户a与机器人的语音对话，用户a和机器人均为对话方，并且用户a为目标对话方，该目标对话语句为用户a在情绪类型获取时所说的对话语句。
[0117]
所述应答信息为该语音信息对应的应答信息，其中，所述语义信息和所述情绪类型与所述应答服务信息之间的映射关系可以为预先建立的，在获取到语音信息以及语音信息对应的情绪类型后，可以根据该预设的映射关系，确定语音信息对应的应答信息，这样根据语音信息对应的情绪类型以及语音信息来确定应答信息，可以提高应答信息的准确性。例如，在上上述应用场景中，应答信息为用户a该在情绪类型获取时所说的对话语句的应答语句，并且该应答信息作为机器人应答目标对话语句的对话语句。
[0118]
综上所述，本实施例提供了一种情绪识别方法，所述方法包括获取待识别的视频数据；确定所述语音对话中的各对话语句各自对应的情绪特征，并基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，其中，所述语句关联性集合包括各对话语句之间的关联性；基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型。本技术通过视频数据确定语音对话中的各对话语句的情绪特征，并基于情绪特
征构建语句关联性集合，以通过语句关联性集合确定对话语句对应的情绪类型，这样通过语句关联性集合的关系表达能力，可以学习到各对话语句各自对应的情绪特征之间的关联性，从而可以提高各对话语句各自对应的情绪类型的准确性。
[0119]
基于上述情绪识别方法，本实施例提供了一种情绪识别装置，如图5 所示，所述情绪识别装置包括：
[0120]
获取模块100，用于获取待识别的视频数据，其中，所述视频数据包括若干对话方之间的语音对话；
[0121]
第一确定模块200，用于确定所述语音对话中的各对话语句各自对应的情绪特征，并基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，其中，所述语句关联性集合包括各对话语句之间的关联性；
[0122]
第二确定模块300，用于基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型。
[0123]
此外值得说明的是，本实施例提供的情绪识别装置的工作过程与上述情绪识别方法的工作过程相同，这里就不再赘述，具体可以参照上述情绪识别的工作过程。
[0124]
基于上述情绪识别方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的情绪识别方法中的步骤。
[0125]
基于上述情绪识别方法，本技术还提供了一种终端设备，如图6所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory) 22，还可以包括通信接口(communications interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。
[0126]
此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。
[0127]
存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。
[0128]
存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。
[0129]
此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。
[0130]
最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；
而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征：

1.一种情绪识别方法，其特征在于，所述方法包括：获取待识别的视频数据，其中，所述视频数据包括若干对话方之间的语音对话；确定所述语音对话中的各对话语句各自对应的情绪特征，并基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，其中，所述语句关联性集合包括各对话语句之间的关联性；基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型。2.根据权利1所述情绪识别方法，其特征在于，所述确定所述语音对话中的各对话语句各自对应的情绪特征具体包括：提取所述视频数据携带的音频信息以及图像信息，以及确定所述音频信息对应的文本信息；基于所述音频信息、图像信息以及所述文本信息，确定所述语音对话中的各对话语句各自对应的情绪特征。3.根据权利要求2所述情绪识别方法，其特征在于，所述基于所述音频信息、图像信息以及所述文本信息，确定所述语音对话中的各对话语句各自对应的情绪特征具体包括：获取所述语音对话中的各对话语句，其中，所述语音对话中的每一对话语句均分别对应一对话方；确定所述语音对话中的各对话语句各自对应的情绪特征；其中，对于每个对话语句，确定该对话语句对应的图像信息块以及文本信息块，其中，所述图像信息块包括于所述图像信息中，所述文本信息块包括于所述文本信息中；确定该对话语句对应的语音情绪特征、该图像信息块对应的图像情绪特征，以及该文本信息块对应的文本情绪特征；基于该语音情绪特征、图像情绪特征以及文本情绪特征，确定该对话语句对应的情绪特征。4.根据权利要求1所述情绪识别方法，其特征在于，所述基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，具体包括：将各对话语句各自对应的情绪特征作为图节点，并将各图节点按照语音对话的对话顺序依次连接，以得到若干第一连接边；对于每个图节点，获取该图节点对应的候选图节点，并将该图节点与其对应的候选图节点连接以得到若干第二连接边，其中，所述候选图节点对应的对话方与该图节点对应的对话方相同，并且候选节点与该图节点相邻；将所述图节点、若干第一连接边以及若干第二连接边构成的图结构作为所述语音对话对应的语句关联性集合。5.根据权利要求1所述情绪识别方法，其特征在于，所述语句关联性集合为图结构，所述基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型具体包括：对所述语句关联性集合进行图运算，以得到所述图特征；基于所述图特征对语句关联性集合中的各图节点各自对应的情感类型，以得到所述语音对话中的各对话语句各自对应的情绪类型。6.根据权利要求5所述情绪识别方法，其特征在于，所述对所述语句关联性集合进行图运算，以得到所述图特征具体包括：获取所述语句关联性集合对应的拉普拉斯矩阵，并基于所述拉普拉斯矩阵确定所述语
句关联性集合对应的目标卷积核；基于所述目标卷积核对所述语句关联性集合进行图运算，得到所述图特征。7.根据权利要求6所述情绪识别方法，其特征在于，所述基于所述目标卷积核对所述语句关联性集合进行图运算，得到所述图特征具体包括：将所述语句关联性集合输入经过训练的图卷积网络，其中，所述图卷积网络中的图卷积层的卷积核为所述目标卷积核；通过所述图卷积网络输出所述语句关联性集合对应的图特征。8.根据权利要求6所述情绪识别方法，其特征在于，所述获取所述语句关联性集合对应的拉普拉斯矩阵，并基于所述拉普拉斯矩阵确定所述语句关联性集合对应的目标卷积核具体包括：获取所述语句关联性集合对应的邻接矩阵以及度矩阵，基于所述邻接矩阵以及度矩阵确定所述语句关联性集合对应的拉普拉斯矩阵；对所述拉普拉斯矩阵进行正则化，以得到所述语句关联性集合对应的目标卷积核。9.根据权利要求1所述情绪识别方法，其特征在于，所述基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型之后，所述方法还包括：对于语音对话中的目标对话语句，基于该对话语句以及该目标对话语句对应的情绪类型，确定该目标对话语句对应的应答信息。10.一种情绪识别装置，其特征在于，所述情绪识别装置包括：获取模块，用于获取待识别的视频数据，其中，所述视频数据包括若干对话方之间的语音对话；第一确定模块，用于确定所述语音对话中的各对话语句各自对应的情绪特征，并基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，其中，所述语句关联性集合包括各对话语句之间的关联性；第二确定模块，用于基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型。11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-9任意一项所述的情绪识别方法中的步骤。12.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述通信总线实现处理器和存储器之间的连接通信；所述处理器执行所述计算机可读程序时实现如权利要求1-9任意一项所述的情绪识别方法中的步骤。

技术总结

本申请公开了一种情绪识别方法、装置、存储介质及终端设备，所述方法包括获取待识别的视频数据；确定所述语音对话中的各对话语句各自对应的情绪特征，并基于确定的所有情绪特征确定所述语音对话对应的语句关联性集合，其中，所述语句关联性集合包括各对话语句之间的关联性；基于所述语句关联性集合，确定所述语音对话中的各对话语句各自对应的情绪类型。本申请通过视频数据确定语音对话中的各对话语句的情绪特征，并基于情绪特征构建语句关联性集合，以通过语句关联性集合确定对话语句对应的情绪类型，这样通过语句关联性集合的关系表达能力，可以学习到各对话语句各自对应的情绪特征之间的关联性，从而可以提高各对话语句各自对应的情绪类型的准确性。自对应的情绪类型的准确性。自对应的情绪类型的准确性。