基于用户面部表情的语音识别方法、装置、介质及设备与流程

1.本发明涉及语言识别技术领域，特别是涉及一种基于用户面部表情的语音识别方法、装置、介质及设备。

背景技术：

2.现有技术中，只是针对用户语音进行文字识别，对用户语言进行文字提取，通过文本语义识别出用户意图。但在人机交互的语音对话场景中，只对语义进行分析获得的用户意图不准确，严重影响后续智能设备与用户之间的交互过程，给用户带来不好的体验。

技术实现要素：

3.有鉴于此，本公开的目的在于提供一种基于用户面部表情的语音识别方法、装置、介质及设备，以解决相关技术中语音识别不准确的技术问题。
4.基于上述发明目的，本公开的第一方面提供一种基于用户面部表情的语音识别方法，所述方法包括：
5.通过红外采集装置对监控环境中的热图像进行采集，并在基于图像识别模型确认所述监控环境中存在人脸的情况下，根据特征识别算法确定所述人脸对应的目标用户的面部特征点，并基于所述面部特征点的预设分布规则，循环执行以下步骤，直至确定所述目标用户在所述监控环境下的所述面部特征点产生变化为止：按照预设目标时长从初始动态图像中选取相应时长的帧图像，以生成所述目标用户对应的面部动态特征图像，并将所述面部动态特征图像与预设标准动态图像进行匹配生成比较结果，根据所述比较结果判断是否匹配成功，若匹配成功，判断相应时长的帧图像中所述目标用户未产生情绪波动，则延长已使用的目标时长，重新获得相应时长的帧图像，若匹配不成功，提取所述时长的帧图像，生成所述目标用户对应的面部动态特征图像，并基于所述预设分布规则和所述人脸对应的多个特征区域，对所述面部动态特征图像进行分割，生成所述多个特征区域对应的多个特征区域动态子图像，其中所述多个特征区域至少包括眼部特征区域、鼻子特征区域和嘴部特征区域；
6.将所述多个特征区域动态子图像与所述多个特征区域对应的多个预设动态子图像进行匹配，确定所述多个特征区域动态子图像对应的多个表情识别结果，根据预设权重将所述多个表情识别结果进行融合确定所述目标用户对应的情感标签，其中，所述表情识别结果用于表征所述目标用户对应的情感标签，所述预设权重根据各个特征区域表征情感标签的强弱关系进行设定；
7.对所述预设时间段内所述目标用户在所述监控环境中的音频数据进行采集，生成目标音频数据，识别所述目标音频数据中所述目标用户对应的用户语音频段，根据所述用户语音频段对所述目标音频数据进行降噪处理，按照设定语音特征对降噪后的所述目标音频数据进行语音提取，以生成所述目标用户对应的用户语音，其中，通过麦克风采集的所述用户语音对智能终端下达控制指令；
8.从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音识别模型对所述用户语音进行语义识别，以生成所述目标用户对应的语义信息，其中，所述初始数据库中包括多个初始样本语音数据和多个情感标签之间的映射关系。
9.进一步地，所述根据所述用户语音频段对所述目标音频数据进行降噪处理，按照设定语音特征对降噪后的所述目标音频数据进行语音提取，以生成所述目标用户对应的用户语音，包括：
10.根据所述目标用户对应的历史用户语音，对所述目标音频数据中的用户语音进行分析，以根据所述目标音频数据生成所述用户语音频段和环境音频；
11.基于所述用户语音频段对所述目标音频数据进行降噪处理，以去除所述目标音频数据中的所述环境音频，并对处理后的目标音频数据进行拓扑恢复生成所述目标用户对应的所述用户语音。
12.进一步地，所述从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音识别模型对所述用户语音进行语义识别，生成所述目标用户对应的语义信息，包括：
13.基于所述情感标签对所述初始数据库中的所述初始样本语音数据进行筛选，获得预设数量的第一样本语音数据和对应的第一情感语义，所述第一情感语义为所述第一样本语音数据在所述情感标签下的语义信息；
14.通过所述语音识别模型的特征提取网络对所述第一样本语音数据进行特征提取，生成所述第一样本语音数据对应的特征向量，通过所述语音识别模型的全连接神经网络对所述特征向量进行语义识别，生成目标语义信息，在所述目标语义信息与所述第一情感语义确定不一致的情况下，根据所述第一情感语义更新所述语音识别模型；
15.基于更新后的所述语音识别模型对所述用户语音进行语义识别，生成所述目标用户对应的所述语义信息。
16.进一步地，所述将所述多个特征区域动态子图像与所述多个特征区域对应的多个预设动态子图像进行匹配，确定所述多个特征区域动态子图像对应的多个表情识别结果，根据预设权重将所述多个表情识别结果进行融合确定所述目标用户对应的情感标签，包括：
17.对任一特征区域动态子图像进行归一化处理，生成同一尺寸的动态灰度子图像；
18.对所述灰度子图像进行识别，确定所述灰度子图像对应的所述特征区域；
19.获取所述特征区域对应的所述多个预设动态子图像，并将所述多个预设动态子图像与所述灰度子图像进行匹配，以确定所述多个预设动态子图像与所述灰度子图像之间的相似度，其中，每个预设动态子图像对应一个预设表情识别结果；
20.确定所述相似度最大的目标预设动态子图像对应的目标表情识别结果为所述表情识别结果。
21.本公开的第二方面提供一种基于用户面部表情的语音识别装置，所述装置包括：
22.第一生成模块，用于通过红外采集装置对监控环境中的热图像进行采集，并在基
于图像识别模型确认所述监控环境中存在人脸的情况下，根据特征识别算法确定所述人脸对应的目标用户的面部特征点，并基于所述面部特征点的预设分布规则，循环执行以下步骤，直至确定所述目标用户在所述监控环境下的所述面部特征点产生变化为止：按照预设目标时长从初始动态图像中选取相应时长的帧图像，以生成所述目标用户对应的面部动态特征图像，并将所述面部动态特征图像与预设标准动态图像进行匹配生成比较结果，根据所述比较结果判断是否匹配成功，若匹配成功，判断相应时长的帧图像中所述目标用户未产生情绪波动，则延长已使用的目标时长，重新获得相应时长的帧图像，若匹配不成功，提取所述时长的帧图像，生成所述目标用户对应的面部动态特征图像，并基于所述预设分布规则和所述目标用户对应的多个特征区域，对所述面部动态特征图像进行分割，生成所述多个特征区域对应的多个特征区域动态子图像；其中所述多个特征区域至少包括眼部特征区域、鼻子特征区域和嘴部特征区域；
23.确定模块，用于将所述多个特征区域动态子图像与所述多个特征区域对应的多个预设动态子图像进行匹配，确定所述多个特征区域动态子图像对应的多个表情识别结果，根据预设权重将所述多个表情识别结果进行融合确定所述目标用户对应的情感标签，其中，所述表情识别结果用于表征所述目标用户对应的情感标签，所述预设权重根据各个特征区域表征情感标签的强弱关系进行设定；
24.第二生成模块，用于对所述预设时间段内所述目标用户在所述监控环境中的音频数据进行采集，生成目标音频数据，并识别所述目标音频数据中所述目标用户对应的用户语音频段，根据所述用户语音频段对所述目标音频数据进行降噪处理，按照设定语音特征对降噪后的所述目标音频数据进行语音提取，以生成所述目标用户对应的用户语音，其中，通过麦克风采集的所述用户语音对智能终端下达控制指令；
25.第三生成模块，用于从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，并基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音识别模型对所述用户语音进行语义识别，生成所述目标用户对应的语义信息，其中，所述初始数据库中包括多组初始样本语音数据和多个情感标签之间的映射关系。
26.进一步地，所述第二生成模块，还可以用于：
27.根据所述目标用户对应的历史用户语音，对所述目标音频数据中的用户语音进行分析，以根据所述目标音频数据生成所述用户语音频段和环境音频；
28.基于所述用户语音频段对所述目标音频数据进行降噪处理，去除所述目标音频数据中的所述环境音频，并对处理后的所述目标音频数据进行拓扑恢复生成所述目标用户对应的所述用户语音。
29.本公开的第三方面提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面中任一项所述基于用户面部表情的语音识别方法的步骤。
30.本公开的第四方面提供一种电子设备，包括计算机程序，该计算机程序被处理器执行时实现如第一方面中任一项所述基于用户面部表情的语音识别方法的步骤。
31.本公开至少可以达到以下有益效果：
32.通过采集预设时间段内所述目标用户在所述监控环境下的面部特征点的变化情
况，以生成目标用户对应的面部动态特征图像，对所述面部动态特征图像进行分割，生成多个特征区域动态子图像；将所述多个特征区域动态子图像与对应特征区域的预设动态子图像进行匹配，确定目标用户对应的情感标签，对所述预设时间段内所述目标用户在所述监控环境中的音频数据进行采集，按照语音特征对降噪后的所述目标音频数据进行语音提取，生成所述目标用户对应的所述用户语音，从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，并基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音识别模型对所述用户语音进行语义识别，生成所述目标用户对应的语义信息。从而通过对用户的面部情绪判断，生成情绪标签并根据情绪标签训练语音识别模型，通过训练后的语音识别模型对用户语音进行语义识别，使智能设备能够更准确识别出用户语音所对应的用户意图，提高了语音识别的准确性，给用户带来了更好的产品体验。
附图说明
33.图1为本公开一实施例中基于用户面部表情的语音识别方法的流程图。
34.图2是本公开一实施例中基于用户面部表情的语音识别装置的结构图。
具体实施方式
35.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。
36.在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
37.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
38.在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
39.在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可视第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第
一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。
40.需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“上”、“下”、“左”、“右”以及类似的表述只是为了说明的目的，并不表示是唯一的实施方式。
41.图1为本公开一实施例中基于用户面部表情的语音识别方法的流程图，如图1所示，所述方法包括以下步骤：
42.在步骤s11中，根据图像识别模型确定在预设时间段内所述目标用户在所述监控环境下的面部特征点的变化情况，以生成面部动态特征图像；
43.其中，通过红外采集装置对监控环境中的热图像进行采集，并在基于图像识别模型确认所述监控环境中存在人脸面部特征的情况下，根据特征识别算法确定所述人脸对应的目标用户的面部特征点，并基于所述面部特征点的所述预设分布规则，循环执行以下步骤，直至确定所述目标用户在所述监控环境下的所述面部特征点产生变化为止：按照预设目标时长从初始动态图像中选取相应时长的帧图像，以生成所述目标用户对应的面部动态特征图像，并将所述面部动态特征图像与预设标准动态图像进行匹配生成比较结果，根据所述比较结果判断是否匹配成功，若匹配成功，判断相应时长的帧图像中所述目标用户未产生情绪波动，则延长已使用的目标时长，重新获得相应时长的帧图像，若匹配不成功，提取所述时长的帧图像，生成所述目标用户对应的面部动态特征图像，并基于所述预设分布规则和所述人脸对应的多个特征区域，对所述面部动态特征图像进行分割，生成所述多个特征区域对应的多个特征区域动态子图像，其中所述多个特征区域至少包括眼部特征区域、鼻子特征区域和嘴部特征区域。
44.在步骤s12中，将所述多个特征区域动态子图像与所述多个特征区域对应的多个预设动态子图像进行匹配，确定所述目标用户对应的情感标签；
45.其中，所述表情识别结果用于表征所述目标用户对应的情感标签，所述预设权重根据各个特征区域表征情感标签的强弱关系进行设定，所述情感标签根据各个特征区域动态子图像对应的表情识别结果，根据预设权重将多个表情识别结果进行融合来确定。
46.在步骤s13中，对所述预设时间段内所述目标用户在所述监控环境中的音频数据进行采集，生成所述目标用户对应的所述用户语音；
47.其中，通过对所述预设时间段内所述目标用户在所述监控环境中的音频数据进行采集，生成目标音频数据，识别所述目标音频数据中的用户语音频段，并根据所述用户语音频段对所述目标音频数据进行降噪处理，按照语音特征对降噪后的所述目标音频数据进行语音提取，生成所述目标用户对应的所述用户语音。通过麦克风采集的所述用户语音对智能终端下达控制指令。
48.在步骤s14中，根据情感标签对语音识别模型进行训练，并通过训练后的语音识别模型对所述用户语音进行语义识别，生成所述目标用户对应的语义信息；
49.其中，通过从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，并基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音识别模型对所述用户语音进行语义
识别，生成所述目标用户对应的语义信息。其中，所述初始数据库中包括多组初始样本语音数据和多个情感标签之间的映射关系。
50.采用上述技术方案，通过采集预设时间段内所述目标用户在所述监控环境下的面部特征点的变化情况，以生成目标用户对应的面部动态特征图像，对所述面部动态特征图像进行分割，生成多个特征区域动态子图像；将所述多个特征区域动态子图像与对应特征区域的预设动态子图像进行匹配，确定目标用户对应的情感标签，对所述预设时间段内所述目标用户在所述监控环境中的音频数据进行采集，按照语音特征对降噪后的所述目标音频数据进行语音提取，生成所述目标用户对应的所述用户语音，从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，并基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音识别模型对所述用户语音进行语义识别，生成所述目标用户对应的语义信息。从而通过对用户的面部情绪判断，生成情绪标签并根据情绪标签训练语音识别模型，通过训练后的语音识别模型对用户语音进行语义识别，使智能设备能够更准确识别出用户语音所对应的用户意图，提高了语音识别的准确性，给用户带来了更好的产品体验。
51.进一步地，上述步骤s14，包括：
52.根据目标用户对应的历史用户语音，对所述目标音频数据中的用户语音进行分析，以根据所述目标音频数据生成所述用户语音频段和环境音频；
53.基于所述用户语音频段对所述目标音频数据进行降噪处理，去除所述目标音频数据中的所述环境音频，并对处理后的所述目标音频数据进行拓扑恢复生成所述目标用户对应的所述用户语音。
54.进一步地，上述步骤s14，包括：
55.基于所述情感标签对所述初始数据库中的初始样本语音数据进行筛选，获得预设数量的第一样本语音数据和对应的第一情感语义，所述第一情感语义为所述第一样本语音数据在所述情感标签下的语义信息；
56.通过所述语音识别模型的特征提取网络对所述第一样本语音数据进行特征提取，生成第一样本语音数据对应的特征向量，通过语音识别模型的全连接神经网络对所述特征向量进行语义识别，生成目标语义信息，在确定所述目标语义信息与所述第一情感语义不一致的情况下，根据所述第一情感语义更新所述语音识别模型；
57.基于更新后的所述语音识别模型对所述用户语音进行语义识别，生成所述目标用户对应的所述语义信息。
58.进一步地，上述步骤s12，包括：
59.对于任一所述特征区域动态子图像进行归一化处理，生成同一尺寸的动态灰度子图像；
60.对所述灰度子图像进行识别，以确定所述灰度子图像对应的所述特征区域；
61.获取所述特征区域对应的多个预设动态子图像，并将所述多个预设动态子图像与所述灰度子图像进行匹配，以确定所述多个预设动态子图像与所述灰度子图像之间的相似度，其中，每个帧预设动态子图像对应一个预设表情识别结果；
62.确定所述相似度最大的目标预设动态子图像对应的目标表情识别结果为所述表情识别结果。
63.图2是本公开一实施例中基于用户面部表情的语音识别装置的结构图，该识别装置100包括：第一生成模块110，确定模块120，第二生成模块130，第三生成模块140。
64.第一生成模块110，用于通过红外采集装置对监控环境中的热图像进行采集，并在基于图像识别模型确认所述监控环境中存在人脸的情况下，根据特征识别算法确定所述人脸对应的目标用户的面部特征点，并基于所述面部特征点的所述预设分布规则，循环执行以下步骤，直至确定所述目标用户在所述监控环境下的所述面部特征点产生变化为止：按照预设目标时长从初始动态图像中选取相应时长的帧图像，以生成所述目标用户对应的面部动态特征图像，并将所述面部动态特征图像与预设标准动态图像进行匹配生成比较结果，根据所述比较结果判断是否匹配成功，若匹配成功，判断相应时长的帧图像中所述目标用户未产生情绪波动，则延长已使用的目标时长，重新获得相应时长的帧图像，若匹配不成功，提取所述时长的帧图像，生成所述目标用户对应的面部动态特征图像，并基于所述预设分布规则和所述目标用户对应的多个特征区域，对所述面部动态特征图像进行分割，生成所述多个特征区域对应的多个特征区域动态子图像；其中所述特征区域至少包括眼部特征区域、鼻子特征区域和嘴部特征区域。
65.确定模块120，用于将所述多个特征区域动态子图像与所述多个特征区域的预设动态子图像进行匹配，确定多个特征区域动态子图像对应的多个表情识别结果，根据预设权重将多个表情识别结果进行融合确定所述目标用户对应的情感标签，其中，所述表情识别结果用于表征所述目标用户对应的情感标签，所述预设权重根据各个特征区域表征情感标签的强弱关系进行设定。
66.第二生成模块130，用于对所述预设时间段内所述目标用户在所述监控环境中的音频数据进行采集，生成目标音频数据，并识别所述目标音频数据中目标用户对应的用户语音频段，根据所述用户语音频段对所述目标音频数据进行降噪处理，按照设定语音特征对降噪后的所述目标音频数据进行语音提取，生成所述目标用户对应的用户语音，其中，通过麦克风采集的所述用户语音对智能终端下达控制指令。
67.第三生成模块140，用于从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，并基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音识别模型对所述用户语音进行语义识别，生成所述目标用户对应的语义信息，其中，所述初始数据库中包括多个初始样本语音数据和多个情感标签之间的映射关系。
68.上述装置，通过采集预设时间段内所述目标用户在所述监控环境下的面部特征点的变化情况，以生成目标用户对应面部动态特征图像，对所述面部动态特征图像进行分割，生成多个特征区域动态子图像；将所述多个特征区域动态子图像与对应特征区域的预设动态子图像进行匹配，确定目标用户对应的情感标签，对所述预设时间段内所述目标用户在所述监控环境中的音频数据进行采集，按照语音特征对降噪后的所述目标音频数据进行语音提取，生成所述目标用户对应的所述用户语音，从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，并基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音识别模型对所述用户语音进行语义识别，生成所述目标用户对应的语义信息。从而通过对用户的面部情绪判断，生成情绪标签并根据情绪标签训练语音识别模型，通过训练后的语音
识别模型对用户语音进行语义识别，使智能设备能够更准确识别出用户语音所对应的用户意图，提高了语音识别的准确性，给用户带来了更好的产品体验。
69.进一步地，所述第一生成模块110，还可以用于：
70.基于面部特征点的预设分布规则，循环执行以下步骤，直至确定所述目标用户在所述监控环境下的面部特征点产生变化为止；
71.按照所述预设目标时长从初始动态图像中选取相应时长的帧图像，以生成目标用户对应的面部动态特征图像；并将该面部动态特征图像与预设标准动态图像进行匹配生成比较结果，根据比较结果判断是否匹配成功；
72.若匹配成功，判断所述相应时长的帧图像中所述目标用户未产生情绪波动，则延长已使用的目标时长，重新获得相应时长的帧图像；
73.若匹配不成功，提取所述时长的帧图像，以生成目标用户对应的面部动态特征图像。
74.进一步地，所述第二生成模块130，还可以用于：
75.根据目标用户对应的历史用户语音，对所述目标音频数据中的用户语音进行分析，以根据所述目标音频数据生成所述用户语音频段和环境音频；
76.基于所述用户语音频段对所述目标音频数据进行降噪处理，去除所述目标音频数据中的所述环境音频，并对处理后的所述目标音频数据进行拓扑恢复生成所述目标用户对应的所述用户语音。
77.进一步地，所述第三生成模块140，还可以用于：
78.基于所述情感标签对所述初始数据库中的所述初始样本语音数据进行筛选，获得预设数量的第一样本语音数据和对应的第一情感语义，所述第一情感语义为所述第一样本语音数据在所述情感标签下的语义信息；
79.通过所述语音识别模型的特征提取网络对所述第一样本语音数据进行特征提取，生成所述第一样本语音数据对应的特征向量，通过所述语音识别模型的全连接神经网络对所述特征向量进行语义识别，生成目标语义信息，在确定所述目标语义信息与所述第一情感语义不一致的情况下，根据所述第一情感语义更新所述语音识别模型；
80.基于更新后的所述语音识别模型对所述用户语音进行语义识别，生成所述目标用户对应的所述语义信息。
81.进一步地，所述第三生成模块140，还可以用于：
82.对任一特征区域动态子图像进行归一化处理，生成同一尺寸的动态灰度子图像；
83.对所述灰度子图像进行识别，以确定所述灰度子图像对应的所述特征区域；
84.获取所述特征区域对应的所述多个预设动态子图像，并将所述多个预设动态子图像与所述灰度子图像进行匹配，以确定所述多个预设动态子图像与所述灰度子图像之间的相似度，其中，每个预设动态子图像对应一个预设表情识别结果；
85.确定所述相似度最大的目标预设动态子图像对应的目标表情识别结果为所述表情识别结果。
86.本公开还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如前述中任一项所述基于用户面部表情的语音识别方法的步骤。
87.本公开还提供一种电子设备，包括计算机程序，该计算机程序被处理器执行时实现如前述中任一项所述基于用户面部表情的语音识别方法的步骤。
88.以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
89.以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

技术特征：

1.一种基于用户面部表情的语音识别方法，其特征在于，所述方法包括：通过红外采集装置对监控环境中的热图像进行采集，并在基于图像识别模型确认所述监控环境中存在人脸的情况下，根据特征识别算法确定所述人脸对应的目标用户的面部特征点，并基于所述面部特征点的预设分布规则，循环执行以下步骤，直至确定所述目标用户在所述监控环境下的所述面部特征点产生变化为止：按照预设目标时长从初始动态图像中选取相应时长的帧图像，以生成所述目标用户对应的面部动态特征图像，并将所述面部动态特征图像与预设标准动态图像进行匹配生成比较结果，根据所述比较结果判断是否匹配成功，若匹配成功，判断相应时长的帧图像中所述目标用户未产生情绪波动，则延长已使用的目标时长，重新获得相应时长的帧图像，若匹配不成功，提取所述时长的帧图像，生成所述目标用户对应的面部动态特征图像，并基于所述预设分布规则和所述人脸对应的多个特征区域，对所述面部动态特征图像进行分割，生成所述多个特征区域对应的多个特征区域动态子图像，其中所述多个特征区域至少包括眼部特征区域、鼻子特征区域和嘴部特征区域；将所述多个特征区域动态子图像与所述多个特征区域对应的多个预设动态子图像进行匹配，确定所述多个特征区域动态子图像对应的多个表情识别结果，根据预设权重将所述多个表情识别结果进行融合确定所述目标用户对应的情感标签，其中，所述表情识别结果用于表征所述目标用户对应的情感标签，所述预设权重根据各个特征区域表征所述情感标签的强弱关系进行设定；对所述预设时间段内所述目标用户在所述监控环境中的音频数据进行采集，生成目标音频数据，并识别所述目标音频数据中所述目标用户对应的用户语音频段，根据所述用户语音频段对所述目标音频数据进行降噪处理，按照设定语音特征对降噪后的所述目标音频数据进行语音提取，以生成所述目标用户对应的用户语音，其中，通过麦克风采集的所述用户语音对智能终端下达控制指令；从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音识别模型对所述用户语音进行语义识别，以生成所述目标用户对应的语义信息，其中，所述初始数据库中包括多个初始样本语音数据和多个情感标签之间的映射关系。2.根据权利要求1所述的识别方法，其特征在于，所述根据所述用户语音频段对所述目标音频数据进行降噪处理，按照设定语音特征对降噪后的所述目标音频数据进行语音提取，以生成所述目标用户对应的用户语音，包括：根据所述目标用户对应的历史用户语音，对所述目标音频数据中的用户语音进行分析，以根据所述目标音频数据生成所述用户语音频段和环境音频；基于所述用户语音频段对所述目标音频数据进行降噪处理，以去除所述目标音频数据中的所述环境音频，并对处理后的目标音频数据进行拓扑恢复生成所述目标用户对应的所述用户语音。3.根据权利要求1所述的识别方法，其特征在于，所述从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音
识别模型对所述用户语音进行语义识别，以生成所述目标用户对应的语义信息，包括：基于所述情感标签对所述初始数据库中的所述初始样本语音数据进行筛选，获得预设数量的第一样本语音数据和对应的第一情感语义，所述第一情感语义为所述第一样本语音数据在所述情感标签下的语义信息；通过所述语音识别模型的特征提取网络对所述第一样本语音数据进行特征提取，生成所述第一样本语音数据对应的特征向量，通过所述语音识别模型的全连接神经网络对所述特征向量进行语义识别，生成目标语义信息，在确定所述目标语义信息与所述第一情感语义不一致的情况下，根据所述第一情感语义更新所述语音识别模型；基于更新后的所述语音识别模型对所述用户语音进行语义识别，生成所述目标用户对应的所述语义信息。4.根据权利要求1所述的识别方法，其特征在于，所述将所述多个特征区域动态子图像与所述多个特征区域对应的多个预设动态子图像进行匹配，确定所述多个特征区域动态子图像对应的多个表情识别结果，根据预设权重将所述多个表情识别结果进行融合确定所述目标用户对应的情感标签，包括：对任一特征区域动态子图像进行归一化处理，生成同一尺寸的动态灰度子图像；对所述灰度子图像进行识别，以确定所述灰度子图像对应的所述特征区域；获取所述特征区域对应的所述多个预设动态子图像，并将所述多个预设动态子图像与所述灰度子图像进行匹配，以确定所述多个预设动态子图像与所述灰度子图像之间的相似度，其中，每个预设动态子图像对应一个预设表情识别结果；确定所述相似度最大的目标预设动态子图像对应的目标表情识别结果为所述表情识别结果。5.一种基于用户面部表情的语音识别装置，其特征在于，包括：第一生成模块，用于通过红外采集装置对监控环境中的热图像进行采集，并在基于图像识别模型确认所述监控环境中存在人脸的情况下，根据特征识别算法确定所述人脸对应的目标用户的面部特征点，并基于所述面部特征点的预设分布规则，循环执行以下步骤，直至确定所述目标用户在所述监控环境下的所述面部特征点产生变化为止：按照预设目标时长从初始动态图像中选取相应时长的帧图像，以生成所述目标用户对应的面部动态特征图像，并将所述面部动态特征图像与预设标准动态图像进行匹配生成比较结果，根据所述比较结果判断是否匹配成功，若匹配成功，判断相应时长的帧图像中所述目标用户未产生情绪波动，则延长已使用的目标时长，重新获得相应时长的帧图像，若匹配不成功，提取所述时长的帧图像，生成所述目标用户对应的面部动态特征图像，并基于所述预设分布规则和所述目标用户对应的多个特征区域，对所述面部动态特征图像进行分割，生成所述多个特征区域对应的多个特征区域动态子图像；其中所述多个特征区域至少包括眼部特征区域、鼻子特征区域和嘴部特征区域；确定模块，用于将所述多个特征区域动态子图像与所述多个特征区域对应的多个预设动态子图像进行匹配，确定所述多个特征区域动态子图像对应的多个表情识别结果，根据预设权重将所述多个表情识别结果进行融合确定所述目标用户对应的情感标签，其中，所述表情识别结果用于表征所述目标用户对应的情感标签，所述预设权重根据各个特征区域表征所述情感标签的强弱关系进行设定；
第二生成模块，用于对所述预设时间段内所述目标用户在所述监控环境中的音频数据进行采集，生成目标音频数据，并识别所述目标音频数据中所述目标用户对应的用户语音频段，根据所述用户语音频段对所述目标音频数据进行降噪处理，按照设定语音特征对降噪后的所述目标音频数据进行语音提取，以生成所述目标用户对应的用户语音，其中，通过采集麦克风采集的所述用户语音对智能终端下达控制指令；第三生成模块，用于从初始数据库中筛选出与所述情感标签对应的初始样本语音数据，将所述初始样本语音数据加入到语音识别模型的样本训练集中，基于所述样本训练集对所述语音识别模型进行识别训练，通过训练后的所述语音识别模型对所述用户语音进行语义识别，以生成所述目标用户对应的语义信息，其中，所述初始数据库中包括多个初始样本语音数据和多个情感标签之间的映射关系。6.根据权利要求5所述的识别装置，其特征在于，所述第二生成模块，还可以用于：根据所述目标用户对应的历史用户语音，对所述目标音频数据中的用户语音进行分析，以根据所述目标音频数据生成所述用户语音频段和环境音频；基于所述用户语音频段对所述目标音频数据进行降噪处理，去除所述目标音频数据中的所述环境音频，并对处理后的所述目标音频数据进行拓扑恢复生成所述目标用户对应的所述用户语音。7.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-4中任一项所述基于用户面部表情的语音识别方法的步骤。8.一种电子设备，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述基于用户面部表情的语音识别方法的步骤。

技术总结

本公开提供一种基于用户面部表情的语音识别方法、装置、介质及设备，该方法包括：根据识别模型确定在预设时间段内目标用户在监控环境下的面部特征点的变化情况，以生成面部动态特征图像，将多个特征区域动态子图像与对应特征区域的预设动态子图像进行匹配，确定所述目标用户对应的情感标签，对预设时间段内目标用户在监控环境中的音频数据进行采集，生成目标用户对应的用户语音，根据情感标签对语音识别模型进行训练，通过训练后的语音识别模型对用户语音进行语义识别，生成目标用户对应的语义信息。从而使智能设备能够更准确识别出用户语音所对应的用户意图，提高了语音识别的准确性，给用户带来了更好的产品体验。给用户带来了更好的产品体验。给用户带来了更好的产品体验。