一种复杂声音场景下的声纹识别家电控制方法和装置

1.本发明涉及家电控制领域，具体而言，涉及一种复杂声音场景下的声纹识别家电控制方法和装置。

背景技术：

2.随着科技的进步，越来越多的现代化家电被消费者广泛应用。作为重要的身份识别技术，声纹识别可以对家庭成员的身份进行识别，从而让家电接受特定家庭成员的指令，防止无关人员的指令干扰。通常情况下，普通的声纹识别技术已经可以保证较高的识别精准度，从而实现特定家庭成员对家电的精准控制。
3.然而，在利用声纹识别技术对家电进行控制的过程中，往往伴随着复杂的声音场景，极大地降低了声纹识别技术的识别精度。随着识别精度的显著降低，基于声纹识别控制方法的家电应用价值也显著下降。因此，如何设计一种复杂声音场景下的声纹识别家电控制方法，在复杂声音场景下也能保证声纹识别的精准度有非常重要的应用价值。

技术实现要素：

4.为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种复杂声音场景下的声纹识别家电控制方法和装置。
5.本发明的实施例是这样实现的：第一方面，本法实施例提供一种复杂声音场景下的声纹识别家电控制方法，包括：在多个声音场景下，分别录入特定家庭成员的多段音频；对多段音频进行编码；编码之后，计算每位家庭成员的音频两两之间的相似性，保留一段相似度大于预设值的音频，并将保留下的所有音频认定为模板音频；将所有模板音频作为正训练样本，并收集多个非特定家庭成员的音频作为负训练样本，利用机器学习模型进行训练，得到声纹识别决策模型；当家电使用人输出一段音频，计算该段音频和模板音频的相似性，若该段音频和任意模板音频的相似性大于预设相似度，直接识别为特定家庭成员的音频；若该段音频和任意模板音频的相似性均小于预设相似度，则进行下一步；利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音频。
6.基于第一方面，在本发明的一些实施例中，上述机器学习模型为svm模型。
7.基于第一方面，在本发明的一些实施例中，上述利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音频的步骤包括：若基于svm模型的声纹识别决策结果得分大于第一预设分数，直接识别为特定家庭成员的音频，若基于svm模型的声纹识别决策结果得分小于第二预设分数，直接识别为非特定家庭成员的音频，若基于svm模型的声纹识别决策结果得分在第一预设分数与第二预
设分数之间，则进行下一步；利用基于卷积神经网络的声纹识别模型对家电使用人的输出音频进行最终判定，判断是否为特定家庭成员的音频。
8.基于第一方面，在本发明的一些实施例中，上述当家电使用人输出一段音频，计算该段音频和模板音频的相似性的步骤包括：对该段音频和模板音频进行：音频滤波、计算音频信号短时能量、截取音频信号有效数据；计算该段音频和模板音频的余弦距离。
9.基于第一方面，在本发明的一些实施例中，上述在多个声音场景下，分别录入特定家庭成员的多段音频的步骤包括：在高噪音、多人说话、声音较小的一种或多种情况下录入特定家庭成员的多段音频；录入时，控制每段音频的时长在5秒之内。
10.基于第一方面，在本发明的一些实施例中，上述对多段音频进行编码的步骤包括：利用i-vector计算方法对多段音频进行编码。
11.基于第一方面，在本发明的一些实施例中，收集多个非特定家庭成员的音频作为负训练样本的步骤包括：收集50个以上的非特定家庭成员的音频作为负训练样本。
12.第二方面，本发明实施例提供一种复杂声音场景下的声纹识别家电控制系统，包括：录入模块：在多个声音场景下，分别录入特定家庭成员的多段音频；编码模块：对多段音频进行编码；计算相似性模块：编码之后，计算每位家庭成员的音频两两之间的相似性，保留一段相似度大于预设值的音频，并将保留下的所有音频认定为模板音频；训练模块：将所有模板音频作为正训练样本，并收集多个非特定家庭成员的音频作为负训练样本，利用机器学习模型进行训练，得到声纹识别决策模型；识别模块：当家电使用人输出一段音频，计算该段音频和模板音频的相似性，若该段音频和任意模板音频的相似性大于预设相似度，直接识别为特定家庭成员的音频；判断模块：若该段音频和任意模板音频的相似性均小于预设相似度，利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音频。
13.第三方面，本发明实施例提供一种电子设备，包括：至少一个处理器、至少一个存储器和数据总线；其中：上述处理器与上述存储器通过上述数据总线完成相互间的通信；上述存储器存储有可被上述处理器执行的程序指令，上述处理器调用上述程序指令以执行上述的方法。
14.第四方面，本发明实施例提供一种非暂态计算机可读存储介质，上述非暂态计算机可读存储介质存储计算机程序，上述计算机程序使计算机执行上述的方法。
15.相对于现有技术，本发明的实施例至少具有如下优点或有益效果：（1）模板音频充分考虑了复杂声音场景下的多种情况，具有较好的代表性，为提升复杂声音场景下的声纹识别精度奠定了基础。
16.（2）利用基于模板音频的相似性检测模型、基于svm模型的声纹识别决策模型、基于卷积神经网络的声纹识别模型依次进行判断，提升了声纹识别的精度。
17.（3）利用基于模板音频的相似性检测模型、基于svm模型的声纹识别决策模型、基于卷积神经网络的声纹识别模型依次进行判断，模型由简单到复杂，容易判断的音频利用简单模型即可得到结果，难以判断的音频信号再用复杂模型得到结果，降低了计算资源消耗。
附图说明
18.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
19.图1为本发明一种复杂声音场景下的声纹识别家电控制方法置一实施例流程图；图2为本发明一种复杂声音场景下的声纹识别家电控制方法一实施例的流程图；图3为本发明一种复杂声音场景下的声纹识别家电控制装置一实施例的结构框图；图4为本发明一种电子设备一实施例的结构框图。
20.图标：1、录入模块；2、编码模块；3、计算相似性模块；4、训练模块；5、识别模块；6、判断模块；7、处理器；8、存储器；9、数据总线。
具体实施方式
21.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
22.因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
23.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
24.在本技术所提供的实施例中，应该理解到，所揭露的方法和装置，也可以通过其它的方式实现。系统实施例仅仅是示意性的，例如，附图中的框图显示了根据本技术的多个实施例的系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可
vector的方法是对全局差异进行建模，将其二者作为一个整体进行建模，这样处理放宽了对训练语料的限制，并且计算简单，性能也相当。
31.s3：编码之后，计算每位家庭成员的音频两两之间的相似性，保留一段相似度大于预设值的音频，并将保留下的所有音频认定为模板音频；该步骤中，计算每位家庭成员的音频两两之间的相似性包括分别对两段音频进行音频滤波、计算音频信号短时能量、截取音频信号有效数据；计算两段音频的余弦距离。保留一段相似度大于预设值的音频，并将保留下的所有音频认定为模板音频，预设值可根据实际需求进行合理设置即可。
32.s4：将所有模板音频作为正训练样本，并收集多个非特定家庭成员的音频作为负训练样本，利用机器学习模型进行训练，得到声纹识别决策模型；该步骤中，收集多个非特定家庭成员的音频作为负训练样本的步骤包括：收集50个以上的非特定家庭成员的音频作为负训练样本。上述机器学习模型可以为svm模型。
33.s5：当家电使用人输出一段音频，计算该段音频和模板音频的相似性，若该段音频和任意模板音频的相似性大于预设相似度，直接识别为特定家庭成员的音频；若该段音频和任意模板音频的相似性均小于预设相似度，则进行下一步；该步骤中，可以利用基于模板音频的相似性检测模型计算该段音频和模板音频的相似性。上述当家电使用人输出一段音频，计算该段音频和模板音频的相似性的步骤包括：对该段音频和模板音频进行：音频滤波、计算音频信号短时能量、截取音频信号有效数据；计算该段音频和模板音频的余弦距离。
34.s6：利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音频。
35.利用基于模板音频的相似性检测模型、基于svm模型的声纹识别决策模型依次进行判断，提升了声纹识别的精度；模型由简单到复杂，容易判断的音频利用简单模型即可得到结果，难以判断的音频信号再用复杂模型得到结果，降低了计算资源消耗。
36.基于第一方面，在本发明的一些实施例中，上述利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音频的步骤包括：请参照图2，s61：若基于svm模型的声纹识别决策结果得分大于第一预设分数，直接识别为特定家庭成员的音频，若基于svm模型的声纹识别决策结果得分小于第二预设分数，直接识别为非特定家庭成员的音频，若基于svm模型的声纹识别决策结果得分在第一预设分数与第二预设分数之间，则进行下一步；s62：利用基于卷积神经网络的声纹识别模型对家电使用人的输出音频进行最终判定，判断是否为特定家庭成员的音频。
37.利用基于模板音频的相似性检测模型、基于svm模型的声纹识别决策模型、基于卷积神经网络的声纹识别模型依次进行判断，提升了声纹识别的精度；利用基于模板音频的相似性检测模型、基于svm模型的声纹识别决策模型、基于卷积神经网络的声纹识别模型依次进行判断，模型由简单到复杂，容易判断的音频利用简单模型即可得到结果，难以判断的音频信号再用复杂模型得到结果，降低了计算资源消耗。
38.请参照图3，第二方面，本发明实施例提供一种复杂声音场景下的声纹识别家电控制系统，包括：
录入模块1：在多个声音场景下，分别录入特定家庭成员的多段音频；编码模块2：对多段音频进行编码；计算相似性模块3：编码之后，计算每位家庭成员的音频两两之间的相似性，保留一段相似度大于预设值的音频，并将保留下的所有音频认定为模板音频；训练模块4：将所有模板音频作为正训练样本，并收集多个非特定家庭成员的音频作为负训练样本，利用机器学习模型进行训练，得到声纹识别决策模型；识别模块5：当家电使用人输出一段音频，计算该段音频和模板音频的相似性，若该段音频和任意模板音频的相似性大于预设相似度，直接识别为特定家庭成员的音频；判断模块6：若该段音频和任意模板音频的相似性均小于预设相似度，利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音频。
39.该装置的具体实施方式，请参考上述方法的实施方式，在此不再过多赘述。
40.请参照图4，第三方面，本发明实施例提供一种电子设备，包括：至少一个处理器7、至少一个存储器8和数据总线9；其中：上述处理器7与上述存储器8通过上述数据总线9完成相互间的通信；上述存储器8存储有可被上述处理器7执行的程序指令，上述处理器7调用上述程序指令以执行上述的方法。例如执行上述步骤s1-s6。
41.第四方面，本发明实施例提供一种非暂态计算机可读存储介质，上述非暂态计算机可读存储介质存储计算机程序，上述计算机程序使计算机执行上述的方法。例如执行上述步骤s1-s6。
42.综上，本发明提供一种复杂声音场景下的声纹识别家电控制方法，模板音频充分考虑了复杂声音场景下的多种情况，具有较好的代表性，为提升复杂声音场景下的声纹识别精度奠定了基础。利用基于模板音频的相似性检测模型、基于svm模型的声纹识别决策模型、基于卷积神经网络的声纹识别模型依次进行判断，提升了声纹识别的精度。模型由简单到复杂，容易判断的音频利用简单模型即可得到结果，难以判断的音频信号再用复杂模型得到结果，降低了计算资源消耗。
43.以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
44.对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其它的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

技术特征：

1.一种复杂声音场景下的声纹识别家电控制方法，其特征在于，包括：在多个声音场景下，分别录入特定家庭成员的多段音频；对多段音频进行编码；编码之后，计算每位家庭成员的音频两两之间的相似性，保留一段相似度大于预设值的音频，并将保留下的所有音频认定为模板音频；将所有模板音频作为正训练样本，并收集多个非特定家庭成员的音频作为负训练样本，利用机器学习模型进行训练，得到声纹识别决策模型；当家电使用人输出一段音频，计算该段音频和模板音频的相似性，若该段音频和任意模板音频的相似性大于预设相似度，直接识别为特定家庭成员的音频；若该段音频和任意模板音频的相似性均小于预设相似度，则进行下一步；利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音频。2.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法，其特征在于，所述机器学习模型为svm模型。3.根据权利要求2所述的一种复杂声音场景下的声纹识别家电控制方法，其特征在于，所述利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音频的步骤包括：若基于svm模型的声纹识别决策结果得分大于第一预设分数，直接识别为特定家庭成员的音频，若基于svm模型的声纹识别决策结果得分小于第二预设分数，直接识别为非特定家庭成员的音频，若基于svm模型的声纹识别决策结果得分在第一预设分数与第二预设分数之间，则进行下一步；利用基于卷积神经网络的声纹识别模型对家电使用人的输出音频进行最终判定，判断是否为特定家庭成员的音频。4.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法，其特征在于，所述当家电使用人输出一段音频，计算该段音频和模板音频的相似性的步骤包括：对该段音频和模板音频进行：音频滤波、计算音频信号短时能量、截取音频信号有效数据；计算该段音频和模板音频的余弦距离。5.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法，其特征在于，所述在多个声音场景下，分别录入特定家庭成员的多段音频的步骤包括：在高噪音、多人说话、声音较小的一种或多种情况下录入特定家庭成员的多段音频；录入时，控制每段音频的时长在5秒之内。6.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法，其特征在于，所述对多段音频进行编码的步骤包括：利用i-vector计算方法对多段音频进行编码。7.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法，其特征在于，收集多个非特定家庭成员的音频作为负训练样本的步骤包括：收集50个以上的非特定家庭成员的音频作为负训练样本。8.一种复杂声音场景下的声纹识别家电控制装置，其特征在于，包括：
录入模块：在多个声音场景下，分别录入特定家庭成员的多段音频；编码模块：对多段音频进行编码；计算相似性模块：编码之后，计算每位家庭成员的音频两两之间的相似性，保留一段相似度大于预设值的音频，并将保留下的所有音频认定为模板音频；训练模块：将所有模板音频作为正训练样本，并收集多个非特定家庭成员的音频作为负训练样本，利用机器学习模型进行训练，得到声纹识别决策模型；识别模块：当家电使用人输出一段音频，计算该段音频和模板音频的相似性，若该段音频和任意模板音频的相似性大于预设相似度，直接识别为特定家庭成员的音频；判断模块：若该段音频和任意模板音频的相似性均小于预设相似度，利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音频。9.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器和数据总线；其中：所述处理器与所述存储器通过所述数据总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行如权利要求1至7任一所述的方法。10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使计算机执行如权利要求1至7任一所述的方法。

技术总结

本发明提出了一种复杂声音场景下的声纹识别家电控制方法和装置，涉及家电控制领域。模板音频充分考虑了复杂声音场景下的多种情况，具有较好的代表性，为提升复杂声音场景下的声纹识别精度奠定了基础。利用基于模板音频的相似性检测模型、基于SVM模型的声纹识别决策模型、基于卷积神经网络的声纹识别模型依次进行判断，提升了声纹识别的精度。模型由简单到复杂，容易判断的音频利用简单模型即可得到结果，难以判断的音频信号再用复杂模型得到结果，降低了计算资源消耗。降低了计算资源消耗。降低了计算资源消耗。