声纹识别方法、装置、计算机设备、存储介质及程序产品与流程



1.本技术涉及计算机技术领域,特别是涉及一种声纹识别方法、装置、计算机设备、存储介质及程序产品。


背景技术:



2.声纹识别能够通过提取人说话时的语音特征来判断说话人的身份,其因采集方便、用户接受程度高、成本低廉、非接触等优势,适用于远程识别场景,被广泛应用到银行、证券等领域。
3.深度学习算法因其强大的非线性表达和自动学习能力,成为提取深层语音特征的主流方法,基于此,相关技术中,采用基于深度学习的声纹识别模型,提取语音数据的深层语音特征来实现声纹识别。但是,实际场景中语音数据相对匮乏,很难获得足够多的语音数据对模型进行训练,而使用小样本的语音数据集训练的声纹识别模型存在声纹识别准确率低的问题。


技术实现要素:



4.基于此,有必要针对上述技术问题,提供一种声纹识别方法、装置、计算机设备、存储介质及程序产品。
5.第一方面,一种声纹识别方法,上述方法包括:
6.获取待识别语音数据;
7.将待识别语音数据输入至预设的声纹识别模型中,得到待识别语音数据的声纹识别结果;
8.其中,声纹识别模型训练时卷积层的初始参数是根据预先训练的生成对抗网络模型的卷积层参数确定的,且生成对抗网络模型是通过对小样本语音数据训练集进行数据扩增后训练得到的。
9.在其中一个实施例中,声纹识别模型的构建过程包括:
10.通过小样本语音数据训练集对初始生成对抗网络模型进行训练,得到生成对抗网络模型;
11.将生成对抗网络模型的网络参数迁移至初始声纹识别模型中,通过小样本语音数据训练集对初始声纹识别模型进行训练,得到声纹识别模型;其中,初始声纹识别模型和生成对抗网络模型的卷积层的结构相同。
12.在其中一个实施例中,初始生成对抗网络模型包括初始生成器网络和初始判别器网络;
13.则通过小样本语音数据训练集对初始生成对抗网络模型进行训练,得到生成对抗网络模型,包括:
14.对小样本语音数据训练集进行预处理,得到预处理结果;
15.将随机噪声数据输入至初始生成器网络,得到生成数据,并将预处理结果和生成
数据输入至初始判别器网络中,对初始生成器网络和初始判别器网络进行联合训练,得到生成器网络和判别器网络。
16.在其中一个实施例中,将预处理结果和生成数据输入至初始判别器网络中,对初始生成器网络和初始判别器网络进行联合训练,得到生成器网络和判别器网络,包括:
17.将预处理结果和生成数据输入至初始判别器网络,得到初始判别预测结果;
18.通过损失函数计算初始判别预测结果与标准判别结果之间的预测误差值;
19.根据预测误差值更新初始生成器网络和初始判别器网络中网络参数;
20.若预测误差值满足预设的收敛条件,确定初始生成器网络和初始判别器网络均训练完成,得到生成器网络和判别器网络。
21.在其中一个实施例中,对小样本语音数据训练集进行预处理,得到预处理结果,包括:
22.对小样本语音数据训练集中的小样本语音数据进行分帧,得到多个语音帧数据;
23.分别对各语音帧数据进行加窗处理,得到对应的加窗数据;
24.对各加窗数据进行傅里叶变换,确定二维频谱图;
25.将二维频谱图中的频率数据映射至梅尔标度上,得到梅尔频谱图数据,并将梅尔频谱图数据确定为预处理结果。
26.在其中一个实施例中,生成对抗网络模型中的判别器网络包括第一卷积层和第一全连接层;初始声纹识别模型包括第二卷积层和第二全连接层;
27.则将生成对抗网络模型的网络参数迁移至初始声纹识别模型中,通过小样本语音数据训练集对初始声纹识别模型进行训练,包括:
28.将判别器网络中第一卷积层的网络参数确定为初始声纹识别模型中第二卷积层的网络参数,并对第二全连接层的网络参数进行初始化;
29.通过小样本语音数据训练集对初始声纹识别模型进行训练。
30.第二方面,一种声纹识别装置,上述装置包括:
31.语音数据获取模块,用于获取待识别语音数据;
32.声纹识别模块,用于将待识别语音数据输入至预设的声纹识别模型中,得到待识别语音数据的声纹识别结果;
33.其中,声纹识别模型训练时卷积层的初始参数是根据预先训练的生成对抗网络模型的卷积层参数确定的,且生成对抗网络模型是通过对小样本语音数据训练集进行数据扩增后训练得到的。
34.第三方面,一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面实施例中任一方法的步骤。
35.第四方面,一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面实施例中任一方法的步骤。
36.第五方面,一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面实施例中任一方法的步骤。
37.上述声纹识别方法、装置、计算机设备、存储介质及程序产品,计算机设备可以获取待识别语音数据,并将待识别语音数据输入至预设的声纹识别模型中,得到待识别语音数据的声纹识别结果;该方法能够应用预先训练好的声纹识别模型对待识别语音数据进行
识别得到声纹识别结果,且由于待训练的声纹识别模型训练时引用了通过对小样本语音数据训练集进行数据扩增后训练得到的生成对抗网络模型的卷积层参数,从而使得待训练的声纹识别模型训练时引用了大样本语音数据集训练得到的知识,进一步能够加快声纹识别模型训练的收敛速率,提高声纹识别模型识别的准确率。
附图说明
38.图1为一个实施例中声纹识别方法的应用环境图;
39.图2为一个实施例中声纹识别方法的流程示意图;
40.图3为一个实施例中构建声纹识别模型的方法流程示意图;
41.图4为另一个实施例中通过小样本语音数据训练集对初始生成对抗网络模型进行训练得到生成对抗网络模型的方法流程示意图;
42.图5为另一个实施例中对初始生成器网络和初始判别器网络进行联合训练的方法流程示意图;
43.图6为另一个实施例中对小样本语音数据训练集进行预处理得到预处理结果的方法流程示意图;
44.图7为另一个实施例中将生成对抗网络模型的网络参数迁移至初始声纹识别模型中并对初始声纹识别模型进行训练的方法流程示意图;
45.图8为一个实施例中声纹识别装置的结构框图;
46.图9为一个实施例中计算机设备的内部结构图。
具体实施方式
47.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
48.本技术提供的声纹识别方法,可以适用于图1所示的声纹识别系统。该声纹识别系统包括语音采集设备和计算机设备。可选的,语音采集设备可以为录音笔、声音采集器、语音检测仪等等;计算机设备可以为独立的服务器或者是多个服务器组成的服务器集来实现,还可以为但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。其中,语音采集设备和计算机设备之间可以进行通信连接;上述通信方式可以为wi-fi,移动网络或蓝牙连接等等。下面实施例将对声纹识别方法的实现过程进行说明。
49.为了提取说话对象的语音特征来判断说话对象的身份,本技术实施例提供了一种声纹识别方法,以该方法应用于图1中的计算机设备为例进行说明,如图2所示,该声纹识别方法包括以下步骤:
50.s100、获取待识别语音数据。
51.具体的,语音采集设备可以定时采集至少一个说话对象的语音数据,进一步,计算机设备可以实时接收到语音采集设备发送的语音数据,即待识别语音数据。或者,语音采集设备可以将采集到的说话对象的语音数据存储至本地或者云端,在实际应用时,计算机设备可以从本地或者云端获取预先存储的语音数据,即待识别语音数据。另外,计算机设备还可以在线下载互联网上的语音模拟数据,即待识别语音数据。
52.需要说明的是,待识别语音数据可以为仅包含说话对象的语音数据。但是,还有一种获取待识别语音数据的方式可以为,计算机设备可以获取待识别语音数据集,然后对待识别语音数据集进行特征提取,得到仅包含说话对象的语音数据,即待识别语音数据。可选的,待识别语音数据集可以包括说话对象的语音数据以及非说话对象的语音数据。在本实施例中,非说话对象的语音数据可以为环境的语音数据,如电子设备的语音数据、大自然(如风、雷、流水)的语音数据等等。
53.s200、将待识别语音数据输入至预设的声纹识别模型中,得到待识别语音数据的声纹识别结果。其中,声纹识别模型训练时卷积层的初始参数是根据预先训练的生成对抗网络模型的卷积层参数确定的,且生成对抗网络模型是通过对小样本语音数据训练集进行数据扩增后训练得到的。
54.具体的,上述预设的声纹识别模型可以为预先训练好的声纹识别模型。可选的,声纹识别模型可以为深度学习网络模型,如深度学习网络模型可以为卷积神经网络模型、循环神经网络模型和深度信念网络模型等等中的至少一个。
55.需要说明的是,声纹识别模型可以包括卷积层、全连接层和池化层中的至少一个,且声纹识别模型中包括的卷积层、全连接层和池化层的数量可以任意,对此不做限定。但在本实施例中,声纹识别模型至少包括一个卷积层。可选的,在对声纹识别模型训练前,声纹识别模型训练时卷积层的初始参数(网络参数) 可以为预先训练好的生成对抗网络模型中卷积层的卷积层参数。
56.可选的,上述数据扩增可以理解为对小样本语音数据训练集中的语音数据进行裁剪、平移、改变亮度、加入噪声、旋转角度和/或镜像处理的过程。可选的,上述声纹识别结果可以是说话对象的身份;该说话对象的身份可以为说话人辨认或者说话人确认。可选的,说话人辨认可以理解为将说话对象的语音数据与预设数据库中n个说话人的语音数据进行一对n比对,到比对结果相同的语音数据,并将该语音数据对应的说话人确定为说话对象;说话人确认可以理解为将说话对象的语音数据与预设数据库中该说话对象的语音数据进行一对一比对,证明说话对象本人。
57.上述声纹识别方法可以获取待识别语音数据,并将待识别语音数据输入至预设的声纹识别模型中,得到待识别语音数据的声纹识别结果;该方法可以应用预先训练好的声纹识别模型对待识别语音数据进行识别得到声纹识别结果,且由于待训练的声纹识别模型训练时引用了通过对小样本语音数据训练集进行数据扩增后训练得到的生成对抗网络模型的卷积层参数,从而使得待训练的声纹识别模型训练时引用了大样本语音数据集训练得到的知识,进一步能够加快声纹识别模型训练的收敛速率,提高声纹识别模型识别的准确率。
58.由于使用小样本语音数据训练集训练声纹识别模型,通常会使模型容易出现过拟合、泛化能力差、声纹识别的准确率较低的问题,基于此,在一实施例中,如图3所示,上述声纹识别模型的构建过程可以通过以下步骤实现:
59.s210、通过小样本语音数据训练集对初始生成对抗网络模型进行训练,得到生成对抗网络模型。
60.具体的,小样本语音数据训练集可以为多个说话对象的语音数据组合的集合。可选的,生成对抗网络模型可以包括生成模型和判别模型。可选的,生成模型和判别模型均可
以包括卷积层、全连接层和池化层中的至少一个。其中,生成模型和判别模型的整体结构可以相同,也可以不相同,但是,生成模型和判别模型的网络参数不相同。在本实施例中,不同模型中的相同层的结构可以相同,也可以不相同。
61.s220、将生成对抗网络模型的网络参数迁移至初始声纹识别模型中,通过小样本语音数据训练集对初始声纹识别模型进行训练,得到声纹识别模型;其中,初始声纹识别模型和生成对抗网络模型的卷积层的结构相同。
62.具体的,将生成对抗网络模型的网络参数迁移至初始声纹识别模型中可以理解为,将训练好的生成对抗网络模型中生成模型和/或判别模型的网络参数确定为初始声纹识别模型中的部分网络参数或者全部网络参数。进一步,计算机设备可以通过小样本语音数据训练集对初始声纹识别模型进行训练。
63.其中,对初始声纹识别模型进行训练的小样本语音数据训练集与训练生成对抗网络模型时的小样本语音数据训练集也可以不相同。但在本实施例中,对初始声纹识别模型进行训练的小样本语音数据训练集与训练生成对抗网络模型时的小样本语音数据训练集相同。
64.在本实施例中,初始声纹识别模型和生成对抗网络模型均可以包括卷积层,并且为了实现卷积层的卷积层参数迁移,初始声纹识别模型和生成对抗网络模型中卷积层的结构可以相同。可选的,初始声纹识别模型和生成对抗网络模型中除了卷积层之前的网络结构可以相同,也可以不相同。
65.上述声纹识别方法可以将通过对小样本语音数据训练集进行数据扩增后,训练得到的生成对抗网络模型的卷积层参数迁移至初始声纹识别模型中,之后再通过小样本语音数据训练集对初始声纹识别模型进行训练,从而使得初始声纹识别模型训练时引用了大样本语音数据集训练得到的知识,进一步能够加快声纹识别模型训练的收敛速率,并提高声纹识别模型识别的准确率;另外,该方法利用生成对抗网络模型扩增小样本语音数据集,能够降低扩增后的数据集和小样本语音数据集之间的差异性,再通过迁移学习将扩增样本训练的卷积层参数迁移到声纹识别模型上进行小样本训练,从而能够提高小样本训练声纹识别模型泛化能力。
66.下面将介绍如何通过小样本语音数据训练集对初始生成对抗网络模型进行训练,以让生成对抗网络模型学习到大样本语音数据集中的知识。在则一实施例中,初始生成对抗网络模型包括初始生成器网络和初始判别器网络;如图4 所示,上述s210中通过小样本语音数据训练集对初始生成对抗网络模型进行训练,得到生成对抗网络模型的步骤,可以通过如下步骤实现:
67.s211、对小样本语音数据训练集进行预处理,得到预处理结果。
68.具体的,计算机设备可以对小样本语音数据训练集中的语音数据进行预处理,如去除噪声(环境噪声、忙音、彩铃声等)、数据增强(混叠回声、改变速率、时域频域随机掩盖)、裁剪、数据转换和/或特征提取等处理,得到预处理结果。
69.s212、将随机噪声数据输入至初始生成器网络,得到生成数据,并将预处理结果和生成数据输入至初始判别器网络中,对初始生成器网络和初始判别器网络进行联合训练,得到生成器网络和判别器网络。
70.具体的,上述随机噪声可以为高斯噪声、单频噪声、脉冲噪声、起伏噪声和/或白噪
声等等。在初始生成对抗网络模型训练的过程中,计算机设备可以先将产生的随机噪声数据输入至初始生成器网络,得到对应的模拟数据(即生成数据),然后将预处理结果和生成数据输入至初始判别器网络中,以对初始生成器网络和初始判别器网络进行联合训练,在确定初始生成器网络和初始判别器网络均满足对应的收敛条件时,确定此时的初始生成器网络为生成器网络,此时的初始判别器网络为判别器网络。可选的,联合训练可以理解为同时对初始生成器网络和初始判别器网络进行训练的过程。
71.需要说明的是,上述初始生成器网络可以包括一个全连接层和多个反卷积层。计算机设备可以将随机噪声数据输入至初始生成器网络中,通过一个全连接层转换为三维数据,然后再将三维数据经过多个反卷积层进行上采样,得到生成数据。可选的,每一个反卷积层输出的特征数据量可以为上一个相邻反卷积层的两倍。
72.可以理解的是,初始判别器网络可以包括多个二维卷积层和一个全连接层。计算机设备可以将预处理结果和生成数据输入至初始判别器网络中,经多个二维卷积层进行下采样,学习到输入数据的深层语音特征,然后通过全连接层输出初始判别器网络的判别结果。
73.其中,如图5所示,上述s212中将预处理结果和生成数据输入至初始判别器网络中,对初始生成器网络和初始判别器网络进行联合训练,得到生成器网络和判别器网络的步骤,可以通过以下步骤实现:
74.s2121、将预处理结果和生成数据输入至初始判别器网络,得到初始判别预测结果。
75.具体的,计算机设备可以将预处理结果或生成数据输入至初始判别器网络,得到初始判别预测结果。但在本实施例中,计算机设备可以同时将预处理结果和初始生成器网络输出的生成数据同时输入至初始判别器网络,得到初始判别预测结果。
76.需要说明的是,在初始生成器网络和初始判别器网络没有训练结束时,初始判别器网络可以正确判断预处理结果和生成数据之间的真伪,该情况下,初始判别预测结果可以为携带标识的预处理结果和生成数据。可选的,标识可以区分预处理结果和生成数据的真伪。其中,预处理结果可以确定为真实数据;生成数据为模拟数据,可以确定为伪数据。
77.可选的,在初始生成器网络和初始判别器网络训练结束时,初始判别器网络可以错误判断预处理结果和生成数据之间的真伪,也就是该情况下,将预处理结果判定为伪数据,将生成数据判定为真实数据。且该情况下,初始判别预测结果也可以为携带标识的预处理结果和生成数据,但是,该情况下,预处理结果和生成数据携带的标识与初始生成器网络和初始判别器网络没有训练结束时,初始判别器网络输出的预处理结果和生成数据携带的标识相反。
78.s2122、通过损失函数计算初始判别预测结果与标准判别结果之间的预测误差值。
79.具体的,上述损失函数可以为0-1损失函数、平方损失函数、绝对值损失函数、对数损失函数等等。可选的,损失函数中包括初始判别预测结果与标准判别结果对应的参数。
80.需要说明的是,计算机设备可以将初始判别预测结果带入到损失函数,得到初始判别预测结果与标准判别结果之间的预测误差值。可选的,标准判别结果可以为携带标识的预处理结果和生成数据,且预处理结果中携带的标识为伪数据的标识,生成数据中携带的标识为真实数据的标识。可选的,标准判别结果可以理解为生成对抗网络模型训练的金
标准。
81.s2123、根据预测误差值更新初始生成器网络和初始判别器网络中网络参数。
82.具体的,计算机设备可以根据预测误差值的大小调整初始生成器网络和初始判别器网络中的网络参数。可选的,若预测误差值较大,则网络参数的调整值可以稍大一些,若预测误差值较大,则网络参数的调整值可以稍小一些。
83.s2124、若预测误差值满足预设的收敛条件,确定初始生成器网络和初始判别器网络均训练完成,得到生成器网络和判别器网络。
84.可以理解的是,在初始生成器网络和初始判别器网络训练过程中,需要不断迭代执行上述s211、s2121-s2123中的步骤,每次迭代处理后,可以判断预测误差值是否小于或等于预设误差阈值,或者迭代次数达到预设迭代次数阈值,若确定预测误差值小于或等于预设误差阈值,或者迭代次数达到预设迭代次数阈值时,确定初始生成器网络和初始判别器网络均训练完成,将当前的初始生成器网络确定为生成器网络,并将当前的初始判别器网络确定为判别器网络。
85.上述声纹识别方法可以通过小样本语音数据训练集进行数据扩增后来训练生成对抗网络模型,使得生成对抗网络模型能够学习到大样本语音数据中的大量知识,以便进一步将生成对抗网络模型的网络参数迁移到声纹识别模型上进行小样本训练,提高小样本训练声纹识别模型泛化能力。
86.在通过语音数据对生成对抗网络模型进行训练时,需要提取语音数据的特征,因此,在训练前,可以先对语音数据进行预处理,得到梅尔频谱图数据(即语音特征数据)。其中,在则一实施例中,如图6所示,上述s211中对小样本语音数据训练集进行预处理,得到预处理结果的步骤,具体可以包括:
87.s2111、对小样本语音数据训练集中的小样本语音数据进行分帧,得到多个语音帧数据。
88.具体的,由于语音数据是非平稳的,但语音数据在短时间内是平稳的,不会发生突变,为了便于处理,可以将小样本语音数据训练集中的小样本语音数据划分成多帧平稳的语音数据。可选的,语音数据可以为一维数据。
89.可选的,计算机设备可以按照时间顺序,将对小样本语音数据训练集中的小样本语音数据进行分帧,得到多个语音帧数据。
90.s2112、分别对各语音帧数据进行加窗处理,得到对应的加窗数据。
91.具体的,为了各语音帧数据在后续傅里叶变换时不会出现频谱能量泄露的情况,可以对各语音帧数据进行加窗处理。可选的,加窗处理可以理解为通过窗函数对语音帧数据进行截取的过程。可选的,窗的类型可以为矩形窗、三角窗、汉宁窗、高斯窗等等。
92.需要说明的是,由于汉明窗两端不为零,能够减少很近的旁瓣泄露。因此,本实施例中,计算机设备可以分别对各语音帧数据加汉明窗,得到各语音帧数据对应的加窗数据。
93.s2113、对各加窗数据进行傅里叶变换,确定二维频谱图。
94.进一步,计算机设备可以分别对各加窗数据进行傅里叶变换,并按照时间先后顺序将傅里叶变换结果组合在一起,得到二维频谱图。可选的,二维频谱图可以包括x轴数据和y轴数据;x轴数据可以为时间,y轴数据可以为频率。
95.s2114、将二维频谱图中的频率数据映射至梅尔标度上,得到梅尔频谱图数据,并
将梅尔频谱图数据确定为预处理结果。
96.具体的,计算机设备可以按照频率数据f与梅尔标度mel之间的映射关系,将二维频谱图中y轴的频率数据f映射至梅尔标度mel上,得到梅尔频谱图数据。可选的,映射关系可以为比例关系、函数关系、对数关系和/或指数关系等等。
97.在本实施例中,频率数据f与梅尔标度mel之间的映射关系可以通过公式表示为:
98.mel=2595*log
10
(1+f/700)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1);
99.其中,公式(1)中的数值还可以为其它值,对此不做限定。
100.上述声纹识别方法可以对小样本语音数据训练集中的小样本语音数据进行预处理,得到梅尔频谱图数据,然后通过梅尔频谱图数据训练生成对抗网络模型,从而能够使生成对抗网络模型训练得到大样本对应的最优网络参数,在此基础上,通过迁移学习可以训练出泛化能力较大的声纹识别模型。
101.作为其中一个实施例,生成对抗网络模型中的判别器网络包括第一卷积层和第一全连接层;初始声纹识别模型包括第二卷积层和第二全连接层;如图7 所示,上述s220中将生成对抗网络模型的网络参数迁移至初始声纹识别模型中,通过小样本语音数据训练集对初始声纹识别模型进行训练的步骤,可以通过以下步骤实现:
102.s221、将判别器网络中第一卷积层的网络参数确定为初始声纹识别模型中第二卷积层的网络参数,并对第二全连接层的网络参数进行初始化。
103.在本实施例中,生成对抗网络模型中的判别器网络包括一个卷积层(即第一卷积层)和一个全连接层(即第一全连接层);初始声纹识别模型也包括一个卷积层(即第二卷积层)和一个全连接层(即第二全连接层)。其中,第一卷积层和第二卷积层的结构可以相同;第一全连接层与第二全连接层的结构可以相同,也可以不相同。
104.需要说明的是,计算机设备可以将生成对抗网络模型中第一卷积层的网络参数赋予初始声纹识别模型中第二卷积层的网络参数,同时,计算机设备可以对初始声纹识别模型中第二全连接层的网络参数进行初始化。若声纹识别模型输出的类别与判别器网络输出的类别相同,则判别器网络中第一全连接层的网络参数可以确定为初始声纹识别模型中第二全连接层的网络参数,该情况下,第一全连接层与第二全连接层的结构相同;若声纹识别模型输出的类别与判别器网络输出的类别不相同,则需要将初始声纹识别模型中第二全连接层的网络参数进行初始化。
105.s222、通过小样本语音数据训练集对初始声纹识别模型进行训练。
106.进一步,计算机设备可以通过小样本语音数据训练集中的语音数据对初始声纹识别模型进行训练。具体地,计算机设备可以将小样本语音数据训练集中的所有语音数据输入至初始声纹识别模型中,得到声纹识别预测结果,通过损失函数计算声纹识别预测结果与标准声纹识别结果之间的预测误差值,并根据预测误差值更新初始声纹识别模型中的网络参数,不断重复执行将小样本语音数据训练集中的所有语音数据输入至网络参数更新后的初始声纹识别模型中,直到预测误差值满足预设误差阈值或迭代次数达到预设迭代次数阈值为止,得到预先训练好的声纹识别模型。上述标准声纹识别结果可以为理想化的声纹识别结果,即声纹识别模型训练的金标准。
107.上述声纹识别方法可以将判别器网络中第一卷积层的网络参数确定为初始声纹识别模型中第二卷积层的网络参数,并对第二全连接层的网络参数进行初始化,通过小样
本语音数据训练集对初始声纹识别模型进行训练得到声纹识别结果;该方法可以将生成对抗网络模型学习到的大样本对应的网络参数迁移到待训练的声纹识别模型上,使得待训练的声纹识别模型训练时引用了大样本语音数据集训练得到的知识,进一步能够加快声纹识别模型训练的收敛速率,提高声纹识别模型识别的准确率。
108.为了便于本领域技术人员的理解,以执行主体为计算机设备为例介绍本技术提供的声纹识别方法,具体的,该方法包括:
109.(1)对小样本语音数据训练集中的小样本语音数据进行分帧,得到多个语音帧数据。
110.(2)分别对各语音帧数据进行加窗处理,得到对应的加窗数据。
111.(3)对各加窗数据进行傅里叶变换,确定二维频谱图。
112.(4)将二维频谱图中的频率数据映射至梅尔标度上,得到梅尔频谱图数据,并将梅尔频谱图数据确定为预处理结果。
113.(5)将随机噪声数据输入至初始生成器网络,得到生成数据,并将预处理结果和生成数据输入至初始判别器网络,得到初始判别预测结果。
114.(6)通过损失函数计算初始判别预测结果与标准判别结果之间的预测误差值。
115.(7)根据预测误差值更新初始生成器网络和初始判别器网络中网络参数。
116.(8)若预测误差值满足预设的收敛条件,确定初始生成器网络和初始判别器网络均训练完成,得到生成器网络和判别器网络。
117.(9)将判别器网络中第一卷积层的网络参数确定为初始声纹识别模型中第二卷积层的网络参数,并对第二全连接层的网络参数进行初始化。
118.(10)通过小样本语音数据训练集对初始声纹识别模型进行训练,得到声纹识别模型;其中,初始声纹识别模型和生成对抗网络模型的卷积层的结构相同。
119.(11)获取待识别语音数据。
120.(12)将待识别语音数据输入至预设的声纹识别模型中,得到待识别语音数据的声纹识别结果。
121.以上(1)至(12)的执行过程具体可以参见上述实施例的描述,其实现原理和技术效果类似,在此不再赘述。
122.应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
123.在一个实施例中,如图8所示,提供了一种声纹识别装置,包括:语音数据获取模块11和声纹识别模块12,其中:
124.语音数据获取模块11,用于获取待识别语音数据;
125.声纹识别模块12,用于将待识别语音数据输入至预设的声纹识别模型中,得到待识别语音数据的声纹识别结果;
126.其中,声纹识别模型训练时卷积层的初始参数是根据预先训练的生成对抗网络模
型的卷积层参数确定的,且生成对抗网络模型是通过对小样本语音数据训练集进行数据扩增后训练得到的。
127.本实施例提供的声纹识别装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
128.在其中一个实施例中,声纹识别装置还包括:第一模型训练模块和第二模型训练模块,其中:
129.第一模型训练模块,用于通过小样本语音数据训练集对初始生成对抗网络模型进行训练,得到生成对抗网络模型;
130.第二模型训练模块,用于将生成对抗网络模型的网络参数迁移至初始声纹识别模型中,通过小样本语音数据训练集对初始声纹识别模型进行训练,得到声纹识别模型;其中,初始声纹识别模型和生成对抗网络模型的卷积层的结构相同。
131.本实施例提供的声纹识别装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
132.在其中一个实施例中,初始生成对抗网络模型包括初始生成器网络和初始判别器网络;第一模型训练模块包括:预处理单元和联合训练单元,其中:
133.预处理单元,用于对小样本语音数据训练集进行预处理,得到预处理结果;
134.联合训练单元,用于将随机噪声数据输入至初始生成器网络,得到生成数据,并将预处理结果和生成数据输入至初始判别器网络中,对初始生成器网络和初始判别器网络进行联合训练,得到生成器网络和判别器网络。
135.本实施例提供的声纹识别装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
136.在其中一个实施例中,联合训练单元包括:判别器网络处理子单元、预测误差值计算子单元、网络参数更新子单元和训练结束确定子单元,其中:
137.判别器网络处理子单元,用于将预处理结果和生成数据输入至初始判别器网络,得到初始判别预测结果;
138.预测误差值计算子单元,用于通过损失函数计算初始判别预测结果与标准判别结果之间的预测误差值;
139.网络参数更新子单元,用于根据预测误差值更新初始生成器网络和初始判别器网络中网络参数;
140.训练结束确定子单元,用于在预测误差值满足预设的收敛条件时,确定初始生成器网络和初始判别器网络均训练完成,得到生成器网络和判别器网络。
141.本实施例提供的声纹识别装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
142.在其中一个实施例中,预处理单元包括:分帧子单元、加窗子单元、傅里叶变换子单元和数据映射子单元,其中:
143.分帧子单元,用于对小样本语音数据训练集中的小样本语音数据进行分帧,得到多个语音帧数据;
144.加窗子单元,用于分别对各语音帧数据进行加窗处理,得到对应的加窗数据;
145.傅里叶变换子单元,用于对各加窗数据进行傅里叶变换,确定二维频谱图;
146.数据映射子单元,用于将二维频谱图中的频率数据映射至梅尔标度上,得到梅尔频谱图数据,并将梅尔频谱图数据确定为预处理结果。
147.本实施例提供的声纹识别装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
148.在其中一个实施例中,生成对抗网络模型中的判别器网络包括第一卷积层和第一全连接层;初始声纹识别模型包括第二卷积层和第二全连接层;第二模型训练模块包括:网络参数初始化单元和声纹识别模型训练单元,其中:
149.网络参数初始化单元,用于将判别器网络中第一卷积层的网络参数确定为初始声纹识别模型中第二卷积层的网络参数,并对第二全连接层的网络参数进行初始化;
150.声纹识别模型训练单元,用于通过小样本语音数据训练集对初始声纹识别模型进行训练。
151.本实施例提供的声纹识别装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
152.本实施例提供的声纹识别装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
153.关于声纹识别装置的具体限定可以参见上文中对于声纹识别方法的限定,在此不再赘述。上述声纹识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
154.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待识别语音数据。该计算机设备的网络接口用于与外部的终点通过网络连接通信。该计算机程序被处理器执行时以实现一种声纹识别方法。
155.本领域技术人员可以理解,图9中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
156.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
157.获取待识别语音数据;
158.将待识别语音数据输入至预设的声纹识别模型中,得到待识别语音数据的声纹识别结果;
159.其中,声纹识别模型训练时卷积层的初始参数是根据预先训练的生成对抗网络模型的卷积层参数确定的,且生成对抗网络模型是通过对小样本语音数据训练集进行数据扩增后训练得到的。
160.在一个实施例中,提供了一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
161.获取待识别语音数据;
162.将待识别语音数据输入至预设的声纹识别模型中,得到待识别语音数据的声纹识别结果;
163.其中,声纹识别模型训练时卷积层的初始参数是根据预先训练的生成对抗网络模型的卷积层参数确定的,且生成对抗网络模型是通过对小样本语音数据训练集进行数据扩增后训练得到的。
164.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
165.获取待识别语音数据;
166.将待识别语音数据输入至预设的声纹识别模型中,得到待识别语音数据的声纹识别结果;
167.其中,声纹识别模型训练时卷积层的初始参数是根据预先训练的生成对抗网络模型的卷积层参数确定的,且生成对抗网络模型是通过对小样本语音数据训练集进行数据扩增后训练得到的。
168.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccess memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory, sram)或动态随机存取存储器(dynamic random access memory,dram)等。
169.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
170.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。

技术特征:


1.一种声纹识别方法,其特征在于,所述方法包括:获取待识别语音数据;将所述待识别语音数据输入至预设的声纹识别模型中,得到所述待识别语音数据的声纹识别结果;其中,所述声纹识别模型训练时卷积层的初始参数是根据预先训练的生成对抗网络模型的卷积层参数确定的,且所述生成对抗网络模型是通过对小样本语音数据训练集进行数据扩增后训练得到的。2.根据权利要求1所述的声纹识别方法,其特征在于,所述声纹识别模型的构建过程包括:通过所述小样本语音数据训练集对初始生成对抗网络模型进行训练,得到所述生成对抗网络模型;将所述生成对抗网络模型的网络参数迁移至初始声纹识别模型中,通过所述小样本语音数据训练集对所述初始声纹识别模型进行训练,得到所述声纹识别模型;其中,所述初始声纹识别模型和生成对抗网络模型的卷积层的结构相同。3.根据权利要求2所述的声纹识别方法,其特征在于,所述初始生成对抗网络模型包括初始生成器网络和初始判别器网络;则所述通过小样本语音数据训练集对初始生成对抗网络模型进行训练,得到生成对抗网络模型,包括:对所述小样本语音数据训练集进行预处理,得到预处理结果;将随机噪声数据输入至所述初始生成器网络,得到生成数据,并将所述预处理结果和所述生成数据输入至所述初始判别器网络中,对所述初始生成器网络和所述初始判别器网络进行联合训练,得到所述生成器网络和所述判别器网络。4.根据权利要求3所述的声纹识别方法,其特征在于,所述将所述预处理结果和所述生成数据输入至所述初始判别器网络中,对所述初始生成器网络和所述初始判别器网络进行联合训练,得到所述生成器网络和所述判别器网络,包括:将所述预处理结果和所述生成数据输入至所述初始判别器网络,得到初始判别预测结果;通过损失函数计算初始判别预测结果与标准判别结果之间的预测误差值;根据所述预测误差值更新所述初始生成器网络和所述初始判别器网络中网络参数;若所述预测误差值满足预设的收敛条件,则确定所述初始生成器网络和所述初始判别器网络均训练完成,得到所述生成器网络和所述判别器网络。5.根据权利要求3所述的声纹识别方法,其特征在于,所述对所述小样本语音数据训练集进行预处理,得到预处理结果,包括:对所述小样本语音数据训练集中的小样本语音数据进行分帧,得到多个语音帧数据;分别对各所述语音帧数据进行加窗处理,得到对应的加窗数据;对各加窗数据进行傅里叶变换,确定二维频谱图;将所述二维频谱图中的频率数据映射至梅尔标度上,得到梅尔频谱图数据,并将所述梅尔频谱图数据确定为所述预处理结果。6.根据权利要求2-5中任一项所述的声纹识别方法,其特征在于,所述生成对抗网络模
型中的判别器网络包括第一卷积层和第一全连接层;所述初始声纹识别模型包括第二卷积层和第二全连接层;则所述将所述生成对抗网络模型的网络参数迁移至初始声纹识别模型中,通过所述小样本语音数据训练集对所述初始声纹识别模型进行训练,包括:将所述判别器网络中第一卷积层的网络参数确定为所述初始声纹识别模型中所述第二卷积层的网络参数,并对所述第二全连接层的网络参数进行初始化;通过所述小样本语音数据训练集对所述初始声纹识别模型进行训练。7.一种声纹识别装置,其特征在于,所述装置包括:语音数据获取模块,用于获取待识别语音数据;声纹识别模块,用于将所述待识别语音数据输入至预设的声纹识别模型中,得到所述待识别语音数据的声纹识别结果;其中,所述声纹识别模型训练时卷积层的初始参数是根据预先训练的生成对抗网络模型的卷积层参数确定的,且所述生成对抗网络模型是通过对小样本语音数据训练集进行数据扩增后训练得到的。8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述声纹识别方法的步骤。9.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述声纹识别方法的步骤。10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。

技术总结


本申请涉及一种声纹识别方法、装置、计算机设备、存储介质及程序产品。该方法包括:获取待识别语音数据,并将待识别语音数据输入至预设的声纹识别模型中,得到待识别语音数据的声纹识别结果。采用本方法能够应用预先训练好的声纹识别模型对待识别语音数据进行识别得到声纹识别结果,且由于待训练的声纹识别模型训练时引用了通过对小样本语音数据训练集进行数据扩增后训练得到的生成对抗网络模型的卷积层参数,从而使得待训练的声纹识别模型训练时引用了大样本语音数据集训练得到的知识,进一步能够加快声纹识别模型训练的收敛速率,提高声纹识别模型识别的准确率。高声纹识别模型识别的准确率。高声纹识别模型识别的准确率。


技术研发人员:

黄淋 饶宇熹 宁博 黎明欣

受保护的技术使用者:

中国工商银行股份有限公司

技术研发日:

2022.04.27

技术公布日:

2022/8/16

本文发布于:2024-09-22 13:33:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/24761.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   模型   网络   语音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议