基于脉冲序列增强语音的声纹识别方法、装置以及设备与流程

1.本发明涉及语音处理技术领域，尤其涉及基于脉冲序列增强语音的声纹识别方法、装置以及设备。

背景技术：

2.随着技术的提升和成熟，声纹识别技术逐渐应用于金融等领域。然而，声纹识别技术仍然面临一些技术壁垒，例如跨信道等。对于这些技术壁垒，现有的方案更多地是对原始语音进行加燥增强、跨信道技术处理增强，增强网络的表达能力等。但现有的原始语音增强方案存在一定局限性：自然界的环境噪声和人为噪声千奇百怪，很少能有噪声数据集进行有效覆盖，这就限制了模型的泛化性和稳定性。

技术实现要素：

3.有鉴于此，本发明的目的在于提出一种基于脉冲序列增强语音的声纹识别方法、装置以及设备，旨在解决现有的声纹模型的泛化性和稳定性较差的问题。
4.为实现上述目的，本发明提供一种基于脉冲序列增强语音的声纹识别方法，所述方法包括：
5.对获取的原始语音数据进行预处理后，计算所述原始语音数据的平均能量，根据所述平均能量计算多脉冲序列；
6.基于所述多脉冲序列对所述原始语音数据进行语音增强，得到第一语音；
7.对所述第一语音进行特征提取后输入预设的神经网络模型进行训练，得到声纹识别模型；
8.将待识别语音进行增强后的语音作为第二语音，提取所述第二语音的特征参数，将所述特征参数通过所述声纹识别模型进行识别后输出对应的声纹特征。
9.优选的，所述对获取的原始语音数据进行预处理后，计算所述原始语音数据的平均能量，包括：
10.提取所述原始语音数据中的有效片段的语音作为有效语音，计算所述有效语音的平均能量。
11.优选的，所述计算所述有效语音的平均能量，包括：
12.根据计算所述有效语音的有效语音长度的加权平均和，得到所述平均能量，其中，n为有效语音长度。
13.优选的，所述对所述原始语音数据进行语音增强，包括：
14.根据y(n)＝x(n)+v(n)对所述原始语音数据进行多脉冲序列的语音增强，其中，x(n)代表原始语音，v(n)代表多脉冲序列。
15.优选的，所述对所述第一语音进行特征提取后输入预设的神经网络模型进行训练，得到声纹识别模型，包括：
16.当所述声纹识别模型在训练时满足第一条件时，计算所述声纹识别模型的当前
eer；
17.基于所述当前eer调整所述原始语音数据的多脉冲序列后继续对所述声纹识别模型进行训练，直到满足第二条件时，记录多脉冲序列信息。
18.优选的，所述第一条件包括所述声纹识别模型的损失函数趋于稳定或所述声纹识别模型的损失函数低于阈值；所述第二条件包括所述声纹识别模型的损失函数以及所述eer均趋于稳定。
19.为实现上述目的，本发明还提供一种基于脉冲序列增强语音的声纹识别装置，所述装置包括：
20.计算单元，用于对获取的原始语音数据进行预处理后，计算所述原始语音数据的平均能量，根据所述平均能量计算多脉冲序列；
21.语音增强单元，用于基于所述多脉冲序列对所述原始语音数据进行语音增强，得到第一语音；
22.模型训练单元，用于对所述第一语音进行特征提取后输入预设的神经网络模型进行训练，得到声纹识别模型；
23.识别单元，用于将待识别语音进行增强后的语音作为第二语音，提取所述第二语音的特征参数，将所述特征参数通过所述声纹识别模型进行识别后输出对应的声纹特征。
24.为了实现上述目的，本发明还提出一种设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如上述实施例所述的一种基于脉冲序列增强语音的声纹识别方法的步骤。
25.为了实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如上述实施例所述的一种基于脉冲序列增强语音的声纹识别方法的步骤。
26.有益效果：
27.以上方案，通过基于多脉冲序列对语音进行处理，对某些频率的声纹信息进行增强，从而增大不同人声纹之间的差别，提高声纹识别的准确性以及声纹模型的泛化性。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
29.图1为本发明一实施例提供的一种基于脉冲序列增强语音的声纹识别方法的流程示意图。
30.图2为本发明一实施例提供的一种基于脉冲序列增强语音的声纹识别装置的结构示意图。
31.发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
32.为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施
方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。
33.在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
34.以下结合实施例详细阐述本发明的内容。
35.在现有中的声纹识别还存在以下问题，包括：不同的编码技术和传输损失会对原始信号产生一些影响，如何弥补或是减少这些损失，现有跨信道处理技术还不能完全解决；随着不同因素的影响，可能会使原始语音出现变动或是失真。
36.基于此，本发明提出一种基于脉冲序列增强语音的声纹识别方法，能够尽量减少自然噪声和人工噪声的采集成本，以及跨信道影响补偿技术的成本，尽量提高不同人声纹特征的区分度。并且，能够提升声纹模型的泛化性、稳定性和准确性，以应对越来越多变的环境噪声、技术处理差异。
37.参照图1所示为本发明一实施例提供的一种基于脉冲序列增强语音的声纹识别方法的流程示意图。
38.本实施例中，该方法包括：
39.s11，对获取的原始语音数据进行预处理后，计算所述原始语音数据的平均能量，根据所述平均能量计算多脉冲序列。
40.其中，所述对获取的原始语音数据进行预处理后，计算所述原始语音数据的平均能量，包括：
41.提取所述原始语音数据中的有效片段的语音作为有效语音，计算所述有效语音的平均能量。
42.进一步的，所述计算所述有效语音的平均能量，包括：
43.根据计算所述有效语音的有效语音长度的加权平均和，得到所述平均能量，其中，n为有效语音长度，x(m)为语音m点的语音数据，w(n-m)为该点语音数据对应的窗函数值。
44.在本实施例中，对所输入的原始语音数据进行降噪处理，利用webrtc获取原始语音数据的有效片段的语音，并根据公式计算有效语音的平均能量，平均能量为有效语音长度的加权平均和。根据得到的平均能量计算有效语音的多脉冲序列(即多脉冲序列具有的能量值)，从而确定添加的每条脉冲的能量大小，以对有效语音进行脉冲序列语音增强，而对非有效语音(如静音片段、噪声片段等)则不进行增强。其中，脉冲三要素：幅度、宽度、相位，幅度值是根据需要增强的语音的平均能量来确定，宽度可通过人工设定，相位为程序自动调整至最优值。在s11-1中，先过滤一些异常能量值(如强
噪音)，然后计算该有效语音的平均能量值en，而幅度值的设定为至之间，可以根据需要设置系数。平均能量是为了防止脉冲特征(脉冲特征指的是单个脉冲的相位和能量等的抽象特征)对可区分性声纹特征产生过大影响。
45.s12，基于所述多脉冲序列对所述原始语音数据进行语音增强，得到第一语音。
46.其中，所述对所述原始语音数据进行语音增强，包括：
47.根据y(n)＝x(n)+v(n)对所述原始语音数据进行多脉冲序列的语音增强，其中，x(n)代表原始语音，v(n)代表多脉冲序列。
48.基于上述，v(n)中语音的生成条件可认为是相位和能量，神经网络模型对相位进行调整，en对能量进行调整。en的作用是防止脉冲特征对可区分性声纹特征产生过大影响。
49.s13，对所述第一语音进行特征提取后输入预设的神经网络模型进行训练，得到声纹识别模型。
50.其中，所述对所述第一语音进行特征提取后输入预设的神经网络模型进行训练，得到声纹识别模型，包括：
51.当所述声纹识别模型在训练时满足第一条件时，计算所述声纹识别模型的当前eer；
52.基于所述当前eer调整所述原始语音数据的多脉冲序列后继续对所述声纹识别模型进行训练，直到满足第二条件时，记录多脉冲序列信息。
53.进一步的，所述第一条件包括所述声纹识别模型的损失函数趋于稳定或所述声纹识别模型的损失函数低于阈值；所述第二条件包括所述声纹识别模型的损失函数以及所述eer均趋于稳定。
54.在本实施例中，对语音增强后的第一语音进行特征(mfcc特征、plp 特征、fbank特征等)提取，或者进行wav2vec处理；将所提取的特征输入至预设的神经网络模型的ecapa-tdnn、resnet系列、vgg系列等进行训练。如果模型的损失函数趋于稳定时或损失函数值低于阈值时，则计算现阶段模型的eer，根据现阶段模型的eer，调整原始语音数据的多脉冲序列后继续进行模型的训练；当损失函数和eer都趋于稳定时，记录多脉冲序列信息(多脉冲序列信息包括多脉冲序列的相位和能量等信息)和深度网络信息。其中，多脉冲序列信息是对待识别语音进行增强的，通过提取增强后的待识别语音特征参数，将特征参数经过声纹识别模型(模型的参数为训练好后保存的深度网络信息)计算后，输出声纹特征。
55.进一步地，对原始语音数据进行多脉冲序列的调整方式有：(1)根据梅尔刻度进行处理，即在每一个梅尔频段范围内设置一个脉冲，具体的脉冲频率则有程序进行优化计算；(2)根据音频采样率和奈奎斯特定理进行处理，即在1到之间固定分配频段区间，每个频段范围内有一个脉冲，具体的脉冲频率则由程序进行计算。而损失函数趋于稳定、eer趋于稳定的判断包括：(1)损失值不再变化，即在3个以上epoch损失值的变化小于0.01； (2)eer值不再变化，即在3个以上epoch eer的变化小于0.01；(3)损失值变动较大，但小于指定阈值。在这三种情况下，可以终止本阶段训练，继续进行脉冲调整后的训练或是中止训练(主要是eer趋于稳定了)。
56.s14，将待识别语音进行增强后的语音作为第二语音，提取所述第二语音的特征参
数，将所述特征参数通过所述声纹识别模型进行识别后输出对应的声纹特征。
57.综上，基于上述方案能够有效简化了声纹识别语音增强的过程；能够根据输入有效片段的语音的平均能量，自动调整多脉冲序列的能量。另外，减少自然噪声和人工噪声的采集成本，以及跨信道影响补偿技术的成本，提高不同人声纹特征的区分度。
58.参照图2所示为本发明一实施例提供的一种基于脉冲序列增强语音的声纹识别装置的结构示意图。
59.在本实施例中，该装置20包括：
60.计算单元21，用于对获取的原始语音数据进行预处理后，计算所述原始语音数据的平均能量，根据所述平均能量计算多脉冲序列；
61.语音增强单元22，用于基于所述多脉冲序列对所述原始语音数据进行语音增强，得到第一语音；
62.模型训练单元23，用于对所述第一语音进行特征提取后输入预设的神经网络模型进行训练，得到声纹识别模型；
63.识别单元24，用于将待识别语音进行增强后的语音作为第二语音，提取所述第二语音的特征参数，将所述特征参数通过所述声纹识别模型进行识别后输出对应的声纹特征。
64.进一步的，所述计算单元21，用于：
65.提取所述原始语音数据中的有效片段的语音作为有效语音，计算所述有效语音的平均能量。
66.其中，根据计算所述有效语音的有效语音长度的加权平均和，得到所述平均能量，其中，n为有效语音长度。
67.进一步的，所述语音增强单元22，用于：
68.根据y(n)＝x(n)+v(n)对所述原始语音数据进行多脉冲序列的语音增强，其中，x(n)代表原始语音，v(n)代表多脉冲序列。
69.进一步的，所述模型训练单元23，包括：
70.第一训练单元，用于当所述声纹识别模型在训练时满足第一条件时，计算所述声纹识别模型的当前eer；
71.第二训练单元，用于基于所述当前eer调整所述原始语音数据的多脉冲序列后继续对所述声纹识别模型进行训练，直到满足第二条件时，记录多脉冲序列信息。
72.其中，所述第一条件包括所述声纹识别模型的损失函数趋于稳定或所述声纹识别模型的损失函数低于阈值；所述第二条件包括所述声纹识别模型的损失函数以及所述eer均趋于稳定。
73.该装置20的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。
74.本发明实施例还提供一种设备，该设备包括如上所述的基于脉冲序列增强语音的声纹识别装置，其中，基于脉冲序列增强语音的声纹识别装置可以采用图2实施例的结构，其对应地，可以执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，详细可以参见上述实施例中的相关记载，此处不再赘述。
75.所述设备包括：手机、数码相机或平板电脑等具有拍照功能的设备，或者具有图像处理功能的设备，或者具有图像显示功能的设备。所述设备可包括存储器、处理器、输入单元、显示单元、电源等部件。
76.其中，存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(例如图像播放功能等)等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器和输入单元对存储器的访问。
77.输入单元可用于接收输入的数字或字符或图像信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，本实施例的输入单元除了包括摄像头，还可包括触敏表面(例如触摸显示屏)以及其他输入设备。
78.显示单元可用于显示由用户输入的信息或提供给用户的信息以及设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板，可选的，可以采用lcd(liquidcrystal display，液晶显示器)、oled(organic light-emitting diode,有机发光二极管)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器以确定触摸事件的类型，随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。
79.本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现图1所示的基于脉冲序列增强语音的声纹识别方法。所述计算机可读存储介质可以是只读存储器，磁盘或光盘等。
80.需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
81.并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
82.上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

技术特征：

1.一种基于脉冲序列增强语音的声纹识别方法，其特征在于，所述方法包括：对获取的原始语音数据进行预处理后，计算所述原始语音数据的平均能量，根据所述平均能量计算多脉冲序列；基于所述多脉冲序列对所述原始语音数据进行语音增强，得到第一语音；对所述第一语音进行特征提取后输入预设的神经网络模型进行训练，得到声纹识别模型；将待识别语音进行增强后的语音作为第二语音，提取所述第二语音的特征参数，将所述特征参数通过所述声纹识别模型进行识别后输出对应的声纹特征。2.根据权利要求1所述的一种基于脉冲序列增强语音的声纹识别方法，其特征在于，所述对获取的原始语音数据进行预处理后，计算所述原始语音数据的平均能量，包括：提取所述原始语音数据中的有效片段的语音作为有效语音，计算所述有效语音的平均能量。3.根据权利要求2所述的一种基于脉冲序列增强语音的声纹识别方法，其特征在于，所述计算所述有效语音的平均能量，包括：根据计算所述有效语音的有效语音长度的加权平均和，得到所述平均能量，其中，n为有效语音长度。4.根据权利要求1所述的一种基于脉冲序列增强语音的声纹识别方法，其特征在于，所述对所述原始语音数据进行语音增强，包括：根据y(n)＝x(n)+v(n)对所述原始语音数据进行多脉冲序列的语音增强，其中，x(n)代表原始语音，v(n)代表多脉冲序列。5.根据权利要求1所述的一种基于脉冲序列增强语音的声纹识别方法，其特征在于，所述对所述第一语音进行特征提取后输入预设的神经网络模型进行训练，得到声纹识别模型，包括：当所述声纹识别模型在训练时满足第一条件时，计算所述声纹识别模型的当前eer；基于所述当前eer调整所述原始语音数据的多脉冲序列后继续对所述声纹识别模型进行训练，直到满足第二条件时，记录多脉冲序列信息。6.根据权利要求5所述的一种基于脉冲序列增强语音的声纹识别方法，其特征在于，所述第一条件包括所述声纹识别模型的损失函数趋于稳定或所述声纹识别模型的损失函数低于阈值；所述第二条件包括所述声纹识别模型的损失函数以及所述eer均趋于稳定。7.一种基于脉冲序列增强语音的声纹识别装置，其特征在于，所述装置包括：计算单元，用于对获取的原始语音数据进行预处理后，计算所述原始语音数据的平均能量，根据所述平均能量计算多脉冲序列；语音增强单元，用于基于所述多脉冲序列对所述原始语音数据进行语音增强，得到第一语音；模型训练单元，用于对所述第一语音进行特征提取后输入预设的神经网络模型进行训练，得到声纹识别模型；识别单元，用于将待识别语音进行增强后的语音作为第二语音，提取所述第二语音的特征参数，将所述特征参数通过所述声纹识别模型进行识别后输出对应的声纹特征。
8.一种设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如权利要求1至6任意一项所述的一种基于脉冲序列增强语音的声纹识别方法的步骤。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至6任意一项所述的一种基于脉冲序列增强语音的声纹识别方法的步骤。

技术总结

本发明公开了一种基于脉冲序列增强语音的声纹识别方法、装置、设备及存储介质，其包括：对获取的原始语音数据进行预处理后，计算所述原始语音数据的平均能量，根据所述平均能量计算多脉冲序列；基于所述多脉冲序列对所述原始语音数据进行语音增强，得到第一语音；对所述第一语音进行特征提取后输入预设的神经网络模型进行训练，得到声纹识别模型；将待识别语音进行增强后的语音作为第二语音，提取所述第二语音的特征参数，将所述特征参数通过所述声纹识别模型进行识别后输出对应的声纹特征。能够提高声纹识别的准确性以及声纹模型的泛化性。泛化性。泛化性。