基于改进时延神经网络的说话人识别方法



1.本发明涉及说话人识别技术领域,具体为基于改进时延神经网络的说话人识别方法。


背景技术:



2.传统的说话人识别大都是用i-vector[6]加plda打分的方法,后来随着深度学习的发展分别出现了d-vector[7]和x-vector[1],d-vector首次尝试将深度神经网络(deep neural network,dnn)应用在文本相关的说话人识别领域,因其识别效果能够达到传统的i-vector,且训练参数大为减少,成为了广泛应用的说话人识别方法。后来提出的tdnn是dnn在说话人识别领域的实现并改进,称为x-vector,该方法设计了一个包含多帧的神经网络,可以结合前后多帧同时提取特征,这在表达语音特征的时间关系上非常有帮助,多层网络的设置也使网络对特征有较强的抽象能力。x-vector分为帧级别(frame-level)和段级别(segment-level)两种不同层的处理,时延体现在开始的帧级别,中间的statistics pooling层将帧级别转换成段级别,之后得到特征表达。


技术实现要素:



[0003]
(一)解决的技术问题
[0004]
针对现有技术的不足,本发明改进后的系统增加了量化和计数算子(qco)的统计方法[3],本发明称之为qco-vector,结构如图1所示。qco将输入特征量化为多个层次,每个级别都可以表示一种纹理统计信息,通过它可以很好地采样连续的纹理,以便于描述,量化后,计算每一层的强度,进行纹理特征编码。本系统所使用的特征处理方式同上,输入的39维mfcc先进入frame层处理,第一层frame可得到前后5帧时间序列的信息,第二层得到前后9帧时间序列的信息,这里本发明把第二层得到的结果送入第三次frame的同时,也将其输入到纹理增强模块(tem),tem模块处理后得到的即为qco统计的纹理特征。tdnn过程中,前5层frame处理后,同样进入statistics pooling层计算出均值方差,等待tem的输出。
[0005]
(二)技术方案
[0006]
为实现以上目的,本发明通过以下技术方案予以实现:基于改进时延神经网络的说话人识别方法,对说话人识别方法包括以下步骤:
[0007]
a.通过tdnn网络训练音频的特征获取部分说话人的特征表达;
[0008]
b.用大量不包括识别集在内的其他说话者的语音特征训练提出的网络得到一个通用模型;
[0009]
c.由加入的量化和计数算子(qco)同时处理;
[0010]
d.量化和计数算子能够充分利用音频的低层纹理特征,得到特征的细节信息。
[0011]
作为本发明优选的技术方案:所述步骤c中量化和计数算子将输入特征量化为多个层次,每个级别都可以表示一种纹理统计信息,通过它可以很好地采样连续的纹理,以便于描述,量化后,计算每一层的强度,进行纹理特征编码;
[0012]
此时的输入记为a∈rc×h×w,计算得到全局平均特征g∈rc×1×1;随后计算特征图a中的每个特征点a
i,j
(i∈[1,w],j∈[1,h])与g的余弦相似度,得到s∈r1×h×w:
[0013][0014]
之后把s量化成n等级的l=[l1,l2,...,ln],从s的最小值和最大值中均分出n个量化等级,ln的计算:
[0015][0016]
对每个特征点si∈r(i∈[1,hw])将其量化编码为ei∈rn(i∈[1,hw]),最终得到e∈rn×
hw
,e
i,n
的计算公式为:
[0017][0018]
得到量化编码矩阵e之后,进一步得到计数图c∈rn×2:
[0019][0020]
cat表示连接操作,
[0021]
量化计数图c反应的是输入特征图的相对统计,为获取绝对统计信息,把全局平均特征g编码进c得到d,g需要先上采样至rn×c:
[0022]
d=cat(mlp(c),g)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0023][0024]
作为本发明优选的技术方案:所述步骤c中再经过bn+conv1d得到最终的纹理增强模块(tem)特征输出,tem处理结束后,其输出同frame5层计算的均值方差连接得到的维度为256,经过bn+conv1d后维度保持不变,这里得到的即为qco-vector结果,训练时需要得到说话人数量的结果输出,此时通过最后一层全连接层,我们将得到说话人的预测输出,维度256*n。
[0025]
作为本发明优选的技术方案:所述步骤d中得到的特征细节信息可表达为:
[0026]
第i个说话人的第j个语音片段用plda的公式表示为:
[0027]
x
ij
=μ+fhi+gω
ij

ij
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0028]
其中μ表示训练数据的全局均值;f表示说话人身份空间;g可以看做是噪声空间;ε
ij
∈n(0,σ)表示噪声协方差;hi可以看作是第i个说话人的隐变量,即x
ij
在说话人空间的表示;ω
ij
可以看作是第i个说话人的第j个语音片段的隐变量,即x
ij
在噪声空间的表示。
[0029]
作为本发明优选的技术方案:plda模型拆成两部分来看,第一部分是μ+fhi,这部分只与说话人有关而与不同语音片段无关,称为信号部分,反映了说话人的类间差异;第二部分是gω
ij

ij
,这部分反映的是同一说话人的不通语音片段间的差异,称为噪声部分,模型中存在隐变量,因此使用em算法迭代估计其中的变量θ={μ,f,g,σ};
[0030]
测试时用plda模型中训练好的参数打分,计算两个语音片段的对数似然比:
[0031][0032]
式中两个语音片段来自同一空间的假设为ηs,来自不通空间的假设为ηd,得分越高,则两个语音片段来自同一说话人的概率越大。
[0033]
(三)有益效果
[0034]
本发明提供了基于改进时延神经网络的说话人识别方法。具备以下有益效果:
[0035]
(1)、本发明使用x-vector作为基线系统,在其结构上增加纹理增强模块(texture enhancement module,tem),tem中利用了qco获取细节特征的能力,来使网络结构提取特征的能力进一步增强。这种纹理统计的方法最初由[3]提出,首先应用在图像识别领域,统计化的纹理作为一种低层信息,在许多传统方法中都有广泛使用,类似于数字图像处理中经典的直方图均衡化,该方法对每个特征相对于平均特征的距离进行量化统计,得到统计的高维特征。本发明应用纹理增强模块的目的是充分利用低层纹理特征部分,因此在x-vector帧级别开始阶段即引入,将得到的纹理特征表达与x-vector段级别特征表达融合后输出;
[0036]
(2)、该基于改进时延神经网络的说话人识别方法,改进后的系统增加了量化和计数算子(qco)的统计方法[3],本发明称之为qco-vector,结构如图2所示。qco将输入特征量化为多个层次,每个级别都可以表示一种纹理统计信息,通过它可以很好地采样连续的纹理,以便于描述,量化后,计算每一层的强度,进行纹理特征编码。本系统所使用的特征处理方式同上,输入的39维mfcc先进入frame层处理,第一层frame可得到前后5帧时间序列的信息,第二层得到前后9帧时间序列的信息,这里本发明把第二层得到的结果送入第三次frame的同时,也将其输入到纹理增强模块(tem),tem模块处理后得到的即为qco统计的纹理特征。tdnn过程中,前5层frame处理后,同样进入statistics pooling层计算出均值方差,等待tem的输出。
附图说明
[0037]
图1为本发明改进的x-vector网格结构图;
[0038]
图2为本发明的说话人识别流程图;
[0039]
图3为本发明train170人各模型不同plda的的识别等错误率(eer)对比图;
[0040]
图4为本发明train340人各模型不同plda的的识别等错误率(eer)对比图;
[0041]
图5为本发明plda 40人各模型不同train人数的识别等错误率(eer)对比图。
具体实施方式
[0042]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043]
请参阅图1-5,本发明实施例提供一种技术方案:基于改进时延神经网络的说话人识别方法,对说话人识别方法包括以下步骤:
[0044]
a.通过tdnn网络训练音频的特征获取部分说话人的特征表达;
[0045]
b.用大量不包括识别集在内的其他说话者的语音特征训练提出的网络得到一个通用模型;
[0046]
c.由加入的量化和计数算子(qco)同时处理;
[0047]
d.量化和计数算子能够充分利用音频的低层纹理特征,得到特征的细节信息。
[0048]
作为本发明优选的技术方案:所述步骤c中量化和计数算子将输入特征量化为多个层次,每个级别都可以表示一种纹理统计信息,通过它可以很好地采样连续的纹理,以便于描述,量化后,计算每一层的强度,进行纹理特征编码;
[0049]
此时的输入记为a∈rc×h×w,计算得到全局平均特征g∈rc×1×1。随后计算特征图a中的每个特征点a
i,j
(i∈[1,w],j∈[1,h])与g的余弦相似度,得到s∈r1×h×w:
[0050][0051]
之后把s量化成n等级的l=[l1,l2,...,ln],从s的最小值和最大值中均分出n个量化等级。ln的计算:
[0052][0053]
对每个特征点si∈r(i∈[1,hw])将其量化编码为ei∈rn(i∈[1,hw]),最终得到e∈rn×
hw
,e
i,n
的计算公式为:
[0054][0055]
得到量化编码矩阵e之后,进一步得到计数图c∈rn×2:
[0056][0057]
cat表示连接操作。
[0058]
量化计数图c反应的是输入特征图的相对统计,为获取绝对统计信息,把全局平均特征g编码进c得到d,g需要先上采样至rn×c:
[0059]
d=cat(mlp(c),g)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0060][0061]
作为本发明优选的技术方案:所述步骤c中再经过bn+conv1d得到最终的纹理增强模块(tem)特征输出。tem处理结束后,其输出同frame5层计算的均值方差连接得到的维度为256,经过bn+conv1d后维度保持不变,这里得到的即为qco-vector结果,训练时需要得到说话人数量的结果输出,此时通过最后一层全连接层,我们将得到说话人的预测输出,维度256*n。
[0062]
作为本发明优选的技术方案:所述步骤d中得到的特征细节信息可表达为:
[0063]
第i个说话人的第j个语音片段用plda的公式表示为:
[0064]
x
ij
=μ+fhi+gω
ij

ij
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0065]
其中μ表示训练数据的全局均值;f表示说话人身份空间;g可以看做是噪声空间;ε
ij
∈n(0,σ)表示噪声协方差;hi可以看作是第i个说话人的隐变量,即x
ij
在说话人空间的
表示;ω
ij
可以看作是第i个说话人的第j个语音片段的隐变量,即x
ij
在噪声空间的表示。
[0066]
作为本发明优选的技术方案:plda模型拆成两部分来看,第一部分是μ+fhi,这部分只与说话人有关而与不同语音片段无关,称为信号部分,反映了说话人的类间差异;第二部分是gω
ij

ij
,这部分反映的是同一说话人的不通语音片段间的差异,称为噪声部分,模型中存在隐变量,因此使用em算法迭代估计其中的变量θ={μ,f,g,σ};
[0067]
测试时用plda模型中训练好的参数打分,计算两个语音片段的对数似然比:
[0068][0069]
式中两个语音片段来自同一空间的假设为ηs,来自不通空间的假设为ηd,得分越高,则两个语音片段来自同一说话人的概率越大。
[0070]
需要说明的是,特征提取操作在训练网络之前即准备。本技术文件使用的音频特征为之前提到的39维mfcc特征,将同一人的所有音频文件均分成400帧长的的特征保存。本发明把训练集的340人按8:2的比例分成神经网络的训练集和验证集,共得到训练集272个说话人108861个特征片段、验证集68个说话人26989个特征片段。plda打分和测试过程使用的特征从语音集的验证集和测试集得到,验证集的40人用于plda参数训练,测试集的20人用于plda打分测试最后的识别效果,特征片段同样是400维分割后保存。测试随机生成的确认表由测试集的20人产生,第一列为待测试的特征片段,第二列为随机选择的其他特征片段,第三列为数字0和1,0表示前面两列为不同说话人,1表示前面两列是同一个说话人的不同特征片段,按一行是同一说话人一行是不同说话人间隔产生测试确认表,最终产生23944行对比数据。
[0071]
实施例1
[0072]
选用了几种不同数据量的实验来做对比,首先在aishell的train文件夹内选择一半的数据170人来做训练,plda选择dev文件夹下的一半人数20人和全部人数40人分别进行实验。eer的结果如表1所示,170人的对比中d-vector(lstm)、d-vector(cnn)、x-vector和qco-vector在20人的plda下eer分别为15.16%、14.77%、13.50%和11.28%,在40人的plda下eer分别为14.31%、14.43%、10.56%和8.65%,变化量均有降低。由图3的柱状图可以看出qco-vector整体eer较其他模型识别等错误率更低,识别效果更好。
[0073]
表1.train170人各模型不同plda的的识别等错误率(eer)
[0074][0075]
然后在aishell的train文件夹内选择全部数据340人来做训练,plda仍然选择dev文件夹下的一半人数20人和全部人数40人来进行实验。eer的结果如表2所示,340人的对比中d-vector(lstm)、d-vector(cnn)、x-vector和qco-vector在20人的plda下eer分别为11.62%、10.87%、11.91%和10.84%,在40人的plda下eer分别为10.01%、9.28%、9.81%和7.18%。由图4的柱状图可以看出qco-vector整体eer较其他模型识别等错误率更低,识别效果仍然更好。
[0076]
表2.train340人各模型不同plda的的识别等错误率(eer)
[0077][0078]
从以上两组对比实验中可以看出qco-vector较其他模型的识别效果更好,且plda人数选择40人时识别效果比plda人数20人的识别效果好,我们将上面的两组变量选取plda人数为40人时的情况重新组合,得到表3和图5,从中我们可以看出train数量为340人的情况下,qco-vector的识别等错误率更低,识别效果更好。
[0079]
表3.train340人各模型不同plda的的识别等错误率(eer)
[0080][0081][0082]
综上,不同的人数对几种神经网络模型和plda打分效果均有影响,表1和表2可以看出,在神经网络模型训练人数不变时,plda人数由20人增加到40人,各种模型的识别效果均有提高,从表3可以看出,保持plda训练人数不变时,训练网络结构的人数由170增加至340人,识别效果同样会增加,且三组对比实验里,本发明所提出的qco-vector结构均获得更低的等错误率,识别效果均为最高。本发明的实验说明qco-vector网络结构在增加了qco模块后,qco的量化和统计功能可以从较浅的网络里提取语音的细节纹理特征,这在小数量训练集上即可以体现出优势,当网络模型和plda的训练人数进一步增加时,这种纹理增强的效果体现的更为明显。
[0083]
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0084]
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

技术特征:


1.基于改进时延神经网络的说话人识别方法,其特征在于:对说话人识别方法包括以下步骤:a.通过tdnn网络训练音频的特征获取部分说话人的特征表达;b.用大量不包括识别集在内的其他说话者的语音特征训练提出的网络得到一个通用模型;c.由加入的量化和计数算子(qco)同时处理;d.量化和计数算子能够充分利用音频的低层纹理特征,得到特征的细节信息。2.根据权利要求1所述的基于改进时延神经网络的说话人识别方法,其特征在于:所述步骤c中量化和计数算子将输入特征量化为多个层次,每个级别都可以表示一种纹理统计信息,通过它可以很好地采样连续的纹理,以便于描述,量化后,计算每一层的强度,进行纹理特征编码;此时的输入记为a∈r
c
×
h
×
w
,计算得到全局平均特征g∈r
c
×1×1;随后计算特征图a中的每个特征点a
i,j
(i∈[1,w],j∈[1,h])与g的余弦相似度,得到s∈r1×
h
×
w
:之后把s量化成n等级的l=[l1,l2,...,l
n
],从s的最小值和最大值中均分出n个量化等级,l
n
的计算:对每个特征点s
i
∈r(i∈[1,hw])将其量化编码为e
i
∈r
n
(i∈[1,hw]),最终得到e∈r
n
×
hw
,e
i,n
的计算公式为:得到量化编码矩阵e之后,进一步得到计数图c∈r
n
×2:cat表示连接操作,量化计数图c反应的是输入特征图的相对统计,为获取绝对统计信息,把全局平均特征g编码进c得到d,g需要先上采样至r
n
×
c
:d=cat(mlp(c),g)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)。3.根据权利要求1所述的基于改进时延神经网络的说话人识别方法,其特征在于:所述步骤c中再经过bn+conv1d得到最终的纹理增强模块(tem)特征输出;tem处理结束后,其输出同frame5层计算的均值方差连接得到的维度为256,经过bn+conv1d后维度保持不变,这里得到的即为qco-vector结果,训练时需要得到说话人数量的结果输出,此时通过最后一层全连接层,我们将得到说话人的预测输出,维度256*n。4.根据权利要求1所述的基于改进时延神经网络的说话人识别方法,其特征在于:所述
步骤d中得到的特征细节信息可表达为:第i个说话人的第j个语音片段用plda的公式表示为:x
ij
=μ+fh
i
+gω
ij

ij
ꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中μ表示训练数据的全局均值;f表示说话人身份空间;g可以看做是噪声空间;ε
ij
∈n(0,σ)表示噪声协方差;h
i
可以看作是第i个说话人的隐变量,即x
ij
在说话人空间的表示;ω
ij
可以看作是第i个说话人的第j个语音片段的隐变量,即x
ij
在噪声空间的表示。5.根据权利要求1所述的基于改进时延神经网络的说话人识别方法,其特征在于:plda模型拆成两部分来看,第一部分是μ+fh
i
,这部分只与说话人有关而与不同语音片段无关,称为信号部分,反映了说话人的类间差异;第二部分是gω
ij

ij
,这部分反映的是同一说话人的不通语音片段间的差异,称为噪声部分,模型中存在隐变量,因此使用em算法迭代估计其中的变量θ={μ,f,g,σ};测试时用plda模型中训练好的参数打分,计算两个语音片段的对数似然比:式中两个语音片段来自同一空间的假设为η
s
,来自不通空间的假设为η
d
,得分越高,则两个语音片段来自同一说话人的概率越大。

技术总结


本发明公开了基于改进时延神经网络的说话人识别方法,通过TDNN网络训练音频的特征获取部分说话人的特征表达,然后由加入的量化和计数算子(Quantization and Counting Operators,QCO)同时处理,QCO能够充分利用音频的低层纹理特征,得到特征的细节信息。实验结果表明,改进的时延神经网络在相对较少的数据量中即可由网络训练获取更多信息的特征表达,在小数量训练集的网络中有明显优势。当数据量进一步增多时效果更为明显,训练加入了纹理统计方法的结构提取的细节特征使说话人识别表现更好。别表现更好。别表现更好。


技术研发人员:

王燕清 王子豪 刘雨佳

受保护的技术使用者:

南京晓庄学院

技术研发日:

2022.04.06

技术公布日:

2022/11/3

本文发布于:2024-09-21 14:29:33,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/13629.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   说话   纹理   本发明
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议