用于评估语音安全的方法、装置、电子设备及存储介质



1.本技术涉及语音安全技术领域,例如涉及一种用于评估语音安全的方法、装置、电子设备及存储介质。


背景技术:



2.在网络传输过程中,语音信号的安全是衡量电信网络提供商的系统和服务的主要指标之一。相关技术中,通常是先利用卷积神经网络对语音信号进行感知特征提取,然后利用随时间计算的语音信号的平均质量以及提取的感知特征对语音信号进行安全评估。
3.在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:
4.由于某些语音信号的质量较低,即语音信号中可能存在噪声,或者语音信号中可能存在因加密而导致的失真。如果仍然使用随时间计算的语音信号的平均质量来对低质量的语音信号的整体质量进行预测,获得的预测整体质量与语音信号的真实质量偏差较大。从而导致利用平均质量对低质量的语音信号进行安全评估时的准确率较低。


技术实现要素:



5.为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
6.本公开实施例提供了一种用于评估语音安全的方法、模型及训练用于评估语音安全的模型的方法,以能够更准确的对低质量的语音信号进行安全评估。
7.在一些实施例中,所述用于评估语音安全的方法,包括:对待评估语音信号进行特征提取,获得预设长度的特征向量;获取所述特征向量对应的注意力权重;对所述注意力权重进行加权操作,获得加权平均特征向量;根据所述加权平均特征向量获取所述待评估语音信号的安全评估分数
8.在一些实施例中,所述用于评估语音安全的装置,包括:特征提取模块,被配置为对待评估语音信号进行特征提取,获得预设长度的特征向量;第一获取模块,被配置为获取所述特征向量对应的注意力权重;加权模块,被配置为对所述注意力权重进行加权操作,获得加权平均特征向量;第二获取模块,被配置为根据所述加权平均特征向量获取所述待评估语音信号的安全评估分数。
9.在一些实施例中,所述电子设备,包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行上述的用于评估语音安全的方法。
10.在一些实施例中,所述存储介质,存储有程序指令,所述程序指令在运行时,执行上述的用于评估语音安全的方法。
11.本公开实施例提供的用于评估语音安全的方法、装置、电子设备及存储介质,可以实现以下技术效果:通过对待评估语音信号进行特征提取,获得特征向量,然后获取特征向量对应的注意力权重,这样,使得不同质量的语音信号拥有不同的注意力权重。并对注意力
权重进行加权操作,获得加权平均特征向量,从而能够更准确的获得待评估语音信号的整体质量。然后根据加权平均特征向量获取待评估语音信号的安全评估分数,从而能够利用更准确的待评估语音信号的整体质量去推导待评估语音信号的安全评估分数,即能够更准确的对低质量的语音信号进行安全评估。
12.以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本技术。
附图说明
13.一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
14.图1是本公开实施例提供的一个用于评估语音安全的方法的示意图;
15.图2是本公开实施例提供的对待评估语音信号进行分段处理的示意图;
16.图3是本公开实施例提供的对待评估语音信号进行特征提取的示意图;
17.图4是本公开实施例提供的对待评估语音信号进行注意力池化的示意图;
18.图5是本公开实施例提供的一个用于评估语音安全的装置的示意图;
19.图6是本公开实施例提供的一个电子设备的示意图。
具体实施方式
20.为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
21.本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
22.除非另有说明,术语“多个”表示两个或两个以上。
23.本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,a/b表示:a或b。
24.术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,a和/或b,表示:a或b,或,a和b这三种关系。
25.术语“对应”可以指的是一种关联关系或绑定关系,a与b相对应指的是a与b之间是一种关联关系或绑定关系。
26.结合图1所示,本公开实施例提供一种用于评估语音安全的方法,包括:
27.步骤s101,电子设备对待评估语音信号进行特征提取,获得预设长度的特征向量。
28.步骤s102,电子设备获取特征向量对应的注意力权重。
29.步骤s103,电子设备对注意力权重进行加权操作,获得加权平均特征向量。
30.步骤s104,电子设备根据加权平均特征向量获取待评估语音信号的安全评估分数。
31.采用本公开实施例提供的方法,通过对待评估语音信号进行特征提取,获得特征向量,然后获取特征向量对应的注意力权重。这样,使得不同质量的语音信号拥有不同的注意力权重。然后对注意力权重进行加权操作,获得加权平均特征向量,从而能够更准确的获得待评估语音信号的整体质量。然后根据加权平均特征向量获取待评估语音信号的安全评估分数,即利用更准确的整体质量去获取待评估语音信号的安全评估分数,从而能够更准确的对低质量的语音信号进行安全评估。
32.可选地,对待评估语音信号进行特征提取,获得预设长度的特征向量,包括:对待评估语音信号进行零填充,对零填充之后的待评估语音信号进行傅里叶变换,获得第一梅尔频谱段。按照预设宽度和预设高度对第一梅尔频谱段进行分段处理,获得至少一个第二梅尔频谱段。将第二梅尔频谱段输入预设的深度前馈神经网络,获得预设长度的特征向量。由于梅尔频谱中的梅尔刻度是针对人耳来设计的,且梅尔频度在低频阶段与正常频度是呈线性关系。同时由于人耳在高频阶段的感知能力弱的特点,梅尔频度与正常频度呈对数关系。因此,将语音信号转换成梅尔频谱能够在很大程度上保留人体声学对理解外来声音信号所需要的大部分信息。从而利用梅尔频谱段能够提取出丰富且有效的感知特征。
33.在一些实施例中,设置傅里叶变换的窗口长度为20毫秒,窗口与窗口之间的跳跃大小为10毫秒,且选择最大频率为20khz。
34.可选地,按照预设宽度和预设高度对第一梅尔频谱段进行分段处理,获得至少一个第二梅尔频谱段,包括:将第一梅尔频谱段以宽度150毫秒,高度48毫秒的尺寸进行分段,并设置梅尔频谱段之间的跳跃大小为40毫秒,获得至少一个第二梅尔频谱段。
35.在一些实施例中,通过一个6卷积层的深度前馈神经网络并以逐帧的方式提取得到输入的第二梅尔频谱段的特征。即,将维度为宽150毫秒,高48毫秒的第二梅尔频谱段输入深度前馈神经网络,通过下采样操作将维度为48
×
15的第二梅尔频谱段降到维度为6
×
3的梅尔频谱段,然后最终降到维度为6
×
1的梅尔频谱段,其中采样内核数为64。即,将维度为48
×
15的第二梅尔频谱段通过深度前馈神经网络,获得长度为384的特征向量。
36.在一些实施例中,获取特征向量对应的注意力权重,包括:通过一个基于transformer编码器的self-attention自注意力网络结构对特征向量进行再次精炼,获得特征向量对应的注意力权重。这样,通过利用特征向量的时间步的交互信息,获得特征向量对应的注意力权重,能够对特征向量进行更精确的表达。即,通过利用自注意力机制对特征向量进行时间池化操作,使得不同质量的语音信号拥有不同的注意力权重。即使得待评估语音信号中质量较差的语音信号拥有与其他不同的权重。相较于现有技术中简单使用随时间计算的语音信号的平均质量来对语音信号进行安全评估的方法,能够更准确的预测待评估语音信号的整体质量,从而能够利用更准确的整体质量对待评估语音信号进行安全评估。进一步地,本公开实施例采用单头的注意力机制,深度前馈神经网络的深度设置为2,深度前馈神经网络的模型维度为64,深度前馈神经网络具有64个隐藏单元。
37.可选地,对注意力权重进行加权操作,获得加权平均特征向量,包括:对零填充之外的特征向量对应的注意力权重进行归一化操作,获得归一化后的注意力权重;将归一化后的注意力权重与特征向量进行矩阵相乘,获得加权平均特征向量。
38.在一些实施例中,利用softmax()函数对注意力权重进行归一化操作。进一步地,在利用softmax()函数对注意力权重进行归一化操作之前,还包括,屏蔽用零填充的时间
步。
39.可选地,根据加权平均特征向量获取待评估语音信号的安全评估分数,包括:将加权平均特征向量输入预设的全连接层,获得待评估语音信号的安全评估分数。即,通过全连接层来实现对加权平均特征向量到整体分数的一个映射,最终得到待评估语音信号的安全评估分数。
40.在一些实施例中,电子设备为计算机、手机或平板电脑等。利用电子设备中设置的用于评估语音安全的模型对待评估语音信号进行安全评估。用于评估语音安全的模型首先对输入的待待评估语音信号进行零填充,然后对零填充之后的待评估语音信号进行傅里叶变换,获得第一梅尔频谱段。然后将第一梅尔频谱段通过一个6卷积层的深度前馈神经网络,并以逐帧的方式提取得到第一梅尔频谱段的特征,获得一个长度为384的特征向量。然后将特征向量通过一个基于transformer编码器的self-attention网络结构,从而对特征向量进行再次精炼,获得特征向量对应的注意力权重。然后屏蔽掉用零填充的时间步,并使用softmax()函数对注意力权重进行归一化,获得归一化后的注意力权重;再将归一化后的注意力权重与特征向量进行矩阵相乘,获得加权平均特征向量。最后通过全连接层来实现对加权平均特征向量到整体分数的一个映射,获得待评估语音信号的安全评估分数。这样,首先通过深度前馈神经网络从第一梅尔频谱段中提取丰富有效的感知特征,然后利用基于注意力机制的时间池化操作来预测输入的语音信号的质量,从而能够更准确的获得待评估语音信号的整体质量。最后,根据更为准确的待评估语音信号的整体质量和丰富有效的感知特征对待评估语音信号进行安全评估,使得获得的安全评估分数更加准确。
41.进一步地,通过以下方式获取用于评估语音安全的模型:在预设的训练集中获取训练样本,训练样本为带有安全评估标签分数的第一语音信号。将训练样本输入卷积神经网络进行训练,获得用于评估语音安全的备选模型。利用用于评估语音安全的备选模型对带有安全评估标签分数的第二语音信号进行安全评估,获得第二语音信号的安全评估分数;在收敛至最小值的情况下,将用于评估语音安全的备选模型确定为用于评估语音安全的模型;其中,n表示第二语音信号的梅尔频谱分段数,为第二语音信号的安全评估分数,y为第二语音信号的安全评估标签分数,mse(mean square error,均方误差)用来衡量安全评估分数与安全评估标签分数y之间差值平方和的均值,loss
mse
为损失值。由于mse的特点是随着误差的减小,梯度也跟着减小,这样有利于加快网络模型的收敛。即,即便采用固定的学习速率,使用mse也能较快地收敛并达到最小值。因此,选择使用mse来定义目标函数,能够较快的获得用于评估语音安全的模型。且在构建用于评估语音安全的模型的过程中,训练集中的训练样本仅且使用一次。训练集被划分为相同的子训练集进行批量优化batchwise optimization,称为小批量minibatches。进一步地,训练集使用adam(adaptive moment estimation,适应性矩估计法)算法而非常规的sgd随机梯度下降(stochastic gradient descent,随机梯度下降)算法进行批量优化。由于adam算法的自适应能力优于sgd算法的自适应能力,因此,利用adam算法对训练集进行批量优化能够加快目标函数的收敛速度。
42.进一步地,通过θ
*
=argmin
θ
loss
mse
获得最优网络参数。其中,θ
*
为最优网络参数,θ为网络参数,网络参数有若干个。argmin
θ
loss
mse
表征收敛至最小值。即,在收敛至最小值的情况下,能够获得最优网络参数。
43.在一些实施例中,结合图2至图4所示,图2是本公开实施例提供的对待评估语音信号进行分段处理的示意图,将如图2中的待评估语音信号进行傅里叶变换,获得图2中的第一梅尔频谱段。将第一梅尔频谱段以宽度150毫秒,高度48毫秒的尺寸进行分段,并设置梅尔频谱段之间的跳跃大小为40毫秒,获得图2中的多个第二梅尔频谱段。图3是本公开实施例提供的对待评估语音信号进行特征提取的示意图。将图2中的多个第二梅尔频谱段输入深度前馈神经网络,即输入图3中所示的特征帧提取模型,获得第二梅尔频谱段的特征向量,即获得图3中所示的帧特征。图4是本公开实施例提供的对待评估语音信号进行注意力池化的示意图。将图3中所示的帧特征输入图4中的注意力池化模块,获得加权平均特征向量,然后将加权平均特征向量通过全连接层,获得待评估语音信号的安全评估分数score。
44.在一些实施例中,注意力池化模块,包括:基于transformer编码器的self-attention网络架构、屏蔽操作单元、归一化单元、矩阵乘法单元。其中,基于transformer编码器的self-attention网络架构用于接收深度前馈神经网络输出的帧特征,并获取帧特征的注意力权重。屏蔽操作单元用于屏蔽用零填充的时间步。归一化单元用于对零填充之外的特征向量对应的注意力权重进行归一化操作,获得归一化后的注意力权重,并将归一化后的注意力权重发送给矩阵乘法单元。矩阵乘法单元用于在接收到归一化后的注意力权重的情况下,对归一化后的注意力权重进行加权操作,即利用深度前馈神经网络输出的帧特征与归一化后的注意力权重进行矩阵相乘,获得加权平均特征向量。
45.在一些实施例中,对本公开实施例提供的用于评估语音安全的方法进行验证。利用srcc(spearman rank correlation coefficient,斯皮尔曼等级相关系数)和krcc(kendall rank correlation coefficient,肯德尔秩相关系数)对本公开实施例提供的用于评估语音安全的方法进行单调性的评估。该单调性用于衡量用于评估语音安全的方法的预测结果与人类听觉主观结果之间的相关性。利用plcc(pearson linear correlation coefficients,皮尔逊线性相关系数)和rmse(root mean squared error,均方根误差)对本公开实施例提供的用于评估语音安全的方法进行准确性的评估。该准确性用于衡量用于评估语音安全的方法的测试结果与人类听觉主观结果之间的符合程度。其中,srcc是用于衡量两个变量的依赖性的非参数指标,当srcc的值越接近于1时,表示两个变量的等级相关性越强。krcc是用于测量两个随机变量之间的相关特性的统计值,当krcc的绝对值越靠近于1时,则表明两个变量之间的等级相关性越强。plcc用于判断两个变量之间是否具有线性相关特性,其值介于-1与1之间。
46.在第一个可选实施例中,在用于评估语音安全的方法的预测结果为安全评估分数的情况下,人类听觉主观结果为安全评估标签分数。
47.在srcc用于衡量安全评估分数和安全评估标签分数之间的相关性的情况下,
其中,s={s1,s2,s3,...,sn}为音频数据测试集中失真音频的安全评估标签分数score’集合,n表示失真音频总数,e={e1,e2,e3,...,en}为利用本技术提供的用于安全评估的方法对音频数据测试集中的语音信号进行安全评估获得的安全评估分数score集合,sr={s
r1
,s
r2
,s
r3
,...,s
rn
}为对score’得分集合的等级划分集合,er={e
r1
,e
r2
,e
r3
,...,e
rn
}为对score得分集合的等级划分集合,即将s集合内的score’得分按1至n进行等级划分,划分完成之后对相同score’分数的等级进行平均取值,最后获得等级划分集合sr和er。s
ri
为等级划分集合sr中的第i个等级,e
ri
为等级划分集合er中的第i个等级。为sr集合内的元素的平均值,为er集合内的元素的平均值。在krcc用于衡量安全评估分数和安全评估标签分数之间的相关性的情况下,其中,nc为和谐的对数数量,nd为不和谐的对数数量,n表示失真音频总数。在一些实施例中,设s={s1,s2,s3,...,sn}为音频数据测试集中失真音频的安全评估标签分数score’得分集合。e={e1,e2,e3,...,en}为利用本技术提供的用于安全评估的方法对音频数据测试集中的语音信号进行安全评估获得的安全评估分数score集合。任取[(si,ei),(sj,ej)]且i≠j。在si》ei且sj》ej的情况下,或,si《ei且sj《ej的情况下,确定[(si,ei),(sj,ej)]为和谐的。在si》ei且sj《ej的情况下,或si《ei且sj》ej的情况下,确定[(si,ei),(sj,ej)]为不和谐的。其中,si为安全评估标签分数score’集合s中的第i个安全评估标签分数score’,sj为安全评估标签分数score’集合s中的第j个安全评估标签分数score’。ei为安全评估分数score集合e中的第i个安全评估分数score,ej为安全评估分数score集合e中的第j个安全评估分数score。在plcc和rmse用于衡量安全评估分数和安全评估标签分数之间的符合程度的情况下,利用对集合e={e1,e2,e3,...,en}中的各分数进行处理,获得拟合后的预测分数集合e

={e
′1,e
′2,e
′3,...,e
′n}。这样,能够获得更加准确的皮尔逊线性相关系数和均方根误差。其中,ei为安全评估分数score集合e中的第i个安全评估分数score,表示拟合后的预测分数,参数λ1为需要拟合的第一参数,参数λ2为需要拟合的第二参数,参数λ3为需要拟合的第三参数,参数λ4为需要拟合的第四参数,参数λ5为需要拟合的第五参数。其中,s={s1,s2,s3,...,sn}为音频数据测试集中失真音频的安全评估标签分数score’集合。σs为集合s的标准差,σe′
为集合e

的标准差,cov(s,e

)表征集合s和集合e

的协方差。表示样本的真实值e
′i与对样本预测值si偏差的平方与样本总数n比值的平方根。其中,e
′i为集合e

中的第i个拟合后的预测分数。
[0048]
在一些实施例中,测试数据集包括p501数据集、实时谈话livetalk数据集和for数据集。其中,p501数据集包含由不同的编解码器、背景噪声、削波的条件下的模拟失真,总共包含了240个音频文件,其来源于4位志愿者在60种不同的环境下的音频记录。livetalk数据集是由8位志愿者在58种不同的环境下的实时谈话音频记录,例如购物中心、电梯、地铁站以及行驶中的汽车内等等环境。其总共包含232个长度为6秒至12秒的音频片段。for数据集也包含了不同的编解码器、背景噪声以及削波条件下的失真,且总共包含240个音频文件,但其与p501数据集的不用在于,p501数据集主要是在网络电话skype、多人手机云视频会议软件zoom、通讯工具whatsapp和移动网络记录的实时条件下记录。而for数据集主要是在通讯工具whatsapp、多人手机云视频会议软件zoom和手机游戏社交网络平台discord的实时条件下记录。此外,for数据集的数据来源于80位志愿者在60种环境下的音频记录片段。同时,p501数据集、livetalk数据集和for数据集中的各语音数据对应有安全评估标签分数score’,例如:安全评估标签分数。
[0049]
在一些实施例中,结合表1所示,利用本公开实施例提供的用于安全评估的方法proposed对for数据集进行安全评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.7938、0.5926、0.8207、1.2611。利用现有用于评估语音安全的方法p563对for数据集进行安全评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.0925、0.0753、0.1347、2.1910。利用现有用于评估语音安全的方法wenets对for数据集进行安全评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.7055、0.5067、0.7055、1.5644。利用本公开实施例提供的用于安全评估的方法proposed对livetalk数据集进行安全评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为07553、0.5723、0.7849、1.3964。利用现有用于评估语音安全的方法p563对livetalk数据集进行安全评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.1802、0.1450、0.2271、2.1624。利用现有用于评估语音安全的方法wenets对livetalk数据集进行安全评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.5405、0.3833、0.5687、1.8533。利用本公开实施例提供的用于安全评估的方法proposed对p501数据集进行安全评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.9064、0.7316、0.9047、1.0037。利用现有用于评估语音安全的方法p563对p501数据集进行安全评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.1499、0.1210、0.1010、2.3441。利用现有用于评估语音安全的方法wenets对p501数据集进行安全评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.7251、0.5221、0.7571、1.5393。可见,利用本公开实施例提供的用于评估语音安全的方法对for数据集、livetalk数据集和p501数据集进行安全评估时,获得的srcc值、krcc值和plcc值均大于利用现有用于评估语音安全的方法,即利用方法p563和wenets对for数据集、livetalk数据集和p501数据集进行安全评估时,获得的srcc值、krcc值和plcc值。同时,利用本公开实施例提供的用于评估语音安全的方法对for数据集、livetalk数据集和p501数据集进行安全评估时,获得的rmse值小于利用方法p563和wenets对for数据集、livetalk数据集和p501数据
集进行安全评估时获得的rmse值。由于一个性能卓越的用于评估语音的方法应该具有相对更高的srcc值、krcc值和plcc值,以及相对更低的rmse值。故,本公开实施例提供的用于评估语音安全的方法相较于方法p563和wenets能够更准确的对低质量的语音信号进行安全评估。同时在利用测试数据集对本公开实施例提供的用于评估语音的方法进行性能验证的过程中,针对for数据集和p501数据集,两者的性能指标srcc值分别达到0.7938和0.9064。而针对livetalk数据集,其性能指标srcc值达到了0.7553。可见本公开实施例提供的用于评估语音安全的方法能够对模拟失真和真实失真语音信号进行安全评估。并且,能够更加精确的对模拟失真的语音信号进行安全评估。
[0050][0051]
表1
[0052]
进一步地,第一语音信号还带有不连续性标签分数、响度标签分数、噪音标签分数和声标签分数。将训练样本输入卷积神经网络进行训练,获得用于评估语音安全的备选模型,利用用于评估语音安全的备选模型对带有安全评估标签分数的第二语音信号进行安全评估,获得第二语音信号的安全评估分数;在收敛至最小值的情况下,将用于评估语音安全的备选模型确定为用于评估语音安全的模型后,还包括:利用用于评估语音安全的模型对待评估语音信号进行不连续性评估、响度评估、噪音评估和声评估,获得不连续性评估分数、响度评估分数、噪音评估分数和声评估分数。。这样不仅能够对待评估语音信号进行安全评估,还能够对待评估语音信号进行不连续性评估、响度评估、噪音评估和声评估。从而能够更全面反应用于评估语音安全的模型的适用范围。根据不同着重力,例如响度优先或声优先,来判断语音信号泄露内容程度,使得用于评估语音安全的模型的应用场景更为广泛。
[0053]
在第二个可选实施例中,在用于评估语音安全的方法的预测结果为不连续性评估分数的情况下,人类听觉主观结果为不连续性标签分数。在srcc用于衡量不连续性评估分数和不连续性标签分数之间的相关性的情况下,其中,a={a1,a2,a3,...,an}为音频数据测试集中失真音频的不连续性标签分数集合,n表示失真音频总数,h={h1,h2,h3,...,hn}为利用本技术提供的用于安全评估的方法对音频数据测试集中的语音信号进行不连续性评估获得的不连续性评估分数集合。ar={a
r1
,a
r2
,a
r3
,...,a
rn
}为对不连续性标签分数集合的等级划分集合,hr={h
r1
,h
r2
,h
r3
,...,h
rn
}为对不连续性评估分数集合的等级划分集合,即将a集合内的不连续性标签分数按1至n进行等级划分,划分完成之后对相同不连续性标签分数的等级进行平均取值,最后获得等级划分
集合ar和hr。a
ri
为等级划分集合ar中的第i个等级,h
ri
为等级划分集合hr中的第i个等级。为ar集合内的元素的平均值,为hr集合内的元素的平均值。在krcc用于衡量不连续性评估分数和不连续性标签分数之间的相关性的情况下,其中,nk为和谐的对数数量,ng为不和谐的对数数量,n表示失真音频总数。在一些实施例中,设a={a1,a2,a3,...,an}为音频数据测试集中失真音频的不连续性标签分数集合。h={h1,h2,h3,...,hn}为利用本技术提供的用于安全评估的方法对音频数据测试集中的语音信号进行不连续性评估获得的不连续性评估分数集合。任取[(ai,hi),(aj,hj)]且i≠j。在ai》hi且aj》hj的情况下,或,ai《hi且aj《hj的情况下,确定[(ai,hi),(aj,hj)]为和谐的。在ai》hi且aj《hj的情况下,或ai《hi且aj》hj的情况下,确定[(ai,hi),(aj,hj)]为不和谐的。其中,ai为不连续性标签分数集合a中的第i个不连续性标签分数,aj为不连续性标签分数集合a中的第j个不连续性标签分数。hi为不连续性评估分数集合h中的第i个不连续性评估分数,hj为不连续性评估分数集合h中的第j个不连续性评估分数。在plcc和rmse用于衡量不连续性评估分数和不连续性标签分数的情况下,利用对集合h={h1,h2,h3,...,hn}中的各分数进行处理,获得拟合后的预测分数集合h

={h
′1,h
′2,h
′3,...,h
′n}。这样,能够获得更加准确的皮尔逊线性相关系数和均方根误差。其中,hi为不连续性评估分数集合h中的第i个不连续性评估分数,表示拟合后的预测分数,参数α1为需要拟合的第六参数,参数α2为需要拟合的第七参数,参数α3为需要拟合的第八参数,参数α4为需要拟合的第九参数,参数α5为需要拟合的第十参数。其中,a={a1,a2,a3,...,an}为音频数据测试集中失真音频的不连续性标签分数集合。σa为集合a的标准差,σh′
为集合h

的标准差,cov(a,h

)表征集合a和集合h

的协方差。表示样本的真实值h
′i与对样本预测值ai偏差的平方与样本总数n比值的平方根。其中,h
′i为集合h

中的第i个拟合后的预测分数。
[0054]
在一些实施例中,p501数据集、livetalk数据集和for数据集中的各语音数据对应有不连续性标签分数。结合表2所示,利用本公开实施例提供的用于安全评估的方法对for数据集进行不连续性discontinuity评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.8437、0.6470、0.8566、1.4611。利用本公开实施例提供的用于安全评估的方法对livetalk数据集进行不连续性评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.6506、0.4725、0.6937、2.8873。利用本公开实施例提供的用于安全评估的方法对p501数据集进行不连续性评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数
和均方根误差依次为0.8333、0.6417、0.8348、1.3925。
[0055][0056][0057]
表2
[0058]
在第三个可选实施例中,在用于评估语音安全的方法的预测结果为响度评估分数的情况下,人类听觉主观结果为响度标签分数。在srcc用于衡量响度评估分数和响度标签分数之间的相关性的情况下,其中,b={b1,b2,b3,...,bn}为音频数据测试集中失真音频的响度标签分数集合,n表示失真音频总数,m={m1,m2,m3,...,mn}为利用本技术提供的用于安全评估的方法对音频数据测试集中的语音信号进行响度评估获得的响度评估分数集合。br={b
r1
,b
r2
,b
r3
,...,b
rn
}为对响度标签分数集合的等级划分集合,mr={m
r1
,m
r2
,m
r3
,...,m
rn
}为对响度评估分数集合的等级划分集合,即将b集合内的响度标签分数按1至n进行等级划分,划分完成之后对相同响度标签分数的等级进行平均取值,最后获得等级划分集合br和mr。b
ri
为等级划分集合br中的第i个等级,m
ri
为等级划分集合mr中的第i个等级。为br集合内的元素的平均值,为mr集合内的元素的平均值。在krcc用于衡量响度评估分数和响度标签分数之间的相关性的情况下,其中,no为和谐的对数数量,n
p
为不和谐的对数数量,n表示失真音频总数。在一些实施例中,设b={b1,b2,b3,...,bn}为音频数据测试集中失真音频的响度标签分数集合。m={m1,m2,m3,...,mn}为利用本技术提供的用于安全评估的方法对音频数据测试集中的语音信号进行响度评估获得的响度评估分数集合。任取[(bi,mi),(bj,mj)]且i≠j。在bi》mi且bj》mj的情况下,或,bi《mi且bj《mj的情况下,确定[(bi,mi),(bj,mj)]为和谐的。在bi》mi且bj《mj的情况下,或bi《mi且bj》mj的情况下,确定[(bi,mi),(bj,mj)]为不和谐的。其中,bi为响度标签分数集合b中的第i个响度标签分数,bj为响度标签分数集合b中的第j个响度标签分数。mi为响度评估分数集合m中的第i个响度评估分数,mj为响度评估分数集合m中的第j个响度评估分数。在plcc和rmse用于衡量响度评估分数和响度标签分数的情况下,利用对集合m={m1,m2,m3,...,mn}中的各分数进行处理,获得拟合后的预测分数集合m

={m
′1,m
′2,m
′3,...,m
′n}。这样,能够获得更加准确的皮尔逊线性相关系数和均方根误差。其中,mi为响度评估分数集合m中的第
i个响度评估分数,表示拟合后的预测分数,参数β1为需要拟合的第十一参数,参数β2为需要拟合的第十二参数,参数β3为需要拟合的第十三参数,参数β4为需要拟合的第十四参数,参数β5为需要拟合的第十五参数。其中,b={b1,b2,b3,...,bn}为音频数据测试集中失真音频的响度标签分数集合。σb为集合b的标准差,σm′
为集合m

的标准差,cov(b,m

)表征集合b和集合m

的协方差。表示样本的真实值m
′i与对样本预测值bi偏差的平方与样本总数n比值的平方根。其中,m
′i为集合m

中的第i个拟合后的预测分数。
[0059]
在一些实施例中,p501数据集、livetalk数据集和for数据集中的各语音数据对应有响度标签分数。结合表3所示,利用本公开实施例提供的用于安全评估的方法对for数据集进行响度loudness评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.8014、0.6305、0.8793、1.0630。利用本公开实施例提供的用于安全评估的方法对livetalk数据集进行响度评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.6016、0.4314、0.6653、1.3327。利用本公开实施例提供的用于安全评估的方法对p501数据集进行响度评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.8725、0.7003、0.9167、0.9531。
[0060][0061]
表3
[0062]
在第四个可选实施例中,在用于评估语音安全的方法的预测结果为噪音评估分数的情况下,人类听觉主观结果为噪音标签分数。在srcc用于衡量噪音评估分数和噪音标签分数之间的相关性的情况下,其中,f={f1,f2,f3,...,fn}为音频数据测试集中失真音频的噪音标签分数集合,n表示失真音频总数,u={u1,u2,u3,...,un}为利用本技术提供的用于安全评估的方法对音频数据测试集中的语音信号进行噪音评估获得的噪音评估分数集合。fr={f
r1
,f
r2
,f
r3
,...,f
rn
}为对噪音标签分数集合的等级划分集合,ur={u
r1
,u
r2
,u
r3
,...,u
rn
}为对噪音评估分数集合的等级划分集合,即将f集合内的噪音标签分数按1至n进行等级划分,划分完成之后对相同噪音标签分数的
等级进行平均取值,最后获得等级划分集合fr和ur。f
ri
为等级划分集合fr中的第i个等级,u
ri
为等级划分集合ur中的第i个等级。为fr集合内的元素的平均值,为ur集合内的元素的平均值。在krcc用于衡量噪音评估分数和噪音标签分数之间的相关性的情况下,其中,nx为和谐的对数数量,ny为不和谐的对数数量,n表示失真音频总数。在一些实施例中,设f={f1,f2,f3,...,fn}为音频数据测试集中失真音频的噪音标签分数集合。u={u1,u2,u3,...,un}为利用本技术提供的用于安全评估的方法对音频数据测试集中的语音信号进行噪音评估获得的噪音评估分数集合。任取[(fi,ui),(fj,uj)]且i≠j。在fi》ui且fj》uj的情况下,或,fi《ui且fj《uj的情况下,确定[(fi,ui),(fj,uj)]为和谐的。在fi》ui且fj《uj的情况下,或fi《ui且fj》uj的情况下,确定[(fi,ui),(fj,uj)]为不和谐的。其中,fi为噪音标签分数集合f中的第i个噪音标签分数,fj为噪音标签分数集合f中的第j个噪音标签分数。ui为噪音评估分数集合u中的第i个噪音评估分数,uj为噪音评估分数集合u中的第j个噪音评估分数。在plcc和rmse用于衡量噪音评估分数和噪音标签分数的情况下,利用对集合u={u1,u2,u3,...,un}中的各分数进行处理,获得拟合后的预测分数集合u

={u
′1,u
′2,u
′3,...,u
′n}。这样,能够获得更加准确的皮尔逊线性相关系数和均方根误差。其中,ui为噪音评估分数集合u中的第i个噪音评估分数,表示拟合后的预测分数,参数δ1为需要拟合的第十六参数,参数δ2为需要拟合的第十七参数,参数δ3为需要拟合的第十八参数,参数δ4为需要拟合的第十九参数,参数δ5为需要拟合的第二十参数。其中,f={f1,f2,f3,...,fn}为音频数据测试集中失真音频的噪音标签分数集合。σf为集合f的标准差,σu′
为集合u

的标准差,cov(f,u

)表征集合f和集合u

的协方差。表示样本的真实值u
′i与对样本预测值fi偏差的平方与样本总数n比值的平方根。其中,u
′i为集合u

中的第i个拟合后的预测分数。
[0063]
在一些实施例中,p501数据集、livetalk数据集和for数据集中的各语音数据对应有噪音标签分数。结合表4所示,利用本公开实施例提供的用于安全评估的方法对for数据集进行噪音noisiness评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.7604、0.5765、0.8032、1.2374。利用本公开实施例提供的用于安全评估的方法对livetalk数据集进行响度评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.7296、0.5352、0.8061、1.3238。利用本公开实施例提供的用于安全评估的方法对p501数据集进行响度评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为
0.8891、0.7123、0.9012、1.0895。
[0064][0065]
表4
[0066]
在第五个可选实施例中,在用于评估语音安全的方法的预测结果为声评估分数的情况下,人类听觉主观结果为声标签分数。在srcc用于衡量声评估分数和声标签分数之间的相关性的情况下,其中,q={q1,q2,q3,...,qn}为音频数据测试集中失真音频的声标签分数集合,n表示失真音频总数,t={t1,t2,t3,...,tn}为利用本技术提供的用于安全评估的方法对音频数据测试集中的语音信号进行声评估获得的声评估分数集合。qr={q
r1
,q
r2
,q
r3
,...,q
rn
}为对声标签分数集合的等级划分集合,tr={t
r1
,t
r2
,t
r3
,...,t
rn
}为对声评估分数集合的等级划分集合,即将q集合内的声标签分数按1至n进行等级划分,划分完成之后对相同声标签分数的等级进行平均取值,最后获得等级划分集合qr和tr。q
ri
为等级划分集合qr中的第i个等级,t
ri
为等级划分集合tr中的第i个等级。为qr集合内的元素的平均值,为tr集合内的元素的平均值。在krcc用于衡量声评估分数和声标签分数之间的相关性的情况下,其中,nz为和谐的对数数量,nv为不和谐的对数数量,n表示失真音频总数。在一些实施例中,设q={q1,q2,q3,...,qn}为音频数据测试集中失真音频的声标签分数集合。t={t1,t2,t3,...,tn}为利用本技术提供的用于安全评估的方法对音频数据测试集中的语音信号进行声评估获得的声评估分数集合。任取[(qi,ti),(qj,tj)]且i≠j。在qi》ti且qj》tj的情况下,或,qi《ti且qj《tj的情况下,确定[(qi,ti),(qj,tj)]为和谐的。在qi》ti且qj《tj的情况下,或qi《ti且qj》tj的情况下,确定[(qi,ti),(qj,tj)]为不和谐的。其中,qi为声标签分数集合q中的第i个声标签分数,qj为声标签分数集合q中的第j个声标签分数。ti为声评估分数集合t中的第i个声评估分数,tj为声评估分数集合t中的第j个声评估分数。在plcc和rmse用于衡量声评估分数和声标签分数的情况下,利用对集合t={t1,t2,t3,...,tn}中的各分数进行处理,获得拟合后的预测分数集合t

={t
′1,t
′2,t
′3,...,t
′n}。这样,能够获得更加准确的皮尔逊线性相关系数和均方根误差。其中,ti为声评估分数集合t中的第i
个声评估分数,表示拟合后的预测分数,参数ε1为需要拟合的第二十一参数,参数ε2为需要拟合的第二十二参数,参数ε3为需要拟合的第二十三参数,参数ε4为需要拟合的第二十四参数,参数ε5为需要拟合的第二十五参数。其中,q={q1,q2,q3,...,qn}为音频数据测试集中失真音频的声标签分数集合。σq为集合q的标准差,σ
t

为集合t

的标准差,cov(q,t

)表征集合q和集合t

的协方差。表示样本的真实值t
′i与对样本预测值qi偏差的平方与样本总数n比值的平方根。其中,t
′i为集合t

中的第i个拟合后的预测分数。
[0067]
在一些实施例中,p501数据集、livetalk数据集和for数据集中的各语音数据对应有声标签分数。结合表5所示,利用本公开实施例提供的用于安全评估的方法对for数据集进行声coloration评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.8018、0.5986、0.8305、1.3047。利用本公开实施例提供的用于安全评估的方法对livetalk数据集进行声评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.7726、0.5751、0.7915、1.2252。利用本公开实施例提供的用于安全评估的方法对p501数据集进行声评估时获得的斯皮尔曼等级相关系数、肯德尔秩相关系数、皮尔逊线性相关系数和均方根误差依次为0.8248、0.6250、0.8457、1.2138。
[0068][0069]
表5
[0070]
结合图5所示,本公开实施例提供一种用于评估语音安全的装置,其包括:特征提取模块501、第一获取模块502、加权模块503和第二获取模块504。特征提取模块501被配置为对待评估语音信号进行特征提取,获得预设长度的特征向量。第一获取模块502被配置为获取特征向量对应的注意力权重。加权模块503被配置为对注意力权重进行加权操作,获得加权平均特征向量。第二获取模块504被配置为根据加权平均特征向量获取待评估语音信号的安全评估分数。
[0071]
采用本公开实施例提供的装置,通过对待评估语音信号进行特征提取,获得特征向量,然后获取特征向量对应的注意力权重,这样,使得不同质量的语音信号拥有不同的注意力权重。并对注意力权重进行加权操作,获得加权平均特征向量,即能够更准确的获得待评估语音信号的整体质量。然后根据加权平均特征向量获取待评估语音信号的安全评估分
数,即利用更准确的待评估语音信号的整体质量去推导待评估语音信号的安全评估分数,从而能够更准确的对低质量的语音信号进行安全评估。
[0072]
可选地,特征提取模块被配置为通过以下方式对待评估语音信号进行特征提取,获得预设长度的特征向量:对待评估语音信号进行零填充,对零填充之后的待评估语音信号进行傅里叶变换,获得第一梅尔频谱段。按照预设宽度和预设高度对第一梅尔频谱段进行分段处理,获得至少一个第二梅尔频谱段。将第二梅尔频谱段输入预设的深度前馈神经网络,获得预设长度的特征向量。
[0073]
可选地,加权模块被配置为通过以下方式对注意力权重进行加权操作,获得加权平均特征向量:对零填充之外的特征向量对应的注意力权重进行归一化操作,获得归一化后的注意力权重。将归一化后的注意力权重与特征向量进行矩阵相乘,获得加权平均特征向量。
[0074]
可选地,第二获取模块被配置为通过以下方式根据所述加权平均特征向量获取所述待评估语音信号的安全评估分数:将所述加权平均特征向量输入预设的全连接层,获得所述待评估语音信号的安全评估分数。
[0075]
结合图6所示,本公开实施例提供一种电子设备,包括处理器(processor)600和存储器(memory)601。可选地,该电子设备还可以包括通信接口(communication interface)602和总线603。其中,处理器600、通信接口602、存储器601可以通过总线603完成相互间的通信。通信接口602可以用于信息传输。处理器600可以调用存储器601中的逻辑指令,以执行上述实施例的用于评估语音安全的方法。
[0076]
采用本公开实施例提供的电子设备,通过对待评估语音信号进行特征提取,获得特征向量,然后获取特征向量对应的注意力权重,这样,使得不同质量的语音信号拥有不同的注意力权重。并对注意力权重进行加权操作,获得加权平均特征向量,即能够更准确的获得待评估语音信号的整体质量。然后根据所述加权平均特征向量获取所述待评估语音信号的安全评估分数,即利用更准确的待评估语音信号的整体质量去推导待评估语音信号的安全评估分数,从而能够更准确的对低质量的语音信号进行安全评估。
[0077]
此外,上述的存储器601中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
[0078]
存储器601作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器600通过运行存储在存储器601中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于评估语音安全的方法。
[0079]
存储器601可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器601可以包括高速随机存取存储器,还可以包括非易失性存储器。
[0080]
本公开实施例提供了一种存储介质,存储有程序指令,所述程序指令在运行时,执行上述的用于评估语音安全的方法。
[0081]
本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述用于评估语音安全的方法。
[0082]
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
[0083]
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
[0084]
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本技术中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本技术中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本技术中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个
…”
限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
[0085]
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0086]
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个
处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0087]
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

技术特征:


1.一种用于评估语音安全的方法,其特征在于,包括:对待评估语音信号进行特征提取,获得预设长度的特征向量;获取所述特征向量对应的注意力权重;对所述注意力权重进行加权操作,获得加权平均特征向量;根据所述加权平均特征向量获取所述待评估语音信号的安全评估分数。2.根据权利要求1所述的方法,其特征在于,对待评估语音信号进行特征提取,获得预设长度的特征向量,包括:对所述待评估语音信号进行零填充;对零填充之后的待评估语音信号进行傅里叶变换,获得第一梅尔频谱段;按照预设宽度和预设高度对所述第一梅尔频谱段进行分段处理,获得至少一个第二梅尔频谱段;将所述第二梅尔频谱段输入预设的深度前馈神经网络,获得预设长度的特征向量。3.根据权利要求2所述的方法,其特征在于,对所述注意力权重进行加权操作,获得加权平均特征向量,包括:对零填充之外的特征向量对应的注意力权重进行归一化操作,获得归一化后的注意力权重;将所述归一化后的注意力权重与所述特征向量进行矩阵相乘,获得所述加权平均特征向量。4.根据权利要求1所述的方法,其特征在于,根据所述加权平均特征向量获取所述待评估语音信号的安全评估分数,包括:将所述加权平均特征向量输入预设的全连接层,获得所述待评估语音信号的安全评估分数。5.一种用于评估语音安全的装置,其特征在于,包括:特征提取模块,被配置为对待评估语音信号进行特征提取,获得预设长度的特征向量;第一获取模块,被配置为获取所述特征向量对应的注意力权重;加权模块,被配置为对所述注意力权重进行加权操作,获得加权平均特征向量;第二获取模块,被配置为根据所述加权平均特征向量获取所述待评估语音信号的安全评估分数。6.根据权利要求5所述的装置,其特征在于,特征提取模块被配置为通过以下方式对待评估语音信号进行特征提取,获得预设长度的特征向量:对所述待评估语音信号进行零填充;对零填充之后的待评估语音信号进行傅里叶变换,获得第一梅尔频谱段;按照预设宽度和预设高度对所述第一梅尔频谱段进行分段处理,获得至少一个第二梅尔频谱段;将所述第二梅尔频谱段输入预设的深度前馈神经网络,获得预设长度的特征向量。7.根据权利要求6所述的装置,其特征在于,加权模块被配置为通过以下方式对所述注意力权重进行加权操作,获得加权平均特征向量:对零填充之外的特征向量对应的注意力权重进行归一化操作,获得归一化后的注意力权重;
将所述归一化后的注意力权重与所述特征向量进行矩阵相乘,获得所述加权平均特征向量。8.根据权利要求7所述的装置,其特征在于,第二获取模块,被配置为通过以下方式根据所述加权平均特征向量获取所述待评估语音信号的安全评估分数:将所述加权平均特征向量输入预设的全连接层,获得所述待评估语音信号的安全评估分数。9.一种电子设备,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至4任一项所述的用于评估语音安全的方法。10.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至4任一项所述的用于评估语音安全的方法。

技术总结


本申请涉及语音安全技术领域,公开一种用于评估语音安全的方法,包括:对待评估语音信号进行特征提取,获得预设长度的特征向量;获取特征向量对应的注意力权重;对注意力权重进行加权操作,获得加权平均特征向量;根据加权平均特征向量获取待评估语音信号的安全评估分数。这样,使得不同质量的语音信号拥有不同的注意力权重,从而能够更准确的获得待评估语音信号的整体质量,进而能够更准确的对低质量的语音信号进行安全评估。本申请还公开一种用于评估语音安全的装置、电子设备及存储介质。电子设备及存储介质。电子设备及存储介质。


技术研发人员:

向涛 吕潇 郭尚伟 陈泌文 张迪 乐俊青 张巧 廖晓峰

受保护的技术使用者:

重庆大学

技术研发日:

2022.08.12

技术公布日:

2022/11/18

本文发布于:2024-09-20 13:42:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/809.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分数   语音   向量   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议