攻击语音检测方法、装置、设备及介质与流程

1.本技术涉及声纹识别技术领域，尤其涉及一种攻击语音检测方法、装置、设备及介质。

背景技术：

2.近年来，声纹识别技术已经在多种认证场景中得到广泛的应用，例如，智能手机和平板电脑的声纹锁使用语音进行登录认证。随着深度学习和机器学习的发展，虽然声纹识别系统的识别准确率逐渐提高，但是合成声纹技术也在日益进步。若不法分子通过合成算法生成目标用户的声纹，再采用这种声纹去攻击声纹识别系统，那么将会对声纹识别系统带来极大的威胁，从而导致用户的信息安全得不到保障。然而，目前国内外工业界还没有一种能够有效检测出攻击语音的方法(攻击语音包括合成语音、采用录音设备录制的语音等)，给声纹识别系统的应用和推广带来了巨大的阻碍。

技术实现要素：

3.针对上述技术问题，本技术的目的在于提供一种攻击语音检测方法、装置、设备存储介质，旨在解决目前还没有一种能够有效检测出攻击语音的方法的技术问题。
4.为了解决上述技术问题，第一方面，本技术实施例提供一种攻击语音检测方法，包括：
5.获取待检测的语音信号；
6.对所述待检测的语音信号进行预处理，得到预处理后的语音信号；
7.根据所述预处理后的语音信号，采用线性预测算法提取残差信号；
8.从所述残差信号中提取线性频率倒谱系数特征；
9.从所述残差信号中提取常数q倒谱系数特征；
10.将所述线性频率倒谱系数特征和所述常数q倒谱系数特征进行拼接，得到拼接后的特征；
11.将所述拼接后的特征输入到预设的模型进行检测，得到检测结果；其中，所述检测结果为所述语音信号是否为攻击语音信号。
12.进一步的，所述根据所述预处理后的语音信号，采用线性预测算法提取残差信号，包括：
13.基于线性预测算法的预测系数、线性预测的阶数，采用线性预测算法计算得到预测出的语音信号；
14.根据所述预测出的语音信号和所述预处理后的语音信号提取残差信号。
15.进一步的，所述基于线性预测算法的预测系数、线性预测的阶数，采用线性预测算法计算得到预测出的语音信号，具体包括：
16.根据公式计算得到预测出的语音信号；
17.其中，表示预测出的语音信号，ck表示线性预测算法的预测系数，k表示线性预测的阶数，取值为[1-p],s(t-a)表示当前时刻前的语音信号，t表示当前时间点，a表示t时刻之前的时间点。
[0018]
进一步的，所述根据所述预测出的语音信号和所述预处理后的语音信号提取残差信号，具体包括：
[0019]
根据公式提取残差信号；
[0020]
其中，r(t)表示残差信号，s(t)表示预处理后的语音信号，表示预测出的语音信号。
[0021]
进一步的，所述从所述残差信号中提取线性频率倒谱系数特征，包括：
[0022]
将所述残差信号转换为频域信号；
[0023]
采用线性三角滤波器对所述频域信号进行滤波处理，得到滤波后的频域信号；
[0024]
对所述滤波后的频域信号取对数，得到取对数后的频域信号；
[0025]
对所述取对数后的频域信号依次进行离散余弦变换和一二阶差分处理，得到线性频率倒谱系数特征。
[0026]
进一步的，所述从所述残差信号中提取常数q倒谱系数特征，具体包括：
[0027]
对所述残差信号依次进行常数q变换和取对数处理，得到对数功率谱；
[0028]
对所述对数功率谱依次进行均匀重采样、离散余弦变换和一二阶差分处理得到常数q倒谱系数特征。
[0029]
第二方面，本技术实施例提供一种攻击语音检测装置，包括：
[0030]
语音信号获取模块，用于获取待检测的语音信号；
[0031]
预处理模块，用于对所述待检测的语音信号进行预处理，得到预处理后的语音信号；
[0032]
残差信号提取模块，用于根据所述预处理后的语音信号，采用线性预测算法提取残差信号；
[0033]
线性频率倒谱系数特征提取模块，用于从所述残差信号中提取线性频率倒谱系数特征；
[0034]
常数q倒谱系数特征提取模块，用于从所述残差信号中提取常数q倒谱系数特征；
[0035]
拼接模块，用于将所述线性频率倒谱系数特征和所述常数q倒谱系数特征进行拼接，得到拼接后的特征；
[0036]
检测模块，用于将所述拼接后的特征输入到预设的模型进行检测，得到检测结果；其中，所述检测结果为所述语音信号是否为攻击语音信号。
[0037]
进一步的，所述残差信号特征提取模块，包括：
[0038]
计算子模块，用于基于线性预测算法的预测系数、线性预测的阶数，采用线性预测算法计算得到预测出的语音信号；
[0039]
提取子模块，用于根据所述预测出的语音信号和所述预处理后的语音信号提取残差信号。
[0040]
第三方面，本技术实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
[0041]
第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
[0042]
本技术实施例提供的一种攻击语音检测方法包括：获取待检测的语音信号；对所述待检测的语音信号进行预处理，得到预处理后的语音信号；根据所述预处理后的语音信号，采用线性预测算法提取残差信号；从所述残差信号中提取线性频率倒谱系数特征；从所述残差信号中提取常数q倒谱系数特征；将所述线性频率倒谱系数特征和所述常数q倒谱系数特征进行拼接，得到拼接后的特征；将所述拼接后的特征输入到预设的模型进行检测，得到检测结果；其中，所述检测结果为所述语音信号是否为攻击语音信号。由于本技术实施例通过采用线性预测算法提取到的残差信号能够反映出语音合成算法的差异或不同录音设备信道的差异，且在残差信号的基础上提取到线性频率倒谱系数特征和常数q倒谱系数特征分别能够在线性的角度和非线性的角度挖掘出真实语音和攻击语音在频率段的差异，因此，通过这些差异，本技术实施例能够有效地识别出待检测的语音是攻击语音还是真实语音。
附图说明
[0043]
为了更清楚地说明本技术的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0044]
图1是本技术第一实施例提供的一种攻击语音检测方法的流程示意图；
[0045]
图2是本技术第一实施例提供的根据预处理后的语音信号，采用线性预测算法提取残差信号的流程图；
[0046]
图3是本技术第一实施例提供的从残差信号中提取线性频率倒谱系数特征的流程图；
[0047]
图4是本技术第一实施例提供的从残差信号中提取常数q倒谱系数特征的流程图；
[0048]
图5是本技术第二实施例提供的一种攻击语音检测装置的结构示意图；
[0049]
图6为本技术第三实施例提供的计算机设备的结构示意框图。
具体实施方式
[0050]
下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0051]
请参阅图1，本技术第一实施例提供了一种攻击语音检测方法，其可由攻击语音检测的计算机设备来执行，所述攻击语音检测的计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。
[0052]
实施例一：
[0053]
本技术实施例提供的一种攻击语音检测方法，包括步骤s1-s7：
[0054]
s1、获取待检测的语音信号；
[0055]
s2、对所述待检测的语音信号进行预处理，得到预处理后的语音信号；
[0056]
s3、根据所述预处理后的语音信号，采用线性预测算法提取残差信号；
[0057]
s4、从所述残差信号中提取线性频率倒谱系数特征；
[0058]
s5、从所述残差信号中提取常数q倒谱系数特征；
[0059]
s6、将所述线性频率倒谱系数特征和所述常数q倒谱系数特征进行拼接，得到拼接后的特征；
[0060]
s7、将所述拼接后的特征输入到预设的模型进行检测，得到检测结果；其中，所述检测结果为所述语音信号是否为攻击语音信号。
[0061]
如上述步骤s1，待检测的语音信号一般为具有音频采集功能的电子设备采集到的时域语音信号，如用户使用智能手机上的声纹锁进行解锁时采集到的用户的语音。
[0062]
如上述步骤s2，所述对所述待检测的语音信号进行预处理，得到预处理后的语音信号，具体包括：对所述待检测的语音信号进行预加重、分帧和加窗等处理操作，得到预处理后的语音信号。需要说明的是，这些操作的目的是为了消除由于人类发声器官本身、采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素对语音信号质量的影响，尽可能保证后续语音处理得到的信号更均匀、平滑，为特征提取提供优质的特征，提高语音处理质量。
[0063]
如上述步骤s3，由于攻击语音可能是合成语音也可能是录音语音，当攻击语音是合成语音时，由于不同的合成语音的合成算法可能是不一样的，不同录音语音的录音设备可能也不一样的，因此，为使得各种各样的合成语音或不同设备录制的语音都能够被识别到，本技术采用了线性预测算法从待检测的语音信号中提取残差信号，而提取到的残差信号则能够反映出语音合成算法的差异或不同录音设备的差异。
[0064]
如上述步骤s4、s5，由于在残差信号的基础上提取到的线性频率倒谱系数(linearfrequency cepstral coefficient，lfcc)特征和常数q倒谱系数(constant q cepstral coefficient，cqcc)特征分别能够在线性的角度和非线性的角度挖掘出真实语音和攻击语音在频率段的差异，因此，通过这些差异，本技术能够有效地识别出待检测的语音是攻击语音还是真实语音。需要说明的是，由于所述线性频率倒谱系数特征和是常数q倒谱系数特征基于残差信号提取的声学特征，因此，该声学特征也可以自定义命名为残差线性频率倒谱系数(residual linear frequency cepstral coefficient,lfcc)特征和残差常数q倒谱系数(residualconstant q cepstral coefficient,cqcc)特征。
[0065]
如上述步骤s6，所述线性频率倒谱系数特征和所述常数q倒谱系数特征的维度相同才能进行拼接。因此，在提取所述线性频率倒谱系数特征和所述常数q倒谱系数特征时要提取相同维度。
[0066]
如上述步骤s7，所述预设的模型可以是根据训练集语音的特征及其对应的标签，采用机器学习算法训练得到的；其中，所述训练集语音的特征为由线性频率倒谱系数特征和常数q倒谱系数特征拼接得到的特征。需要说明的是，在本技术实施例中，所述模型具体可以采用卷积神经网络模型，只要所述模型经过训练后能够判断出待检测的语音信号是真实语音还是攻击语音即可，本技术对模型的类型不做限制。
[0067]
在一个实施例中，请参阅图2，图2是本技术实施例提供的根据预处理后的语音信号，采用线性预测算法提取残差信号的流程图，上述所述根据所述预处理后的语音信号，采用线性预测算法提取残差信号，包括：
[0068]
s31、基于线性预测算法的预测系数、线性预测的阶数，采用线性预测算法计算得到预测出的语音信号；
[0069]
s32、根据所述预测出的语音信号和所述预处理后的语音信号提取残差信号。
[0070]
在本技术实施例中，需要说明的是，线性预测算法的预测系数取值一般为8-12，其能够体现采样点之间的相关性进而拟合当前采样点信号。
[0071]
在一个实施例中，上述所述基于线性预测算法的预测系数、线性预测的阶数，采用线性预测算法计算得到预测出的语音信号，具体包括：
[0072]
根据公式计算得到预测出的语音信号；
[0073]
其中，表示预测出的语音信号，ck表示线性预测算法的预测系数，k表示线性预测的阶数，取值为[1-p],s(t-a)表示当前时刻前的语音信号，t表示当前时间点，a表示t时刻之前的时间点。
[0074]
在一个实施例中，所述根据所述预测出的语音信号和所述预处理后的语音信号提取残差信号，具体包括：
[0075]
根据公式提取残差信号；
[0076]
其中，r(t)表示残差信号，s(t)表示预处理后的语音信号，表示预测出的语音信号。
[0077]
在一个实施例中，请参阅图3，图3是从残差信号中提取线性频率倒谱系数特征的流程图，所述从所述残差信号中提取线性频率倒谱系数特征，包括：
[0078]
将所述残差信号转换为频域信号；
[0079]
采用线性三角滤波器对所述频域信号进行滤波处理，得到滤波后的频域信号；
[0080]
对所述滤波后的频域信号取对数，得到取对数后的频域信号；
[0081]
对所述取对数后的频域信号依次进行离散余弦变换和一二阶差分处理，得到所述线性频率倒谱系数特征。
[0082]
在本技术实施例中，应当理解的是，所述残差信号为时域信号，优选采用傅里叶变换将所述残差信号转换为频域信号，也可以采用其他方式进行残差信号的时频转换。
[0083]
在一个实施例中，请参阅图4，图4是从残差信号中提取常数q倒谱系数特征的流程图，所述从所述残差信号中提取常数q倒谱系数特征，具体包括：
[0084]
对所述残差信号依次进行常数q变换和取对数处理，得到对数功率谱；
[0085]
对所述对数功率谱依次进行均匀重采样、离散余弦变换和一二阶差分处理得到常数q倒谱系数特征。
[0086]
在本技术实施例中，应当理解的是，常数q变换也称为cqt(constant q transform，cqt)。
[0087]
实施例二：
[0088]
请参阅图5，图5是本技术实施例提供的一种攻击语音检测装置的结构示意图，本技术实施例还提供一种攻击语音检测装置，包括：
[0089]
语音信号获取模块1，用于获取待检测的语音信号；
[0090]
预处理模块2，用于对所述待检测的语音信号进行预处理，得到预处理后的语音信号；
[0091]
残差信号提取模块3，用于根据所述预处理后的语音信号，采用线性预测算法提取残差信号；
[0092]
线性频率倒谱系数特征提取模块4，用于从所述残差信号中提取线性频率倒谱系数特征；
[0093]
常数q倒谱系数特征提取模块5，用于从所述残差信号中提取常数q倒谱系数特征；
[0094]
拼接模块6，用于将所述线性频率倒谱系数特征和所述常数q倒谱系数特征进行相同维度的拼接，得到拼接后的特征；
[0095]
检测模块7，用于将所述拼接后的特征输入到预设的模型进行检测，得到检测结果；其中，所述检测结果为所述语音信号是否为攻击语音信号。
[0096]
如上述语音信号获取模块1，待检测的语音信号一般为具有音频采集功能的电子设备采集到的时域语音信号，如用户使用智能手机上的声纹锁进行解锁时采集到的用户的语音。
[0097]
如上述预处理模块2，所述对所述待检测的语音信号进行预处理，得到预处理后的语音信号，具体包括：对所述待检测的语音信号进行预加重、分帧和加窗等处理操作，得到预处理后的语音信号。需要说明的是，这些操作的目的是为了消除由于人类发声器官本身、采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素对语音信号质量的影响，尽可能保证后续语音处理得到的信号更均匀、平滑，为特征提取提供优质的特征，提高语音处理质量。
[0098]
如上述残差信号提取模块3，由于攻击语音可能是合成语音也可能是录音语音，当攻击语音是合成语音时，由于不同的合成语音的合成算法可能是不一样的，不同录音语音的录音设备可能也不一样的，因此，为使得各种各样的合成语音或不同设备录制的语音都能够被识别到，本技术采用了线性预测算法从待检测的语音信号中提取残差信号，而提取到的残差信号则能够反映出语音合成算法的差异或不同录音设备的差异。
[0099]
如上述线性频率倒谱系数特征提取模块4、常数q倒谱系数特征提取模块5，由于在残差信号的基础上提取到的线性频率倒谱系数(linear frequency cepstral coefficient，lfcc)特征和常数q倒谱系数(constant q cepstral coefficient，cqcc)特征分别能够在线性的角度和非线性的角度挖掘出真实语音和攻击语音在频率段的差异，因此，通过这些差异，本技术能够有效地识别出待检测的语音是攻击语音还是真实语音。需要说明的是，由于所述线性频率倒谱系数特征是基于残差信号提取的声学特征，因此，该声学特征也可以自定义命名为残差线性频率倒谱系数(residual linear frequency cepstral coefficient,lfcc)特征和残差常数q倒谱系数(residualconstant q cepstral coefficient,cqcc)特征。
[0100]
如上述拼接模，6所述线性频率倒谱系数特征和所述常数q倒谱系数特征的维度相同才能进行拼接。因此，在提取所述线性频率倒谱系数特征和所述常数q倒谱系数特征时要提取相同维度。
[0101]
如上述检测模块7，所述预设的模型可以是根据训练集语音的特征及其对应的标签，采用机器学习算法训练得到的；其中，所述训练集语音的特征为由线性频率倒谱系数特
征和常数q倒谱系数特征拼接得到的特征。需要说明的是，在本技术实施例中，所述模型具体可以采用卷积神经网络模型，只要所述模型经过训练后能够判断出待检测的语音信号是真实语音还是攻击语音即可，本技术对模型的类型不做限制。
[0102]
在一个实施例中，所述残差信号特征提取模块，包括：
[0103]
计算子模块，用于基于线性预测算法的预测系数、线性预测的阶数，采用线性预测算法计算得到预测出的语音信号；
[0104]
提取子模块，用于根据所述预测出的语音信号和所述预处理后的语音信号提取残差信号。
[0105]
在本发明实施例中，需要说明的是，线性预测算法的预测系数取值一般为8-12，其能够体现采样点之间的相关性进而拟合当前采样点信号。
[0106]
在一个实施例中，所述计算子模块具体用于根据公式计算得到预测出的语音信号；其中，表示预测出的语音信号，ck表示线性预测算法的预测系数，k表示线性预测的阶数，取值为[1-p],s(t-a)表示当前时刻前的语音信号，t表示当前时间点，a表示t时刻之前的时间点。
[0107]
在一个实施例中，所述线性频率倒谱系数特征提取模块，包括：
[0108]
时频转换子模块，用于将所述残差信号转换为频域信号；
[0109]
滤波处理子模块，用于采用线性三角滤波器对所述频域信号进行滤波处理，得到滤波后的频域信号；
[0110]
取对数子模块，用于对所述滤波后的频域信号进行取对数处理，得到取对数后的频域信号；
[0111]
离散余弦变换子模块，用于对所述取对数后的频域信号进行离散余弦变换，得到离散余弦变换后的频域信号；
[0112]
第一一二阶差分处理子模块，用于对所述离散余弦变换后的频域信号进行一二阶差分处理，得到所述线性频率倒谱系数特征。
[0113]
在本技术实施例中，应当理解的是，所述残差信号为时域信号，优选采用傅里叶变换将所述残差信号转换为频域信号，也可以采用其他方式进行残差信号的时频转换。
[0114]
在一个实施例中，所述常数q倒谱系数特征提取模块包括：
[0115]
常数q变换子模块，用于对所述残差信号进行常数q变换，得到能量谱；
[0116]
对数处理子模块，用于对所述能量谱进行取对数处理，得到对数功率谱；
[0117]
均匀重采样子模块，用于对所述对数功率谱进行重采样，得到重采样后的对数功率谱；
[0118]
离散余弦变换子模块，用于对所述重采样后的对数功率谱进行离散余弦变换，得到离散余弦变换后的对数功率谱；
[0119]
第二一二阶差分子模块，用于对所述离散余弦变换后的对数功率谱进行一二阶差分处理，得到所述常数q倒谱系数特征。
[0120]
在本技术实施例中，应当理解的是，常数q变换也称为cqt(constant q transform，cqt)。
[0121]
实施例三：
[0122]
参照图6，本技术实施例还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存适用于一种语音攻击检测方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种攻击语音检测方法，包括：获取待检测的语音信号；对所述待检测的语音信号进行预处理，得到预处理后的语音信号；根据所述预处理后的语音信号，采用线性预测算法提取残差信号；从所述残差信号中提取线性频率倒谱系数特征；从所述残差信号中提取常数q倒谱系数特征；将所述线性频率倒谱系数特征和所述常数q倒谱系数特征进行拼接，得到拼接后的特征；将所述拼接后的特征输入到预设的模型进行检测，得到检测结果；其中，所述检测结果为所述语音信号是否为攻击语音信号。
[0123]
由于本技术实施例通过采用线性预测算法提取到的残差信号能够反映出语音合成算法的差异或不同录音设备信道的差异，且在残差信号的基础上提取到声学特征线性频率倒谱系数特征和常数q倒谱系数特征分别能够在线性的角度和非线性的角度挖掘出真实语音和攻击语音在频率段的差异，因此，通过这些差异，本技术实施例能够有效地识别出待检测的语音是攻击语音还是真实语音。
[0124]
实施例四：
[0125]
本技术实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种攻击语音检测方法，包括步骤：获取待检测的语音信号；对所述待检测的语音信号进行预处理，得到预处理后的语音信号；根据所述预处理后的语音信号，采用线性预测算法提取残差信号；从所述残差信号中提取线性频率倒谱系数特征；从所述残差信号中提取常数q倒谱系数特征；将所述线性频率倒谱系数特征和所述常数q倒谱系数特征进行拼接，得到拼接后的特征；将所述拼接后的特征输入到预设的模型进行检测，得到检测结果；其中，所述检测结果为所述语音信号是否为攻击语音信号。
[0126]
上述执行的适用于一种攻击语音检测方法，通过采用线性预测算法提取到的残差信号能够反映出语音合成算法的差异或不同录音设备信道的差异，且在残差信号的基础上提取到声学特征线性频率倒谱系数特征和常数q倒谱系数特征分别能够在线性的角度和非线性的角度挖掘出真实语音和攻击语音在频率段的差异，因此，通过这些差异，能够有效地识别出待检测的语音是攻击语音还是真实语音。
[0127]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，
诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0128]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0129]
以上所述仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

技术特征：

1.一种攻击语音检测方法，其特征在于，包括：获取待检测的语音信号；对所述待检测的语音信号进行预处理，得到预处理后的语音信号；根据所述预处理后的语音信号，采用线性预测算法提取残差信号；从所述残差信号中提取线性频率倒谱系数特征；从所述残差信号中提取常数q倒谱系数特征；将所述线性频率倒谱系数特征和所述常数q倒谱系数特征进行拼接，得到拼接后的特征；将所述拼接后的特征输入到预设的模型进行检测，得到检测结果；其中，所述检测结果为所述语音信号是否为攻击语音信号。2.根据权利要求1所述的攻击语音检测方法，其特征在于，所述根据所述预处理后的语音信号，采用线性预测算法提取残差信号，包括：基于线性预测算法的预测系数、线性预测的阶数，采用线性预测算法计算得到预测出的语音信号；根据所述预测出的语音信号和所述预处理后的语音信号提取残差信号。3.根据权利要求2所述的攻击语音检测方法，其特征在于，所述基于线性预测算法的预测系数、线性预测的阶数，采用线性预测算法计算得到预测出的语音信号，具体包括：根据公式计算得到预测出的语音信号；其中，表示预测出的语音信号，c
k
表示线性预测算法的预测系数，k表示线性预测的阶数，取值为[1-p],s(t-a)表示当前时刻前的语音信号，t表示当前时间点，a表示t时刻之前的时间点。4.根据权利要求3所述的攻击语音检测方法，其特征在于，所述根据所述预测出的语音信号和所述预处理后的语音信号提取残差信号，具体包括：根据公式提取残差信号；其中，r(t)表示残差信号，s(t)表示预处理后的语音信号，表示预测出的语音信号。5.根据权利要求1所述的攻击语音检测方法，其特征在于，所述从所述残差信号中提取线性频率倒谱系数特征，包括：将所述残差信号转换为频域信号；采用线性三角滤波器对所述频域信号进行滤波处理，得到滤波后的频域信号；对所述滤波后的频域信号取对数，得到取对数后的频域信号；对所述取对数后的频域信号依次进行离散余弦变换和一二阶差分处理，得到线性频率倒谱系数特征。6.根据权利要求1所述的攻击语音检测方法，其特征在于，所述从所述残差信号中提取常数q倒谱系数特征，具体包括：对所述残差信号依次进行常数q变换和取对数处理，得到对数功率谱；对所述对数功率谱依次进行均匀重采样、离散余弦变换和一二阶差分处理得到常数q
倒谱系数特征。7.一种攻击语音检测装置，其特征在于，包括：语音信号获取模块，用于获取待检测的语音信号；预处理模块，用于对所述待检测的语音信号进行预处理，得到预处理后的语音信号；残差信号提取模块，用于根据所述预处理后的语音信号，采用线性预测算法提取残差信号；线性频率倒谱系数特征提取模块，用于从所述残差信号中提取线性频率倒谱系数特征；常数q倒谱系数特征提取模块，用于从所述残差信号中提取常数q倒谱系数特征；拼接模块，用于将所述线性频率倒谱系数特征和所述常数q倒谱系数特征进行拼接，得到拼接后的特征；检测模块，用于将所述拼接后的特征输入到预设的模型进行检测，得到检测结果；其中，所述检测结果为所述语音信号是否为攻击语音信号。8.根据权利要求7所述的攻击语音检测装置，其特征在于，所述残差信号特征提取模块，包括：计算子模块，用于基于线性预测算法的预测系数、线性预测的阶数，采用线性预测算法计算得到预测出的语音信号；提取子模块，用于根据所述预测出的语音信号和所述预处理后的语音信号提取残差信号。9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

技术总结

本申请涉及声纹识别技术领域，提供一种攻击语音检测方法、装置、设备及介质，方法包括：获取待检测的语音信号；对待检测的语音信号进行预处理，得到预处理后的语音信号；根据预处理后的语音信号，采用线性预测算法提取残差信号；从残差信号中提取线性频率倒谱系数特征；从残差信号中提取常数Q倒谱系数特征；将线性频率倒谱系数特征和常数Q倒谱系数特征进行拼接，得到拼接后的特征；将拼接后的特征输入到预设的模型进行检测，得到检测结果。由于本实施例通过采用线性预测算法提取到的残差信号、线性频率倒谱系数特征和常数Q倒谱系数特征能够反映出真实语音和攻击语音的差异，因此，本申请能够有效地识别出待检测的语音是攻击语音还是真实语音。音还是真实语音。音还是真实语音。