一种基于自监督的防语音合成攻击方法和系统与流程



1.本发明涉及防语音攻击领域,特别是指一种基于自监督的防语音合成攻击方法和系统。


背景技术:



2.随着声纹识别技术的日益普及,防攻击变得越来越受重视,其中声纹识别防语音合成攻击的主要研究目的是实现检测一段录音是真人还是人工合成的音频,避免被他人盗用声纹信息。防攻击是任何声纹识别系统必不可少的,是其系统的重要组成部分,其中语音合成攻击随着近年来技术的进步(例如语音克隆技术)变得越来越容易获得,攻击类型呈现多样性,已经成为主要的攻击手段之一。声纹识别系统需要根据输入音频来区分用户身份,完成用户授权。现有的声纹识别系统对语音合成攻击缺乏有效的检测机制,主要的检测手段还是通过人工设计特征(例如mfcc),根据提取的特征进行分类。
3.但是现在的防语音合成攻击方法存在一定的局限性:
4.首先,音频特征提取主要是人工设计的,比如梅尔倒谱系数(mfcc),这类特征多是为语音识别系统设计,符合人类听觉系统特征,但是有时人耳也很难区分是否是合成语音,因此不一定适用于语音合成检测。
5.其次,环境噪声、录音设备和攻击方法对防语音合成攻击检测结果影响较大,场景和攻击类型覆盖较少。这些因素导致训练数据采集难度较大,没有充足的数据支撑,深度学习模型难以达到预设效果。
6.最后,随着技术的进步,语音克隆技术已经能够非常容易的实现对一个人的语音特征进行模仿,已经能够做到真假难辨,实现技术呈现多样化,难以有效的预测。


技术实现要素:



7.本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于自监督的防语音合成攻击方法和系统,能够有效的利用大量无标注的数据,而且能够提高合成检测的泛化能力。
8.本发明采用如下技术方案:
9.一种基于自监督的防语音合成攻击方法,包括:
10.获取语音数据训练样本;
11.将语音数据训练样本输入预训练模型,提取隐藏特征,并根据提取的隐藏特征进一步得到上下文特征,再通过上下文特征反向预测隐藏特征,完成预训练模型的自监督训练,得到初训练后的预训练模型;
12.采用多种合成语音算法进行防语音合成攻击数据集构建;
13.通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型,将防语音合成攻击数据集输入融合模型,完成融合模型的训练,并获取各语音特征的贡献值;
14.将防语音合成攻击数据集和设定贡献值对应的语音特征,输入初训练后的预训练模型进行再次训练,得到训练好的预训练模型;
15.根据训练好的预训练模型更新融合模型,得到防语音合成攻击模型;
16.输入语音至防语音合成攻击模型,实现语音合成检测。
17.具体地,所述预训练模型是基于卷积神经网络、循环神经网络和全连接层构建的,包括隐空间特征模块和上下文特征模块,
18.所述隐空间特征模块和上下文特征模块的主干网络包括卷积神经网络单元、长短时记忆单元和全连接预测单元。
19.具体地,所述合成检测模型是基于循环神经网络和全连接层构建的。
20.具体地,模型的训练过程为:
21.选择进行训练的模型,并根据所述模型选择相应的输入数据、输出数据以及对应的训练损失函数;
22.设置训练的超参数,并选择训练的策略;所述超参数包括学习率、batch size以及最大迭代数量,所述策略包括学习率衰减策略、验证策略以及训练终止策略;
23.通过梯度下降法和反向传播算法来更新模型参数直至误差稳定。
24.本发明实施例另一方面提供一种基于自监督的防语音合成攻击系统,包括:
25.训练样本获取单元:获取语音数据训练样本;
26.初训练单元:将语音数据新训练样本输入预训练模型,提取隐藏特征,并根据提取的隐藏特征进一步得到上下文特征,再通过上下文特征反向预测隐藏特征,完成预训练模型的自监督训练,得到初训练后的预训练模型;
27.语音合成单元:采用多种合成语音算法进行防语音合成攻击数据集构建;
28.模型融合单元:通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型,将防语音合成攻击数据集输入融合模型,完成融合模型的训练,并获取各语音特征的贡献值;
29.再训练单元:将防语音合成攻击数据集和设定贡献值对应的语音特征,输入初训练后的预训练模型进行再次训练,得到训练好的预训练模型;
30.更新单元:根据训练好的预训练模型更新融合模型,得到防语音合成攻击模型;
31.检测单元:输入语音至防语音合成攻击模型,实现语音合成检测。
32.具体地,所述预训练模型是基于卷积神经网络、循环神经网络和全连接层构建的,包括隐空间特征模块和上下文特征模块,
33.所述隐空间特征模块和上下文特征模块的主干网络包括卷积神经网络单元、长短时记忆单元和全连接预测单元。
34.具体地,所述合成检测模型是基于循环神经网络和全连接层构建的。
35.具体地,模型的训练过程为:
36.选择进行训练的模型,并根据所述模型选择相应的输入数据、输出数据以及对应的训练损失函数;
37.设置训练的超参数,并选择训练的策略;所述超参数包括学习率、batch size以及最大迭代数量,所述策略包括学习率衰减策略、验证策略以及训练终止策略;
38.通过梯度下降法和反向传播算法来更新模型参数直至误差稳定。
39.本发明实施例再一方面提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述一种基于自监督的防语音合成攻击的方法步骤。
40.本发明实施例又一方面一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于自监督的防语音合成攻击的方法步骤。
41.由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
42.(1)本发明提出了一种新的自监督训练方法,首先提取隐藏特征,并根据提取的隐藏特征进一步得到上下文特征,再通过上下文特征反向预测隐藏特征,完成预训练模型的自监督训练;并将这种自监督学习应用到合成语音检测中,不仅能够有效的利用大量无标注的数据,而且能够提高合成检测的泛化能力,能够在使用少量的有标注数据的情况下达到很好的效果。
43.(2)本发明将通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型,一方面解决梯度消失/爆炸问题并同时保留序列的长期信息,另一方面能够得出特征合成检测中的贡献值,并根据贡献值对预训练模型进行再训练;进一步提高模型特征提取的精确性以及合成检测的准确性。
附图说明
44.图1为本发明实施例中一种自监督的防语音合成攻击方法的应用环境图;
45.图2为本发明实施例中一种自监督的防语音合成攻击方法流程图;
46.图3为本发明实施例提供的预训练模型的初训练示意图
47.图4为本发明实施例提供的一种自监督的防语音合成攻击系统架构图;
48.图5为本发明实施例提供的一种电子设备示意图;
49.图6为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
50.以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
51.本技术实施例提供的方案涉及人工智能的合成语音检测等技术,具体通过如下实施例进行说明:
52.本技术提供的一种基于自监督的防语音合成攻击方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以控制服务器104进行口音分类模型的训练,当终端102向服务器发送训练指令时,服务器104从数据库中获取训练样本,训练数据包括训练音频;服务器104将将语音数据训练样本输入预训练模型,提取隐藏特征,并根据提取的隐藏特征进一步得到上下文特征,再通过上下文特征反向预测隐藏特征,完成预训练模型的自监督训练,得到初训练后的预训练模型;采用多种合成语音算法进行防语音合成攻击数据集构建;通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型,将防语音合成攻击数据集输入融合模型,完成融合模型的训练,并获取各语音特征的贡献值;将防语音合成攻击数据集和设定贡献值对应的语音特征,输入初训练后的预训练模型进行再次训练,得到训练好的预训练模型;
服务器104根据训练好的预训练模型更新融合模型,得到防语音合成攻击模型;其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
53.如图2,为本发明实施例提供的一种基于自监督的防语音合成攻击方法流程图,具体包括:
54.s201:获取语音数据训练样本;
55.训练样本是指训练预训练模型的样本,在本发明实施例中的语音数据训练样本无相应的标签。具体地,服务器可以直接从数据库中获取到训练样本。服务器也可以从互联网中采集到训练样本,比如,服务器从互联网中采集的训练音频,服务器也可以从提供数据服务的服务方获取到训练样本。
56.s202:将语音数据训练样本输入预训练模型,提取隐藏特征,并根据提取的隐藏特征进一步得到上下文特征,再通过上下文特征反向预测隐藏特征,完成预训练模型的自监督训练,得到初训练后的预训练模型;
57.如图3为本发明实施例提供的预训练模型的初训练示意图,首先将语音数据训练样本x输入预训练模型,根据卷积神经网络提取隐藏特征z,再经过另一个卷积神经网络提取上下文特征c,本发明实施例创新性的操作在于,会再通过上下文特征c反向预测隐藏特征z,直至误差最小,完成预训练模型的初训练。
58.所述预训练模型是基于卷积神经网络、循环神经网络和全连接层构建的,包括隐空间特征模块和上下文特征模块,
59.所述隐空间特征模块和上下文特征模块的主干网络包括卷积神经网络单元、长短时记忆单元和全连接预测单元。
60.s203:采用多种合成语音算法进行防语音合成攻击数据集构建;
61.在本实施例中,使用wavenet模型或tacotron模型合成所述伪造语音,防语音合成攻击数据集构建,数据集尽可能的做到多样性,每种类型的合成语音不需要很多,但是合成语音算法尽可能的做到多样性,使得下一步的模型训练能够学习到更有效的特征。
62.s204:通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型,将防语音合成攻击数据集输入融合模型,完成融合模型的训练,并获取各语音特征的贡献值;
63.本发明将通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型,一方面解决梯度消失/爆炸问题并同时保留序列的长期信息,另一方面能够得出特征合成检测中的贡献值,并根据贡献值对预训练模型进行再训练;进一步提高模型特征提取的精确性以及合成检测的准确性。
64.具体地,所述合成检测模型是基于循环神经网络和全连接层构建的。
65.s205:将防语音合成攻击数据集和设定贡献值对应的语音特征,输入初训练后的
预训练模型进行再次训练,得到训练好的预训练模型;
66.具体地,模型的训练过程为:
67.选择进行训练的模型,并根据所述模型选择相应的输入数据、输出数据以及对应的训练损失函数;
68.设置训练的超参数,并选择训练的策略;所述超参数包括学习率、batch size以及最大迭代数量,所述策略包括学习率衰减策略、验证策略以及训练终止策略;
69.通过梯度下降法和反向传播算法来更新模型参数直至误差稳定。
70.s206:根据训练好的预训练模型更新融合模型,得到防语音合成攻击模型;
71.s207:输入语音至防语音合成攻击模型,实现语音合成检测。
72.如图4,为本发明实施例另一方面提供一种基于自监督的防语音合成攻击系统,包括:
73.训练样本获取单元401:获取语音数据训练样本;
74.训练样本是指训练预训练模型的样本,在本发明实施例中的语音数据训练样本无相应的标签。具体地,服务器可以直接从数据库中获取到训练样本。服务器也可以从互联网中采集到训练样本,比如,服务器从互联网中采集的训练音频,服务器也可以从提供数据服务的服务方获取到训练样本。
75.初训练单元402:将语音数据新训练样本输入预训练模型,提取隐藏特征,并根据提取的隐藏特征进一步得到上下文特征,再通过上下文特征反向预测隐藏特征,完成预训练模型的自监督训练,得到初训练后的预训练模型;
76.如图3为本发明实施例提供的预训练模型的初训练示意图,首先将语音数据训练样本x输入预训练模型,根据卷积神经网络提取隐藏特征z,再经过另一个卷积神经网络提取上下文特征c,本发明实施例创新性的操作在于,会再通过上下文特征c反向预测隐藏特征z,直至误差最小,完成预训练模型的初训练。
77.所述预训练模型是基于卷积神经网络、循环神经网络和全连接层构建的,包括隐空间特征模块和上下文特征模块,
78.所述隐空间特征模块和上下文特征模块的主干网络包括卷积神经网络单元、长短时记忆单元和全连接预测单元。
79.语音合成单元403:采用多种合成语音算法进行防语音合成攻击数据集构建;
80.在本实施例中,使用wavenet模型或tacotron模型合成所述伪造语音,防语音合成攻击数据集构建,数据集尽可能的做到多样性,每种类型的合成语音不需要很多,但是合成语音算法尽可能的做到多样性,使得下一步的模型训练能够学习到更有效的特征。
81.模型融合单元404:通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型,将防语音合成攻击数据集输入融合模型,完成融合模型的训练,并获取各语音特征的贡献值;
82.本发明将通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型,一方面解决梯度消失/爆炸问题并同时保留序列的长期信息,另一方面能够得出特征合成检测中的贡献值,并根据贡献值对预训练模型进行再训练;进一步提高模型特征提取的精确性以及合成检测的准确性。
83.具体地,所述合成检测模型是基于循环神经网络和全连接层构建的。
84.再训练单元405:将防语音合成攻击数据集和设定贡献值对应的语音特征,输入初训练后的预训练模型进行再次训练,得到训练好的预训练模型;
85.具体地,模型的训练过程为:
86.选择进行训练的模型,并根据所述模型选择相应的输入数据、输出数据以及对应的训练损失函数;
87.设置训练的超参数,并选择训练的策略;所述超参数包括学习率、batch size以及最大迭代数量,所述策略包括学习率衰减策略、验证策略以及训练终止策略;
88.通过梯度下降法和反向传播算法来更新模型参数直至误差稳定
89.更新单元406:根据训练好的预训练模型更新融合模型,得到防语音合成攻击模型;
90.检测单元407:输入语音至防语音合成攻击模型,实现语音合成检测。
91.如图5所示,本发明实施例提供了一种电子设备500,包括存储器510、处理器520及存储在存储器520上并可在处理器520上运行的计算机程序511,处理器520执行计算机程序511时实现本发明实施例提供的一种基于自监督的防语音合成攻击的方法。
92.由于本实施例所介绍的电子设备为实施本发明实施例中所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
93.请参阅图6,图6为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
94.如图6所示,本实施例提供了一种计算机可读存储介质600,其上存储有计算机程序611,该计算机程序611被处理器执行时实现本发明实施例提供的一种基于自监督的防语音合成攻击的方法;
95.需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
96.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
97.本发明提出了一种新的自监督训练方法,首先提取隐藏特征,并根据提取的隐藏特征进一步得到上下文特征,再通过上下文特征反向预测隐藏特征,完成预训练模型的自监督训练;并将这种自监督学习应用到合成语音检测中,不仅能够有效的利用大量无标注的数据,而且能够提高合成检测的泛化能力,能够在使用少量的有标注数据的情况下达到很好的效果。
98.本发明将通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型,一方面解决梯度消失/爆炸问题并同时保留序列的长期信息,另一方面能够得出特征合成检测中的贡献值,并根据贡献值对预训练模型进行再训练;
进一步提高模型特征提取的精确性以及合成检测的准确性。
99.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
100.上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

技术特征:


1.一种基于自监督的防语音合成攻击方法,其特征在于,包括:获取语音数据训练样本;将语音数据训练样本输入预训练模型,提取隐藏特征,并根据提取的隐藏特征进一步得到上下文特征,再通过上下文特征反向预测隐藏特征,完成预训练模型的自监督训练,得到初训练后的预训练模型;采用多种合成语音算法进行防语音合成攻击数据集构建;通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型,将防语音合成攻击数据集输入融合模型,完成融合模型的训练,并获取各语音特征的贡献值;将防语音合成攻击数据集和设定贡献值对应的语音特征,输入初训练后的预训练模型进行再次训练,得到训练好的预训练模型;根据训练好的预训练模型更新融合模型,得到防语音合成攻击模型;输入语音至防语音合成攻击模型,实现语音合成检测。2.根据权利要求1所述的一种基于自监督的防语音合成攻击方法,其特征在于,所述预训练模型是基于卷积神经网络、循环神经网络和全连接层构建的,包括隐空间特征模块和上下文特征模块,所述隐空间特征模块和上下文特征模块的主干网络包括卷积神经网络单元、长短时记忆单元和全连接预测单元。3.根据权利要求1所述的一种基于自监督的防语音合成攻击方法,其特征在于,所述合成检测模型是基于循环神经网络和全连接层构建的。4.根据权利要求1所述的一种基于自监督的防语音合成攻击方法,其特征在于,模型的训练过程为:选择进行训练的模型,并根据所述模型选择相应的输入数据、输出数据以及对应的训练损失函数;设置训练的超参数,并选择训练的策略;所述超参数包括学习率、batch size以及最大迭代数量,所述策略包括学习率衰减策略、验证策略以及训练终止策略;通过梯度下降法和反向传播算法来更新模型参数直至误差稳定。5.一种基于自监督的防语音合成攻击系统,其特征在于,包括:训练样本获取单元:获取语音数据训练样本;初训练单元:将语音数据新训练样本输入预训练模型,提取隐藏特征,并根据提取的隐藏特征进一步得到上下文特征,再通过上下文特征反向预测隐藏特征,完成预训练模型的自监督训练,得到初训练后的预训练模型;语音合成单元:采用多种合成语音算法进行防语音合成攻击数据集构建;模型融合单元:通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型,将防语音合成攻击数据集输入融合模型,完成融合模型的训练,并获取各语音特征的贡献值;再训练单元:将防语音合成攻击数据集和设定贡献值对应的语音特征,输入初训练后的预训练模型进行再次训练,得到训练好的预训练模型;更新单元:根据训练好的预训练模型更新融合模型,得到防语音合成攻击模型;
检测单元:输入语音至防语音合成攻击模型,实现语音合成检测。6.根据权利要求5所述的一种基于自监督的防语音合成攻击系统,其特征在于,所述预训练模型是基于卷积神经网络、循环神经网络和全连接层构建的,包括隐空间特征模块和上下文特征模块,所述隐空间特征模块和上下文特征模块的主干网络包括卷积神经网络单元、长短时记忆单元和全连接预测单元。7.根据权利要求5所述的一种基于自监督的防语音合成攻击系统,其特征在于,所述合成检测模型是基于循环神经网络和全连接层构建的。8.根据权利要求5所述的一种基于自监督的防语音合成攻击系统,其特征在于,模型的训练过程为:选择进行训练的模型,并根据所述模型选择相应的输入数据、输出数据以及对应的训练损失函数;设置训练的超参数,并选择训练的策略;所述超参数包括学习率、batch size以及最大迭代数量,所述策略包括学习率衰减策略、验证策略以及训练终止策略;通过梯度下降法和反向传播算法来更新模型参数直至误差稳定。9.一种电子设备,其特征在于,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1-4任一所述的方法步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。

技术总结


本发明提供一种基于自监督的防语音合成攻击方法,包括:获取语音数据训练样本;将语音数据训练样本输入预训练模型,完成预训练模型的自监督训练,得到初训练后的预训练模型;采用多种合成语音算法进行防语音合成攻击数据集构建;通过门控循环单元和注意力模块将初训练后的预训练模型与合成检测模型进行融合,得到融合模型并完成融合模型的训练;将防语音合成攻击数据集和设定贡献值对应的语音特征,输入初训练后的预训练模型进行再次训练,根据训练好的预训练模型更新融合模型,得到防语音合成攻击模型;输入语音至防语音合成攻击模型,实现语音合成检测;本发明提供的方法能够有效的利用大量无标注的数据,而且能够提高合成检测的泛化能力。测的泛化能力。测的泛化能力。


技术研发人员:

李海洲 杨洪 肖龙源 李稀敏 叶志坚

受保护的技术使用者:

厦门快商通科技股份有限公司

技术研发日:

2022.06.15

技术公布日:

2022/10/11

本文发布于:2024-09-24 03:21:11,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/27831.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   特征   所述   语音合成
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议