基于对抗样本的非侵入自适应说话人匿名系统及方法



1.本发明涉及(音频数据身份隐私保护)领域,具体地说,涉及一种基于对抗样本的非侵入自适应说话人匿名系统及方法。


背景技术:



2.近年来,语音输入逐渐普及并广泛部署到各种服务应用中,支持自动语音转录、高效语音搜索和现时语言翻译等丰富强大的功能,从而提供以人为中心的智能化交互体验。然而,在语音服务强大功能的背后,语音数据公布的隐私风险引起了广泛关注。微软、谷歌等科技巨头长期收集和存储用户语音,苹果和亚马逊等语音供应商频频被曝窃听用户谈话。尽管这些公司在隐私条款中声称会对用户数据进行匿名化处理以消除账户联系,但用户的身份隐私依然面临着各种潜在威胁,特别是许多专业的自动说话人辨认工具能够仅从数十秒语音中轻易揭露用户的声纹特征,并用于精准用户画像、定向广告投放甚至个体身份伪造等恶意目的。面对语音服务功能和个人身份隐私之间的困境,用户亟需一个可靠的语音服务隐私保护方案。
3.已有的说话人匿名研究重点关注通过语音转换和语音合成的范式消除语音中的个体特征同时保留文本内容。其中,大部分工作沿袭语音转换的范式通过修改基频、韵律等低级的时-频-幅声学特征或高级的说话人嵌入码特征来隐藏用户的真实声纹,而其他一些研究则提出利用文本重新合成不带任何有效声纹特征的语音以最大程度保护身份隐私。尽管已有工作对语音中的用户身份隐私保护进行了有效探索,但这种直接修改和重新合成会产生严重的信号失真和人造痕迹,极大影响了语音服务的功能尤其是人类参与者的听觉体验,从而导致即时通讯和社交媒体等应用场景下的感知非一致性。
4.本发明从平衡语音服务功能和个人身份隐私的全新视角出发,提出基于对抗样本的非侵入、自适应说话人匿名系统。利用其对神经网络模型的强大攻击性和人耳难以感知的隐蔽性,本发明将对抗样本作为一种网络空间中的虚拟斗篷来掩蔽用户身份同时保留文本信息并兼顾人耳听感。通过预训练的嵌入码级别条件变分自编码器,本发明提出的系统能够按需采样多样的目标说话人样本用于triplet架构生成输入相关的对抗扰动,实现任意对任意的说话人身份变换从而自适应地躲避不知情、半知情和知情攻击的身份检测。同时,本系统利用声学掩蔽效应将扰动隐藏在不可听域以提升语音对抗样本的音质,提供非侵入式的用户体验。


技术实现要素:



5.本发明针对现有技术的不足之处作出了改进,提供了一种基于对抗样本的非侵入自适应说话人匿名系统及方法,本发明是通过以下技术方案来实现的:
6.本发明公开了一种基于对抗样本的非侵入自适应说话人匿名系统,系统包括多样目标说话人生成模块、任意对任意对抗扰动构造模块和不可感知对抗扰动优化模块,多样目标说话人生成模块根据所输入的目标标签按需生成目标说话人嵌入码,任意对任意对抗
扰动构造模块根据所输入的目标说话人嵌入码构造对抗扰动,不可感知对抗扰动优化模块进一步优化所输入的对抗扰动得到人耳不可感知的对抗扰动,人耳不可感知的对抗扰动叠加到用户源语音上生成最终的对抗样本。
7.本发明公开了一种基于对抗样本的非侵入自适应说话人匿名方法,其特征在于,方法包括如下步骤:
8.1)多样目标说话人生成模块利用嵌入码级别条件变分自编码器学习说话人嵌入码的分布,根据目标说话人的目标标签在说话人隐空间中采样隐变量,并通过预训练的解码器生成目标说话人嵌入码;
9.2)所得的目标说话人嵌入码,输入任意对任意对抗扰动构造模块,任意对任意对抗扰动构造模块根据目标说话人嵌入码和输入其中的用户源语音嵌入码构建三元组,采用triplet架构迭代式地构造对抗扰动使得说话人隐空间中对抗样本偏向目标说话人而远离原始用户;
10.3)所得的对抗扰动输入感知对抗扰动优化模块,应用声学掩蔽效应来优化扰动的不可感知性,通过使对抗扰动隐藏在不可听域来减少信号失真并保留较高的语音质量,得到人耳不可感知的对抗扰动;
11.最终,通过以上步骤生成的对抗扰动叠加到用户源语音上形成对抗样本,该样本经过自动说话人辨认会被识别为不同的目标说话人,而输入到自动语音识别系统时仍然输出正确的转录文本,同时在声纹、文本、音质方面保持良好的一致性。
12.作为进一步地改进,本发明所述的步骤1)中,嵌入码级别条件变分自编码器是一个编码器-解码器架构的深度神经网络,包括提取器、编码器和解码器。
13.作为进一步地改进,本发明所述的嵌入码级别条件变分自编码器的具体工作流程分为预训练和生成两个阶段:
14.预训练阶段:
15.1)输入是多个说话人的语音数据,提取器将这些语音转换为频域的mfcc特征并通过tdnn层和resblock层学习语音的本地局部特征和上下文信息,然后采用statpooling层提取定长的声纹嵌入码并输入到编码器中;
16.2)编码器将目标说话人标签的one-hot编码y显式地调制到声纹嵌入码x中,然后通过多个降采样子块将声纹嵌入码x进行降维,再利用两个线性网络层建模其均值μ和标准差σ;根据变分推理的假设,编码器学习到的隐向量z符合高斯分布:可以通过重参数技巧从中采样出隐向量z:z=μ+σ

∈,其中∈为一个符合标准高斯分布的随机变量;
17.3)采样得到的隐向量z与目标说话人标签的one-hot编码y拼接后输入到解码器中,经过线性网络层变换后通过多个升采样子块重构新的嵌入码x';
18.4)最后,整个条件变分自编码器模型通过一个均方误差项和kl散度正则项进行训练:
[0019][0020]
其中,第一项限制输出嵌入码的重构偏差,第二项迫使隐空间近似高斯分布,参数β用于平衡嵌入码的重构质量和隐空间分布的连续性;
[0021]
生成阶段:
[0022]
通过预训练好的嵌入码级别条件变分自编码器,通过输入重构、隐空间采样和语义插值三种方式来生成多样化的目标说话人嵌入码。
[0023]
作为进一步地改进,本发明所述的步骤2)具体流程为:将用户源语音嵌入码看作负样例n,目标说话人嵌入码看作正样例p,而对抗样本作为待优化的锚样例a,三者形成一个三元组《a,p,n》,通过距离度量函数d(
·
)量化正负样例和锚样例在隐空间中的距离,并通过优化以下目标函数迫使锚样例偏移负样例而偏向正样例:
[0024][0025]
根据该目标函数,利用梯度下降方法进行迭代优化来生成最大程度接近目标说话人而远离源说话人的对抗扰动。
[0026]
作为进一步地改进,本发明所述的步骤3)的具体步骤为:
[0027]
1)将用户源语音x进行短时傅里叶变换并计算其对数幅度谱s
x

[0028]
2)对于对数幅度谱中的每一帧,寻具有局部最大声压级的频带作为掩蔽声并根据传播函数计算局部掩蔽阈值;
[0029]
3)将所有局部掩蔽阈值逐帧拼接得到全局掩蔽阈值谱h
x

[0030]
4)通过在目标函数中引入以下差额约束正则化进行听感限制:
[0031][0032]
其中s
δ
是对抗扰动的对数幅度谱,k限制扰动频谱和全局掩蔽阈值的最大差额,参数γ用于调节听阈限制的权重,通过该模块优化后的对抗扰动难以被人耳感知到,叠加到用户源语音上生成最终的对抗样本。
[0033]
本发明的有益效果如下:
[0034]
本发明构建了一个基于对抗样本的非侵入自适应说话人匿名系统,能够实现:
[0035]
1)任意对任意的说话人身份转换。本发明将原始用户的声纹信息隐藏在一目标说话人之中以自适应地躲避自动说话人辨认系统的身份检测。
[0036]
2)轻量化的说话人匿名方案。本发明通过预训练的条件变分自编码器按需采样目标嵌入码极大释放了实际部署的计算和存储资源需求,适用于移动和物联网语音设备。
[0037]
3)非侵入式的说话人匿名用户体验。本发明通过声学掩蔽效应优化不可听的对抗扰动能够有效减少说话人匿名带来的信号失真,保证文本内容的完整性和声纹的一致性以及良好的音频质量,实现非侵入的说话人匿名,进一步达到语音服务隐私和功用的平衡。
附图说明
[0038]
图1为本发明的系统框架图;
[0039]
图2为嵌入码级别条件变分自编码器网络结构图;
[0040]
图3为triplet优化示意图;
[0041]
图4为声学掩蔽效应示意图;
[0042]
图5为不同说话人对抗样本的主客观评价质量对比图;
[0043]
图6为不同攻击设定下的保护成功率对比图;
[0044]
图7为不同说话人识别模型上的迁移性对比图。
具体实施方式
[0045]
下面通过具体实施例对本发明的技术方案作进一步地说明:
[0046]
图1为本发明的系统框架图;整个系统涉及三大模块。首先,目标说话人的目标标签输入到多样目标说话人生成模块,摒弃预先收集说话人数据池的方法,转而设计一个嵌入码级别的条件变分自编码器来学习目标样本的分布,并从中按需采样感兴趣的目标说话人嵌入码以削弱资源依赖,甚至生成虚拟的伪说话人样本用于扰动构造。其次,用户源语音输入到任意对任意对抗扰动构造模块,采用triplet架构迭代式地构造扰动,在说话人隐空间中迫使对抗样本偏离原始语音而偏向不同的目标样本,从而将任意源说话人伪装成任意不同的目标说话人,增加自动说话人识别身份检测的难度。然后,在不可感知对抗扰动优化模块,应用声学掩蔽效应来优化扰动的不可感知性,通过将损失函数中的简单无穷范数正则化替换为听阈正则化,使得对抗扰动隐藏在不可听域以保留较高的语音质量。最终,通过以上模块生成的语音对抗样本经过自动说话人辨认会被识别为不同的目标说话人,而输入到自动语音识别系统时仍然输出正确的转录文本,同时在声纹、文本、音质方面保持良好的一致性。
[0047]
第一步,对于多样目标说话人生成模块。由于移动和物联网设备计算和存储资源有限,已有工作中预先收集目标说话人语音数据池的方法在实际部署中不可行。考虑到其强大的连续分布建模能力和语音表示学习能力,设计一个嵌入码级别的条件变分自编码器(cvae)作为多样化目标说话人生成器。图2为嵌入码级别条件变分自编码器网络结构图,首先通过一个预训练的声纹提取器在开源多说话人语料库上提取大量的说话人嵌入码,作为训练条件变分自编码器的数据集。在编码器-解码器架构中,将说话人标签的one-hot编码y显式地调制到编码器输入中,然后通过多个降采样子块将原始声纹嵌入码x进行降维,再利用两个线性网络层建模其均值μ和标准差σ。根据变分推理,假设隐向量z符合高斯分布:并通过重参数技巧从中采样出隐向量z:z=μ+σ

∈,其中∈为一个符合标准高斯分布的变量。之后,将该隐向量z与说话人标签的one-hot编码y拼接后输入到解码器中,经过线性网络层变换后通过多个升采样子块重构嵌入码x'。最后,整个生成模型通过一个均方误差项和kl散度正则项进行训练:
[0048][0049]
其中,第一项限制输出嵌入码的重构偏差,第二项迫使隐空间近似高斯分布。通过该预训练好的cvae,可以通过输入重构、隐空间采样甚至语义插值等多种方式来按需生成多样化的目标说话人嵌入码。
[0050]
第二步,对于任意对任意对抗扰动构造模块。由于模型梯度优化的惰性,传统的非定向和定向对抗扰动构造方式容易产生高度相似的对抗样本。为了生成多样化的对抗样本,采用度量学习的triplet架构进行迭代式的对抗扰动构造。图3为triplet优化示意图,将原始语音看作负样例n,目标语音看作正样例p,而对抗样本作为待优化的锚样例a,形成一个三元组《a,p,n》。通过d(
·
)量化正负样例和锚样例在隐空间中的距离,并迫使锚样例偏移负样例而偏向正样例,能够生成最大程度接近目标说话人而远离源说话人的对抗样本:
[0051]
[0052]
根据该目标函数,利用梯度下降方法进行迭代优化来获得相似于目标说话人嵌入码的对抗样本。一方面,这种输入相关的构造过程能够实现任意对任意的身份转换,从而允许任意原始用户伪装成一不同的目标说话人,进一步增加自动说话人辨认系统的身份检测难度。另一方面,不同的用户可以直接使用这套系统进行身份匿名而不需要额外的注册录入,从而提供用户友好的使用体验。
[0053]
第三步,对不可感知对抗扰动优化模块。简单的无穷范数正则化仅约束了对抗扰动的幅值,容易产生明显的高频分量。为了进一步减小对人耳听感的侵入性,引入声学掩蔽效应来优化不可听的对抗扰动。图4为声学掩蔽效应示意图,安静环境中的单音信号只有其声压级高于绝对听阈曲线才能被人耳感知到,此时该单音(掩蔽声)周围的听阈曲线将会扩展至更大的频带覆盖范围,结果使得其他邻近频带的低声压级信号(被掩蔽声)被淹没在不可听域中而不能被人耳感知到。基于这一原理,将对抗扰动视作原始语音听阈曲线之下的被掩蔽声以实现对抗扰动的不可感知性。首先,将原始语音x进行短时傅里叶变换并计算其对数幅度谱s
x
,对于频谱中的每一帧,寻具有局部最大声压级的频带作为掩蔽声并根据传播函数计算局部掩蔽阈值。将这些局部掩蔽阈值逐帧拼接就得到了全局掩蔽阈值谱h
x
,然后通过一个差额约束进行听感限制:
[0054][0055]
其中s
δ
是对抗扰动的对数幅度谱,k限制了扰动频谱和全局掩蔽阈值的最大差额。通过该约束,可以在优化过程中迫使对抗扰动落到掩蔽阈值之下从而对人耳不可听。
[0056]
为了验证本发明的有效性,在大规模语料库librispeech上进行实验,该语料库包含251个说话人的100小时英语语音,涵盖不同口音、职业和年龄。其中,每条语音长度在数秒到数十秒,采样率为16khz。随机选择50个说话人(25男和25女)作为用户,每人3条语句注册到自动说话人辨认系统中,而剩下的5413条语句用于测试自动说话人辨认系统的识别性能和构建对抗样本。此外,其他201个说话人用于预训练嵌入码级别的条件变分自编码器来生成目标说话人样本。实现了多个主流的说话人辨认模型作为目标系统,包括d-vector,deepspeaker,x-vector和ecapa-tdnn,这些模型具有不同的特征提取器、网络结构和参数设置。经过50个说话人的语句测试,四个说话人辨认系统的等错误率分别为8.05%、7.11%、5.42%和1.25%,体现了优良的识别性能。根据triplet损失函数和声学掩蔽约束,采用梯度下降方法优化对抗扰动,默认设置γ=0.1,k=0,α=0.1,学习率η=0.001。采用如下指标评估本发明的性能:
[0057]
1)匿名成功率(dsr):其中x和y分别为匿名成功的样本数和总体测试样本数,dsr越高匿名性能越好。
[0058]
2)词错误率(wer):其中n为语句的单词数,s、d和i分别为转录文本相比真实文本的替换、删除和插入词数目,wer越低语音识别结果越准确。
[0059]
3)平均意见分数(mos):一个人类主观评判音质的量化指标,数值范围在1至5之间,mos越高音质越好。
[0060]
4)音质感知评估(pesq):一个itu-t标准规定的客观音质评价指标,采用pesq mos-lqo映射到1.02至4.56之间的分数。
[0061]
5)实时比(rtr):其中t
p
和td分别为一段语音的处理时间和该语音的长度,rtr低于1被认为是实时的。
[0062]
说话人匿名的有效性和语音服务的可用性评估。随机采样不同的目标说话人嵌入码,在50个说话人的语料上针对每个说话人辨认系统生成了5413条对抗样本,然后分别输入到这些说话人辨认系统和一个端到端语音识别系统中进行测试。表1展示了本发明在最新说话人识别模型上的保护成功率和词错误率:
[0063]
表1本发明在最新说话人识别模型上的保护成功率和词错误率
[0064][0065]
可以看出本发明在四个说话人辨认系统上达到了96%至100%的dsr,且wer低于7.5%,证明了本发明欺骗说话人辨认系统进行身份匿名化的有效性以及对文本内容的影响较小。
[0066]
非侵入性评估。进行了主观和客观实验来评估本发明的非侵入性。在客观实验中,随机选取10个用户(4男6女)的1126条对抗样本进行pesq测试。在主观实验中,招募了30个志愿者(16男14女,18至35岁)来参加mos测试,每个志愿者听取200对原始语音和对抗样本然后记录二者在文本、声纹和音质方面的相似性评分。图5为不同说话人对抗样本的主客观评价质量对比图,可以看出本发明在所有用户的语音上达到了4.0以上的pesq评分,表明本发明的说话人匿名操作产生的信号失真较小。另外,文本、声纹和音质方面的mos平均分数分别为4.69,4.67和4.34,证明了本发明保留了文本完整性、声纹一致性以及良好感知音质。
[0067]
自适应性评估。在三种不同类型的攻击上验证本发明的自适应性,它们对于本发明的匿名机制具有不同程度的先验知识:1)不知情攻击:攻击者不知道本发明的匿名机制而直接在匿名化的语音上进行说话人辨认。2)半知情攻击:攻击者知道本发明的匿名机制但不清楚具体的参数配置和实现细节,因此试图通过一些信号处理手段(如带通滤波、重量化、重梅尔变换)破坏对抗扰动。3)知情攻击:攻击者完全了解本发明的匿名机制和具体实现,因此对注册集语音进行同样的匿名化处理以实现去匿名化。图6为不同攻击设定下的保护成功率对比图。相比于不知情攻击95%以上的dsr,半知情攻击下本发明在四个说话人辨认系统上的dsr平均只下降了7.42%,而在最难的知情攻击下本发明仍然在四个说话人辨认系统上分别保持着87.58%、91.66%、82.93%和86.38的dsr,体现出本发明面对半知情和知情攻击优秀的自适应性。
[0068]
迁移性评估。在未知的黑盒模型上验证本发明的迁移性。每次实验中在四个说话人辨认系统中选择一个作为替代模型,其余三个作为目标模型进行迁移实验,由此类推得到12组独立的迁移实验。图7为不同说话人识别模型上的迁移性对比图,可以看出本发明在不同替代模型和目标模型上的dsr在48.07%到85.03%之间,这是由于单个替代模型只能提供有限的知识用于模型迁移。因此,进一步应用集成学习增强对抗样本的泛化能力,即整合多个说话人辨认系统作为替代模型而留出一个作为目标模型进行迁移实验。表2展示了本发明集成学习后在最新说话人识别模型上的保护成功率和词错误率:
[0069]
表2本发明集成学习后在最新说话人识别模型上的保护成功率和词错误率
[0070][0071]
可以看出,本发明在四个集成学习迁移实验上的dsr分别增加到83.42%、79.75%、85.67%和92.43%,展现出了良好的迁移性能。除此之外,还在商业系统iflytek和microsoft azure上验证本发明的说话人匿名性能,通过http api访问这些商业系统进行用户注册和说话人辨认测试。每个实验中,10个说话人(5男5女)的3条语句注册到系统中,剩下的1100多条语句用于生成对抗样本。将四个说话人辨认系统全部作为替代模型进行集成学习,然后将生成的对抗样本直接迁移到商业系统进行测试。表3展示了本发明集成学习后在不同商业系统上的保护成功率:
[0072]
表3本发明集成学习后在不同商业系统上的保护成功率
[0073][0074]
可以看出iflytek和microsoft azure在正常语音上达到了2.16%和0%的等错误率,表现出了强大的说话人辨认性能。经过匿名化处理后,本发明在这两个商业系统上分别达到了71.02%和64.35%的dsr,证明了本发明面对商业系统的有效性。
[0075]
最后,还需要注意的是,以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形,本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

技术特征:


1.一种基于对抗样本的非侵入自适应说话人匿名系统,其特征在于,所述的系统包括多样目标说话人生成模块、任意对任意对抗扰动构造模块和不可感知对抗扰动优化模块,所述的多样目标说话人生成模块根据所输入的目标标签按需生成目标说话人嵌入码,所述的任意对任意对抗扰动构造模块根据所输入的目标说话人嵌入码构造对抗扰动,所述的不可感知对抗扰动优化模块进一步优化所输入的对抗扰动得到人耳不可感知的对抗扰动,所述的人耳不可感知的对抗扰动叠加到用户源语音上生成最终的对抗样本。2.一种基于对抗样本的非侵入自适应说话人匿名方法,其特征在于,所述方法包括如下步骤:1)多样目标说话人生成模块利用嵌入码级别条件变分自编码器学习说话人嵌入码的分布,根据目标说话人的目标标签在说话人隐空间中采样隐变量,并通过预训练的解码器生成目标说话人嵌入码;2)所得的目标说话人嵌入码,输入任意对任意对抗扰动构造模块,所述的任意对任意对抗扰动构造模块根据目标说话人嵌入码和输入其中的用户源语音嵌入码构建三元组,采用triplet架构迭代式地构造对抗扰动使得说话人隐空间中对抗样本偏向目标说话人而远离原始用户;3)所得的对抗扰动输入不可感知对抗扰动优化模块,应用声学掩蔽效应来优化扰动的不可感知性,通过使对抗扰动隐藏在不可听域来减少信号失真并保留较高的语音质量,得到人耳不可感知的对抗扰动;最终,通过以上步骤生成的对抗扰动叠加到用户源语音上形成对抗样本,该样本经过自动说话人辨认会被识别为不同的目标说话人,而输入到自动语音识别系统时仍然输出正确的转录文本,同时在声纹、文本、音质方面保持良好的一致性。3.根据权利要求2所述的基于对抗样本的非侵入自适应说话人匿名方法,其特征在于,所述的步骤1)中,所述的嵌入码级别条件变分自编码器是一个编码器-解码器架构的深度神经网络,包括提取器、编码器和解码器。4.根据权利要求3所述的基于对抗样本的非侵入自适应说话人匿名方法,其特征在于,所述的嵌入码级别条件变分自编码器的具体工作流程分为预训练和生成两个阶段:所述的预训练阶段:1)输入是多个说话人的语音数据,提取器将这些语音转换为频域的mfcc特征并通过tdnn层和resblock层学习语音的本地局部特征和上下文信息,然后采用statpooling层提取定长的声纹嵌入码并输入到编码器中;2)编码器将目标说话人标签的one-hot编码y显式地调制到声纹嵌入码x中,然后通过多个降采样子块将声纹嵌入码x进行降维,再利用两个线性网络层建模其均值μ和标准差σ;根据变分推理的假设,编码器学习到的隐向量z符合高斯分布:可以通过重参数技巧从中采样出隐向量z:z=μ+σ

∈,其中∈为一个符合标准高斯分布的随机变量;3)采样得到的隐向量z与目标说话人标签的one-hot编码y拼接后输入到解码器中,经过线性网络层变换后通过多个升采样子块重构新的嵌入码x

;4)最后,整个条件变分自编码器模型通过一个均方误差项和kl散度正则项进行训练:
其中,第一项限制输出嵌入码的重构偏差,第二项迫使隐空间近似高斯分布,参数β用于平衡嵌入码的重构质量和隐空间分布的连续性;所述的生成阶段:通过预训练好的嵌入码级别条件变分自编码器,通过输入重构、隐空间采样和语义插值三种方式来生成多样化的目标说话人嵌入码。5.根据权利要求2所述的基于对抗样本的非侵入自适应说话人匿名方法,其特征在于,所述的步骤2)具体流程为:将用户源语音嵌入码看作负样例n,目标说话人嵌入码看作正样例p,而对抗样本作为待优化的锚样例a,三者形成一个三元组<a,p,n>,通过距离度量函数d(
·
)量化正负样例和锚样例在隐空间中的距离,并通过优化以下目标函数迫使锚样例偏移负样例而偏向正样例:根据该目标函数,利用梯度下降方法进行迭代优化来生成最大程度接近目标说话人而远离源说话人的对抗扰动。6.根据权利要求2或4或5所述的基于对抗样本的非侵入自适应说话人匿名方法,其特征在于,所述的步骤3)的具体步骤为:1)将用户源语音x进行短时傅里叶变换并计算其对数幅度谱s
x
;2)对于对数幅度谱中的每一帧,寻具有局部最大声压级的频带作为掩蔽声并根据传播函数计算局部掩蔽阈值;3)将所有局部掩蔽阈值逐帧拼接得到全局掩蔽阈值谱h
x
;4)通过在目标函数中引入以下差额约束正则化进行听感限制:其中s
δ
是对抗扰动的对数幅度谱,k限制扰动频谱和全局掩蔽阈值的最大差额,参数γ用于调节听阈限制的权重,通过该模块优化后的对抗扰动难以被人耳感知到,叠加到用户源语音上生成最终的对抗样本。

技术总结


本发明公开了一种基于对抗样本的非侵入自适应说话人匿名系统及方法,系统包括多样目标说话人生成模块、任意对任意对抗扰动构造模块和不可感知对抗扰动优化模块,多样目标说话人生成模块根据所输入的目标标签按需生成目标说话人嵌入码,任意对任意对抗扰动构造模块根据所输入的目标说话人嵌入码构造对抗扰动,不可感知对抗扰动优化模块进一步优化所输入的对抗扰动得到人耳不可感知的对抗扰动。本发明可以实现任意对任意的说话人身份转换,将原始用户的声纹信息隐藏在一目标说话人之中以自适应地躲避自动说话人辨认系统的身份检测,通过预训练的条件变分自编码器按需采样目标嵌入码极大释放了实际部署的计算和存储资源需求。源需求。源需求。


技术研发人员:

ꢀ(74)专利代理机构

受保护的技术使用者:

浙江大学

技术研发日:

2022.04.21

技术公布日:

2022/7/29

本文发布于:2024-09-21 20:27:31,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/18629.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:说话   目标   语音   样本
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议