一种模糊耳语音的转换方法、系统及其装置



1.本发明属于语音信号处理领域,具体涉及一种模糊耳语音的转换方法、系统及其装置。


背景技术:



2.语音沟通是人区别于其它动物的一种独特的沟通方式;正常人发声主要需要通过腹腔、声带和气流和口腔等共同工作。语音中包含的音频信号的主要成分大致可分为由声带振动发声的浊音和由气流发声的清音。耳语音是语音沟通的一种特殊方式,例如人与人之间将悄悄话,或是在一些安静环境下进行低声交流就主要依赖非声带振动产生的音频,这种主要包含清音成分的发声方式产生的就是耳语音。
3.包含信息的的语音称为语言,人的语言类型会受到区域和习俗影响,不同国家和地区的人的语言之间不具有互通性,这给人与人之间的交流带来障碍。而语音识别技术可以对人的不同语音进行识别,转换为统一的语言或文本,进而降低人与人之间的沟通成本。随着语音识别技术的不断发展,小语言和方言也可以实现准确识别。耳语音作为一种特殊的语音沟通方式,在一些因疾病或遗传因素导致声带受损的人之间具有特殊的作用;耳语音使得这些人也可以进行正常交流。因此开发出专门的耳语音识别技术对提高这些人的沟通效率具有重要作用。
4.耳语音的发音原理是气流穿过半开声门后使得声腔产生声音信号,这种发音方式的能量较低,与自然语音相比,这类音频中通常缺少基频信号,可懂度和自然度都具有较大差异,因此很难被常规的语音识别系统识别。为了实现耳语音转化,需要为其开发专门的语音识别工具。目前,技术人员已经开发出基于不同原理的耳语音转换方法,这些技术方案可以在耳语音识别中产生较好的识别效果,识别效率和准确率也基本可以达到应用的要求。
5.但是,常规耳语音识别工具通常仅能针对清晰的耳语音进行识别。对于一些因疾病受损的人,如果声带、喉或者其他与语音发声相关的关节部分受到部分损伤;产生的音频可能并不单纯均靠气流发声,也不包括间歇的声带杂音,这些信号会对耳语音识别造成干扰,因此将包含复杂成分的耳语音成为模糊耳语音。同时,音频采集过程中的环境噪音也可能影响最终语音识别效果。由此可见,现有语音识别方案在针对成分复杂的模糊耳语音进行识别时,仍然存在识别准确率不足的问题。


技术实现要素:



6.为了解决现有的耳语音转化方法存在的对模糊耳语音识别准确率不足的问题,本发明提供的一种模糊耳语音的转换方法、系统及其装置。
7.本发明采用以下技术方案实现:
8.一种模糊耳语音的转换方法,该转换方法包括如下步骤:
9.s1:基于经典的生成对抗网络设计一个用于进行耳语音识别的改进型模型。生成对抗网络的改进如下:
10.s11:在生成对抗网络中增加一个梅尔滤波器组件作为预处理模块,预处理模块用于将音频信号的实际采样频率fs转换为梅尔频率fm;预处理模块的输出作为生成对抗网络的输入。
11.s12:在信号预处理模块前接一个信号优化模块;信号优化模块用于先按照预设周期对输入的信号进行分帧处理,然后再采用布莱克曼窗函数对分帧信号进行加窗处理。
12.s13:在生成对抗网络的生成器中,同时采用dtm算法和自注意力模块对生成的正常音进行特征对齐。其中,dtm算法用于对语音的显性特征进行对齐,自注意力模块用于对语音的隐形特征进行对齐。
13.s14:在判别器中增加相似度量模块,相似度量模块作为训练过程中判别器的第二损失函数。
14.s2:准备若干条清晰耳语音语料和模糊耳语音语料;分别构成仅包含清晰耳语音语料的第一训练集,仅包含模糊耳语音语料的第二训练集和测试集。
15.s3:设计一个音频合成模块,音频合成模块用于在输入的原始音频信号上叠加频谱范围在50-230hz的起伏噪声。
16.s4:采用训练集和测试集对改进型模型进行训练,训练过程如下:
17.s41:将训练过程分为两个阶段,两个阶段的学习率设置为0.0001-0.0002。设置正则化的hingleloss函数作为第一阶段生成对抗网络的损失函数,同时在第二阶段中,向判别器中引入第二损失函数。
18.s42:将第一训练集中的原始音频输入到音频合成模块中,叠加随机的起伏噪声后输入到改进型模型中进行第一阶段的训练;
19.s43:将第二训练集中的模糊耳语音输入到改进型模型进行第二阶段的训练。
20.s44:在训练结束后采用测试集对所述改进型模型进行测试,并根据测试结果作出如下决策:
21.(1)当测试结果满足预设的性能要求时,则保存改进型模型在训练阶段的参数,得到所需的耳语音转换模型。
22.(2)当测试结果满足预设的性能要求时,则采集新的语料对训练集和测试集进行更新,并基于更新后的数据集对改进型模型进行重新训练。
23.s5:利用耳语音转换模型对待转换的耳语音的音频进行识别,然后将识别出的多个梅尔频率的元音频进行拼接,并转换为所需的正常音的完整音频。
24.作为本发明进一步地改进,在步骤s11中,信号预处理模块的预处理过程如下:
[0025][0026]
上式中,m表示原始的耳语音信号;fs表示原始信号的采样频率;n表示傅里叶变换点数;fh和f
l
分别表示预设的滤波器频率的最大值和最小值;f
mel
(fs)表示原始信号的梅尔频率;f(m)表示原始信号的梅尔频谱的中心频率;m表示滤波器个数。
[0027]
作为本发明进一步地改进,步骤s12的分帧过程中,按照20-50ms的周期将整段的音频信号分为多个连续的语音帧,每个相邻的语音帧间还设置5-10%的重叠部分。
[0028]
作为本发明进一步地改进,步骤s12中布莱克曼窗函数的定义如下:
[0029][0030]
上式中,n表示窗函数的总长度,n∈n;m表示预设的窗函数的有效长度。
[0031]
作为本发明进一步地改进,步骤s14中,第二损失函数的表达式如下:
[0032][0033]
上式中,d(
·
)表示判别器,m
l
表示判别器的维数;c(x)表示第二训练集中的样本。
[0034]
作为本发明进一步地改进,步骤s41中,在训练过程的第一阶段,判别器的损失函数为:
[0035]
l
d1
=e[max(0,m-d(y))]+e[max(0,m-d(g(z))];
[0036]
上式中,e表示分布函数的期望值;d(y)表示判别器的输出;g(z)表示生成器的输出;m为预设的一个边界向量;max(a,b)表示一个求最大值函数。
[0037]
生成器的损失函数为:
[0038]
l
g1
=-e[d(g(z))]。
[0039]
作为本发明进一步地改进,在训练过程的第二阶段,判别器的损失函数为:
[0040]
l
d2
=l
d1
+λl
sim

[0041]
上式中,λ表示hingleloss函数和自注意力模块联合训练时的协调系数。
[0042]
生成器的损失函数为:
[0043]
l
g2
=l
g1

[0044]
作为本发明进一步地改进,步骤s44中,预设的性能要求指标包括短时客观可懂度stoi、语音质量感知评估pesq,以及梅尔频谱距离mcd或对数频谱距离lsd。其中stoi要求不低于0.5;pesq要求大于1.0;mcd和lsd分别低于7.0和1.3。
[0045]
本发明还包括一种模糊耳语音的转换系统,其用于对采集到的包含浊音和环境噪声的耳语音进行识别和转换,生成相应正常音的音频。该转换系统包括:样本采集模块、预处理模块、信号优化模块、骨干网络、音频合成模块、训练组织模块、后处理模块。
[0046]
其中,样本采集模块用于采集训练阶段或应用阶段的样本数据,并在训练阶段对采集的样本数据按照清晰耳语音和模糊耳语音进行分类保存,得到第一训练集和第二训练集。
[0047]
信号优化模块包括分帧单元和加窗单元。信号优化模块用于对输入的音频信号依次进行分帧处理和加窗处理。分帧单元用于将整段的音频信号分为多个语音帧,并保证相邻语音帧信号在数据上包含重合部分。加窗单元采用布莱克曼窗函数作为处理函数。
[0048]
预处理模块用于对输入的音频信号进行预处理,进而将音频信号的实际采样频率转换为梅尔频率。
[0049]
骨干网络采用经典的生成对抗网络,生成对抗网络包括生成器和判别器。生成对抗网络的生成器同时采用dtm算法和自注意力模块,二者分别基于显性特征和隐形特征对生成的语音片段进行特征对齐。判别器中增加相似度量模块,相似度量模块用于评估不同来源的语音信号的相似度,并作为训练过程中判别器的第二损失函数。训练完成后的骨干网络用于进模糊耳语音识别,在识别阶段,样本采集模块中待识别的模糊耳语音数据直接
经信号优化模块和预处理模块处理后输入到骨干网络;骨干网络输出识别出的各个连续的基于梅尔频谱的元音频。
[0050]
音频合成模块用于通过向耳语音信号中叠加频谱范围在50-230hz的起伏噪声实现耳语音信号的劣化处理,叠加起伏噪声后的信号作为训练过程第一阶段的输入样本。
[0051]
训练组织模块用于生成训练方案,对骨干网络进行两阶段训练;在第一阶段,先将第一训练集中清晰的耳语音数据输入音频合成模块中进行劣化处理,劣化后的样本数据依次经过预处理模块和信号优化模块处理,最终用于骨干网络训练。在第二阶段,将第二训练集中模糊的耳语音数据依次经信号优化模块和预处理模块处理,最终用于骨干网络训练。同时,在第一阶段采用正则化的hingleloss函数作为损失函数,在第二阶段,采用hingleloss函数和自注意力模块的第二损失函数对生成器进行联合训练;直到训练后的骨干网络满足预设训练指标的要求。
[0052]
后处理模块包括拼接单元和转换单元。拼接单元用于按照频谱中的重合部分将识别阶段由骨干网络输出的各个连续的元音频拼接成一个完整的音频信号,拼接后的音频信号为梅尔音频信号。转换单元用于将梅尔音频信号转换为正常语音的音频信号。
[0053]
本发明还包括一种模糊耳语音的转换装置,该语音转换装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序。转换装置按照前述的模糊耳语音的转换系统中的样本采集模块、预处理模块、信号优化模块、后处理模块以及完成训练的骨干网络进行等各个功能组件进行系统部署。并在处理器执行程序时实现如前述的模糊耳语音的转换方法的步骤。
[0054]
本发明提供的技术方案,具有如下有益效果:
[0055]
本发明针对模糊耳语音的的发音机理和音频特征设计了一个新的语音识别网络模型,语音识别网络模型以生成对抗网络为基础网络,并在生成对抗网络中引入自注意力模块和相似度量模块,相似度量模块提高生成对抗网络在训练阶段对模糊耳语音中隐含特征的学习能力,自注意力模块可以自适应地对模型训练过程中的耳语音和正常音进行隐形时间对齐。
[0056]
在耳语音识别网络的训练阶段,为了提高网络模型对模糊耳语音中音频特征的学习效果,本发明采用两阶段训练的方案对模型进行渐次训练。训练过程中首先将清晰耳语音进行劣化处理,作为第一阶段的训练样本,然后再采用模糊耳语音进行二阶段训练。采用这种训练方案既可以使得网络模型快速收敛,降低训练阶段的迭代次数;又可以增加网络模型的泛化性,使得网络模型对各类特殊模糊耳语音均表现出最佳的识别效果,提高耳语音转化的准确率。
附图说明
[0057]
图1为本发明实施例1中提供的一种模糊耳语音的转换方法的步骤流程图。
[0058]
图2为本发明实施例1中网络模型训练和应用过程的流程图。
[0059]
图3为本发明实施例1中提供的耳语音识别网络的整体框架示意图。
[0060]
图4为本发明实施例2中提供的一种模糊耳语音的转换系统的模型示意图。
具体实施方式
[0061]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0062]
实施例1
[0063]
模糊耳语音兼具正常声带发音和耳语音气流发音的特征,同时在音频信号中还包含了多种不同类型的随机噪声,因此识别难度要远高于清晰的耳语音和各类正常语音。
[0064]
针对模糊耳语音成分的特殊性质,本实施例基于生成对抗网络设计了一个新的语音识别模型,并根据拟识别的语音类型对网络模型的训练过程进行优化调整。通过生成对抗网络来自动学习模糊耳语音中的包含的各类特征,进而在模糊耳语音和正常音之间建立映射关系。
[0065]
如图1和图2所示,本实施例提供的模糊耳语音的转换方法包括如下步骤:
[0066]
s1:基于经典的生成对抗网络设计一个用于进行耳语音识别的改进型模型。生成对抗网络的改进如下:
[0067]
s11:在生成对抗网络中增加一个梅尔滤波器组件作为预处理模块,预处理模块用于将音频信号的实际采样频率fs转换为梅尔频率fm。并将预处理模块的输出作为生成对抗网络的输入。
[0068]
其中,信号预处理模块的预处理过程如下:
[0069][0070]
上式中,m表示原始的耳语音信号;fs表示原始信号的采样频率;n表示傅里叶变换点数;fh和f
l
分别表示预设的滤波器频率的最大值和最小值;f
mel
(fs)表示原始信号的梅尔频率;f(m)表示原始信号的梅尔频谱的中心频率;m表示滤波器个数。
[0071]
耳语音和正常音的发音机理存在明显差异,耳语音的激励源是噪声,因此耳语音无论是浊音段还是清音端都是完全不震动的。因此从声学特征上分析,耳语音的音频信号成分通常没有基频成分,或基频成分较少,并且信噪比和能量相对正常音都较低。另外,耳语音发音时需要大量气流,考虑到人的肺活量有限,因此耳语音的语速相对正常音会明显变慢,这导致耳语音的单音长会比正常音偏长。此外,耳语音的声道传函与正常音也存在差异,这使得音频信号中共振峰的带宽和位置也会发生偏移。因此为了更准确地分析耳语音的特征,便于网络模型从中学习到更深层的信息,本实施例首先将耳语音从正常的采样频率转换到梅尔频谱上。
[0072]
s12:在信号预处理模块前接一个信号优化模块;信号优化模块用于先按照预设周期对输入的信号进行分帧处理,然后再采用布莱克曼窗函数对分帧信号进行加窗处理。
[0073]
分帧过程中,按照20-50ms的周期将整段的音频信号分为多个连续的语音帧,每个相邻的语音帧间还设置5-10%的重叠部分。
[0074]
加窗处理采用的布莱克曼窗函数的定义如下:
[0075][0076]
上式中,n表示窗函数的总长度,n∈n;m表示预设的窗函数的有效长度。
[0077]
考虑到较长的频谱中包含的信息量过大,网络模型在特征学习可能会无法学习各个音节或语句包含频谱特征,因此本实施例通过分帧处理的是对网络模型中输入的单个音频的时长进行适当调整,调整的原则主要是保持与耳语音发音过程的音节长度相适应,保证不会破坏单音节自身的特征,又可以包含尽量多的连续音节的特征。
[0078]
特别地,为了便于在识别后期对模型的生成的正常音进行测试,以及对连续音频信号进行拼接,本实施例还在分帧处理中,为每个音频单元预留一端与前一个音频和后一个音频重合的部分,由于分帧处理是针对信号的时域进行操作的,从时域上看,重叠部分约占整个音频周期的5-10%。
[0079]
本实施例中采用布莱克曼窗函数对信号进行加窗处理,加窗处理过程中可以在保持峰值旁瓣比的条件下,增强信号的分辨率展宽,使得积分旁瓣比得到有效降低,进而有效消除音频信号中无效噪声的影响,提高网络模型对语音中隐含特征的学习能力。
[0080]
s13:在生成对抗网络的生成器中,同时采用dtm算法和自注意力模块对生成的正常音进行特征对齐。其中,dtm算法用于对语音的显性特征进行对齐,自注意力模块用于对语音的隐形特征进行对齐。
[0081]
s14:在判别器中增加相似度量模块,相似度量模块作为训练过程中判别器的第二损失函数。
[0082]
在生成对抗网络的学习过程中,主要是通过不断的训练使得生成器学习到源数据和生成数据之间关系,并在隐藏特征空间建立二者之间的映射,然后由判别器利用隐藏特征空间确定的抽象结构来区分真实数据和生成数据之间的差异。而相似度则用于衡量两类数据之间的相似性的指标。因此本实施例将计算相似度的相似度量模块引入到网络模型的训练过程,作为采用的另一个损失函数;可以在训练过程用于对生成对抗网络进行联合训练。
[0083]
第二损失函数的表达式如下:
[0084][0085]
上式中,d(
·
)表示判别器,m
l
表示判别器的维数;c(x)表示第二训练集中的样本。
[0086]
s2:准备若干条清晰耳语音语料和模糊耳语音语料;分别构成仅包含清晰耳语音语料的第一训练集,仅包含模糊耳语音语料的第二训练集和测试集。
[0087]
本实施例拟通过对网络模型进行两阶段训练,使得网络模型渐次学习到模糊耳语音素材与常规的清晰耳语音素材之间差异。因此分别采集清晰耳语音和模糊耳语音两种语料作为训练阶段采用的数据集。
[0088]
s3:设计一个音频合成模块,音频合成模块用于在输入的原始音频信号上叠加频谱范围在50-230hz的起伏噪声。
[0089]
在本实施例涉及的网络模型训练过程中,先采用音频合成模块对清晰耳语音进行劣化处理,使用劣化后的信号训练网络模型,可以使得显著增强模型的泛化性,提高模型对
叠加干扰后的耳语音信号的识别能力。事实上,劣化后的信号的复杂度仍然低于真实的模糊耳语音,因此本实施例在第一阶段训练的基础上,再进行第二阶段的训练,直到网络模型可以在模糊耳语音和正常音之间建立相对可靠的映射。
[0090]
本实施例提供的方案中从各类随机噪声中进行优选,并选定了对提高模型训练效率最有效的噪声信号。频谱范围在50-230hz的起伏噪声与模糊耳语音中包含的干扰型号最为相似,因此在第一阶段中采用该噪声类型能够使得网络模型学习到模糊耳语音中的主要信息。采用该随机噪声信号劣化后地音频信号进行第一阶段训练时,第一阶段训练和第二阶段训练的训练集数据规模约为(2-2.5):1。
[0091]
s4:采用训练集和测试集对改进型模型进行训练,在本实施例网络模型的训练阶段,考虑到不同阶段的训练目标不同,为了提升模型的训练效果,特别为不同阶段的训练任务设置不同的损失函数。其中,在第一阶段,仅采用hingleloss函数作为损失函数进行模型优化,而在第二阶段,进一步引入相似度函数进行联合训练。
[0092]
具体地,网络模型的训练过程如下:
[0093]
s41:将训练过程分为两个阶段,两个阶段的学习率设置为0.0001-0.0002。设置正则化的hingleloss函数作为第一阶段生成对抗网络的损失函数,同时在第二阶段中,向判别器中引入第二损失函数。
[0094]
在训练过程的第一阶段,判别器的损失函数为:
[0095]
l
d1
=e[max(0,m-d(y))]+e[max(0,m-d(g(z))];
[0096]
上式中,e表示分布函数的期望值;d(y)表示判别器的输出;g(z)表示生成器的输出;m为预设的一个边界向量;max(a,b)表示一个求最大值函数。
[0097]
生成器的损失函数为:
[0098]
l
g1
=-e[d(g(z))]。
[0099]
在训练过程的第二阶段,判别器的损失函数为:
[0100]
l
d2
=l
d1
+λl
sim

[0101]
上式中,λ表示hingleloss函数和自注意力模块联合训练时的协调系数。
[0102]
生成器的损失函数为:
[0103]
l
g2
=l
g1

[0104]
s42:将第一训练集中的原始音频输入到音频合成模块中,叠加随机的起伏噪声后输入到改进型模型中进行第一阶段的训练;
[0105]
s43:将第二训练集中的模糊耳语音输入到改进型模型进行第二阶段的训练。
[0106]
s44:在训练结束后采用测试集对改进型模型进行测试,并根据测试结果作出如下决策:
[0107]
(1)当测试结果满足预设的性能要求时,则保存改进型模型在训练阶段的参数,得到所需的耳语音转换模型。
[0108]
(2)当测试结果满足预设的性能要求时,则采集新的语料对训练集和测试集进行更新,并基于更新后的数据集对改进型模型进行重新训练。
[0109]
生成对抗网络的训练过程大致如图3所示。
[0110]
s5:利用耳语音转换模型对待转换的耳语音的音频进行识别,然后将识别出的多个梅尔频率的元音频进行拼接,并转换为所需的正常音的完整音频。
[0111]
特别地,本实施例预设的性能要求指标包括短时客观可懂度stoi、语音质量感知评估pesq,以及梅尔频谱距离mcd或对数频谱距离lsd。其中,stoi指标用于客观评估转换后语音可懂度,其取值范围在0-1之间,值越接近1表明转换语音的可懂度越高转换系统越好。pesq用于客观评价转换语音的质量,它的取值范围在0.5-4.5之间,值越大意味着转换语音的质量越高并越接近于正常音。mcd和lsd是两种常用的计算转换后语音频谱性能的评测指标,取值越低代表生成后的正常音和参考音的谱相似度越高。
[0112]
而对于本实施例设计的耳语音转换模型,stoi要求不低于0.5;pesq要求大于1.0;同时,mcd和lsd分别低于7.0和1.3;本实施例选择stoi和pesq作为评估模型性能的主要指标,mcd和lsd中的至少一个作为辅助指标。训练结束后,主要指标以及辅助指标中的至少一个均需要满足要求。
[0113]
性能测试
[0114]
在本实例中,为了证明实验结果的有效性,对比传统的语音转换方法gmm、blstm、cycle-gan和sequence-to-sequence,设置对照实验,来与本实施方案进行对比。上述方法的实验数据集与本实例所使用的数据集均相同,并且都采用了dtw算法对耳语音和生成音进行语音时间对齐处理。本实例方法在双端指标上与对照组客观评价指标如下表1所示:
[0115]
表1:各对比模型生成的正常音双端评价指标结果
[0116][0117]
从表1可以看出,本实例方法在耳语音到正常音转换的任务中在各项双端指标上均取得了不错的成绩。但是,由于耳语音发音的特殊性,耳语音的发音通常比正常音要慢,导致耳语音时间序列比正常音的时间序列要长。在计算双端指标值时需要提供参考语音,利用dtw算法将语音进行强制对齐,从而造成语音的失真。为了能够更加准确地对耳语音的转换效果进行评价,本实例同时采用p.563单端指标进行评估。p.563算法无需对语音进行强制对齐,能够模拟听众对语音质量进行评估。单端指标评估中,分别对比gmm、blstm、cycle-gan和sequence-to-sequence,结果如下表2所示。
[0118]
表2:各对比模型生成的正常音单端指标评价指标结果
[0119]
[0120]
从表2可以看出,本实例方法的单端指标超过传统的语音转换方法,取得了最高的分数,在p.563指标上评价结果已经非常接近正常音的结果。实验结果间接反映出我们的注意力机制和相似度损失相较于传统的dtw损失有较大的优势,能够最大程度的还原耳语音的特征。
[0121]
实施例2
[0122]
本实施提供一种模糊耳语音的转换系统,其用于采用如实施例1中的模糊耳语音的转换方法对采集到的包含浊音和环境噪声的耳语音进行识别和转换,生成相应正常音的音频。如图4所示,该耳语音转换系统包括:样本采集模块、预处理模块、信号优化模块、骨干网络、音频合成模块、训练组织模块、后处理模块。
[0123]
其中,样本采集模块用于采集训练阶段或应用阶段的样本数据,并在训练阶段对采集的样本数据按照清晰耳语音和模糊耳语音进行分类保存,得到第一训练集和第二训练集。
[0124]
信号优化模块包括分帧单元和加窗单元。信号优化模块用于对输入的音频信号依次进行分帧处理和加窗处理。分帧单元用于将整段的音频信号分为多个语音帧,并保证相邻语音帧信号在数据上包含重合部分。加窗单元采用布莱克曼窗函数作为处理函数。
[0125]
预处理模块用于对输入的音频信号进行预处理,进而将音频信号的实际采样频率转换为梅尔频率。
[0126]
骨干网络采用经典的生成对抗网络,生成对抗网络包括生成器和判别器。生成对抗网络的生成器同时采用dtm算法和自注意力模块,二者分别基于显性特征和隐形特征对生成的语音片段进行特征对齐。判别器中增加相似度量模块,相似度量模块用于评估不同来源的语音信号的相似度,并作为训练过程中判别器的第二损失函数。训练完成后的骨干网络用于进模糊耳语音识别,在识别阶段,样本采集模块中待识别的模糊耳语音数据直接经信号优化模块和预处理模块处理后输入到骨干网络;骨干网络输出识别出的各个连续的基于梅尔频谱的元音频。
[0127]
音频合成模块用于通过向耳语音信号中叠加频谱范围在50-230hz的起伏噪声实现耳语音信号的劣化处理,叠加起伏噪声后的信号作为训练过程第一阶段的输入样本。
[0128]
训练组织模块用于生成训练方案,对骨干网络进行两阶段训练;在第一阶段,先将第一训练集中清晰的耳语音数据输入音频合成模块中进行劣化处理,劣化后的样本数据依次经过预处理模块和信号优化模块处理,最终用于骨干网络训练。在第二阶段,将第二训练集中模糊的耳语音数据依次经信号优化模块和预处理模块处理,最终用于骨干网络训练。同时,在第一阶段采用正则化的hingleloss函数作为损失函数,在第二阶段,采用hingleloss函数和自注意力模块的第二损失函数对生成器进行联合训练;直到训练后的骨干网络满足预设训练指标的要求。
[0129]
后处理模块包括拼接单元和转换单元。拼接单元用于按照频谱中的重合部分将识别阶段由骨干网络输出的各个连续的元音频拼接成一个完整的音频信号,拼接后的音频信号为梅尔音频信号。转换单元用于将梅尔音频信号转换为正常语音的音频信号。
[0130]
实施例3
[0131]
在实施例1和2的基础上,本实施例进一步提供了一种模糊耳语音的转换装置,该语音转换装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程
序。转换装置按照实施例2中模糊耳语音的转换系统的样本采集模块、预处理模块、信号优化模块、后处理模块以及完成训练的骨干网络进行等各个功能组件进行系统部署。并在处理器执行程序时实现如前实施例1中的模糊耳语音的转换方法的步骤。
[0132]
该计算机设备可以是可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器、处理器。
[0133]
本实施例中,存储器(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,存储器还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外,存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0134]
处理器在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中,处理器用于运行存储器中存储的程序代码或者处理数据,以实现如实施例1中的将模糊耳语音转换为正常音的处理步骤。
[0135]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种模糊耳语音的转换方法,其特征在于,包括如下步骤:s1:基于经典的生成对抗网络设计一个用于进行耳语音识别的改进型模型,所述生成对抗网络的改进如下:s11:在所述生成对抗网络中增加一个梅尔滤波器组件作为预处理模块,所述预处理模块用于将音频信号的实际采样频率f
s
转换为梅尔频率f
m
;预处理模块的输出作为生成对抗网络的输入;s12:在所述信号预处理模块前接一个信号优化模块;所述信号优化模块用于先按照预设周期对输入的信号进行分帧处理,然后再采用布莱克曼窗函数对分帧信号进行加窗处理;s13:在生成对抗网络的生成器中,同时采用dtm算法和自注意力模块对生成的正常音进行特征对齐;其中,所述dtm算法用于对语音的显性特征进行对齐,所述自注意力模块用于对语音的隐形特征进行对齐;s14:在判别器中增加相似度量模块,相似度量模块作为训练过程中判别器的第二损失函数;s2:准备若干条清晰耳语音语料和模糊耳语音语料;分别构成仅包含清晰耳语音语料的第一训练集,仅包含模糊耳语音语料的第二训练集和测试集;s3:设计一个音频合成模块,所述音频合成模块用于在输入的原始音频信号上叠加频谱范围在50-230hz的起伏噪声;s4:采用训练集和测试集对所述改进型模型进行训练,训练过程如下:s41:将训练过程分为两个阶段,两个阶段的学习率设置为0.0001-0.0002;设置正则化的hingleloss函数作为第一阶段生成对抗网络的损失函数,同时在第二阶段中,向判别器中引入第二损失函数;s42:将所述第一训练集中的原始音频输入到音频合成模块中,叠加随机的起伏噪声后输入到所述改进型模型中进行第一阶段的训练;s43:将所述第二训练集中的模糊耳语音输入到所述改进型模型进行第二阶段的训练;s44:在训练结束后采用所述测试集对所述改进型模型进行测试,并根据测试结果作出如下决策:(1)当测试结果满足预设的性能要求时,则保存所述改进型模型在训练阶段的参数,得到所需的耳语音转换模型;(2)当测试结果满足预设的性能要求时,则采集新的语料对所述训练集和测试集进行更新,并基于更新后的数据集对所述改进型模型重新训练;s5:利用所述耳语音转换模型对待转换的耳语音的音频进行识别,然后将识别出的多个梅尔频率的元音频进行拼接,并转换为所需的正常音的完整音频。2.如权利要求1所述的模糊耳语音的转换方法,其特征在于:在步骤s11中,所述信号预处理模块的预处理过程如下:
上式中,m表示原始的耳语音信号;f
s
表示原始信号的采样频率;n表示傅里叶变换点数;f
h
和f
l
分别表示预设的滤波器频率的最大值和最小值;f
mel
(f
s
)表示原始信号的梅尔频率;f(m)表示原始信号的梅尔频谱的中心频率;m表示滤波器个数。3.如权利要求1所述的模糊耳语音的转换方法,其特征在于:步骤s12的分帧过程中,按照20-50ms的周期将整段的音频信号分为多个连续的语音帧,每个相邻的语音帧间还设置5-10%的重叠部分。4.如权利要求1所述的模糊耳语音的转换方法,其特征在于:步骤s12中所述布莱克曼窗函数的定义如下:上式中,n表示窗函数的总长度,n∈n;m表示预设的窗函数的有效长度。5.如权利要求1所述的模糊耳语音的转换方法,其特征在于:步骤s14中,所述第二损失函数的表达式如下:上式中,d(
·
)表示判别器,m
l
表示判别器的维数;c(x)表示第二训练集中的样本。6.如权利要求1所述的模糊耳语音的转换方法,其特征在于:步骤s41中,在训练过程的第一阶段,所述判别器的损失函数为:l
d1
=e[max(0,m-d(y))]+e[max(0,m-d(g(z))]上式中,e表示分布函数的期望值;d(y)表示判别器的输出;g(z)表示生成器的输出;m为预设的一个边界向量;max(a,b)表示一个求最大值函数;所述生成器的损失函数为:l
g1
=-e[d(g(z))]。7.如权利要求6所述的模糊耳语音的转换方法,其特征在于:在训练过程的第二阶段,所述判别器的损失函数为:l
d2
=l
d1
+λl
sim
上式中,λ表示hingleloss函数和自注意力模块联合训练时的协调系数;所述生成器的损失函数为:l
g2
=l
g1
。8.如权利要求1所述的模糊耳语音的转换方法,其特征在于:步骤s44中,预设的性能要求指标包括短时客观可懂度stoi、语音质量感知评估pesq,以及梅尔频谱距离mcd或对数频谱距离lsd;其中stoi要求不低于0.5;pesq要求大于1.0;mcd和lsd分别低于7.0和1.3。9.一种模糊耳语音的转换系统,其用于对采集到的包含浊音和环境噪声的耳语音进行识别和转换,生成相应正常音的音频;其特征在于,所述转换系统包括:样本采集模块,其用于采集训练阶段或应用阶段的样本数据,并在训练阶段对采集的样本数据按照清晰耳语音和模糊耳语音进行分类保存,得到第一训练集和第二训练集;信号优化模块,其包括分帧单元和加窗单元;所述信号优化模块用于对输入的音频信号依次进行分帧处理和加窗处理;所述分帧单元用于将整段的音频信号分为多个语音帧,
并保证相邻语音帧信号在数据上包含重合部分;所述加窗单元采用布莱克曼窗函数作为处理函数;预处理模块,其用于对信号优化模块输出的音频信号进行预处理,进而将音频信号的实际采样频率转换为梅尔频率;骨干网络,其采用经典的生成对抗网络,所述生成对抗网络包括生成器和判别器;所述生成对抗网络的生成器同时采用dtm算法和自注意力模块,二者分别基于显性特征和隐形特征对生成的语音片段进行特征对齐;所述判别器中增加相似度量模块,所述相似度量模块用于评估不同来源的语音信号的相似度,并作为训练过程中判别器的第二损失函数;训练完成后的骨干网络用于进模糊耳语音识别,在识别阶段,样本采集模块中待识别的模糊耳语音数据直接经信号优化模块和预处理模块处理后输入到骨干网络;所述骨干网络输出识别出的各个连续的基于梅尔频谱的元音频;音频合成模块,其用于通过向耳语音信号中叠加频谱范围在50-230hz的起伏噪声实现耳语音信号的劣化处理,叠加起伏噪声后的信号作为训练过程第一阶段的输入样本;训练组织模块,其用于生成训练方案,对所述骨干网络进行两阶段训练;在第一阶段,先将第一训练集中清晰的耳语音数据输入音频合成模块中进行劣化处理,劣化后的样本数据依次经过预处理模块和信号优化模块处理,最终用于骨干网络训练;在第二阶段,将第二训练集中模糊的耳语音数据依次经信号优化模块和预处理模块处理,最终用于骨干网络训练;同时,在第一阶段采用正则化的hingleloss函数作为损失函数,在第二阶段,采用hingleloss函数和自注意力模块的第二损失函数对生成器进行联合训练;直到训练后的骨干网络满足预设训练指标的要求;后处理模块,其包括拼接单元和转换单元;所述拼接单元用于按照频谱中的重合部分将识别阶段由骨干网络输出的各个连续的元音频拼接成一个完整的音频信号,拼接后的所述音频信号为梅尔音频信号;所述转换单元用于将梅尔音频信号转换为正常语音的音频信号。10.一种模糊耳语音的转换装置,其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述转换装置按照如权利要求9所述的模糊耳语音的转换系统中的样本采集模块、预处理模块、信号优化模块、后处理模块以及完成训练的骨干网络进行系统部署;并在所述处理器执行所述程序时实现如权利要求1至8中任意一项所述的模糊耳语音的转换方法的步骤。

技术总结


本发明属于语音信号处理领域,具体涉及一种模糊耳语音的转换方法、系统及其装置。该转换方法包括如下步骤:S1:基于经典的生成对抗网络设计一个用于进行耳语音识别的改进型模型。S2:准备清晰耳语音语料和模糊耳语音语料构成第一训练集、第二训练集和测试集。S3:设计一个音频合成模块。S4:采用训练集和测试集对改进型模型进行训练。S5:利用耳语音转换模型对耳语音进行识别,然后将识别出元音频进行拼接,并转换为所需的正常音的完整音频。转换系统包括:样本采集模块、预处理模块、信号优化模块、骨干网络、音频合成模块、训练组织模块、后处理模块。本发明解决了现有的耳语音转化方法存在的对模糊耳语音识别准确率不足的问题。存在的对模糊耳语音识别准确率不足的问题。存在的对模糊耳语音识别准确率不足的问题。


技术研发人员:

王世炎 蔡佳豪 程慧如 陶应智 周健

受保护的技术使用者:

安徽大学

技术研发日:

2022.08.05

技术公布日:

2022/10/25

本文发布于:2024-09-24 02:29:58,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/20777.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模块   信号   音频   函数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议