一种基于双任务的Conformer陆空通话声学模型构建方法


一种基于双任务的conformer陆空通话声学模型构建方法
技术领域
1.本技术涉及语音识别技术领域,尤其是涉及一种基于双任务的conformer陆空通话声学模型构建方法。


背景技术:



2.为确保航空器安全高效地运行,空中交通管制员和飞行员需要借助航空无线电进行陆空通话,清晰准确地理解双方的语音交互意图,并在航空用语规范性、内容完整性和复诵一致性等方面做出及时、客观、准确的判断,从而保证指令得到正确的传递和执行。管制员和飞行员之间只有正确理解了通话内容,才能使飞行安全得到保障。
3.陆空通话数据集是一种复述型数据集,首先管制员向飞行员发送管制命令,然后飞行员需要按照一定的规则向管制员复诵命令,这样的对话方式决定了陆空通话数据集具有明显的上下文长距离依赖的局部相似性特征的特点。目前语音识别在陆空通话领域的研究大多集中基于传统声学模型对陆空通话关键词的语音识别,语音识别的精确度较低,陆空通话的准确性较低。
4.针对上述相关技术,现有的声学模型具有语音识别的精确度较低,陆空通话的准确性较低的缺陷。


技术实现要素:



5.为了解决现有的声学模型语音识别的精确度较低,陆空通话的准确性较低的缺陷,本技术提供了一种基于双任务的conformer陆空通话声学模型构建方法。
6.本技术是通过以下技术方案得以实现的:一种基于双任务的conformer陆空通话声学模型构建方法,包括以下步骤:
7.建立陆空通话数据集;
8.提取出fbank特征并作为陆空通话语音信号的声学特征;
9.对所述声学特征进行数据扩充;
10.将cnn模型引入到transformer模型形成conformer模型;
11.基于扩充后的所述声学特征,使用ctc模型和las模型对conformer模型进行训练,形成基于ctc模型、las模型双任务的conformer陆空通话声学模型。
12.通过采用上述技术方案,陆空通话数据集属于复述型数据集,首先需构建符合民航陆空通话领域数据文音分布特点的陆空通话数据集,对构建的陆空通话数据集进行加重预处理,以提高其高频信号的分辨率及减少频率泄漏。从预处理后的陆空通话语音信号中提取出fbank特征可以将每一帧的时域信号转换到对应的频域信号。对数据进行扩充,最后使用数据增强后的声学特征构建ctc模型、las模型双任务的conformer陆空通话声学模型,通过将cnn模型引入到transformer模型中,形成conformer模型。transformer模型具有对长距离信息的建模能力,cnn模型能够捕捉局部性特征,通过transformer模型的长距离建模能力,将cnn捕捉到的局部相似性特征建立长距离的依赖,将数据集中的局部相似性特征
紧密联系在一起。再将ctc模型和las模型引入对conformer模型进行训练,ctc模型旨在自动学习帧级别声学特征输入序列和其对应标签输出序列之间多对一的对齐映射关系;las模型旨在模拟人类的听觉感知过程,本质上是一种基于注意力机制的编码-解码模型。语音识别可视为一个序列到序列问题,通过引入注意力机制,可以更好地实现声学特征序列和转录文本序列的对齐,结合conformer模型、ctc模型和las模型的优点,构建的基于ctc模型、las模型双任务的conformer陆空通话声学模型具有语音识别的精确度较高,提高了陆空通话的准确性的效果。
13.本技术在一较佳示例中可以进一步配置为:所述conformer模型的结构为:通过残差连接的第一前馈模块、自注意力模块、卷积模块和第二前馈模块,第二前馈模块还连接有归一化模块,conformer模型的计算公式如下:
[0014][0015][0016]
x
″i=x
′i+conv(x
′i)
[0017][0018]
其中xi为第一前馈模块的输入,yi为归一化模块的输出,ffn为前馈模块,mhsa为自注意力模块,conv为卷积模块,ln为归一化模块。
[0019]
通过采用上述技术方案,将cnn模型引入transformer模型形成conformer模型,自注意力模块捕捉长距离特征,卷积模块学习局部性特征,自注意力模块和卷积模块以三明治的方式结合起来,夹到一对前馈模块之间,四个模块之间通过残差连接,后面跟着归一化模块进行归一化。利用cnn模块捕捉局部性特征的能力和其在时域上的平移不变性的特性,通过transformer模型的长距离依赖将cnn捕捉到的相似特征联系在一起,conformer模型既能够学习到基于位置的局部性特征,也能学习到基于上下文的长距离特征。
[0020]
本技术在一较佳示例中可以进一步配置为:所述使用ctc模型和las模型对conformer模型进行训练包括:
[0021]
基于声学特征输入序列和对应的标签输出序列,计算所述输出序列的条件概率和对于任意可能路径πi的后验概率,进而计算ctc模型损失;
[0022]
基于声学特征输入序列和输出的转录文本序列,计算当前时间步的字符概率分布,进而计算las模型损失;
[0023]
以所述ctc模型损失和所述las模型损失的加权和计算联合损失。
[0024]
通过采用上述技术方案,为了进一步提升模型的性能,基于ctc模型和las模型的各自优势,将两个模型进行联合。ctc模型旨在自动学习帧级别声学特征输入序列和其对应标签输出序列之间多对一的对齐映射关系;las模型旨在模拟人类的听觉感知过程,本质上是一种基于注意力机制的编码-解码模型。语音识别可视为一个序列到序列问题,通过引入注意力机制,可以更好地实现声学特征序列和转录文本序列的对齐。基于双任务的conformer陆空通话声学模型的训练受益于ctc模型输入输出间单调性对齐学习方式的引入,其损失函数是两模型损失的加权和通过加权方式计算联合损失。
[0025]
本技术在一较佳示例中可以进一步配置为:所述以所述ctc模型损失和所述las模
型损失的加权和计算联合损失用以下公式计算:
[0026]
l
mtl
=λl
ctc
+(1-λ)l
las
[0027]
lctc=-ln(p(y|x))
[0028]
l
la
s=-ln(p(z|x))
[0029][0030]
其中l
mtl
为所述联合损失,l
ctc
为所述ctc模型损失,l
las
为所述las模型损失,λ是用于控制两任务权重的超参数,0≤λ≤1;x为所述声学特征输入序列,y为所述输出序列,z为所述转录文本序列;p(y|x)为给定输入序列x下,输出序列y的条件概率;p(z|x)为字符z
<i
和输入序列x的条件概率的累乘。
[0031]
通过采用上述技术方案,通过引入多任务的训练思想,将ctc目标函数作为额外训练任务,置于las模型的编码器模块之后,等效于ctc模型和las模型共享同一个编码器,解码阶段则根据各自的目标函数联合训练。基于双任务的conformer陆空通话声学模型的训练受益于ctc模型输入输出间单调性对齐学习方式的引入,其损失函数是两模型损失的加权和通过加权方式计算联合损失,联合损失即为基于双任务的conformer陆空通话声学模型的损失。
[0032]
本技术在一较佳示例中可以进一步配置为:所述p(y|x)的表达式包括:
[0033][0034][0035]
其中,多对一的映射表示任意可能路径πi经过合并连续重复字符再去掉空白符最终得到标签输出序列y的操作,即为输出序列y对应的全部可能路径集合,为所述ctc模型在t时刻输出预测标签的概率。
[0036]
通过采用上述技术方案,给定输入序列x下,输出序列y的条件概率为全部可能路径概率之和。
[0037]
本技术在一较佳示例中可以进一步配置为:所述p(y|x)的表达式包括:
[0038][0039]
对于输出序列y,通过在其首尾及各项之间插入∈(blank),扩展为长度为u

=2u+1的序列y

=(∈,y1,∈,y2,

,∈,yu,∈);其中,α(t,s)表示t时刻输出前缀子路径y

1:s
的概率和,β(t,s)表示t时刻输出后缀子路径y

s+1:u

的概率和。
[0040]
通过采用上述技术方案,方便对任意时刻输出标签求导计算梯度,进而实现神经网络的梯度回传及参数更新。
[0041]
本技术在一较佳示例中可以进一步配置为:所述提取fbank特征并作为陆空通话语音信号的声学特征前还进行以下操作:
[0042]
设置帧窗口大小为25ms,帧位移大小为10ms,将原始的陆空通话语音信号划分成固定长度的单帧陆空通话语音信号;
[0043]
对所述单帧陆空通话语音信号进行预加重处理;
[0044]
使用窗函数对所述单帧陆空通话语音信号进行加窗处理。
[0045]
通过采用上述技术方案,语音信号是一个非稳态的、时变的信号。但在短时间范围内可以认为语音信号是稳态的、时不变的。这个短时间一般取10-30ms,因此在进行语音信号处理时,为减少语音信号整体的非稳态、时变的影响,从而对语音信号进行分段处理,其中每一段称为一帧,一般帧长取25ms。为了使帧与帧之间平滑过渡,保持其连续性,一般分帧采用交叠分段的方法,保证相邻两帧之间相互重叠一部分。相邻两帧的起始位置的时间差称为帧移,一般使用的帧移大小为10ms;信号在传输过程中,高频信号更容易衰减,而像元音等一些因素的发音包含了较多的高频信号的成分,高频信号的丢失,可能会导致音素的共振峰并不明显,使得声学模型对这些音素的建模能力不强。预加重是个一阶高通滤波器,可以提高信号高频部分的能量。由于分帧后的信号是非周期的,进行fft变换之后会有频率泄露的问题发生,为了将这个泄漏误差减少到最小程度,需要使用加权函数,也叫窗函数。加窗处理主要是为了使时域信号似乎更好地满足fft处理的周期性要求,减少频率泄漏。
[0046]
本技术在一较佳示例中可以进一步配置为:所述从从预处理后的陆空通话语音信号中提取出fbank特征并作为陆空通话语音信号的声学特征包括以下步骤:
[0047]
对预处理后的每一帧陆空通话语音信号进行快速傅里叶变换,获得陆空通话语音信号在的频域表达,将得到的线性频率f转换为倒谱域的mel频率,公式如下:
[0048][0049]
在mel频谱范围内设置80个等带宽的三角状带通滤波器,然后将离散傅里叶变换之后的谱特征进行滤波,得到80个滤波器组能量,在进行log操作后,得到80维的fbank特征。
[0050]
通过采用上述技术方案,在经过上述的一系列的处理过程之后,我们得到的仍然是时域的信号,而时域中可直接获取的语音信息量较少。在进行进一步的语音信号特征提取时,还需要将每一帧的时域信号转换到对应的频域信号。对于存储在计算机上的语音信号,由于普通的离散傅里叶变换的计算复杂度较高,通常使用快速傅里叶变换将时域信号转换为频域信号,获得陆空通话中文语音信号在频域上的表达,即线性频率f,然后使用梅尔滤波器将线性频率转换为非线性分布的梅尔频率,公式如下:
[0051][0052]
在mel频谱范围内设置80个等带宽的三角状带通滤波器,然后将离散傅里叶变换之后的谱特征进行滤波,得到80个滤波器组能量,在进行log操作后,得到80维的fbank特征。
[0053]
本技术在一较佳示例中可以进一步配置为:对所述声学特征通过0.9倍和1.1倍速
度因子对原始数据集进行了变速。
[0054]
通过采用上述技术方案,使原始数据量扩充为3倍。
[0055]
本技术在一较佳示例中可以进一步配置为:所述建立陆空通话数据集的方法是:参考民航陆空通话实际录音数据以及相关课程教材,在一线民航空中交通管制员和陆空通话课程教员的指导下,构建语料库并选用接受过专业培训的空中管制专业人员在安静的环境下完成语料库的录音工作。
[0056]
通过采用上述技术方案,通过这种方式构建得到的陆空通话数据集,在通话内容、句法结构、语速控制、发音规则、用语标准等方面,符合民航陆空通话领域数据的文音分布特点。陆空通话数据集属于复述型数据集,即每段语音均由塔台空中交通管制员的管制指令和飞行员的复诵指令对串联组成,通过这种双重校验的方式,可以保证指令最终得到正确高效的执行。
[0057]
综上所述,本技术包括以下至少一种有益技术效果:
[0058]
1、陆空通话数据集是一种复述型数据集,在时域上具有明显的上下文长距离依赖的局部相似性特征。基于以上考虑本实施例中通过将cnn模块引入到transformer模型中,形成conformer模型,利用cnn模块捕捉局部性特征的能力和其在时域上的平移不变性的特性,通过transformer模型的长距离依赖将cnn捕捉到的局部相似性特征联系在一起;
[0059]
2、当对conformer模型加入ctc模型和las模型双任务训练之后,ctc模型旨在自动学习帧级别声学特征输入序列和其对应标签输出序列之间多对一的对齐映射关系;las模型旨在模拟人类的听觉感知过程,本质上是一种基于注意力机制的编码-解码模型;语音识别可视为一个序列到序列问题,通过引入注意力机制,可以更好地实现声学特征序列和转录文本序列的对齐;使conformer模型的性能得到了进一步提升,将字符错误率(character error rate,cer)和句错误率(sentenceerrorrate,ser)两项指标分别降到了1.98%和2.89%。
附图说明
[0060]
图1为本技术一个示例性实施例提供的基于双任务的conformer陆空通话声学模型训练流程图。
[0061]
图2为本技术一个示例性实施例提供的基于双任务的conformer陆空通话声学模型构建方法流程图。
[0062]
图3为本技术一个示例性实施例提供的conformer模型结构示意图。
具体实施方式
[0063]
以下结合附图1-3对本技术作进一步详细说明。
[0064]
本技术实施例公开一种基于双任务的conformer陆空通话声学模型构建方法。参照图2,基于双任务的conformer陆空通话声学模型构建方法包括以下步骤:
[0065]
建立陆空通话数据集;
[0066]
参考民航陆空通话实际录音数据以及相关课程教材,在一线民航空中交通管制员和陆空通话课程教员的指导下,构建语料库并选用接受过专业培训的空中管制专业人员在安静的环境下完成语料库的录音工作。
[0067]
本实施例中民航陆空通话数据集参照表一,数据存储格式是wav音频文件,每条录音的录音格式为采样频率16khz,比特率16bit,单声道。录制人数为17人,包含男性10人,女性7人。数据库总时长为1516分钟,语料库641条,共录制10971条语音。将整个数据集随机打乱,并按照7:1:2的比例划分为训练集、验证集和测试集,其中训练集、验证集、测试集的时长分别约1074分钟、142分钟、300分钟。
[0068]
表一
[0069][0070]
通过使用帧窗口大小为25ms,帧位移大小为10ms,来将原始的wav文件划分成固定长度的多个小片段;
[0071]
通过预加重来加强语音信号每一帧高频部分的信号,以提高其高频信号的分辨率;
[0072]
通过加窗操作使时域信号更好地满足快速傅里叶变换的周期性要求,减少频率泄漏。
[0073]
语音信号是一个非稳态的、时变的信号。但在短时间范围内可以认为语音信号是稳态的、时不变的。这个短时间一般取10-30ms,因此在进行语音信号处理时,为减少语音信号整体的非稳态、时变的影响,从而对语音信号进行分段处理,其中每一段称为一帧,一般帧长取25ms。为了使帧与帧之间平滑过渡,保持其连续性,一般分帧采用交叠分段的方法,保证相邻两帧之间相互重叠一部分。相邻两帧的起始位置的时间差称为帧移,一般使用的帧移大小为10ms;信号在传输过程中,高频信号更容易衰减,而像元音等一些因素的发音包含了较多的高频信号的成分,高频信号的丢失,可能会导致音素的共振峰并不明显,使得声学模型对这些音素的建模能力不强。预加重是个一阶高通滤波器,可以提高信号高频部分的能量;现实世界中,不可能采集时间从-∞到+∞的信号,只能是有限时间长度的信号。由于分帧后的信号是非周期的,进行fft变换之后会有频率泄露的问题发生,为了将这个泄漏误差减少到最小程度,需要使用加权函数,也叫窗函数。加窗主要是为了使时域信号似乎更好地满足fft处理的周期性要求,减少频率泄漏。
[0074]
提取fbank特征作为陆空通话语音信号的声学特征;
[0075]
在经过上述的一系列的处理过程之后,得到的仍然是时域信号,而时域信号中可直接获取的语音信息量较少。在进行进一步的语音信号特征提取时,还需要将每一帧的时域信号转换到对应的频域信号。对于存储在计算机上的语音信号,由于普通的离散傅里叶变换的计算复杂度较高,通常使用快速傅里叶变换将时域信号转换为频域信号,获得陆空通话中文语音信号在频域上的表达,即线性频率f,然后使用梅尔滤波器将线性频率转换为非线性分布的梅尔频率,公式如下:
[0076][0077]
在mel频谱范围内设置80个等带宽的三角状带通滤波器,然后将离散傅里叶变换之后的谱特征进行滤波,得到80个滤波器组能量,在进行log操作后,得到80维的fbank特征。
[0078]
对声学特征进行数据扩充;
[0079]
对声学特征通过0.9倍和1.1倍速度因子对原始数据集进行了变速。
[0080]
使原数据集的数据量扩大3倍。
[0081]
将cnn模型引入到transformer模型形成conformer模型;
[0082]
选取的帧窗口大小为25ms,帧位移大小为10ms,因此对于一段1s的音频信号,会产生100个声学特征,这样对于一段音频会产生过多的声学特征,而且相邻的帧与帧之间会存在重复的信息,所以在开始阶段会通过cnn模块对声学特征进行降维。接下来通过堆叠12个conformer模块对声学特征进行训练,用来产生隐层特征。conformer模型通过将cnn模块引入到transformer中,利用cnn模块对局部性特征的捕捉能力和其在时域上具有不变性的特性,利用transformer长距离的建模优势,将提取到的相似特征联系在一起,这样conformer模型既能利用局部特征,又能建立局部特征之间的关系。本实施例中的conformer模型的结构如图3所示,在第一前馈神经网络和第二前馈模块中间会添加一个自注意力模块和卷积模块,最后通过归一化模块进行归一化处理,前四个模块之间通过残差进行连接。conformer模型的计算公式如下:
[0083][0084][0085]
x
″i=x
′i+conv(x
′i)
[0086][0087]
基于扩充后的所述声学特征,使用ctc模型和las模型对conformer模型进行训练,形成基于ctc模型、las模型双任务的conformer陆空通话声学模型。
[0088]
陆空通话数据集是一种复述型数据集,在时域上具有明显的上下文长距离依赖的局部相似性特征。基于以上考虑本实施例中通过将cnn模块引入到transformer模型中,形成conformer模型,利用cnn模块捕捉局部性特征的能力和其在时域上的平移不变性的特性,通过transformer模型的长距离依赖将cnn捕捉到的局部相似性特征联系在一起;最后为了进一步提升模型的性能,结合ctc模型和las模型的各自优势,让conformer模型作为一个共享编码器,让las模型和ctc模型共享该编码器,通过将两个模型产生的损失加和来进行联合,参照图1,以此来建立基于双任务的conformer陆空通话声学模型。
[0089]
为了进一步提升模型性能,结合ctc模型和las模型的各自优势,将两个模型进行联合,形成了基于双任务的conformer陆空通话语音识别模型。
[0090]
ctc模型旨在自动学习帧级别声学特征输入序列和其对应标签输出序列之间多对一的对齐映射关系。ctc无需传统语音识别方法中预先提供帧层面的严格对齐标注信息,只需要由音素(phonemes)、音节(syllables)、字(characters)或词(words)等任意细粒度单
元组成的句子级别的标注,即可实现端对端的语音识别建模。
[0091]
假设x=(x1,x2,

,x
t
)为帧级别的声学特征输入序列,y=(y1,y2,

,yu)为其对应的标签输出序列,其中,t和u为输入和输出序列的长度。特别地,对于民航陆空通话语音识别任务,音频模态输入和文本模态输出之间具有显著的多对一关系,通常两序列长度相差至少一个数量级,且由于语速具有可调节性,两者比值不固定(t/u≈25)。
[0092]
由于无需预先提供严格的对齐信息,ctc模型需要考虑序列x和y之间全部可能的对齐路径,并最大化所有可能路径的标签序列概率分布之和,其中,第i种可能的路径可表示为其长度与输入序列长度一致。在实际应用中,上述对齐方式存在不足之处:每一帧的特征输入不一定都有对应输出;无法生成包含连续重复标签的输出序列。为了解决上述两个问题,ctc模型对原始字母表进行了扩充,将空白符“blank”引入到字母表中,用来表征无对应输出标签或连续重复标签间的间隔符,此时字母表l

=l∪{blank},则l

t
表示定义在l

上长度为t的全部可能路径序列集合。
[0093]
给定输入序列x下,输出序列y的条件概率为全部可能路径概率之和:
[0094][0095]
其中,多对一的映射表示任意可能路径πi经过合并连续重复字符再去掉空白符最终得到标签输出序列y的操作,即为输出序列y对应的全部可能路径集合。ctc要求输出序列的各个标签之间满足条件独立性假设,因此,对于任意可能路径,其后验概率可表示为各个时刻对应标签后验概率的累乘:
[0096][0097]
其中,表示模型在t时刻输出预测标签的概率。最终,ctc的损失函数可表示为输出序列y的条件概率的负对数似然:
[0098]
l
ctc
=-in(p(y]x))
[0099]
为了更为高效地计算上述ctc损失函数,可以基于动态规划思想实现ctc前向-后向算法。其主要思想是,如果两个对齐在相同的时间步到达相同的输出,则将其进行合并。对于输出标签序列y,通过在其首尾及各项之间插入∈(blank),可以扩展为长度为u'=2u+1的序列y

=(∈,y1,∈,y2,...,∈,yu,∈)以更好地描述算法。
[0100][0101]
其中,α(t,s)表示t时刻输出前缀子路径y

1:s
的概率和,β(t,s)表示t时刻输出后缀子路径ys′
+1:u

的概率和。由此方便对任意时刻输出标签求导计算梯度,进而实现神经网络的梯度回传及参数更新。
[0102]
区别于ctc模型在输出字符概率分布上满足的条件独立性假设,las模型旨在模拟人类的听觉感知过程,本质上是一种基于注意力机制的编码-解码模型。语音识别可视为一
个序列到序列问题,通过引入注意力机制,可以更好地实现声学特征序列和转录文本序列的对齐。
[0103]
假设x=(x1,x2,

,x
t
)为输入的声学特征序列,z=(z1,z2,

,zu,《eos》)为输出的转录文本序列,其中,xk为第k个声学特征,zi为输出的转录文本序列的第i个字符,《eos》为序列终止符。
[0104]
las模型存在两个组件:听觉感知器(listener)和拼写器(speller)。listener是一个声学特征编码器,通过listen操作将声学特征转换为高阶表示h=(h1,h2,

,hv),v≤t。
[0105]
h=listen(x)
[0106]
speller是一个基于注意力的字符解码器,通过attendandspell操作,根据先前产生的字符和高阶表征h,输出当前时间步的字符概率分布:
[0107]
p(zi|x,z
<i
)=attendandspell(z
<i
,)
[0108]
根据概率链式法则,las模型联合每个时间步输出字符zi,将其整体建模为先前字符z
<i
和输入声学特征x的条件概率的累乘:
[0109][0110]
las的损失函数可表示为:
[0111][0112]
对于ctc模型,其输出序列的后验概率满足条件独立性假设,导致符号间关联性建模相对较弱,需要语言模型作为额外约束以进一步提升性能。对于las模型,其数据驱动的对齐学习方式允许上下文长距离依赖关联建模,但由于缺少类似ctc中的单调性约束限制,导致对齐结果容易受到噪声干扰;此外,当序列长度越大时,基于注意力的模型复杂度越高,仅依靠数据驱动学习会增加训练难度。由此可知,尽管ctc和las模型在语音识别任务上各有千秋,但是两者各自学习到的信息存在互补性,具有联合优化的可能。因而,基于多任务学习思想,提出一种ctc-las联合模型,旨在兼容二者优点的同时,弥补彼此缺点,以此进一步提升模型性能。
[0113]
通过引入多任务的训练思想,将ctc目标函数作为额外训练任务,置于las模型的编码器模块之后,等效于ctc和las两种模型共享同一个编码器,解码阶段则根据各自的目标函数联合训练。整个模型的训练受益于ctc输入输出间单调性对齐学习方式的引入,其损失函数是两模型损失的加权和:
[0114]
l
mtl
=λl
ctc
+(1-λ)l
las
[0115]
其中,λ是用于控制两任务权重的超参数,0≤λ≤1。
[0116]
实验与分析。
[0117]
本实施例将字符作为基本建模单元,采用的评价指标为字符错误率(character error rate,cer)和句错误率(sentenceerrorrate,ser),两项指标的计算公式如公式和:
[0118]
[0119]
其中,i、s、d分别表示插入、替换、删除的字符个数,n表示真实标签的字符个数;
[0120][0121]
其中,f为转录错误的句子个数,m表示句子的总个数。
[0122]
conformer模型是在transformer模型的基础上添加了cnn模块得到的,为了验证添加的cnn模块的有效性,我们将transformer模型和conformer模型进行了对比分析,为了得到更好的字符错误率,对λ权重进行了实验,λ从λ=0开始,步长为0.1,直至λ=1结束,处理后的声学特征在相同配置的神经网络上进行训练识别,识别结果如表2λ权重性能对比所示,表3是对表2中的数据进行整理之后所得transformer模型和conformer模型的性能对比。
[0123]
表2
[0124][0125]
表3
[0126][0127][0128]
从表3中可以看出,加入cnn模型之后的conformer模型,不管是在ctc模型还是在las模型上,cer和ser指标都是优于transformer模型的,当我们在两个模型上同时使用双任务进行训练,两个模型的性能都得到了提升,但是双任务的conformer模型表现最好。实验证明了cnn模块的加入和双任务训练在陆空通话数据集上是有效的。
[0129]
本实施例根据陆空通话语音在时域上的上下文长距离依赖的局部相似性特点,提出了基于双任务的conformer陆空通话语音识别方法。通过transformer模型与conformer模型和单任务与多任务实验结果进行对比分析,实验证明conformer模型的性能是优于
transformer模型的,当对conformer模型加入ctc模型和las模型双任务训练之后,conformer模型的性能得到了进一步提升,本实施例将cer和ser指标分别降到了1.98%和2.89%。
[0130]
实施例的实施原理为:陆空通话数据集属于复述型数据集,首先需构建符合民航陆空通话领域数据文音分布特点的陆空通话数据集,对构建的陆空通话数据集进行预处理,以提高其高频信号的分辨率及减少频率泄漏。从预处理后的陆空通话语音信号中提取出fbank特征可以将每一帧的时域信号转换到对应的频域信号。对数据进行扩充,最后使用数据增强后的声学特征构建ctc模型、las模型双任务的conformer陆空通话声学模型,通过将cnn模型引入到transformer模型中,形成conformer模型。transformer模型具有对长距离信息的建模能力,cnn模型能够捕捉局部性特征,通过transformer模型的长距离建模能力,将cnn捕捉到的局部相似性特征建立长距离的依赖,将数据集中的局部性特征紧密联系在一起。ctc模型的对齐方式存在不足之处:每一帧的特征输入不一定都有对应输出;无法生成包含连续重复标签的输出序列。为了进一步提升模型的性能,解决ctc模型的对齐方式存在不足,基于ctc模型和las模型的各自优势,将两个模型进行联合。ctc模型旨在自动学习帧级别声学特征输入序列和其对应标签输出序列之间多对一的对齐映射关系;las模型旨在模拟人类的听觉感知过程,本质上是一种基于注意力机制的编码-解码模型。语音识别可视为一个序列到序列问题,通过引入注意力机制,可以更好地实现声学特征序列和转录文本序列的对齐。引入ctc模型和las模型,形成了基于双任务的conformer陆空通话中文语音识别模型。
[0131]
以上均为本技术的较佳实施例,并非依此限制本技术的保护范围,故:凡依本技术的结构、形状、原理所做的等效变化,均应涵盖于本技术的保护范围之内。

技术特征:


1.一种基于双任务的conformer陆空通话声学模型构建方法,其特征在于,包括以下步骤:建立陆空通话数据集;提取fbank特征并作为陆空通话语音信号的声学特征;对所述声学特征进行数据扩充;将cnn模型引入到transformer模型形成conformer模型;基于扩充后的所述声学特征,使用ctc模型和las模型对conformer模型进行训练,形成基于ctc模型、las模型双任务的conformer陆空通话声学模型。2.根据权利要求1所述的基于双任务的conformer陆空通话声学模型构建方法,其特征在于,所述conformer模型的结构为:通过残差连接的第一前馈模块、自注意力模块、卷积模块和第二前馈模块,第二前馈模块还连接有归一化模块;所述conformer模型的计算公式如下:下:x

i
=x

i
+conv(x

i
)其中x
i
为第一前馈模块的输入,y
i
为归一化模块的输出,ffn为前馈模块,mhsa为自注意力模块,conv为卷积模块,ln为归一化模块。3.根据权利要求1所述的基于双任务的conformer陆空通话声学模型构建方法,其特征在于,所述使用ctc模型和las模型对conformer模型进行训练包括:基于声学特征输入序列和对应的输出序列,对字母表进行扩充,并计算所述输出序列的条件概率和对于任意可能路径π
i
的后验概率,进而计算ctc模型损失;基于声学特征输入序列和输出的转录文本序列,计算当前时间步的字符概率分布,进而计算las模型损失;以所述ctc模型损失和所述las模型损失的加权和计算联合损失。4.根据权利要求3所述的基于双任务的conformer陆空通话声学模型构建方法,其特征在于,所述以所述ctc模型损失和所述las模型损失的加权和计算联合损失用以下公式计算:l
mtl
=λl
ctc
+(1-λ)l
las
l
ctc
=-ln(p(y|x))l
las
=-ln(p(z|x))其中l
mtl
为所述联合损失,l
ctc
为所述ctc模型损失,l
las
为所述las模型损失,λ是用于控制两任务权重的超参数,0≤λ≤1;x为所述声学特征输入序列,y为所述输出序列,z为所述转录文本序列,z
i
为所述转录文本序列的第i个字符,z
<i
为先前字符;p(y|x)为给定输入序
列x下,输出序列y的条件概率;p(z|x)为字符z
<i
和输入序列x的条件概率的累乘。5.根据权利要求4所述的基于双任务的conformer陆空通话声学模型构建方法,其特征在于,所述p(y|x)的表达式包括:在于,所述p(y|x)的表达式包括:其中,多对一的映射表示任意可能路径π
i
经过合并连续重复字符再去掉空白符最终得到标签输出序列y的操作,即为输出序列y对应的全部可能路径集合,为所述ctc模型在t时刻输出预测标签的概率。6.根据权利要求4所述的基于双任务的conformer陆空通话声学模型构建方法,其特征在于,所述p(y|x)的表达式包括:对于输出序列y,通过在其首尾及各项之间插入∈(blank),扩展为长度为u

=2u+1的序列y

=(∈,y1,∈,y2,...,∈,y
u
,∈);其中,α(t,s)表示t时刻输出前缀子路径y

1:s
的概率和,β(t,s)表示t时刻输出后缀子路径y

s+1:u

的概率和。7.根据权利要求1所述的基于双任务的conformer陆空通话声学模型构建方法,其特征在于,所述提取fbank特征并作为陆空通话语音信号的声学特征前还进行以下操作:设置帧窗口大小为25ms,帧位移大小为10ms,将原始的陆空通话语音信号划分成固定长度的单帧陆空通话语音信号;对所述单帧陆空通话语音信号进行预加重处理;使用窗函数对所述单帧陆空通话语音信号进行加窗处理。8.根据权利要求1所述的基于双任务的conformer陆空通话声学模型构建方法,其特征在于,所述提取fbank特征并作为陆空通话语音信号的声学特征包括:对预处理后的每一帧陆空通话语音信号进行快速傅里叶变换,获得陆空通话语音信号在的频域表达,将得到的线性频率f转换为倒谱域的mel频率,公式如下:在mel频谱范围内设置80个等带宽的三角状带通滤波器,然后将离散傅里叶变换之后的谱特征进行滤波,得到80个滤波器组能量,在进行log操作后,得到80维的fbank特征。9.根据权利要求1所述的基于双任务的conformer陆空通话声学模型构建方法,其特征在于,所述对所述声学特征进行数据扩充包括:对所述声学特征通过0.9倍和1.1倍速度因子对原始数据集进行变速。10.根据权利要求1所述的基于双任务的conformer陆空通话声学模型构建方法,其特
征在于,所述建立陆空通话数据集的方法是:参考民航陆空通话实际录音数据以及相关课程教材,在一线民航空中交通管制员和陆空通话课程教员的指导下,构建语料库并选用接受过专业培训的空中管制专业人员在安静的环境下完成语料库的录音工作。

技术总结


本申请涉及语音识别技术领域,公开了一种基于双任务的Conformer陆空通话声学模型构建方法,其包括以下步骤:建立陆空通话数据集;提取Fbank特征并作为陆空通话语音信号的声学特征;对声学特征进行数据扩充;将CNN模型引入到Transformer模型形成Conformer模型;基于扩充后的所述声学特征,使用CTC模型和LAS模型对Conformer模型进行训练,形成基于CTC模型、LAS模型双任务的Conformer陆空通话声学模型。本申请具有语音识别的精确度较高,提高了陆空通话的准确性的效果。话的准确性的效果。话的准确性的效果。


技术研发人员:

任晋 马广林 张海刚 师一华 杨金锋

受保护的技术使用者:

深圳职业技术学院

技术研发日:

2022.05.07

技术公布日:

2022/8/26

本文发布于:2024-09-24 16:36:11,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/27844.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   陆空   声学   序列
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议