一种基于Conformer建模的语音超分辨率方法[发明专利]

(19)国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202210210778.X
(22)申请日 2022.03.04
(71)申请人 江西理工大学
地址 341000 江西省赣州市红旗大道86号
(72)发明人 许春冬 朱诚 
(74)专利代理机构 温州知远专利代理事务所
(特殊普通合伙) 33262
专利代理师 汤时达
(51)Int.Cl.
G10L  21/007(2013.01)
G10L  25/30(2013.01)
(54)发明名称
一种基于Conformer建模的语音超分辨率方
(57)摘要
本发明公开了一种基于Conformer建模的语
音超分辨率方法,该方法包括:将语音重采样到
窄带带宽,经过快速傅里叶变换,转换到频域,截
去高频频谱部分,保留空白的高频频谱部分再进
行重采样得到与宽带语音采样率一致的窄带语
音以6:2:2的比例划分数据集为训练集,验证集
和测试集;将训练集的语音分帧后输入进卷积层
以提取其特征,并将提取的特征输入Conformer
声学模型进行迭代训练;将T ‑F  loss作为模型的
训练损失函数,使用Adam优化器进行优化;把固
定训练周期的模型在验证集上进行测试,以调节
模型超参数;将最终训练好的模型在测试集上进
行测试,以验证模型的最终性能。本发明可以有
效的提高语音或音乐信号的超分辨率,提高低分
率语音的整体音质。权利要求书2页  说明书5页  附图1页CN 114596869 A 2022.06.07
C N  114596869
A
1.一种基于Conformer建模的语音超分辨率方法,其特征在于,包括以下步骤:
S1、将语音信号进行预处理,将语音信号进行分帧加窗处理,分为帧长为20ms ,帧移为10ms统一长度的短时语音,窗口采用“汉明窗”;
S2、对S1中处理后的语音信号进行重采样,分别得到低分辨率的窄带语音信号和高分辨率的目标语音信号;
S3、划分数据集为互不相关的训练集,验证集和测试集;
S 4、将训练集中的数据输入3层编码器模块削减特征维度,将提取的特征输入Conformer模型进行特
征学习直至达到最优效果,最后输入解码器模块进行音频还原;
S5、将T ‑F  loss作为模型的训练损失函数,使用Adam优化器进行优化;
S6、将固定训练周期的模型在验证集上进行测试,以调节模型超参数;
S7、将最终训练好的模型在测试集上进行测试,以验证模型的最终性能。
2.如权利要求1所述的一种基于Conformer建模的语音超分辨率方法,其特征在于,所述步骤S1具体包括:
S11、对信号进行分帧处理:
fn=(N ‑overlap)/inc=(N ‑w+inc)/inc=(N ‑w)/inc+1
其中,数据长度为N,采样频率为fn,取每帧长为w,后一帧对前一帧的位移量用inc表示,相邻两帧之间的重叠部分为overlap=w ‑inc,
S12、对S11中得到的帧长20ms ,帧移为10ms的语音信号使用汉明窗进行分析:
3.如权利要求1所述的一种基于Conformer建模的语音超分辨率方法,其特征在于,所述的Conformer由N个编码器模块串联而成,单一的编码器模块由两个带有残差结构的前馈
层模块,多头自注意力机制模块,
卷积模块、Layernorm模块组成,前馈模块中使用了半步残差权重,第二个前馈模块之后是最后的层归一化层,对于编码器i的输入xi,模块的输出yi 是:
x ″i =x ′i +Conv(x ′i )
4.如权利要求3所述的一种基于Conformer建模的语音超分辨率方法,其特征在于,所述的前馈层模块,具体包括:两个全连接层,一个Layernorm和Swish  Activation激活函数;
Swish  Activation具体表示为:
f(x)=x ·sigmoid(βx)
其中,当β=0时,Swish变为线性函数
β→0,σ(x)=(1+exp(‑x))‑1为0或
1.Swish变为ReLU:f(x)=2max(0,x)。
5.如权利要求3所述的一种基于Conformer建模的语音超分辨率方法,其特征在于,所述的多头自注意力机制模块,具体包括:一个Layernorm模块和具有相对位置嵌入式的多头注意机制。
6.如权利要求3所述的一种基于Conformer建模的语音超分辨率方法,其特征在于,所述的卷积模块,具体依次包括:一个扩张系数为2的Pointwise卷积、GLU激活层的通道数、一维Depthwise卷积、BatchNorm层、Swish Activation激活函数。
7.如权利要求3所述的一种基于Conformer建模的语音超分辨率方法,其特征在于,所述的Layernorm模块,其特征在于:
其中H表示层中隐藏单元的数量,其中是第l层的第i个隐藏单元加权输入的归一化值。
8.如权利要求1所述的一种基于Conformer建模的语音超分辨率方法,其特征在于,所述步骤S5具体包括:
S51、时域损失函数定义为:
其中,为均方根误差函数,y(n)为宽带语音,为重构宽带语音,N为每一帧的长度;
S52、频域损失函数定义为:
其中,为平均绝对误差,l和k分别表示语音帧的索引和频率的索引,L,K分别表示语音频率点数和总帧数;
S53、应用时域损失和频域损失的线性组合,形成最终的T‑F损失函数如下:
一种基于Conformer建模的语音超分辨率方法
技术领域
[0001]本发明涉及语音信号处理中的语音超分辨率领域。尤其涉及一种基于Conformer 建模的语音超分辨率方法。
背景技术
[0002]因公共交换电话网络(PSTN)的信道带宽和成本的限制,以及语音采集设备、编码方式等诸多原因,语音在通信中的带宽大多分布在300~3400Hz,缺失了语音高频部分,使得语音低沉,缺乏表现力,影响到语音的可辨别度,导致说话人音存在偏差,严重影响了听觉感受。
[0003]语音超分辨率技术旨在重建一个以较低分辨率波形作为输入的高分辨率音频波形,能够提高语音在通话中的质量,而且有助于提升语音识别、说话人识别、语音合成和语音增强等系统性能。
[0004]语音超分辨率技术可以使用到音乐中,能够提供更优的音质体验,扩大用户的主观体验。特别针对曲库中存在一定量频谱高度过低的歌曲,音乐超分辨率技术可基于低频带生成高频带信号,使音频包含更多的信号分量。
[0005]语音超分辨率技术也可用于硬件设备领域,能够降低耳机以及蓝牙等设备对音频信号的失真,可以极大的提高音频质量和用户的感受体验。
[0006]对听力受损的人,特别是助听器和人工耳蜗(CI)使用者,通过人为地扩展语音的标准带宽,增强音频的高频部分,也能够提高语音对CI用户的可读性。
[0007]常见的语音超分辨率技术有源‑滤波器模型,将宽带语音生成任务简化分为激励信号生成和用于描述声道模型的谱包络估计,根据算法的历史迭代,有码本映射、线性映射、统计模型等。随着近几
年深度学习的兴起,众多深层神经网络如全连接神经网络、卷积神经网络以及循环神经网络被应用到了语音超分辨率领域,重构的宽带语音质量使得大幅提升。
[0008]Transformer作为一种深度学习模型已被广泛验证在语音模型领域的表现比以RNN为基础的模型好,但同时Transformer也表现出了一定的局限性,其提取细粒度的局部特征图案的能力较弱。Transformer模型擅长捕获基于内容的全局交互,而CNN则有效地利用了局部特征。因此结合CNN和Transformer的Conformer应运而生,在语音识别领域达到了较好的识别效果。
发明内容
[0009]本发明的目的旨在克服现有的语音超分辨率精度不高、对高频部分的还原度不够等缺陷,利用Conformer在语音识别领域的优势,提出了一种基于Conformer建模的语音超分辨率方法,为语音修复、语音识别提供技术支持。本发明的技术方案如下:
[0010]一种基于Conformer建模的语音超分辨率方法,其包括以下步骤:
[0011]S1、将语音信号进行预处理,将语音信号进行分帧加窗处理,分为帧长为20ms,帧
移为10ms统一长度的短时语音,窗口采用“汉明窗”;
[0012]S2、对S1中处理后的语音信号进行重采样,得到窄带语音以及高分辨率目标语音;[0013]S3、划分数据集为互不相关的训练集,验证集和测试集;
[0014]S4、将训练集中的数据输入3层编码器模块削减特征维度,将提取的特征输入Conformer模型进行特征学习直至达到最优效果,最后输入解码器模块进行音频还原;[0015]S5、将T‑F loss作为模型的训练损失函数,使用Adam优化器进行优化;
[0016]S6、将固定训练周期的模型在验证集上进行测试,以调节模型超参数;
[0017]S7、将最终训练好的模型在测试集上进行测试,以验证模型的最终性能。[0018]进一步的,所述步骤S1具体包括:
[0019]S11、对信号进行分帧处理:
[0020]fn=(N‑overlap)/inc=(N‑w+inc)/inc=(N‑w)/inc+1
[0021]其中,数据长度为N,采样频率为fn,取每帧长为w,后一帧对前一帧的位移量(简称为帧移)用inc表示,相邻两帧之间的重叠部分为overlap=w‑inc。
[0022]S12、对S11中得到的帧长20ms,帧移为10ms的语音信号使用汉明窗进行分析:
[0023]
[0024]进一步的,所述步骤S2具体包括:
[0025]使用对语音信号进行重采样,采样频率为,将包含低频和高频的语音信号分离。[0026]进一步的,所述步骤S3具体包括:
[0027]以6:2:2的比例划分数据集为训练集,验证集和测试集用于测试模型的性能。[0028]进一步的,所述步骤S4具体包括:
[0029]将训练集中的数据输入3层卷积层和一层全连接层削减特征维度,将卷积提取的特征输入Conformer模型进行特征学习。
[0030]进一步的,Conformer模型由N个编码器模块串联而成。单一的编码器模块由两个带有残差结构的前馈层(FFN)模块,多头自注意力机制模块(MHSA),卷积模块、Layernorm模块组成。
[0031]前馈模块中使用了半步残差权重。第二个前馈模块之后是最后的Layernorm模块。[0032]对于编
码器i的输入xi,模块的输出yi是:
[0033]
[0034]
[0035]
[0036]
[0037]进一步的,前馈层(FFN)模块具体包括:两个全连接层,一个Layernorm和Swish Activation激活函数。
[0038]Swish Activation具体表示为:

本文发布于:2024-09-20 13:39:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/739531.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   模型   进行   模块
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议