一种基于UNET架构的语音带宽扩展方法


一种基于unet架构的语音带宽扩展方法
技术领域
1.本发明涉及音频处理技术领域,具体涉及一种基于unet架构的语音带宽扩展方法。


背景技术:



2.语音作为信息传播的一种载体,是现代社会最常用的通信媒介。人耳听觉频率范围通常在20-20khz,语音信号根据频带大小通常分为:窄带音质(300hz-3.4khz)、宽带音质(50hz-7khz)、超宽带音质(50hz-14khz)、全带音质(20hz-20khz)。语音信号高频成分越丰富,其听觉明亮度和透明度越高,听觉感知效果越好。
3.因受网络带宽的限制,通常语音会以窄带形式传输,但这降低了语音质量。带宽扩展技术是将窄带信号中丢失的高频成分通过一定的技术手段恢复出来,达到提高语音质量的目的。传统语音带宽扩展技术大多采用源滤波器模型,利用高低频相关性,扩展语音高频包络和激励信号,通过线性预测方法合成高频信号。但这种方法在高低频相关性变弱时,重建音质急剧下降。近年来,受益于深度神经网络强大的建模能力,基于深度神经网络的语音带宽扩展技术成为主流方法。unet架构下的网络模型主要由下采样块、瓶颈层和上采样块构成,在下采样过程中通过卷积来降低特征的尺寸,提取浅层特征,在上采样过程中通过反卷积等操作来恢复原始特征的信息,unet架构在图像超分辨率中取得的良好效果,2017年斯坦福大学在论文《audio super resolution with neural networks》中将unet框架用于语音带宽扩展也获得了较好高频重建音质。但unet架构因网络模型参数量过多导致高频信号恢复时间复杂度增加,从而限制了其实时应用。


技术实现要素:



4.为了克服现有技术的不足,本发明的提出一种基于unet架构的语音带宽扩展方法,通过改进unet框架中的上采样模块和下采样模块处理过程,降低模型参数,通过在瓶颈层中引入通道注意力模型增强语音特征,减少模型参数量的同时又能确保高频重建音质。
5.本发明为实现上述目的,所采用的技术方案是:一种基于unet架构的语音带宽扩展方法,该方法包括以下步骤:
6.1)建立语音带宽扩展模型,包括下采样模块、上采样模块、跨通道特征增强模块,其中,下采样模块包括浅层特征提取模块、浅层特征增强模块、特征自生成扩展模块,浅层特征提取模块将原始数据进行升维提取出原始数据的浅层特征,浅层特征增强模块将浅层特征进行增强,特征自生成扩展模块将增强后的特征维度通过线性计算扩展至两倍,跨通道特征增强模块补充特征通道间的关系;上采样模块包括特征自生成信号恢复模块,将特征信息进行恢复,通过特征自生成信号恢复模块对输入的特征通道数压缩降维,再通过线性计算生成增强特征,降维特征与增强特征堆叠来达到信息恢复;
7.2)采用所述语音带宽扩展模型对待扩展窄带语音进行处理,基于已有低频语音重建语音的高频部分。
8.进一步的,所述步骤2)具体为,
9.s1:下采样模块中的浅层特征提取模块将预处理后的一维信号通过三个卷积层的卷积操作,逐步将数据升维,提取出浅层特征;
10.s2:下采样模块中的浅层特征增强模块对提取出的浅层特征进行增强操作,并输出;
11.s3:下采样模块中的特征自生成扩展模块将s2中增强的特征经过卷积运算生成特征,该特征经过线性运算,生成一个维度大小相同的特征,二者堆叠成一个新的特征,堆叠成新的特征重复上述增强操作,进行深层特征提取;
12.s4:跨通道特征增强模块对s3中线性运算生成的特征输出,利用线性变换实现特征自生成扩展,这个过程降低了参数量,减少了计算量,作为代价,舍弃了特征之间的部分跨通道信息,跨通道特征增强模块将弥补步s3中所丢失的信息;
13.s5:上采样模块中的特征自生成信号恢复模块进行重建音频信号,神经网络训练模型的主要参数计算集中在此模块中,包括以下步骤:特征自生成信号恢复模块对跨通道特征增强模块输出的特征做四分之一的特征通道数压缩后,再进行线性计算依次生成自身三倍的特征,最后将生成的特征与压缩特征进行堆叠生成最终特征,最终特征再通过亚像素卷积的反卷积方式进行上采样,进而达到信号恢复的目的,通过四个特征自生成信号恢复模块对信号特征进行处理,最终达到重建音频信号。
14.进一步的,所述浅层特征提取模块由三个普通卷积层组成,三个普通卷积层参数设置如下:卷积核数量分别为64、128、256,对应的卷积核长度分别为65、65、33,卷积步长均为2,每一个卷积层后加一层最大池化层和relu激活函数。原始的一维信号经过这一模块特征提取后,生成256维的特征。这一步骤主要目的是提取原始输入数据的浅层特征,通过逐步扩大卷积核数量,减小卷积核长度来尽可能的避免原始数据中重要信息的丢失。
15.进一步的,所述对提取出的浅层特征进行增强操作具体为:首先对输入进来的特征记录其通道数,通过一系列卷积变换后得到具有新特征通道数,进行全局平均池化,每个通道的信息压缩成一个标量,并将整个通道的信息记录,这样就可以通过用一维参数来表示全局的视野;
16.整个通道的信息经过全连接层fc1-激活函数relu-全连接层fc2-sigmoid函数得到新特征通道数的参数,作为通道的权重。再将首先输入进来的特征中每个元素乘以对应通道的权重,得到新的特征,即重构了首先输入进来的特征通道间的相关性,从而对浅层特征进行了加强。
17.进一步的,所述特征自生成扩展模块具体为两个:为了减少在提取深层特征时产生的巨大参数量和计算量,用两个特征自生成扩展模块替代传统的卷积层来进行深层特征的提取,将增强后的特征维度通过线性计算扩展至两倍。
18.进一步的,所述s5的具体过程为:s5.1,s4跨通道特征增强输出特征为上采样中中特征自生成信号恢复模块的输入特征,首先使用一个卷积核数量为256,卷积核长度为9的卷积层对输入特征进行降维,得到一个256维的特征浓缩,对特征浓缩作分离卷积操作生成兄弟特征块一,对兄弟特征块作分离卷积操作生成兄弟特征块二,对兄弟特征块二作分离卷积操作生成兄弟特征块三,将特征浓缩、兄弟特征块一、兄弟特征块二和兄弟特征块三进行叠加操作生成1024维的特征,最后经过一维亚像素卷积输出;
19.s5.2:s5.1中的1024维的输出特征输入特征自生成信号恢复模块,首先使用一个卷积核数量为256,卷积核长度为17的卷积层对该输入特征进行降维,得到一个256维的特征浓缩,对特征浓缩作分离卷积操作生成兄弟特征块一,对兄弟特征块作分离卷积操作生成兄弟特征块二,对兄弟特征块二作分离卷积操作生成兄弟特征块三,将特征浓缩、兄弟特征块一、兄弟特征块二和兄弟特征块三进行叠加操作生成1024维的特征,最后经过一维亚像素卷积输出;
20.s5.3:s5.2中的1024维的输出特征输入特征自生成信号恢复模块,首先使用一个卷积核数量为128,卷积核长度为33的卷积层对该步骤的输入特征进行降维,得到一个128维的特征浓缩,对特征浓缩作分离卷积操作生成兄弟特征块一,对兄弟特征块作分离卷积操作生成兄弟特征块二,对兄弟特征块二作分离卷积操作生成兄弟特征块三,将特征浓缩、兄弟特征块一、兄弟特征块二和兄弟特征块三进行叠加操作生成512维的特征,最后经过一维亚像素卷积输出;
21.s5.4:s5.3中的512维的输出特征输入特征自生成信号恢复模块,首先使用一个卷积核数量为64,卷积核长度为65的卷积层对该步骤的输入特征进行降维,得到一个64维的特征浓缩,对特征浓缩作分离卷积操作生成兄弟特征块一,对兄弟特征块作分离卷积操作生成兄弟特征块二,对兄弟特征块二作分离卷积操作生成兄弟特征块三,将特征浓缩、兄弟特征块一、兄弟特征块二和兄弟特征块三进行叠加操作生成216维的特征,最后经过一维亚像素卷积输出。
22.本发明的有益效果是:通过本发明方法,unet架构下神经网络训练模型的主要参数计算都集中在上采样的信号恢复过程中,解决了传统的unet架构模型在上采样过程中堆叠卷积层,较大的卷积核数量以及持续翻倍的卷积核尺寸产生了大量的冗余特征问题。本发明利用深度神经网络中卷积特征有极大的局部相似性的特性,构建一个可自适应的特征自生成信号恢复模块,横向加深网络深度,降低了60%的参数量,减少了训练时间,提升了模型的训练效率。上采样过程包含四个特征自生成信号恢复模块,通过浓缩降维后线性计算,从而实现语音带宽扩展,在降低模型参数量的同时还保持了较好地音质。
附图说明
23.图1为本发明的模型的结构示意图。
24.图2为本发明的流程图。
具体实施方式
25.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
26.一种基于unet架构的语音带宽扩展模型,参见图1,该模型包括:包括下采样模块、上采样模块、跨通道特征增强模块,其中,下采样模块包括浅层特征提取模块、浅层特征增强模块、特征自生成扩展模块,上采样模块包括特征自生成信号恢复模块。待扩展窄带语音通过下采样模块中浅层特征提取模块进行升维提取出原始数据的浅层特征,浅层特征增强
模块将浅层特征进行增强,特征自生成扩展模块将增强后的特征维度通过线性计算扩展至两倍,跨通道特征增强模块补充特征通道间的关系,最后进入上采样模块中特征信号恢复模块逐步将特征信息进行恢复。
27.参见图2,本发明一种基于unet架构的语音带宽扩展方法,该方法包括以下步骤:
28.1)搭建语音带宽扩展模型,包括下采样模块、上采样模块、跨通道特征增强模块,其中,下采样模块包括浅层特征提取模块、浅层特征增强模块、特征自生成扩展模块,上采样模块包括特征自生成信号恢复模块,在下采样过程中,浅层特征提取模块将原始数据进行升维提取出原始数据的浅层特征;浅层特征增强模块将浅层特征进行增强;特征自生成扩展模块将增强后的特征维度通过线性计算扩展至两倍;跨通道特征增强模块补充特征通道间的关系;在上采样过程中,特征信号恢复模块逐步将特征信息进行恢复;
29.2)采用所述语音带宽扩展模型对待扩展窄带语音进行处理,基于已有低频语音重建语音的高频部分;
30.将本发明上述方案具体应用如下实施例:
31.本实施例的所述步骤1)具体为:s1,搭建下采样模块中的浅层特征提取模块,将预处理后的一维信号,记为s,通过三个卷积层的卷积操作,逐步将数据升维,提取出浅层特征,记为t;
32.s2:搭建模型下采样模块中的浅层特征增强模块,对提取出的浅层特征t进行增强操作,并输出t


33.s3:搭建模型下采样模块中的特征自生成扩展模块,将s2中增强的特征t

经过卷积运算生成特征,记为x,特征x经过线性运算x

=ε(x),生成一个维度大小相同的特征x

,二者堆叠成一个新的特征(x+x

),特征(x+x

)重复上述t

的操作,进行深层特征提取,提取出特征,记为z;
34.s4:跨通道特征增强,将unet架构传统的瓶颈层替换一个跨通道特征增强模块,用来弥补s3中线性运算生成的特征块中特征图之间的跨通道信息,特征z经过这一模块后最终输出特征,记为w。利用线性变换实现了特征自生成扩展,这个过程降低了参数量,减少了计算量,作为代价,舍弃了特征之间的部分跨通道信息。跨通道特征增强模块将弥补步s3中所丢失的信息。
35.s5:搭建模型上采样模块中的特征自生成信号恢复模块,重建音频信号,具体过程为:首先,模型上采样模块的特征自生成信号恢复模块一对输入的特征w做四分之一的特征通道数压缩生成特征浓缩并记为w1,利用得到的特征浓缩线性计算依次生成自身三倍的特征,分别记为w2、w3和w4,最后将生成的特征与特征浓缩进行堆叠生成特征,记为m,即m=w1+w2+w3+w4,再通过亚像素卷积的反卷积方式进行上采样,进而达到信号恢复的目的;
36.其次,上采样过程中的特征自生成信号恢复模块二对输入的特征m做四分之一的特征通道数压缩生成特征浓缩,记为m1,利用得到的特征浓缩线性计算依次生成自身三倍的特征,分别记为m2、m3和m4,最后将生成的特征与特征浓缩进行堆叠生成特征,记为n,即n=m1+m2+m3+m4,再通过亚像素卷积的反卷积方式进行上采样,进而达到信号恢复的目的;
37.接下来,上采样过程中的特征自生成信号恢复模块三对输入的特征n做四分之一的特征通道数压缩生成特征浓缩,记为n1,利用得到的特征浓缩线性计算依次生成自身三倍的特征,分别记为n2、n3和n4,最后将生成的特征与特征浓缩进行堆叠生成特征,记为q,
即q=n1+n2+n3+n4,再通过亚像素卷积的反卷积方式进行上采样,进而达到信号恢复的目的;
38.最后,上采样过程中的特征自生成信号恢复模块四对输入的特征q做四分之一的特征通道数压缩生成特征浓缩,记为q1,利用得到的特征浓缩线性计算依次生成自身三倍的特征,分别记为q2、q3和q4,最后将生成的特征与特征浓缩进行堆叠生成特征,记为f,即f=q1+q2+q3+q4,再通过亚像素卷积的反卷积方式进行上采样,进而达到信号恢复的目的。
39.本实施例所述三层卷积操作具体为:浅层特征提取模块由三个普通卷积层组成,设置卷积核数量为64,128,256,卷积核长度65,65,33,卷积步长均为2。每一个卷积层后加一层最大池化层和relu激活函数。从而得到原始的1维信号s经过这一模块特征提取后,生成256维的特征t。这一步骤主要目的是提取原始输入数据的浅层特征,通过逐步扩大卷积核数量,减小卷积核长度来尽可能的避免原始数据中重要信息的丢失。
40.本实施例所述对提取出的浅层特征进行增强操作具体为:首先对输入进来的特征t,通道数记作c1,通过一系列卷积变换后得到一个特征通道数为c2的特征,进行全局平均池化,每个通道的信息压缩成1个标量,生成t
avg
,这样就可以通过用一维参数来表示全局的视野;
41.t
avg
经过全连接层fc1-激活函数relu-全连接层fc2-sigmoid函数得到c2个参数,作为通道的权重wi。再将特征t中每个元素乘以对应通道的权重wi,得到新的特征t

,即重构了特征t通道间的相关性,对浅层特征进行了加强。
42.本实施例所述特征自生成扩展模块具体为两个:为了减少在提取深层特征时产生的巨大参数量和计算量,用两个特征自生成扩展模块替代传统的卷积层来进行深层特征的提取。其中,特征自生成扩展模块1中,输入的特征t

通过一个卷积核数量为256,长度为17的卷积层,输出x,x通过线性变换生成大小、维度相等的x

,对x和x

进行堆叠操作,生成512维的y。
43.特征自生成扩展模块2中,设置一个卷积核数量为256,长度为9的卷积层,输入上述步骤中的特征y,y通过线性变换生成y

,对y和y

进行堆叠操作,生成512维的特征z。
44.本实施例跨通道特征增强中对输入进来的特征z做全局平均池化操作,每个通道的信息压缩成1个标量,生成z
avg
,通过一维参数来表示全局的视野;
45.z
avg
经过卷积核大小为k的快速一维卷积操作和σ函数捕捉局部跨通道交互信息,记作wj,再将特征z中每个元素乘以对应通道的权重wj,得到新的特征z

,即重构了特征z通道间的上下文关系,弥补了s3中所丢失的特征通道之间的信息。
46.其中,k和σ计算公式如下所示:
[0047][0048]
其中c为通道数,γ取2,b取1;
[0049]
σ为sigmoid函数。
[0050]
本实施例所述s5搭建模型上采样模块中的特征自生成信号恢复模块,重建音频信号,具体包括以下步骤:
[0051]
s5.1,将s4中的512维的特征z

记作上采样中特征自生成信号恢复模块的输入特征w,首先使用一个卷积核数量为256,卷积核长度为9的卷积层对w进行降维,得到一个256
维的特征浓缩w1,对w1作分离卷积操作生成兄弟特征块w2,对w2作分离卷积操作生成兄弟特征块w3,对w3作分离卷积操作生成兄弟特征块w4,将w1,w2,w3和w4进行叠加操作生成1024维的特征,最后经过一维亚像素卷积输出m。
[0052]
s5.2:s5.1中的1024维的特征m输入特征自生成信号恢复模块,首先使用一个卷积核数量为256,卷积核长度为17的卷积层对m进行降维,得到一个256维的特征浓缩m1,对m1作分离卷积操作生成兄弟特征块m2,对m2作分离卷积操作生成兄弟特征块m3,对m3作分离卷积操作生成兄弟特征块m4,将m1,m2,m3和m4进行叠加操作生成1024维的特征,最后经过一维亚像素卷积输出n。
[0053]
s5.3:s5.2中的1024维的特征n输入特征自生成信号恢复模块,首先使用一个卷积核数量为128,卷积核长度为33的卷积层对n进行降维,得到一个128维的特征浓缩p,对p1作分离卷积操作生成兄弟特征块p2,对p2作分离卷积操作生成兄弟特征块p3,对p3作分离卷积操作生成兄弟特征块p4,将p1,p2,p3和p4进行叠加操作生成512维的特征,最后经过一维亚像素卷积输出q。
[0054]
s5.4:s5.3中的512维的特征q输入特征自生成信号恢复模块,首先使用一个卷积核数量为64,卷积核长度为65的卷积层对q进行降维,得到一个64维的特征浓缩q,对q1作分离卷积操作生成兄弟特征块q2,对q2作分离卷积操作生成兄弟特征块q3,对q3作分离卷积操作生成兄弟特征块q4,将q1,q2,q3和q4进行叠加操作生成256维的特征,最后经过一维亚像素卷积输出f。
[0055]
本实施例为了构建高效的神经网络模型,上述步骤中的线性变换操作,用深度可分离卷积中的depthwise convolution实现,这种卷积方式和常规的卷积操作不同,depthwise convolution的一个卷积核负责一个通道的特征提取,每个通道只对应一个卷积核。
[0056]
通过本发明基于unet架构的语音带宽扩展方法,和现有技术《audio super resolution with neural networks》相比,相同训练环境下(cpu型号:intel(r)xeon(r)cpu e5-2678v3@2.50ghz,gpu型号:nvidia tesla k80,显存:12gb),训练时间减少40%,主观听音测试质量上升10%。
[0057]
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:


1.一种基于unet架构的语音带宽扩展方法,其特征在于,该方法包括以下步骤:1)建立语音带宽扩展模型,包括下采样模块、上采样模块、跨通道特征增强模块,其中,下采样模块包括浅层特征提取模块、浅层特征增强模块、特征自生成扩展模块,浅层特征提取模块将原始数据进行升维提取出原始数据的浅层特征,浅层特征增强模块将浅层特征进行增强,特征自生成扩展模块将增强后的特征维度通过线性计算扩展至两倍,跨通道特征增强模块补充特征通道间的关系;上采样模块包括特征自生成信号恢复模块,神经网络训练模型的主要参数计算集中在此模块中,将特征信息进行恢复,通过特征自生成信号恢复模块对输入的特征通道数压缩降维,再通过线性计算生成增强特征,降维特征与增强特征堆叠来达到信息恢复;2)采用所述语音带宽扩展模型对待扩展窄带语音进行处理,基于已有低频语音重建语音的高频部分。2.根据权利要求1所述的基于unet架构的语音带宽扩展方法,其特征在于,所述步骤2)具体为,s1:下采样模块中的浅层特征提取模块将预处理后的一维信号通过三个卷积层的卷积操作,逐步将数据升维,提取出浅层特征;s2:下采样模块中的浅层特征增强模块对提取出的浅层特征进行增强操作,并输出;s3:下采样模块中的特征自生成扩展模块将s2中增强的特征经过卷积运算生成特征,该特征经过线性运算,生成一个维度大小相同的特征,二者堆叠成一个新的特征,堆叠成新的特征重复上述的操作后,进行深层特征提取;s4:跨通道特征增强模块对s3中线性运算生成的特征输出,利用线性变换实现特征自生成扩展,这个过程降低了参数量,减少了计算量,作为代价,舍弃了特征之间的部分跨通道信息,跨通道特征增强模块将弥补步s3中所丢失的信息;s5:上采样模块中的特征自生成信号恢复模块进行重建音频信号,包括以下步骤:特征自生成信号恢复模块对跨通道特征增强模块输出的特征做四分之一的特征通道数压缩后,再进行线性计算依次生成自身三倍的特征,最后将生成的特征与压缩特征进行堆叠生成最终特征,最终特征再通过亚像素卷积的反卷积方式进行上采样,进而达到信号恢复的目的,通过四个特征自生成信号恢复模块对信号特征进行处理,最终达到重建音频信号。3.根据权利要求2所述的基于unet架构的语音带宽扩展方法,其特征在于,所述浅层特征提取模块由三个普通卷积层组成,三个普通卷积层参数设置如下:卷积核数量分别为64、128、256,对应的卷积核长度分别为65、65、33,卷积步长均为2,每一个卷积层后加一层最大池化层和relu激活函数。4.根据权利要求3所述的基于unet架构的语音带宽扩展方法,其特征在于,所述对提取出的浅层特征进行增强操作具体为:首先对输入进来的特征记录通道数,通过一系列卷积变换后得到具有新特征通道数的特征,进行全局平均池化,每个通道的信息压缩成一个标量;压缩后的通道信息经过全连接层fc1-激活函数relu-全连接层fc2-sigmoid函数得到新特征通道数的参数,作为通道的权重,再将首先输入进来的特征中每个元素乘以对应通道的权重,得到新的特征,即重构了首先输入进来的特征通道间的相关性,从而对浅层特征进行了加强。5.根据权利要求4所述的基于unet架构的语音带宽扩展方法,其特征在于,所述特征自
生成扩展模块具体为两个:为了减少在提取深层特征时产生的巨大参数量和计算量,用两个特征自生成扩展模块替代传统的卷积层来进行深层特征的提取,将增强后的特征维度通过线性计算扩展至两倍。6.根据权利要求5所述的基于unet架构的语音带宽扩展方法,其特征在于,所述s5的具体过程为:s5.1,s4跨通道特征增强输出特征为上采样中中特征自生成信号恢复模块的输入特征,首先使用一个卷积核数量为256,卷积核长度为9的卷积层对输入特征进行降维,得到一个256维的特征浓缩,对特征浓缩作分离卷积操作生成兄弟特征块一,对兄弟特征块作分离卷积操作生成兄弟特征块二,对兄弟特征块二作分离卷积操作生成兄弟特征块三,将特征浓缩、兄弟特征块一、兄弟特征块二和兄弟特征块三进行叠加操作生成1024维的特征,最后经过一维亚像素卷积输出;s5.2:s5.1中的1024维的输出特征输入特征自生成信号恢复模块,首先使用一个卷积核数量为256,卷积核长度为17的卷积层对该输入特征进行降维,得到一个256维的特征浓缩,对特征浓缩作分离卷积操作生成兄弟特征块一,对兄弟特征块作分离卷积操作生成兄弟特征块二,对兄弟特征块二作分离卷积操作生成兄弟特征块三,将特征浓缩、兄弟特征块一、兄弟特征块二和兄弟特征块三进行叠加操作生成1024维的特征,最后经过一维亚像素卷积输出;s5.3:s5.2中的1024维的输出特征输入特征自生成信号恢复模块,首先使用一个卷积核数量为128,卷积核长度为33的卷积层对该步骤的输入特征进行降维,得到一个128维的特征浓缩,对特征浓缩作分离卷积操作生成兄弟特征块一,对兄弟特征块作分离卷积操作生成兄弟特征块二,对兄弟特征块二作分离卷积操作生成兄弟特征块三,将特征浓缩、兄弟特征块一、兄弟特征块二和兄弟特征块三进行叠加操作生成512维的特征,最后经过一维亚像素卷积输出;s5.4:s5.3中的512维的输出特征输入特征自生成信号恢复模块,首先使用一个卷积核数量为64,卷积核长度为65的卷积层对该步骤的输入特征进行降维,得到一个64维的特征浓缩,对特征浓缩作分离卷积操作生成兄弟特征块一,对兄弟特征块作分离卷积操作生成兄弟特征块二,对兄弟特征块二作分离卷积操作生成兄弟特征块三,将特征浓缩、兄弟特征块一、兄弟特征块二和兄弟特征块三进行叠加操作生成216维的特征,最后经过一维亚像素卷积输出。

技术总结


本发明公开了一种基于UNET架构的语音带宽扩展方法。包括以下步骤:1)建立语音带宽扩展模型,包括下采样模块、上采样模块、跨通道特征增强模块;2)采用所述语音带宽扩展模型对待扩展窄带语音进行处理,基于已有低频语音重建语音的高频部分。本发明通过改进UNET框架中的上采样模块和下采样模块处理过程降低模型参数,通过在瓶颈层中引入通道注意力模型增强语音特征,减少模型参数量的同时又能确保高频重建音质。建音质。建音质。


技术研发人员:

姜林 姚奇

受保护的技术使用者:

湖南工商大学

技术研发日:

2022.08.16

技术公布日:

2022/11/22

本文发布于:2024-09-20 13:37:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/825.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   卷积   模块   兄弟
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议