基于GAN网络的分布式光纤语音增强方法及隧道救援系统与流程


基于g络的分布式光纤语音增强方法及隧道救援系统
技术领域
1.本发明属于语音增强技术领域,特别是涉及一种基于g络的分布式光纤语音增强方法及隧道救援系统。


背景技术:



2.现有的高速公路隧道异常事件(例如隧道内车祸、火灾、垮塌等危险事件,救援呼叫等紧急事件)监测技术包括各类应变传感器、倾斜传感器、温度传感器,以及激光、视频等手段;但这些方式都是点式监测,无法实现线性的长距离监测,尤其在隧道事故造成断电、断网的情况时,无法向外界传输事故信息和救援呼叫。
3.在隧道塌方的情景下,救援队通过人力来寻被困者是件极困难的事,通过对受困者的求救声进行捕捉、识别,进而定位受困者的位置,将对救援工作有巨大的帮助,大大节省救援时间。在对受困者的求救声进行捕捉和识别时,语音增强是一种常用的技术手段。
4.经典的语音增强方法有谱减法、维纳滤波、基于统计模型的方法和子空间算法。自80年代以来,神经网络也被应用于语音增强;近年来,去噪自动编码器结构已被广泛采用,同样,递归神经网络(rnn)也在被广泛使用。例如,递归去噪自动编码器在利用嵌入式信号中的时间上下文信息方面表现出了显著的性能。目前的大多数系统都是基于短时傅立叶分析/综合框架,它们只会改变频谱的大小,因为人们经常声称短时间相位对语音增强不重要。然而,进一步的研究表明,语音质量的显著改善是可能的,特别是当一个干净的相位谱是已知的时候。1988年,tamura等人提出了一个直接工作于原始音频波形的深层网络,但他们使用的是逐帧(60个样本)在依赖于说话者和孤立的单词数据库上工作的前馈层。
5.近年来随着神经网络的兴起,神经网络由于其优异的特征提取和数据拟合能力,已被广泛应用于语音增强任务中,基于神经网络的方法相较于传统方法已经有了较大提升。在这些方法中,基于dnn的方法主要是在频域内处理语音,通过短时傅里叶变换求得短时频谱,然后对短时频谱进行处理,利用dnn的拟合能力学习到从噪声信号到纯净信号的映射函数,同时利用每一条音频的前6帧作为噪声的估计加入到训练当中,最后在后处理中利用含噪语音的相位进行重构增强语音信号。虽然这种方法的增强效果较以往的有了不错的提升,但是由于噪声估计只用了前6帧的信息,其对非平稳的噪声环境下的鲁棒性还是明显不强。


技术实现要素:



6.本发明的目的在于克服现有技术的一项或多项不足,提供一种基于g络的分布式光纤语音增强方法及隧道救援系统。
7.本发明的目的是通过以下技术方案来实现的:根据本发明的第一方面,提出一种基于g络的分布式光纤语音增强方法及隧道救援系统,包括:采集das语音信号;
获取纯净语音信号;对采集到的das语音信号进行预处理;将预处理后的das语音信号转化为梅尔频谱特征图;将所述梅尔频谱特征图与所述纯净语音信号输入预先构建的g络。
8.优选的,对采集到的das语音信号进行预处理,包括:对所述das语音信号进行预加重;对预加重后的das语音信号进行分帧;对分帧后的das语音信号进行加窗处理。
9.优选的,所述预加重的变换公式为:式中,alpha代表预加重系数,其取值位于0.9-1.0之间;x(t)代表t时刻音频振幅;y(t)代表预加重后t时刻音频的振幅 。
10.优选的,对预加重后的das语音信号进行分帧时,相邻两帧之间存在重叠区域。
11.优选的,对分帧后的das语音信号进行加窗处理,包括:分别将每帧信号乘以汉明窗。
12.优选的,将预处理后的das语音信号转化为梅尔频谱特征图,包括:对预处理后的das语音信号进行快速傅里叶变换得到das语音信号的能量谱;利用mel尺度的三角型滤波器组对所述das语音信号的能量谱进行滤波,得到梅尔频谱特征图。
13.优选的,所述g络的构建方法包括:构建用于实现频域到时域的上采样的生成器;构建判别器;将所述生成器和判别器组合构成完成的g络。
14.优选的,所述g络包括生成器和至少一个判别器,所述生成器包括两个过渡层和四个上采样层,所述上采样层位于两个过渡层之间,每个上采样层之后接一个残差空洞卷积块,所述判别器包括三层卷积层和四层下采样层。
15.优选的,所述残差空洞卷积块由四层空洞卷积构成,所述四层空洞卷积的扩张系数分别为1、3、9和27。
16.根据本发明的第二方面,提出一种基于g络的隧道救援系统,包括:第一容器,设置于信号采集点;光缆,所述光缆的第二端缠绕在第一容器的外壁上,用于采集das语音信号;光纤传感设备,所述光纤传感设备的输入端与光缆的第一端连接;所述光纤传感设备用于获取纯净语音信号,对采集到的das语音信号进行预处理,将预处理后的das语音信号转化为梅尔频谱特征图,并将所述梅尔频谱特征图与所述纯净语音信号输入预先构建的g络,以及根据经g络处理后的das语音信号对信号采集点进行定位。
17.本发明的有益效果是:(1)本发明中的分布式光纤语音增强方法通过对现有的g络进行改造,引入多频段的概念,并更改了感受野,然后利用改进后的g络进行语音处理,能有效增强光纤
语音信号,同时也改善了高频信号;(2)本发明中的隧道救援系统基于光纤进行紧急呼叫信号的采集和传输,环境适应能力强,在隧道内断网断电等极端情况下也可正常工作。
附图说明
18.图1为本发明中基于g络的分布式光纤语音增强方法的一个实施例的流程图;图2为g络的一个实施例的组成框图;图3为生成器的一个实施例的组成框图;图4为判别器的一个实施例的组成框图;图5为由近及远的落石实验时的落石检测时空二维信号图;图6为由远及近的落石实验时的落石检测时空二维信号图。
具体实施方式
19.下面将结合实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.参阅图1-图6,本实施例提供了一种基于g络的分布式光纤语音增强方法及隧道救援系统:本发明提供的基于g络的分布式光纤语音增强方法的一个实施例包括:如图1所示,基于g络的分布式光纤语音增强方法,包括:s100. 采集das语音信号,以及获取纯净语音信号。
21.一般的,所述das语音信号的采集由基于φ-otdr 的 das(分布式光纤传感系统)检测设备完成。所述纯净语音信号为无背景噪声的语音信号。
22.在又一个实施例中,所述das语音信号的采集设备包括光纤传感设备和光缆,所述光缆的第一端接光纤传感设备的输入端,所述光缆的第二端缠绕在第一容器的外壁上,所述第一容器设置于信号采集点。该实施例中,第一容器和光纤共同构成一个共振腔,产生共振效应,使得外界声音的声压对光纤力的作用更大,光纤中的信号调制随之增强,从而采集到语音;该实施例中第一容器和光纤组成的传感探头不仅扩大了语音探测范围,而且也提高了灵敏度。例如,选择一个内部设有空腔的塑料容器作为第一容器,该塑料容器有且只有一个连通所述空腔与第一容器外部的开口,将光纤紧贴塑料容器的外壁缠绕,相邻的每圈光纤贴合在一起。
23.语音信号经过光纤传感设备提取后,原始信号为wav格式,从 wav 文件中读取的数据,使用python工具读取后返回data后,data为一维数据矩阵,原始信号的通道数为 1;采样率为 48000hz,比特数为 16 bit。
24.s200.对采集到的das语音信号进行预处理。
25.在一个实施例中,对采集到的das语音信号进行预处理,包括:s210.对所述das语音信号进行预加重。
26.由于信号传输线表现出来的是低通滤波特性,传输过程中信号的高频成分衰减
大,低频成分衰减小;本实施例中通过对采集的das语音信号实施预加重操作来提高其高频成分,可以补偿高频分量在传输过程中的过大衰减。预加重通过增强信号上升沿和下降沿处的幅度来对信号的高频成分进行增强,可以平衡频谱,避免傅里叶变换操作器件的数值问题,以及改善信号的信噪比。
27.所述预加重的变换公式为:式中,alpha代表预加重系数,其取值位于0.9-1.0之间,本实施例中取0.97;x(t)代表t时刻音频振幅;y(t)代表预加重后t时刻音频的振幅。
28.s220. 对预加重后的das语音信号进行分帧。
29.在一个实施例中,对预加重后的das语音信号进行分帧时,相邻两帧之间存在重叠区域,可以避免相邻两帧的变化过大。例如,每帧为25毫秒,每帧的步幅为10毫秒,相邻两帧之间存在15毫秒的重叠区域。
30.s230.对分帧后的das语音信号进行加窗处理。
31.由于分帧处理时信号中断开了,本实施例中将分帧后的每帧das语音信号乘以一段相同长度的数据,从而保证信号的连续性,以便后续步骤对预处理后的das语音信号进行处理;该段数据为窗函数整个周期内的数据,从最小变化到最大,然后最小。具体的,分别将每帧信号乘以汉明窗,从而增加帧左端和右端的连续性。
32.若分帧后的信号为s(n), n=0,1

,n-1, n为帧的大小,那么乘上汉明窗后w(n)形式如下:式中,a = 0.46164,设定这个数值后,在频率为 5π/(n
ꢀ−ꢀ
1) 处产生零交会处(zero-crossing),使旁瓣可以被大幅消除。
33.s300.将预处理后的das语音信号转化为梅尔频谱特征图。
34.在一个实施例中,将预处理后的das语音信号转化为梅尔频谱特征图,包括:s310.对预处理后的das语音信号进行快速傅里叶变换得到das语音信号的能量谱。
35.信号在时域上的变换通常很难看出信号的特性,将信号转换为频域上的能量谱后,不同的能量分布代表不同语音的特性,可以方便地观察信号的特性。
36.s320.利用mel尺度的三角型滤波器组对所述das语音信号的能量谱进行滤波,得到梅尔频谱特征图。
37.本实施例中,三角形滤波器组包括80个滤波器,中心频率为f(m),m=1,2,...,80;各 f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
38.本实施例中采用三角形滤波器组对能量谱进行滤波,可以对频谱进行平滑,消除谐波的作用,突出原先语音的共振峰,同时还能降低运算量。
39.s400.将所述梅尔频谱特征图与预设的作为标签的纯净信号输入预先构建的g络。
40.在一个实施例中,所述g络的构建方法包括:构建用于实现频域到时域的上采样的生成器;构建判别器;将所述生成器和判别器组合构成完成的g络。
41.在一个实施例中,如图2所示,所述g络包括生成器(generator)和判别器(discriminator),所述生成器按照频域不同将语音分到不同频道上,然后利用pqmf滤波器进行滤波得到原始波形,再将原始波形输入判别器。
42.所述生成器包括两个过渡层和四个上采样层,所述上采样层位于两个过渡层之间,每个上采样层之后接一个残差空洞卷积块。具体的,如图3所示,所述生成器包括两个作为过渡层的卷积层(conv layer)、四个(图3中的2x表示2个)上采样层(upsampling layer),每个上采样层之后接一个残差卷积块(residual stack),每个残差卷积块由4个(图3中的4x表示4个)空洞卷积块(dilated conv block)构成。上采样层起到频域到时域逐渐过渡的作用,对于卷积网络较为常用的为反卷积(transposed convolution),反卷积将低维度矩阵或向量,经过运算,扩充到高维空间。在g络中,生成器需要通过四层上采样,将维度为一的输入上采样到帧移(hop length)长度的点数,在本实施例中取256,也就是需要扩大256倍。因此,上采样层虽然参数量大,但实际在模型中起到的是辅助作用,主要频域到时域的转换是依赖于残差卷积块实现的。
43.本实施例中,纯净信号先通过pqmf滤波器分频到多个子频带作为标签,生成器最后通过一个一维卷积网络层,使用tanh非线性激活函数,输出通道为4,分别预测4个频带的音频,从而实现多频段的功能。本实施例中引入了多频段,生成器会按照频域不同将语音分到不同频道上,之后再使用pqmf滤波器将多个子频段进行重组。生成器引入多频段后,子频带之间条件独立,而每个频带下采样了相应倍数,这样模型结构实际是进行了对应压缩,从而减少计算量,能提升语音的生成速度,而模型也可以根据频域不同对高频信号更加关注。
44.由于光纤取到的语音信号有信噪比低、语音特征集中的特点,为了能够更好的建模时域上的长距离依赖关系,本实施例中采取加深残差块层的方案,残差空洞卷积块层由四层空洞卷积构成,所述四层空洞卷积的扩张系数分别为1、3、9和27,从而将模型感受野扩大到81,不仅能学习到的原音频的范围更大,也能处理原始音频生成中所需的大跨度时间依赖。
45.本实施例中,判别器采用多尺度判别器,并通过多层下采样计算最后打分。所述判别器包括三层单独的卷积层和四层下采样层,此处的下采样是通过卷积运算实现的,即一个步长为4 的卷积层。多尺度就是用三个相同的判别器,打三次分,三个判别器的输入对应不同频率尺度;具体的,如图4所示,三个判别器(discriminator block)的输入分别是正常采样率语音、下采样过一次的语音、下采样过两次的语音,这里的下采样是直接通过平均池化层( average pool )实现的,通过分离不同频带让判别器分别计算不同频带的差异,从而可以优化训练效果。
46.如上所述,生成器首先对输入的梅尔频谱特征图进行特征分析后,生成了模拟的增强语音信号;然后判别器以输入的纯净信号为基准,对生成器的模拟生成信号进行打分,并反馈给生成器;生成器再根据判别器的反馈优化输出,如此反复,最后生成器输出优质的增强语音信号,至此,g络实现了语音信号的增强。生成器与判别器的目标完全相反,生
成器的目标是欺骗判别器,也就是最大化判别器的分类误差,而判别器的目标是正确区分真实数据和生成数据,也就是最小化分类误差。因此,在每一步训练迭代过程中,生成网络的权重向着增大分类误差的方向改变,也就是误差梯度上升的方向;而判别网络的权重向着减小分类误差的方向改变,也就是误差梯度下降的方向。生成器在每轮训练后根据判别器计算出的损失更新一次生成器网络参数,通过对抗学习,使得生成器生成的音频达到判别器无法判断真假的效果(loss位于预设区间内,例如loss接近0.5),此时,生成器输出优质的增强语音信号。
47.本发明提供的基于g络的隧道救援系统的一个实施例包括:基于g络的隧道救援系统,包括光纤传感设备、光缆和第一容器,所述第一容器设置于信号采集点;所述光缆的第二端缠绕在第一容器的外壁上,用于采集das语音信号;所述光纤传感设备的输入端与光缆的第一端连接,所述光纤传感设备用于获取纯净语音信号,对采集到的das语音信号进行预处理,将预处理后的das语音信号转化为梅尔频谱特征图,并将所述梅尔频谱特征图与所述纯净语音信号输入预先构建的g络,以及根据经g络处理后的das语音信号对信号采集点进行定位。
48.本实施例中的隧道救援系统基于光纤进行紧急呼叫信号的采集和传输,具有如下优点:灵敏度高,各类振动(包括声波)均能监测;最大测量距离可达45km,适用于广域范围内的振动监测;空间分辨率高达1米,定位精度2-5米,可准确定位异常位置;环境适应能力强,在隧道内断网断电等极端情况下也可正常工作。
49.案例:2021年11月26日在龙池智慧高速公路示范基地进行实验,利用示范道路现已敷设的光缆中的空闲光纤,在隧道内进行了落石试验。实验数据显示了非常好的落石检测效果。具体的,在智慧高速龙池示范基地铺设光纤(自然摆放)光纤总长1500米,前800m为盘纤,利用人工连续丢落石的实验方式模拟边坡落石,空间分辨率5m,时间采样率1khz。分别采集了3段数据,从时空、时频两个角度对其进行了分析。测试结果如图5和图6所示,图5为由近及远的落石实验时的落石检测时空二维信号图,图6为由远及近的落石实验时的落石检测时空二维信号图。从图5和图6可以看出,此隧道救援系统能准确检测到隧道内的振动,语音信号同属于振动信号,因此该隧道救援系统能有效采集das语音信号。
50.以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

技术特征:


1.基于g络的分布式光纤语音增强方法,其特征在于,包括:采集das语音信号;获取纯净语音信号;对采集到的das语音信号进行预处理;将预处理后的das语音信号转化为梅尔频谱特征图;将所述梅尔频谱特征图与所述纯净语音信号输入预先构建的g络。2.根据权利要求1所述的基于g络的分布式光纤语音增强方法,其特征在于,对采集到的das语音信号进行预处理,包括:对所述das语音信号进行预加重;对预加重后的das语音信号进行分帧;对分帧后的das语音信号进行加窗处理。3.根据权利要求2所述的基于g络的分布式光纤语音增强方法,其特征在于,所述预加重的变换公式为:式中,alpha代表预加重系数,其取值位于0.9-1.0之间;x(t)代表t时刻音频振幅;y(t)代表预加重后t时刻音频的振幅。4.根据权利要求2所述的基于g络的分布式光纤语音增强方法,其特征在于,对预加重后的das语音信号进行分帧时,相邻两帧之间存在重叠区域。5.根据权利要求2所述的基于g络的分布式光纤语音增强方法,其特征在于,对分帧后的das语音信号进行加窗处理,包括:分别将每帧信号乘以汉明窗。6.根据权利要求1所述的基于g络的分布式光纤语音增强方法,其特征在于,将预处理后的das语音信号转化为梅尔频谱特征图,包括:对预处理后的das语音信号进行快速傅里叶变换得到das语音信号的能量谱;利用mel尺度的三角型滤波器组对所述das语音信号的能量谱进行滤波,得到梅尔频谱特征图。7.根据权利要求1所述的基于g络的分布式光纤语音增强方法,其特征在于,所述g络的构建方法包括:构建用于实现频域到时域的上采样的生成器;构建判别器;将所述生成器和判别器组合构成完成的g络。8.根据权利要求1所述的基于g络的分布式光纤语音增强方法,其特征在于,所述g络包括生成器和至少一个判别器,所述生成器包括两个过渡层和四个上采样层,所述上采样层位于两个过渡层之间,每个上采样层之后接一个残差空洞卷积块,所述判别器包括三层卷积层和四层下采样层。9.根据权利要求7所述的基于g络的分布式光纤语音增强方法,其特征在于,所述残差空洞卷积块由四层空洞卷积构成,所述四层空洞卷积的扩张系数分别为1、3、9和27。
10.基于g络的隧道救援系统,其特征在于,包括:第一容器,设置于信号采集点;光缆,所述光缆的第二端缠绕在第一容器的外壁上,用于采集das语音信号;光纤传感设备,所述光纤传感设备的输入端与光缆的第一端连接;所述光纤传感设备用于获取纯净语音信号,对采集到的das语音信号进行预处理,将预处理后的das语音信号转化为梅尔频谱特征图,并将所述梅尔频谱特征图与所述纯净语音信号输入预先构建的g络,以及根据经g络处理后的das语音信号对信号采集点进行定位。

技术总结


本发明公开了一种基于GAN网络的分布式光纤语音增强方法及隧道救援系统,其中,基于GAN网络的分布式光纤语音增强方法,包括:采集DAS语音信号;获取纯净语音信号;对采集到的DAS语音信号进行预处理;将预处理后的DAS语音信号转化为梅尔频谱特征图;将所述梅尔频谱特征图与所述纯净语音信号输入预先构建的GAN网络。本发明中的分布式光纤语音增强方法通过对现有的GAN网络进行改造,引入多频段的概念,并更改了感受野,然后利用改进后的GAN网络进行语音处理,能有效增强光纤语音信号,同时也改善了高频信号。了高频信号。了高频信号。


技术研发人员:

盛鹏 罗煜 何子牛 王茂宁 钟羽中 张晨思

受保护的技术使用者:

四川高速公路建设开发集团有限公司

技术研发日:

2022.07.12

技术公布日:

2022/8/12

本文发布于:2024-09-21 22:00:18,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/23549.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   信号   所述   光纤
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议