一种基于声道滤波和声门激励的语音重构方法



1.本发明涉及一种基于声道滤波和声门激励的语音重构方法,属于语言合成技术领域。


背景技术:



2.随着社会的不断进步,语音合成技术在人们的日常生活中应用广泛,其应用价值越来越受到重视。语音合成出的声音能否拟人化、情感化,影响着设备的人机交互体验。
3.语音合成技术主要可以分为三类:波形合成法、参数合成法和规则合成法。波形合成法主要是通过将所需合成的语音波形按照不同音素语音波形存储起来,需要时再从素材库中取出所需素材拼接合成后输出;参数合成法主要是提取出语音的参数,由参数变化合成出所需要的语音信号;规则合成法则是在系统中存储语音的声学参数、从音素组成音节、词句,控制音调、韵律、轻重等规则,合成出目标文字后,再利用规则将其转换成连续的声波。
4.参数合成法凭借素材语音库需求量小、提取参数方便、系统能适应的韵律特征范围较宽的优点,在近些年来发展迅速。但依然具有提取算法复杂,提取参数过多,合成出的语音情感平淡等缺点。
5.人类的语音发声是通过声门不断地张开与闭合,使声门处气流冲击声带产生振动,这些气流通过声道从而产生语音,在说话时声道也是在不断的变换中,因此能够听到不同的语音。本发明所提到的发声模型就是基于人的发音器官的特点和语音产生的原理,通过提取语音中说话人不同时刻的基音频率和声道参数特性,模拟发声中的声门激励和声道变化,重构出语音信号。


技术实现要素:



6.本发明要解决的技术问题是提供一种基于声道滤波和声门激励的语音重构方法,用以解决传统的参数合成法提取算法复杂,提取参数过多的问题。
7.本发明的技术方案是:一种基于声道滤波和声门激励的语音重构方法,其特征在于:
8.step1:标记音频话音特征起止点,根据检测音频在频域下短时能量的平坦程度,标记音频中的有话段和无话段位置信息,供提取基音频率使用。
9.所述标记音频话音特征起止点具体为:通过将音频信号进行分帧和加窗处理后,通过检测音频在频域下短时能量的平坦程度标记处音频中的有话段和无话段位置信息,区分出音频中的有话段和无话段,提取结果以一组二维数组表示一段语音的端点位置信息,从而提取出音频话音的起止点。
10.step2:基音频率包含着音频中说话人的声学信息,提取音频的基音频率,根据倒谱法将声脉冲倒谱和声道响应倒谱分离,提取出音频每一帧的基音频率。
11.具体为,通过信号的采样频率与其在倒谱后频率范围中的最大值所在的位置的商
作为特征,提取结果以一组一维数组表示一段样本音频的基音频率。
12.step3:根据提取出的基音频率,构建模拟声脉的冲激响应;
13.具体为,通过step2中提取的样本基音频率,经过插值和平滑和归一化后,将基音频率输入到压控振荡器中,输出一段75~300hz范围内的振荡信号,将振荡信号转换为矩形波并延迟1个单位进行错位相减,得到所需的冲激信号,输出信号以一组一维数组表示样本音频模拟的声脉冲激响应。
14.step4:根据离散余弦变换的特点,提取声道的特征响应,在音频进行快速傅里叶变换和取对数谱之后,利用离散余弦变换恢复出倒谱数据,最终提取出能量集中的部分,作为模拟的声道响应,并作为重构语音的滤波器数据;
15.具体为,对分帧后的原语音数据进行快速傅里叶变换和进行取对数操作,再提取一半的数据点(即128点)进行离散余弦变换恢复出另外一半数据的相位部分,再进行快速傅里叶逆变换,提取口腔特征中能量最为集中的42个点作为fir滤波器的参数,即模拟的声道响应。
16.step5:利用提取出的声脉冲激响应和声道响应重构出语音。通过步骤step3中提取的声门激励响应和步骤step4中提取的声道时域fir滤波参数,使得提取的声门参数通过卷积的形式一帧一帧的通过fir滤波器,最后通过逆分帧将每一帧的数据叠加在一个一维数组中,根据原语音的采样率将一维数组写成音频文件。
17.本发明的有益效果是:提取的声道脉冲计算量小且运算时间快,构建声道参数仅需要一半的数据,降低了运算时间;音频端点检测减少了对无声段语音对重构参数提取的干扰,提高了运算效率。因此,针对现有技术在语音重构中运算量大,数据需求高的缺点,本发明在保证语音重构准确率的前提下提高了重构效率。
附图说明
18.图1是本发明所采用的发声模型图;
19.图2是本发明总体结构框图;
20.图3是本发明的一帧语音信号的倒谱图;
21.图4是本发明的基音频率估计结果图;
22.图5是本发明的一帧声门激励信号的波形图;
23.图6是本发明的一帧声道参数波形图;
24.图7是原语音与重构语音的语谱图对比图。
具体实施方式
25.下面结合附图和具体实施方式,对本发明作进一步说明。
26.一种基于声道滤波和声门激励的语音重构方法,其重构控制系统图如图1所示,通过参数提取模块提取出重构音频所需要的有声\静音段标记、基音频率、声门参数、白噪声等参数,经过fir滤波器重构出目标音频,用来解决传统的参数合成法提取算法复杂,提取参数过多的问题。
27.本发明主要分为两部分,分别是提取声道滤波参数和提取声门激励参数,整体流程图如图2所示。
28.本发明具体技术方案为:
29.step1:标记音频话音特征起止点,根据检测音频在频域下短时能量的平坦程度标记处音频中的有话段和无话段位置信息,供提取基音频率使用;
30.step2:提取音频的基音频率,根据倒谱法将声脉冲倒谱和声道响应倒谱分离,提取出音频每一帧的基音频率;
31.step3:根据提取出的基音频率,构建模拟声门脉冲的冲激响应;
32.step4:根据离散余弦变换的特点,在音频进行快速傅里叶变换和取对数谱之后,利用离散余弦变换恢复出倒谱数据,最终提取出能量集中的部分,作为模拟的声道响应,并作为重构语音的滤波器数据;
33.step5:利用提取出的声脉冲激响应和声道响应重构出语音。
34.所述step1具体为:
35.step1.1:对素材库中的音频信号进行分帧和加窗处理,其中窗长度为256,帧移为128,对加窗后的短时语音帧信号进行快速傅里叶变换计算;
36.step1.2:计算出每一帧的谱的能量;
37.step1.3:计算出每一帧中每个样本点的概率密度函数;
38.step1.4:计算出每一帧的谱熵值,如式(1)所示:
[0039][0040]
式中,h(i)是第i帧的谱熵,p(n,i)是第i帧下谱线n的归一化谱概率密度函数;
[0041]
设置判决门限,本实施例门限的设置为0.12;
[0042]
根据各帧的熵谱值进行端点检测,低于门限值用0表示,认为是无话段,高于门限值则用1表示,认为是有话段,检测结果以一组一维数组x表示端点检测结果,数组长度为分帧后的帧个数;
[0043]
所述step2具体为:
[0044]
step2.1:对分帧后的语音信号xn(m)进行快速傅里叶变换得到信号xn(k),对其进行求模并取对数后得到幅度谱,如式(2)所示:
[0045]en
=20log
10
(|xn(k)|)
ꢀꢀꢀ
(2)
[0046]
step2.2:对en再进行快速傅里叶逆变换得到该帧信号的倒谱图,如图(3)所示,在倒谱图中会显示一个与谐波之间间隔相等的峰值,采样频率与峰值之间的商就是所需要的基音频率。出两峰之间的坐标值s1、s2和语音采样频率fs,按照式(3)可求得基音频率:
[0047][0048]
式中,i为当前第i帧。
[0049]
对语音信号的基音频率估计如图(4)所示,图中背景是语言信号的语谱图,黄线段是各共振峰,红部分是本发明提取出的基音频率,本发明的基音频率算法提取较为准确。
[0050]
本发明为了方便估计基音频率的值,在基音频率60~500hz所对应倒谱图的范围内进行检测,即在倒谱图的横坐标(16,133)区间内寻最大的峰值坐标s(i),根据式(4)求
出基音频率:
[0051][0052]
step2.3:将计算完各帧的基音频率输出到一个一维数组中,数组长度为语音信号分帧后的总帧数,如式(5)所示,其中n为分帧后的总帧数。
[0053]
f=[f
(1)
,f
(2)
,f
(3)
,

,f
(n)
]
ꢀꢀꢀ
(5)
[0054]
所述step3具体为:
[0055]
step3.1:将步骤step2.3中提取的基音频率利用三次样条插值法产生使得帧与帧之间的基音周期过渡更加平滑的基音频率序列fc,长度为帧长乘以总帧数的积;
[0056]
step3.2:将插值后的基音频率送入vco压控振荡器,其表达式如式(6)所示:
[0057][0058]
step3.3:将vco输出的数据归一化处理,如式(7)所示;
[0059][0060]
式中,归一化范围为75到300hz频率范围,所求出的帧声门激励信号的波形如图5所示。
[0061]
将z(n)变换为矩形波r(n),对矩形波r(n)按照式(8)进行差分判决,得到声门脉冲激励;
[0062]
r(n)=r(n)-r(n-1)
ꢀꢀꢀ
(8)
[0063]
一帧语音信号提取出的声门脉冲激励如图5所示,其中横坐标表示一帧内的采样点数,纵坐标表示声门脉冲激励的幅度值,一帧内声门脉冲的个数有当前帧的基音周期决定。
[0064]
所述step4具体为:
[0065]
step4.1:对每一帧的语音数据进行fft变换,点数为256点,并对前128点取对数谱p1;
[0066]
step4.2:取对数谱p1进行离散余弦变换得到p2,取出p2中1~25区间的数据进行离散余弦逆变换得到矩阵p3;
[0067]
step4.3:将p3倒序得到矩阵p4,将p3与p4组重构新的矩阵p5=[p3,p4]。
[0068]
step4.4:对p5进行傅里叶逆变换后取实数部分得到声道模型全极点滤波器参数矩阵g。
[0069]
step4.5:取出g中能量最为集中的42个点作为声门滤波参数矩阵g1,输出结果以一个二维数组表示,行表示帧数,列表示每一帧的声道滤波参数。
[0070]
一帧语音信号提取出的声道参数如图6所示。横坐标表示采样点的个数,纵坐标表示声道参数的幅度。
[0071]
所述step5具体为:
[0072]
step5.1:在提取出的有声无声段标记矩阵x,当前帧标号为0即无声段时,利用随机白噪声生成无声段声门脉冲激励,提取当前帧的声道参数放入fir滤波器,重构出当前帧
的语音,每一帧更新一次参数;
[0073]
step4.2:当前帧标号为1即有声段时,提取当前帧的声门脉冲激励,提取当前帧的声道参数放入fir滤波器,重构出有声段当前帧的语音,每一帧更新一次参数;
[0074]
step4.3:将每一帧重构出的语音数据保存到矩阵w中,其中每一列存放每一帧重构出的语音信号,一共n行。
[0075]
step4.4:将矩阵w通过逆分帧还原为语音信号。合成的语音语谱图如图7所示。图中第一个子图是原语音的语谱图,第二个子图是重构语音的语谱图,从图中可以看出本发明所使用的方法可以较好的还原出原语音,低频中能较好的还原出各共振峰和各谐波之间的关系,高频中也能较好的还原出语音中所包含的各项信息,将重构出的语音输入语音转文字软件,均能够识别出重构语音的文字信息。
[0076]
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

技术特征:


1.一种基于声道滤波和声门激励的语音重构方法,其特征在于:step1:标记音频话音特征起止点,根据检测音频在频域下短时能量的平坦程度,标记音频中的有话段和无话段位置信息,供提取基音频率使用;step2:提取音频的基音频率,根据倒谱法将声脉冲倒谱和声道响应倒谱分离,提取出音频每一帧的基音频率;step3:根据提取出的基音频率,构建模拟声脉的冲激响应;step4:在音频进行快速傅里叶变换和取对数谱之后,利用离散余弦变换恢复出倒谱数据,最终提取出能量集中的部分,作为模拟的声道响应,并作为重构语音的滤波器数据;step5:利用提取出的声脉冲激响应和声道响应重构出语音。2.根据权利要求1所述的基于声道滤波和声门激励的语音重构方法,其特征在于,step1中,标记音频话音特征起止点具体为:通过将音频信号进行分帧和加窗处理后,通过检测音频在频域下短时能量的平坦程度标记处音频中的有话段和无话段位置信息,区分出音频中的有话段和无话段,提取结果以一组二维数组表示一段语音的端点位置信息,从而提取出音频话音的起止点。3.根据权利要求1所述的基于声道滤波和声门激励的语音重构方法,其特征在于,step2具体为:通过信号的采样频率与其在倒谱后频率范围中的最大值所在的位置的商作为特征,提取结果以一组一维数组表示一段样本音频的基音频率。4.根据权利要求1所述的基于声道滤波和声门激励的语音重构方法,其特征在于,step3具体为:通过step2中提取的样本基音频率,经过插值和平滑和归一化后,将基音频率输入到压控振荡器中,输出一段75~300hz范围内的振荡信号,将振荡信号转换为矩形波并延迟1个单位进行错位相减,得到所需的冲激信号,输出信号以一组一维数组表示样本音频模拟的声脉冲激响应。5.根据权利要求1所述的基于声道滤波和声门激励的语音重构方法,其特征在于,step4具体为:对分帧后的原语音数据进行快速傅里叶变换和进行取对数操作,再提取一半的数据点进行离散余弦变换恢复出另外一半数据的相位部分,再进行快速傅里叶逆变换,提取口腔特征中能量最为集中的42个点作为fir滤波器的参数,即模拟的声道响应。

技术总结


本发明涉及一种基于声道滤波和声门激励的语音重构方法,属于语言合成技术领域。本发明首先标记音频话音特征起止点,根据检测音频在频域下短时能量的平坦程度,标记音频中的有话段和无话段位置信息,供提取基音频率使用,再提取音频的基音频率,根据倒谱法将声脉冲倒谱和声道响应倒谱分离,提取出音频每一帧的基音频率,其次根据提取出的基音频率,构建模拟声脉的冲激响应,再在音频进行快速傅里叶变换和取对数谱之后,利用离散余弦变换恢复出倒谱数据,最终提取出能量集中的部分,作为模拟的声道响应,并作为重构语音的滤波器数据,最后利用提取出的声脉冲激响应和声道响应重构出语音。本发明在保证语音重构准确率的前提下提高了重构效率。高了重构效率。高了重构效率。


技术研发人员:

邵玉斌 段云 龙华 杜庆治 苏树盟 黄张衡 刘晶

受保护的技术使用者:

昆明理工大学

技术研发日:

2021.12.29

技术公布日:

2022/8/29

本文发布于:2024-09-21 21:57:58,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/28240.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基音   语音   声门   声道
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议