基于文本的语音变声方法、装置、电子设备及存储介质与流程



1.本发明涉及语音语义领域,尤其涉及一种基于文本的语音变声方法、装置、电子设备及可读存储介质。


背景技术:



2.语音变声指的是通过更改语音的语音频率从而实现音变化的技术,例如,变声器可以实现语音变声。
3.目前常见的语音变声都是基于一段语音的基础上进行语音变声,当录制语音的环境噪音较大,或录制人的发音不标准时,容易导致变声结果与语音大相径庭,从而造成变声失败。


技术实现要素:



4.本发明提供一种基于文本的语音变声方法、装置、电子设备及可读存储介质,其目的在于提高基于文本的语音变声的精准率及效率。
5.为实现上述目的,本发明提供的一种基于文本的语音变声方法,所述方法包括:
6.获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器;
7.对所述音频数据进行频谱转换,得到目标频谱;
8.利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵;
9.根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱;
10.利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱;
11.利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。
12.可选地,所述利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵,包括:
13.利用所述编码器中预设层数的卷积层对所述音素序列进行卷积处理,得到所述音素序列的特征矩阵;
14.对所述特征矩阵进行修正线性单元激活处理及批归一化处理,得到优化特征矩阵;
15.利用所述编码器中预设的双向长短时记忆网络,对所述优化特征矩阵进行计算,得到隐藏特征矩阵。
16.可选地,所述根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,包括:
17.利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量;
18.将所述第一当前时间步的上下文向量与预设的梅尔频谱进行串联操作,并将串联
结果输入至所述解码器中双层长短时记忆层中,得到第二当前时间步的上下文向量;
19.利用所述解码器中后处理网络对所述第二当前时间步的上下文向量进行第一线性投影,得到当前时间步的上下文标量;
20.根据所述目标频谱,利用所述后处理网络对所述第二当前时间步的上下文向量进行第二线性投影并对所述第二线性投影后的上下文标量进行梅尔频谱预测,得到第二当前时间步的梅尔频谱;
21.根据所述当前时间步的上下文标量,利用预设的第一激活函数计算梅尔频谱预测完成的概率;
22.判断所述梅尔频谱预测完成的概率是否小于预设的阈值;
23.当所述梅尔频谱预测完成的概率不小于所述阈值时,将所述第二当前时间步的上下文向量与所述第二当前时间步的梅尔频谱进行串联操作,并返回所述将串联结果输入至所述解码器中双层长短时记忆层中的步骤,直至所述梅尔频谱预测完成的概率小于所述阈值时,得到预测梅尔频谱。
24.可选地,所述利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量,包括:
25.利用所述注意力网络中的线性层对所述隐藏特征矩阵进行线性投影,得到键矩阵;
26.将所述注意力网络中的注意力权重值输入至预设的卷积层中,生成位置特征矩阵;
27.利用所述线性层对所述位置特征矩阵进行线性投影,得到附加特征矩阵;
28.将所述附加特征矩阵与所述键矩阵进行相加,并利用预设的第二激活函数处理相加结果,得到注意力概率向量;
29.利用预设的映射函数对所述注意力概率向量进行映射,得到当前注意力的权重向量;
30.将所述当前注意力权重向量与所述隐藏特征矩阵进行相乘操作,得到第一当前时间步的上下文向量。
31.可选地,所述对所述音频数据进行频谱转换,得到目标频谱,包括:
32.对所述音频数据进行预加重处理、分帧处理及加窗处理,得到目标语音信号;
33.可选地,所述利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,包括:
34.利用语种分析工具对所述目标文本进行语种分析,确定所述目标文本的语种;
35.利用所述语种对应分词规则,对所述目标文本进行语句切分处理,得到切分语句文本;
36.根据预设的文本格式规则,将所述切分语句文本中的非文字转化为文字;
37.对所述切分语句文本进行分词处理,得到分词文本;
38.根据预设的文字音素映射词典,对所述分词文本进行映射,得到音素;
39.对所述音素进行向量转化,得到音素向量;
40.按照文本顺序对所述音素向量进行编码排序,得到音素序列。
41.可选地,所述利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅
尔频谱,包括:
42.利用预设的残差网络对所述预测梅尔频谱进行残差计算,得到残差梅尔频谱;
43.将所述残差梅尔频谱与所述预测梅尔频谱进行叠加,得到目标梅尔频谱。为了解决上述问题,本发明还提供一种线下产品推荐装置,所述装置包括:
44.音素序列转化模块,用于获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器;
45.目标梅尔频谱获取模块,用于对所述音频数据进行频谱转换,得到目标频谱,利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵,根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱;
46.目标音频获取模块,用于利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。
47.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
48.存储器,存储至少一个计算机程序;及
49.处理器,执行所述存储器中存储的计算机程序以实现上述所述的基于文本的语音变声方法。
50.为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于文本的语音变声方法。
51.本发明实施例通过将目标文件转化为音素序列,获取目标文本中每个词语的发音属性,避免了目标文本由于一词多音的问题造成发音错误,提高了语音变声的准确率,进一步地,对所述音频数据进行频谱转换,得到目标频谱,确定语音变声频率,从而保证了语音变声的方向,提高了语音变声的准确率,其次,利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵,根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱,完成文本到语音频谱的转化,降低了语音变声时噪音造成的影响,最后,利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频,完成基于文本的语音变声流程,降低了语音变声时环境的影响程度,从而提高了语音变声的准确率及效率。因此,本发明实施例提出的基于文本的语音变声方法、装置、电子设备及可读存储介质可以提高了语音变声的精准率及效率。
附图说明
52.图1为本发明一实施例提供的基于文本的语音变声方法的流程示意图;
53.图2至图8为本发明一实施例提供的基于文本的语音变声方法的中其中一个步骤的详细实施流程图;
54.图9为本发明一实施例提供的基于文本的语音变声装置的模块示意图;
55.图10为本发明一实施例提供的实现基于文本的语音变声方法的电子设备的内部结构示意图;
56.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
57.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
58.本发明实施例提供一种基于文本的语音变声方法。所述基于文本的语音变声方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之,所述基于文本的语音变声方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端可以包括独立的服务器,也可以包括提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
59.参照图1所示的本发明一实施例提供的基于文本的语音变声方法的流程示意图,在本发明实施例中,所述基于文本的语音变声方法包括以下步骤s1-s6:
60.s1、获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器。
61.本发明实施例中,所述目标文本的来源及文本类型可以为多种形式的,其中所述文本类型包含有中文及英文等。所述音频数据可以是包含变声目标音的语音数据。所述音素序列可以是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素,如汉字的音素可以是汉语拼音及音调。
62.本发明可选实施例中,可以通过网络下载或用户输入的方式得到目标文本及音频数据,节约了人工成本,降低了周围环境对语音合成的影响,从而提高语音变声的准确率。
63.本发明实施例利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,获取目标文本发音最基本的单元,从而避免发音错误的问题,提高语音合成及语音变声的准确率。
64.进一步地,参阅图2所示,作为本发明一可选实施例,所述利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,包括以下步骤s11—s17:
65.s11、利用语种分析工具对所述目标文本进行语种分析,确定所述目标文本的语种;
66.s12、利用所述语种对应分词规则,对所述目标文本进行语句切分处理,得到切分语句文本;
67.s13、根据预设的文本格式规则,将所述切分语句文本中的非文字转化为文字;
68.s14、对所述切分语句文本进行分词处理,得到分词文本;
69.s15、根据预设的文字音素映射词典,对所述分词文本进行映射,得到音素;
70.s16、对所述音素进行向量转化,得到音素向量;
71.s17、按照文本顺序对所述音素向量进行编码排序,得到音素序列。
72.本发明实施例中,所述语种分析工具可以是翻译软件。所述预设的文本格式规则可以是是获取的目标文本中,若存在阿拉伯数字,则将所述阿拉伯数字转化为文字,则根据设置好的规则,使合成文本标准化,例如,“这里有56个人”,其中“56”为阿拉伯数字,需要转化为汉字“五十六”,这样便于进行文字转化音素等后续过程。所述文字音素映射词典包含
每个文字及其对应的音素。
73.本发明可选实施例中,通过对目标文本进行语种分析,可以确定所述目标文本的发音规则,进一步地,对所述目标文本进行分词处理,以便准确地对所述目标文本进行音素转换,得到音素,最后通过对所述音素进行编码排序,得到音素序列,通过排列确保了音素序列的准确性,避免目标文本发音混乱,提高了语音合成的精准性。
74.本发明另一可选实施例中,可以使用实现所述对所述训练文件进行音素转换,得到音素序列,例如,开源的字素到音素转换工具g2p。
75.s2、对所述音频数据进行频谱转换,得到目标频谱。
76.本发明实施例通过对所述音频数据进行频谱转换,得到目标频谱,获取变声目标音的频谱,从而确保变声准确,提高变声的效率和准确率。
77.进一步地,参阅图3所示,本发明一可选实施例中,所述对所述音频数据进行频谱转换,得到目标频谱,包括以下步骤s21及s22:
78.s21、对所述音频数据进行预加重处理、分帧处理及加窗处理,得到目标语音信号;
79.s22、对所述目标语音信号进行傅里叶变换,得到目标频谱。
80.本发明可选实施例中,通过采用传递函数为一阶fir的高通滤波器来实现对音频数据的预加重处理,从而突出音频数据的高频部分,消除因为用户说话人唇部辐射而导致的影响。
81.本发明可选实施例中,音频数据本身是一种不稳定的语音信号,主要是靠发声器官的短暂变化引起的,因此,可以利用短时处理实现对所述一次处理语音信号分帧处理,确保音频数据在极短时间内的稳定性。
82.本发明可选实施例中,由于分帧之后,语音信号会越来越背离原始信号,因此,我们可以通过对所述二次处理语音信号进行加窗处理,减少帧开始和结束时信号不连续性的问题。
83.本发明可选实施例中,通过傅里叶函数将信号转化为频谱,实现音频数据到目标频谱的变化,获取变声目标音的频谱,从而将文字转化为目标音的语音,提高语音变声的精准度。
84.s3、利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵。
85.本发明实施例中,所述编码器包含卷积层及双向长短时记忆网络。所述隐藏特征矩阵包含了所述音素序列的上下文向量等信息。
86.本发明实施例中,由于所述目标文本中每个词的意义往往跟上下文有着密切相关的联系,例如,“我好爱中国”语句中,“好”字有两种读音,单独分析“好”字无法确定“好”字的发音,容易造成发音错误的问题,因此,还需对每个字的上下文特征信息进行提取,进一步确保语音合成的精准度。
87.进一步地,参阅图4所示,作为本发明一可选实施例,所述利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵,包括以下步骤s31—s33:
88.s31、利用所述编码器中预设层数的卷积层对所述音素序列进行卷积处理,得到所述音素序列的特征矩阵;
89.s32、对所述特征矩阵进行修正线性单元激活处理及批归一化处理,得到优化特征矩阵;
90.s33、利用所述编码器中预设的双向长短时记忆网络,对所述优化特征矩阵进行计算,得到隐藏特征矩阵。
91.本发明实施例中,所述双向长短时记忆网络可以用来获取并存储所述音素序列的上下文向量。
92.本发明可选实施例中,利用编码器对音素序列进行特征提取,得到隐藏特征矩阵,由于隐藏特征矩阵包含了所述音素序列的上下文向量等信息,因此,通过得到隐藏特征矩阵可以得到所述音素序列的上下文特征,从而提高了所述音素序列的上下文特征对所述音素序列的影响,提高了语音合成模型发音的精准性。
93.s4、根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱。
94.本发明实施例中,所述解码器可以是一个自回归循环神经网络,其中,所述自回归循环神经网络包含注意力网络及后处理网络。
95.本发明实施例根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,确保语音合成结果的语音音与音频数据一致。
96.进一步地,参阅图5所示,作为本发明一可选实施例,所述根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,包括以下步骤s41—s48:
97.s41、利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量;
98.s42、将所述第一当前时间步的上下文向量与预设的梅尔频谱进行串联操作,并将串联结果输入至所述解码器中双层长短时记忆层中,得到第二当前时间步的上下文向量;
99.s43、利用所述解码器中后处理网络对所述第二当前时间步的上下文向量进行第一线性投影,得到当前时间步的上下文标量;
100.s44、根据所述目标频谱,利用所述后处理网络对所述第二当前时间步的上下文向量进行第二线性投影并对第二线性投影后的上下文标量进行梅尔频谱预测,得到第二当前时间步的梅尔频谱;
101.s45、根据所述当前时间步的上下文标量,利用预设的第一激活函数计算梅尔频谱预测完成的概率;
102.s46、判断所述梅尔频谱预测完成的概率是否小于预设的阈值;
103.s47、当所述梅尔频谱预测完成的概率不小于所述阈值时,将所述第二当前时间步的上下文向量与所述第二当前时间步的梅尔频谱进行串联操作,并返回上述的s43;
104.s48、当所述梅尔频谱预测完成的概率小于所述阈值时,得到预测梅尔频谱。
105.本发明实施例中,所述注意力网络包含所述位置敏感注意力机制及所述双层长短时记忆层,主要用于决定需要关注所述编码器输入的哪部分。所述第一激活函数可以是sigmoid函数。
106.进一步地,参阅图6所示,所述利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量,包括以下步骤s411—s415:
107.s411、利用所述注意力网络中的线性层对所述隐藏特征矩阵进行线性投影,得到
键矩阵;
108.s412、将所述注意力网络中的注意力权重值输入至预设的卷积层中,生成位置特征矩阵;
109.s413、利用所述线性层对所述位置特征矩阵进行线性投影,得到附加特征矩阵;
110.s414、将所述附加特征矩阵与所述键矩阵进行相加,并利用预设的第二激活函数处理相加结果,得到注意力概率向量;
111.s415、利用预设的映射函数对所述注意力概率向量进行映射,得到当前注意力的权重向量;
112.s416、将所述当前注意力权重向量与所述隐藏特征矩阵进行相乘操作,得到第一当前时间步的上下文向量。
113.本发明实施例中,所述注意力权重值可以是前一个时间步的注意力权重与先前所有的注意权重的累积进行串联得到值。所述第二激活函数可以是tanh函数。所述映射函数可以是softmax函数。
114.s5、利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱。
115.本发明实施例中,所述残差网络包含卷积层及一系列函数。
116.本发明实施例利用所述残差网络对所述预测梅尔频谱进行残差连接,确定所述目标文本的最终输出梅尔频谱,实现了文字到语音的初步转化,确保基于文本的语音变声的可行性。
117.进一步地,参阅图7所示,作为本发明一可选实施例,所述利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱,包括以下步骤s51及s52:
118.s51、利用预设的残差网络对所述预测梅尔频谱进行残差计算,得到残差梅尔频谱;
119.s52、将所述残差梅尔频谱与所述预测梅尔频谱进行叠加,得到目标梅尔频谱。
120.本发明可选实施例中,将通过n次解码步骤得到的预测梅尔频谱送入残差网络中,产生一个残差与自身叠加生成目标梅尔频谱。其中,所述残差网络由5层的卷积层构成,每层卷积由512个形状为5*1的卷积核组成,并且每层卷积层后接批归一化处理,除最后一层卷积层外,其他四层卷积层都采用tanh激活函数激活。
121.s6、利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。本发明实施例中,所述声码器可以是已公开的常见的wavenet声码器或waveglow声码器。
122.本发明实施例利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频,实现语音变声,降低了语音变声过程中环境及人为因素的影响,从而提高了语音变声的准确率和效率。
123.进一步地,参阅图8所示,作为本发明一可选实施例,所述利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频,包括以下步骤s61及s62:
124.s61、利用所述声码器对所述目标梅尔频谱进行语音波形转换,得到目标语音波形;
125.s62、对所述目标语音波形进行音频转换,得到目标音频。
126.本发明可选实施例中,可以通过对目标语音波形进行取样、量化及编码实现波形到音频的转化。
127.本发明可选实施例中,可以选用waveglow作为声码器,以将目标梅尔频谱转化为目标音频。其中,所述waveglow声码器是一种基于流的模型,可以并行生成高质量的音频样本,从而提高语音合成的速度。
128.本发明实施例通过将目标文件转化为音素序列,获取目标文本中每个词语的发音属性,避免了目标文本由于一词多音的问题造成发音错误,提高了语音变声的准确率,进一步地,对所述音频数据进行频谱转换,得到目标频谱,确定语音变声频率,从而保证了语音变声的方向,提高了语音变声的准确率,其次,利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵,根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱,完成文本到语音频谱的转化,降低了语音变声时噪音造成的影响,最后,利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频,完成基于文本的语音变声流程,降低了语音变声时环境的影响程度,从而提高了语音变声的准确率及效率。因此,本发明实施例提出的基于文本的语音变声方法可以提高了语音变声的精准率及效率。
129.如图9所示,是本发明基于文本的语音变声装置的功能模块图。
130.本发明所述基于文本的语音变声装置100可以安装于电子设备中。根据实现的功能,所述基于文本的语音变声装置100可以包括音素序列转化模块101、目标梅尔频谱获取模块102及目标音频获取模块103,本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
131.在本实施例中,关于各模块/单元的功能如下:
132.所述音素序列转化模块101用于获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器。
133.本发明实施例中,所述目标文本的来源及文本类型可以为多种形式的,其中所述文本类型包含有中文及英文等。所述音频数据可以是包含变声目标音的语音数据。所述音素序列可以是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素,如汉字的音素可以是汉语拼音及音调。
134.本发明可选实施例中,可以通过网络下载或用户输入的方式得到目标文本及音频数据,节约了人工成本,降低了周围环境对语音合成的影响,从而提高语音变声的准确率。
135.本发明实施例利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,获取目标文本发音最基本的单元,从而避免发音错误的问题,提高语音合成及语音变声的准确率。
136.进一步地,作为本发明一可选实施例,所述利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,包括:
137.利用语种分析工具对所述目标文本进行语种分析,确定所述目标文本的语种;
138.利用所述语种对应分词规则,对所述目标文本进行语句切分处理,得到切分语句文本;
139.根据预设的文本格式规则,将所述切分语句文本中的非文字转化为文字;
140.对所述切分语句文本进行分词处理,得到分词文本;
141.根据预设的文字音素映射词典,对所述分词文本进行映射,得到音素;
142.对所述音素进行向量转化,得到音素向量;
143.按照文本顺序对所述音素向量进行编码排序,得到音素序列。
144.本发明实施例中,所述语种分析工具可以是翻译软件。所述预设的文本格式规则可以是是获取的目标文本中,若存在阿拉伯数字,则将所述阿拉伯数字转化为文字,则根据设置好的规则,使合成文本标准化,例如,“这里有56个人”,其中“56”为阿拉伯数字,需要转化为汉字“五十六”,这样便于进行文字转化音素等后续过程。所述文字音素映射词典包含每个文字及其对应的音素。
145.本发明可选实施例中,通过对目标文本进行语种分析,可以确定所述目标文本的发音规则,进一步地,对所述目标文本进行分词处理,以便准确地对所述目标文本进行音素转换,得到音素,最后通过对所述音素进行编码排序,得到音素序列,通过排列确保了音素序列的准确性,避免目标文本发音混乱,提高了语音合成的精准性。
146.本发明另一可选实施例中,可以使用实现所述对所述训练文件进行音素转换,得到音素序列,例如,开源的字素到音素转换工具g2p。
147.所述目标梅尔频谱获取模块102用于对所述音频数据进行频谱转换,得到目标频谱,利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵,根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱。
148.本发明实施例通过对所述音频数据进行频谱转换,得到目标频谱,获取变声目标音的频谱,从而确保变声准确,提高变声的效率和准确率。
149.进一步地,本发明一可选实施例中,所述对所述音频数据进行频谱转换,得到目标频谱,包括:
150.对所述音频数据进行预加重处理、分帧处理及加窗处理,得到目标语音信号;
151.对所述目标语音信号进行傅里叶变换,得到目标频谱。
152.本发明可选实施例中,通过采用传递函数为一阶fir的高通滤波器来实现对音频数据的预加重处理,从而突出音频数据的高频部分,消除因为用户说话人唇部辐射而导致的影响。
153.本发明可选实施例中,音频数据本身是一种不稳定的语音信号,主要是靠发声器官的短暂变化引起的,因此,可以利用短时处理实现对所述一次处理语音信号分帧处理,确保音频数据在极短时间内的稳定性。
154.本发明可选实施例中,由于分帧之后,语音信号会越来越背离原始信号,因此,我们可以通过对所述二次处理语音信号进行加窗处理,减少帧开始和结束时信号不连续性的问题。
155.本发明可选实施例中,通过傅里叶函数将信号转化为频谱,实现音频数据到目标频谱的变化,获取变声目标音的频谱,从而将文字转化为目标音的语音,提高语音变声的精准度。
156.本发明实施例中,所述编码器包含卷积层及双向长短时记忆网络。所述隐藏特征矩阵包含了所述音素序列的上下文向量等信息。
157.本发明实施例中,由于所述目标文本中每个词的意义往往跟上下文有着密切相关的联系,例如,“我好爱中国”语句中,“好”字有两种读音,单独分析“好”字无法确定“好”字的发音,容易造成发音错误的问题,因此,还需对每个字的上下文特征信息进行提取,进一步确保语音合成的精准度。
158.进一步地,作为本发明一可选实施例,所述利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵,包括:
159.利用所述编码器中预设层数的卷积层对所述音素序列进行卷积处理,得到所述音素序列的特征矩阵;
160.对所述特征矩阵进行修正线性单元激活处理及批归一化处理,得到优化特征矩阵;
161.利用所述编码器中预设的双向长短时记忆网络,对所述优化特征矩阵进行计算,得到隐藏特征矩阵。
162.本发明实施例中,所述双向长短时记忆网络可以用来获取并存储所述音素序列的上下文向量。
163.本发明可选实施例中,利用编码器对音素序列进行特征提取,得到隐藏特征矩阵,由于隐藏特征矩阵包含了所述音素序列的上下文向量等信息,因此,通过得到隐藏特征矩阵可以得到所述音素序列的上下文特征,从而提高了所述音素序列的上下文特征对所述音素序列的影响,提高了语音合成模型发音的精准性。
164.本发明实施例中,所述解码器可以是一个自回归循环神经网络,其中,所述自回归循环神经网络包含注意力网络及后处理网络。
165.本发明实施例根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,确保语音合成结果的语音音与音频数据一致。
166.进一步地,作为本发明一可选实施例,所述根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,包括:
167.利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量;
168.将所述第一当前时间步的上下文向量与预设的梅尔频谱进行串联操作,并将串联结果输入至所述解码器中双层长短时记忆层中,得到第二当前时间步的上下文向量;
169.利用所述解码器中后处理网络对所述第二当前时间步的上下文向量进行第一线性投影,得到当前时间步的上下文标量;
170.根据所述目标频谱,利用所述后处理网络对所述第二当前时间步的上下文向量进行第二线性投影并对所述第二线性投影后的上下文标量进行梅尔频谱预测,得到第二当前时间步的梅尔频谱;
171.根据所述当前时间步的上下文标量,利用预设的第一激活函数计算梅尔频谱预测完成的概率;
172.判断所述梅尔频谱预测完成的概率是否小于预设的阈值;
173.当所述梅尔频谱预测完成的概率不小于所述阈值时,将所述第二当前时间步的上下文向量与所述第二当前时间步的梅尔频谱进行串联操作,并返回所述将串联结果输入至
预设的双层长短时记忆层中的步骤;
174.当所述梅尔频谱预测完成的概率小于所述阈值时,得到预测梅尔频谱。
175.本发明实施例中,所述注意力网络包含所述位置敏感注意力机制及所述双层长短时记忆层,主要用于决定需要关注所述编码器输入的哪部分。所述第一激活函数可以是sigmoid函数。
176.进一步地,所述利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量,包括:
177.利用所述注意力网络中的线性层对所述隐藏特征矩阵进行线性投影,得到键矩阵;
178.将所述注意力网络中的注意力权重值输入至预设的卷积层中,生成位置特征矩阵;
179.利用所述线性层对所述位置特征矩阵进行线性投影,得到附加特征矩阵;
180.将所述附加特征矩阵与所述键矩阵进行相加,并利用预设的第二激活函数处理相加结果,得到注意力概率向量;
181.利用预设的映射函数对所述注意力概率向量进行映射,得到当前注意力的权重向量;
182.将所述当前注意力权重向量与所述隐藏特征矩阵进行相乘操作,得到第一当前时间步的上下文向量。
183.本发明实施例中,所述注意力权重值可以是前一个时间步的注意力权重与先前所有的注意权重的累积进行串联得到值。所述第二激活函数可以是tanh函数。所述映射函数可以是softmax函数。
184.本发明实施例中,所述残差网络包含卷积层及一系列函数。
185.本发明实施例利用所述残差网络对所述预测梅尔频谱进行残差连接,确定所述目标文本的最终输出梅尔频谱,实现了文字到语音的初步转化,确保基于文本的语音变声的可行性。
186.进一步地,作为本发明一可选实施例,所述利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱,包括:
187.利用预设的残差网络对所述预测梅尔频谱进行残差计算,得到残差梅尔频谱;
188.将所述残差梅尔频谱与所述预测梅尔频谱进行叠加,得到目标梅尔频谱。
189.本发明可选实施例中,将通过n次解码步骤得到的预测梅尔频谱送入残差网络中,产生一个残差与自身叠加生成目标梅尔频谱。其中,所述残差网络由5层的卷积层构成,每层卷积由512个形状为5*1的卷积核组成,并且每层卷积层后接批归一化处理,除最后一层卷积层外,其他四层卷积层都采用tanh激活函数激活。
190.所述目标音频获取模块103用于利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。
191.本发明实施例利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频,实现语音变声,降低了语音变声过程中环境及人为因素的影响,从而提高了语音变声的准确率和效率。
192.进一步地,作为本发明一可选实施例,所述利用所述声码器对所述目标梅尔频谱
进行音频转换,得到目标音频,包括:
193.利用所述声码器对所述目标梅尔频谱进行语音波形转换,得到目标语音波形;
194.对所述目标语音波形进行音频转换,得到目标音频。
195.本发明可选实施例中,可以通过对目标语音波形进行取样、量化及编码实现波形到音频的转化。
196.本发明可选实施例中,可以选用waveglow作为声码器,以将目标梅尔频谱转化为目标音频。其中,所述waveglow声码器是一种基于流的模型,可以并行生成高质量的音频样本,从而提高语音合成的速度。
197.如图10所示,是本发明实现基于文本的语音变声方法的电子设备的结构示意图。
198.所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如线下产品推荐程序。
199.其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如线下产品推荐程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
200.所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如线下产品推荐程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
201.所述通信总线12可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
202.图10仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图10示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
203.例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的
直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
204.可选地,所述通信接口13可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
205.可选地,所述通信接口13还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
206.应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
207.所述电子设备中的所述存储器11存储的线下产品推荐程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
208.获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器;
209.对所述音频数据进行频谱转换,得到目标频谱;
210.利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵;
211.根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱;
212.利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱;
213.利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。
214.具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
215.进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
216.本发明实施例还可以提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
217.获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器;
218.对所述音频数据进行频谱转换,得到目标频谱;
219.利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵;
220.根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱;
221.利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱;
222.利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。
223.进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
224.在本发明所提供的几个实施例中,应该理解到,所揭露的电子设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
225.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
226.另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
227.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
228.因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
229.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
230.此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
231.最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

技术特征:


1.一种基于文本的语音变声方法,其特征在于,所述方法包括:获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器;对所述音频数据进行频谱转换,得到目标频谱;利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵;根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱;利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱;利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。2.如权利要求1所述的基于文本的语音变声方法,其特征在于,所述利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵,包括:利用所述编码器中预设层数的卷积层对所述音素序列进行卷积处理,得到所述音素序列的特征矩阵;对所述特征矩阵进行修正线性单元激活处理及批归一化处理,得到优化特征矩阵;利用所述编码器中预设的双向长短时记忆网络,对所述优化特征矩阵进行计算,得到隐藏特征矩阵。3.如权利要求1所述的基于文本的语音变声方法,其特征在于,所述根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,包括:利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量;将所述第一当前时间步的上下文向量与预设的梅尔频谱进行串联操作,并将串联结果输入至所述解码器中双层长短时记忆层中,得到第二当前时间步的上下文向量;利用所述解码器中后处理网络对所述第二当前时间步的上下文向量进行第一线性投影,得到当前时间步的上下文标量;根据所述目标频谱,利用所述后处理网络对所述第二当前时间步的上下文向量进行第二线性投影并对所述第二线性投影后的上下文标量进行梅尔频谱预测,得到第二当前时间步的梅尔频谱;根据所述当前时间步的上下文标量,利用预设的第一激活函数计算梅尔频谱预测完成的概率;判断所述梅尔频谱预测完成的概率是否小于预设的阈值;当所述梅尔频谱预测完成的概率不小于所述阈值时,将所述第二当前时间步的上下文向量与所述第二当前时间步的梅尔频谱进行串联操作,并返回所述将串联结果输入至所述解码器中双层长短时记忆层中的步骤,直至所述梅尔频谱预测完成的概率小于所述阈值时,得到预测梅尔频谱。4.如权利要求3所述的基于文本的语音变声方法,其特征在于,所述利用所述解码器中的注意力网络提取所述隐藏特征矩阵中的上下文向量,得到第一当前时间步的上下文向量,包括:利用所述注意力网络中的线性层对所述隐藏特征矩阵进行线性投影,得到键矩阵;
将所述注意力网络中的注意力权重值输入至预设的卷积层中,生成位置特征矩阵;利用所述线性层对所述位置特征矩阵进行线性投影,得到附加特征矩阵;将所述附加特征矩阵与所述键矩阵进行相加,并利用预设的第二激活函数处理相加结果,得到注意力概率向量;利用预设的映射函数对所述注意力概率向量进行映射,得到当前注意力的权重向量;将所述当前注意力权重向量与所述隐藏特征矩阵进行相乘操作,得到第一当前时间步的上下文向量。5.如权利要求1所述的基于文本的语音变声方法,其特征在于,所述对所述音频数据进行频谱转换,得到目标频谱,包括:对所述音频数据进行预加重处理、分帧处理及加窗处理,得到目标语音信号;对所述目标语音信号进行傅里叶变换,得到目标频谱。6.如权利要求1所述的基于文本的语音变声方法,其特征在于,所述利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,包括:利用语种分析工具对所述目标文本进行语种分析,确定所述目标文本的语种;利用所述语种对应分词规则,对所述目标文本进行语句切分处理,得到切分语句文本;根据预设的文本格式规则,将所述切分语句文本中的非文字转化为文字;对所述切分语句文本进行分词处理,得到分词文本;根据预设的文字音素映射词典,对所述分词文本进行映射,得到音素;对所述音素进行向量转化,得到音素向量;按照文本顺序对所述音素向量进行编码排序,得到音素序列。7.如权利要求1所述的基于文本的语音变声方法,其特征在于,所述利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱,包括:利用预设的残差网络对所述预测梅尔频谱进行残差计算,得到残差梅尔频谱;将所述残差梅尔频谱与所述预测梅尔频谱进行叠加,得到目标梅尔频谱。8.一种基于文本的语音变声装置,其特征在于,所述装置包括:音素序列转化模块,用于获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器;目标梅尔频谱获取模块,用于对所述音频数据进行频谱转换,得到目标频谱,利用所述编码器对所述音素序列进行上下文特征提取,得到隐藏特征矩阵,根据所述隐藏特征矩阵及所述目标频谱,利用所述解码器对所述目标文本的梅尔频谱进行预测,得到预测梅尔频谱,利用所述残差网络对所述预测梅尔频谱进行残差连接,得到目标梅尔频谱;目标音频获取模块,用于利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任
一项所述的基于文本的语音变声方法。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于文本的语音变声方法。

技术总结


本发明涉及语音语义领域,揭露一种基于文本的语音变声方法、装置、电子设备及可读存储介质,所述方法包括:获取目标文本及音频数据,利用预设语音合成模型对所述目标文件进行音素转换,得到音素序列,其中,所述语音合成模型包括编码器、解码器、残差网络和声码器,对所述音频数据进行频谱转换,得到目标频谱,根据所述目标频谱,利用所述编码器、所述解码器和所述残差网络依次对所述音素序列进行处理,得到目标梅尔频谱;利用所述声码器对所述目标梅尔频谱进行音频转换,得到目标音频。本发明可以提高语音变声的精准率及效率。提高语音变声的精准率及效率。提高语音变声的精准率及效率。


技术研发人员:

朱超

受保护的技术使用者:

平安科技(深圳)有限公司

技术研发日:

2022.04.20

技术公布日:

2022/8/5

本文发布于:2024-09-22 14:39:09,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/21665.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   频谱   音素   目标
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议