基于ghost和iLPCnet的蒙古语语音合成方法


基于ghost和ilpcnet的蒙古语语音合成方法
技术领域
1.本发明属于人工智能技术领域,涉及语音合成,特别涉及一种基于ghost和ilpcnet的蒙古语语音合成方法。


背景技术:



2.语音合成(speech synthesis)技术是指计算机通过分析将任意文本转化为流畅语音的技术。国内外语音合成研究经历了基于共振峰合成、波形拼接,基于统计参数语音合成方法,以及基于深度神经网络的语音合成方法的发展历程。
3.现有的语音合成研究多集中于主流语言,而类似于蒙古语等冷僻语言由于语料稀缺等问题,其语音合成仍然处在初级阶段。


技术实现要素:



4.为了克服上述现有技术的缺点,本发明的目的在于提供一种基于ghost和ilpcnet的蒙古语语音合成方法,以提高蒙古语语音合成的速度与质量。
5.为了实现上述目的,本发明采用的技术方案是:
6.一种基于ghost和ilpcnet的蒙古语语音合成方法,其特征在于,包括如下步骤:
7.步骤1,提取蒙古文的文本特征,并将文本特征编码转换为音素序列,所述音素序列输入至bang预训练模型;
8.步骤2,利用bang预训练模型训练蒙古文音素信息,将音素信息对齐;
9.步骤3,基于加轻量级ghost模块的deepvoice3声学模型,通过音素信息生成声学特征;
10.步骤4,以融入蒙古语语音特征的ilpcnet模型为声码器,将声学特征转换为语音波形,进而实现蒙古语语音合成。
11.在一个实施例中,所述步骤1,编码器为ghost模块编码器。
12.在一个实施例中,所述bang预训练模型由多层堆叠的transformer编码器和多层堆叠的transformer解码器组成;所述transformer编码器使用自注意力机制,所述transformer解码器使用跨流可见多流自注意力机制;
13.所述跨流可见多流自注意力机制,在第一个预测流中,每个输入的蒙古语音素信息均是有依赖关系的,每个音素均以自回归进行预测;在剩余预测流中,第一个音素以非自回归进行预测,其他音素则以介于自回归和非自回归之间的方式进行预测;目标序列长度|y|=n,则bang预训练模型设置n个预测流,此时每个音素的前i个信息(i指任意长度)被掩码替换的情形,均能够在同一个时间步中被并行预测。
14.在一个实施例中,所述deepvoice3声学模型采用全卷积的编码器和解码器,并且以串行的方式组成,即以自回归的方式生成声学特征。
15.在一个实施例中,所述步骤3,在deepvoice3声学模型的编码器和解码器中,均采用多层堆叠的ghost模块替代全卷积模块,所述ghost模块包含卷积部分和线性变换部分,
所述卷积部分使用一维卷积,通过减少输出通道数的方式,减少参数量和计算量;所述线性变换部分使用多个线性映射,将少通道特征变为多通道特征,即通过动态调整通道数,保证输出与声学特征维度一致。
16.在一个实施例中,所述声码器由上采样网络和语音生成网络组成,所述上采样网络将输入的蒙古语声学特征的时间分辨率与原有蒙古语语音库中的语音信号的采样率相匹配,所述语音生成网络用于根据声学特征自动回归生成蒙古语语音。
17.在一个实施例中,所述上采样网络使用两个1*3的cnn卷积层提取声学特征的局部上下文,构造上下文向量,连接输入的声学特征,使上下文向量对当前帧信息(正在进行的从声学特征转换到语音波形的声学特征)更具支配性;所述语音生成网络使用完全连接层,将上采样网络构造的上下文向量的维度映射到上下文的输入维度,再经过滤波器过滤噪音,最后,通过在上采样网络中的结果(语音波形频谱图)确定上下文的输出维度,输出蒙古语语音。
18.在一个实施例中,所述声学特征为mel频谱。
19.与现有技术相比,本发明的有益效果是:
20.首先使用基于bang的预训练模型,对齐蒙古语音素信息,然后使用基于ghost模块的声学模型将音素直接生成mel频谱,最后ilpcnet声码器直接将mel频谱转化为语音波形,极大地提高了蒙古语语音合成的速度与语音合成的自然度。
附图说明
21.图1是本发明流程示意图。
22.图2是bang预训练模型中跨流可见多流注意力图。
23.图3是本发明的encoder-decoder模型解码流程。
24.图4是本发明ghost模型示意图。
25.图5是本发明的ilpcnet模型示意图。
具体实施方式
26.下面结合附图和实施例详细说明本发明的实施方式。
27.本发明一种基于ghost和ilpcnet的蒙古语语音合成方法,主要包括前端处理、预测mel频谱模型和mel频谱转换语音三个环节,如图1所示,其具体步骤如下:
28.步骤1,提取蒙古文的文本特征,并将文本特征编码转换为音素序列,将音素序列输入至bang预训练模型。
29.示例地,本发明中,蒙古文的文本形式变化多样的特点,可利用编码器尤其是ghost模块编码器提取。音素序列由音素组成,例如,将蒙语
“”
提取文本特征,表达为:“cqhihv”30.编码转换为音素,表达为:“q oe h ws h”31.步骤2,利用bang预训练模型训练蒙古文音素信息,将音素信息对齐。
32.bang预训练模型的机制可为本发明后续步骤使用非自回归方式提供音素对齐信息,最终实现并行输出声学特征。
33.bang预训练模型由多层堆叠的使用自注意力机制的transformer编码器和多层堆
叠的使用跨流可见多流自注意力机制的transformer解码器组成。为了实现对非自回归蒙古语音素序列的优化,且高效并行化计算,本发明transformer解码器使用跨流可见多流自注意力机制。
34.在该机制下,在第一个预测流中,每个输入的蒙古语音素信息均是有依赖关系的(即已知的),每个音素均以自回归进行预测或计算;在剩余预测流中,第一个音素以非自回归进行预测,其他音素则以介于自回归和非自回归之间的方式进行预测。假设目标序列长度|y|=n,bang预训练模型设置n个预测流,此时每个音素的前i个信息(i指任意长度)被[mask](掩码)替换的情形,都在同一个时间步中被并行预测。通过这种预训练方式,缓解了非自回归蒙古语音素序列中每个音素没有依赖关系的问题。为了优化显存占用和计算量,bang预训练模型采用了成块的计算方案。因为每个位置只会看到它之前的预测流信息,所以bang预训练模型从第一个预测流向最后一个预测流进行计算。
[0035]
具体地,如图2所示,本发明bang预训练模型对音素的训练过程如下:
[0036]
第一行预测蒙古语音素y4:展示了主要流(输入的每个音素有依赖关系的句子)和第一个预测流(输入的音素之间没有依赖关系的句子)。使用[m](即掩码)对主要流中的音素y1,y2,y3遮盖,以计算注意力,即音素y4可以通过音素y1,y2,y3条件概率进行预测。第一个预测流中所有的音素信息以完整的前文信息进行了自回归预测。
[0037]
第二行预测音素y4:每个被预测的音素的前文信息都被遮盖了一个字符,音素y4有y1,y2做支撑,但是y3被[m](即掩码)遮盖。第一个预测流音素y3的[m]与第二个预测流中的音素y4则组成了条件概率p(y3,y4|y1,y2)。即:随着注意力流的增大,前面的上文信息被遮盖,生成方式也从自回归向非自回归移动。
[0038]
最后一行展示了音素y4在第四个预测流中,最终以非自回归的方式进行预测。此时第四预测流中预测音素y4的[m](即掩码)由第一个预测流中音素y1的[m],第二个预测流中音素y2的[m]和第三个预测流中音素y3的[m]计算,此时没有任何前后文音素信息被使用。通过这种方式来弥合自回归与非自回归的差距。
[0039]
步骤3,基于加轻量级ghost模块的deepvoice3声学模型,如图3所示通过音素信息生成声学特征,相对传统的tts,生成语音中的韵律、表现力会更好。
[0040]
端到端语音合成首先需要由声学模型生成声学特征,比如mel频谱、线性谱等,本发明使用mel频谱,mel频率声谱图与线性频率声谱图(短时傅里叶变换的振幅)是相关的。从对人类听觉系统的响应测试中得到启发,mel频谱是对短时傅里叶变换的频率轴施加一个非线性变换,用较少的维度对频率范围进行压缩变换得到的,比波形样本更平滑,并且由于其每一帧都是对相位不变的,所以使用这样一个表征,更容易用均方误差(meansquarederror,mse)损失进行训练。对比传统声码器中使用的语言学和声学特征,mel声谱图作为音频信号的更低层次的声学表征,因此在mel声谱图上训练语音合成更直接。本发明在预先归一化的音素序列上训练,单词和音节的边界,标点符号也包括作为特殊标记。得到对齐的音素序列后进行并行训练,框架之间没有递归连接,可提高蒙古语语音合成的性能,加快训练速度,使音频过程更加流畅。
[0041]
deepvoice3声学模型包括编码器和解码器,传统的deepvoice3声学模型采用全卷积的编码器和解码器,并且以串行的方式组成,即以自回归的方式生成mel频谱,其缺点是参数量大,合成语音速度慢。
[0042]
如图3所示,本发明在现有deepvoice3声学模型的编码器和解码器中,均采用多层堆叠的ghost模块替代全卷积模块。其中ghost模块将普通卷积层分为两部分,如图4所示,即卷积部分和线性变换部分。卷积部分使用一维卷积,通过减少输出通道数的方式,减少参数量和计算量。线性变换部分使用多个线性映射,将少通道特征变为多通道特征,即通过动态调整通道数,保证输出与mel频谱维度一致。
[0043]
本发明据此得到的声学模型中,编码器和解码器以前馈的方式进行,编码器和解码器之间通过音素对齐信息连接。
[0044]
模型输入文本,含有ghost模块的编码器编码之后,提供文本表征,通过bang预训练,获得对齐音素信息,实现编码步和解码步的硬性对齐,再通过含有ghost模块解码器解码后,并行地预测输出mel频谱图。
[0045]
步骤4,以融入蒙古语语音特征的ilpcnet模型为声码器,将声学特征转换为语音波形,进而实现蒙古语语音合成。
[0046]
将声学特征作为条件输入声码器,构造基于ilpcnet的神经网络声码器。
[0047]
该声码器是一个将数字信号处理(dsp)和神经网络(nn)巧妙结合应用于蒙古语语音合成的声码器中。这个声码器可以在普通的cpu上实时合成高质量语音。如图5所示,它由两个子网络组成:upsampling network(上采样网络),它将输入声学模型中的蒙古语声学特征的时间分辨率与原有蒙古语语音库中的语音信号的采样率相匹配;waveform generation network(语音生成网络),自动回归生成蒙古语语音。在上采样网络中,使用两个1*3的cnn卷积层提取声学特征的局部上下文,构造上下文向量,连接输入的声学特征,目的是使上下文向量对当前帧信息(正在进行的从声学特征转换到语音波形的声学特征)更具支配性。在语音生成网络中,使用完全连接层,使用将(上采样网络构造的)上下文向量的维度映射到上下文的输入维度,再经过滤波器过滤噪音,最后,通过在上采样网络中的结果(语音波形频谱图)确定上下文的输出维度,输出蒙古语语音。

技术特征:


1.一种基于ghost和ilpcnet的蒙古语语音合成方法,其特征在于,包括如下步骤:步骤1,提取蒙古文的文本特征,并将文本特征编码转换为音素序列,所述音素序列输入至bang预训练模型;步骤2,利用bang预训练模型训练蒙古文音素信息,将音素信息对齐;步骤3,基于加轻量级ghost模块的deepvoice3声学模型,通过音素信息生成声学特征;步骤4,以融入蒙古语语音特征的ilpcnet模型为声码器,将声学特征转换为语音波形,进而实现蒙古语语音合成。2.根据权利要求1所述基于ghost和ilpcnet的蒙古语语音合成方法,其特征在于,所述步骤1,编码器为ghost模块编码器。3.根据权利要求1所述基于ghost和ilpcnet的蒙古语语音合成方法,其特征在于,所述bang预训练模型由多层堆叠的transformer编码器和多层堆叠的transformer解码器组成;所述transformer编码器使用自注意力机制,所述transformer解码器使用跨流可见多流自注意力机制;所述跨流可见多流自注意力机制,在第一个预测流中,每个输入的蒙古语音素信息均是有依赖关系的,每个音素均以自回归进行预测;在剩余预测流中,第一个音素以非自回归进行预测,其他音素则以介于自回归和非自回归之间的方式进行预测;目标序列长度|y|=n,则bang预训练模型设置n个预测流,此时每个音素的前i个信息被掩码替换的情形,均能够在同一个时间步中被并行预测。4.根据权利要求1所述基于ghost和ilpcnet的蒙古语语音合成方法,其特征在于,所述deepvoice3声学模型采用全卷积的编码器和解码器,并且以串行的方式组成,即以自回归的方式生成声学特征。5.根据权利要求4所述基于ghost和ilpcnet的蒙古语语音合成方法,其特征在于,所述步骤3,在deepvoice3声学模型的编码器和解码器中,均采用多层堆叠的ghost模块替代全卷积模块,所述ghost模块包含卷积部分和线性变换部分,所述卷积部分使用一维卷积,通过减少输出通道数的方式,减少参数量和计算量;所述线性变换部分使用多个线性映射,将少通道特征变为多通道特征,即通过动态调整通道数,保证输出与声学特征维度一致。6.根据权利要求1所述基于ghost和ilpcnet的蒙古语语音合成方法,其特征在于,所述声码器由上采样网络和语音生成网络组成,所述上采样网络将输入的蒙古语声学特征的时间分辨率与原有蒙古语语音库中的语音信号的采样率相匹配,所述语音生成网络用于根据声学特征自动回归生成蒙古语语音。7.根据权利要求6所述基于ghost和ilpcnet的蒙古语语音合成方法,其特征在于,所述上采样网络使用两个1*3的cnn卷积层提取声学特征的局部上下文,构造上下文向量,连接输入的声学特征,使上下文向量对当前帧信息更具支配性;所述语音生成网络使用完全连接层,将上采样网络构造的上下文向量的维度映射到上下文的输入维度,再经过滤波器过滤噪音,最后,通过在上采样网络中的结果确定上下文的输出维度,输出蒙古语语音。8.根据权利要求1至7任一权利要求所述基于ghost和ilpcnet的蒙古语语音合成方法,其特征在于,所述声学特征为mel频谱。

技术总结


本发明公开一种基于ghost和iLPCnet的蒙古语语音合成方法,基于Bang预训练模型,对齐蒙古语音素信息序列;基于ghost的声学模型,根据音素序列生成声学特征;以iLPCnet模型为声码器,进行声学特征到语音波形的转换。本发明使用Encoder-Decoder模型将蒙古语文本转化成音素,其次使用基于ghost的声学模型将音素直接生成mel频谱,iLPCnet声码器直接将mel频谱转化为语音波形,可以无缝地集成到端到端的TTS系统降低了对参数的需求,提高了语音合成的速度,适合于小语种的语音合成。适合于小语种的语音合成。适合于小语种的语音合成。


技术研发人员:

仁庆道尔吉 张文静 萨和雅 代钦 锡林格日勒

受保护的技术使用者:

内蒙古工业大学

技术研发日:

2022.03.15

技术公布日:

2022/7/29

本文发布于:2024-09-20 21:27:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/18923.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:蒙古语   音素   声学   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议