语音合成配音系统的制作方法

1.本发明涉及语音处理

技术领域

：
：，尤其涉及一种语音合成配音系统。

背景技术

：
：：2.现今的语音合成(text-to-speech，tts)系统，在多说话者方面，为了让合成的语音能尽量与原说话者相同，需要提取说话者的语音特征，如：音、韵律、情绪、语速等。其提取方式大致分为两种，一种是利用长时间训练完成的语者辨识模型，把说话者的语音特征编码为一个语音特征向量(speakervector，sv)的算法直接拿来使用。另一种则是将说话者编号，通过长时间训练语言模型后生成一个语者表格(speakingembeddinglookuptable)，以查询表格的形式，到相对应的说话者并取出其语音特征向量(speakervector，sv)。3.其中第一种方法，由于说话者辨识强调无论说话者们的音再相近，都要有能够分辨说话者的能力，因此利用此方法获得的语音特征向量(speakervector，sv)，即使是人耳分辨不出差异的声音，都会被分类成截然不同的语音特征向量(speakervector，sv)。这不利于语音合成的使用，因为要合成出相似的说话者的声音，所需要的语音特征向量(speakervector，sv)也该是相近的，这也代表此方法所得到的语音特征向量(speakervector，sv)并不完全包含这个说话者的所有特征。4.第二种方法，由于训练后的模型其表格是固定的，所以模型的扩充性非常低，只能合成出表格中已存在的说话者的语音，如果需要有新的说话者加入，则需再收集新说话者的语音数据，并将整个模型重新训练，这将会非常耗时，阻碍了语音合成(text-to-speech，tts)模型的发展。5.另外现今的语音合成(text-to-speech，tts)模型都是建立在神经网络之上，因为神经网络的自适应性，在语音数据没有提供确切相对应的物理量的情况下，所得到的语音特征参数是纠缠在一起的，亦即无法针对特定特征(音、韵律、情绪、语速等)做个别调整。而其相对应的物理量又较难以量化，或者量化方式存在一定的误差，故难以达成可调控的语音合成(text-to-speech，tts)模型系统。技术实现要素：6.针对现有技术中的问题，本发明实施例公开了一种语音合成配音系统，通过固定的语音合成模型减少了收集语音数据已经训练模型的时间和金钱成本并提高模型的应用广泛性。7.一方面，本发明实施例提出的一种语音合成配音系统，包括：一语音输入单元，用于取得一语音信息；一输入单元，用于取得一目标文字信息及一参数调整指令；一处理单元，包括：一声学模块，用于取得该语音信息的一语音特征向量及一声学参数；一文字音素分析模块，用于依据该目标文字信息分析对应该目标文字信息的一音素序列；一音频合成单元，用于依据该参数调整指令调整该语音信息的该声学参数，并将调整该声学参数后的该语音信息结合该目标文字信息形成一合成音频。8.在本发明的一个实施例中，所述声学模块还包括一语音特征撷取模块、一语音状态分析模块及一语音匹配模块。9.在本发明的一个实施例中，所述语音特征撷取模块用于依据该语音信息，将对应该语音信息的一语音特征转换为该语音特征向量。10.在本发明的一个实施例中，所述语音状态分析模块用于取得该声学参数。11.在本发明的一个实施例中，所述音频合成单元用于导入一神经网络模型，并依据该语音特征向量及该声学参数，训练该神经网络模型，以建立一语音合成模型。12.在本发明的一个实施例中，所述音频合成单元用于将一语音数据库的一目标语音档案输入该声学模块中，并通过该神经网络模型正向传播取得一目标语音特征向量及一目标声学参数。13.在本发明的一个实施例中，所述音频合成单元用于依据该目标语音特征向量及该目标声学参数，正向传播一预测目标音档。14.在本发明的一个实施例中，所述处理单元用于计算该预测目标音档及该目标语音档案的一误差值。15.在本发明的一个实施例中，所述神经网络模型用于依据该误差值反向传播该误差值，并依据该误差值调整该神经网络模型的该音频合成单元及该声学模块。16.另一方面，本发明实施例提出的一种语音合成配音系统，包括：一语音输入单元，用于取得一语音信息；一输入单元，用于取得一目标文字信息及一参数调整指令；一处理单元，包括：一声学模块，用于取得该语音信息的一语音特征向量及一声学参数；一文字音素分析模块，用于依据该目标文字信息分析对应该目标文字信息的一音素序列；一音频合成单元，用于将该参数调整指令导入一语音合成模型以调整该语音信息的该声学参数，并结合该目标文字信息形成一合成音频。17.由上可知，本发明上述技术特征可以具有如下一个或多个有益效果：本发明实施例仅需训练一个固定的语音合成模型，给予指定说话者的少量语音数据(例如1至10句)或是自行设定一个语者语音特征向量(speakervector，sv)及相对应的语音特征参数，就可在所有情境中使用，大量减少收集语音数据已经训练模型的时间和金钱成本并提高模型的应用广泛性，同时也提供说话者做跨语言转换的方式。附图说明18.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。19.图1是本发明一实施例提供的一种语音合成配音系统的结构示意图；20.图2是本发明一实施例提供的一种语音合成模型的训练构架示意图；21.图3是本发明一实施例提供的一种声学模块的音频分析的流程图；22.图4是本发明一实施例提供的一种语音合成配音系统的流程图。23.主要组件符号说明：24.110为语音输入单元；120为输入单元；130为处理单元；140为音频合成单元；141为合成语音；150为声学模块；160为文字音素分析模块；211为音档文字；270为数据库。具体实施方式25.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。26.下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互结合。27.图1是本发明实施例提供的一种语音合成配音系统的结构示意图。在图1中，语音合成配音系统例如包括：一语音输入单元110、一输入单元120、一处理单元130及一音频合成单元140。28.语音输入单元110通过音频收集装置取得说话者的语音信息。输入单元120可以是键盘、鼠标、手写板或其他各种可输入文字的装置，主要是用于取得一目标文字信息以及在音频合成最后阶段时的一参数调整指令。29.处理单元130至少包括：一声学模块150及一文字音素分析模块160。声学模块150还包括一语音特征撷取模块、一语音状态分析模块及一语音匹配模块，声学模块150用于取得该语音信息的一语音特征向量及一声学参数，更进一步来说，语音特征撷取模块主要依据该语音信息，将对应该语音信息的一语音特征转换为该语音特征向量；语音状态分析模块用于取得该声学参数；文字音素分析模块160依据目标文字信息分析对应目标文字信息的一音素序列。30.如图2所示，图2是本发明实施例提供的一种语音合成模型的训练构架示意图。音频合成单元140导入一神经网络模型，并依据语音特征向量及声学参数，训练神经网络模型，以建立一语音合成模型。在该神经网络模型的训练过程中，音频合成单元140将一数据库270的一目标语音档案输入声学模块150中，并通过该神经网络模型正向传播取得一目标语音特征向量及一目标声学参数。音频合成单元140依据目标语音特征向量、目标声学参数及对应的音档文字211，正向传播一合成语音141。这里的合成语音是一个预测目标音档，处理单元130计算预测目标音档及目标语音档案的一误差值，神经网络模型依据该误差值反向传播该误差值并依据该误差值调整音频合成单元140及声学模块150。更进一步来说，通过误差值在训练神经网络模型的过程中调整各项参数，使训练后的语音合成模型能将误差降到最低。借此，当音频合成单元140所导入的语音信息依据该参数调整指令调整该语音信息的该声学参数后，将调整该声学参数后的该语音信息结合该目标文字信息形成一合成音频。31.训练完成后语音合成器的接受语者特征及声学特征包含：语音特征提取模型的输出特征；语音特征提取模型的输出特征依需求微调；依需求自定义特征。32.如图3所示，图3是本发明实施例提供的一种声学模块150的音频分析的流程图。33.步骤s310：取得语音音档；34.步骤s320：导入语音特征模型；35.步骤s330：取得声学参数及声音特征向量；36.在本实施例中，声学模块150也可以通过导入神经网络模型的方式来建立声音特征撷取模型，依据声学参数及声音特征向量，训练深层神经网络模型，以建立语音特征模型。37.其中，声学模块150获得训练数据，包含大量的说话者音档；以其音档信息进行一机器学习程序，训练出一语音特征提取模型；以及利用该语音特征提取模型，针对一输入音档进行语音特征提取，以提取出语者特征及该音档对应声学特征。其中该语音特征提取模型包含多个权重的折积(convolution)运算及注意力模型(attentionmodel)，训练数据的语者音档包含一种或以上的语言。38.在本实施例中，语者音档特征为可分离独立参数，语者音档特征包含但不限于性别、音、高亢程度、低沉程度、甜美程度、磁性程度、浑厚程度、频谱包络(spectralenvelope)、平均频率、频谱质心(spectralcentroid)、频谱散布度(spectralspread)、频谱平坦度(spectralflatness)、频谱滑动(spectralrolloff)、频谱变迁(spectralflux)，调音部位：唇、舌冠、舌背、喉音，调音方式：双唇、唇齿、舌唇、齿、齿龈、齿后、卷舌、龈腭、硬腭、软腭、小舌、咽、会厌、声门等使用方式。39.在本实施例中，声学特征为可分离独立参数，声学特征包含但不限于音量、音高、语速、音长(duration)、速度、间隔、韵律、开心程度、难过程度、生气程度、疑问程度、喜悦程度、愤怒程度、悲伤程度、恐惧程度、厌恶程度、惊奇程度、羡慕程度。40.如图4所示，图4是本发明实施例提供的一种语音合成配音系统的流程图。当模型已训练完成后，仅需要单句音档即可通过声学处理器得到语音特征向量(speakervector，sv)和声学参数，此时可以选择使用音档的声学状态或是自行设定参数，便能以该音档的说话者的声音，合成出任意情绪、速度、音高等的句子，且此音档不需要是属于已知的说话者。其主要步骤如下：41.合成示例如：若想以第1位说话者的声音，以较慢的速度讲出“防疫期间请确实遵守各项防疫措施”时，需包含下列步骤；42.步骤s410：取得欲合成的音档，即录制一段第1位说话者任意语言和句子的语音，如：“今天天气很好”。43.步骤s420：利用声学处理器分析，即将语音转换为频谱或直接输入至声学处理器提取各项特征；44.步骤s430：取得第1位说话者声音的声学参数；45.步骤s450：调降速度项参数，其余参数不变；46.步骤s460：将欲合成文字转换为音素(phone)的形式；47.步骤s470：将步骤s450的参数及步骤s460的音素输入至tts合成器中；48.步骤s480：输出合成语音。即输出一段以第1位说话者的语音说(念)出“防疫期间请确实遵守各项防疫措施”的标语。49.综上所述，本发明具有下列优点：50.1.通过新型的说话者编码技术，得到可泛用的语音特征向量(speakervector，sv)，并应用于语音合成(text-to-speech，tts)模型，使语音合成(text-to-speech，tts)模型可调节未知的说话者，甚至可自行生成说话者。51.2.可使原始音档与生成语音间做跨语言输出。52.3.可量化各项声学特征且可控制的语音合成(text-to-speech，tts)模型。53.可以理解的是，前述各个实施例仅为本发明的示例性说明，在技术特征不冲突、结构不矛盾、不违背本发明的发明目的前提下，各个实施例的技术方案可以任意组合、搭配使用。54.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12当前第1页12

技术特征：

1.一种语音合成配音系统，其特征在于，包括：一语音输入单元，用于取得一语音信息；一输入单元，用于取得一目标文字信息及一参数调整指令；一处理单元，包括：一声学模块，用于取得该语音信息的一语音特征向量及一声学参数；一文字音素分析模块，用于依据该目标文字信息分析对应该目标文字信息的一音素序列；一音频合成单元，用于依据该参数调整指令调整该语音信息的该声学参数，并将调整该声学参数后的该语音信息结合该目标文字信息形成一合成音频。2.如权利要求1所述的语音合成配音系统，其特征在于，该声学模块还包括一语音特征撷取模块、一语音状态分析模块及一语音匹配模块。3.如权利要求2所述的语音合成配音系统，其特征在于，该语音特征撷取模块用于依据该语音信息，将对应该语音信息的一语音特征转换为该语音特征向量。4.如权利要求2所述的语音合成配音系统，其特征在于，该语音状态分析模块用于取得该声学参数。5.如权利要求1所述的语音合成配音系统，其特征在于，该音频合成单元用于导入一神经网络模型，并依据该语音特征向量及该声学参数，训练该神经网络模型，以建立一语音合成模型。6.如权利要求5所述的语音合成配音系统，其特征在于，该音频合成单元用于将一语音数据库的一目标语音档案输入该声学模块中，并通过该神经网络模型正向传播取得一目标语音特征向量及一目标声学参数。7.如权利要求6所述的语音合成配音系统，其特征在于，该音频合成单元用于依据该目标语音特征向量及该目标声学参数，正向传播一预测目标音档。8.如权利要求7所述的语音合成配音系统，其特征在于，该处理单元用于计算该预测目标音档及该目标语音档案的一误差值。9.如权利要求8所述的语音合成配音系统，其特征在于，该神经网络模型用于依据该误差值反向传播该误差值，并依据该误差值调整该神经网络模型的该音频合成单元及该声学模块。10.一种语音合成配音系统，其特征在于，包括：一语音输入单元，用于取得一语音信息；一输入单元，用于取得一目标文字信息及一参数调整指令；一处理单元，包括：一声学模块，用于取得该语音信息的一语音特征向量及一声学参数；一文字音素分析模块，用于依据该目标文字信息分析对应该目标文字信息的一音素序列；一音频合成单元，用于将该参数调整指令导入一语音合成模型以调整该语音信息的该声学参数，并结合该目标文字信息形成一合成音频。

技术总结

本发明实施例公开了一种语音合成配音系统，包括：一语音输入单元，用于取得一语音信息；一输入单元，用于取得一目标文字信息及一参数调整指令；一处理单元，包括：一声学模块，用于取得该语音信息的一语音特征向量及一声学参数；一文字音素分析模块，用于依据该目标文字信息分析对应该目标文字信息的一音素序列；一音频合成单元，用于依据该参数调整指令调整该语音信息的该声学参数，并将调整该声学参数后的该语音信息结合该目标文字信息形成一合成音频。一合成音频。一合成音频。