韵律编码器的训练方法、语音转换方法及其相关产品与流程

1.本发明的实施方式涉及信息处理技术领域，更具体地，本发明的实施方式涉及一种韵律编码器的训练方法、语音转换方法、韵律编码器的训练装置、语音转换装置、执行前述方法的设备和计算机可读存储介质。

背景技术：

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。
3.语音转换的一个重要方面是将语言内容从原说话人传递到目标说话人。深度学习可以实现许多语音转换场景：第一种是成对说话人的非并行数据的语音转换。具有非并行训练数据的语音转换是一项类似于图像到图像转换的任务。第二种是将说话人从语言内容中解耦出来区分说话人与语言内容：在语音转换的背景下，语音可以被认为是说话人语音身份和语言内容的组合。
4.第三种是利用从文本到语音的语音合成(text-to-speech，即“tts”)系统进行语音转换。第四种是利用自动语音识别技术(automatic speech recognition，简称asr)进行语音转换。语音合成(tts)，又称文语转换技术，是将文字信息转变为可以听得懂的、流利的语音输出的一种技术。tts系统为语音遵循语言内容提供了一种机制。利用tts机制的想法可以通过不同的方式来激励。其与我们比较熟悉的语音识别技术目标相反。asr是将声音转化为文字，类比于人类的耳朵。而tts则是将文字转化为语音(朗读出来)，类比于人类的嘴巴。
5.随着人工智能技术的发展，语音合成技术(tts)广泛应用于教育产品中。但是语音合成的过程中，难以细粒度地控制它的发音时长、强调、韵律和情感。这些难以建模的音素导致语音合成的效果较差。而语音转换可以控制原说话人的说话节奏，精准定制目标音的语音，在部分场景下具有一定优势。语音转换与语音合成任务的不同在于：语音转换是将原语音转换成指定说话人音的语音，而语音合成是将文字转换成语音。
6.目前，在利用深度学习模型进行语音转换时，语音的mel谱经过语音识别的多层编码后，由于瓶颈特征在经过语音识别的多层编码后，会损失原说话人的腔调、韵律和情感等信息。为了增强转换语音对原语音的韵律信息建模，目前的常用做法是使用一个深度神经网络从“mel谱/wav2vec的输出特征”中提取韵律特征。然而，从wav2vec的输出特征中提取韵律特征需要采用一个大型的无监督语音模型来提取语音的压缩特征，存在一定的韵律损失，同时模型的特征提取难度高，不易实现。而且这种方式所输出的韵律特征中蕴藏着丰富的说话人信息，不进行处理的话容易影响到语音转换的效果。
7.基于此，如何解决现有语音转换过程中韵律特征提取难度高、容易受到干扰的问题，对于提高语音转换的效果具有重要作用。

技术实现要素：

8.已知的语音转换过程中韵律特征提取效果不理想，这是非常令人烦恼的过程。
9.为此，非常需要一种改进的韵律编码器的训练方法、语音转换方法及其相关产品，以使韵律编码器能够高保真的提取韵律信息，从而使得转换语音能够更好地保留原说话人的韵律相关信息。
10.在本上下文中，本发明的实施方式期望提供一种韵律编码器的训练方法及其相关产品。
11.在本发明实施方式的第一方面中，提供了一种韵律编码器的训练方法，包括：基于语音识别模型从语音的训练数据中获取所述训练数据的多层次编码特征；所述多层次编码特征基于语音识别模型的编码器的多个编码输出层提取；利用所述训练数据的多层次编码特征对韵律编码器进行训练，以将训练好的韵律编码器用于韵律信息的提取。
12.在本发明的一个实施例中，所述语音识别模型包括编码器，所述编码器具有多个编码输出层，每个编码输出层用于输出单层次编码特征，所述基于语音识别模型从训练数据中获取训练数据的多层次编码特征包括：将所述训练数据的mel谱输入语音识别模型；从所述语音识别模型中编码器的多个编码输出层中提取多个单层次编码特征；基于所述多个单层次编码特征生成多层次编码特征。
13.在本发明的另一个实施例中，所述韵律编码器融合通道注意力机制和空间注意力机制，以对所述多层次编码特征进行通道注意力加权和空间注意力加权。
14.在本发明的又一个实施例中，所述韵律编码器包括通道注意力模块和空间注意力模块，其中对所述多层次编码特征进行通道注意力加权和空间注意力加权包括：利用所述通道注意力模块计算所述训练数据的多层次编码特征对应的通道特征权重分布，以进行通道注意力加权；利用所述空间注意力模块计算通道注意力加权后的多层次编码特征对应的空间特征权重分布，以进行空间注意力加权。
15.在本发明的再一个实施例中，所述利用所述通道注意力模块计算所述训练数据的多层次编码特征对应的通道特征权重分布，以进行通道注意力加权包括：将通道特征权重分别与所述多层次编码特征进行相乘计算，以得到更新通道权重的多层次编码特征。
16.在本发明的一个实施例中，所述利用所述空间注意力模块计算通道注意力加权后的多层次编码特征对应的空间特征权重分布，以进行空间注意力加权包括：将空间特征权重分别与所述更新通道权重的多层次编码特征进行相乘计算，以得到韵律编码器输出的编码信息。
17.在本发明的另一个实施例中，所述利用所述训练数据的多层次编码特征对韵律编码器进行训练包括：所述韵律编码器根据所述训练数据的多层次编码特征得到韵律编码器输出的编码信息；对所述韵律编码器通过梯度反转对抗训练，以去除韵律编码器输出的编码信息中残留的说话人信息，从而提取所述训练数据的韵律信息。
18.在本发明的再一个实施例中，所述语音训练数据中包括说话人标签，其中对抗训练包括：利用所述韵律编码器输出的编码信息和所述训练数据包含的说话人标签对说话人分类器进行训练，以得到分类结果；基于所述分类结果反向更新所述韵律编码器中神经网络的权重，以完成梯度反转，从而去除韵律编码器输出的编码信息中残留的说话人信息。
19.在本发明实施方式的第二方面中，本发明提供了一种韵律编码器的训练装置，包
括：语音识别模块，其配置成从语音的训练数据中获取所述训练数据的多层次编码特征；所述多层次编码特征基于语音识别模型的编码器的多个编码输出层提取；韵律编码器，其与所述语音识别模块连接，并且配置成利用所述训练数据的多层次编码特征进行训练，以将训练好的韵律编码器用于韵律信息的提取。
20.在本发明实施方式的第三方面中，本发明还提供了一种语音转换方法，包括：基于语音识别模型从待转换语音中获取语音的瓶颈特征和多层次编码特征，所述多层次编码特征基于所述语音识别模型的编码器的多个编码输出层提取；利用内容编码器从所述瓶颈特征中提取说话内容信息；利用训练好的韵律编码器从多层次编码特征中提取韵律信息，所述训练好的韵律编码器基于前文以及下文多个实施例所述的方法训练得到；以及将韵律信息、说话内容信息和目标说话人标签输入解码器，以完成语音转换。
21.在本发明的一个实施例中，所述语音识别模型包括编码器，所述编码器具有多个编码输出层，每个编码输出层用于输出单层次编码特征，所述基于语音识别模型从待转换语音中获取语音的瓶颈特征和多层次编码特征包括：将所述待转换语音的mel谱输入语音识别模型；从所述语音识别模型中编码器的多个编码输出层中提取多个单层次编码特征；基于所述多个单层次编码特征生成多层次编码特征，将最后一个编码输出层的输出作为瓶颈特征。
22.在本发明的另一个实施例中，将韵律信息、说话内容信息和目标说话人标签输入解码器，以完成语音转换包括：将所述韵律信息、说话内容信息和目标说话人标签进行融合，以解码生成频谱特征；根据所述频谱特征合成语音，以实现语音转换。
23.在本发明的再一个实施例中，所述根据所述频谱特征合成语音，以实现语音转换包括：利用声码器从所述频谱特征中恢复语音波形，以合成语音。
24.在本发明实施方式的第四方面中，本发明还提供了一种语音转换装置，包括：语音识别模块，其配置成从待转换语音中获取语音的瓶颈特征和多层次编码特征，所述多层次编码特征基于语音识别模型的编码器的多个编码输出层提取；内容编码器，其配置成从所述瓶颈特征中提取说话内容信息；韵律编码器，其配置成从多层次编码特征中提取韵律信息，所述韵律编码器基于前文以及下文多个实施例所述的方法训练得到；以及解码器，其与所述语音识别模块、内容编码器和韵律编码器连接，并且配置成根据所述韵律信息、说话内容信息和目标说话人标签完成语音转换。
25.在本发明实施方式的第五方面中，提供了一种设备，包括：处理器；以及存储器，其存储有用于对韵律编码器进行训练的计算机指令，当所述计算机指令由所述处理器运行时，使得所述设备执行根据前文以及下文多个实施例所述的韵律编码器的训练方法；所述存储器还存储有语音转换的计算机指令，当所述计算机指令由所述处理器运行时，使得所述设备执行根据前文以及下文多个实施例所述的语音转换方法。
26.在本发明实施方式的第六方面中，提供了一种计算机可读存储介质，包含对韵律编码器进行训练或语音转换的程序指令，当所述程序指令由处理器执行时，使得实现根据前文以及下文多个实施例所述的韵律编码器的训练方法，或当所述程序指令由处理器执行时，使得实现根据前文以及下文多个实施例所述的语音转换方法。
27.根据本发明实施方式的一种韵律编码器的训练方法及其相关产品，可以基于训练数据的多层次编码特征对韵律编码器进行训练，使得利用该韵律编码器进行语音转换时，
能够提取更加丰富的韵律信息，从而减少语音转换过程中的韵律损失，有效提升了语音转换的效果，为用户带来了更好的体验。在一些实施例中，在进行韵律编码器的训练时，还在该韵律编码器中融合通道注意力机制和空间注意力机制，以对提取不同层次的语音韵律特征进行有侧重的加权，使得转换语音能够更好地保留原说话人的韵律相关信息。
28.进一步地，本公开实施例还通过在训练过程中对韵律编码器进行梯度翻转对抗训练，从而有效去除韵律编码器输出的编码信息中残留的说话人信息，减小对语音转换结果的干扰，从而实现高保真的韵律表征。
附图说明
29.通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：
30.图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图；
31.图2示意性地示出了根据本发明一个实施例的韵律编码器的训练方法的流程图；
32.图3示意性地示出了根据本发明另一实施例的韵律编码器的训练方法的流程图；
33.图4示意性地示出了根据本发明一个实施例的多层次编码特征提取过程的示意图；
34.图5示意性地示出了根据本发明一个实施例的对多层次编码特征进行通道注意力和空间注意力加权的示意图；
35.图6示意性地示出了根据本发明一个实施例的注意力加权过程的示意图；
36.图7示意性地示出了根据本发明一个实施例的语音转换方法的流程图；
37.图8示意性地示出了根据本发明实施例的韵律编码器的训练装置的示意框图；
38.图9示意性地示出了根据本发明实施例的语音转换装置的示意框图；
39.图10示意性地示出了根据本发明实施例的设备的示意框图。
40.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
41.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
42.图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算系统100可以包括：中央处理单元(cpu)101、随机存取存储器(ram)102、只读存储器(rom)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有cpu 101、ram 102、rom 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1
所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备
。
43.本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。
44.可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
45.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
46.计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。
47.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(lan)或广域网(wan))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
48.下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
49.也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
50.也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
51.根据本发明的实施方式，提出了一种韵律编码器的训练方法及其相关产品。
52.在本文中，需要理解的是，所涉及的术语：
53.语音转换(voice conversion，vc)：指将一个人的声音保持说话内容信息不变，使之听起来像另外一个人的声音。
54.mel谱：语音的一种通用的压缩方法。mel谱是频率转换为mel尺度的谱图。根据我们人类听觉的特性，我们对低频声音比较敏感，对高频声音没那么敏感。所以当声音频率线性增大时，频率越高，我们越难听出差别，因此不用线性谱而是采用对数谱。mel谱的核心就是mel-scale，一个对数尺度的对于频率感知线性变化的尺度。人类对于频率的感知在mel尺度上更加敏感。其中mel谱主要包含三大特性：时域-频域信息、感知相关的振幅信息和感知相关的频域信息。mel谱的各种应用中主要包括以下几种类型：audio分类、自动情感识别、音乐流派分类和音乐乐器分类等。本公开实施例中主要描述mel谱在韵律编码器中的应用。
55.cbam(convolutional block attention module)注意力机制：cbam注意力机制分为空间注意力和通道注意力两部分。
56.通道注意力：通过建模各个特征通道的重要程度，然后针对不同的任务增强或者抑制不同的通道。
57.空间注意力：不是所有的区域对任务的贡献都是同样重要的，只有任务相关的区域才是需要关心的，比如分类任务的主体，空间注意力模型就是寻网络中最重要的部位进行处理。
58.此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
59.下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。
60.发明概述
61.本发明人发现，现有的韵律编码器不能很好地提取说话人的韵律信息，导致语音转换后的效果不佳。具体地，在语音转换系统中，mel谱经过语音识别的多层编码后得到瓶颈特征。由于瓶颈特征在经过语音识别的多层编码后，会损失原说话人的腔调、韵律和情感等信息，而且mel谱或wav2vec的输出特征包含丰富的说话人信息，导致韵律编码器无法从mel谱或wav2vec的输出特征提取丰富且有效的韵律信息，造成韵律表征不清晰，无法有效在转换后的语音中充分保留原说话人的韵律信息。
62.基于此，发明人发现若要充分保留语音中的韵律信息，其关键问题在于如何增强转换后的语音对原语音的韵律信息建模，使得韵律编码器能够输出更加丰富的韵律信息。具体地，可以通过语音识别模型的编码器获取多层次编码特征，利用多层次编码特征中的丰富的韵律信息对韵律编码器进行训练，从而提高韵律编码器提取韵律信息的效果。
63.在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。
64.示例性方法
65.下面参考图2来描述根据本发明示例性实施方式的韵律编码器的训练方法。需要注意的是，本发明的实施方式可以应用于适用的任何场景。
66.图2示意性地示出了根据本发明一个实施例的韵律编码器的训练方法200的流程图。
67.如图2所示，在步骤s201处，基于语音识别模型从语音的训练数据中获取训练数据的多层次编码特征。其中多层次编码特征可以基于语音识别模型的编码器的多个编码输出层提取。在一些实施例中，语音识别模型的编码器包括多个编码输出层，各编码输出层之间存在一定的关联，每个编码输出层能够输出相应层的编码特征，而每层的编码特征中包含的说话人音、韵律和语言内容信息比例不同，具体表现为越是高层的特征，其音、韵律的信息越多，语言内容的信息越少。基于此，根据语音识别模型从语音的训练数据中提取多层次编码特征，能够获取更加丰富且多尺度的韵律表征，并且多层次编码特征具有优秀的抗噪能力。
68.在步骤s202处，利用训练数据的多层次编码特征对韵律编码器进行训练，以将训练好的韵律编码器用于韵律信息的提取。在一些实施例中，根据训练数据的多层次编码特征以及该训练数据对应的韵律信息对韵律编码器进行训练，可以有效提升该韵律编码器提取韵律信息的能力。
69.以下结合图3对上述各个步骤的一些可能的示例性实现方式进一步说明。
70.图3示意性地示出了根据本发明另一实施例的韵律编码器的训练方法300的流程图。如图3所示，在步骤s301处，将训练数据的mel谱输入语音识别模型。在一些实施例中，语音识别模型中包括编码器和解码器两个部分，本方案中仅使用了语音识别模型中的编码器，且该编码器的输入为mel谱，输出为字符。
71.在步骤s302处，从语音识别模型中编码器的多个编码输出层中提取多个单层次编码特征。在一些实施例中，编码器具有多个编码输出层，每个编码输出层用于输出单层次编码特征。不同层次的编码特征具有不同的特性，越是高层的特征，音、韵律的信息越多，语言内容的信息越少。
72.在步骤s303处，基于多个单层次编码特征生成多层次编码特征。在一些实施例中，根据编码器的多个编码输出层得到对应的多层次编码特征，利用多层次编码特征可以获取语音的训练数据中蕴含的比较准确的韵律信息，从而可以用于对韵律编码器的训练过程。
73.在一些实施例中，韵律编码器可以融合通道注意力机制和空间注意力机制，以对多层次编码特征进行通道注意力加权和空间注意力加权。基于此，韵律编码器包括通道注意力模块和空间注意力模块。
74.具体地，在步骤s304处，利用通道注意力模块计算训练数据的多层次编码特征对应的通道特征权重分布，以进行通道注意力加权。在一些实施例中，多层次编码特征中的每一层编码特征都存在一定的联系，并且每层编码特征中都有着不同的注意力关注点。通过通道注意力模块可以获取多层次编码特征中各通道注意力权重，以分别对各层编码特征进行加权，从而提高韵律信息的准确性和效率。
75.在一些应用场景中，利用通道注意力模块进行通道注意力加权时，可以将通道特征权重分别与多层次编码特征进行相乘计算，以得到更新通道权重的多层次编码特征。
76.在步骤s305处，利用空间注意力模块计算通道注意力加权后的多层次编码特征对应的空间特征权重分布，以进行空间注意力加权。
77.在一些应用场景中，利用空间注意力模块进行空间注意力加权时，可以将空间特征权重分别与更新通道权重的多层次编码特征进行相乘计算，以得到韵律编码器输出的编码信息。
78.在步骤s306处，韵律编码器根据训练数据的多层次编码特征得到韵律编码器输出的编码信息。在一些实施例中，韵律编码器根据训练数据的多层次编码特征进行训练，在训练过程中可以得到韵律编码器输出的编码信息，可以根据输出的编码信息确定韵律编码器是否能够提取有效的韵律信息。
79.为了实现高质量的韵律表征，需要去除韵律特征中蕴含的说话人信息。基于此，本公开对韵律编码器还进行梯度反转训练，以减少韵律特征中的原说话人信息对语音转换结果的干扰。
80.在步骤s307处，对韵律编码器通过梯度反转对抗训练，以去除韵律编码器输出的编码信息中残留的说话人信息，从而提取训练数据的韵律信息。
81.在一些实施例中，语音训练数据中包括说话人标签，在进行梯度反转的对抗训练时，可以利用韵律编码器输出的编码信息和训练数据包含的说话人标签对说话人分类器进行训练，以得到分类结果。基于该分类结果反向更新韵律编码器中神经网络的权重，以完成梯度反转，从而去除韵律编码器输出的编码信息中残留的说话人信息。
82.接下来将详细描述上述多层次编码特征的提取过程以及注意力加权过程。
83.图4示意性地示出了根据本发明一个实施例的多层次编码特征提取过程400的示意图。图4可以是前文结合图2和图3所描述的步骤的一种示例性的实现方式。因此，前文结合图2和图3对各个步骤的细节性描述同样适用于下文。
84.如图4所示，基于comformer结构的端到端语音识别系统包含编码器(encoder)和解码器(decoder)两个模块，输入为mel谱特征，输出为字符。本公开实施例仅使用了语音识别系统的encoder模块。在encoder中，堆叠的n层编码输出层(例如comformer模块)会输出n维的特征，即每一层comformer模块都会输出一个hef特征(hierarchical encoder feature，简称hef)，多个hef组成多层次编码特征。hef的最高层的特征就是bnf(bottleneck feature，bnf)。在语音识别的过程中，会先将语音的mel谱经过多层的encoder(编码器)网络进行编码，再进行下采样的解码。在编码结束和解码开始的这一层输出，我们定义为bnf。
85.bnf和hef的相同点是两者的信息中均包含三部分信息：说话人的音，韵律，语言内容。不同点是：相比bnf，hef包含了更加丰富的韵律信息。基于此，通过编码器中的多个编码输出层可以输出多层次编码特征，以用于对韵律编码器的训练过程。
86.图5示意性地示出了根据本发明一个实施例的对多层次编码特征进行通道注意力和空间注意力加权的示意图。图6示意性地示出了根据本发明一个实施例的注意力加权过程的示意图。图5可以是前文结合图2和图3所描述的步骤的一种示例性的实现方式。图6也可以是前文结合图2和图3所描述的步骤的一种示例性的实现方式。因此，前文结合图2和图3对各个步骤的细节性描述同样适用于下文。
87.韵律编码器是一个单向的循环神经网络，每个时间步的隐藏状态只取决于该时间
步及之前的输入子序列。也可以使用双向循环神经网络构造韵律编码器。在这种情况下，韵律编码器每个时间步的隐藏状态同时取决于该时间步之前和之后的子序列(包括当前时间步的输入)，并编码了整个序列的信息。
88.本公开的实施例中，韵律编码器包括频谱预处理网络、注意力模块和全连接层。频谱信息依次输入频谱预处理网络、注意力模块和全连接层，得到音素级别的语音的韵律特征。具体地，该频谱信息可以是上述内容中的mel谱，例如80维的mel谱。注意力模块可以包括通道注意力模块和空间注意力模块，通过注意力机制计算高维度的频谱特征在时间维度的加权和，得到注意力特征。全连接层可以将注意力特征在特征维度计算加权和，最后对全连接层的输出通过在音素对应的时间段做平均，得到最后的音素级别的语音的韵律特征。
89.进一步，该韵律编码器还包括解耦合模块，将语音的韵律特征中包含的文本内容信息(或说话人信息)和韵律信息解耦合，并只留下语音的韵律特征的韵律信息。本方案中将解耦合模块设计成生成对抗网络解耦合语音的韵律特征中包含的说话人信息和韵律信息。由于该对抗训练的过程以在上述内容中详细说明，此处将不再赘述。
90.如图5所示，本公开所采用的注意力机制(convolutional block attention module，简称cbam)可以分为空间注意力和通道注意力两部分。在网络层中，会先计算通道注意力权重，再算空间注意力权重。基于此，本公开仅为了示例性的目的而先计算通道注意力权重，再计算空间注意力权重。
91.在该韵律编码器中设置通道注意力模块和空间注意力模块，一方面，通过建模各个特征通道的重要程度，针对不同的任务增强或者抑制不同的通道；另一方面，寻韵律编码器中网络模型的重要部位进行处理，以对多层次编码特征进行重点区域分析，从而增强对输出结果做出贡献的部分，以提升韵律编码器的输出结果的有效性。
92.如图6所示，本公开可以分别对多层次编码特征进行通道注意力加权和空间注意力加权。具体地，利用通道注意力模块计算输入的多层次编码特征对应的通道特征权重分布，并利用该通道特征权重对多层次编码特征分别相乘，以实现加权计算过程。然后利用空间注意力模块计算多层次编码特征的空间特征权重分布，并通过与前述通道注意力加权过程的计算得到的结果进行相乘，实现对多层次编码器特征的进一步空间注意力加权。通过两种不同的注意力加权机制，可以从多层次编码特征中提取有效的韵律特征，从而提升该韵律编码器的性能。
93.在本发明的另一方面中，还提供了一种语音转换方法。图7示意性地示出了根据本发明一个实施例的语音转换方法700的流程图。
94.如图7所示，在步骤s701处，基于语音识别模型从待转换语音中获取语音的瓶颈特征和多层次编码特征。该多层次编码特征可以基于语音识别模型的编码器的多个编码输出层提取。
95.在一些实施例中，上述语音识别模型包括编码器和解码器。其中编码器具有多个编码输出层，每个编码输出层用于输出单层次编码特征。在基于语音识别模型从待转换语音中获取语音的瓶颈特征和多层次编码特征时，可以采用以下方式获取：将待转换语音的mel谱输入语音识别模型。然后从语音识别模型中编码器的多个编码输出层中提取多个单层次编码特征。基于多个单层次编码特征生成多层次编码特征，将最后一个编码输出层的输出作为瓶颈特征。也就是说，该瓶颈特征为多层次编码特征中最后一层所对应的特征。
96.在步骤s702处，利用内容编码器从瓶颈特征中提取说话内容信息。在一些实施例中，瓶颈特征中包含语音中的说话内容信息，基于此，可以从该瓶颈特征中提取语音中的说话内容信息。具体地，可以利用内容编码器从瓶颈特征中提取说话内容信息。
97.在步骤s703处，利用训练好的韵律编码器从多层次编码特征中提取韵律信息。由于该韵律编码器可以基于前文的多个实施例所述的方法训练得到，此处将不再赘述。
98.在步骤s704处，将韵律信息、说话内容信息和目标说话人标签输入解码器，以完成语音转换。在一些实施例中，通过将韵律信息、说话内容信息和目标说话人标签进行融合，可以解码生成频谱特征。然后根据频谱特征合成语音，以实现语音转换。具体地，可以利用声码器从频谱特征中恢复语音波形，以合成语音。
99.上述解码器可以采用现有技术中的解码器结构，该解码器可以把读取的数字音频信息转换成模拟音频信号输出，例如上述本公开的实施例中将韵律编码器、内容编码器和目标说话人标签经过编码的多声道音频信息作解码还原，实现语音转换过程。也就是说，该解码器可以作为一种解压缩的结构。该解码器的硬件部分可以由音视频压缩编解码器芯片、视频网关、监控管理平台、输入输出通道、网络接口、音视频接口、串行接口控制、协议接口控制、系统软件管理等构成。软件部分包括与前述各编码器类似的comformer结构。
100.示例性设备
101.在介绍了本发明示例性实施方式的方法之后，接下来，参考图8至图10对本发明示例性实施方式的相关产品进行描述。
102.图8示意性地示出了根据本发明实施例的韵律编码器的训练装置的示意框图。
103.如图8所示，该训练装置800包括语音识别模块801和韵律编码器802。语音识别模块801配置成从语音的训练数据中获取训练数据的多层次编码特征。多层次编码特征基于语音识别模型的编码器的多个编码输出层提取。韵律编码器802与语音识别模块801连接，并且配置成利用训练数据的多层次编码特征进行训练，以将训练好的韵律编码器用于韵律信息的提取。
104.图9示意性地示出了根据本发明实施例的语音转换装置的示意框图。
105.如图9所示，该语音转换装置900包括语音识别模块901、内容编码器902、韵律编码器903和解码器904。语音识别模块901配置成从待转换语音中获取语音的瓶颈特征和多层次编码特征。多层次编码特征基于语音识别模型的编码器的多个编码输出层提取。内容编码器902配置成从瓶颈特征中提取说话内容信息。韵律编码器903配置成从多层次编码特征中提取韵律信息，该韵律编码器可以基于前文以多个实施例中的方法训练得到。解码器904与语音识别模块901、内容编码器902和韵律编码器903连接，并且配置成根据韵律信息、说话内容信息和目标说话人标签完成语音转换。
106.图10示意性地示出了根据本发明实施例的设备的示意框图。
107.如图10所示，设备1000可以包括处理器1001和存储器1002。其中存储器1002存储有用于对韵律编码器进行训练的计算机指令，当所述计算机指令由所述处理器运行时，使得所述设备执行根据前文以及下文结合图2和图3所描述的韵律编码器的训练方法。进一步，该存储器还存储有语音转换的计算机指令，当所述计算机指令由所述处理器运行时，使得所述设备执行根据前文图7中所描述的语音转换方法。
108.在一些实施例中，设备1000可以执行对韵律编码器的训练，以及利用韵律编码器
进行语音转换等。基于此，通过设备1000可以获取转换语音中丰富的韵律信息，从而提高语音转换的效果。
109.在一些实施场景中，上述设备1000还可以被划分为多个单元模块或装置，并对各个单元模块赋予相应的功能，本发明的方案对设备1000可具备的结构设计并不进行限制。
110.应当注意，尽管在上文详细描述中提及了设备1000的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
111.此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
112.申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
113.虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

技术特征：

1.一种韵律编码器的训练方法，其特征在于，包括：基于语音识别模型从语音的训练数据中获取所述训练数据的多层次编码特征；所述多层次编码特征基于语音识别模型的编码器的多个编码输出层提取；利用所述训练数据的多层次编码特征对韵律编码器进行训练，以将训练好的韵律编码器用于韵律信息的提取。2.根据权利要求1所述的训练方法，其特征在于，所述韵律编码器融合通道注意力机制和空间注意力机制，以对所述多层次编码特征进行通道注意力加权和空间注意力加权；和/或所述韵律编码器包括通道注意力模块和空间注意力模块，其中对所述多层次编码特征进行通道注意力加权和空间注意力加权包括：利用所述通道注意力模块计算所述训练数据的多层次编码特征对应的通道特征权重分布，以进行通道注意力加权；利用所述空间注意力模块计算通道注意力加权后的多层次编码特征对应的空间特征权重分布，以进行空间注意力加权。3.根据权利要求1所述的训练方法，其特征在于，所述利用所述训练数据的多层次编码特征对韵律编码器进行训练包括：所述韵律编码器根据所述训练数据的多层次编码特征得到韵律编码器输出的编码信息；对所述韵律编码器通过梯度反转对抗训练，以去除韵律编码器输出的编码信息中残留的说话人信息，从而提取所述训练数据的韵律信息。4.根据权利要求3所述的训练方法，其特征在于，所述语音训练数据中包括说话人标签，其中对抗训练包括：利用所述韵律编码器输出的编码信息和所述训练数据包含的说话人标签对说话人分类器进行训练，以得到分类结果；基于所述分类结果反向更新所述韵律编码器中神经网络的权重，以完成梯度反转，从而去除韵律编码器输出的编码信息中残留的说话人信息。5.一种韵律编码器的训练装置，其特征在于，包括：语音识别模块，其配置成从语音的训练数据中获取所述训练数据的多层次编码特征；所述多层次编码特征基于语音识别模型的编码器的多个编码输出层提取；韵律编码器，其与所述语音识别模块连接，并且配置成利用所述训练数据的多层次编码特征进行训练，以将训练好的韵律编码器用于韵律信息的提取。6.一种语音转换方法，其特征在于，包括：基于语音识别模型从待转换语音中获取语音的瓶颈特征和多层次编码特征，所述多层次编码特征基于所述语音识别模型的编码器的多个编码输出层提取；利用内容编码器从所述瓶颈特征中提取说话内容信息；利用训练好的韵律编码器从多层次编码特征中提取韵律信息，所述训练好的韵律编码器基于权利要求1-4任意一项所述的方法训练得到；以及将韵律信息、说话内容信息和目标说话人标签输入解码器，以完成语音转换。7.根据权利要求6所述的语音转换方法，其特征在于，将韵律信息、说话内容信息和目
标说话人标签输入解码器，以完成语音转换包括：将所述韵律信息、说话内容信息和目标说话人标签进行融合，以解码生成频谱特征；根据所述频谱特征合成语音，以实现语音转换。8.一种语音转换装置，其特征在于，包括：语音识别模块，其配置成从待转换语音中获取语音的瓶颈特征和多层次编码特征，所述多层次编码特征基于语音识别模型的编码器的多个编码输出层提取；内容编码器，其配置成从所述瓶颈特征中提取说话内容信息；韵律编码器，其配置成从多层次编码特征中提取韵律信息，所述韵律编码器基于权利要求1-4任意一项所述的方法训练得到；以及解码器，其与所述语音识别模块、内容编码器和韵律编码器连接，并且配置成根据所述韵律信息、说话内容信息和目标说话人标签完成语音转换。9.一种设备，其特征在于，包括：处理器；以及存储器，其存储有用于对韵律编码器进行训练的计算机指令，当所述计算机指令由所述处理器运行时，使得所述设备执行根据权利要求1-4的任意一项所述的韵律编码器的训练方法；所述存储器还存储有语音转换的计算机指令，当所述计算机指令由所述处理器运行时，使得所述设备执行根据权利要求6-7的任意一项所述的语音转换方法。10.一种计算机可读存储介质，其特征在于，包含对韵律编码器进行训练或语音转换的程序指令，当所述程序指令由处理器执行时，使得实现根据权利要求1-4的任意一项所述的韵律编码器的训练方法，或当所述程序指令由处理器执行时，使得实现根据权利要求6-7的任意一项所述的语音转换方法。

技术总结

本发明的实施方式提供了一种韵律编码器的训练方法，该训练方法包括：基于语音识别模型从语音的训练数据中获取所述训练数据的多层次编码特征；所述多层次编码特征基于语音识别模型的编码器的多个编码输出层提取；利用所述训练数据的多层次编码特征对韵律编码器进行训练，以将训练好的韵律编码器用于韵律信息的提取。通过本发明的方法使得韵律编码器能够准确提取韵律特征，从而显著地提升语音转换效果，为用户带来了更好的体验。此外，本发明的实施方式提供了一种语音转换方法、韵律编码器的训练装置、语音转换装置、设备和计算机可读存储介质。储介质。储介质。