基于NPU的流式语音合成声码器的方法及相关产品与流程

基于npu的流式语音合成声码器的方法及相关产品
技术领域
1.本发明的实施方式涉及信息处理技术领域，更具体地，本发明的实施方式涉及基于npu的流式语音合成声码器的方法、执行前述方法的设备和计算机可读存储介质。

背景技术：

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。
3.随着人工智能的快速发展，语音合成(text to speech，简称tts)算法日渐成熟，同时为了更快的响应速度以及更好的隐私保护，面向端侧的tts应用重要性日益提升。
4.tts是一种从文本到语音的合成过程，一般分为文本前端、声学模型和声码器三个部分。声码器对于语音合成的音质好坏起决定性作用。其中，声码器大致可以分为基于相位重构的声码器和基于神经网络的声码器。基于相位重构的声码器主要因为tts使用的声学特征(例如mel特征等)已经损失相位特征，因此使用算法来推算相位特征，并重构语音波形。而基于神经网络的声码器则是直接把声学特征和语音波形建模，因此合成的音质更高。目前，现有技术中多使用基于神经网络的声码器，且其多依赖中央处理器(central processing unit，简称cpu)实施。然而，随着cpu算力逐渐受限以及对高质量语音合成的需求，依靠cpu进行端侧tts已无法满足语音合成时的低延时、高质量等要求。

技术实现要素：

5.已知的基于cpu的声码器的语音合成效果不理想，这是非常令人烦恼的过程。
6.为此，非常需要一种改进的基于嵌入式神经网络处理器(neural network processing unit，以下简称npu)的流式语音合成声码器的方案及其相关产品，能够有效提高语音合成的音质，同时降低延时和实时率。
7.在本上下文中，本发明的实施方式期望提供一种基于npu的流式语音合成声码器的方法及其相关产品。
8.在本发明实施方式的第一方面中，提供了一种基于嵌入式神经网络处理器npu的流式语音合成声码器的方法，包括：获取关于所述流式语音的待处理的输入特征，其中所述待处理的输入特征为固定长度；基于部署在所述npu上的声码器模型对固定长度的输入特征进行处理，以输出音频信息；以及基于所述音频信息确定对所述流式语音的合成结果。
9.在本发明的一个实施例中，获取关于所述流式语音的待处理的输入特征包括：对所述流式语音进行预处理，以将待处理的输入特征拆分成一个或多个固定长度的输入特征。
10.在本发明的另一个实施例中，对所述流式语音进行预处理包括：利用滑窗方法从所述流式语音中提取固定长度的输入特征。
11.在本发明的再一个实施例中，其中所述滑窗方法包括：利用大小为所述固定长度的滑窗从所述流式语音中顺次滑动提取所述固定长度的输入特征，每次滑动的滑动步长小于所述固定长度，以在相邻滑窗所提取的输入特征之间存在重叠。
12.在本发明的又一个实施例中，其中所述滑窗覆盖位于窗口中间的有效部分和位于窗口两端的重叠部分，所述有效部分的大小等于所述滑动步长，所述重叠部分的大小根据所述声码器模型结构的感受野来确定。
13.在本发明的一个实施例中，基于所述音频信息确定对所述流式语音的合成结果包括：对所述声码器模型基于每个所述输入特征的输出进行切割处理，以得到每个所述输入特征的有效部分对应的音频信息；对每个所述输入特征的有效部分对应的音频信息进行拼接；以及根据拼接得到的音频信息确定所述合成结果。
14.在本发明的另一个实施例中，还包括：将所述拼接得到的音频信息直接作为所述合成结果；或者利用余弦信号对拼接得到的音频信息进行淡入淡出后处理，以得到所述合成结果。
15.在本发明的再一个实施例中，利用余弦信号对拼接得到的音频信息进行淡入淡出后处理包括：利用所述余弦信号的前半周期对处于所述前半周期窗口内的音频信息进行淡出处理；利用所述余弦信号的后半周期对处于所述后半周期窗口内的音频信息进行淡入处理；以及基于所述淡入处理和所述淡出处理实现对拼接得到的音频信息进行降噪处理。
16.在本发明的又一个实施例中，所述方法还包括：响应于存在长度小于所述固定长度的输入特征，对长度小于所述固定长度的输入特征进行填充处理，以将其长度调整至所述固定长度。
17.在本发明的一个实施例中，对长度小于所述固定长度的输入特征进行填充处理包括：利用固定值将所述输入特征的长度填充至所述固定长度。
18.在本发明的另一个实施例中，部署在所述npu上的声码器模型是经由训练好的支持流式语音合成的声码器模型转换而成的。
19.在本发明的再一个实施例中，其中所述支持流式语音合成的声码器模型经由npu工具链转换成部署在所述npu上的声码器模型。
20.在本发明实施方式的第二方面中，提供了一种设备，包括：嵌入式神经网络处理器npu；以及存储器，其存储有基于npu的流式语音合成声码器的计算机指令，当所述计算机指令由所述npu运行时，使得所述设备执行根据前文以及下文多个实施例所述的方法。
21.在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，包含基于npu的流式语音合成声码器的程序指令，当所述程序指令由npu执行时，使得所述设备执行根据前文以及下文多个实施例所述的方法。
22.根据本发明实施方式的基于npu的流式语音合成声码器的方法及其相关产品，可以利用部署在npu上的声码器模型对固定步长的流式语音的输入特征进行处理，以实现对流式语音的合成。可以看出，本发明的方案将声码器模型有效部署在npu上以执行对流式语音的合成，从而能够结合npu的高性能(特别是在神经网络推理方面等的优势)确保高质量语音的合成，同时有效降低延时和实时率，以满足实际市场需求。
附图说明
23.通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：
24.图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图；
25.图2示意性地示出了根据本发明一个实施例的基于npu的流式语音合成声码器的方法流程图；
26.图3示意性地示出了根据本发明另一个实施例的基于npu的流式语音合成声码器的方法流程图；
27.图4示意性地示出了根据本发明实施例的再一个实施例的基于npu的流式语音合成声码器的方法流程图；
28.图5示意性地示出了根据本发明实施例的利用滑窗方法处理流式语音的示意图；
29.图6示意性地示出了根据本发明实施例的余弦信号的示意图；以及
30.图7示意性地示出了根据本发明实施例的设备的示意框图。
31.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
32.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
33.图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算系统100可以包括：中央处理单元(cpu)101、随机存取存储器(ram)102、只读存储器(rom)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有cpu 101、ram 102、rom 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。
34.本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。
35.可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读
存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
36.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
37.计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。
38.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(lan)或广域网(wan))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
39.下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
40.也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
41.也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
42.根据本发明的实施方式，提出了一种基于嵌入式神经网络处理器npu的流式语音合成声码器的方法及其相关产品。
43.此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
44.下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。发明概述
45.本发明人发现，现有基于cpu的声码器已无法满足低延时、高质量的语音合成需求。例如，在一些高质量语音合成时，cpu算力明显受限，特别是其在神经网络推理方面的性能劣势更为突出。而随着对语音合成的音质的要求逐步提高，基于cpu的声码器显然已经影响语音合成技术进一步发展。为此，发明人还发现，随着人工智能的快速发展，出现了一种新兴的npu。该npu是一种针对神经网络算法和计算过程设计的专用芯片，其目前在计算机视觉、自然语言处理(naturallanguage processing，简称nlp)等领域均有不错的落地效果。因此，可以结合nlp在神经网络方面等的性能优势来辅助声码器突破当前语音合成技术的瓶颈。
46.基于此，发明人发现可以将声码器模型有效部署在npu上，并基于该声码器模型对流式语音的处理以实现语音合成，从而能够有效提高语音合成的音质，同时降低延时和实时率。
47.在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。示例性方法
48.下面参考图2来描述根据本发明示例性实施方式的基于npu的流式语音合成声码器的方法。需要注意的是，本发明的实施方式可以应用于适用的任何场景。
49.图2示意性地示出了根据本发明一个实施例的基于npu的流式语音合成声码器的方法200流程图。
50.如图2所示，在步骤s201处，可以获取关于流式语音的待处理的输入特征，其中该待处理的输入特征为固定长度。传统基于cpu的支持流式语音合成的声码器模型的输入长度是不定长的，具体会根据输入特征的长度进行变化，且长度范围非常大。而npu的设计一般为静态尺寸进行编译后运行，这使得npu与声码器模型的结合并是不简单地将两者进行叠加，而需要结合相应的性能优势来进行具体调整。为此，通过获取关于流式语音的固定长度的输入特征，将传统的不定长输入特征调整为定长输入特征，可便于有效结合npu优势进行后续处理。
51.接着，在步骤s202处，可以基于部署在npu上的声码器模型对固定长度的输入特征进行处理，以输出音频信息。npu具有静态图定长推理以及神经网络计算等性能优势，通过将声码器模型部署在npu上来实施对定长输入特征的处理，以有效结合npu的性能优势满足对流式语音的高音质、低实时率和延时的合成需求。
52.接着，在步骤s203处，可以基于前述的音频信息确定对流式语音的合成结果。
53.可以看出，本发明的方案通过将流式语音的输入特征调整为固定长度，并利用部署在npu上的声码器模型对定长输入特征处理以实现对流式语音的合成。由此，可以有效结合npu的高性能(特别是在神经网络推理方面等的优势)确保高质量语音的合成，同时有效降低延时和实时率，以满足实际市场需求。
54.图3示意性地示出了根据本发明另一个实施例的基于npu的流式语音合成声码器的方法300流程图。需要说明的是，方法300可以理解为是对图2中方法200的进一步补充或拓展。因此，前文结合图2的相关细节性描述同样也适用于下文。
55.如图3所示，在步骤s301处，可以对前述的流式语音进行预处理，以将待处理的输入特征拆分成一个或多个固定长度的输入特征。在实际应用中，可以通过多种方式实现对
流式语音的输入特征的拆分处理。例如，可以利用滑窗方法从该流式语音中提取固定长度的输入特征。具体地，可以利用大小为固定长度的滑窗从流式语音中顺次滑动提取固定长度的输入特征，每次滑动的滑动步长小于固定长度，以在相邻滑窗所提取的输入特征之间存在重叠。
56.在一些实施例中，滑窗覆盖位于窗口中间的有效部分和位于窗口两端的重叠部分，而有效部分的大小等于滑动步长。重叠部分的大小可以根据声码器模型结构的感受野来确定。可以理解，声码器模型是一种神经网络模型，其通常包含若干卷积层。卷积层的运算特点是一个输出特征的值是由多个输入特征贡献得到的，这多个输入特征可以称为该一个输出特征的感受野。当存在多个卷积层时，感受野层层传递，也即，感受野可以理解为是卷积神经网络每一层输出的数据中的特征在原始输入数据上映射的区域大小。当针对模型的最终输出特征整体确定其感受野时，则可以得到该模型的感受野。具体地，可以根据声码器模型中卷积层的卷积核大小、卷积步长和填充长度等来计算感受野，并通过累积感受野获得模型的感受野，由此确定重叠部分的长度。
57.例如，一般第一层卷积层的输出特征的感受野的大小可以等于滤波器的大小，而深层卷积层的感受野大小和它之前所有层的滤波器大小、卷积步长、填充长度等有关。具体在计算过程中，可以先计算最深层在前一层上的感受野，然后逐渐传递到第一层以累计得到声码器模型结构的感受野。在一些实施例中，假设根据声码器模型结构的感受野分析最少需要长度为l的重叠部分，那么可以将位于窗口两端的重叠部分的长度设置为大于或等于l。需要说明的是，这里对滑窗相关的细节性描述仅是示例性说明。
58.可以看出，利用滑窗和重叠方式将待处理的输入特征拆分成一个或多个固定长度的输入特征，可以最大程度上保留输入特征的有效部分，从而进一步确保语音合成的质量。
59.进一步地，在一些实施例中，在拆分输入特征过程中，可能会出现长度小于固定长度的输入特征。此时，响应于存在长度小于固定长度的输入特征，对长度小于固定长度的输入特征进行填充处理，以将其长度调整至固定长度。例如，可以利用固定值(例如全0值矩阵)将输入特征的长度填充至固定长度。
60.在完成固定长度的输入特征的拆分之后，接着，在步骤s302处执行基于部署在npu上的声码器模型对固定长度的输入特征进行处理。在一些实施例中，可以将经由训练好的支持流式语音合成的声码器模型转换成部署在npu上的声码器模型。其中，支持流式语音合成的声码器模型可以包括开放神经网络交换模型(简称onnx模型)。具体地，可以利用npu工具链(例如rknn工具链)将训练好的onnx模型转换成npu声码器模型(例如rknn模型)，并通过rknn sdk在npu平台进行声码器模型的转换。需要说明的是，这里对部署声码器模型的相关细节性描述仅是示例性说明。
61.接着，在步骤s303处，可以对前述的声码器模型(具体指部署在npu的声码器模型)基于每个输入特征的输出进行切割处理，以得到每个输入特征的有效部分对应的音频信息。由此，通过切割处理来获取有效部分对应的音频信息，可以避免无效信息对语音合成结果的影响和降低对后续计算资源的占用。
62.接着，在步骤s304处，可以对每个输入特征的有效部分对应的音频信息进行拼接。由此，通过对所有有效部分对应的音频信息的拼接，可以确保语音合成结果的完整性。
63.最后，在步骤s305处，可以根据拼接得到的音频信息确定合成结果。在一些实施例
中，可以将拼接得到的音频信息直接作为合成结果。在另一些实施例中，考虑到npu运算一般会采用低精度进行加速，由此可能会引入一些计算误差，这在声码器模型中会变现为噪音(尤其是音频前后容易引入噪音)。为此，可以对拼接得到的音频信息进行降噪处理。
64.在一些实施例中，可以采用利用余弦信号对拼接得到的音频信息进行淡入淡出后处理以实现对音频信息的降噪处理。例如，可以利用余弦信号的前半周期对处于前半周期窗口内的音频信息进行淡出处理，并利用余弦信号的后半周期对处于后半周期窗口内的音频信息进行淡入处理。然后，可以基于前述的淡入处理和淡出处理实现对拼接得到的音频信息进行降噪处理。需要说明的是，这里对音频信息进行降噪处理的细节性描述仅是示例性说明，本发明的方案并不受此限制。例如，还可以采用滤波等其他降噪方法。
65.图4示意性地示出了根据本发明再一个实施例的基于npu的流式语音合成声码器的方法400流程图。需要说明的是，图4可以理解为是图2中方法200和图3中方法300的一种可行的技术实现过程。因此，前文结合图2和图3中的相关细节性描述同样也适用于下文。
66.如图4所示，在步骤s401处，可以进行模型训练。具体地，在实际应用过程中，可以直接使用训练好的支持流式语音合成的声码器模型，也可以是将开放神经网络交换模型训练成支持流式语音合成的声码器模型。
67.接着，在步骤s402处，可以进行模型转换。例如，可以使用一些npu工具链将训练好的模型转换成npu声码器模型，并将其部署在npu上。例如，可以通过rknn工具链将onnx模型转换为rknn模型，并通过rknn sdk将该rknn模型部署在npu平台上。
68.接着，在步骤s403处，可以进行模型前后处理。由于传统的声码器模型的输入长度是不定的，且为一次性计算。而npu支持定长尺寸的计算。因此，在具体应用时，可以利用滑窗方法每次计算固定大小的定长块，并结合前后重叠部分保证合成质量。
69.具体地，部署在npu上的声码器模型中的基础算子可以为卷积算子，根据卷积的卷积核大小和填充长度等计算得出感受野。然后通过累积感受野计算分析得出重叠部分。例如，分析出重叠部分需至少为14帧，那么可以利用大小为140帧的固定长度从流式语音中顺次滑动提取140帧的定长块。其中，每次滑动的滑动步长可以采用固定的100帧步长以及并在其左右各重叠20帧。具体如图5所示，滑窗窗口可为固定长度(例如140帧)，而滑窗覆盖位于窗口中间的有效部分(例如100帧)和位于窗口两端的重叠部分(例如20帧)。另外，还会对对部署在npu上的声码器模型基于每个输入特征的输出进行切割处理，以仅提取有效部分对应的音频信息。
70.在对输入特征处理时，部署在npu上的声码器模型每次以固定长度(例如140帧)的定长块进行计算，并在确定不足固定长度时，进行填充处理。例如，以140帧的定长块进行计算，在输入特征长度不足140帧时，会对输入块进行填充，且填充固定值为0。例如原输入为1x80x100，需填充1x80x40的全0值矩阵，并在最后一个维度进行拼接。
71.进一步地，还可以通过余弦信号对音频信息进行淡入淡出后处理。具体地，余弦信号在半个周期内，具备斜率由小到大再变小的特性，在接近0和接近1的部分，具有斜率较小、更加平滑等优势。例如，原始音频信号为脉冲编码调制(pulse code modulation,简称pcm)数据x[i]，可以余弦函数f(x)＝0.5+0.5
×
cos(2
×
π
×
x-1)/window_len/2进行淡入淡出处理。具体地，可以利用余弦函数的前半个周期进行淡出处理，利用后半个周期进行淡入处理。例如，假设余弦函数周期为4000，对应的处理窗口大小为4000，此时余弦函数f(x)＝
0.5+0.5
×
cos(2
×
π
×
x-1)/4000/2。具体参考图7所示，图7示出了周期为4000的余弦函数，其具备斜率由小到大再变小的特性(在接近0和接近1的部分，斜率较小以及更加平滑)。其中，前半个周期对应[0，2000]，可以使用[0，2000]的函数片段进行淡出处理。后半周期对应[2000，4000]，可以利用[2000，4000]的函数片段进行淡入处理，具体的处理过程可以为将相应的两个向量进行哈达玛积运算(也即将余弦函数和数据x[i]的对应位置进行相乘处理)。
[0072]
基于余弦信号半个周期内斜率由小到大再变小的特性，将原有信号幅值逐步由0增至1实现淡入处理，由1降至0实现淡出处理。可以实现信号的平滑过度以减少杂音，从而对于音频前后由于npu低精度计算带来的误差而导致的杂音问题进行消除或减弱。
[0073]
相比传统基于cpu的嵌入式tts实现方案，本发明的方案能够支持更大的神经网络声码器模型，且能够提高语音合成的音质。而在相同的模型大小下，实时率由cpu版本的0.96降低至0.09，延时由cpu版本的675ms降低至63ms。示例性设备
[0074]
在介绍了本发明示例性实施方式的方法之后，接下来，参考图7对本发明示例性实施方式的基于npu的流式语音合成声码器的相关产品进行描述。
[0075]
图7示意性地示出了根据本发明实施例的设备700的示意框图。如图7所示，设备700可以包括npu 701和存储器702。其中存储器702存储有基于npu的流式语音合成声码器的计算机指令，当所述计算机指令由npu 701运行时，使得设备700执行根据前文结合图2至图4所描述的方法。例如，在一些实施例中，设备700可以执行对流式语音的固定长度的输入特征的获取、对固定长度的输入特征的处理、对合成结果的确定等。基于此，通过设备700可以将声码器模型有效部署在npu上来执行对流式语音的合成，以结合npu的高性能确保高质量语音的合成，同时有效降低延时和实时率，以满足实际市场需求。
[0076]
在一些实施场景中，设备700可以包括部署有npu以及支持语音合成的设备(例如手机、平板、电脑等终端或服务器等)，本发明的方案对设备700可具备的结构设计并不进行限制。
[0077]
应当注意，尽管在上文详细描述中提及了基于npu的流式语音合成声码器的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
[0078]
此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
[0079]
申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
[0080]
虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和
范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

技术特征：

1.一种基于嵌入式神经网络处理器npu的流式语音合成声码器的方法，其特征在于，包括：获取关于所述流式语音的待处理的输入特征，其中所述待处理的输入特征为固定长度；基于部署在所述npu上的声码器模型对固定长度的输入特征进行处理，以输出音频信息；以及基于所述音频信息确定对所述流式语音的合成结果。2.根据权利要求1所述的方法，其特征在于，获取关于所述流式语音的待处理的输入特征包括：对所述流式语音进行预处理，以将待处理的输入特征拆分成一个或多个固定长度的输入特征。3.根据权利要求2所述的方法，其特征在于，对所述流式语音进行预处理包括：利用滑窗方法从所述流式语音中提取固定长度的输入特征。4.根据权利要求3所述的方法，其特征在于，其中所述滑窗方法包括：利用大小为所述固定长度的滑窗从所述流式语音中顺次滑动提取所述固定长度的输入特征，每次滑动的滑动步长小于所述固定长度，以在相邻滑窗所提取的输入特征之间存在重叠。5.根据权利要求4所述的方法，其特征在于，其中所述滑窗覆盖位于窗口中间的有效部分和位于窗口两端的重叠部分，所述有效部分的大小等于所述滑动步长，所述重叠部分的大小根据所述声码器模型结构的感受野来确定。6.根据权利要求5所述的方法，其特征在于，基于所述音频信息确定对所述流式语音的合成结果包括：对所述声码器模型基于每个所述输入特征的输出进行切割处理，以得到每个所述输入特征的有效部分对应的音频信息；对每个所述输入特征的有效部分对应的音频信息进行拼接；以及根据拼接得到的音频信息确定所述合成结果。7.根据权利要求6所述的方法，其特征在于，还包括：将所述拼接得到的音频信息直接作为所述合成结果；或者利用余弦信号对拼接得到的音频信息进行淡入淡出后处理，以得到所述合成结果。8.根据权利要求7所述的方法，其特征在于，利用余弦信号对拼接得到的音频信息进行淡入淡出后处理包括：利用所述余弦信号的前半周期对处于所述前半周期窗口内的音频信息进行淡出处理；利用所述余弦信号的后半周期对处于所述后半周期窗口内的音频信息进行淡入处理；以及基于所述淡入处理和所述淡出处理实现对拼接得到的音频信息进行降噪处理。9.一种设备，其特征在于，包括：嵌入式神经网络处理器npu；以及存储器，其存储有基于npu的流式语音合成声码器的计算机指令，当所述计算机指令由所述npu运行时，使得所述设备执行根据权利要求1-8的任意一项所述的方法。
10.一种计算机可读存储介质，其特征在于，包含有基于npu的流式语音合成声码器的程序指令，当所述程序指令由npu执行时，使得实现根据权利要求1-8的任意一项所述的方法。

技术总结

本发明的实施方式提供了一种基于NPU的流式语音合成声码器的方法及相关产品。其中，该方法包括获取关于所述流式语音的待处理的输入特征，其中所述待处理的输入特征为固定长度；基于部署在所述NPU上的声码器模型对固定长度的输入特征进行处理，以输出音频信息；以及基于所述音频信息确定对所述流式语音的合成结果。通过本发明的方案，将声码器模型有效部署在NPU上来执行对流式语音的合成，以结合NPU的高性能(特别是在神经网络推理方面等的优势)确保高质量语音的合成，同时有效降低延时和实时率，以满足实际市场需求。另外，本发明还提供了一种设备和一种计算机可读存储介质。还提供了一种设备和一种计算机可读存储介质。还提供了一种设备和一种计算机可读存储介质。