语音处理方法、装置及网络设备与流程

1.本发明涉及计算机技术领域，特别是涉及一种语音处理方法、装置及网络设备。

背景技术：

2.移动互联网时代是短视频+直播时代，比如电商直播或内容直播，是最具潜力的流量变现手段。在这种环境下，声音的意义更加凸显，传统变声器已非常普及，在直播、游戏、在线社交等场景运用广泛。
3.ai实时变声系统，除了效果碾压传统变声器外，还可以实现很多传统变声器不可能实现的功能，比如：克隆音，变成任意想要变成的人的声音，以及普通话转为方言等，赋能直播，游戏以及所有在线社交场景。
4.语音转换(voice conversion，vc)或变声是指通过改变与源说话人的个性特征有关的声学特征参数，使声音听起来像是目标说话人的语音，而语义是不发生变化的。语音转换的方法，一般可以分为2大类，一类是平行语料，另一类是非平行语料。平行语料对训练数据的要求很严格，而且只能转换训练集内的人的音，因此目前广泛使用的是非平行语料方法，即vc模型使用的方法，现有方法通过vc模型进行语音转换会导致语音转换结果失真的问题，并且语音转换时间较长，效率较低。

技术实现要素：

5.本发明实施例的目的在于提供一种语音处理方法、装置及网络设备，以在一定程度上解决现有技术进行语音转换不仅转换时间较长，而且会导致语音转换结果失真的问题。具体技术方案如下：
6.在本发明实施的第一方面，首先提供了一种流程处理方法，包括：
7.获取待处理语音；
8.对所述待处理语音进行切割，得到至少两个第一语音片段，每两个相邻的第一语音片段之间具有部分重叠语音片段；
9.对所述至少两个第一语音片段采用多线程并行处理方式进行语音转换处理，得到至少两个语音转换结果；所述至少两个第一语音片段对应源音，所述至少两个语音转换结果对应目标音；
10.将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果。
11.可选的，针对每个第一语音片段，对所述第一语音片段进行语音转换处理，得到语音转换结果的过程，包括：
12.将所述第一语音片段输入至语音识别模型中进行语音识别处理，得到语音后验概率ppg特征；
13.将所述语音后验概率ppg特征和目标音标识id输入至语音转换模型中进行语音转换处理，得到语音转换结果。
14.可选的，所述多线程并行处理方式，包括：
15.在所述至少两个第一语音片段中的第i个第一语音片段进行语音转换处理的过程中，同时进行所述至少两个第一语音片段中的第i+1个第一语音片段的语音识别处理，i为正整数。
16.可选的，在所述至少两个第一语音片段包括：第二语音片段和第三语音片段的情况下，所述将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果，包括：；
17.获取所述第二语音片段和所述第三语音片段的重叠语音片段的任意时刻与所述重叠语音片段的中间时刻的时间差；
18.根据所述时间差与预设调节系数，计算所述第二语音片段在所述任意时刻的第一拼接系数，以及所述第三语音片段在所述任意时刻的第二拼接系数；
19.根据所述第二语音片段中任意时刻的第一子语音片段、所述第三语音片段中任意时刻的第二子语音片段、所述第一拼接系数以及所述第二拼接系数，对所述第二语音片段的语音转换结果和所述第三语音片段的语音转换结果进行语音拼接处理，得到语音输出结果。
20.可选的，所述根据所述时间差与预设调节系数，计算所述第二语音片段在所述任意时刻的第一拼接系数，以及所述第三语音片段在所述任意时刻的第二拼接系数，包括：
[0021][0022][0023]
其中，c(t-j)表示所述第一拼接系数；
[0024]
d(t-j)表示所述第二拼接系数；
[0025]
t表示所述重叠语音片段的任意时刻；
[0026]
j表示所述重叠语音片段的中间时刻；
[0027]
t-j表示所述任意时刻与所述中间时刻的时间差；
[0028]
k表示预设调节系数。
[0029]
可选的，所述根据所述第二语音片段中任意时刻的第一子语音片段、所述第三语音片段中任意时刻的第二子语音片段、所述第一拼接系数以及所述第二拼接系数，对所述第二语音片段的语音转换结果和所述第三语音片段的语音转换进行语音拼接处理，得到语音输出结果，包括：
[0030]
s[t]＝a[t]*c(t-j)+b[t]*d(t-j)
[0031]
其中，s[t]表示所述语音输出结果；
[0032]
a[t]表示所述第一子语音片段；
[0033]
b[t]表示所述第二子语音片段。
[0034]
在本发明实施的第二方面，还提供了一种语音处理装置，包括：
[0035]
获取模块，用于获取待处理语音；
[0036]
切割模块，用于对所述待处理语音进行切割，得到至少两个第一语音片段，每两个相邻的第一语音片段之间具有部分重叠语音片段；
[0037]
第一处理模块，用于对所述至少两个第一语音片段采用多线程并行处理方式进行
语音转换处理，得到至少两个语音转换结果；所述至少两个第一语音片段对应源音，所述至少两个语音转换结果对应目标音；
[0038]
第二处理模块，用于将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果。
[0039]
在本发明实施的第三方面，还提供了一种网络设备，包括：
[0040]
至少一个处理器；以及
[0041]
与所述至少一个处理器通信连接的存储器；
[0042]
其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的语音处理方法。
[0043]
在本发明实施的第四方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述所述的语音处理方法。
[0044]
在本发明实施的第五方面，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述所述的语音处理方法。
[0045]
本发明实施例的语音处理方法，通过对获取的待处理语音进行切割，得到至少两个第一语音片段，对至少两个第一语音片段进行语音转换处理得到至少两个语音转换结果，由于每两个相邻的第一语音片段之间具有部分重叠语音片段，由此，每两个相邻的第一语音片段进行语音转换处理之后得到的语音转换结果之间具有重叠部分。并且，由于至少两个第一语音片段对应源音，至少两个语音转换结果对应目标音，则将至少两个具有重叠部分的语音转换结果之间的重叠部分进行语音拼接处理，可以避免语音拼接位置的语音中断问题，防止音转换过程中的语音失真情况的发生。并且，采用多线程并行处理方式对至少两个第一语音片段进行语音转换处理，可以同时对至少两个第一语音片段进行语音转换处理，可以加速语音处理速度。
附图说明
[0046]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
[0047]
图1为本发明实施例提供的语音处理方法的步骤流程图；
[0048]
图2为本发明实施例提供的重叠语音片段的拼接系数图；
[0049]
图3为本发明实施例提供的语音处理过程的示意图；
[0050]
图4为本发明实施例提供的语音处理装置的结构框图；
[0051]
图5为本发明实施例提供的网络设备的结构框图。
具体实施方式
[0052]
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。
[0053]
本发明实施例提供了一种语音处理方法，上述语音处理方法可以应用于网络设备(如服务器)或电子设备(如终端)，下面以语音处理方法应用于网络设备进行详细说明。如
图1所示，上述语音处理方法具体可以包括如下步骤：
[0054]
步骤101，获取待处理语音。
[0055]
具体的，电子设备采集用户实时输入的需要进行语音处理的待处理语音，并将待处理语音传输至网络设备，即网络设备获取到待处理语音。
[0056]
步骤102，对所述待处理语音进行切割，得到至少两个第一语音片段，每两个相邻的第一语音片段之间具有部分重叠语音片段。
[0057]
具体的，网络设备在获取到待处理语音之后，对待处理语音进行切割，由此得到切割后的至少两个待处理的语音片段，即第一语音片段。其中，至少两个第一语音片段中的每相邻的两个第一语音片段之间具有部分重叠语音片段，即相邻的两个第一语音片段中，前面的第一语音片段的末尾部分与后面的第一语音片段的开头部分重叠。
[0058]
需要说明的是，不同的第一语音片段的时长可以相同，也可以不同，可以根据需要设定，在此不做具体限定。下面以不同的第一语音片段的时长相同为例，对切割过程进行详细阐述：
[0059]
如果按照预设时长从待处理语音的起始端开始向后一段一段的切割，则切割后的每一个第一语音片段的时长均相同，均为预设时长。获取预设时长，并根据预设时长获取待处理语音的第一切割点，在第一切割点将待处理语音进行切割，得到处于第一切割点之前的第一语音片段a。获取预设重叠语音片段时长，根据第一切割点和预设重叠语音片段时长，则可以确定待处理语音中，相对于第一切割点更靠近待处理语音的起始端、且与第一切割点之间的时长间隔为预设重叠语音片段时长的点为第二切割点。根据第二切割点和预设时长，则可以确定在待处理语音中，相对于第二切割点更远离待处理语音的起始端、且与第二切割点之间的时长间隔为预设时长的点为第三切割点。在第二切割点和第三切割点将待处理语音进行切割，得到第二切割点和第三切割点之间的第一语音片段b。其中，第一语音片段a与第一语音片段b为两个相邻的第一语音片段，第一切割点和第二切割点之间的片段为重叠语音片段。
[0060]
同理，在切割第一语音片段b之后的第一语音片段c时，获取预设重叠语音片段时长，根据第三切割点和预设重叠语音片段时长，则可以确定待处理语音中，相对于第三切割点更靠近待处理语音的起始端、且与所述第三切割点之间的时长间隔为预设重叠语音片段时长的点为第四切割点。根据第四切割点和预设时长，则可以确定在待处理语音中，相对于第四切割点更远离待处理语音的起始端、且与第四切割点之间的时长间隔为预设时长的点为第五切割点。在第四切割点和第五切割点将待处理语音进行切割，得到第四切割点和第五切割点之间的第一语音片段c。其中，第一语音片段b与第一语音片段c为两个相邻的第一语音片段，第四切割点和第五切割点之间的片段为重叠语音片段。以此类推，直至切割至待处理语音的末尾为止。
[0061]
例如：如果预设时长为10ms，则如果网络设备获取的待处理语音从起始端开始的时长为10ms，则表示满足第一次切割条件，可以对获取的待处理语音进行第一次切割，即第一切割点为距离待处理语音的起始端的10ms位置处。如果预设重叠语音片段时长为2ms，则第二切割点为距离待处理语音的起始端的第8ms位置处。由于预设时长为10ms，则第三切割点为距离待处理语音的起始端的18ms位置处，则第一语音片段a为起始端至第一切割点之间的片段，第一语音片段b为第二切割点和第三切割点之间的片段，第一切割点和第二切割
点之间的片段为重叠语音片段。以此类推，直至切割至待处理语音的末尾为止。
[0062]
步骤103，对所述至少两个第一语音片段采用多线程并行处理方式进行语音转换处理，得到至少两个语音转换结果；所述至少两个第一语音片段对应源音，所述至少两个语音转换结果对应目标音。
[0063]
具体的，在得到至少两个第一语音片段之后，对上述至少两个第一语音片段采用多线程并行处理方式进行语音转换处理，由此可以得到至少两个语音转换结果，即一个第一语音片段进行语音转换处理得到一个语音转换结果，两个相邻的第一语音片段之间具有部分重叠语音片段，则两个相邻的第一语音片段语音转换处理之后得到的两个语音转换结果之间具有重叠部分。
[0064]
并且，由于至少两个第一语音片段对应源音，至少两个语音转换结果对应目标音，因此，将至少两个第一语音片段转换为至少两个语音转换结果，即将源音的至少两个第一语音片段转换为目标音的至少两个语音转换结果，由此实现音转换的效果。
[0065]
并且，采用多线程并行处理方式对至少两个第一语音片段进行语音转换处理，即可以同时对至少两个第一语音片段进行语音转换处理，可以提高语音转换效率。
[0066]
步骤104，将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果。
[0067]
具体的，网络设备将上述得到的至少两个语音转换结果进行语音片接处理，即至少两个语音转换结果的重叠部分进行拼接和融合处理，由此可以得到拼接之后的语音输出结果，并将该语音输出结果发送至电子设备进行播放。
[0068]
本发明实施例的语音处理方法，通过对获取的待处理语音进行切割，得到至少两个第一语音片段，对至少两个第一语音片段进行语音转换处理得到至少两个语音转换结果，由于每两个相邻的第一语音片段之间具有部分重叠语音片段，由此，每两个相邻的第一语音片段进行语音转换处理之后得到的语音转换结果之间具有重叠部分。并且，由于至少两个第一语音片段对应源音，至少两个语音转换结果对应目标音，则将至少两个具有重叠部分的语音转换结果之间的重叠部分进行语音拼接处理，可以避免语音拼接位置的语音中断问题，防止音转换过程中的语音失真情况的发生。并且，采用多线程并行处理方式对至少两个第一语音片段进行语音转换处理，可以同时对至少两个第一语音片段进行语音转换处理，可以加速语音处理速度。
[0069]
作为一可选的实施例，所述步骤103中，针对每个第一语音片段，对所述第一语音片段进行语音转换处理，得到语音转换结果的过程，具体包括：
[0070]
将所述第一语音片段输入至语音识别模型中进行语音识别处理，得到语音后验概率(phonetic posterior grams，ppg)特征；
[0071]
将所述语音后验概率ppg特征和目标音标识id输入至语音转换模型中进行语音转换处理，得到语音转换结果。
[0072]
具体的，针对每一个第一语音片段，均需要将该第一语音片段输入至语音识别模型中进行语音识别处理，得到ppg特征，并且将ppg特征以及目标音标识id输入至语音转换模型中进行语音转换处理，得到语音转换结果，该语音转换结果对应目标音，即通过语音转换模型可以得到目标音的语音转换结果，该目标音的语音转换结果的内容与第一语音片段的内容相同。
[0073]
例如，源音的第一语音片段内容为“明天见”，将该第一语音片段输入至语音识
别模型中进行语音识别处理，得到源音对应的ppg特征，再将该ppg特征和目标音标识id输入至语音转换模型中进行语音转换处理，可以得到目标音的语音转换结果，该语音转换结果为采用目标音输出的“明天见”的语音。
[0074]
具体的，语音识别模型可以是一个基于音素级别的自动语音识别技术(automatic speech recognition，asr)模型，ppg则是通过上述asr模型提取出来的。一个asr模型接收切割后的小段语音(即第一语音片段)，会输出每个时刻每个音素的概率，即ppg。例如：asr模型中预设有200个音素，针对第一语音片段的每一帧的解码都会产生一个200维的向量，代表每个音素在不同时刻的概率，一共有200个概率值。例如：第一语音片段总的概率值为：t*200维，t是第一语音片段的总帧数。
[0075]
其中，语音转换模型可以是采用非自回归的前馈网络fastspeech模型，采用非自回归的模型可以对至少两个第一语音片段并行处理，由此加速语音处理速度。
[0076]
作为一可选的实施例，所述步骤103中的多线程并行处理方式，具体包括：
[0077]
在所述至少两个第一语音片段中的第i个第一语音片段进行语音转换处理的过程中，同时进行所述至少两个第一语音片段中的第i+1个第一语音片段的语音识别处理，i为正整数。
[0078]
具体的，如果当前正在处理的第一语音片段为待处理语音的第i个第一语音片段，则在将第i个第一语音片段输入至语音识别模型得到ppg特征的情况下，该第i个第一语音片段的ppg特征通过语音转换模型进行语音转换处理的过程中，通过多线程并行处理的方式，同时提取第i+1个第一语音片段的ppg特征，即第i个第一语音片段的ppg特征进行语音转换处理时，同时可以多线程同步提取第i+1个第一语音片段的ppg特征，由此可以加速语音处理速度。
[0079]
由于第i个第一语音片段与第i+1个第一语音片段之间有一部分重叠语音片段，可以保证后续进行语音拼接处理后得到的语音转换结果没有截断的痕迹，避免语音失真问题。
[0080]
作为一可选的实施例，在所述至少两个第一语音片段包括：第二语音片段和第三语音片段的情况下，所述步骤104，具体可以包括：获取所述第二语音片段和所述第三语音片段的重叠语音片段的任意时刻与所述重叠语音片段的中间时刻的时间差；
[0081]
根据所述时间差与预设调节系数，计算所述第二语音片段在所述任意时刻的第一拼接系数，以及所述第三语音片段在所述任意时刻的第二拼接系数；
[0082]
根据所述第二语音片段中任意时刻的第一子语音片段、所述第三语音片段中任意时刻的第二子语音片段、所述第一拼接系数以及所述第二拼接系数，对所述第二语音片段的语音转换结果和所述第三语音片段的语音转换结果进行语音拼接处理，得到语音输出结果。
[0083]
具体的，如果第二语音片段和第三语音片段为两个相邻的第一语音片段，则第二语音片段的末尾部分与第三语音片段的开头部分具有重叠部分(即重叠语音片段)，则网络设备获取第二语音片段的重叠语音片段中任意时刻的第一子语音片段，以及第三语音片段的重叠语音片段中任意时刻的第二子语音片段，并且获取重叠语音片段的任意时刻与重叠语音片段的中间时刻的时间差；根据上述时间差与预设调节系数，可以计算第二语音片段在任意时刻的第一拼接系数，以及第三语音片段在任意时刻的第二拼接系数。并且，通过第
一子语音片段、第二子语音片段、第一拼接系数以及第二拼接系数可以计算得到语音输出结果，并将该语音输出结果发送至电子设备进行播放。
[0084]
作为一可选的实施例，上述根据所述时间差与预设调节系数，计算所述第二语音片段在所述任意时刻的第一拼接系数，以及所述第三语音片段在所述任意时刻的第二拼接系数的步骤，具体可以通过以下两个公式进行计算：
[0085]
公式一：
[0086][0087]
公式二：
[0088][0089]
其中，c(t-j)表示所述第一拼接系数；
[0090]
d(t-j)表示所述第二拼接系数；
[0091]
t表示所述重叠语音片段的任意时刻；
[0092]
j表示所述重叠语音片段的中间时刻；
[0093]
t-j表示所述任意时刻与所述中间时刻的时间差；
[0094]
k表示预设调节系数。
[0095]
作为一可选的实施例，上述根据所述第二语音片段中任意时刻的第一子语音片段、所述第三语音片段中任意时刻的第二子语音片段、所述第一拼接系数以及所述第二拼接系数，对所述第二语音片段的语音转换结果和所述第三语音片段的语音转换进行语音拼接处理，得到语音输出结果的步骤，具体通过以下公式三进行计算：
[0096]
公式三：
[0097]
s[t]＝a[t]*c(t-j)+b[t]*d(t-j)
[0098]
其中，s[t]表示所述语音输出结果；
[0099]
a[t]表示所述第一子语音片段；
[0100]
b[t]表示所述第二子语音片段。
[0101]
例如：图2为第二语音片段和第三语音片段的重叠语音片段的拼接系数图，横坐标为时刻，纵坐标为拼接系数。第二语音片段的时长为从0时刻至100时刻，表示为：a[0:100]，第三语音片段的时长为从84时刻至184时刻，表示为：b[84:184]，重叠语音片段为a[84:100]，重叠语音片段的中间时刻为92，k用于调节图2中的曲线的倾斜度，k的取值可以为0.1，可以根据需要进行设定，在此不做具体限定。下面以k为0.1进行举例。
[0102]
其中，0～83时刻是第二语音片段的非重叠部分，可以直接输出，则，即语音输出结果s[0:83]＝a[0:83]；
[0103]
时刻84是重叠语音片段中的时刻，需要进行语音拼接处理，则语音输出结果s[84]＝a[84]*c(-8)+b[84]*d(-8)
[0104]
其中，
[0105]
[0106][0107]
时刻85是重叠语音片段中的时刻，需要进行语音拼接处理，则语音输出结果s[85]＝a[85]*c(-7)+b[85]*d(-7)
[0108]
其中，
[0109][0110][0111]
……
[0112]
时刻85是重叠语音片段中的时刻，需要进行语音拼接处理，则语音输出结果s[100]＝a[100]*c(8)+b[100]*d(8)
[0113]
其中，
[0114][0115][0116]
101～168时刻是第三语音片段的非重叠部分，可以直接输出，则语音输出结果s[101:168]＝b[101:168]
[0117]
由上述计算结果可以得到第二语音片段和第三语音片段进行拼接之后得到的最终的语音输出结果s[0:168]。
[0118]
下面通过一具体实施例对上述方案进行详细说明：
[0119]
如图3所示，如果用户输入的待处理语音(即输入语音)经过三次切割后得到的四个第一语音片段，分别为第一语音片段a0、b0、c0、d0。其中，每两个相邻的第一语音片段之间的重叠语音片段为200ms。如果a0片段为0～1000ms，b0片段为800～1800ms，c0片段为1600～2600ms，d0片段为2400～3400ms，则a0和b0的重叠语音片段为800～1000ms，b0和c0的重叠语音片段为1600ms～1800ms，c0和d0的重叠语音片段为2400ms～2600ms。
[0120]
对a0进行ppg提取(即语音识别处理)得到对应的ppg，上述对a0进行ppg提取的过程记为a1，然后对a1得到的ppg进行vc转换(即语音转换处理)得到对应的语音输出结果a3，即输出语音a3，上述对a1的vc转换过程记为a2。
[0121]
在a1的vc转换的过程中，采用多线程同步的方式对b0进行ppg提取，对b0进行ppg提取的过程记为b1，然后对b1得到的ppg进行vc转换得到对应的语音输出结果b3，即输出语音b3，上述对b1的vc转换过程记为b2。
[0122]
并且，将a3和b3两个语音转换结果中，不存在重叠的部分直接输出，重叠部分(即重叠语音片段800～1000ms)进行拼接处理后输出，即b3的开头部分800～1000ms需要和a3的末尾部分800～1000ms进行拼接。
[0123]
在b1的vc转换的过程中，采用多线程并行处理的方式对c0进行ppg提取，对c0进行
ppg提取的过程记为c1，然后对c1得到的ppg进行vc转换得到对应的语音输出结果c3，即输出语音c3，上述对c1的vc转换过程记为c2。
[0124]
并且，将b3和c3两个语音转换结果中，不存在重叠的部分直接输出，重叠部分(即重叠语音片段1600～1800ms)进行拼接处理后输出，即c3的开头部分1600～1800ms需要和b3的末尾部分1600～1800ms进行拼接。
[0125]
在c1的vc转换的过程中，采用多线程并行处理的方式对d0进行ppg提取，对d0进行ppg提取的过程记为d1，然后对d1得到的ppg进行vc转换得到对应的语音转换结果d3，即输出语音d3，上述对d1的vc转换过程记为d2。
[0126]
并且，将c3和d3两个语音转换结果中，不存在重叠的部分直接输出，重叠部分(即重叠语音片段2400ms～2600ms)进行拼接处理后输出，即d3的开头部分2400ms～2600ms需要和c3的末尾部分2400ms～2600ms进行拼接。
[0127]
综上所述，本发明上述实施例，通过对获取的待处理语音进行切割，得到至少两个第一语音片段，对至少两个第一语音片段进行语音转换处理得到至少两个语音转换结果，由于每两个相邻的第一语音片段之间具有部分重叠语音片段，由此，每两个相邻的第一语音片段进行语音转换处理之后得到的语音转换结果之间具有重叠部分。并且，由于至少两个第一语音片段对应源音，至少两个语音转换结果对应目标音，则将至少两个具有重叠部分的语音转换结果之间的重叠部分进行语音拼接处理，可以避免语音拼接位置的语音中断问题，防止音转换过程中的语音失真情况的发生。并且，采用多线程并行处理方式对至少两个第一语音片段进行语音转换处理，可以同时对至少两个第一语音片段进行语音转换处理，可以加速语音处理速度。
[0128]
如图4所示，本发明实施例提供了一种语音处理装置400，具体包括：
[0129]
获取模块401，用于获取待处理语音；
[0130]
切割模块402，用于对所述待处理语音进行切割，得到至少两个第一语音片段，每两个相邻的第一语音片段之间具有部分重叠语音片段；
[0131]
第一处理模块403，用于对所述至少两个第一语音片段采用多线程并行处理方式进行语音转换处理，得到至少两个语音转换结果；所述至少两个第一语音片段对应源音，所述至少两个语音转换结果对应目标音；
[0132]
第二处理模块404，用于将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果。
[0133]
可选的，所述第一处理模块403中，针对每个第一语音片段，对所述第一语音片段进行语音转换处理，得到语音转换结果的过程，包括：
[0134]
将所述第一语音片段输入至语音识别模型中进行语音识别处理，得到语音后验概率ppg特征；
[0135]
将所述语音后验概率ppg特征和目标音标识id输入至语音转换模型中进行语音转换处理，得到语音转换结果。
[0136]
可选的，所述第一处理模块403中的多线程并行处理方式，包括：
[0137]
在所述至少两个第一语音片段中的第i个第一语音片段进行语音转换处理的过程中，同时进行所述至少两个第一语音片段中的第i+1个第一语音片段的语音识别处理，i为正整数。
[0138]
可选的，在所述至少两个第一语音片段包括：第二语音片段和第三语音片段的情况下，所述第二处理模块404，具体用于：
[0139]
获取所述第二语音片段和所述第三语音片段的重叠语音片段的任意时刻与所述重叠语音片段的中间时刻的时间差；
[0140]
根据所述时间差与预设调节系数，计算所述第二语音片段在所述任意时刻的第一拼接系数，以及所述第三语音片段在所述任意时刻的第二拼接系数；
[0141]
根据所述第二语音片段中任意时刻的第一子语音片段、所述第三语音片段中任意时刻的第二子语音片段、所述第一拼接系数以及所述第二拼接系数，对所述第二语音片段的语音转换结果和所述第三语音片段的语音转换结果进行语音拼接处理，得到语音输出结果。
[0142]
可选的，所述第二处理模块404在根据所述时间差与预设调节系数，计算所述第二语音片段在所述任意时刻的第一拼接系数，以及所述第三语音片段在所述任意时刻的第二拼接系数时，具体用于：
[0143][0144][0145]
其中，c(t-j)表示所述第一拼接系数；
[0146]
d(t-j)表示所述第二拼接系数；
[0147]
t表示所述重叠语音片段的任意时刻；
[0148]
j表示所述重叠语音片段的中间时刻；
[0149]
t-j表示所述任意时刻与所述中间时刻的时间差；
[0150]
k表示预设调节系数。
[0151]
可选的，所述第二处理模块404在根据所述第二语音片段中任意时刻的第一子语音片段、所述第三语音片段中任意时刻的第二子语音片段、所述第一拼接系数以及所述第二拼接系数，对所述第二语音片段的语音转换结果和所述第三语音片段的语音转换进行语音拼接处理，得到语音输出结果时，具体用于：
[0152]
s[t]＝a[t]*c(t-j)+b[t]*d(t-j)
[0153]
其中，s[t]表示所述语音输出结果；
[0154]
a[t]表示所述第一子语音片段；
[0155]
b[t]表示所述第二子语音片段。
[0156]
需要说明的是，该语音处理装置实施例是与上述语音处理方法相对应的装置，上述实施例的所有实现方式均适用于该装置实施例中，也能达到与其相同的技术效果，在此不做赘述。
[0157]
综上所述，本发明上述实施例，通过对获取的待处理语音进行切割，得到至少两个第一语音片段，对至少两个第一语音片段进行语音转换处理得到至少两个语音转换结果，由于每两个相邻的第一语音片段之间具有部分重叠语音片段，由此，每两个相邻的第一语音片段进行语音转换处理之后得到的语音转换结果之间具有重叠部分。并且，由于至少两
个第一语音片段对应源音，至少两个语音转换结果对应目标音，则将至少两个具有重叠部分的语音转换结果之间的重叠部分进行语音拼接处理，可以避免语音拼接位置的语音中断问题，防止音转换过程中的语音失真情况的发生。并且，采用多线程并行处理方式对至少两个第一语音片段进行语音转换处理，可以同时对至少两个第一语音片段进行语音转换处理，可以加速语音处理速度。
[0158]
本发明实施例还提供了一种网络设备。如图5所示，网络设备包括：
[0159]
至少一个处理器51；以及
[0160]
与所述至少一个处理器51通过通信接口52通信连接的存储器53；
[0161]
其中，所述存储器存储有可被所述至少一个处理器51执行的指令，所述指令被所述至少一个处理器51执行，以使所述至少一个处理器51能够执行所存放的程序，实现如下步骤：
[0162]
获取待处理语音；
[0163]
对所述待处理语音进行切割，得到至少两个第一语音片段，每两个相邻的第一语音片段之间具有部分重叠语音片段；
[0164]
对所述至少两个第一语音片段采用多线程并行处理方式进行语音转换处理，得到至少两个语音转换结果；所述至少两个第一语音片段对应源音，所述至少两个语音转换结果对应目标音；
[0165]
将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果。
[0166]
可选的，所述处理器51在针对每个第一语音片段，对所述第一语音片段进行语音转换处理，得到语音转换结果的过程中，具体用于：
[0167]
将所述第一语音片段输入至语音识别模型中进行语音识别处理，得到语音后验概率ppg特征；
[0168]
将所述语音后验概率ppg特征和目标音标识id输入至语音转换模型中进行语音转换处理，得到语音转换结果。
[0169]
可选的，所述多线程并行处理方式，包括：
[0170]
在所述至少两个第一语音片段中的第i个第一语音片段进行语音转换处理的过程中，同时进行所述至少两个第一语音片段中的第i+1个第一语音片段的语音识别处理，i为正整数。
[0171]
可选的，在所述至少两个第一语音片段包括：第二语音片段和第三语音片段的情况下，所述处理器51在将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果时，具体用于；
[0172]
获取所述第二语音片段和所述第三语音片段的重叠语音片段的任意时刻与所述重叠语音片段的中间时刻的时间差；
[0173]
根据所述时间差与预设调节系数，计算所述第二语音片段在所述任意时刻的第一拼接系数，以及所述第三语音片段在所述任意时刻的第二拼接系数；
[0174]
根据所述第二语音片段中任意时刻的第一子语音片段、所述第三语音片段中任意时刻的第二子语音片段、所述第一拼接系数以及所述第二拼接系数，对所述第二语音片段的语音转换结果和所述第三语音片段的语音转换结果进行语音拼接处理，得到语音输出结果。
[0175]
可选的，所述处理器51在根据所述时间差与预设调节系数，计算所述第二语音片段在所述任意时刻的第一拼接系数，以及所述第三语音片段在所述任意时刻的第二拼接系数时，具体用于：
[0176][0177][0178]
其中，c(t-j)表示所述第一拼接系数；
[0179]
d(t-j)表示所述第二拼接系数；
[0180]
t表示所述重叠语音片段的任意时刻；
[0181]
j表示所述重叠语音片段的中间时刻；
[0182]
t-j表示所述任意时刻与所述中间时刻的时间差；
[0183]
k表示预设调节系数。
[0184]
可选的，所述处理器51在根据所述第二语音片段中任意时刻的第一子语音片段、所述第三语音片段中任意时刻的第二子语音片段、所述第一拼接系数以及所述第二拼接系数，对所述第二语音片段的语音转换结果和所述第三语音片段的语音转换进行语音拼接处理，得到语音输出结果时，具体用于：
[0185]
s[t]＝a[t]*c(t-j)+b[t]*d(t-j)
[0186]
其中，s[t]表示所述语音输出结果；
[0187]
a[t]表示所述第一子语音片段；
[0188]
b[t]表示所述第二子语音片段。
[0189]
存储器可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
[0190]
上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0191]
在本发明提供的又一实施例中，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述实施例中任一所述的语音处理方法。
[0192]
在本发明提供的又一实施例中，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述实施例中任一所述的语音处理方法。
[0193]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计
算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0194]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0195]
本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0196]
以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

技术特征：

1.一种语音处理方法，其特征在于，所述方法包括：获取待处理语音；对所述待处理语音进行切割，得到至少两个第一语音片段，每两个相邻的第一语音片段之间具有部分重叠语音片段；对所述至少两个第一语音片段采用多线程并行处理方式进行语音转换处理，得到至少两个语音转换结果；所述至少两个第一语音片段对应源音，所述至少两个语音转换结果对应目标音；将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果。2.根据权利要求1所述的方法，其特征在于，针对每个第一语音片段，对所述第一语音片段进行语音转换处理，得到语音转换结果的过程，包括：将所述第一语音片段输入至语音识别模型中进行语音识别处理，得到语音后验概率ppg特征；将所述语音后验概率ppg特征和目标音标识id输入至语音转换模型中进行语音转换处理，得到语音转换结果。3.根据权利要求2所述的方法，其特征在于，所述多线程并行处理方式，包括：在所述至少两个第一语音片段中的第i个第一语音片段进行语音转换处理的过程中，同时进行所述至少两个第一语音片段中的第i+1个第一语音片段的语音识别处理，i为正整数。4.根据权利要求1所述的方法，其特征在于，在所述至少两个第一语音片段包括：第二语音片段和第三语音片段的情况下，所述将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果，包括：获取所述第二语音片段和所述第三语音片段的重叠语音片段的任意时刻与所述重叠语音片段的中间时刻的时间差；根据所述时间差与预设调节系数，计算所述第二语音片段在所述任意时刻的第一拼接系数，以及所述第三语音片段在所述任意时刻的第二拼接系数；根据所述第二语音片段中任意时刻的第一子语音片段、所述第三语音片段中任意时刻的第二子语音片段、所述第一拼接系数以及所述第二拼接系数，对所述第二语音片段的语音转换结果和所述第三语音片段的语音转换结果进行语音拼接处理，得到语音输出结果。5.根据权利要求4所述的方法，其特征在于，所述根据所述时间差与预设调节系数，计算所述第二语音片段在所述任意时刻的第一拼接系数，以及所述第三语音片段在所述任意时刻的第二拼接系数，包括：时刻的第二拼接系数，包括：其中，c(t-j)表示所述第一拼接系数；d(t-j)表示所述第二拼接系数；t表示所述重叠语音片段的任意时刻；
j表示所述重叠语音片段的中间时刻；t-j表示所述任意时刻与所述中间时刻的时间差；k表示预设调节系数。6.根据权利要求5所述的方法，其特征在于，所述根据所述第二语音片段中任意时刻的第一子语音片段、所述第三语音片段中任意时刻的第二子语音片段、所述第一拼接系数以及所述第二拼接系数，对所述第二语音片段的语音转换结果和所述第三语音片段的语音转换进行语音拼接处理，得到语音输出结果，包括：s[t]＝a[t]*c(t-j)+b[t]*d(t-j)其中，s[t]表示所述语音输出结果；a[t]表示所述第一子语音片段；b[t]表示所述第二子语音片段。7.一种语音处理装置，其特征在于，包括：获取模块，用于获取待处理语音；切割模块，用于对所述待处理语音进行切割，得到至少两个第一语音片段，每两个相邻的第一语音片段之间具有部分重叠语音片段；第一处理模块，用于对所述至少两个第一语音片段采用多线程并行处理方式进行语音转换处理，得到至少两个语音转换结果；所述至少两个第一语音片段对应源音，所述至少两个语音转换结果对应目标音；第二处理模块，用于将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果。8.一种网络设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的语音处理方法。9.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的语音处理方法。10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序在被处理器执行时实现权利要求1-7中任一项所述的语音处理方法。

技术总结

本发明实施例提供了一种语音处理方法、装置及网络设备，该方法包括：获取待处理语音；对所述待处理语音进行切割，得到至少两个第一语音片段，每两个相邻的第一语音片段之间具有部分重叠语音片段；对所述至少两个第一语音片段采用多线程并行处理方式进行语音转换处理，得到至少两个语音转换结果；所述至少两个第一语音片段对应源音，所述至少两个语音转换结果对应目标音；将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果。通过上述方案，可以防止音转换过程中的语音失真情况的发生，还可以加速语音处理速度。还可以加速语音处理速度。还可以加速语音处理速度。