生成模型推理中的动态回火采样的制作方法



1.本公开涉及生成模型推理中的动态回火(tempered)采样。


背景技术:



2.回归生成模型可以用于丢包隐藏(packet loss concealment),这是一种用于掩盖网际协议语音(voip)通信中丢包的影响的技术。这些模型接收音频样本序列,并且可以直接推断序列中的下一个音频样本,或者可替代地,推断概率密度函数,该概率密度函数为多个音频样本中的每一个提供对应的音频样本是序列中的下一个音频样本的相对似然性。概率密度函数可以以多种方式被采样,包括直接采样、平均采样、模式采样和回火采样。


技术实现要素:



3.本发明的一个方面提供一种对输出音频样本进行采样的方法。该方法包括:在活动语音通信会话中的丢包隐藏事件期间:由数据处理硬件在具有开始时间和结束时间的时间窗口期间获得先前输出音频样本的序列。所述结束时间在所述丢包隐藏事件开始时发生。在所述丢包隐藏事件期间的多个时间步中的每个时间步处,该方法包括由数据处理硬件使用语音合成模型为所述对应时间步生成可能输出音频样本的概率分布。所述概率分布中的每个可能输出音频样本包括指示所述对应的可能输出音频样本表示所述对应时间步处的话语的一部分的可能性的相应概率。该方法还包括由所述数据处理硬件基于所述多个时间步中的对应时间步之前的时间步的数量、初始温度采样值、最小温度采样值和最大温度采样值的函数来确定温度采样值。该方法还包括由所述数据处理硬件将所述温度采样值应用于所述概率分布,以调整从所述概率分布选择可能输出音频样本的概率。该方法还包括由所述数据处理硬件基于与所述可能输出音频样本中的每一个相关联的经调整的概率来随机地选择所述概率分布的可能输出音频样本中的一个以及由所述数据处理硬件使用所述随机地选择的输出音频样本生成合成语音。
4.本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中,所述函数是线性函数。在一些示例中,最大温度采样值为0.85。可选地,最小温度采样值为0.25。所述初始温度采样值可以与最小温度采样值相同。
5.确定所述温度采样值可以包括在所述丢包隐藏事件期间,确定所述多个时间步中的在所述对应时间步之前的时间步的数量;以及当所述时间步的数量满足阈值时,使所述温度采样值增加设定量。在一些实现方式中,阈值是十个时间步的倍数。设定量可以是0.1。在一些示例中,确定所述温度采样值包括在所述丢包隐藏事件期间,基于所述多个时间步中的在所述对应时间步之前的时间步的数量来增加所述温度采样值。可选地,确定所述温度采样值进一步包括:一旦所述温度采样值等于所述最大温度采样值,则将所述温度采样值保持在所述最大温度采样值。
6.本发明的另一方面提供一种用于对输出音频样本进行采样的系统。所述系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。所述存储器硬件存储当在所述数据处
理硬件上执行时,使所述数据处理硬件执行操作的指令。所述操作包括:在活动语音通信会话中的丢包隐藏事件期间:在具有开始时间和结束时间的时间窗口期间获得先前输出音频样本的序列。所述结束时间在所述丢包隐藏事件开始时发生。在所述丢包隐藏事件期间的多个时间步中的每个时间步处,所述操作包括使用语音合成模型为所述对应时间步生成可能输出音频样本的概率分布。所述概率分布中的每个可能输出音频样本包括指示所述对应的可能输出音频样本表示所述对应时间步处的话语的一部分的可能性的相应概率。所述操作还包括基于所述多个时间步中的对应时间步之前的时间步的数量、初始温度采样值、最小温度采样值和最大温度采样值的函数来确定温度采样值。所述操作还包括将所述温度采样值应用于所述概率分布,以调整从所述概率分布选择可能输出音频样本的概率。所述操作还包括基于与所述可能输出音频样本中的每一个相关联的经调整的概率来随机地选择所述概率分布的可能输出音频样本中的一个以及使用所述随机地选择的输出音频样本生成合成语音。
7.该方面可以包括以下可选特征中的一个或多个。在一些实现方式中,所述函数是线性函数。在一些示例中,所述最大温度采样值为0.85。可选地,所述最小温度采样值为0.25。所述初始温度采样值可以与所述最小温度采样值相同。
8.确定温度采样值可以包括在所述丢包隐藏事件期间,确定所述多个时间步中的在所述对应时间步之前的时间步的数量;以及当所述时间步的数量满足阈值时,使所述温度采样值增加设定量。在一些实现方式中,阈值是十个时间步的倍数。设定量可以是0.1。在一些示例中,确定温度采样值包括在所述丢包隐藏事件期间,基于所述多个时间步中的在所述对应时间步之前的时间步的数量来增加所述温度采样值。可选地,确定温度采样值进一步包括:一旦所述温度采样值等于所述最大温度采样值,则将所述温度采样值保持在所述最大温度采样值。
9.在附图和以下描述中阐述了本公开的一个或多个实现方式的细节。其他方面、特征和优点将从说明书和附图以及权利要求书中显而易见。
附图说明
10.图1是用于对输出音频样本进行采样的示例系统的示意图。
11.图2是在没有语音的情况下生成混串音输出的语音合成模型的曲线图。
12.图3是动态回火采样器的示例性组件的示意图。
13.图4是用于增加采样温度值的线性函数的曲线图的示意图。
14.图5是概率分布和经调整的概率分布的曲线图的示意图。
15.图6是在没有语音的情况下恒定采样温度输出和动态采样温度输出的曲线图的示意图。
16.图7是在存在强调节语音的情况下的恒定采样温度输出和动态采样温度输出的曲线图的示意图。
17.图8是用于对输出音频样本进行采样的方法的操作的示例布置的流程图。
18.图9是可以用于实现本文描述的系统和方法的示例计算设备的示意图。
19.各个附图中相同的附图标记表示相同的元件。
具体实施方式
20.丢包隐藏是一种用于掩盖网际协议语音(voip)通信中的丢包影响的技术。在voip通信中,音频数据(即,各方之间的通信的语音数据)通常作为分组(packet)通过传输控制分组/网际协议(tcp/ip)和/或用户数据报协议(udp)网络发送。这些分组通常丢失、迟到或被破坏。当这种情况发生时,各方经历受损的音频质量。存在尝试补偿该丢包的许多不同的丢包隐藏技术。例如,零插入技术仅用全零替换丢失的分组。在这种情况下,接收方听到静音而不是丢失的分组。另一种常见的技术是波形替换,其通过重复先前接收的语音的一部分来填充丢失的音频数据。例如,波形替换可以仅重复最后接收的帧。该方法通常对于短丢失事件(例如,单个丢包)是有效的,但是随着丢失事件的长度增加,波形替换倾向于导致机器人发声语音。
21.基于模型的方法(诸如回归生成模型)越来越多地用于丢包隐藏。这些模型接收音频样本序列,并且可以直接推断该序列中的下一个音频样本,或者可替代地,推断概率密度函数,该概率密度函数对多个音频样本中的每一个提供对应的音频样本是序列中的下一个音频样本的相对似然性。概率密度函数可以以多种方式被采样,包括直接采样、平均采样、模式采样和回火采样。不同的采样技术具有不同的缺点。例如,由于缺乏平滑度或概率密度函数的聚焦,直接采样通常会引入伪像。
22.当概率密度函数通过采样温度值被加权或校正时,发生回火采样。采样温度修改或调整概率密度函数以允许概率密度函数的更好表示。也就是说,回火采样倾向于平滑并将采样聚焦在最可能的区域中。例如,回火采样可以使用等式(1)对概率密度函数p(x)进行加权,其中是是x处的校正概率,z是校正因子(以确保仍然加起来为1),而t是温度采样值。
[0023][0024]
等式(1)的结果是温度采样值越高,经调整的概率密度函数越接近原始概率密度函数p(x)。相反,温度采样值越小,高概率值的概率增加得越多,而低概率值的概率减小得越多。即,低温度采样值倾向于进一步将采样限制为仅高概率值。
[0025]
当特别地被应用于丢包隐藏时,静态或恒定回火采样(即,温度采样值是恒定的)具有显著的限制。例如,低温度采样值倾向于最终将模型的输出崩溃(collapse)为静音。也就是说,静音通常是高概率选项,并且低采样温度增加了从概率密度函数采样静音的可能性。因为采样值被反馈到自回归模型中以影响下一时间步的概率密度函数,所以静音通常继续是高概率选项。这导致静音被连续采样,这对于存在语音时的丢包隐藏通常是不期望的。
[0026]
相反,高温度采样值倾向于导致输出中的“混串音”(“babbling”)。也就是说,模型倾向于在存在静音的情况下开始生成语音(即,说话)(图2)。如所预期的,这在丢包隐藏方法中也是不期望的。
[0027]
本文的实现方式涉及一种丢包隐藏器,其在语音通信会话期间在没有呼入音频数据或延迟呼入音频数据的情况下生成音频。丢包隐藏器包括语音合成模型,该语音合成模型为丢包隐藏事件的每个时间步生成概率密度函数。丢包隐藏器还包括动态回火采样器,该动态回火采样器基于采样温度对概率密度函数进行采样,并且随时间动态地改变采样温
度,以最小化模型崩溃为静音的机会,并且同时最小化在没有语音期间模型混串音的机会。
[0028]
参考图1,在一些实现方式中,示例系统100包括两个或更多个用户设备10、10a-n,每个用户设备与相应的用户12、12a-n相关联,并且每个用户设备经由网络112、112a-n与远程系统140通信。用户设备10可以对应于任何计算设备,诸如台式工作站、膝上型工作站或移动设备(即,智能电话)。用户设备10包括计算资源18(例如,数据处理硬件)和/或存储资源16(例如,存储器硬件)。
[0029]
远程系统140可以是具有可扩展/弹性计算资源144(例如,数据处理硬件)和/或存储资源142(例如,存储器硬件)的单个计算机、多个计算机或分布式系统(例如,云环境)。数据存储146(即,远程存储设备146)可以被覆盖在存储资源142上,以允许客户端或计算资源144中的一个或多个对存储资源142的可扩展使用。远程系统140被配置为通过网络112、112a-b,在用户设备10、10a-b之间接收和发送语音数据信号,诸如与网际协议语音(voip)呼叫或运营商网络语音呼叫相关联的语音数据信号。因此,使用第一用户设备10a的第一呼叫者12a可以通过远程系统140向第二用户设备10b呼叫或视频呼叫。用户设备10、10a-b通过经由网络112、112a-b向远程系统140发送语音数据信号来进行通信。语音数据信号经由例如tcp/ip或udp协议被分成一系列分组20,其中每个分组20包括来自相应用户设备10、10a-b的音频信号的一个或多个音频样本22。
[0030]
远程系统140执行丢包隐藏器150。在第一用户设备10a与第二用户设备10b之间的活动语音通信会话中的丢包隐藏事件期间(即,一个或多个分组20已经被丢失、延迟或损坏),丢包隐藏器150在具有开始时间ti和结束时间tf的时间窗口期间接收一系列先前输出音频样本22。结束时间tf发生在丢包隐藏事件开始时。开始时间ti可以是结束时间tf之前的任何时间量。例如,开始时间ti比结束时间tf早280毫秒。可以基于系统100的参数来调整开始时间ti。在一些示例中,开始时间ti距结束时间tf越大,丢包隐藏器150可以更有效,并且丢包隐藏器150需要的计算资源越大。因此,可以优化开始时间ti以平衡有效性与丢包隐藏器150所需的计算资源。
[0031]
语音合成模型160接收先前输出音频样本22的序列。每个样本可以对应于时间步(例如,10毫秒)。模型160可以是神经网络,例如递归神经网络(rnn)。模型160可以是自回归生成模型,其基于先前输出音频样本22的序列,对序列中的下一个样本22(即,用于下一时间步的音频样本22)的所有可能输出音频样本生成概率分布164。概率分布164中的每个可能输出音频样本包括指示对应的可能输出音频样本22表示下一时间步处的话语的一部分的似然性的相应概率。也就是说,基于先前输出音频样本22的序列,语音合成模型160针对每个可能的音频样本22预测对应的音频样本22将接下来出现在音频样本22的序列中的概率。换句话说,模型160基于通信期间用户12之间的先前语音的历史来预测(由于丢包隐藏事件而不可用的)未来语音。话语可以包括连续播放的许多(例如,数百到数千)音频样本22。
[0032]
先前输出音频样本22的序列可以表示最近可用的音频样本22。也就是说,在丢包隐藏事件期间(即,一个或多个分组20及其对应的音频样本22不可用),语音合成模型160可以接收紧接在第一丢失分组20之前的音频样本22。
[0033]
继续参考图1,动态回火采样器300从语音合成模型160接收概率分布164。如参考图3更详细地讨论的,动态回火采样器300随机地选择概率分布164的可能音频输出样本310
中的一个,并且将所选择的样本310提供给语音合成器170。语音合成器170使用随机地选择的音频输出样本310生成合成语音172。合成语音172可以作为音频样本22的序列中的下一个音频样本来播放,以代替不可用分组20和促成丢包隐藏事件的音频样本22。随机地选择的音频输出样本310也被提供回语音合成模型160,以用于在后续时间步中预测音频样本。也就是说,语音合成模型160在相同的丢包隐藏事件期间,基于先前音频样本22的序列和任何随机地选择的音频输出样本310,由先前的概率分布164生成用于每个时间步的概率分布164。在一些示例中,动态回火采样器300可以(例如,通过使用固定种子)伪随机地选择可能的音频输出样本310中的一个。
[0034]
现在参考图2,当以低且静态的采样温度(即,采样温度不改变)对概率分布164进行采样时,模型160将可能崩溃为静音。相反,当以高且静态的采样温度对概率分布164进行采样时,模型160将可能在没有语音的情况下混串音。曲线图200图示了由模型(例如,语音合成模型160)输出的音频信号202,该信号除了混串音的时段210之外是静音的。这些时段210是不期望的,并且将大大降低用户12之间的通信质量。
[0035]
现在参考图3,为了克服静态温度限制,动态回火采样器300基于自丢包隐藏事件开始以来,多个时间步中的当前时间步之前的时间步322的数量的函数来确定温度采样值332。如下面更详细讨论的,温度采样值332也基于初始温度采样值324、最小温度采样值326和最大温度采样值328。
[0036]
在一些示例中,时间步计数器320计数或确定自丢包隐藏事件开始以来已经过去的时间步322的数量。例如,当丢包隐藏事件开始时,时间步计数器320将用计数零初始化(即,时间步322的数量等于零),并且在每个后续时间步开始时使时间步322的数量递增1。在一些实现方式中,温度发生器330从时间步计数器320接收时间步322的当前数量以及初始温度采样值324、最小温度采样值326和最大温度采样值328。初始温度采样值324、最大温度采样值328和最小温度采样值326可以基于丢包隐藏器150的参数(例如,计算资源量)来预先确定或调整,或者基于用户12之间的音频通信的参数(例如,音频信号的频率、音频信号的幅度等)来调整。
[0037]
温度发生器330可以基于时间步322的数量以及初始温度采样值324、最大温度采样值328和最小温度采样值326的函数来确定温度采样值。在一些示例中,函数是线性函数。也就是说,在一些实现方式中,温度发生器330基于在丢包隐藏事件期间在当前时间步之前的时间步322的数量来增加温度采样值332。图4的曲线图400图示了示例性线性函数410,其中,x轴表示时间步322的数量,以及y轴表示所生成的温度采样值332。在此,当时间步的数量满足阈值时,温度发生器330使温度采样值332增加设定量。例如,阈值是十个时间步的倍数,并且设定量是0.1。也就是说,在一些实现方式中,温度发生器330每十个时间步,使温度采样值332增加0.1。
[0038]
温度发生器330可以使温度采样值332初始化为初始温度采样值324。初始温度采样值324可以与最小温度采样值326相同。例如,最小温度采样值326和初始温度采样值324可以是0.25。曲线图400图示了初始采样值何时为0.25。在该示例中,温度发生器330将温度采样值332初始化为0.25并且在前十个时间步内保持0.25的值。在前十个时间步之后,温度发生器330可以使温度采样值332增加0.1,达到值0.35。温度发生器330可以每十个时间步,继续使温度采样值332增加0.1,直到温度采样值332达到最大温度采样值328。在一些示例
中,最大温度采样值328是0.85。一旦温度采样值332等于最大温度采样值328,温度发生器330就可以将温度采样值332维持在最大温度采样值328,直到丢包隐藏事件结束。
[0039]
本文使用的函数和值仅是示例性的,并且应当理解到,可以使用许多不同的动态采样温度函数和值(例如,初始值324、最小值326和最大值328、步长等)。例如,也可以使用二次函数或指数函数代替线性函数。该函数可以随着样本数量的增加而减小温度采样值。该函数可以是周期性的。也就是说,该函数可以在不同点处增大和减小温度采样值。
[0040]
继续参考图3,温度值应用器340接收所生成的温度采样值332。温度值应用器340还接收当前时间步的概率分布164。温度值应用器340将温度采样值332应用于概率分布164,以调整从概率分布164选择或采样可能输出音频样本22的概率。也就是说,温度值应用器340基于温度采样值332来调整概率分布164以生成经调整的概率分布342。
[0041]
图5的曲线图500图示了当温度采样值(t)等于0.5时,与示例性经调整的概率分布342同时绘制的示例性概率分布164。在此,x轴表示可能输出音频样本22,而y轴表示从概率分布164、342中采样或随机地选择的对应的可能输出音频样本22的概率。在此,具有等于0.5的温度采样值(t)的回火采样强调具有较高概率的区域510,同时减小较低概率的区域520。也就是说,在概率分布164中具有高概率(即,x轴上大约在400和600之间的值)的区域510在经调整的概率分布342中具有增加的相应概率。相反,在概率分布164中具有低概率(即,在x轴上大约低于400的值和大于600的值)的区域520在经调整的概率分布342中使其相应的概率减小。结果,与概率分布164相比,高概率的区域510甚至更可能从经调整的概率分布342中被随机地选择,并且与概率分布164相比,低概率的区域520甚至更不可能从经调整的概率分布342中被随机地选择。
[0042]
返回参考图3,经调整的概率分布342被传递到采样器350。采样器350基于用于每个可能的音频输出样本310的对应概率来随机地选择经调整的概率分布342的可能音频输出样本310中的一个。也就是说,随机地选择的所选可能输出音频样本22的概率是基于与相应可能输出音频样本22相关联的经调整的概率。因此,具有高概率的可能输出音频样本22具有被采样器350随机地选择的高概率。采样器350将随机地选择的音频输出样本310传递到语音合成器170并且还返回到语音合成模型160。丢包隐藏器150可以继续基于先前输出音频样本22的序列和每个先前生成的所选音频输出样本310来生成所选音频输出样本310,直到丢包隐藏事件完成。
[0043]
在一些实现方式中,语音合成模型160包括调节网络,该调节网络将一组约束(例如,文本)转换为用于语音合成模型160的新输入,以便在丢包隐藏事件期间限制模型160继续(即,预测)任何可能的语音,并且替代地限制模型160仅继续与在丢包隐藏事件开始时中断的音素完全相同的音素。从调节网络输出的调节向量可以与所选择的音频输出样本310组合,以产生模型的所有层的偏置效果,以将模型160的输出引导到正确的说话者和单词。在一些示例中,将禁止调节网络在丢包隐藏事件期间演变或更新其状态,而是将强制重复相同的调节向量。这与在衰减到静音之前限制所选择的音频输出样本310的数量(例如,130毫秒的所选择的音频输出样本310)相结合,可以限制丢包隐藏器150预测用户12之间的通信中的下一个音素,而是仅完成当前音素。
[0044]
现在参考图6和图7,动态回火采样器300降低了模型160在语音期间崩溃为静音的可能性,并且还同时降低了模型160在没有语音期间“混串音”(即,生成不期望的语音)的可
能性。图6的曲线图600图示了有噪声的启动信号610以及示例性静态或恒定采样温度模型输出620和动态采样温度模型输出630。在该示例中,x轴表示时间步的数量,而y轴表示信号610、620、630的幅度。在此,恒定采样温度输出620产生高容量的“混串音”(即,不期望的语音),同时动态采样温度模型输出630保持预期的静音。
[0045]
图7的曲线图700图示了强语音信号710和示例性恒定采样温度模型输出720和动态采样温度模型输出730。在该示例中,x轴再次表示时间步的数量,而y轴表示信号710、720、730的幅度。在此,恒定采样温度输出720和动态采样温度输出730都表现为期望的,并且复制强调节的语音信号。
[0046]
因此,当在丢包隐藏事件期间对可能输出音频样本进行采样时,丢包隐藏器150动态地控制采样温度值。模型“说话”(即,预测非静音的输出)的意愿基于两个因素:采样温度和调节向量。调节向量携带关于所生成的语音的上下文信息。调节网络可以具有比语音合成模型160更宽的注意力跨度,并且因此能够将模型偏置成产生具有正确语音、音素或甚至语调变化的语音。当调节强时,则调节偏置允许模型即使在低采样温度下也能说话。相反,当调节弱时,采样温度对于开始或停止语音更加关键。因此,可以使用强调节向量来偏置模型160以产生倾向于说话或继续说话的倾斜概率密度函数,并且即使在低采样温度下,强调节向量也可以具有产生语音的效果。
[0047]
动态温度平衡这两个因素。在丢包隐藏事件开始时,低动态采样温度在存在弱调节的情况下产生模型崩溃。相反,在强调节的情况下,模型不会崩溃,而是继续生成语音。在弱调节的情况下,模型可能已经崩溃,因此无论采样温度增加多少,都不能恢复语音。此外,强调节模型最终会崩溃为静音。采样温度越高,发生这种崩溃的可能性越小。为此,采样温度的动态增加使意外语音最小化,并且在不需要分析调节向量或任何启动信号(即,先前输出音频样本22的序列)的情况下崩溃为静音。也就是说,丢包隐藏器150不需要分析输入历史来确定是否存在语音,这样的分析可能增加显著的复杂性和附加错误的机会。动态回火采样器300也不需要对语音合成模型160的训练进行任何改变。
[0048]
本文的示例涉及在丢包隐藏事件期间动态地改变丢包隐藏器150的采样温度。然而,应当理解到,动态地改变采样温度也适用于包括从概率密度函数采样的其他情况。例如,动态温度采样通常可以与生成模型一起使用,以改善由模型生成的输出。
[0049]
图8是对输出音频样本进行采样的方法800的操作的示例性布置的流程图。方法800包括在活动语音通信会话中的丢包隐藏事件期间,在步骤802处,由数据处理硬件144在具有开始时间和结束时间的时间窗口期间获得先前输出音频样本22的序列。结束时间发生在丢包隐藏事件开始时。在丢包隐藏事件期间的多个时间步中的每个时间步处,方法800包括:在步骤804处,由数据处理硬件144使用语音合成模型160生成对应时间步的可能输出音频样本22的概率分布164。概率分布中的每个可能输出音频样本22包括指示对应的可能输出音频样本22表示对应的时间步处的话语的一部分的似然性的相应概率。该方法在步骤806处包括由数据处理硬件144基于多个时间步中在对应时间步之前的时间步322的数量、初始温度采样值324、最小温度采样值326和最大温度采样值328的函数来确定温度采样值332。该方法包括在步骤808处,由数据处理硬件144将温度采样值332应用于概率分布164以调整从概率分布164选择可能输出音频样本22的概率。在步骤810处,方法800包括由数据处理硬件144基于与可能音频样本22中的每一个相关联的经调整的概率随机地选择概率分布
342的可能输出音频样本310中的一个。在步骤812,方法800包括由数据处理硬件144使用随机地选择的输出音频样本310生成合成语音172。
[0050]
图9是可以用于实现本文档所描述的系统和方法的示例性计算设备900的示意图。计算设备900旨在代表各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机以及其它适当的计算机。本文所示的组件、它们的连接和关系以及它们的功能仅是示例性的,并不意味着限制本文档中描述和/或要求保护的发明的实现方式。
[0051]
计算设备900包括处理器910、存储器920、存储设备930、连接到存储器920和高速扩展端口950的高速接口/控制器940,以及连接到低速总线970和存储设备930的低速接口/控制器960。组件910、920、930、940、950和960中的每个组件使用各种总线互连,并且可以安装在公共主板上或以其它适当的方式安装。处理器910能够处理用于在计算设备900内执行的指令,包括存储在存储器920中或存储在存储设备930上的指令,以在诸如被耦合到高速接口940的显示器980之类的外部输入/输出设备上显示用于图形用户界面(gui)的图形信息。在其它实现方式中,可以适当地使用多个处理器和/或多个总线,以及多个存储器和存储器类型。而且,可以连接多个计算设备900,其中每个设备提供必要操作的部分(例如,作为服务器组、刀片服务器组或多处理器系统)。
[0052]
存储器920在计算设备900内非暂时性地存储信息。存储器920可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器920可以是用于临时或永久地存储程序(例如,指令序列)或数据(例如,程序状态信息)以供计算设备900使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(rom)/可编程只读存储器(prom)/可擦除可编程只读存储器(eprom)/电子可擦除可编程只读存储器(eeprom)(例如,通常用于固件,诸如启动程序)。易失性存储器的示例包括但不限于随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、相变存储器(pcm)以及磁盘或磁带。
[0053]
存储设备930能够为计算设备900提供大容量存储。在一些实现方式中,存储设备930是计算机可读介质。在各种不同的实现方式中,存储设备930可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它类似的固态存储器设备,或设备阵列,包括在存储区域网络或其它配置中的设备。在另外的实现方式中,计算机程序产品有形地体现为信息载体。该计算机程序产品包含在被执行时执行一种或多种方法,诸如上述那些方法的指令。信息载体是计算机或机器可读介质,诸如存储器920、存储设备930或处理器910上的存储器。
[0054]
高速控制器940管理计算设备900的带宽密集型操作,而低速控制器960管理较低带宽密集型操作。这种职责分配仅是示例性的。在一些实现方式中,高速控制器940被耦合到存储器920、显示器980(例如,通过图形处理器或加速器)和可以接受各种扩展卡(未示出)的高速扩展端口950。在一些实现方式中,低速控制器960被耦合到存储设备930和低速扩展端口990。可能包括各种通信端口(例如,usb、蓝牙、以太网、无线以太网)的低速扩展端口990可以例如通过网络适配器被耦合到一个或多个输入/输出设备,例如键盘、定点设备、扫描仪或网络设备,例如交换机或路由器。
[0055]
如图所示,可以以多种不同形式来实现计算设备900。例如,计算设备900可以被实现为标准服务器900a或在一组这样的服务器900a中多次实现,被实现为膝上型计算机900b
或被实现为机架服务器系统900c的一部分。
[0056]
本文所述的系统和技术的各种实现方式能够以数字电子和/或光学电路、集成电路、专门设计的asic(专用集成电路)、计算机硬件、固件、软件和/或其组合实现。这些各种实现方式能够包括在一个或多个计算机程序中的实现,该计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用的或通用的,被耦合以从存储系统、至少一个输入设备以及至少一个输出设备接收数据和指令,并将数据和指令发送到这些设备。
[0057]
软件应用(即,软件资源)可以指代使计算设备执行任务的计算机软件。在一些示例中,软件应用可以是指“应用”、“app”或“程序”。示例性应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传送应用、媒体流应用、社交网络应用和游戏应用。
[0058]
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且能够以高级过程和/或面向对象的编程语言和/或以汇编/机器语言实现。本文中使用的术语"机器可读介质"和"计算机可读介质"是指任何计算机程序产品、非暂时性计算机可读介质、用于向可编程处理器提供机器指令和/或数据的装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑设备(pld),包括接收机器指令作为机器可读信号的机器可读介质。术语"机器可读信号"是指用于向可编程处理器提供机器指令和/或数据的任何信号。
[0059]
本说明书中所述的过程和逻辑流程可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器(也称为数据处理硬件)来执行。过程和逻辑流程也能够由专用逻辑电路,例如fpga(现场可编程门阵列)或asic(专用集成电路)加以执行。例如,适于执行计算机程序的处理器包括通用和专用微处理器两者,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括一个或多个用于存储数据的大容量存储设备例如磁盘、磁光盘或光盘,或可操作地被耦合至大容量存储设备以从中接收数据或对其传输数据,或者两者。然而,计算机不必具有此类设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,例如包括半导体存储器设备,例如eprom、eeprom和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;以及cd rom和dvd-rom盘。处理器和存储器能够由专用逻辑电路补充或被并入专用逻辑电路中。
[0060]
为了提供与用户的交互,本公开的一个或多个方面能够在具有显示设备和可选的键盘与定点设备的计算机上实现,显示设备例如是crt(阴极射线管)、lcd(液晶显示器)监视器或触摸屏,以向用户显示信息,定点设备例如为鼠标和轨迹球,用户能够通过其向计算机提供输入。其它类型的设备也能够用于提供与用户的交互;例如,提供给用户的反馈能够为任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且能够以任何形式接收来自用户的输入,包括声音、语音或触觉输入。另外,计算机能够通过向用户使用的设备发送文档以及从用户使用的设备接收文档来与用户进行交互;例如,通过响应于从web浏览器收到的请求,将网页发送到用户客户端设备上的web浏览器。
[0061]
已经描述了许多实现方式。然而,应理解,在不脱离本公开的精神和范围的情况
下,可以做出各种修改。因而,其它实现方式也在所附权利要求书的范围内。

技术特征:


1.一种对输出音频样本(22)进行采样的方法(800),所述方法(800)包括:在活动语音通信会话中的丢包隐藏事件期间:由数据处理硬件(144)在具有开始时间和结束时间的时间窗口期间获得先前输出音频样本(22)的序列,所述结束时间在所述丢包隐藏事件开始时发生;以及在所述丢包隐藏事件期间的多个时间步(322)中的每个时间步处:由数据处理硬件(144)使用语音合成模型(160)为对应时间步生成可能输出音频样本(22)的概率分布(164、342),所述概率分布(164、342)中的每个可能输出音频样本(22)包括指示对应的可能输出音频样本(22)表示所述对应时间步处的话语的一部分的可能性的相应概率;由所述数据处理硬件(144)基于所述多个时间步(322)中的对应时间步之前的时间步(322)的数量、初始温度采样值(324)、最小温度采样值(326)和最大温度采样值(328)的函数来确定温度采样值(332);由所述数据处理硬件(144)将所述温度采样值(332)应用于所述概率分布(164、342),以调整从所述概率分布(164、342)选择可能输出音频样本(22)的概率;由所述数据处理硬件(144)基于与所述可能输出音频样本(22)中的每一个相关联的经调整的概率来随机地选择所述概率分布(164、342)的可能输出音频样本(22)中的一个;以及由所述数据处理硬件(144)使用随机地选择的输出音频样本(22)生成合成语音(172)。2.如权利要求1所述的方法(800),其中,所述函数是线性函数。3.如权利要求2所述的方法(800),其中,所述最大温度采样值(328)为0.85。4.如权利要求1-3中的任一项所述的方法(800),其中,所述最小温度采样值(326)为0.25。5.如权利要求1-4中的任一项所述的方法(800),其中,所述初始温度采样值(324)与所述最小温度采样值(326)相同。6.如权利要求1-5中的任一项所述的方法(800),其中,确定所述温度采样值包括:在所述丢包隐藏事件期间,确定所述多个时间步(322)中的在所述对应时间步之前的时间步(322)的数量;以及当所述时间步(322)的数量满足阈值时,使所述温度采样值增加设定量。7.如权利要求6所述的方法(800),其中,所述阈值包括十个时间步的倍数。8.如权利要求6或7所述的方法(800),其中,所述设定量为0.1。9.如权利要求1-8中的任一项所述的方法(800),其中,确定所述温度采样值(332)包括:在所述丢包隐藏事件期间,基于所述多个时间步(322)中的在所述对应时间步之前的时间步(322)的数量来增加所述温度采样值(332)。10.如权利要求1-9中的任一项所述的方法(800),其中,确定所述温度采样值(332)进一步包括:一旦所述温度采样值(332)等于所述最大温度采样值(328),则将所述温度采样值(332)保持在所述最大温度采样值(328)。11.一种系统(100),包括:数据处理硬件(144);以及存储器硬件(146),所述存储器硬件(146)与所述数据处理硬件(144)通信,所述存储器
硬件存储指令,所述指令当在所述数据处理硬件(144)上被执行时,使所述数据处理硬件(144)执行操作,所述操作包括:在活动语音通信会话中的丢包隐藏事件期间:在具有开始时间和结束时间的时间窗口期间获得先前输出音频样本(22)的序列,所述结束时间在所述丢包隐藏事件开始时发生;以及在所述丢包隐藏事件期间的多个时间步(322)中的每个时间步处:使用语音合成模型(160)为对应时间步生成可能输出音频样本(22)的概率分布(164、342),所述概率分布(164、342)中的每个可能输出音频样本(22)包括指示对应的可能输出音频样本(22)表示所述对应时间步处的话语的一部分的可能性的相应概率;基于所述多个时间步(322)中的对应时间步之前的时间步(322)的数量、初始温度采样值(324)、最小温度采样值(326)和最大温度采样值(328)的函数来确定温度采样值(332);将所述温度采样值(332)应用于所述概率分布(164、342),以调整从所述概率分布(164、342)选择可能输出音频样本(22)的概率;基于与所述可能输出音频样本(22)中的每一个相关联的经调整的概率来随机地选择所述概率分布(164、342)的可能输出音频样本(22)中的一个;以及使用随机地选择的输出音频样本(22)生成合成语音(172)。12.如权利要求11所述的系统(100),其中,所述函数是线性函数。13.如权利要求12所述的系统(100),其中,所述最大温度采样值(328)为0.85。14.如权利要求11-13中的任一项所述的系统(100),其中,所述最小温度采样值(326)为0.25。15.如权利要求11-14中的任一项所述的系统(100),其中,所述初始温度采样值(324)与所述最小温度采样值(326)相同。16.如权利要求11-15中的任一项所述的系统(100),其中,确定所述温度采样值(332)包括:在所述丢包隐藏事件期间,确定所述多个时间步(322)中的在所述对应时间步之前的时间步(322)的数量;以及当所述时间步(322)的数量满足阈值时,使所述温度采样值(332)增加设定量。17.如权利要求16所述的系统(100),其中,所述阈值包括十个时间步的倍数。18.如权利要求16或17所述的系统(100),其中,所述设定量为0.1。19.如权利要求11-18中的任一项所述的系统(100),其中,确定所述温度采样值(332)包括:在所述丢包隐藏事件期间,基于所述多个时间步(322)中的在所述对应时间步之前的时间步(322)的数量来增加所述温度采样值(332)。20.如权利要求11-19中的任一项所述的系统(100),其中,确定所述温度采样值(332)进一步包括:一旦所述温度采样值(332)等于所述最大温度采样值(328),则将所述温度采样值(332)保持在所述最大温度采样值(328)。

技术总结


一种方法(800)包括在事件期间获得先前输出音频样本(22)的序列。在事件期间的每个时间步(322)处,该方法包括生成用于该时间步的可能输出音频样本的概率分布。每个样本包括指示对应样本表示时间步处的话语的一部分的可能性的相应概率(164)。该方法还包括基于在该时间步之前的时间步的数量以及初始、最小和最大温度采样值(324、326、328)的函数来确定温度采样值(332)。该方法还包括将温度采样值应用于概率分布以调整选择可能样本的概率,并基于调整后的概率随机地选择可能样本中的一个。该方法还包括使用随机地选择的样本生成合成语音(172)。(172)。(172)。


技术研发人员:

帕布洛

受保护的技术使用者:

谷歌有限责任公司

技术研发日:

2020.12.17

技术公布日:

2022/7/28

本文发布于:2024-09-20 14:19:09,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/17548.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   温度   概率   样本
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议