具有未知数量的多个说话者的话音分离的制作方法

1.本公开总体上涉及语音(speech)处理，并且具体地，涉及用于这种处理的机器学习。

背景技术：

2.机器学习(ml)是对计算机系统用来逐步提高其关于特定任务的性能的算法和数学模型的研究。机器学习算法构建样本数据(称为“训练数据”)的数学模型，以便在没有被明确编程以执行任务的情况下进行预测或决策。机器学习算法可以用于诸如筛选、网络入侵者检测和计算机视觉之类的应用，在这些应用中，难以开发出用于执行任务的特定指令的算法。机器学习与专注于使用计算机进行预测的计算统计学密切相关。对数学优化的研究向机器学习领域提供了方法、理论和应用领域。数据挖掘是机器学习内的研究领域，并且专注于通过无监督学习进行探索性数据分析。在其跨业务问题的应用中，机器学习也被称为预测分析。
3.语音处理是对语音信号和信号的处理方法的研究。信号经常以数字表示的形式被处理，因此语音处理可以被视为数字信号处理应用于语音信号的特例。语音处理的方面包括语音信号的获取、操纵、存储、传输和输出。输入被称为语音识别，并且输出被称为语音合成。

技术实现要素：

4.本文公开的实施例提出了一种用于分离其中多个话音(voice)同时发声的混合音频序列的新方法。新方法采用门控神经网络，这些门控网络被训练成在多个处理步骤处分离话音，同时维持每个输出通道中的说话者固定不变。针对每个数量的可能说话者训练不同的模型，并且可以使用一个或多个活动检测器来选择正确的模型。新方法大大优于当前技术状态，如本文公开的实施例所示，当前技术状态对于两个以上的说话者来说没有竞争力。
5.在特定实施例中，计算系统可以接收混合音频信号，该混合音频信号包括与多个说话者相关联的话音信号的混合。在特定实施例中，计算系统可以通过使用配置有第一数量的输出通道的第一机器学习模型处理混合音频信号来生成第一音频信号。计算系统然后可以基于第一音频信号来确定第一数量的输出通道中的至少一个输出通道是无声的。在特定实施例中，计算系统可以通过使用配置有比第一数量的输出通道少的第二数量的输出通道的第二机器学习模型处理混合音频信号来生成第二音频信号。计算系统然后可以基于第二音频信号来确定第二数量的输出通道中的每个输出通道是非无声的。在特定实施例中，计算系统还可以使用第二机器学习模型来分离与多个说话者相关联的附加混合音频信号。
6.根据本发明的一个方面，提供了一种方法，包括由一个或多个计算系统：接收混合音频信号，该混合音频信号包括与多个说话者相关联的话音信号的混合；通过使用配置有第一数量的输出通道的第一机器学习模型处理混合音频信号来生成第一音频信号；基于第
一音频信号来确定第一数量的输出通道中的至少一个输出通道是无声的；通过使用配置有比第一数量的输出通道少的第二数量的输出通道的第二机器学习模型处理混合音频信号来生成第二音频信号；基于第二音频信号来确定第二数量的输出通道中的每个输出通道是非无声的；以及使用第二机器学习模型来分离与多个说话者相关联的附加混合音频信号。
7.在一些实施例中，多个说话者的数量可以是未知的。
8.在一些实施例中，第二数量可以等于多个说话者的数量。
9.在一些实施例中，该方法还可以包括：由第二机器学习模型生成多个音频信号，每个音频信号包括与多个说话者中的不同的说话者相关联的话音信号。
10.在一些实施例中，第一机器学习模型和第二机器学习模型可以各自基于一个或多个神经网络。
11.在一些实施例中，该方法还可以包括：对混合音频信号进行编码以生成潜在表示；以及基于潜在表示生成三维(3d)张量。
12.在一些实施例中，对混合音频信号进行编码可以基于一个或多个卷积运算。
13.在一些实施例中，生成3d张量可以包括：将潜在表示划分成多个重叠组块；以及沿着一个或多个单维度来级联多个重叠组块。
14.在一些实施例中，第一机器学习模型和第二机器学习模型可以各自基于一个或多个乘法和级联(mulcat)块，每个mulcat块包括长短期记忆(lstm)单元、级联运算、线性投影或排列运算中的一个或多个。
15.在一些实施例中，该方法还可以包括：基于排列不变性损失函数来确定第二数量的输出通道的排列。
16.在一些实施例中，该方法还可以包括：基于排列对第二数量的输出通道进行排序；将身份损失函数应用于经排序的输出通道；以及分别标识与经排序的输出通道相关联的说话者。
17.在一些实施例中，可以基于语音活动检测器来确定至少一个输出通道是无声的。
18.在一些实施例中，第一机器学习模型和第二机器学习模型可以各自基于多个混合音频信号和与多个说话者中的每个说话者相关联的多个音频信号来训练，其中每个混合音频信号包括与多个说话者相关联的话音信号的混合。
19.根据本发明的另一方面，提供了一个或多个计算机可读非暂时性存储介质，该一个或多个计算机可读非暂时性存储介质包含软件，该软件在被执行时可操作以：接收混合音频信号，所述混合音频信号包括与多个说话者相关联的话音信号的混合；通过使用配置有第一数量的输出通道的第一机器学习模型处理混合音频信号来生成第一音频信号；基于第一音频信号来确定第一数量的输出通道中的至少一个输出通道是无声的；通过使用配置有比第一数量的输出通道少的第二数量的输出通道的第二机器学习模型处理混合音频信号来生成第二音频信号；基于第二音频信号来确定第二数量的输出通道中的每个输出通道是非无声的；以及使用第二机器学习模型来分离与多个说话者相关联的附加混合音频信号。
20.在一些实施例中，多个说话者的数量可以是未知的。
21.在一些实施例中，第二数量可以等于多个说话者的数量。
22.在一些实施例中，该软件在被执行时还可操作以：由第二机器学习模型生成多个
音频信号，每个音频信号包括与来自多个说话者的不同的说话者相关联的话音信号。
23.在一些实施例中，第一机器学习模型和第二机器学习模型可以各自基于一个或多个神经网络。
24.在一些实施例中，第一机器学习模型和第二机器学习模型可以各自基于一个或多个乘法和级联(mulcat)块，每个mulcat块包括长短期记忆(lstm)单元、级联运算、线性投影或排列运算中的一个或多个。
25.根据本发明的另一方面，提供了一种系统，包括：一个或多个处理器；以及被耦合到处理器的非暂时性存储器，该非暂时性存储器包括可由处理器执行的指令，处理器在执行指令时可操作以：接收混合音频信号，该混合音频信号包括与多个说话者相关联的话音信号的混合；通过使用配置有第一数量的输出通道的第一机器学习模型处理混合音频信号来生成第一音频信号；基于第一音频信号来确定第一数量的输出通道中的至少一个输出通道是无声的；通过使用配置有比第一数量的输出通道少的第二数量的输出通道的第二机器学习模型处理混合音频信号来生成第二音频信号；基于第二音频信号来确定第二数量的输出通道中的每个输出通道是非无声的；以及使用第二机器学习模型来分离与多个说话者相关联的附加混合音频信号。
26.本文公开的实施例仅是示例，并且本公开的范围不限于此。特定实施例可以包括本文公开的实施例的组件、元素、特征、功能、操作或步骤中的所有、一些，或者一个也不包括。根据本发明的实施例被具体公开在针对方法、存储介质、系统和计算机程序产品的所附权利要求中，其中在一个权利要求类别(例如方法)中提到的任何特征也可以在另一权利要求类别(例如系统)中要求保护。所附权利要求中的从属关系或引用仅仅是出于形式上的原因而选择的。然而，也可以要求保护从对任何先前权利要求(具体为多个从属权利要求)的有意引用中产生的任何主题，使得权利要求及其特征的任何组合被公开，并且可以被要求保护，不管所附权利要求中选择的从属关系如何。可要求保护的主题不仅包括所附权利要求中阐述的特征的组合，还包括权利要求中特征的任何其他组合，其中权利要求中提到的每个特征可以与权利要求中的任何其他特征或其他特征的组合相结合。此外，本文描述或描绘的任何实施例和特征可以在单独的权利要求中和/或在与本文描述或描绘的任何实施例或特征或者与所附权利要求的任何特征的任何组合中要求保护。
附图说明
27.图1示出了本文公开的用于话音分离的网络的示例架构。
28.图2示出了示例乘法和级联(mulcat)块。
29.图3示出了在本文公开的实施例中使用的、针对两个说话者的情况而示出的示例训练损失。
30.图4示出了针对各种内核大小的所公开的模型的示例训练曲线。
31.图5示出了其中模型使用两个说话者的数据集产生具有身份切换的输出通道的样本的示例分数。
32.图6示出了用于分离混合话音信号的示例方法。
33.图7示出了示例计算机系统。
具体实施方式
34.本文公开的实施例提出了一种用于分离多个话音同时说话的混合音频序列的新方法。新方法采用门控神经网络，门控神经网络被训练成在多个处理步骤处分离话音，同时维持每个输出通道中的说话者固定不变。针对每个数量的可能说话者训练不同的模型，并且可以使用一个或多个活动检测器来选择正确的模型。新方法大大优于当前技术状态，如本文公开的实施例所示，当前技术状态对于两个以上的说话者来说没有竞争力。
35.在特定实施例中，计算系统可以接收混合音频信号，该混合音频信号包括与多个说话者相关联的话音信号的混合。在特定实施例中，计算系统可以通过使用配置有第一数量的输出通道的第一机器学习模型处理混合音频信号来生成第一音频信号。计算系统然后可以基于第一音频信号来确定第一数量的输出通道中的至少一个输出通道是无声的。在特定实施例中，计算系统可以通过使用配置有比第一数量的输出通道少的第二数量的输出通道的第二机器学习模型处理混合音频信号来生成第二音频信号。计算系统然后可以基于第二音频信号来确定第二数量的输出通道中的每个输出通道是非无声的。在特定实施例中，计算系统还可以使用第二机器学习模型来分离与多个说话者相关联的附加混合音频信号。
36.从并发地发生的多个对话中分离出单个话音的能力形成了具有挑战性的感知任务。人类这样做的能力已经激发了许多计算尝试，其中早期的许多工作专注在多个麦克风和无监督学习上，例如独立分量分析方法。
37.本文公开的实施例专注于从单个麦克风中分离出受监督话音的问题，随着深度神经网络的出现，这个问题在性能上有了很大的飞跃。在这个“单通道源分离”问题中，给定包含混合音频和个体话音两者的数据集，进行训练以分离包含多个看不见的说话者的新颖混合音频。在特定实施例中，第一机器学习模型和第二机器学习模型可以各自基于多个混合音频信号和与多个说话者中的每个说话者相关联的多个音频信号来训练。每个混合音频信号可以包括与多个说话者相关联的话音信号的混合。
38.当前领先的方法基于一组过完备的线性滤波器，并且基于针对两个说话者使用二进制或连续掩码或者针对更多说话者使用多路复用器在每个时间步长处分离滤波器输出。然后，根据局部表示来重构音频。因为说话者的次序被认为是任意的(难以对话音进行分类)，所以在训练期间使用排列不变性损失(permutation invariant loss)，使得使损失最小化的排列被考虑。
39.这种基于掩码的方法的一个局限性是，需要与掩码一起工作，这随着要分离的话音数量的增加而变得更严重。因此，本文公开的实施例开始构建无掩码方法。在特定实施例中，第一机器学习模型和第二机器学习模型可以各自基于一个或多个神经网络。该方法可以采用应用于音频的rnn序列。如本文公开的实施例所示，在每个rnn之后评估误差从而获得反映每层之后的重构质量的复合损失可能是有益的。
40.rnn可以是双向的。每个rnn块可以用特定类型的残差连接来构建，其中两个rnn并行运行，并且每层的输出是两个rnn与经历旁路(跳过)连接的层的输入的逐元素乘法的级联。
41.因为输出是以排列不变性的方式给出的，所以话音可以在输出通道之间切换，尤其是在短暂的无声时期期间。为了解决这个问题，本文公开的实施例提出了一种新的损失，该新的损失基于在相同训练集上训练的说话者话音表示网络。由该网络获得的嵌入然后被
用于将输出话音与输出通道的话音进行比较。本文公开的实施例证明了该损失是有效的，即使当将其添加到基线方法时也是有效的。通过从沿着音频文件的多个位置开始分离并对结果求平均，获得了对基线方法也有效的附加改进。
42.类似于技术状态的方法，本文公开的实施例针对每个数量的说话者训练单个模型。所获得的模型与文献方法相比的性能差距随着说话者数量的增加而增加，并且可以注意到，随着说话者数量的增加，我们的方法的性能逐渐下降，而基线方法显示出急剧的下降。
43.在特定实施例中，多个说话者的数量可能是未知的。为了支持对未知数量的说话者奏效的可能性，本文公开的实施例选择无学习的解决方案，并且通过在其输出上运行话音活动检测器来选择说话者的数量。这种简单的方法在绝大多数情况下能够选择正确的说话者的数量，并且使得所公开的方法能够处理未知数量的说话者。
44.本文公开的实施例的贡献可以包括：(i)采用特定rnn架构的新颖的音频分离模型，(ii)用于有效训练话音分离网络的一组损失，(iii)在具有未知数量的说话者的话音分离的情况下执行有效的模型选择，以及(iv)在活跃和竞争的领域中相对于当前技术状态显示出相当大改进的技术状态结果。
45.在单通道源分离的问题中，目标是估计c个不同的输入源其中j∈[1,...,c]，给定混合其中ci是尺度因子。输入长度t不是固定值，这是因为输入话语可以具有不同的持续时间。本文公开的实施例专注于受监督的设置，其中提供了训练集并且目标是学习这样一种模型：给定看不见的混合x输出c个估计通道c个估计通道使预测话语与目标话语之间的尺度不变源噪声比(si-snr)(也称为尺度不变信号失真比，简称si-sdr)最大化。更准确地，因为输入源的次序是任意的，并且因为源的总和是次序不变的，所以当考虑针对最优排列π的重新排序的通道时，目标是到使si-snr最大化为真实(ground truth)信号的c个分离通道s。
[0046]
图1示出了本文公开的用于话音分离的网络的示例架构100。图1所描绘的建议模型受到了说话者分离模型最新进展的启示。处理的第一步骤包括编码、分块(chunking)，并且根据分块而获得的张量上的两个双向rnn都是相似的。然而，本文公开的rnn包含双头，本文公开的实施例不使用掩码，并且所使用的损失是不同的。图1示出了音频与1d卷积的堆叠进行卷积，并通过在时间上切割长度为k的重叠片段来重新排序，以获得3d张量。然后应用b个rnn块，使得奇数块(odd block)沿着时间维度和组块(chunk)长度维度来进行操作。在所公开的方法中，rnn块是乘法和加法类型的。在每对成对的块之后，本文公开的实施例将卷积d应用于激活的副本，并且通过对组块进行重新排序、然后使用重叠和相加(overlap and add)算子来获得输出通道。
[0047]
在特定实施例中，计算系统可以对混合音频信号进行编码以生成潜在表示。首先，编码器网络e获得混合波形作为输入，并且输出大小为t
′
＝(2t/l)-1的n维潜在表示z，其中l是编码压缩因子。
[0048]
这导致
[0049]
z＝e(x)
ꢀꢀꢀꢀ
(1)
[0050]
具体地，e是内核大小为l且步长为l/2的1d卷积层，其后是relu非线性激活函数。换句话说，可以基于一个或多个卷积运算对混合音频信号进行编码。
[0051]
在特定实施例中，计算系统还可以基于潜在表示来生成三维(3d)张量。生成可以包括将潜在表示划分成多个重叠组块以及沿着一个或多个单维度来级联多个重叠组块。然后，潜在表示z被划分成长度为k且跳数大小为p的r＝[2t
′
/k]+1个重叠组块，将其表示为其中r∈[1，...，r]。然后，所有的组块沿着单维度被级联，并且本文公开的实施例获得3d张量
[0052]
接下来，v被馈送到由b个rnn块组成的分离网络q中。针对i＝1,...,b/2，奇数块b
2i-1
沿着大小为r的时间相关维度应用rnn。偶数块b
2i
沿着大小为k的分块维度来被应用。直观地，对第二维度进行处理产生短期表示，而对第三维度进行处理产生长期表示。
[0053]
图2示出了示例乘法和级联(mulcat)块。在特定实施例中，第一机器学习模型和第二机器学习模型可以各自基于一个或多个乘法和级联块。每个mulcat块可以包括长短期记忆(lstm)单元、级联运算、线性投影或排列(permutation)运算中的一个或多个。本文公开的rnn块包含具有两个子网络和跳跃连接的mulcat块。例如，考虑奇数块bi，i＝1,3,...,b-1。本文公开的实施例采用两个分离的双向lstm(表示为和)，将它们的输出逐元素相乘，并且最后将输入进行级联以产生模块输出。
[0054][0055]
其中
⊙
是逐元素乘积运算，并且pi是经学习的线性投影，其将两个lstm的乘积与输入v的级联结果的维度投影回v的维度。在图2中给出了一对块的视觉描述。在奇数块中，根据分块而获得的3d张量被馈送到沿着第二维度操作的两个不同的双向lstm中。结果是逐元素相乘的，其后是沿着第三维度对原始信号的级联。然后应用沿着该维度的经学习的线性投影以获得大小与输入的大小相同的张量。在偶数块中，沿着分块轴发生相同的一组操作。
[0056]
在本文公开的方法中，本文公开的实施例采用多尺度损失，这需要在每一对成对的块之后重构原始音频。3d张量经历具有以0.25来初始化参数的prelu非线性。然后是具有cr个输出通道的1
×
1卷积d。所得的大小为n
×k×
cr的张量被划分成会导致c个输出通道的大小为n
×k×
r的c个张量。注意，相同的prelu参数和相同的卷积d被用来对每一对成对的mul-cat块的输出进行解码。
[0057]
为了将3d张量变换回音频，本文公开的实施例对r个组块采用重叠和相加算子。将分块过程反转的该算子在将信号的重叠帧适当偏移l/2个帧的步长之后再将它们相加。
[0058]
回想一下，因为说话者的身份是未知的，所以目标是到使预测信号与目标信号之间的si-snr最大化的c个分离通道形式上，si-snr被定义为
[0059][0060]
其中，并且
[0061]
因为通道没有被排序，所以损失是针对c个不同的输出通道的最佳排列π来计算的，并且被给定为：
[0062][0063]
其中，iic是1...c的所有可能排列的集合。损失通常被称为话语级排列不变性训练(upit)。
[0064]
如上所述，卷积d被用于在每个mulcat块之后进行解码，从而允许我们沿着分解过程多次应用upit损失。形式上，本文公开的模型输出b/2组输出通道并且本文公开的实施例考虑损失
[0065][0066]
注意，输出通道的排列π在这种损失的不同分量之间可能有所不同。在特定实施例中，计算系统可以基于排列不变性损失函数来确定针对第二数量的输出通道的排列。
[0067]
说话者分类损失。源分离中的常见问题是迫使属于同一说话者的分离信号帧与同一输出流对齐。与独立地应用于每个输入帧的排列不变性损失(pit)不同，upit一次应用于整个序列。这种修改很大地改善了输出在不同源之间翻转的发生次数。然而，根据本文公开的实验，这仍远非最佳。
[0068]
为了减轻这一点，本文公开的实施例提出添加对输出流施加长期依赖性的附加损失函数。在特定实施例中，计算系统可以基于排列对第二数量的输出通道进行排序。计算系统然后可以对经排序的输出通道应用身份(identity)损失函数。在特定实施例中，计算系统还可以分别标识与经排序的输出通道相关联的说话者。为此，本文公开的实施例使用本文公开的实施例训练的说话者识别模型来标识训练集中的人。一旦该神经网络被训练，本文公开的实施例使预测音频通道的网络嵌入与相对应的源的网络嵌入之间的l2距离最小化。
[0069]
图3示出了针对两个说话者的情况所示出的在本文公开的实施例中使用的示例训练损失。作为说话者识别模型，本文公开的实施例使用在从0.5秒的音频获得的功率谱图(stft)上训练的vgg11网络。用g表示从经训练的vgg网络的倒数第二层得到的嵌入。本文公开的实施例使用它以便将真实音频的长度为0.5秒的片段si与输出音频进行比较，其中π是根据upit损失获得的最佳排列，参见图3。在图3中，混合信号x结合了两个输入话音s1和s2。本文公开的模型然后进行分离以创建两个输出通道和排列不变性si-snr损失计算真实通道与按使损失最小化的通道排列π获得的输出通道之间的si-snr。在按π对身份损失进行排序之后，将身份损失应用于匹配的通道。
[0070]
设是通过剪切音频序列s1而获得的长度为0.5秒的第j个片段，类似地，针对s1有身份损失由下式给出
[0071][0072]
其中，j(s)是从s中提取的片段数量，并且f是差分stft实现，即允许我们通过它反向传播梯度的stft的网络实现。
[0073]
本文公开的实施例为混合c中的每个数量的音频分量训练不同的模型。这允许我们能够直接与基线方法进行比较。然而，为了在实践中应用该方法，重要的是能够选择说话
者的数量。在特定实施例中，为第二机器学习模型配置的第二数量可以等于多个说话者的数量。相应地，计算系统可以通过第二机器学习模型生成多个音频信号。在特定实施例中，每个音频信号可以包括与来自多个说话者的不同的说话者相关联的话音信号。
[0074]
虽然有可能训练分类器来确定给定的混合音频c，但是本文公开的实施例选择非学习的解决方案，以避免由数据分布引起的偏差，并且促进其中分离模型不脱离选择过程的解决方案。
[0075]
在特定实施例中，计算系统可以基于语音活动检测器来确定至少一个输出通道是无声的。本文公开的实施例所采用的程序基于librosa python包的语音活动检测器。
[0076]
从在具有最大数量c的说话者的数据集上训练的模型开始，本文公开的实施例将语音检测器应用于每个输出通道。如果本文公开的实施例在通道中的一个通道中检测出无声(无活动)，则本文公开的实施例移动到具有c-1个输出通道的模型，并且重复该过程，直到所有的输出通道都包含语音。
[0077]
如在本文公开的实验中可以看到的，该选择程序可以相对准确，并且导致在未知数量的说话者的情况下的结果仅比该参数已知时的结果稍微差一些。
[0078]
在实验中，本文公开的实施例采用wsj0-2mix和wsj0-3mix数据集(即，两个公开数据集)，并且本文公开的实施例进一步将wsj-mix数据集扩展到四个和五个说话者，并且引入wsj0-4mix和wsj0-5mix数据集。本文公开的实施例使用来自训练集si_tr_s的30个小时的语音来创建训练集和验证集。四个和五个说话者是随机选择的，并且与0-5[db]之间的随机snr值相结合。测试集是根据具有与训练集的说话者不同的16个说话者的si_et_s和si_dt_s来创建的。针对每个数据集来训练具有相应数量的输出通道的分离模型。
[0079]
实现细节。本文公开的实施例基于验证集来选择超参数。输入内核大小l是8(除了其中本文公开的实施例改变它的实验之外)，并且初步的卷积层中的滤波器数量是128。本文公开的实施例使用以8khz采样的4秒长的音频片段。该架构使用b＝6个mulcat块，其中每个lstm层包含128个神经元。当结合upit损失时，本文公开的实施例将id损失(idloss)乘以0.001。学习速率被设置为5e-4，其每两个回合(epoch)乘以0.98。adam优化器(即，传统的优化器)在批量大小为2的情况下使用。针对说话者模型，本文公开的实施例使用具有10ms的步幅和20ms的窗口大小的汉明窗口来提取stft。
[0080]
为了评估所提出的模型，本文公开的实施例报告了测试集上的尺度不变信噪比改善(si-snri)得分，计算如下，
[0081][0082]
本文公开的实施例与以下基线方法进行比较：adanet、dpcl++、cbldnn-gat、tasnet、理想比率掩码(irm)、convtasnet、furcanext和dprnn。以前的工作经常报告信号失真比(sdr)。然而，最近的研究认为，前述指标由于其尺度依赖性而被不适当地使用，并且可能导致误导性的发现。
[0083]
结果在表1中报告。每一列描绘了不同的数据集，其中，混合信号x中的说话者数量c是不同的。用于评估每个数据集的模型是被训练来分离相同数量的说话者的模型。可以看出，在所有的四个数据集中，所公开的模型以相当大的优势优于先前的方法。
[0084]
表1.各种模型的性能与说话者数量的关系。标星号的结果(*)标记出我们的训练
(使用由方法的作者所发布的代码)。其他基线是从各自的工作中获得的。
[0085][0086]
为了理解所提出的方法中各种分量中的每种分量的贡献，本文公开的实施例进行了消融(ablation)研究。(i)本文公开的实施例用传统的lstm替换mulcat块(
“‑
选通”)；(ii)本文公开的实施例利用仅在模型的最终输出处应用的排列不变性损失(
“‑
多损失”)进行训练；以及(iii)本文公开的实施例在有和没有身份损失(
“‑
id损失”)的情况下进行训练。
[0087]
首先，本文公开的实施例分析了每个损失项对最终模型性能的重要性。表2总结了结果。可以看出，前述分量中的每个分量都对所公开的方法的性能增益有贡献，其中多层损失比其他损失更占主导地位。将身份损失添加到dprnn模型中也可以产生性能改善。本文公开的实施例想要强调的是，不仅在乘法和级联块、身份损失和多尺度损失方面有所不同，所公开的方法在执行分离时可以不使用掩码，而是直接生成分离的信号。
[0088]
表2.消融分析，其中，本文公开的实施例去掉了两个lstm结构并用单个结构替换它们(-选通)，去除了多损失(-多损失)，或者去除了说话者识别损失(identification loss)(-id损失)。本文公开的实施例还呈现了将识别损失添加到基线dprnn方法的结果。dprnn的结果基于我们的(ours)的训练(使用作者发表的代码)。
[0089][0090]
图4示出了针对各种内核大小的所公开的模型的示例训练曲线。最近的研究指出了为编码器选择小的内核大小的重要性。在convtasnet中，作者建议内核大小l为16比更大
的内核性能更好，而dprnn的作者则提倡更小的大小l＝2。表3示出，与dprnn不同，所公开的模型的性能不会受到较大的内核大小的损害。图4描绘了所公开的模型针对训练的前60小时的各种l值的收敛速度。能够用l＞2的内核进行训练使得在最近公布的方法范围内更快地收敛到结果。
[0091]
表3.三种模型的性能与内核大小的关系。所公开的模型不会受到改变内核大小的影响。(只有最后一行是基于我们的运行)。
[0092][0093]
最后，本文公开的实施例探索了身份损失的影响。回想一下，身份损失意味着降低输出通道在不同的说话者身份之间切换的频率。为了测量该事件的频率，本文公开的实施例已经将音频分成长度为0.25秒的子片段，并且使用si-snr测试了每个片段与目标说话者之间的最佳匹配。如果匹配从一个话音切换到另一话音，则本文公开的实施例将整个样本标记为切换样本。
[0094]
图5示出了其中模型使用两个说话者的数据集产生具有身份切换的输出通道的样本的示例分数(fraction)。结果表明，dprnn和提出的模型都受益于身份损失的结合。然而，这种损失可能不会完全消除问题。结果如图5所示。
[0095]
本文公开的实施例发现，在不同的时间点开始分离会产生略微不同的结果。为此，本文公开的实施例在某个时间点切割混合音频，然后在第二部分的末尾级联第一部分。在随机的起点多次这样执行、然后对结果进行平均易于改善结果。
[0096]
平均过程如下：首先，通过反转移位过程来恢复原始的起点。然后，将通道与通道参考集进行匹配(使用mse)，从而到最佳排列。在实验中，本文公开的实施例使用原始混合信号的分离结果作为参考信号。然后对来自所有起始点的结果进行平均。
[0097]
表4描绘了所公开的方法和dprnn两者的结果。显然，随着随机移位的数量的增加，性能会改善。要说明的是：为了允许与文献直接比较，本文公开的实施方案中别处报告的结果是在没有这种扩增的情况下获得的。
[0098]
表4.执行测试时间扩增的结果。x轴是在推理时被平均以获得最终输出的移位版本的数量。y轴是通过该过程获得的si-snri。dprnn结果是通过运行所发布的训练代码而获得的。
[0099][0100][0101]
当给定的混合音频x中有c个说话者时，可以采用在c
″
＞c个说话者上训练的模型。在这种情况下，针对所公开的方法和dprnn两者，多余的通道似乎产生了相对无声的信号。然后，可以以最佳方式将c”个输出通道与c个通道匹配，丢弃c
″‑
c个通道，并且计算si-snri得分。表5描绘了dprnn和所公开的方法的结果。可以看出，所获得的结果水平与应用于c
″
个说话者时的c
″
模型所获得的水平相同，或者稍好(如果说话者较少，则混合音频较不混淆)。
[0102]
表5.在混合包含2、3、4和5个说话者的数据集上评估至少具有所需数量的输出通道的模型的结果。(a)dprnn(我们使用作者发布的代码进行的训练)，(b)我们的模型。
[0103][0104]
本文公开的实施例接下来应用所公开的模型选择方法，该方法基于话音活动检测器来自动地选择最适当的模型。如果通道的一半以上被检测器检测为无声，则本文公开的实施例考虑无声通道。为了公平比较，本文公开的实施例分别为每种方法校准了用于无声检测的阈值。本文公开的实施例使用混淆矩阵来评估所公开的方法，即这种未经学习的方法在准确估计说话者的数量方面是否有效。此外，本文公开的实施例在使用所选模型时测量所获得的si-snri，并且将其与oracle(记录中已知的说话者的数量)进行比较。
[0105]
从表6中可以看出，简单地通过寻无声输出通道，本文公开的实施例能够在我们的方法的大部分情况下标识出说话者的数量。在si-snri方面，除了两个说话者的数据集，自动选择略逊于使用5个说话者的模型。在两个说话者的情况下，使用自动选择程序是相当优选的。
[0106]
针对dprnn，选择正确模型的准确性平均较低，整体si-snri结果低于我们的模型。
[0107]
表6.为混合样本x自动地选择说话者数量c的结果。示出了使用自动模型选择获得的混淆矩阵和si-snri结果两者与混合中的说话者数量给定时获得的结果进行比较。(a)
dprnn，(b)我们的模型。
[0108][0109]
从广义的感知角度来看，鸡尾酒会问题是一个具有许多遮挡实例的困难的实例分割问题。这些实例仅由于连续性而不能被分离，因为语音信号包含无声部分，这要求使用基于识别的恒定性损失。本文公开的实施例增加了这个分量，并且还使用它来检测混合信号中的实例数量，这是当前文献中所缺少的能力。
[0110]
与先前的工作不同，在先前的工作中，即使对于已知数量的说话者，性能也会随着说话者数量的增加而迅速下降，本文公开的实施例提供了一种实用的解决方案。这是通过引入新的递归块来实现的，该递归块结合了两个双向rnn和一个跳过(skip)连接、多个损失的使用以及如上所述的话音恒定性项。在快速发展的研究领域中，所获得的结果比所有现有的方法都有相当大的差距。
[0111]
图6示出了用于分离混合话音信号的示例方法600。该方法可以开始于步骤610，在步骤610中，计算系统可以接收混合音频信号，该混合音频信号包括与多个说话者相关联的话音信号的混合。在步骤620，计算系统可以通过使用配置有第一数量的输出通道的第一机器学习模型处理混合音频信号来生成第一音频信号。在步骤630，计算系统可以基于第一音频信号来确定第一数量的输出通道中的至少一个输出通道是无声的。在步骤640，计算系统可以通过使用配置有比第一数量的输出通道少的第二数量的输出通道的第二机器学习模型处理混合音频信号来生成第二音频信号。在步骤650，计算系统可以基于第二音频信号来确定第二数量的输出通道中的每个输出通道是非无声的。在步骤660，计算系统可以使用第二机器学习模型来分离与多个说话者相关联的附加混合音频信号。特定实施例可以在适当的情况下重复图6的方法中的一个或多个步骤。尽管本公开将图6的方法的特定步骤描述和示出为以特定次序发生，但是本公开设想了以任何合适的次序发生的图6的方法的任何合适的步骤。此外，尽管本公开描述和示出了包括图6的方法的特定步骤的用于分离混合话音信号的示例方法，但是本公开设想了包括任何合适的步骤的用于分离混合话音信号的任何合适的方法，其可以在适当的情况下包括图6的方法的所有步骤、一些步骤，或者一个也不包括。此外，尽管本公开描述和示出了执行图6的方法的特定步骤的特定组件、设备或系统，但是本公开设想了执行图6的方法的任何合适的步骤的任何合适的组件、设备或系统的任何合适的组合。
[0112]
图7示出了示例计算机系统700。在特定实施例中，一个或多个计算机系统700执行
本文描述或示出的一个或多个方法的一个或多个步骤。在特定实施例中，一个或多个计算机系统700提供本文描述或示出的功能。在特定实施例中，在一个或多个计算机系统700上运行的软件执行本文描述或示出的一个或多个方法的一个或多个步骤，或者提供本文描述或示出的功能。特定实施例包括一个或多个计算机系统700的一个或多个部分。这里，对计算机系统的引用可以在适当的情况下涵盖计算设备，反之亦然。此外，对计算机系统的引用可以在适当的情况下涵盖一个或多个计算机系统。
[0113]
本公开设想了任何合适的数量的计算机系统700。本公开设想了计算机系统700采用任何合适的物理形式。作为示例而非限制，计算机系统700可以是嵌入式计算机系统、片上系统(soc)、单板计算机系统(sbc)(诸如，例如模块上计算机(com)或模块上系统(som))、台式计算机系统、膝上型或笔记本计算机系统、交互式信息亭、大型机、计算机系统网格、移动电话、个人数字助理(pda)、服务器、平板计算机系统，或者这些中的两个或更多个的组合。在适当的情况下，计算机系统700可以包括一个或多个计算机系统700；可以是单一的或分布式的；可以跨越多个位置；可以跨越多个机器；可以跨越多个数据中心；或者可以驻存在云中，云可以包括一个或多个网络中的一个或多个云组件。在适当的情况下，一个或多个计算机系统700可以执行本文描述或示出的一个或多个方法的一个或多个步骤，而没有实质的空间或时间限制。作为示例而非限制，一个或多个计算机系统700可以实时或以批处理模式执行本文描述或示出的一个或多个方法的一个或多个步骤。一个或多个计算机系统700可以在适当的情况下在不同的时间或不同的位置执行本文描述或示出的一个或多个方法的一个或多个步骤。
[0114]
在特定实施例中，计算机系统700包括处理器702、存储器704、存储装置706、输入/输出(i/o)接口708、通信接口710和总线712。尽管本公开描述和示出了在特定布置中具有特定数量的特定组件的特定计算机系统，但是本公开设想了在任何合适的布置中具有任何合适的数量的任何合适的组件的任何合适的计算机系统。
[0115]
在特定实施例中，处理器702包括用于执行指令(诸如构成计算机程序的指令)的硬件。作为示例而非限制，为了执行指令，处理器702可以从内部寄存器、内部高速缓存、存储器704或存储装置706取回(或获取)指令；解码并执行它们；然后将一个或多个结果写入内部寄存器、内部高速缓存、存储器704或存储装置706。在特定实施例中，处理器702可以包括用于数据、指令或地址的一个或多个内部高速缓存。本公开设想了处理器702在适当的情况下包括任何合适的数量的任何合适的内部高速缓存。作为示例而非限制，处理器702可以包括一个或多个指令高速缓存、一个或多个数据高速缓存以及一个或多个转换后备缓冲器(tlb)。指令高速缓存中的指令可以是存储器704或存储装置706中的指令的副本，并且指令高速缓存可以加速处理器702对那些指令的取回。数据高速缓存中的数据可以是：存储器704或存储装置706中的数据的副本，以供在处理器702处执行的指令进行操作；在处理器702处执行的先前指令的结果，以供在处理器702处执行的后续指令访问或以供写入存储器704或存储装置706；或者其他合适的数据。数据高速缓存可以加速处理器702的读取或写入操作。tlb可以加速用于处理器702的虚拟地址转换。在特定实施例中，处理器702可以包括用于数据、指令或地址的一个或多个内部寄存器。本公开设想了处理器702在适当的情况下包括任何合适的数量的任何合适的内部寄存器。在适当的情况下，处理器702可以包括一个或多个算术逻辑单元(alu)；可以是多核处理器；或者可以包括一个或多个处理器702。尽管
本公开描述和示出了特定处理器，但是本公开设想了任何合适的处理器。
[0116]
在特定实施例中，存储器704包括主存储器，该主存储器用于存储供处理器702执行的指令或供处理器702操作的数据。作为示例而非限制，计算机系统700可以将指令从存储装置706或另一个源(诸如，例如另一计算机系统700)加载到存储器704。处理器702然后可以将指令从存储器704加载到内部寄存器或内部高速缓存。为了执行指令，处理器702可以从内部寄存器或内部高速缓存检索指令并解码它们。在指令的执行期间或之后，处理器702可以将一个或多个结果(其可以是中间结果或最终结果)写入内部寄存器或内部高速缓存。处理器702然后可以将这些结果中的一个或多个写入存储器704。在特定实施例中，处理器702仅执行一个或多个内部寄存器或内部高速缓存或存储器704(与存储装置706相对或别处)中的指令，并且仅操作一个或多个内部寄存器或内部高速缓存或存储器704(与存储装置706相对或别处)中的数据。一条或多条存储器总线(其可以各自包括地址总线和数据总线)可以将处理器702耦合到存储器704。如下所述，总线712可以包括一个或多个存储器总线。在特定实施例中，一个或多个存储器管理单元(mmu)驻存在处理器702与存储器704之间，并且支持由处理器702请求的对存储器704的访问。在特定实施例中，存储器704包括随机存取存储器(ram)。在适当的情况下，该ram可以是易失性存储器。在适当的情况下，该ram可以是动态ram(dram)或静态ram(sram)。此外，在适当的情况下，该ram可以是单端口或多端口的ram。本公开设想了任何合适的ram。在适当的情况下，存储器704可以包括一个或多个存储器704。尽管本公开描述和示出了特定的存储器，但是本公开设想了任何合适的存储器。
[0117]
在特定实施例中，存储装置706包括用于数据或指令的大容量存储装置。作为示例而非限制，存储装置706可以包括硬盘驱动器(hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带、或者通用串行总线(usb)驱动器、或者这些中的两个或多个的组合。存储装置706可以在适当的情况下包括可移动或不可移动(或固定)的介质。存储装置706可以在适当的情况下位于计算机系统700的内部或外部。在特定实施例中，存储装置706是非易失性固态存储器。在特定实施例中，存储装置706包括只读存储器(rom)。在适当的情况下，该rom可以是掩码编程rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可更改rom(earom)、或者闪存、或者这些中的两个或多个的组合。本公开设想了采用任何合适的物理形式的大容量存储装置706。存储装置706可以在适当的情况下包括支持处理器702与存储装置706之间的通信的一个或多个存储控制单元。在适当的情况下，存储装置706可以包括一个或多个存储装置706。尽管本公开描述和示出了特定的存储装置，但是本公开设想了任何合适的存储装置。
[0118]
在特定实施例中，i/o接口708包括为计算机系统700与一个或多个i/o设备之间的通信提供一个或多个接口的硬件、软件或两者。计算机系统700可以在适当的情况下包括这些i/o设备中的一个或多个。这些i/o设备中的一个或多个可以实现人与计算机系统700之间的通信。作为示例而非限制，i/o设备可以包括键盘、小键盘、麦克风、监视器、鼠标、打印机、扫描仪、扬声器、静态相机、触笔、平板、触摸屏、轨迹球、摄像机、其他合适的i/o设备、或者这些设备中的两个或更多个的组合。i/o设备可以包括一个或多个传感器。本公开设想了任何合适的i/o设备和用于它们的任何合适的i/o接口708。在适当的情况下，i/o接口708可以包括使得处理器702能够驱动这些i/o设备中的一个或多个i/o设备的一个或多个设备或
软件驱动程序。i/o接口708可以在适当的情况下包括一个或多个i/o接口708。尽管本公开描述和示出了特定的i/o接口，但是本公开设想了任何合适的i/o接口。
[0119]
在特定实施例中，通信接口710包括为计算机系统700与一个或多个其他计算机系统700或一个或多个网络之间的通信(诸如，例如基于分组的通信)提供一个或多个接口的硬件、软件或两者。作为示例而非限制，通信接口710可以包括用于与以太网或其他有线网络进行通信的网络接口控制器(nic)或网络适配器，或者用于与无线网络(诸如wi-fi网络)进行通信的无线nic(wnic)或无线适配器。本公开设想了任何合适的网络及其任何合适的通信接口710。作为示例而非限制，计算机系统700可以与自组织网络、个人区域网(pan)、局域网(lan)、广域网(wan)、城域网(man)、或者互联网的一个或多个部分、或者这些中的两个或多个的组合进行通信。一个或多个这些网络的一个或多个部分可以是有线的或无线的。作为示例，计算机系统700可以与无线pan(wpan)(诸如，例如蓝牙wpan)、wi-fi网络、wi-max网络、蜂窝电话网络(诸如，例如全球移动通信系统(gsm)网络)、或者其他合适的无线网络、或者这些中的两个或更多个的组合进行通信。计算机系统700可以在适当的情况下包括用于这些网络中的任何一个网络的任何合适的通信接口710。通信接口710可以在适当的情况下包括一个或多个通信接口710。尽管本公开描述和示出了特定的通信接口，但是本公开设想了任何合适的通信接口。
[0120]
在特定实施例中，总线712包括将计算机系统700的组件彼此耦合的硬件、软件或两者。作为示例而非限制，总线712可以包括加速图形端口(agp)或其他图形总线、增强型工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无线带宽互连、低引脚数(lpc)总线、存储器总线、微通道架构(mca)总线、外围组件互连(pci)总线、高速pci(pcie)总线、串行高级技术附件(sata)总线、视频电子标准协会本地(vlb)总线、或者任何合适的总线、或者这些中的两个或多个的组合。总线712可以在适当的情况下包括一个或多个总线712。尽管本公开描述和示出了特定的总线，但是本公开设想了任何合适的总线或互连。
[0121]
这里，一个或多个计算机可读非暂时性存储介质可以包括一个或多个基于半导体的或其他集成电路(ic)(诸如，例如现场可编程门阵列(fpga)或专用集成电路(asic))、硬盘驱动器(hdd)、混合硬盘驱动器(hhd)、光盘、光盘驱动器(odd)、磁光盘、磁光盘驱动器、软盘、软盘驱动器(fdd)、磁带、固态驱动器(ssd)、ram驱动器、安全数字卡或驱动器、任何其他合适的计算机可读非易失性存储介质、或者这些中的两个或多个的任何合适的组合。计算机可读非暂时性存储介质在适当的情况下可以是易失性的、非易失性的或者易失性和非易失性的组合。
[0122]
这里，“或”是包含性的而非排他性的，除非另有明确指示或上下文另有指示。因此，这里，“a或b”意味着“a、b或两者”，除非另有明确指示或上下文另有指示。此外，“和”既是共同的又是各自的，除非另有明确指示或上下文另有指示。因此，这里，“a和b”意味着“a和b，共同地或各自地”，除非另有明确指示或上下文另有指示。
[0123]
本公开的范围涵盖本领域普通技术人员将会理解的对本文描述或示出的示例实施例的所有改变、替换、变化、更改和修改。本公开的范围不限于本文描述或示出的示例实施例。此外，尽管本公开将本文中的各个实施例描述和示出为包括特定的组件、元素、特征、功能、操作或步骤，但是这些实施例中的任何一个实施例都可以包括本领域普通技术人员
将会理解的本文中任何地方描述或示出的组件、元素、特征、功能、操作或步骤中的任何一种的任何组合或排列。此外，在所附权利要求中对被适配为、被布置为、能够、被配置为、被启用以、可操作以或有效地执行特定功能的装置或系统或者装置或系统的组件的引用涵盖该装置、系统、组件，无论其或该特定功能是否被激活、开启或解锁，只要该装置、系统或组件是如此适配、布置、能够、配置、启用、可操作或有效。此外，尽管本公开将特定实施例描述或示出为提供特定优点，但是特定实施例可以不提供这些优点、提供这些优点中的一些或者提供所有这些优点。

技术特征：

1.一种方法，包括由一个或多个计算系统：接收混合音频信号，所述混合音频信号包括与多个说话者相关联的话音信号的混合；通过使用配置有第一数量的输出通道的第一机器学习模型处理所述混合音频信号来生成第一音频信号；基于所述第一音频信号，确定所述第一数量的输出通道中的至少一个输出通道是无声的；通过使用配置有第二数量的输出通道的第二机器学习模型处理所述混合音频信号来生成第二音频信号，所述第二数量的输出通道比所述第一数量的输出通道少；基于所述第二音频信号，确定所述第二数量的输出通道中的每个输出通道是非无声的；以及使用所述第二机器学习模型来分离与所述多个说话者相关联的附加混合音频信号。2.根据权利要求1所述的方法，其中所述多个说话者的数量是未知的。3.根据权利要求1或权利要求2所述的方法，其中所述第二数量等于所述多个说话者的数量。4.根据权利要求1、权利要求2或权利要求3所述的方法，还包括：由所述第二机器学习模型生成多个音频信号，每个音频信号包括与来自所述多个说话者的不同的说话者相关联的话音信号。5.根据权利要求1至4中任一项所述的方法，其中所述第一机器学习模型和所述第二机器学习模型各自基于一个或多个神经网络。6.根据权利要求1至5中任一项所述的方法，还包括：对所述混合音频信号进行编码以生成潜在表示；以及基于所述潜在表示生成三维(3d)张量；并且优选地，其中对所述混合音频信号进行编码是基于一个或多个卷积运算；和/或优选地，其中生成所述3d张量包括：将所述潜在表示划分成多个重叠组块；以及沿着一个或多个单维度级联所述多个重叠组块。7.根据前述权利要求中任一项所述的方法，其中所述第一机器学习模型和所述第二机器学习模型各自基于一个或多个乘法和级联(mulcat)块，每个mulcat块包括长短期记忆(lstm)单元、级联运算、线性投影或排列运算中的一个或多个。8.根据前述权利要求中任一项所述的方法，还包括：基于排列不变性损失函数，确定针对所述第二数量的输出通道的排列；并且优选地还包括：基于所述排列，对所述第二数量的输出通道进行排序；将身份损失函数应用于经排序的所述输出通道；以及分别标识与经排序的所述输出通道相关联的说话者。9.根据前述权利要求中任一项所述的方法，其中确定所述至少一个输出通道是无声的是基于语音活动检测器。10.根据前述权利要求中任一项所述的方法，其中所述第一机器学习模型和所述第二机器学习模型各自基于多个混合音频信号和与所述多个说话者中的每个说话者相关联的多个音频信号被训练，其中每个混合音频信号包括与所述多个说话者相关联的话音信号的
混合。11.一个或多个计算机可读非暂时性存储介质，所述一个或多个计算机可读非暂时性存储介质包含软件，所述软件在被执行时可操作以：接收混合音频信号，所述混合音频信号包括与多个说话者相关联的话音信号的混合；通过使用配置有第一数量的输出通道的第一机器学习模型处理所述混合音频信号来生成第一音频信号；基于所述第一音频信号，确定所述第一数量的输出通道中的至少一个输出通道是无声的；通过使用配置有第二数量的输出通道的第二机器学习模型处理所述混合音频信号来生成第二音频信号，所述第二数量的输出通道比所述第一数量的输出通道少；基于所述第二音频信号，确定所述第二数量的输出通道中的每个输出通道是非无声的；以及使用所述第二机器学习模型来分离与所述多个说话者相关联的附加混合音频信号。12.根据权利要求11所述的介质，其中所述多个说话者的数量是未知的。13.根据权利要求11或权利要求12所述的介质，其中所述第二数量等于所述多个说话者的数量。14.根据权利要求11、权利要求12或权利要求13所述的介质，其中所述软件在被执行时还可操作以：由所述第二机器学习模型生成多个音频信号，每个音频信号包括与来自所述多个说话者的不同的说话者相关联的话音信号；和/或优选地，其中所述第一机器学习模型和所述第二机器学习模型各自基于一个或多个神经网络；和/或优选地，其中所述第一机器学习模型和所述第二机器学习模型各自基于一个或多个乘法和级联(mulcat)块，每个mulcat块包括长短期记忆(lstm)单元、级联运算、线性投影或排列运算中的一个或多个。15.一种系统，包括：一个或多个处理器；以及被耦合到所述处理器的非暂时性存储器，所述非暂时性存储器包括由所述处理器可执行的指令，当执行所述指令时，所述处理器可操作以：接收混合音频信号，所述混合音频信号包括与多个说话者相关联的话音信号的混合；通过使用配置有第一数量的输出通道的第一机器学习模型处理所述混合音频信号来生成第一音频信号；基于所述第一音频信号，确定所述第一数量的输出通道中的至少一个输出通道是无声的；通过使用配置有第二数量的输出通道的第二机器学习模型处理所述混合音频信号来生成第二音频信号，所述第二数量的输出通道比所述第一数量的输出通道少；基于所述第二音频信号，确定所述第二数量的输出通道中的每个输出通道是非无声的；以及使用所述第二机器学习模型来分离与所述多个说话者相关联的附加混合音频信号。

技术总结

在一个实施例中，一种方法包括：接收混合音频信号，该混合音频信号包括与多个说话者相关联的话音信号的混合；通过使用配置有第一数量的输出通道的第一机器学习模型处理混合音频信号来生成第一音频信号；基于第一音频信号来确定第一数量的输出通道中的至少一个输出通道是无声的；通过使用配置有第二数量的输出通道的第二机器学习模型处理混合音频信号来生成第二音频信号，第二数量的输出通道比第一数量的输出通道少；基于第二音频信号来确定第二数量的输出通道中的每个输出通道是非无声的；并且使用第二机器学习模型来分离与多个说话者相关联的附加混合音频信号。话者相关联的附加混合音频信号。话者相关联的附加混合音频信号。