音频信号的分离方法、装置、设备、存储介质及程序与流程

1.本公开实施例涉及人工智能领域,尤其涉及一种音频信号的分离方法、装置、设备、存储介质及程序。

背景技术


::2.音频信号分离是一种从混合音频信号中分离出单个音源的纯净音频信号的技术。以音乐源分离(musicsourceseparation,mss)为例,利用音频信号分离技术可以从一首音乐中分离出人声、鼓声、贝斯声等。3.相关技术中,可以采用如下方式进行音频信号分离。以第一音源为例,预先训练得到第一音源对应的音源分离模型,音源分离模型用于根据混合音频信号预测出第一音源对应的纯净音频信号的幅值。在进行音频信号分离时,将混合音频信号输入上述音源分离模型,得到预测幅值。将上述预测幅值作为第一音源对应的纯净音频信号的幅值,将混合音频信号的相位作为第一音源对应的纯净音频信号的相位,从而得到第一音源对应的纯净音频信号。4.然而,发明人发现上述相关技术至少存在以下技术问题:上述方式分离得到的纯净音频信号存在失真的问题,导致分离效果不佳。技术实现要素:5.本公开实施例提供一种音频信号的分离方法、装置、设备、存储介质及程序,以提高音频信号的分离效果。6.第一方面,本公开实施例提供一种音频信号的分离方法,包括:7.确定待处理的混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息,所述混合音频信号是由多个音源对应的纯净音频信号混合形成的;8.对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,所述第一音频信号为所述混合音频信号中第一音源对应的纯净音频信号;9.根据所述第一幅值信息、所述第一相位信息、所述幅值差异信息和所述相位差异信息,确定所述第一音频信号。10.第二方面,本公开实施例提供一种音频信号的分离装置,包括:11.第一确定模块,用于确定待处理的混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息,所述混合音频信号是由多个音源对应的纯净音频信号混合形成的;12.处理模块,用于对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,所述第一音频信号为所述混合音频信号中第一音源对应的纯净音频信号;13.第二确定模块,用于根据所述第一幅值信息、所述第一相位信息、所述幅值差异信息和所述相位差异信息,确定所述第一音频信号。14.第三方面,本公开实施例提供一种电子设备,包括:处理器和存储器;15.所述存储器存储计算机执行指令;16.所述处理器执行所述计算机执行指令,实现如第一方面以及第一方面各种可能的设计所述的方法。17.第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的方法。18.第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如以及第一方面各种可能的设计所述的方法。19.本公开实施例提供的音频信号的分离方法、装置、设备、存储介质及程序,该方法包括:确定待处理的混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息,对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,所述第一音频信号为所述混合音频信号中所述第一音源对应的纯净音频信号,根据所述第一幅值信息、所述第一相位信息、所述幅值差异信息和所述相位差异信息,确定所述第一音频信号。上述过程中,通过对第一幅值信息进行处理,能够分别预测出混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,保证了第一音频信号的幅值信息和相位信息的准确性,从而避免第一音频信号失真的问题,提升音频分离效果。附图说明20.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。21.图1为本公开实施例提供的音乐源分离的示意图;22.图2为本公开实施例提供的一种系统架构的示意图;23.图3为本公开实施例提供的一种音频信号的分离方法的流程示意图;24.图4为本公开实施例提供的一种音频信号的分离过程的示意图;25.图5为本公开实施例提供的另一种音频信号的分离方法的流程示意图;26.图6为本公开实施例提供的另一种音频信号的分离过程的示意图;27.图7a和图7b为本公开实施例提供的加性噪声模型的示意图;28.图8为本公开实施例提供的cirm的分布示意图;29.图9a为本公开实施例提供的一种音源分离模型的结构示意图;30.图9b为图9a中的reb的结构示意图;31.图9c为图9a中的rdb的结构示意图;32.图9d为图9b和图9c中的rcb的结构示意图;33.图10为本公开实施例提供的一种音频信号的分离装置的结构示意图;34.图11为本公开实施例提供的一种电子设备的结构示意图。具体实施方式35.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。36.本公开实施例中,音源即声音来源。举例而言,一首音乐可以对应有多种音源,包括但不限于:人声、鼓声、贝斯声、琴声等。37.本公开实施例可应用于从混合音频信号中分离出单一音源对应的纯净音频信号的场景,例如:音乐源分离(musicsourceseparation,mss)。音乐源分离是音乐信息检索(musicinformationretrieval,mir)的一个重要主题,可用于包括但不限于如下的mir任务:旋律提取、音高估计、音乐转录、音乐混音,等等。音乐源分离也有一些直接的应用,比如:卡拉ok和音乐混音等。为了便于理解,下面以mss为例,对本公开实施例的应用场景进行介绍。38.图1为本公开实施例提供的音乐源分离的示意图。一首音乐通常是通过对不同音源产生的音频信号(例如:人声、鼓声、贝斯声等)进行混音得到的。本实施例中,音乐可以称为混合音频信号,每种音源产生的音频信号可以称为该音源对应的纯净音频信号。参见图1,在进行音乐源分离时,可以利用不同音源对应的音源分离模型从音乐中分离得到每种音源对应的纯净音频信号。举例而言,利用人声分离模型从音乐中分离得到人声,利用鼓声分离模型从音乐中分离得到鼓声,利用贝斯声分离模型从音乐中分离得到贝斯声,等。39.图2为本公开实施例提供的一种系统架构的示意图。如图2所示,该系统架构包括:训练设备和执行设备。40.其中,训练设备可以对训练数据集中的多组训练样本进行学习、建模得到音源分离模型。示例性的,可以构建多组训练样本,每组训练样本中包括混合音频信号以及该混音音频信号中的第一音源对应的纯净音频信号。通过对多组训练样本进行学习,得到音源分离模型,使得音源分离模型具有对第一音源的纯净音频信号进行分离的能力。41.训练设备训练得到的音源分离模型部署到执行设备中。当需要进行音频分离时,将待处理的混合音频信号输入至执行设备中。执行设备输出第一音源对应的纯净音频信号。在执行设备的处理过程中,可以利用上述的音源分离模型。42.图2所示的系统架构中,训练设备通常是服务器。执行设备可以是终端设备或者服务器。终端设备包括但不限于:智能手机、平台电脑、笔记本电脑、智能电视、智能穿戴设备、智能音箱、音频处理设备等。需要说明的是,上述系统架构仅作为一些可能的示例,不应该作为对本公开实施例的限定。一些应用场景中,训练设备、执行设备可以是相互独立的电子设备。另一些应用场景中,训练设备和执行设备可以是同一电子设备。43.一种可能的实现方式中,可以采用如下方式进行音频信号分离。以第一音源为例,预先训练得到第一音源对应的音源分离模型,音源分离模型用于根据混合音频信号预测出第一音源对应的纯净音频信号的幅值信息。在进行音频信号分离时,将混合音频信号输入上述音源分离模型,得到预测幅值信息。将上述预测幅值信息作为第一音源对应的纯净音频信号的幅值信息,将混合音频信号的相位信息作为第一音源对应的纯净音频信号的相位信息,从而得到第一音源对应的纯净音频信号。44.另一种可能的实现方式中,可以采用如下方式进行音频信号分离。以第一音源为例,预先训练得到第一音源对应的音源分离模型,音源分离模型用于预测出混合音频信号与其中的第一音源对应的纯净音频信号之间的幅值差异信息。在进行音频信号分离时,将混合音频信号输入上述音源分离模型,得到幅值差异信息,根据混合音频信号的幅值信息和上述幅值差异信息,确定出第一音源对应的纯净音频信号的幅值信息。45.具体而言,采用理想比例掩膜(idealratiomask,irm)表征上述的幅值差异信息。将irm记为可以通过如下方式得到第一音源对应的纯净音频信号:[0046][0047]其中,|x|表示混合音频信号的幅值信息,表示第一音源对应的纯净音频信号的幅值信息。在使用irm的情况下,的取值范围为[0,1],即假设单个音源的纯净音频信号的幅值小于混合音频信号的幅值。[0048]进一步的,将混合音频信号的相位信息作为第一音源对应的纯净音频信号的相位信息,得到第一音源对应的纯净音频信号。[0049]然而,发明人在研究过程中发现,上述两种实现方式中分离得到的纯净音频信号存在失真的问题,导致分离效果不佳。发明人对上述技术问题进行研究分析发现,而实际应用中,混合音频信号是由多种音源对应的纯净音频信号进行混音得到的,而不同音源对应的纯净音频信号的相位可能各不相同,上述两种实现方式中,直接将混合音频信号的相位作为第一音源对应的纯净音频信号的相位,会导致第一音源对应的纯净音频信号的相位不准确,从而使得第一音源对应的纯净音频信号存在失真的问题,影响分离效果。[0050]本公开实施例提供一种音频信号的分离方法、装置、设备、存储介质及程序,在对混合音频信号进行分离时,通过对混合音频信号的幅值信息进行处理,不仅可以预测出混合音频信号与第一音源对应的纯净音频信号之间的幅值差异信息,还可以预测出混合音频信号与第一音源对应的纯净音频信号之间的相位差异信息。这样,根据混合音频信号的幅值信息、混合音频信号的相位信息、上述预测出的幅值差异信息和相位差异信息,可以确定出第一音源对应的纯净音频信号。[0051]上述过程中,由于同时预测出了混合音频信号与第一音源对应的纯净音频信号之间的幅值差异信息和相位差异信息,同时保证了确定出的第一音源对应的纯净音频信号的幅值信息和相位信息的准确性,从而避免第一音源对应的纯净音频信号失真的问题,提升音频分离效果。[0052]下面以具体地实施例对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。[0053]图3为本公开实施例提供的一种音频信号的分离方法的流程示意图。如图3所示,本实施例的方法包括:[0054]s301:确定待处理的混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息,所述混合音频信号是由多个音源对应的纯净音频信号混合形成的。[0055]本公开实施例中,混合音频信号即为待分离的音频信号,混合音频信号中包括多个音源对应的纯净音频信号。例如,混合音频信号为一首音乐。[0056]可能的实现方式中,对待处理的混合音频信号进行傅里叶变换,得到混合音频信号对应的频域信号,根据混合音频信号对应的频域信号,确定出混合音频信号对应的幅值信息和混合音频信号对应的相位信息。为了后续描述简洁,本实施例中将混合音频信号的幅值信息称为第一幅值信息,将混合音频信号的相位信息称为第一相位信息。[0057]实际应用中,待分离的混合音频信号的持续时长可能较长。例如,一首音乐的时长通常为3-5分钟。可能的实现方式中,可以按照预设时长(例如1秒、3秒或者5秒等)将混合音频信号进行分段处理,得到多个分段。将每个分段作为待处理的混合音频信号,通过对该分段进行短时傅里叶变换处理,确定出第一幅值信息和第一相位信息。进而采用本实施例提供的音频信号的分类方法进行分离处理。可选的,不同分段之间还可以并行执行。这样,可以提升音频分离的处理效率。[0058]s302:对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,所述第一音频信号为所述混合音频信号中所述第一音源对应的纯净音频信号。[0059]本公开实施例以从混合音频信号中分离出第一音源对应的纯净音频信号为例进行描述。第一音源可以是混合音频信号包括的多个音源中的任意一个音源。为了描述方便,本实施例中,将混合音频信号中的第一音源对应的纯净音频信号称为第一音源信号。[0060]一种可能的实现方式中,可以采用预先训练得到的机器学习模型进行音频分离处理。本技术实施例中,将机器学习模型成为音源分离模型。音源分离模型可以通过对多组训练样本进行学习得到。其中,每组训练样本包括:样本混合音频信号的幅值信息、所述样本混合音频信号与样本纯净音频信号之间的幅值差异信息和相位差异信息,所述样本纯净音频信号为所述样本混合音频信号中的所述第一音源对应的纯净音频信号。[0061]图4为本公开实施例提供的一种音频信号的分离过程的示意图。如图4所示,将第一幅值信息(即混合音频信号的幅值信息)输入第一音源对应的音源分离模型中,音源分离模型对混合音频信号进行的处理,得到幅值差异信息和相位差异信息。其中,幅值差异信息指示混合音频信号与第一音源对应的纯净音频信号之间的幅值差异,相位差异信息指示混合音频信号与第一音源对应的纯净音频信号之间的相位差异。[0062]需要说明的是,本公开实施例中,a与b之间的差异不应该局限的理解为a与b之间的差值。a与b之间的差异可以通过多种关系体现,例如,a与b之间可以是倍数关系,也可以是线性关系或者非线性关系,还可以是能够表明a与b之间关系的其他任意关系。[0063]本实施例中,通过第一音源对应的音源分离模型,不仅可以预测出混合音频信号与第一音频信号之间的幅值差异信息,还可以预测出混合音频信号与第一音频信号之间的相位差异信息。与前述实现方式中,将混合音频信号的相位信息直接作为第一音频信号的相位信息相比,提高了第一音频信号的相位信息的准确性。[0064]本实施例中,第一音源对应的音源分离模型是采用机器学习方法预先训练得到的。本实施例对于音源分离模型的具体结构以及训练方式不作详述,可以参见后续实施例的详细描述。[0065]s303:根据所述第一幅值信息、所述第一相位信息、所述幅值差异信息和所述相位差异信息,确定所述第一音频信号。[0066]继续参见图4,由于第一音源对应的音源分离模型预测得到了混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,因此,根据第一幅值信息、第一相位信息、所述幅值差异信息和所述相位差异信息,可以确定出第一音频信号。[0067]可能的实现方式中,根据第一幅值信息和幅值差异信息,确定第二幅值信息,第二幅值信息可以视为第一音频信号的幅值信息。根据第一相位信息和相位差异信息,确定第二相位信息,第二相位信息可以视为第一音频信号的相位信息。这样,根据第二幅值信息和第二相位信息,可以确定出第一音频信号。[0068]具体而言,将第二幅值信息作为第一音频信号的幅值信息,将所述第二相位信息作为所述第一音频信号的相位信息,得到所述第一音频信号对应的频域信号,对所述第一音频信号对应的频域信号进行逆傅里叶变换,得到第一音频信号。[0069]本实施例提供的音频信号的分离方法,包括:确定待处理的混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息,对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,所述第一音频信号为所述混合音频信号中所述第一音源对应的纯净音频信号,根据所述第一幅值信息、所述第一相位信息、所述幅值差异信息和所述相位差异信息,确定所述第一音频信号。上述过程中,通过第一音源对应的音源分离模型,能够分别预测出混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,同时保证了第一音频信号的幅值信息和相位信息的准确性,从而避免第一音频信号失真的问题,提升音频分离效果。[0070]在上述实施例的基础上,下面结合一个更具体的实施例对本公开提供的音频信号的分离方法进行更详细的描述。[0071]图5为本公开实施例提供的另一种音频信号的分离方法的流程示意图。[0072]如图5所示,本实施例的方法包括:[0073]s501:获取待处理的混合音频信号,混合音频信号是由多个音源对应的纯净音频信号混合形成的。[0074]s502:对所述混合音频信号进行傅里叶变换,得到所述混合音频信号对应的频域信号。[0075]下面结合图6进行举例说明。图6为本公开实施例提供的另一种音频信号的分离过程的示意图。如图6所示,本实施例中,假设待处理的混合音频信号为x,混合音频信号中第一音源对应的纯净音频信号(即第一音频信号)记为s。对混合音频信号x进行短时傅里叶变换,得到混合音频信号x对应的频域信号x。将第一音频信号s对应的频域信号记为s。为了便于区分,后文中将采用本实施例的方法分离出的第一音频信号记为其对应的频域信号记为[0076]s503:根据所述混合音频信号对应的频域信号,确定所述混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息。[0077]参见图6,从混合音频信号对应的频域信号x中,可以得到混合音频信号的第一幅值信息|x|,以及混合音频信号的第一相位信息∠x。[0078]s504:通过第一音源对应的音源分离模型对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,所述第一音频信号为所述混合音频信号中所述第一音源对应的纯净音频信号。[0079]s505:根据所述第一幅值信息和所述幅值差异信息,确定第二幅值信息。[0080]其中,所述幅值差异信息包括:幅值比例系数和幅值残差信息。[0081]一种可能的实现方式中,将所述第一幅值信息和所述幅值比例系数的乘积,确定为第三幅值信息,将所述第三幅值信息和所述幅值残差信息之和确定为第四幅值信息;利用预设激活函数对所述第四幅值信息进行非线性处理,得到第二幅值信息。[0082]本实施例中,确定出的第二幅值信息可以视为第一音频信号的幅值信息,下面举例说明第二幅值信息的确定过程。[0083]本实施例中,采用基于复数理想比率掩膜(complexidealratiomask,cirm)的方法进行音频分离,也就是说,采用cirm来表征混合音频信号与第一音频信号之间的差异信息。该差异信息可以包括幅值差异信息和相位差异信息。[0084]下面采用来表示cirm,则可以采用如下公式表示。[0085][0086]其中,xr和xi分别为x的实部和虚部,sr和si分别为s的实部和虚部。根据上述公式,可以得到:[0087][0088]上述公式表明,s可以通过对x进行幅值变化和相位变化得到。其中,表示幅值比例系数,表示相位差异信息。的取值范围为[0,1]。这样,本实施例中,根据|x|、∠x即可确定出第一音频信号。[0089]然而,在实现本公开的过程中,申请人还发现利用上述的和分离得到的第一音频信号依然存在一定程度的失真。下面对失真原因的分析进行详细介绍。[0090]图7a和图7b为本公开实施例提供的加性噪声模型的示意图。为了便于理解,本实施例采用加性噪声模型:x(t,f)=s(t,f)+n(t,f)。其中,x(t,f)表示混合音频信号,s(t,f)表示第一音频信号,n(t,f)表示噪声(可以看作混合音频信号中除第一音频信号之外的其余部分)。图7a示出了cirm的幅值小于1的情况。当的取值范围为[0,1]时,能够模拟图7a所示情况。然而,参见图7b,实际应用中,还可能存在cirm的幅值大于1的情况,例如,当s和n的相位相反时,混合音频信号x的幅值会小于第一音频信号s的幅值。[0091]由此可见,的取值范围为[0,1],在一些场景下会使得分离效果不佳。为了进一步验证上述分析结果,申请人进行了几组对比试验。[0092]本实施例中,采用如下公式定义信号-失真比(signal-to-distortionratio,sdr),并利用sdr来评估第一音频信号的分离性能。sdr越高,说明第一音频信号的分离效果越好;sdr越低,说明第一音频信号的分离效果越差。[0093]理想情况下,完美分离会使得sdr无限大。[0094][0095]上述公式中,s表示真实的第一音频信号,表示分离得到的第一音频信号。[0096]本实施例利用musdb18数据集,分别针对多个音源(人声、伴奏、贝斯、鼓声、其他乐器)进行试验,得到的试验结果如表1所示。[0097]表1[0098][0099]表1中的irm示例的是前述相关技术(即仅预测幅值差异信息而不预测相位差异信息)的分离性能。其中,irm(1)表示幅值比例系数的取值上限为1,irm(inf)表示幅值比例系数的取值无上限。[0100]表1中的cirm示例的是采用cirm(即分别预测幅值差异信息和相位差异信息)的分离性能。其中,cirm(1)表示幅值比例系数的取值上限为1,cirm(2)表示幅值比例系数的取值上限为2,cirm(5)表示幅值比例系数的取值上限为5,cirm(10)表示幅值比例系数的取值上限为10,cirm(inf)表示幅值比例系数的取值无上限。[0101]由表1可以看出,当采用irm时,即使幅值比例系数的取值无上限,也并不会显著提升分离性能。本实施例中,通过采用cirm能够明显提升分离性能,并且,随着幅值比例系数的取值上限的增加,分离性能也得到显著提升。[0102]图8为本公开实施例提供的cirm的分布示意图。如图8所示,分别示出了不同音源(人声、伴奏、贝斯、鼓声、其他乐器、所有音源)对应的cirm的分布情况。其中,横轴表示的实部轴,纵轴表示虚部轴。图8中的每个点表示一个cirm,图8中的圆形对应于幅值等于1的遮罩。由图8可以看出,针对每一种音源,均存在很多中幅值大于1的cirm。人声、伴奏、贝司、鼓和其他乐器对应的cirm幅值大于1的比率分别为20.3%、34.5%、6.1%、26.9%和13.9%。[0103]本实施例中,为了解决由于幅值比例系数的取值存在上限导致的分离效果不佳的问题,音源分离模型除了预测幅值比例系数还会预测出幅值残差信息也就是说,本实施例中的幅值差异信息可以包括:幅值比例系数和幅值残差信息[0104]继续参见图6,将混合音频信号的第一幅值信息|x|输入第一音源对应的音源分离模型。音源分离模型对第一幅值信息|x|进行处理,得到幅值差异信息和相位差异信息。其中,幅值差异信息包括:幅值比例系数和幅值残差信息根据幅值比例系数和幅值残差信息采用如下公式,可以确定出第二幅值信息[0105][0106]其中,relu()为预设激活函数,用于进行非线性处理。通过利用relu()进行非线性处理,保证了确定出的第二幅值信息大于0。[0107]本实施例中,第二幅值信息即为第一音频信号的幅值信息,由于上述过程中,既预测了幅值比例系数还预测了幅值残差信息使得确定出的第一音频信号的幅值信息更加准确。另外,通过预测幅值残差信息相当于取消了幅值比例系数的取值上限,解决了幅值比例系数的取值存在上限导致的分离效果不佳的问题。[0108]s506:根据所述第一相位信息和所述相位差异信息,确定第二相位信息。[0109]继续参见图6,音源分离模型对第一幅值信息|x|进行处理,得到的相位差异信息包括:相位实部信息和相位虚部信息这样,根据相位实部信息和相位虚部信息可以确定出相位差异信息[0110]这样,根据第一相位信息∠x和相位差异信息可以确定出第二相位信息如下:[0111][0112]s507:将所述第二幅值信息作为所述第一音频信号的幅值信息,将所述第二相位信息作为所述第一音频信号的相位信息,得到所述第一音频信号对应的频域信号。[0113]具体的,可以采用如下公式,得到第一音频信号对应的频域信号[0114][0115]s508:对所述第一音频信号对应的频域信号进行逆傅里叶变换,得到所述第一音频信号。[0116]继续参见图6,通过对第一音频信号对应的频域信号进行逆傅里叶变换,得到第一音频信号[0117]本实施例中,通过预测幅值残差信息,取消了幅值比例系数的取值上限,解决了幅值比例系数的取值存在上限导致的分离效果不佳的问题。[0118]在上述任意实施例的基础上,下面结合一个具体的实施例对音源分离模型的结构以及训练过程进行介绍。[0119]图9a为本公开实施例提供的一种音源分离模型的结构示意图,图9b为图9a中的reb的结构示意图,图9c为图9a中的rdb的结构示意图,图9d为图9b和图9c中的rcb的结构示意图。[0120]如图9a所示,音源分离模型包括:编码层、中间层和解码层。编码层和中间层用于对第一幅值信息进行特征提取,解码层用于根据特征提取结果进行预测,得到幅值差异信息和相位差异信息。[0121]参见9a、图9b和图9d,编码层包括k个残差编码块(residualencoderblock,reb),k为大于1的整数。图9a中以k=6为例进行示意。每个reb中包括依次连接的4个残差卷积块(residualconvolutionalblock,rcb)以及池化层(avgpool)。每个rcb包括两个卷积层(conv),内核大小为3*3,在每个卷积层之前还包括归一化层(bn)和激活函数层(leaky_relu)。在rcb的输入和输出之间添加卷积层(conv)连接。每个reb中,在4个rcb之后还包括2*2的池化层,以减小特征数量。可见,每个reb包括8个卷积层。[0122]参见图9a、图9c和图9d,解码层包括k个残差解码块(residualdecoderblock,rdb)。图9a中以k=6为例进行示意。每个rdb与reb对称。每个rdb包括依次连接的转置卷积层和4个rcb。其中,转置卷积层内核大小为3*3,用于对特征进行上采样。rdb中的rcb与reb中的rcb结构相同。这样,每个rdb中包括9个卷积层。[0123]一些可能的实现方式中,为了进一步提高模型的特征表达能力,还可以在编码层和解码层之间引入中间层。如图9a所示,中间层包括t个中间卷积块(intermediateconvolutionalblock,icb),t为大于1的整数。每个icb包括4个rcb。这样,每个icb中包括8个卷积层。[0124]进一步的,在编码层之前还可以包括归一化层(bn)。在解码层之后,还可以包括1个icb和具有j个输出通道的输出卷积层。其中,j的取值与音源分离模型的输出参数的数量有关。本实施例中,当需要输出4个参数(例如图6中的)时,将j设置为8。[0125]应理解的是,图9a中,每个层或者每个块中标注的数字表示特征数量。例如,bn层中的1025表示特征数量为1025个。[0126]本实施例中,通过使用多个reb和多个rdb增加了网络深度。参见图9a,当k=6,t=4时,音源分离模型共有143个卷积层,这样,可以大大提高音频分离的效果。[0127]结合图9a所示的音源分离模型的结构,下面对音源分离模型的处理过程进行说明。[0128]一个示例中,如图9a所示,当音源分离模型中不包括中间层时,通过所述编码层对所述第一幅值信息进行处理,得到第一中间结果;通过所述解码层对所述第一中间结果进行处理,得到所述幅值差异信息和相位差异信息。[0129]另一个示例中,如图9a所示,当音源分离模型中包括中间层时,通过编码层对第一幅值信息进行处理,得到第一中间结果;通过编码层和中间层对第一幅值信息进行处理,得到第二中间结果;通过解码层对所述第一中间结果和所述第二中间结果进行处理,得到所述幅值差异信息和相位差异信息。[0130]下面对图9a所示的音源分离模型的训练过程进行说明。[0131]本实施例中,采用musdb18数据集对图9a所示的音源分离模型进行测试。musdb18数据集包括单独的人声、伴奏、低音、鼓和其他乐器对应的纯净音频信号。将上述纯净音频信号分成3秒钟的片段,通过对不同音源的纯净音频片段进行随机混合,得到混合音频信号x。对混合音频信号x进行短时傅里叶变换,得到频域信号,将频域信号输入到音频分离模型中,以对音频分离模型进行训练。[0132]需要说明的是,由于本实施例的音源分离模型采用基于卷积层的网络结构,它不需要以前的状态来计算当前的预测,因此,音源分离模型支持对多个混合音频信号进行并行处理。[0133]示例性的,在训练过程中,将批量大小设置为16,并应用自适应矩估计(adam)优化器。对于人声、伴奏声、贝斯声、鼓声和其他乐器,学习速率分别设置为0:001、0:0005、0:0001、0:0002和0:0005。这些学习速率根据musdb18数据集的验证集进行调整。每15000步学习速率乘以系数0.9。经过300000步的学习过程,得到训练后的音源分离模型。[0134]图10为本公开实施例提供的一种音频信号的分离装置的结构示意图。该装置可以为软件和/或硬件的形式。如图10所示,本实施例提供的音频信号的分离装置1000,包括:第一确定模块1001、处理模块1002和第二确定模块1003。[0135]其中,第一确定模块1001,用于确定待处理的混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息,所述混合音频信号是由多个音源对应的纯净音频信号混合形成的;[0136]处理模块1002,用于对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,所述第一音频信号为所述混合音频信号中第一音源对应的纯净音频信号;[0137]第二确定模块1003,用于根据所述第一幅值信息、所述第一相位信息、所述幅值差异信息和所述相位差异信息,确定所述第一音频信号。[0138]一种可能的实现方式中,所述第二确定模块1003具体用于:[0139]根据所述第一幅值信息和所述幅值差异信息,确定第二幅值信息;[0140]根据所述第一相位信息和所述相位差异信息,确定第二相位信息;[0141]根据所述第二幅值信息、以及所述第二相位信息,确定所述第一音频信号。[0142]一种可能的实现方式中,所述幅值差异信息包括:幅值比例系数和幅值残差信息;所述第二确定模块1003具体用于:[0143]将所述第一幅值信息和所述幅值比例系数的乘积,确定为第三幅值信息;[0144]将所述第三幅值信息和所述幅值残差信息之和确定为第四幅值信息;[0145]利用预设激活函数对所述第四幅值信息进行非线性处理,得到所述第二幅值信息。[0146]一种可能的实现方式中,所述第二确定模块1003具体用于:[0147]将所述第二幅值信息作为所述第一音频信号的幅值信息,将所述第二相位信息作为所述第一音频信号的相位信息,得到所述第一音频信号对应的第一频域信号;[0148]对所述第一频域信号进行逆傅里叶变换,得到所述第一音频信号。[0149]一种可能的实现方式中,所述第一确定模块1001具体用于:[0150]对所述混合音频信号进行傅里叶变换,得到所述混合音频信号对应的第二频域信号;[0151]根据所述第二频域信号,确定所述第一幅值信息和所述第一相位信息。[0152]一种可能的实现方式中,所述处理模块1002具体用于:通过所述第一音源对应的音源分离模型对所述第一幅值信息进行处理,得到所述混合音频信号与所述第一音频信号之间的幅值差异信息和相位差异信息;[0153]其中,所述音源分离模型是通过对多组训练样本进行训练得到的,每组训练样本包括:样本混合音频信号的幅值信息、所述样本混合音频信号与样本纯净音频信号之间的幅值差异信息和相位差异信息,所述样本纯净音频信号为所述样本混合音频信号中的所述第一音源对应的纯净音频信号。[0154]一种可能的实现方式中,所述音源分离模型包括编码层和解码层,所述编码层包括多个残差编码块reb,所述解码层包括多个残差解码块rdb;所述处理模块1002具体用于:[0155]通过所述编码层对所述第一幅值信息进行处理,得到第一中间结果;[0156]通过所述解码层对所述第一中间结果进行处理,得到所述幅值差异信息和所述相位差异信息。[0157]一种可能的实现方式中,所述音源分离模型还包括中间层,所述中间层设置在所述编码层和所述解码层之间,所述中间层包括多个中间卷积块icb;所述处理模块具体用于:[0158]通过所述编码层和所述中间层对所述第一幅值信息进行处理,得到第二中间结果;[0159]通过所述解码层对所述第一中间结果和所述第二中间结果进行处理,得到所述幅值差异信息和所述相位差异信息。[0160]本实施例提供的音频信号的分离装置,可用于执行上述任一方法实施例提供的音频信号的分离方法,其实现原理和技术效果类似,此处不作赘述。[0161]为了实现上述实施例,本公开实施例还提供了一种电子设备。[0162]参考图11,其示出了适于用来实现本公开实施例的电子设备1100的结构示意图,该电子设备1100可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(personaldigitalassistant,简称pda)、平板电脑(portableandroiddevice,简称pad)、便携式多媒体播放器(portablemediaplayer,简称pmp)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图11示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。[0163]如图11所示,电子设备1100可以包括处理装置(例如中央处理器、图形处理器等)1101,其可以根据存储在只读存储器(readonlymemory,简称rom)1102中的程序或者从存储装置1108加载到随机访问存储器(randomaccessmemory,简称ram)1103中的程序而执行各种适当的动作和处理。在ram1103中,还存储有电子设备1100操作所需的各种程序和数据。处理装置1101、rom1102以及ram1103通过总线1104彼此相连。输入/输出(i/o)接口1105也连接至总线1104。[0164]通常,以下装置可以连接至i/o接口1105:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1106;包括例如液晶显示器(liquidcrystaldisplay,简称lcd)、扬声器、振动器等的输出装置1107;包括例如磁带、硬盘等的存储装置1108;以及通信装置1109。通信装置1109可以允许电子设备1100与其他设备进行无线或有线通信以交换数据。虽然图11示出了具有各种装置的电子设备1100,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。[0165]特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1109从网络上被下载和安装,或者从存储装置1108被安装,或者从rom1102被安装。在该计算机程序被处理装置1101执行时,执行本公开实施例的方法中限定的上述功能。[0166]需要说明的是,本公开上述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。[0167]上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。[0168]上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。[0169]可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(localareanetwork,简称lan)或广域网(wideareanetwork,简称wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。[0170]附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。[0171]描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。[0172]本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。[0173]在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。[0174]第一方面,根据本公开的一个或多个实施例,提供了一种音频信号的分离方法,包括:[0175]确定待处理的混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息,所述混合音频信号是由多个音源对应的纯净音频信号混合形成的;[0176]对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,所述第一音频信号为所述混合音频信号中第一音源对应的纯净音频信号;[0177]根据所述第一幅值信息、所述第一相位信息、所述幅值差异信息和所述相位差异信息,确定所述第一音频信号。[0178]根据本公开的一个或多个实施例,所述根据所述第一幅值信息、所述第一相位信息、所述幅值差异信息和所述相位差异信息,确定所述第一音频信号,包括:[0179]根据所述第一幅值信息和所述幅值差异信息,确定第二幅值信息;[0180]根据所述第一相位信息和所述相位差异信息,确定第二相位信息;[0181]根据所述第二幅值信息、以及所述第二相位信息,确定所述第一音频信号。[0182]根据本公开的一个或多个实施例,所述幅值差异信息包括:幅值比例系数和幅值残差信息;所述根据所述第一幅值信息和所述幅值差异信息,确定第二幅值信息,包括:[0183]将所述第一幅值信息和所述幅值比例系数的乘积,确定为第三幅值信息;[0184]将所述第三幅值信息和所述幅值残差信息之和确定为第四幅值信息;[0185]利用预设激活函数对所述第四幅值信息进行非线性处理,得到所述第二幅值信息。[0186]根据本公开的一个或多个实施例,所述根据所述第二幅值信息、以及所述第二相位信息,确定所述第一音频信号,包括:[0187]将所述第二幅值信息作为所述第一音频信号的幅值信息,将所述第二相位信息作为所述第一音频信号的相位信息,得到所述第一音频信号对应的第一频域信号;[0188]对所述第一频域信号进行逆傅里叶变换,得到所述第一音频信号。[0189]根据本公开的一个或多个实施例,所述确定待处理的混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息,包括:[0190]对所述混合音频信号进行傅里叶变换,得到所述混合音频信号对应的第二频域信号;[0191]根据所述第二频域信号,确定所述第一幅值信息和所述第一相位信息。[0192]根据本公开的一个或多个实施例,所述对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,包括:[0193]通过所述第一音源对应的音源分离模型对所述第一幅值信息进行处理,得到所述混合音频信号与所述第一音频信号之间的幅值差异信息和相位差异信息;[0194]其中,所述音源分离模型是通过对多组训练样本进行训练得到的,每组训练样本包括:样本混合音频信号的幅值信息、所述样本混合音频信号与样本纯净音频信号之间的幅值差异信息和相位差异信息,所述样本纯净音频信号为所述样本混合音频信号中的所述第一音源对应的纯净音频信号。[0195]根据本公开的一个或多个实施例,所述音源分离模型包括编码层和解码层,所述编码层包括多个残差编码块reb,所述解码层包括多个残差解码块rdb;[0196]所述通过第一音源对应的音源分离模型对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,包括:[0197]通过所述编码层对所述第一幅值信息进行处理,得到第一中间结果;[0198]通过所述解码层对所述第一中间结果进行处理,得到所述幅值差异信息和所述相位差异信息。[0199]根据本公开的一个或多个实施例,所述音源分离模型还包括中间层,所述中间层设置在所述编码层和所述解码层之间,所述中间层包括多个中间卷积块icb;[0200]所述通过所述解码层对所述第一中间结果进行处理,得到所述幅值差异信息和相位差异信息,包括:[0201]通过所述编码层和所述中间层对所述第一幅值信息进行处理,得到第二中间结果;[0202]通过所述解码层对所述第一中间结果和所述第二中间结果进行处理,得到所述幅值差异信息和所述相位差异信息。[0203]第二方面,根据本公开的一个或多个实施例,提供了一种音频信号的分离装置,包括:[0204]第一确定模块,用于确定待处理的混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息,所述混合音频信号是由多个音源对应的纯净音频信号混合形成的;[0205]处理模块,用于对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,所述第一音频信号为所述混合音频信号中第一音源对应的纯净音频信号;[0206]第二确定模块,用于根据所述第一幅值信息、所述第一相位信息、所述幅值差异信息和所述相位差异信息,确定所述第一音频信号。[0207]根据本公开的一个或多个实施例,所述第二确定模块具体用于:[0208]根据所述第一幅值信息和所述幅值差异信息,确定第二幅值信息;[0209]根据所述第一相位信息和所述相位差异信息,确定第二相位信息;[0210]根据所述第二幅值信息、以及所述第二相位信息,确定所述第一音频信号。[0211]根据本公开的一个或多个实施例,所述幅值差异信息包括:幅值比例系数和幅值残差信息;所述第二确定模块具体用于:[0212]将所述第一幅值信息和所述幅值比例系数的乘积,确定为第三幅值信息;[0213]将所述第三幅值信息和所述幅值残差信息之和确定为第四幅值信息;[0214]利用预设激活函数对所述第四幅值信息进行非线性处理,得到所述第二幅值信息。[0215]根据本公开的一个或多个实施例,所述第二确定模块具体用于:[0216]将所述第二幅值信息作为所述第一音频信号的幅值信息,将所述第二相位信息作为所述第一音频信号的相位信息,得到所述第一音频信号对应的第一频域信号;[0217]对所述第一频域信号进行逆傅里叶变换,得到所述第一音频信号。[0218]根据本公开的一个或多个实施例,所述第一确定模块具体用于:[0219]对所述混合音频信号进行傅里叶变换,得到所述混合音频信号对应的第二频域信号;[0220]根据所述第二频域信号,确定所述第一幅值信息和所述第一相位信息。[0221]根据本公开的一个或多个实施例,所述处理模块具体用于:[0222]通过所述第一音源对应的音源分离模型对所述第一幅值信息进行处理,得到所述混合音频信号与所述第一音频信号之间的幅值差异信息和相位差异信息;[0223]其中,所述音源分离模型是通过对多组训练样本进行训练得到的,每组训练样本包括:样本混合音频信号的幅值信息、所述样本混合音频信号与样本纯净音频信号之间的幅值差异信息和相位差异信息,所述样本纯净音频信号为所述样本混合音频信号中的所述第一音源对应的纯净音频信号。[0224]根据本公开的一个或多个实施例,所述音源分离模型包括编码层和解码层,所述编码层包括多个残差编码块reb,所述解码层包括多个残差解码块rdb;所述处理模块具体用于:[0225]通过所述编码层对所述第一幅值信息进行处理,得到第一中间结果;[0226]通过所述解码层对所述第一中间结果进行处理,得到所述幅值差异信息和所述相位差异信息。[0227]根据本公开的一个或多个实施例,所述音源分离模型还包括中间层,所述中间层设置在所述编码层和所述解码层之间,所述中间层包括多个中间卷积块icb;所述处理模块具体用于:[0228]通过所述编码层和所述中间层对所述第一幅值信息进行处理,得到第二中间结果;[0229]通过所述解码层对所述第一中间结果和所述第二中间结果进行处理,得到所述幅值差异信息和所述相位差异信息。[0230]第三方面,根据本公开的一个或多个实施例,提供了一种电子设备,包括:至少一个处理器和存储器;[0231]所述存储器存储计算机执行指令;[0232]所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的方法。[0233]第四方面,根据本公开的一个或多个实施例,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的方法。[0234]第五方面,根据本公开的一个或多个实施例,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面以及第一方面各种可能的设计所述的方法。[0235]以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。[0236]此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。[0237]尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。当前第1页12当前第1页12

技术特征:


1.一种音频信号的分离方法,其特征在于,包括:确定待处理的混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息,所述混合音频信号是由多个音源对应的纯净音频信号混合形成的;对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,所述第一音频信号为所述混合音频信号中第一音源对应的纯净音频信号;根据所述第一幅值信息、所述第一相位信息、所述幅值差异信息和所述相位差异信息,确定所述第一音频信号。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一幅值信息、所述第一相位信息、所述幅值差异信息和所述相位差异信息,确定所述第一音频信号,包括:根据所述第一幅值信息和所述幅值差异信息,确定第二幅值信息;根据所述第一相位信息和所述相位差异信息,确定第二相位信息;根据所述第二幅值信息、以及所述第二相位信息,确定所述第一音频信号。3.根据权利要求2所述的方法,其特征在于,所述幅值差异信息包括:幅值比例系数和幅值残差信息;所述根据所述第一幅值信息和所述幅值差异信息,确定第二幅值信息,包括:将所述第一幅值信息和所述幅值比例系数的乘积,确定为第三幅值信息;将所述第三幅值信息和所述幅值残差信息之和确定为第四幅值信息;利用预设激活函数对所述第四幅值信息进行非线性处理,得到所述第二幅值信息。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述第二幅值信息、以及所述第二相位信息,确定所述第一音频信号,包括:将所述第二幅值信息作为所述第一音频信号的幅值信息,将所述第二相位信息作为所述第一音频信号的相位信息,得到所述第一音频信号对应的第一频域信号;对所述第一频域信号进行逆傅里叶变换,得到所述第一音频信号。5.根据权利要求1至4任一项所述的方法,其特征在于,所述确定待处理的混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息,包括:对所述混合音频信号进行傅里叶变换,得到所述混合音频信号对应的第二频域信号;根据所述第二频域信号,确定所述第一幅值信息和所述第一相位信息。6.根据权利要求1至5任一项所述的方法,其特征在于,所述对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,包括:通过所述第一音源对应的音源分离模型对所述第一幅值信息进行处理,得到所述混合音频信号与所述第一音频信号之间的幅值差异信息和相位差异信息;其中,所述音源分离模型是通过对多组训练样本进行训练得到的,每组训练样本包括:样本混合音频信号的幅值信息、所述样本混合音频信号与样本纯净音频信号之间的幅值差异信息和相位差异信息,所述样本纯净音频信号为所述样本混合音频信号中的所述第一音源对应的纯净音频信号。7.根据权利要求6所述的方法,其特征在于,所述音源分离模型包括编码层和解码层,所述编码层包括多个残差编码块reb,所述解码层包括多个残差解码块rdb;所述通过所述第一音源对应的音源分离模型对所述第一幅值信息进行处理,得到所述
混合音频信号与所述第一音频信号之间的幅值差异信息和相位差异信息,包括:通过所述编码层对所述第一幅值信息进行处理,得到第一中间结果;通过所述解码层对所述第一中间结果进行处理,得到所述幅值差异信息和所述相位差异信息。8.根据权利要求7所述的方法,其特征在于,所述音源分离模型还包括中间层,所述中间层设置在所述编码层和所述解码层之间,所述中间层包括多个中间卷积块icb;所述通过所述解码层对所述第一中间结果进行处理,得到所述幅值差异信息和相位差异信息,包括:通过所述编码层和所述中间层对所述第一幅值信息进行处理,得到第二中间结果;通过所述解码层对所述第一中间结果和所述第二中间结果进行处理,得到所述幅值差异信息和所述相位差异信息。9.一种音频信号的分离装置,其特征在于,包括:第一确定模块,用于确定待处理的混合音频信号的第一幅值信息、以及所述混合音频信号的第一相位信息,所述混合音频信号是由多个音源对应的纯净音频信号混合形成的;处理模块,用于对所述第一幅值信息进行处理,得到所述混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,所述第一音频信号为所述混合音频信号中第一音源对应的纯净音频信号;第二确定模块,用于根据所述第一幅值信息、所述第一相位信息、所述幅值差异信息和所述相位差异信息,确定所述第一音频信号。10.一种电子设备,其特征在于,包括:处理器和存储器;所述存储器存储计算机执行指令;所述处理器执行所述计算机执行指令,实现如权利要求1至8任一项所述的方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至8任一项所述的方法。12.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。

技术总结


本公开实施例提供一种音频信号的分离方法、装置、设备、存储介质及程序,该方法包括:确定待处理的混合音频信号的第一幅值信息、以及混合音频信号的第一相位信息,对所述第一幅值信息进行处理,得到混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息,第一音频信号为混合音频信号中第一音源对应的纯净音频信号,根据第一幅值信息、第一相位信息、幅值差异信息和相位差异信息,确定第一音频信号。通过上述过程中,能够提升音频分离效果。能够提升音频分离效果。能够提升音频分离效果。


技术研发人员:

孔秋强 刘濠赫

受保护的技术使用者:

脸萌有限公司

技术研发日:

2021.08.27

技术公布日:

2023/3/2

本文发布于:2024-09-24 01:20:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/65109.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   信号   音频   信息
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议