提取目标说话者语音的系统和方法与流程

1.本发明一般涉及音频处理，更具体地，涉及用于提取目标说话者的语音的系统和方法。

背景技术：

2.视频会议增加了沟通，并能够与同事、朋友和家人保持联系。然而，用户在各种环境中使用视频会议，其中可能包括其他扬声器等背景噪音。嘈杂的环境可能包括嘈杂的办公室、咖啡馆或家庭工作区，同时发生一个或多个背景对话。背景噪音和其他扬声器可能会使视频会议的参与者难以听到用户的声音，并可能导致分心。语音分离是一种可用于将包括多个说话者的音频记录分离为每个单独说话者的语音的技术。然而，语音分离可能是一个缓慢且计算密集的过程，对于实时应用程序来说可能会令人望而却步。
3.期望通过用于以计算效率高的方式从可能包括非目标说话者的语音的音频记录中提取目标说话者的语音的系统和方法来克服传统方法的问题。

技术实现要素：

4.一般而言，本说明书中描述的主题的一个创新方面可以体现在包括目标说话者提取操作的系统、计算机可读介质和方法中。一种系统执行由目标说话者提取系统接收音频信号的音频帧的操作，目标说话者提取系统包括多说话者检测模型、目标说话者语音活动检测(vad)模型和语音分离模型。该系统分析，通过多扬声器检测模型，音频帧，以确定该音频帧是否仅包括单个扬声器或多个扬声器。母鸡音频帧只包括单个扬声器，该系统输入小号音频帧到目标讲话者vad模型来抑制语音在音频帧中从基于所述音频帧相对于一个目标的声纹的非目标讲话者扬声器。母鸡音频帧包括多个扬声器，该系统输入小号音频帧到语音分离模型到目标说话人的语音从语音混合物在音频帧分开。
5.在该系统的另一方面，该系统将音频信号分成多个音频帧。
6.在该系统的另一方面，该系统基于抑制比由目标说话者vad抑制来自非目标说话者的音频帧中的语音。
7.在该系统的另一个方面，该系统发电机密封非目标说话者的声波纹。该系统比较上课非目标说话者的声纹为目标说话者的声纹，以确定相似性得分。系统根据相似度分数确定抑制率。
8.在该系统的另一个方面，该系统接收从之前的视频会议中的目标说话人语音记录。该系统发电机密封上课目标讲话者从录音视频会议之前，声纹。该系统我们上课的目标扬声器提取系统和目标扬声器的声纹的视频会议过程中提取目标讲话者的声音。
9.在该系统的另一个方面，该系统分析上课所述音频信号以确定所述音频信号，其中，在视频会议期间被接收的音频信号的能量。该系统决定的基础上，能源，目标发言者说话和发电机密封上课从音频信号的目标扬声器的声纹。
10.在系统的另一方面，基于能量确定目标说话者正在说话包括确定能量超过阈值。
11.在系统的另一方面，目标说话者提取系统被配置为基于用户界面控制来启用和禁用。
12.在该系统的另一方面，该系统通过声纹提取模型生成目标说话者的声纹，其中声纹提取模型与语音分离模型共享一个或多个权重。
13.在系统的另一方面，多说话者检测模型包括卷积神经网络(cnn)分类器。
14.从详细描述、权利要求和附图中，本公开的更多应用领域将变得显而易见。详细描述和具体示例仅用于说明而不用于限制本公开的范围。
附图说明
15.从详细描述和附图中可以更好地理解本公开，其中：
16.图1a是示出一些实施例可以在其中操作的示例性环境的图；
17.图1b是图示了具有可以执行这里描述的一些功能的软件模块的示例性计算机系统的图；
18.图2是示出一些实施例可以在其中运行的示例性环境的图；
19.图3是图示根据本公开的一个实施例的示例性声纹提取器的图；
20.图4是图示根据本公开的一个实施例的示例性目标说话者提取系统的图；
21.图5a是图示根据本公开的一个实施例的示例性目标说话者vad模型的图；
22.图5b为本发明一实施例的基于能量提取目标说话者声纹的示意图；
23.图5c是图示根据本公开的一个实施例确定录音和目标说话者的声纹之间的相似度得分的图；
24.图6是图示根据本公开的一个实施例的示例性目标说话者分离模型的图；
25.图7是图示根据本公开的一个实施例的目标说话者分离模型的示例性神经网络实施例的图；
26.图8a是图示可以在一些实施例中执行的示例性方法的流程图；
27.图8b是图示可以在一些实施例中执行的示例性方法的流程图；
28.图8c是图示可以在一些实施例中执行的示例性方法的流程图；
29.图8d是图示可以在一些实施例中执行的示例性方法的流程图；
30.图9是图示根据本公开的一个实施例的示例性基于lm的目标说话者vad模型的图；
31.图10是图示根据本公开的一个实施例的示例性基于lm的目标说话者提取系统的图；
32.图11是图示根据本公开的一个实施例的使用基于声纹的目标说话者提取和基于lm的目标说话者提取的n示例性目标说话者提取系统的图；
33.图12a是图示可以在一些实施例中执行的示例性方法的流程图；
34.图12b是图示可以在一些实施例中执行的示例性方法的流程图；
35.图12c是图示可以在一些实施例中执行的示例性方法的流程图；和
36.图13是图示在一些实施例中可以执行处理的示例性计算机的图。
具体实施方式
37.在本说明书中，详细参考了本发明的具体实施例。在附图中示出了一些实施例或
其方面。
38.为了解释清楚，已经参考特定实施例描述了本发明，但是应当理解，本发明不限于所描述的实施例。相反，本发明涵盖可包括在由任何专利权利要求限定的其范围内的替代、修改和等同物。本发明的以下实施例在不丧失对所要求保护的发明的一般性且不对其施加限制的情况下被阐述。在以下描述中，阐述了具体细节以提供对本发明的透彻理解。可以在没有这些特定细节中的一些或全部的情况下实践本发明。此外，可能没有详细描述众所周知的特征以避免不必要地模糊本发明。
39.此外，应当理解，该示例性专利中阐述的示例性方法的步骤可以以与本说明书中呈现的顺序不同的顺序执行。此外，示例性方法的一些步骤可以并行执行而不是顺序执行。此外，示例性方法的步骤可以在网络环境中执行，其中一些步骤由联网环境中的不同计算机执行。
40.一些实施例由计算机系统实现。计算机系统可以包括处理器、存储器和非暂时性计算机可读介质。存储器和非暂时性介质可以存储用于执行这里描述的方法和步骤的指令。
41.一、示例环境
42.图1a是示出一些实施例可以在其中操作的示例性环境的图。在示例性环境100中，第一用户的客户端设备150和一个或多个附加用户的客户端设备160连接到处理引擎102并且可选地连接到视频通信平台140。处理引擎102连接到视频通信平台140，并且可选地连接到一个或多个存储库和/或数据库，包括用户帐户存储库130和/或设置存储库132。一个或多个数据库可以组合或拆分为多个数据库。该环境中的第一用户的客户端设备150和附加用户的客户端设备160可以是计算机，并且视频通信平台服务器140和处理引擎102可以是托管在计算机或通信耦合的多台计算机上的应用程序或软件通过远程服务器或本地。
43.示例性环境100被图示为仅具有一个附加用户的客户端设备、一个处理引擎和一个视频通信平台，但实际上可能存在更多或更少的附加用户的客户端设备、处理引擎和/或视频通信平台。在一些实施例中，第一用户的客户端设备、附加用户的客户端设备、处理引擎和/或视频通信平台中的一个或多个可以是同一计算机或设备的一部分。
44.在一个实施例中，处理引擎102可以执行的方法800，820，840，860，1200，1220，1240或其他方法本文和，其结果是，提供一种用于一目标扬声器模式。在一些实施例中，这可以通过与第一用户的客户端设备150、附加用户的客户端设备160、处理引擎102、视频通信平台140和/或其他设备之间的网络通信来实现。设备和应用程序服务器或其他网络服务器。在一些实施例中，处理引擎102是托管在计算机或类似设备上的应用程序、浏览器扩展程序或其他软件块，或者其本身是被配置为托管应用程序、浏览器扩展程序或其他软件块的计算机或类似设备以执行本文中的一些方法和实施例。
45.在一些实施例中，第一用户的客户端设备150和附加的用户客户端设备160可以执行方法800，820，840，860，1200，1220，1240或其他方法小号本文和，其结果是，提供一种用于目标扬声器模式。在一些实施例中，这可以通过与第一用户的客户端设备150、附加用户的客户端设备160、处理引擎102、视频通信平台140和/或其他设备之间的网络通信来实现。设备和应用程序服务器或其他网络服务器。
46.第一用户的客户端设备150和附加用户的客户端设备160是具有被配置为向设备
的用户呈现信息的显示器的设备。在一些实施例中，第一用户的客户端设备150和附加用户的客户端设备160以具有ui元素或组件的用户界面(ui)的形式呈现信息。在一些实施例中，第一用户的客户端设备150和附加用户的客户端设备160向处理引擎102和/或视频通信平台140发送和接收信号和/或信息。第一用户的客户端设备150被配置为执行与在视频通信平台上的视频演示(例如，虚拟课堂、讲座、网络研讨会或任何其他合适的视频演示)内演示和回放视频、音频、文档、注释和其他材料相关的功能。附加用户的客户端设备160被配置为观看视频演示，并且在一些情况下，还演示材料和/或视频。在一些实施例中，第一用户的客户端设备150和/或附加用户的客户端设备160包括能够实时或基本实时地生成和传输视频内容的嵌入式或连接的相机。例如，一个或多个客户端设备可以是具有内置摄像头的智能手机，智能手机操作软件或应用程序可以提供基于内置摄像头生成的视频广播直播流的能力。在一些实施例中，第一用户的客户端设备150和附加用户的客户端设备160是能够托管和执行一个或多个能够发送和/或接收信息的应用程序或其他程序的计算设备。在一些实施例中，第一用户的客户端设备150和/或附加用户的客户端设备160可以是台式计算机或膝上型计算机、移动电话、虚拟助理、虚拟现实或增强现实设备、可穿戴设备或任何其他合适的设备能够发送和接收信息。在一些实施例中，处理引擎102和/或视频通信平台140可以全部或部分地作为在第一用户的客户端设备150和/或附加用户的客户端设备160上执行的应用程序或网络服务来托管。在一些实施例中，视频通信平台140、处理引擎102和第一用户的客户端设备150或附加用户的客户端设备160中的一个或多个可以是相同的设备。在一些实施例中，第一用户的客户端设备150与视频通信平台上的第一用户帐户相关联，并且附加用户的客户端设备160与视频通信平台上的附加用户帐户相关联。
47.在一些实施例中，可选的存储库可以包括用户账户存储库130和设置存储库132中的一个或多个。用户账户存储库可以存储和/或维护与视频通信平台140相关联的用户账户信息。在一些实施例中，用户帐户信息可包括登录信息、用户设置、订阅信息、计费信息、与其他用户的连接以及其他用户帐户信息。设置库132可以存储和/或维护与通信平台140相关联的设置。在一些实施例中，设置库132可以包括目标扬声器模式设置、音频设置、视频设置、视频处理设置等。设置可包括启用和禁用一项或多项功能、选择质量设置、选择一项或多项选项等。设置可以是全局的，也可以应用于特定的用户帐户。
48.视频通信平台140是被配置为促进两方或多方之间的视频演示和/或通信的平台，例如在视频会议或虚拟教室内。
49.示例性环境100是关于视频通信平台140示出的，但也可以包括其他应用，例如音频呼叫、音频记录、视频记录、播客等等。此处用于目标扬声器模式的系统和方法可用于音频呼叫、音频记录、视频记录、播客以及除视频通信之外或代替视频通信的其他应用的软件应用中。
50.图1b是图示了具有可以执行这里描述的一些功能的软件模块的示例性计算机系统170的图。软件模块可以启用目标说话者模式，其中目标说话者提取系统提取目标说话者的语音同时减少或去除其他说话者的语音。
51.声纹提取器172提供用于从音频记录中提取声纹的系统功能。声纹可以包括说话者的语音特征的数字表示。在一些实施例中，声纹可用于基于录音的语音特征与目标说话者的声纹的比较来识别录音中的说话者是否为目标说话者。在一些实施例中，声纹可以包
括嵌入。声纹提取器172可以包括用于声纹提取的机器学习(ml)模型，例如一个或多个神经网络、cnn、深度神经网络(dnn)或其他ml模型。声纹提取器172可以包括一个或多个参数，例如神经网络的内部权重，其可以确定声纹提取器172的操作。
52.多说话者检测模块174提供用于确定在音频记录中是一个说话者还是多个说话者说话的系统功能。在一些实施例中，多扬声器检测模块174接收有限长度(例如10ms)的音频帧作为输入，并且多扬声器检测模块174确定在音频帧中是一个扬声器还是多个扬声器在说话。多说话者检测模块174可用于处理多个音频帧以确定针对每一帧在音频帧中是一个说话者还是多个说话者说话。在一些实施例中，多扬声器检测模块174的输出可包括一个二进制分类是否一个扬声器被发言或多个扬声器说话。多说话者检测模块174可以包括分类器，例如二元分类器。在一个实施例中，多扬声器检测模块174可以包括ml模型，例如一个或多个神经网络、cnn、dnn或其他ml模型。多扬声器检测模块174可以包括一个或多个参数，例如神经网络的内部权重，其可以确定多扬声器检测模块174的操作。
53.目标说话者模型vad 176提供了用于决定系统功能克音频记录是否包含目标讲话者的语音或没有。在一个实施例中，目标说话者vad模型176可以处理已由多说话者检测模块174确定为仅包含来自单个用户的语音的音频记录。目标说话者vad模型176可将录音与目标说话者的声纹进行比较以确定录音是否包含目标说话者的声音。在一些实施例中，目标说话者vad模型176的输出可以是目标说话者是否正在说话的二元分类。目标说话者vad模型176可以包括分类器，例如二元分类器。在一些实施例中，目标说话者vad模型176的输出可以是一个比率，例如介于0和1之间，基于记录包含目标说话者的声音的可能性，其中较高的比率可以指示它是它更有可能包含目标说话者的声音。在一些实施例中，目标扬声器vad模型176接收音频帧作为输入。目标说话者vad模型176可处理多个音频帧以确定每一帧是否包含目标说话者的语音。在一实施例中，目标说话者vad模型176可包括ml模型，例如一个或多个神经网络、cnn、dnn或其他ml模型。标说话者vad模型176可包括可确定目标说话者vad模型176的操作的一个或多个参数，例如神经网络的内部权重。
54.目标说话者分离模型178提供用于目标说话者分离的系统功能，其包括将来自目标说话者的语音与来自音频记录中的多个说话者的语音的混合分离。在一个实施例中，目标说话者分离模型178的输入包括包含来自多个说话者的语音的音频记录，并且输出包括仅具有来自目标说话者的语音的音频记录。在一实施例中，目标说话者分离模型178使用目标说话者的声纹进行目标说话者分离。在一些实施例中，目标说话者分离模型178接收音频帧作为输入。目标说话者分离模型178可以处理多个音频帧以生成仅包含目标说话者的语音的多个音频帧。在一实施例中，目标说话者分离模型178可包括ml模型，例如一个或多个神经网络、cnn、dnn或其他ml模型。目标说话者分离模型178可包括可确定目标说话者分离模型178的操作的一个或多个参数，例如神经网络的内部权重。
55.声纹储存库180可以包括一个或多个目标说话者的一个或多个声纹的储存库、数据集或数据库。在一些实施例中，声纹储存库180包括仅用于单个目标说话者的声纹。例如，目标说话者可以包括视频通信平台140中的用户账户的用户。在一些实施例中，声纹储存库180可以包括多个目标说话者的声纹，例如共享或使用相同用户账户的多个用户在视频通信平台140中。声纹储存库180可以包括每个用户一个声纹或者每个用户可以包括多个声纹。例如，声纹库180可以包括针对每个用户在不同条件下收集的多个声纹，例如用户说不
同的词或短语、在不同的房间或环境条件下说话、使用不同的录音设备等等，以捕捉用户语音特征的变化。
56.基于嘴唇运动(lm)的目标说话者vad模型182提供用于基于从视频检测用户嘴唇的运动来确定音频记录是否包含目标说话者的语音的系统功能。在一个实施例中，基于lm的目标说话者vad模型182可以处理已由多说话者检测模块174确定为仅包含来自单个用户的语音的音频记录。基于lm的目标说话者vad模型182可以在音频记录的记录期间分析从客户端设备150的相机捕获的视频以确定视频中用户的嘴唇是否在移动。当确定嘴唇在移动时，则基于lm的目标说话者vad模型182可输出目标说话者正在说话的结果。当确定嘴唇没有移动时，则基于lm的目标说话者vad模型182可以输出目标说话者没有说话的结果。基于lm的目标说话者vad模型182可以将视频记录中捕获的用户设置为目标说话者。在一些实施例中，基于lm的目标说话者vad模型182分析用户嘴唇上的关键点以确定他们的动作是否超过阈值。在一些实施例中，基于lm的目标说话者vad模型182可以包括用于分析视频以检测唇部运动的ml模型，例如一个或多个神经网络、cnn、dnn或其他ml模型。基于lm的目标说话者vad模型182可以包括一个或多个参数，例如神经网络的内部权重，其可以确定基于lm的目标说话者vad模型182的操作。
57.图2是示出一些实施例可以在其中运行的示例性环境200的图。
58.目标发言者210包括在房间220中发言的视频通信平台140的用户。例如，目标发言者210可以包括视频会议中的参与者或者可以通过视频通信平台140呈现演示或课程。客户端设备150包括麦克风222和摄像头224，它们分别从目标发言者210捕获音频和目标发言者210的视频，用于在视频会议中传输。其他扬声器212包括房间220或附近环境中的一个或多个附加扬声器，其语音也可以由麦克风222捕获。例如，其他扬声器212可以包括同事、家庭成员或环境中的其他人。在一些情况下，其他扬声器212在摄像机224的视野内并且被视频记录捕获，而在其他情况下，其他扬声器在摄像机224的视野之外并且不被视频记录捕获。
59.由于来自目标发言者210和其他发言者212的语音可能会被麦克风222捕获并由视频通信平台140传输给视频会议中的其他用户，因此所产生的录音可能会出现乱码或难以理解到目标说话者210和其他说话者212互相交谈或可能由于来自其他说话者212的语音而分散注意力。本文的方法和系统可用于减少或去除来自其他说话者212的语音，以便仅来自目标说话者的语音210保持在视频会议中的录音，而其他用户在视频会议中没有听到其他扬声器212的目标扬声器抽取系统可以从录音中提取目标讲话者的讲话使从其它扬声器212语音录音中的内容被过滤、删除或减少。在一个实施例中，目标发言者210包括视频通信平台140的用户，例如视频通信平台140上的用户账户的用户，而其他发言者212包括与用户未参与的环境中的其他发言者。视频通信平台140上的视频会议。其他用户212可以包括例如视频通信平台140的非用户。示例性应用包括当用户正在参与视频会议时仅保留用户的讲话嘈杂的办公室，其他同事谈论或当该用户被赋予在演讲的演讲或演示文稿和其他人的大厅也说话。
60.可以通过使用一个或多个用户界面控件(例如用户菜单或按钮)启用和禁用相关联的目标扬声器模式来启用和禁用目标扬声器提取系统。当启用目标说话者模式时，则目标说话者提取系统可以提取目标说话者的语音。当目标说话者模式被禁用时，则目标说话者提取系统可以被禁用以执行目标说话者提取。
61.示例性环境200是关于视频通信平台140来说明的，但目标扬声器210也可以使用其他应用程序，例如音频呼叫、音频记录、视频记录、播客等，其中可以使用这里的系统和方法以执行目标讲话者提取。
62.二、示例性基于声纹的系统
63.图3是图示根据本公开的一个实施例的示例性声纹提取器172的图。
64.用户提供了一个记录的话音300。在一些实施例中，目标说话者提取系统可以在配置模式期间提示用户提供记录的语音300，例如在启用目标说话者模式之后或在视频会议之前。例如，当启用目标说话者模式或当用户即将加入视频会议时，目标说话者提取系统可以提示用户记录他们的语音以用于目标说话者提取。目标讲话者提取系统可以显示与配置屏幕的一个或多个预定义的短语，并提示用户说出的短语。或者，目标说话者提取系统可以提示用户说出他或她选择的短语。在一些实施例中，记录的用户语音300为5-10秒长。目标扬声器系统然后可以记录用户讲话的音频，其可以包括记录的语音300。
65.或者，目标说话者提取系统可以在视频会议期间记录用户的语音以获得记录的语音300，而无需请求用户在单独的配置模式中提供记录的语音样本。在一个实施例中，目标说话者提取系统分析音频记录以确定音频记录的能量，并且基于能量确定目标说话者正在说话并将语音记录为记录语音300，如本文进一步描述的。在一个实施例中，目标讲话者提取系统分析用户的视频识别用户的嘴唇的运动，并基于用户嘴唇的运动，确定所述目标说话人正在说话并记录该语音作为记录的语音300，如所描述的在此进一步。
66.声纹提取器172接收并处理记录的语音300并基于记录的语音300的语音特征生成声纹310。语音特征可以包括将人的语音与其他人的语音区分开来的人的语音特征，并且可以取决于诸如说话者声道的形状和大小的物理特征。声纹提取器172可以包括用于声纹提取的ml模型，例如一个或多个神经网络、cnn、dnn或其他ml模型。声纹提取器172可以包括一个或多个参数，例如神经网络的内部权重，其可以确定声纹提取器172的操作。可以通过在一个或多个训练样本上训练声纹提取器172来学习声纹提取器172的参数，这可以包括基于梯度的优化来更新参数。
67.声纹310可以包括说话者的语音特征的数字表示。在一些实施例中，声纹310可以包括嵌入并且也可以被称为目标说话者嵌入。在一些实施例中，嵌入小号可以包括一个低维，学习矢量表示可用于生成的信息高维向量表示。在一些实施例中，嵌入小号在压缩，节省空间编码信息有效的格式。例如，声纹310可以用小于输入到声纹提取器172的记录语音300的向量表示来表示信息。嵌入可能是有损的，并且可能会在编码过程中丢失一些数据。
68.在一个实施例中，声纹310可以与其他用户数据一起被关联地存储在用户的用户账户中。
69.图4是图示根据本公开的一个实施例的示例性目标说话者提取系统400的图。
70.在使用之前，目标说话者提取系统400可以检查是否提供了目标说话者声纹310。当目标说话者声纹310不存在时，则目标说话者提取系统400可以跳过执行目标说话者提取并且可以不修改音频记录410。当目标说话者声纹310可用时，则目标说话者提取系统400可以对音频记录410执行目标说话者提取。
71.接收音频记录410，其可以包括来自目标说话者210和其他说话者212的语音。音频分段器可以应用于音频记录410以将音频记录410分成一个或多个片段，称为音频帧。音频
帧可包括音频录音的短片段克。在一些实施例中，音频分段可以以预定的时间间隔，如每10个音频记录410毫秒，以生成音频帧。在其他实施例中，音频分割器可以基于音频记录410的特性生成音频帧。音频帧可以由目标说话者提取系统400顺序处理并且在处理成目标语音420之后重新组合。
72.每个音频帧可以由检测音频帧中是否存在任何语音的vad模型进行分析。当音频帧中不存在语音时，处理可以停止并且系统可以不修改音频帧。例如，音频帧可能只包含静音或背景噪音。当vad模型检测到语音存在于音频帧中时，则音频帧可被输入到多扬声器检测模型174。在一些实施例中，音频帧可由编码器编码成音频信号表示，例如例如，使用短时傅立叶变换(stft)、滤波器组或其他方法作为频谱图。
73.中号ulti扬声器检测模型174处理音频帧，以确定一个扬声器或多个扬声器是否在音频帧中发言。多说话者检测模型174分析音频帧并基于音频帧的特征，例如音频帧中语音特征的一致性或分布、语音中的静音或中断区域、重叠语音和其他特征，确定音频帧中是一个发言者还是多个发言者正在发言。多扬声器检测模块174的输出可包括二元分类是否一个扬声器被发言或多个扬声器说话。在一个实施例中，多扬声器检测模块174可以包括ml模型，例如一个或多个神经网络、cnn、dnn或其他ml模型。多扬声器检测模块174可以包括一个或多个参数，诸如神经网络的权重内部，可确定多扬声器检测模块174的操作的多扬声器检测模式的参数升174可通过训练来获知一个或多个训练样本上的多说话者检测模型174，其可以包括基于梯度的优化来更新参数。例如，多说话者检测模型174可以基于一个说话者正在说话的第一组多个训练样本和多个说话者说话的第二组训练样本用监督学习来训练。
74.当多说话者检测模型174确定音频帧中的一个说话者正在讲话时，则将音频帧输入到目标说话者vad模型176。目标说话者vad模型176可确定音频帧是否包含目标说话者的语音或不通过比较音频帧到目标说话者的声纹310。当音频帧包含目标讲话者的声音则在音频帧的讲话保持不变，但在音频帧包含非目标讲话者的声音，然后语音被抑制。
75.当多说话者检测模型174确定多个说话者在音频帧中讲话时，则音频帧被输入到目标说话者分离模型178以从音频帧中的语音混合中分离目标说话者的语音。目标说话者分离模型178可以使用语音分离模型处理音频帧，语音分离模型可以使用目标说话者的声纹310。
76.从目标说话vad模型176的输出和目标说话者分离模式升178只包括其中目标讲话者的语音已经通过减少或从非目标扬声器去除语音中提取的音频帧。由系统处理的每个音频帧可以被结合以生成目标语音420，其包括完整的音频记录，其中目标说话者的语音已经被提取并且非目标说话者的语音被抑制。当音频帧已被编码成音频信号表示，则音频帧可被解码之后目标说话人提取，由解码器，成可播放的音频。
77.在一个实施例中，目标说话者提取系统400通过使用多说话者检测模块174将音频帧路由到目标说话者vad模型176或目标说话者分离模型178来提供音频的实时处理。目标扬声器vad模型176可以包括比目标扬声器分离模型178具有更少参数和更快处理的更小的ml模型。目标说话者vad模型176可以快速执行音频帧与声纹310的比较。因此，多说话者检测模块174在可能时将音频帧路由到目标说话者vad模型176可以提高系统的性能。在一些实施例中，目标说话者提取系统400的处理时间小于10ms，这可以适用于实时系统。
78.图5是示出根据本公开的一个实施例的示例性目标说话者模型vad 176的图。
79.音频记录510可以被输入到目标说话者模型vad 176确定wh ich音频记录510包含目标讲话者的语音的部分和该部分包含一个非目标说话者的声音。在一个实施例中，音频记录510被分段成多个音频帧，这些帧由目标说话者vad模型176一次一个处理。例如，每个音频帧可以由多扬声器检测模型174，和被处理的每个包含音频帧小号仅单个扬声器被发送到目标说话者模型vad 176。
80.在一个实施例中，目标扬声器vad模型176接收音频帧作为输入。目标说话者vad模型176可将音频帧与目标说话者的声纹310进行比较以确定音频帧是否包含目标说话者的语音。目标说话者vad模型176分析音频帧并将音频帧中的语音特征与目标说话者的声纹进行比较。在一些实施例中，目标说话者vad模型176可以将音频帧输入到声纹提取器172以生成声纹并将声纹与目标说话者的声纹进行比较以确定相似度的量。在一些实施例中，目标说话者vad模型176可以接受音频帧和目标说话者的声纹310作为输入并且基于ml模型确定相似度的量。
81.在一个实施例中，目标说话者vad模型176可以包括ml模型，例如一个或多个神经网络、cnn、dnn或其他ml模型。目标说话者vad模型176可包括可确定目标说话者vad模型176的操作的一个或多个参数，例如神经网络的内部权重。可通过训练目标说话者vad来学习目标说话者vad模型176的参数在一个或多个训练样本上建立模型176，这可以包括基于基于梯度的优化来更新参数。例如，目标说话者vad模型176可以基于目标说话者正在说话的第一多个训练样本和非目标说话者说话的第二多个训练样本，用监督学习来训练。
82.在一些实施例中，目标说话者vad模型176的输出可以是目标说话者是否正在说话的二元分类。在一些实施例中，目标说话者vad模型176的输出可以是一个比率，例如介于0和1之间，基于记录包含目标说话者的语音的可能性有多大，其中更高的比率意味着它更有可能它包含目标说话者的声音。
83.后处理模块512可以使用目标说话者vad模型176的输出来对音频帧进行后处理以抑制非目标说话者的语音。当目标说话者vad模型176确定音频帧包含目标说话者的语音时，后处理模块512可以不执行后处理并且音频帧未被修改。当目标说话者vad模型176执行二元分类并确定音频帧包括来自非目标说话者的语音时，后处理模块512可将音频帧中语音的幅度减小到零，使得语音是完全压制。或者，后处理模块512可以将音频帧中语音的幅度减小一个抑制比，例如0.1、0.25、0.5等，使得语音更安静。例如，输出语音的幅度从后处理模件可以通过相乘来确定原始幅度的语音的音频帧由抑制比。如果目标说话者vad模型176做出错误分类，则该方法可能是合乎需要的以避免不适当地使目标说话者的语音静音。在一些实施例中，目标说话者vad模型176基于录音包含目标说话者的声音的可能性输出比率。后处理模块512可基于该比率确定抑制比率。在一个实施例中，后处理模块512可以使用这个比率，或者减去这个比率的一个，作为抑制比，使得与目标说话者的声音更不相似的语音被更多地抑制而与目标说话者的声音更相似的语音被更多地抑制小号编辑。
84.后处理的音频帧由后处理模块512输出并且可以按时间顺序结合在一起以重建现在抑制了来自非目标说话者的语音的目标说话者音频记录520。
85.图5b为本发明一实施例的基于能量提取目标说话者声纹的示意图。
86.在一个实施例中，目标说话者提取系统400可用于在视频会议期间提取目标说话者的声纹，而无需在配置模式期间单独提取声纹。该过程可以使用户能够使用目标说话者
模式而不必执行单独的配置过程来记录他或她的声音。目标说话者提取系统400可以接收在视频会议期间接收的或在视频会议之前记录的音频记录530。在该系统的一个方面，该系统分析音频记录530以确定音频的能量记录530。当能量超过阈值时，系统基于能量确定目标说话者正在说话，并且从音频记录530生成目标说话者的声纹。
87.在一个实施例中，多说话者检测模块174处理音频记录530并确定它包含来自单个说话者的语音。例如，多扬声器检测模块174可以处理多个音频的音频帧的记录530，并且确定它们的单个扬声器的每一个包括语音，其可确定音频记录530包含单个说话者的声音。如果多扬声器检测模块174确定多个扬声器说话在音频记录530，则目标讲话者提取系统400毫安确定不向提取目标说话者的声纹从音频记录530。
88.目标讲话者提取系统400可以分析音频记录530以确定音频的能量记录530，其中，所述音频记录530在视频会议期间被接收或在视频会议之前。目标说话者提取系统400可以基于能量确定目标说话者正在说话并且从音频记录530生成目标说话者的声纹310。当目标说话者提取系统400基于能量确定目标说话者没有说话时，它不从音频记录530生成目标说话者的声纹310。在一个实施例中，具有高能量的音频记录可以指示：扬声器靠近麦克风，因此扬声器是目标扬声器，而低能量的录音可能表明扬声器距离麦克风较远，因此扬声器很可能是非目标扬声器背景。
89.在一个实施例中，能量检测器532分析音频记录530以确定音频记录530的能量。将音频记录530中的能量与能量阈值进行比较(步骤534)，该能量阈值可以包括预定义阈值能量。在一些实施例中，能量阈值可以是可配置的。在一些实施例中，可以通过机器学习来学习能量阈值。当录音530中的能量超过能量阈值时，则录音530被输入到声纹提取器172以产生目标说话者的声纹310。然而，当录音530中的能量没有超过能量阈值时，则声纹不被提取(步骤536)。
90.图5是示出确定的音频记录之间的相似性得分的图，如一个音频帧，并且根据本公开的一个实施方案中，目标讲话者的语音印迹。
91.在一个实施例中，目标说话者提取系统400可以确定音频帧中的语音与目标说话者的声纹之间的相似度，以确定抑制率。在一个实施例中，提供了音频帧(例如，音频记录530)和目标说话者声纹310。音频帧可以被输入到声纹提取器172以生成音频帧的声纹的音频帧和目标说话者的声纹310可以被输入到一个相似模型534。相似性模型534处理两个声纹以确定它们的相似性并生成相似性分数540。相似性分数540可以包括测量两个声纹的相似程度的数值。在一些实施例中，相似度分数540可以在0到1的范围内变化，其中0指示高不相似性并且1指示高相似性。在一个实施例中，目标说话者vad模型17 6使用的抑制比可以基于相似度得分来确定。例如，抑制率可以包括相似度分数或减一减去相似度分数。
92.在一个实施例中，相似性模型534计算音频帧的声纹和目标说话者声纹310之间的余弦相似性，其中声纹都包括向量并且余弦相似性包括两个向量之间的角度的余弦的度量。在一些实施例中，相似性模型534可以包括ml模型，例如一个或多个神经网络、cnn、dnn或其他ml模型。相似性模型534可以包括一个或多个参数，诸如神经网络的权重内部，可确定相似性模型534的参数的操作534相似模型可通过训练来获知相似度模型534上的一个或多个训练样本，这可以包括基于梯度的优化来更新参数。例如，相似性模型534可以基于输入声纹对相似的第一多个训练样本和输入声纹对不相似的第二多个训练样本用监督学习
来训练。
93.在一些实施例中，图1中所示的过程。图5c可以由目标说话者vad模型176执行并且相似性模型534可以包括目标说话者vad模型176的组件。
94.图6是图示根据本公开的一个实施例的示例性目标说话者分离模型178的图。
95.音频记录6 10可以被输入到目标说话者分离模型178以将目标说话者的语音与包含来自多个说话者的语音混合的音频记录610分离。在一个实施例中，音频记录6 10被分割成多个音频帧，这些帧由目标说话者分离模型178一次一个地处理。例如，每个音频帧可以由多说话者检测模型174处理，并且包含多个说话者的每个音频帧被传输到目标说话者分离模型178。
96.在一个实施例中，目标说话者分离模型178接收音频帧作为输入。目标说话者分离模型178对音频帧执行语音分离以将目标说话者的语音与音频帧中的语音混合分离。目标说话者分离模型178可以使用目标说话者的声纹310进行语音分离和识别语音混合中的目标说话者的声音。目标说话者分离模型178可以预测音频帧中的语音混合的哪些部分来自目标说话者而哪些部分不来自目标说话者的语音混合并且仅保留来自目标说话者的语音混合的部分。在一些实施例中，目标说话者分离模型178将语音混合分解成多个语音信号，每个语音信号来自语音混合中的不同说话者。该过程可以将语音混合分离为来自不同来源的语音。在一些实施例中，语音分离还可以包括从语音混合中分离非语音噪声。
97.在一个实施例中，目标说话者分离模型178可以包括ml模型，例如一个或多个神经网络、cnn、dnn或其他ml模型。目标说话者分离模型178可包括一个或多个参数，诸如神经网络的权重内部，可确定的操作目标说话者分离模型178的参数目标扬声器分离模型178可了解到通过训练目标一个或多个训练样本上的说话人分离模型178，其可以包括基于梯度的优化来更新参数。例如，可以基于包括输入和输出对的多个训练样本利用监督学习来训练目标说话者分离模型178，其中输入包括包含语音混合的音频记录并且输出包括来自每个说话者的分离的语音。
98.来自说话者分离模型178的输出包括音频帧，其中目标说话者的声音已经与音频帧中的声音混合分离。每个音频帧可以被结合以生成目标语音620，其包括完整的音频记录，其中已经提取了目标说话者的语音并且抑制了非目标说话者的语音。
99.图7是图示根据本公开的一个实施例的目标说话者分离模型178的示例性神经网络实施例的图。
100.在一些实施例中，声纹提取器172、目标说话者vad模型174和目标说话者分离模型178可以各自包括神经网络并且可以共享类似的神经网络结构。在一些实施例中，声纹提取器172、目标说话者vad模型174和目标说话者分离模型178可以共享一个或多个神经网络权重。
101.音频记录702，例如来自视频会议的音频记录，可以作为输入被接收到目标说话者分离模型178。音频记录702可以包括音频帧。音频帧可能先前已经由多说话者检测模型174处理以确定音频帧包含来自多个说话者的语音。音频记录702可被输入到编码器710以使用例如短时傅立叶变换(stft)、滤波器组或其他方法将音频记录702编码成音频信号表示704，例如频谱图。
102.目标扬声器分离模型178可以包括多个1d cnn 722a-n，每个1d cnn 722a-n接收
音频信号表示704作为输入并且基于音频信号表示生成输入信号嵌入724a-n。每个1d cnn 722a-n之后是网络块728a-n，其接收相应的1d cnn 722a-n的输出作为输入。
103.在一个实施例中，目标说话者分离模型178包括dnn，该dnn包括一个或多个网络块728a-n。每一个网络块728a-n包括的一个或多个卷积块小号726a-n，并且每个卷积块包括上课的一个或多个神经网络。在一个实施例中，每个网络块728a-n包括一系列增加扩张的卷积块，该系列中每个卷积块的输出被输入到该系列中的下一个卷积块。网络块728a-n可以串联排列，并且网络块728a-n中一个或多个卷积块的输出被求和并输入到下一个网络块728a-n。在一个实施例中，在将总和输入到下一个网络块之前，将网络块728a-n中的一个或多个卷积块的输出总和与输入音频信号表示704的嵌入融合。在一实施例中，每个卷积块726a-n包括一个或多个cnn或混洗cnn。
104.最后一个网络块728n的输出被输入到参数整流线性单元(prelu)层730，接着1d cnn 732和s形层734。sigmoid层734生成掩模740，其可以包括频谱图。掩码740可以与音频信号表示704组合以生成输出表示750。输出表示750可以由解码器752解码以生成输出音频记录754，其可以包括来自目标说话者的分离的语音。
105.在一个实施例中，声纹提取器172和目标说话者模型vad 176每个包括神经网络包括一个网络块728a-n和一维cnn 722a-n。声纹提取器172和/或目标说话人vad模型176中的网络块可以可选地与目标说话人分离模型178共享一个或多个权重，其中声纹提取器172和/或目标说话人vad模型176中的网络块具有相同的神经网络。网络权重作为目标说话人分离模型178中的网络块之一。例如，一维cnn和卷积块中的一个或多个神经网络权重在目标说话人分离模型178和声纹提取器172和/或目标中可以相同扬声器vad型号176。在一些实施例中，所有神经网络权重可以共享并且在目标说话者分离模型178和声纹提取器172和/或目标说话者vad模型176中相同。在其他实施例中，声纹提取器172和目标说话者vad模型176可以各自包括与目标说话者分离模型178中的网络块728a-n具有相同结构的网络块，但是网络块包括不同的权重。
106.图8a是图示可以在一些实施例中执行的示例性方法800的流程图。
107.在步骤802，目标说话者提取系统接收音频信号的音频帧，目标说话者提取系统包括多说话者检测模型174、目标说话者vad模型176和语音分离模型178。音频信号可以包括视频会议期间的音频记录。在一个实施例中，音频信号被音频分段器分成多个音频帧。
108.在步骤804，多扬声器检测模型174分析音频帧以确定音频帧是仅包括单个扬声器还是包括多个扬声器。多说话者检测模型174可以分析音频帧并基于音频帧的特征，例如音频帧中语音特征的一致性或分布、语音中的静音或中断区域、重叠语音和其他特征,确定音频帧中是一个扬声器还是多个扬声器在说话。多扬声器检测模块174的输出可包括二元分类是否一个扬声器被发言或多个扬声器说话。
109.在步骤806中，母鸡音频帧只包括单个扬声器，所述音频帧被输入到目标说话者vad模型176从基于所述音频帧进行比较，以非目标讲话者以抑制语音中的音频帧目标说话者的声纹310。在一个实施例中，目标讲话者vad抑制在从非目标扬声器的音频帧的语音基于一个抑制比。在一实施例中，目标说话者vad模型176可产生非目标说话者的声纹，将非目标说话者的声纹与目标说话者的声纹进行比较以确定相似度得分，并基于以下确定抑制率相似度得分。
110.在步骤808，瓦特母鸡音频帧包括多个扬声器，音频帧被输入到语音分离模型178到目标说话人的语音从语音混合物在音频帧中分离。在实施例中，目标说话者分离模型178对音频帧执行语音分离以将目标说话者的语音与音频帧中的语音混合分离。目标说话者分离模型178可以使用目标说话者的声纹310进行语音分离和识别语音混合中的目标说话者的声音。
111.图8b是图示可以在一些实施例中执行的示例性方法820的流程图。
112.在步骤822，目标说话者提取系统提示用户在配置模式期间记录语音样本。在一个实施例中，配置模式发生小号目标讲话者模式之后启用或视频会议之前。在一个实施例中，目标说话者提取系统可以显示具有一个或多个预定义短语的配置屏幕并提示用户说出这些短语。或者，目标说话者提取系统可以允许用户说出他或她选择的短语。
113.在步骤824，声纹提取器172基于语音样本生成目标说话者的声纹310。在一个实施例中，声纹提取器172基于语音样本中目标说话者的语音特征生成声纹310。声纹310可以包括嵌入，例如向量表示。
114.在826中，目标讲话者提取系统小号的视频会议期间从音频记录目标说话者的声音使用声纹目标讲话者的310。例如，可以使用目标说话者vad模型176或目标说话者分离模型178来提取目标说话者的语音。
115.图8c是图示可以在一些实施例中执行的示例性方法840的流程图。
116.在步骤842，目标讲话者的提取系接收上课在视频会议期间来自用户的音频记录。
117.在步骤844，分析音频记录以确定音频记录的能量。能量检测器532可用于确定音频记录的能量。
118.在步骤846，将音频记录的能量与能量阈值进行比较。在一个实施例中，能量阈值可以包括预定义的阈值能量。能量阈值可以是可配置的。
119.在步骤848，当录音的能量超过能量阈值时，录音被输入到声纹提取器以生成目标说话者的声纹310。声纹310可用于从录音中提取目标说话者的语音。方法840可以使目标说话者提取系统在配置模式期间无需单独提示用户提供语音样本即可获得声纹310。
120.图8d是图示可以在一些实施例中执行的示例性方法860的流程图。
121.在步骤862，目标说话者提取系统接收音频信号的音频帧，目标说话者提取系统包括目标说话者vad模型176。音频信号可以包括视频会议期间的音频记录。在一个实施例中，音频信号被音频分段器分成多个音频帧。在一个实施例中，多说话者检测模型174分析音频帧并在音频帧输入到目标说话者vad模型176之前确定它包含单个说话者。
122.在步骤864，声纹提取器172生成音频帧的声纹。在一个实施例中，声纹提取器172生成声纹的音频帧的基础上在所述扬声器的声音特性的音频帧。在声纹可以包括嵌入，如向量表示。
123.在步骤866，相似性模型534将音频帧的声纹与目标说话者的声纹310进行比较以确定相似性得分。在一个实施例中，相似度模型534计算音频帧的声纹和目标说话者声纹310之间的余弦相似度，其中两个声纹都包括向量。在一些实施例中，相似性模型534可以包括ml模型，例如神经网络、cnn或dnn。
124.在步骤868，基于相似度得分确定抑制率。在一个实施例中，目标说话者vad模型176在相似性得分较低时选择较高的抑制率，而在相似性得分较高时选择较低的抑制率，以
减少对与目标说话者的语音相似的语音的抑制。
125.在步骤870，基于抑制比抑制音频帧中的语音。在一个实施例中，音频帧中语音的幅度值乘以抑制比以减小音频帧中语音的幅度。
126.二、示例性的基于唇部运动的系统
127.图9是图示根据本公开的一个实施例的示例性基于lm的目标说话者vad模型188的图。
128.在一个实施例中，基于lm的目标说话者vad模型188可用于在视频会议期间提取目标说话者的声纹，而无需单独记录用户的语音样本并在配置模式期间提取声纹。该过程可以使用户能够使用目标说话者模式而不必执行单独的配置过程来记录他或她的声音。音频记录410被接收并且可以包括用户在视频会议期间的音频记录。多扬声器检测模型174处理音频记录410，以确定是否一个扬声器或多个扬声器在音频说话记录，如本文别处所述。当多说话者检测模型174确定一个说话者在录音410中说话时，则录音410被输入到基于lm的目标说话者vad模型188。在一实施例中，音频记录410可包括一个或多个音频帧。
129.基于lm的目标扬声器vad模型188可以接收音频记录410和在音频记录期间由相机捕获的用户的关联视频。例如，视频可以包括用户在视频会议中的视频。基于lm的目标说话者vad模型188分析视频以确定用户的嘴唇是否在移动。当基于lm的目标说话者vad模型188确定用户的嘴唇在移动时，则基于lm的目标说话者vad模型188可以确定目标说话者正在说话。在一个实施例中，基于lm的目标说话者vad模型188处理具有相关联的视频或静止图像的多个音频帧，并基于用户的嘴唇是否在移动来为每个音频帧确定目标说话者是否正在说话。基于lm的目标说话者vad模型188可以抑制用户嘴唇不移动的音频帧中的语音，并保持用户嘴唇移动的音频帧中的语音。音频帧可以结合在一起以生成目标说话者的语音的音频记录412。基于lm的目标说话者vad模型188可以从目标说话者的语音的音频记录412产生目标说话者的声纹310。
130.在一个实施例中，基于lm的目标说话者vad模型188基于面部关键点检测用户的嘴唇是否在移动。面部关键点检测器可以分析用户面部的视频或图像，以检测用户面部与地标相对应的一个或多个关键点，例如噪声尖端、眼睛的内边缘和外边缘等。在一些实施例中，面部关键点检测器可以包括ml模型，例如神经网络、cnn或dnn。例如，面部关键点检测器可以包括具有一个或多个与面部标志对应的特征检测器的cnn。
131.面部关键点检测器可以检测用户的上唇和下唇边缘上的多个关键点。在一个实施例中，面部关键点检测器检测用户上唇边缘的五个关键点和用户下唇边缘的五个关键点。上唇和下关键点可以包括多对水平对齐的关键点，使得每个上唇关键点在其正下方具有一个下关键点。面部关键点检测器可以测量对应的上唇关键点和下唇关键点之间的距离。距离可以以像素为单位测量，也可以转换为实际单位。
132.在一个实施例中，顶部唇关键点之间的距离和相应的下嘴唇的关键点是视频帧之间跟踪，当为上唇关键点和相应的底唇关键点，之间的距离变化系统确定目标说话者正在讲话。面部关键点检测器可以跟踪视频帧序列中的一个或多个唇部关键点。面部关键点检测器可以将每个视频帧中的唇部关键点与序列中后续视频帧中的相应唇部关键点相关联。面部关键点检测器可以检测每对上唇关键点和下唇关键点之间的距离，并确定连续视频帧之间的距离如何变化。母鸡在变化距离是零，那么之间相对距离相应的顶部唇关键点和下
嘴唇的关键点没有改变。在这种情况下，面部关键点检测器可以确定目标说话者没有说话。当距离变化(正或负变化)的绝对值大于零时，则对应的上唇关键点和下唇关键点之间的相对距离发生了变化。在这种情况下，面部关键点检测器可以确定目标说话者正在讲话。或者，当距离变化的绝对值低于距离阈值时，则面部关键点检测器确定目标说话者没有说话。当在变化的绝对值的距离大于距离阈值，则脸部关键点检测器确定该使用者的嘴巴打开时和所述目标说话人正在说话。面部关键点检测器可以测量每对上唇关键点和下唇关键点或仅其中一些对之间的距离变化。在一些实施例中，面部关键点检测器可以计算上唇关键点和下唇关键点对之间距离的平均变化或上唇关键点和下唇关键点对之间距离变化的总和。并将这些值与零或阈值进行比较。
133.或者，面部关键点检测器可以检测嘴唇关键点何时在视频帧之间移动，并且当嘴唇关键点移动时，确定目标说话者正在说话。面部关键点检测器可以跟踪视频帧序列中的一个或多个唇部关键点。面部关键点检测器可以将每个视频帧中的唇部关键点与序列中后续视频帧中的相应唇部关键点相关联。面部关键点检测器可以确定每个唇部关键点是否在连续帧之间改变了位置。当唇部关键点移动时，面部关键点检测器可以确定目标说话者正在说话。当唇部关键点没有移动时，则面部关键点检测器可以确定目标说话者没有说话。在一些实施例中，面部关键点检测器可以将唇部关键点的移动量与距离阈值进行比较。当唇部关键点移动超过距离阈值时，则面部关键点检测器可以确定目标说话者正在说话。当唇部关键点的移动小于距离阈值时，则面部关键点检测器可以确定目标说话者没有说话。面部关键点检测器可以测量每个唇部关键点或仅部分唇部关键点的移动量。在一些实施例中，面部关键点检测器可以计算每个唇部关键点的移动量或唇部关键点的移动总和，并将这些值与零或阈值进行比较。
134.在进一步的变型中，面部关键点检测器可以包括ml模型，该模型被训练以分析用户的视频或静止图像并且检测视频中的用户何时在说话。当ml模型确定视频中的用户正在说话时，它会输出目标说话者正在说话的结果。面部关键点检测器可以包括一个或多个参数，例如神经网络的内部权重，其可以确定面部关键点检测器的操作。面部关键点检测器的参数可以通过训练而得知面部关键点检测器上的一个或多个训练样本，其可以包括更新基于梯度的优化参数。例如，多说话者检测模型174可以基于包括用户正在说话的视频的第一多个训练样本和包括用户没有说话的视频的第二多个训练样本，利用监督学习来训练。
135.图10是图示根据本公开的一个实施例的示例性基于lm的目标说话者提取系统1000的图。
136.在一个实施例中，基于lm目标讲话者提取系统1000可以共享一些或所有的所述目标说话人提取系统400的部件，不同之处在于基于lm目标说话vad模型188可被用来代替目标讲话者vad模型176.
137.甲sin目标讲话者提取系统400，音频记录器410可接收，并且可以通过音频被分成音频帧描述分段。如本文别处所述，每个音频帧可由vad模型分析，该模型检测音频帧中是否存在任何语音以确定何时需要继续处理。目标说话者提取系统1000可包括如本文别处所述的多说话者检测模型174、目标说话者分离模型178、声纹310和目标语音420。多说话者检测模型174处理每个音频帧以确定在音频帧中是一个说话者还是多个说话者说话。
138.当多说话者检测模型174确定一个说话者在音频帧中讲话时，则音频帧被输入到
基于lm的目标说话者vad模型188。如关于图1所描述的。参考图9和本文其他地方，基于lm的目标说话者vad模型188可以通过分析与音频帧相关联的视频来确定用户的嘴唇是否在移动来使用面部标志182来确定音频帧是否包含目标说话者的语音。面部标志182可包括识别视频中用户面部标志的一个或多个关键点。当音频帧包含目标讲话者的声音则保持不变，但在音频帧包含非目标讲话者的声音，然后语音音频帧被抑制。
139.在一个实施例中，基于lm的目标说话者vad模型188执行二元分类并确定音频帧是否包括来自目标说话者或非目标说话者的语音。当基于lm的目标说话者vad模型188确定音频帧包括来自目标说话者的语音时，它不改变音频帧。当基于lm的目标说话者vad模型188确定音频帧包括来自非目标说话者的语音时，后处理模块512可以将音频帧中语音的幅度减小到零，从而完全抑制语音。或者，基于lm的目标说话者vad模型188可以基于视频中的嘴唇运动来确定用户正在说话的可能性，其中该可能性可以包括介于0和1之间的概率值。基于lm的目标说话者vad模型188可以确定基于似然的抑制比，它决定了音频帧中的语音将被抑制的程度。例如，抑制率可以等于用户正在说话的概率。后处理模块512可以减少由抑制率语音的幅度在音频帧抑制讲话，如本文别处所述。
140.当多说话者检测模型174确定多个说话者在音频帧中讲话时，音频帧被输入到目标说话者分离模型178以从音频帧中的语音混合中分离目标说话者的语音，如所描述的本文其他地方。目标说话者提取系统1000可以检查是否提供了目标说话者声纹310，并且如果没有提供目标说话者声纹310，则可以禁用目标说话者分离模型178直到声纹310可用。
141.从输出基于lm目标说话者模型vad 188的d目标说话者分离模型178只包括其中目标讲话者的语音已经通过减少或从非目标扬声器去除语音中提取的音频帧。每个音频帧可以被结合以生成目标语音420，其包括完整的音频记录，其中目标说话者的语音已经被提取并且非目标说话者的语音被抑制。当音频帧已被编码成音频信号表示，则音频帧可被解码目标说话人提取后，由解码器，成可播放的音频。
142.此外，瓦特母鸡基于lm目标说话者模型vad 188确定目标讲话者是基于视频中的用户的嘴唇运动来讲，所记录的音频可以被用于生成目标说话者的声纹310。目标说话者声纹310可以被目标说话者分离模型178用于目标说话者分离。
143.在一些实施例中，目标说话者提取系统1000可以执行处理以处理存在多个用户的视频。在一个实施例中，基于lm的目标说话者vad模型188检测视频中是否存在一张脸或多于一张脸。当视频中有多于一张脸时，则基于lm的目标说话者vad模型188可以向目标说话者提取系统1000发送信号以禁用基于唇部运动的目标说话者提取。在一个实施例中，当在视频中检测到多个人脸时，可以禁用目标说话者模式。在一些实施例中，当在视频中检测到多个面部时，可以仅使用基于声纹的提取来执行目标说话者提取，例如在目标说话者提取系统400中。基于lm的目标说话者vad模型188可以继续监视来自用户的视频，并且当多张脸离开视频使得仅留下一张脸时，则可以恢复目标说话者模式。
144.在其他实施例中，基于lm的目标说话者vad模型188可以分析视频中每个面部的嘴唇并且检测任何嘴唇何时移动。当视频中任何用户的嘴唇在移动时，则基于lm的目标说话者vad模型188可确定目标说话者正在说话。在该模式中，基于lm的目标说话者vad模型188可以保留出现在视频中的任何用户的语音并抑制不在视频中的用户的语音。
145.在一个实施例中，目标说话者提取系统1000可以在处理之前检测用户的相机是被
启用还是被禁用。当相机被禁用时，可能无法接收到视频。当不存在视频，目标扬声器提取系统1000可以禁用唇运动基于目标讲话者提取和可以使用基于声纹目标讲话者提取代替如关于图1所描述4和本文其他地方。
146.图11是图示根据本公开的一个实施例的使用基于声纹的目标说话者提取和基于lm的目标说话者提取的n个示例性目标说话者提取系统1100的图。
147.在一个实施例中，目标讲话者提取系统1100可以共享一些或所有的所述目标说话人提取系统400和基于lm目标讲话者提取系统1000的组件，不同之处在于基于lm目标说话vad模型188和目标讲话者vad模型176用于组合目标扬声器vad模型190中。目标说话者提取系统1100可以包括音频分段器、vad模型、多说话者检测模型174、目标说话者分离模型178、声纹310、面部标志182和目标语音420，如本文别处所述。
148.当多说话者检测模型174确定一个说话者在音频帧中说话时，则音频帧被输入到组合目标说话者vad模型190。在组合目标说话者vad模型190中，目标说话者vad模型176和基于lm的目标说话者vad模型188可以处理音频帧并且两个模型的输出由组合目标说话者vad模型190组合以输出组合结果。目标说话者vad模型176可将音频帧与目标说话者的声纹310进行比较以确定音频帧是否包含目标说话者的语音。基于lm的目标说话者vad模型188可以分析与音频帧相关联的视频记录以确定用户的嘴唇是否在移动。在一个实施例中，如果任一目标说话者模型vad 176或基于lm-目标说话者模型vad 188输出小号的结果是，目标讲话者正在讲话，则组合的目标说话者vad模型190所输出的结果是，目标讲话者正在讲话。在一个实施例中，如果两个目标说话者模型vad 176和基于lm-目标说话者模型vad 188outp ut的结果是，目标讲话者正在讲话，则组合的目标说话者vad模型190所输出的结果是，目标讲话者正在讲话。
149.在一个实施例中，组合目标说话者vad模型190可以包括ml模型，该ml模型分析和处理目标说话者vad模型176和基于lm的目标说话者vad模型188的输出以确定目标说话者是否正在说话。组合目标说话者vad模型190可包括一个或多个神经网络、cnn、dnn或其他ml模型。组合目标说话者vad模型190可包括可确定组合目标说话者vad模型190的操作的一个或多个参数，例如神经网络的内部权重。组合目标说话者vad模型190的参数可以通过在一个或多个训练样本上训练组合目标说话者vad模型190来学习，这可以包括基于梯度的优化来更新参数。例如，组合目标说话vad模型190可基于第一多个训练样本，其中监督的学习来训练目标讲话者正在讲话的第二多个，其中训练样本的非目标扬声器的发言。基于ml模型，组合目标说话者vad模型190输出目标说话者是否正在说话的预测。
150.图12a是图示可以在一些实施例中执行的示例性方法1200的流程图。
151.在步骤1202，目标说话者提取系统接收音频信号的音频帧，目标说话者提取系统包括多说话者检测模型174、基于lm的目标说话者vad模型188和语音分离模型178。音频信号可以包括视频会议期间的音频记录。在一个实施例中，音频信号被音频分段器分成多个音频帧。
152.在步骤1204，多扬声器检测模型174分析音频帧以确定音频帧是仅包括单个扬声器还是包括多个扬声器。多说话者检测模型174可以分析音频帧并基于音频帧的特征，例如音频帧中语音特征的一致性或分布、语音中的静音或中断区域、重叠语音和其他特征,确定音频帧中是一个扬声器还是多个扬声器在说话。多扬声器检测模块174的输出可包括二元
分类是否一个扬声器被发言或多个扬声器说话。
153.在步骤1206中，母鸡音频帧只包括单个扬声器，所述音频帧是输入到基于lm目标说话vad模型188在从非目标扬声器的音频帧基础上以抑制语音分析与音频帧相关联的视频以检测用户的嘴唇运动。在一个实施例中，还可以将音频帧输入到目标说话者vad模型176以基于将音频帧与目标说话者的声纹进行比较来抑制来自非目标说话者的音频帧中的语音。基于lm的目标说话者vad模型188和目标说话者vad模型176两者的输出可被输入到组合目标说话者vad模型190，组合目标说话者vad模型190可产生音频帧是否包括来自目标说话者的语音或非目标说话者的语音的组合输出预测目标说话者，并可能抑制非目标说话者的讲话。
154.在步骤1208，当音频帧包括多个说话者时，音频帧被输入到语音分离模型178以从音频帧中的语音混合中分离目标说话者的语音。在实施例中，目标说话者分离模型178对音频帧执行语音分离以将目标说话者的语音与音频帧中的语音混合分离。目标说话者分离模型178可以使用目标说话者的声纹310进行语音分离和识别语音混合中的目标说话者的声音。
155.图12b是图示可以在一些实施例中执行的示例性方法1220的流程图。
156.在步骤1222，目标说话者提取系统在视频会议期间从用户接收音频记录和相关联的视频记录。
157.在步骤1224，视频记录被分析以确定用户的嘴唇是否在移动。在一个实施例中，检测用户的多个上唇关键点和下唇关键点，并测量上唇关键点和下唇关键点之间的距离。当距离小于距离阈值，它是确定d用户的嘴唇正在活动。
158.在步骤1226，当用户的嘴唇在移动时，音频记录被输入到声纹提取器以生成目标说话者的声纹310。声纹310可用于从录音中提取目标说话者的语音。方法1220可以使目标说话者提取系统获得声纹310，而无需在配置模式期间单独提示用户提供语音样本。
159.图12c是图示可以在一些实施例中执行的示例性方法1240的流程图。
160.在步骤1242，目标发言者提取系统在视频会议期间从用户接收音频记录和相关联的视频记录，目标发言者提取系统包括基于lm的目标发言者vad模型188。在一个实施例中，多扬声器检测模型174在音频记录和视频记录被输入到基于lm的目标扬声器vad模型188之前分析音频记录并且确定它包含单个扬声器。
161.在步骤1244，面部关键点检测器的分析的视频记录以检测多个顶部唇关键点和底部关键点对。在一个实施例中，面部关键点检测器包括cnn与对应于一个或多个特征检测器顶部唇关键点和下嘴唇的关键点。
162.在步骤1246，可以测量上唇关键点和对应的下关键点之间的距离。距离可以以像素为单位测量，也可以转换为实际单位。
163.在步骤1248中，母鸡上唇关键点和下唇关键点之间的距离小于距离阈值，它是确定该非目标讲话者的发言和语音非目标说话者的被抑制在录音中。在一个实施例中，距离阈值可以是可配置的。在一些实施例中，距离阈值是通过机器学习来学习的。在一个实施例中，基于抑制比来抑制非目标说话者的语音。
164.示例性计算机系统
165.图13是图示在一些实施例中可以执行处理的示例性计算机的图。示例性计算机
1300可以执行与一些实施例一致的操作。计算机1300的体系结构是示例性的。计算机可以以多种其他方式实现。根据这里的实施例，可以使用各种各样的计算机。
166.处理器1301可以执行计算功能，例如运行计算机程序。易失性存储器1302可以为处理器1301提供数据的临时存储。ram是一种易失性存储器。易失性存储器通常需要电力来维持其存储的信息。存储1303为数据、指令和/或任意信息提供计算机存储。非易失性存储器，即使在不通电的情况下也可以保存数据，包括磁盘和闪存，是存储的一个例子。存储1303可以被组织为文件系统、数据库或以其他方式。数据、指令和信息可以从存储器1303加载到易失性存储器1302中以供处理器1301处理。
167.计算机1300可以包括外围设备1305。外围设备1305可以包括输入外围设备，例如键盘、鼠标、轨迹球、摄像机、麦克风和其他输入设备。外围设备1305还可以包括诸如显示器之类的输出设备。外设1305可包括可移动媒体设备，如cd-r和dvd-r记录器/播放器。通信设备1306可以将计算机1300连接到外部介质。例如，通信设备1306可以采用向网络提供通信的网络适配器的形式。计算机1300还可以包括各种其他设备1304。计算机1300的各种组件可以通过诸如总线、交叉开关或网络之类的连接介质连接。
168.前面详细描述的某些部分已经根据对计算机存储器内的数据位的操作的算法和符号表示来呈现。这些算法描述和表示是数据处理领域的技术人员用来最有效地向本领域的其他技术人员传达他们工作的实质的方式。算法在这里并且通常被认为是导致所需结果的自洽操作序列。这些操作是那些需要对物理量进行物理操作的操作。通常，尽管不一定，这些量采用能够存储、组合、比较和以其他方式处理的电或磁信号的形式。有时，主要是出于常用的原因，将这些信号称为位、值、元素、符号、字符、术语、数字等已被证明是方便的。
169.然而，应该记住，所有这些和类似的术语都与适当的物理量相关联，并且只是适用于这些量的方便标签。除非从上述讨论中清楚地另有说明，否则应理解，在整个描述中，使用诸如“识别＂或“确定＂或“执行＂或“执行＂或“收集＂或“创建＂或“发送＂等术语的讨论＂等，指的是计算机系统或类似电子计算设备的操作和过程，该设备将在计算机系统的寄存器和内存中表示为物理(电子)量的数据处理和转换为在计算机系统的寄存器和存储器中以类似方式表示为物理量的其他数据。计算机系统存储器或寄存器或其他此类信息存储设备。
170.本公开还涉及一种用于执行这里的操作的装置。该装置可以为预期目的而专门构造，或者它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这种计算机程序可以存储在计算机可读存储介质中，例如但不限于任何类型的磁盘，包括软盘、光盘、cd-rom、磁光盘、只读存储器(rom)、随机存取存储器(ram)、eprom、eeprom、磁卡或光卡，或任何类型的适合存储电子指令的介质，每个都耦合到计算机系统总线。
171.各种通用系统可以与根据这里的教导的程序一起使用，或者构造更专门的装置来执行该方法可以证明是方便的。各种这些系统的结构将如以上描述中所阐述的那样出现。此外，本公开没有参照任何特定的编程语言进行描述。应当理解，可以使用多种编程语言来实现如本文所述的本公开的教导。
172.本公开可以作为计算机程序产品或软件提供，其可以包括其上存储有指令的机器可读介质，其可以用于对计算机系统(或其他电子设备)进行编程以执行过程根据本公开。机器可读介质包括用于以机器(例如，计算机)可读的形式存储信息的任何机制。例如，机器可读(例如，计算机可读)介质包括机器(例如，计算机)可读存储介质，诸如只读存储器
(“rom＂)、随机存取存储器(“ram＂)、磁盘存储介质、光存储介质、闪存设备等。
173.在前述公开中，已经参考其具体示例实施方式描述了本公开的实施方式。很明显，在不脱离如以下权利要求中阐述的本公开的实施方式的更广泛精神和范围的情况下，可以对其进行各种修改。因此，本公开和附图被认为是说明性的而不是限制性的。

技术特征：

1.一种目标说话者提取系统，包括一个或多个处理器，配置为执行以下操作：目标说话者提取系统接收音频信号的音频帧，目标说话者提取系统包括多说话者检测模型、目标说话者语音活动检测(vad)模型和语音分离模型；通过多说话人检测模型对音频帧进行分析，判断该音频帧是仅包括单个说话人还是包括多个说话人；当音频帧仅包括单个说话者时，将音频帧输入到目标说话者vad模型中，通过将音频帧与目标说话者的声纹进行比较来抑制音频帧中来自非目标说话者的语音；和当音频帧包括多个说话者时，将音频帧输入到语音分离模型中，以将目标说话者的声音与音频帧中的混音分离。2.根据权利要求1所述的系统，其中，所述处理器还被配置为执行以下操作：将音频信号分成多个音频帧。3.根据权利要求1所述的系统，其中，所述处理器还被配置为执行以下操作：目标说话者vad基于抑制比抑制来自非目标说话者的音频帧中的语音。4.如权利要求3所述的系统，其中，所述处理器还被配置为执行以下操作：生成非目标说话者的声纹；将非目标说话者的声纹与目标说话者的声纹进行比较，以确定相似度得分；和根据相似度分数确定抑制率。5.根据权利要求1所述的系统，其中，所述处理器还被配置为执行以下操作：在视频会议之前接收来自目标发言人的录音；从视频会议前的录音中生成目标发言者的声纹；和在视频会议过程中，利用目标发言者提取系统和目标发言者的声纹提取目标发言者的声音。6.根据权利要求1所述的系统，其中，所述处理器还被配置为执行以下操作：分析音频信号以确定音频信号的能量，其中音频信号是在视频会议期间接收的；和根据能量确定目标说话者正在说话，并从音频信号中生成目标说话者的声纹。7.根据权利要求6所述的系统，其中基于所述能量确定所述目标说话者正在说话包括确定所述能量超过阈值。8.根据利要求1所述的系统，其中所述目标说话者提取系统被配置为基于用户界面控制来启用和禁用。9.根据权利要求1所述的系统，其中，所述处理器还被配置为执行以下操作：声纹提取模型生成目标说话者的声纹，其中声纹提取模型与语音分离模型共享一个或多个权重。10.根据利要求1所述的系统，其中，所述多说话者检测模型包括卷积神经网络(cnn)分类器。

技术总结

包括在计算机存储介质上编码的计算机程序的方法、系统和装置涉及一种用于目标说话者提取的方法。目标说话者提取系统接收音频信号的音频帧。多扬声器检测模型分析音频帧以确定音频帧是仅包含单个扬声器还是包含多个扬声器。当所述音频帧只包括单个扬声器，系统输入音频帧到一个目标说话者VAD模型来抑制语音在音频帧中从基于音频帧进行比较，以目标讲话者的声波纹的非目标讲话者。当所述音频帧包括多个扬声器，系统输入音频帧到一个语音分离模型到目标说话人的语音从语音混合物在音频帧分开。开。开。