在包括至少一个人工声源的环境中识别由真实声源产生的至少一种自然发出的声音的方法、相应装置、计算机程序产品和计算机可读载体介质与流程

1.本公开总体涉及音频识别系统的领域。更具体地，本公开涉及允许将由人工声源(例如电视机、无线电接收器等)产生的人工声音与由真实源自然产生的相同类型的声音区分开来的技术。

背景技术：

2.本部分旨在向读者介绍技术的各个方面，这些方面可能与以下描述和/或要求保护的本公开的各个方面有关。该讨论被认为有助于为读者提供背景信息以促进更好地理解本公开的各个方面。因此，应该理解，这些陈述是从这个角度来理解的，而不是承认现有技术。
3.在音频识别领域，一些音频识别系统被专门设计用于识别诸如声、婴儿哭声、玻璃破碎等之类的声音。这些系统与自动语音识别系统不同，因为它们不是被设计用于识别语音而是仅识别声音，这些系统可用于多种应用，例如但不限于家庭安全。
4.这些音频识别系统面临的问题之一是难以区分来自可能存在于实现这些系统的环境中的各种电子设备(如电视机、无线电接收器等)的扬声器的人工发出的声音与自然真实发出的声音。例如，在家庭安全系统领域，如果在家中或周围检测到声或玻璃破碎声，则应通知不在家的用户，但前提是检测到的声音是“真实的”声音，即是否真的开了或玻璃实际上被打碎了。另一方面，例如，如果检测到的声音是电视上播放的电影的音轨的一部分并且当前正在被另一个家庭成员观看，则不应该通知用户。目前，许多现有的音频识别系统在区分真实声音(即自然发出的声音)与装置产生的声音(即人工发出的声音)时效率不高。在家庭安全领域，由此产生的声音事件的错误分类导致生成大量通知终端用户的“误报”，最后终端用户可能对此类安全系统失去信心。
5.为了尝试解决这些缺点，一些现有的解决方案依赖于低电平信号处理技术来处理由一些麦克风捕获的音频信号，目的是消除或至少减少处理后的输出音频信号中的人工声音。更具体地，减法器电路用于从由麦克风捕获的主音频信号中减去人工声音，并且所得信号由声音识别引擎处理。这些解决方案的主要问题是，由于声音在环境中存在的物体和/或结构(例如墙壁)上的反射，麦克风捕获真实声音和人工声音之间的不可预测的混合，该混合不仅是幅度方面的而且是相位和潜在回声方面的。因此，麦克风捕获的声音是反射声音和直接声音的复杂叠加。所有这些声音的幅度和相位都是不可预测的，使得减法很难在减法器电路级别正确执行。因此，此类解决方案需要许多参数调整(例如，设置减法器电路的增益适应系数)，这些调整高度依赖于环境(例如，房间配置、房间中声源的位置、发出一些人工声音的装置的声功率、麦克风的位置和方向等)，最后只能提供较差或混合的结果。
6.因此，希望提供一种技术，该技术将避免现有技术的这些缺点中的至少一些，并且将特别允许以更准确的方式区分人工发出的声音与自然发出的声音。

技术实现要素：

7.根据本公开，公开了一种用于识别由包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音的方法。这种方法由音频识别设备实现，并且包括：
[0008]-同时获得：
[0009]-来自位于所述环境中的第一麦克风的第一音频信号；和
[0010]-来自与所述至少一个人工声源相关联的音频采集设备的第二音频信号；
[0011]-分析所述第一音频信号，传递与在所述第一音频信号中识别的声音相对应的声音类别的第一列表；
[0012]-分析所述第二音频信号，传递与在所述第二音频信号中识别的声音相对应的声音类别的第二列表；
[0013]-传递声音类别的第三列表，其仅包括：被包括在所述声音类别的第一列表中、但不被包括在所述声音类别的第二列表中的声音类别。
[0014]
根据实施例，所述方法还包括：当所述声音类别的第三列表不为空时，向通信终端发送通知。
[0015]
根据实施例，分析所述第一音频信号包括：计算一组参考声音类别上的第一概率分布，其中，所述一组参考声音类别中的每个参考声音类别与分数相关联，该分数表示所述第一音频信号中存在属于该参考声音类别的声音的概率。
[0016]
根据本实施例的补充特征，所述声音类别的第一列表包括关于所述第一概率分布具有大于或等于第一预定阈值的相关联分数的声音类别。
[0017]
根据本实施例的替代补充特征，所述声音类别的第一列表包括第一预定数量n1个声音类别，其对应于关于所述第一概率分布具有最高分数的n1个声音类别。
[0018]
根据实施例，分析所述第二音频信号包括：计算一组参考声音类别上的第二概率分布，其中，所述一组参考声音类别中的每个参考声音类别与分数相关联，该分数表示所述第二音频信号中存在属于该参考声音类别的声音的概率。
[0019]
根据本实施例的补充特征，所述声音类别的第二列表包括关于所述第二概率分布具有大于或等于第二预定阈值的相关联分数的声音类别。
[0020]
根据本实施例的替代补充特征，所述声音类别的第二列表包括第二预定数量n2个声音类别，其对应于关于所述第二概率分布具有最高分数的n2个声音类别。
[0021]
根据实施例，所述音频采集设备是位于所述人工声源附近的第二麦克风。
[0022]
根据本实施例的补充特征，所述第二麦克风是指向所述人工声源的定向麦克风。
[0023]
根据本实施例的替代补充特征，所述音频采集设备以声学隔离的方式连接到所述人工声源的音频输出。
[0024]
本公开还涉及一种音频识别设备，用于识别由包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音。这种音频识别设备包括：
[0025]-第一声音识别引擎，其实现第一机器学习系统，所述第一机器学习系统被配置用于获得和分析由位于所述环境中的第一麦克风提供的第一音频信号，并用于传递与在所述第一音频信号中识别的声音相对应的声音类别的第一列表；
[0026]-第二声音识别引擎，其实现第二机器学习系统，所述第二机器学习系统被配置用于获得和分析由与所述至少一个人工声源相关联的音频采集设备提供的第二音频信号，并
用于传递与在所述第二音频信号中识别的声音相对应的声音类别的第二列表；
[0027]-决策模块，其被配置为分析所述声音类别的第一列表和所述声音类别的第二列表，并用于传递声音类别的第三列表，所述声音类别的第三列表仅包括：被包括在所述声音类别的第一列表(l1)中、但不被包括在所述声音类别的第二列表(l2)中的声音类别。
[0028]
根据另一方面，本公开还涉及一种音频识别系统，用于识别由包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音，所述音频识别系统包括：
[0029]-之前描述的音频识别设备；
[0030]-至少一个麦克风，其向所述第一识别引擎提供第一音频信号；
[0031]-与所述至少一个人工声源相关联的至少一个音频采集设备，其向所述第二识别引擎提供第二音频信号。
[0032]
根据一个实现方式，以上描述的用于识别由包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音的方法的不同步骤由包括软件指令的一个或多个软件程序或软件模块程序实现，这些软件指令旨在由音频识别设备的至少一个数据处理器执行。
[0033]
因此，本公开的另一方面涉及至少一个计算机程序产品，其可从通信网络下载和/或记录在计算机可读和/或处理器可执行的介质上，该至少一个计算机程序产品包括用于实现所描述的方法的程序代码指令。更具体地，该计算机程序产品包括用于命令执行一种方法的不同步骤的指令，该方法用于识别由包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音，如上文提到的。
[0034]
该程序可以使用任何编程语言，并且可以是源代码、目标代码或源代码和目标代码之间的中间代码的形式，例如部分编译的形式或任何其他期望的形式。
[0035]
根据一个实施例，方法/装置可以通过软件和/或硬件组件来实现。在这方面，术语“模块”或“单元”在本文档中可以很好地对应于软件组件和硬件组件、或硬件和软件组件的集合。
[0036]
软件组件对应于一个或多个计算机程序、程序的一个或多个子程序、或更一般地对应于能够实现如下文针对相关模块描述的功能或一组功能的程序或软件的任何元素。这种软件组件由物理实体(终端、服务器等)的数据处理器执行，并且能够访问该物理实体的硬件资源(存储器、记录介质、通信总线、输入/输出电子板、用户界面等)。
[0037]
以同样的方式，硬件组件对应于硬件单元中能够实现如下文针对相关模块描述的功能或一组功能的任何元素。它可以是可编程硬件组件或具有用于执行软件的集成处理器的组件，例如集成电路、智能卡、存储卡、用于执行固件的电子板等。
[0038]
此外，本公开还涉及一种非瞬态计算机可读介质，包括记录在其上并且能够由处理器运行的计算机程序产品，该计算机程序产品包括如上所述用于实现识别包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音的方法的程序代码指令。
[0039]
考虑到在其中存储信息的固有能力以及从其中提供信息检索的固有能力，这里使用的计算机可读存储介质被认为是非瞬态存储介质。计算机可读存储介质可以是例如但不限于电子的、磁性的、光学的、电磁的、红外线的或半导体的系统、装置或设备，或前述的任何合适的组合。应当理解，以下虽然提供了可以应用本原理的计算机可读存储介质的更具体示例，但仅是说明性的而非详尽的列表，如本领域普通技术人员容易理解的：便携式计算
机软盘、硬盘、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、便携式光盘只读存储器(cd-rom)、光存储设备、磁存储设备，或前述的任何合适的组合。
[0040]
应当理解，如所要求保护的，前述一般描述和以下详细描述都是示例性和解释性的，而不是对本公开的限制。
[0041]
还必须理解，说明书中对“一个实施例”或“实施例”的引用表示所描述的实施例可以包括特定的特征、结构或特性，但每个实施例不一定都包括特定的特征、结构或特性。此外，这些短语不一定指相同的实施例。此外，当结合实施例描述特定特征、结构或特性时，认为无论是否明确描述，结合其他实施例影响这种特征、结构或特性是在本领域技术人员的知识范围内。
附图说明
[0042]
本发明的实施例可以参考以下描述和附图得到更好的理解，这些描述和附图以示例的方式给出并且不限制保护范围，其中：
[0043]-图1是用于图示根据本公开的实施例的所提出技术的一般原理的流程图，该技术用于识别由包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音；
[0044]-图2是示出根据本公开实施例的音频识别设备的主要部件的示意图，以及这些部件如何用于区分自然发出的声音和人工发出的声音的示例；和
[0045]-图3是图示根据本公开的实施例的音频识别设备的示例的示意框图，该音频识别设备用于识别由包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音。
[0046]
图中的组件不一定按比例绘制，而是将重点放在图示本公开的原理上。
具体实施方式
[0047]
本公开涉及一种方法，该方法允许识别由包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音，该人工声源可能产生与该真实声源相同类型的声音。换言之，所提出的技术使得以比当前现有系统更准确的方式区分人工发出的声音与自然发出的声音成为可能。“人工发出的声音”在本公开的上下文中被理解为由电子装置(例如电视机、无线电接收器、智能手机、平板电脑等)产生并由一个或多个扬声器发出的声音。相反，“自然发出的声音”不是通过电子装置的扬声器发出的，而是对应于“真实”声音。相同类型的声音可以是人工发出的，也可以是自然发出的。例如，狗叫声如果是由真正有血有肉的狗发出的，则属于“自然发出的声音”类别，但如果它是在电视机上播放的电影的音轨的一部分并显示狗吠，则属于“人工发出的声音”类别。
[0048]
如将在下文中参考附图更全面地描述的那样，在本公开的一个实施例中提出使用两个识别引擎的组合来将源自人工声源的声音事件与可能源自现场或“真实”声源的相同类型的声音事件区分开来。不是试图在识别声音之前通过在减法器电路中使用低电平信号处理技术将主音频信号中的人工发出的声音与自然发出的声音相抵消以在信号电平上进行区分，在本公开中提出了在识别声音之后在更高的和象征性的水平上执行区分。
[0049]
然而，本公开可以以许多替代形式来体现并且不应被解释为限于在此阐述的实施例。因此，尽管本公开可能有各种修改和替代形式，但其特定实施例在附图中以示例的方式
示出并且将在本文中详细描述。然而，应当理解，无意将本公开限制为所公开的特定形式，而是相反，本公开将涵盖落入如由权利要求限定的本公开范围内的所有修改、等同和替代。在附图中，相同或相似的元件在其若干视图中用相同的附图标记表示。
[0050]
尽管没有明确描述，但是可以以任何组合或子组合来采用当前实施例和变体。
[0051]
图1是用于描述根据本公开的实施例的用于识别由包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音的方法的流程图。该方法由音频识别设备实现，该设备将在本文后面的一个实施例中进一步详述，并且包括至少一个处理器，该处理器被适配和配置用于执行下文描述的步骤。
[0052]
在步骤11，音频识别设备同时获得第一音频信号和第二音频信号。同时获得在这里意味着第一和第二音频信号是在大约相同的时刻获得的，即它们对应于对在类似时间范围内发出的一些声音的记录或捕获。
[0053]
从位于环境中的第一麦克风mic获得第一音频信号。第一麦克风旨在捕获人工和自然发出的声音。根据特定特征，第一麦克风mic是全向麦克风，因此能够同样良好地拾取来自各个方向的声音并且具有良好的灵敏度。
[0054]
第二音频信号是从与位于环境中的至少一个人工声源assr相关联的音频采集设备aad获得的。“与......相关联”在此处意味着音频采集设备被设计和/或定位和/或定向以便以特许方式(即，仅或至少主要地)捕获由它所关联的人工声源发出的声音。
[0055]
在实施例中，音频采集设备aad可以采用位于人工声源附近的第二麦克风的形式。例如，这样的第二麦克风可以放置在人工声源的扬声器的五十厘米内。根据特定特征，第二麦克风可以是定向麦克风，其被设计为在一个方向上更灵敏，并且被定向以便准确地获取来自人工声源的声音。来自其他方向的声音，即来自与第二麦克风相关联的人工声源之外的其他源的声音，因此未被第二麦克风捕获或仅较差地被捕获。根据另一实施例，音频采集设备aad可以采用嵌入到音频识别设备中的声音采集接口(例如声音采集卡)的形式，然后可以将人工声源assr的音频输出直接连接到声音采集接口的输入。连接可以是允许传输音频信号的任何连接类型(有线或无线)(例如，通过高清多媒体接口hdmi电缆、toslink光学音频电缆、rca连接器、蓝牙等的连接)。以这种方式，音频采集设备以声学隔离的方式连接到人工声源，使得由音频采集设备采集的唯一声音是来自它所连接的人工声源的声音。
[0056]
在步骤12，分析第一音频信号，以传递与在第一音频信号中识别的声音相对应的声音类别的第一列表l1。
[0057]
在一个实施例中，分析第一音频信号包括计算一组参考声音类别上的第一概率分布，其中该组参考声音类别中的每个参考声音类别与如下分数相关联：该分数表示第一音频信号中存在属于该参考声音类别的声音的概率。例如，一组参考声音类别可以包括以下声音类别：狗叫、婴儿哭、尖叫、玻璃破碎、砰门、击。作为对第一音频信号的分析的结果，计算的第一概率分布的示例可以是：尖叫-44％，婴儿哭-40％，狗吠-7％，玻璃破碎-4％，砰门-3％，击-2％。然后可以使用计算的第一概率分布来构建在步骤12传递的声音类别的第一列表l1。根据特定特征，声音类别的第一列表l1包括，关于第一概率分布，相关联分数大于或等于第一预定阈值的声音类别。例如，在该组参考声音类别中，只有相关联分数大于或等于40％的声音类别可以被包括在声音类别的第一列表l1中。回到前面的第一概率分布的示例，第一列表l1于是将包含两个声音类别：尖叫声类别和婴儿哭声类别。根据替代特定
特征，声音类别的第一列表l1包括第一预定数量n1个声音类别，其对应于关于第一概率分布具有最高分数的n1个声音类别。例如，在该组参考声音类别中，只有具有最高分数的声音类别可以被包括在声音类别的第一列表(n1＝1)中。回头参考第一概率分布的先前说明性示例，第一列表l1然后将仅包含一个声音类别，即尖叫声音类别。
[0058]
在步骤13，分析第二音频信号，以传递与在第二音频信号中识别的声音相对应的声音类别的第二列表l2。
[0059]
可以实施与先前关于步骤12描述的技术和/或实施例类似的技术和/或实施例来分析第二音频信号。因此，在一个实施例中，分析第二音频信号包括计算一组参考声音类别上的第二概率分布，其中该组参考声音类别中的每个参考声音类别与如下分数相关联：该分数表示第二音频信号中存在属于该参考声音类别的声音的概率。该组参考声音类别与步骤12中使用的类别相同(或至少包括公共元素)。然后可以使用第二计算的概率分布来构建在步骤13传递的声音类别的第二列表l2。根据特定特征，以与先前关于步骤12描述的方式类似的方式，声音类别的第二列表l2包括，关于第二概率分布，具有大于或等于第二预定阈值的相关联分数的声音类别。根据替代的特定特征，声音类别的第二列表l2包括第二预定数量n2个声音类别，其对应于关于第二概率分布的具有最高分数的n2个声音类别。
[0060]
声音类别的第一列表l1和声音类别的第二列表l2可以使用相同的技术来构建，即两者都是通过保留大于或等于某些预定阈值的声音类别来构建的，或者两者都是通过保留具有最高分数的某些预定数量的声音类别来构建的。在这种情况下，根据所使用的技术，第二预定阈值可以具有与第一预定阈值相同的值，或者第二预定声音类别数量n2可以具有与第一预定声音类别数量n1相同的值。然而，根据另一特征，第二预定阈值可以具有与第一预定阈值不同的值，或者第二预定数量n2个声音类别可以具有与第一预定数量n1个声音类别不同的值。实际上，因为在一些实施例中可以以声学隔离的方式捕获第二音频信号，所以可以认为它比第一音频信号噪声小，这可以解释可以使用声音类别的阈值或预定数量的不同值来根据声音类别的第一列表l1和声音类别的第二列表l2各自的第一和第二概率分布计算声音类别的第一列表l1和声音类别的第二列表l2。
[0061]
在另一实施例中，声音类别的第一列表l1和声音类别的第二列表l2可以使用不同的技术来构建，即，一个技术是通过保持大于或等于预定阈值的声音类别来构建的，而另一技术是通过保持具有最高分数的预定数量的声音类别来构建的。
[0062]
在步骤14，分析声音类别的第一列表l1和声音类别的第二列表l2，并从第一列表l1和第二列表l2构建声音类别的第三列表l3。更具体地，比较第一列表l1和第二列表l2，以传递声音类别的第三列表l3，第三列表l3仅包括：被包括在声音类别的第一列表li中、但不被包括在声音类别的第二列表l2中的声音类别。换言之，将与在第二音频信号中检测到的人工发出的声音相对应的声音类别从与在第一音频信号中检测到的声音相对应的声音类别的列表中移除。这样，声音类别的第三列表l3对应于声音类别的过滤列表，该列表仅包括与自然发出的声音相对应的声音类别。例如，如果声音类别的第一列表l1包括两个声音类别“狗吠”和“婴儿哭”，并且如果声音类别的第二列表l2仅包括一个声音类别“狗吠”，则生成的声音类别的第三列表l3将仅包括一个声音类别“婴儿哭”。因此，所提出的技术提供了一种将人工发出的声音与自然发出的声音区分开来的解决方案，该解决方案与声源在房间中的位置完全无关，并且不需要任何参数调整。
[0063]
根据一个实施例，可以执行可选步骤15，包括当声音类别的第三列表l3不为空时，向至少一个通信终端发送通知。通信终端例如可以是智能手机或平板电脑。这样的通知可以采取例如、短消息文本(sms)、推送通知或其他形式的形式，并且当用户可能有兴趣在他不在家时被通知他家中或附近发生的异常声音事件(在一组参考声音类别中识别)时，它可能在(但不限于)家庭安全领域特别有用。
[0064]
根据另一方面，并且如在一个实施例中关于图2示意性地示出的，本公开还涉及一种音频识别设备，用于识别由包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音。这样的音频识别设备20包括第一声音识别引擎21、第二声音识别引擎22和决策模块23。作为示例实现方式，第一声音识别引擎21、第二声音识别引擎22和决策模块23可以集成在独立的音频识别设备中，该设备配备有到机顶盒的直接连接，机顶盒本身通过hdmi端口连接到电视机，从而获得电视机上显示的当前电视节目的音轨。
[0065]
第一声音识别引擎21和第二声音识别引擎22可以各自实现被配置用于获得和分析音频信号的机器学习系统。更具体地，根据实施例，第一声音识别引擎21的机器学习系统和第二声音识别引擎22的机器学习系统是分类器，该分类器被训练来关于一组参考声音类别中的声音类别对分别在第一音频信号和第二音频信号中检测到的声音进行分类。这些分类器可能依赖于各种类型的分类算法(朴素贝叶斯、最近邻、人工神经网络、决策树等)。在一个实施例中，可以仅使用一个机器学习系统来处理第一音频信号和第二音频信号，在这种情况下，第一和第二音频信号贝同时获得，但是它们由相同的机器学习分类器一个接一个地处理。通过比较分类过程的结果，即声音类别的第一列表l1和声音类别的第二列表l2，决策模块23然后能够做出仅向用户发信号通知自然发出的声音的决定(例如，以声音类别的第三列表l3的形式)。
[0066]
音频识别设备20可以是音频识别系统的一部分，音频识别系统还包括：至少一个麦克风，用于将第一音频信号提供给第一识别引擎；以及至少一个与至少一个人工声源相关联的音频采集设备，用于将第二音频信号提供给第二识别引擎。根据实施例，麦克风和/或音频采集设备可以嵌入在音频识别设备20中。
[0067]
图3示出了图示根据本发明的实施例的音频识别设备300的示例的示意框图，该音频识别设备300用于识别由包括至少一个人造声源的环境中的真实声源产生的至少一种自然发出的声音。在实施例中，这样的设备300可以是可以连接到至少一个人工声源(包括如下源：该源不一定包括扬声器但能够在音频输出插孔上产生音频信号)的独立设备，例如电视机、无线电接收器或机顶盒。
[0068]
设备300包括通过总线306连接的处理器301、存储单元302、输入设备303、输出设备304和接口单元305。当然，设备300的组成元件可以通过如下连接进行连接：该连接不同于使用总线306的总线连接。
[0069]
处理器301控制音频识别设备300的操作。存储单元302存储要由处理器301执行的至少一个程序以及各种数据，这些数据包括例如由处理器301执行的计算所使用的参数、由处理器301执行的计算的中间数据，例如分别由嵌入在设备300内的第一和第二声音识别引擎产生的声音类别的列表等。处理器301由任何已知且合适的硬件、或软件、或硬件和软件的组合形成。例如，处理器301由诸如处理电路的专用硬件形成，或者由执行存储在其存储器中的程序的诸如cpu(中央处理单元)的可编程处理单元形成。
[0070]
存储单元302由能够以计算机可读方式存储程序、数据等的任何合适的存储器或装置形成。存储单元302的示例包括非瞬态计算机可读存储介质，例如半导体存储器设备，以及加载到读写单元中的磁、光或磁光记录介质。根据之前描述的本公开的实施例，该程序使处理器301执行用于根据输入数据识别由包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音的方法。更具体地，该程序使处理器301根据第一音频信号和第二音频信号计算声音类别的中间列表以提供给决策模块，从而可以执行对至少一种自然发出的声音的识别。
[0071]
输入设备303例如由麦克风形成。
[0072]
输出设备304例如由处理单元形成，该处理单元被配置为根据在第一和第二音频信号内识别的声音做出决定。
[0073]
接口单元305提供音频识别设备300和外部装置之间的接口。接口单元305一般为声音采集接口，可以通过有线或无线方式与外部装置进行通信。例如，外部装置可以是机顶盒或电视机。
[0074]
尽管在图3中仅示出了一个处理器301，但必须理解的是，这种处理器可以包括体现根据本公开实施例的设备300执行的功能的不同模块和单元，例如之前关于图2描述的单元：
[0075]-第一声音识别引擎，其实现第一机器学习系统，该第一机器学习系统被配置为获得和分析由位于音频识别设备环境中的第一麦克风提供的第一音频信号，并且用于传递与在第一音频信号中识别的声音相对应的声音类别的第一列表；
[0076]-第二声音识别引擎，其实现第二机器学习系统，该第二机器学习系统被配置为获得和分析由与位于音频识别设备环境中的至少一个人工声源相关联的音频采集设备提供的第二音频信号，并且用于传递与在第二音频信号中识别的声音相对应的声音类别的第二列表；
[0077]-决策模块，被配置为传递声音类别的第三列表，该第三列表仅包括：被包括在声音类别的第一列表中、但不被包括在声音类别的第二列表中的声音类别。
[0078]
这些模块和单元也可以体现在几个相互通信和协作的处理器301中。
[0079]
尽管已经参照示例性实施例描述了本公开，但是应当理解，本公开可以以各种形式实施，并且不限于上述讨论的示例。更具体地，实现音频识别设备的环境可以包括多于一个的人工声源。然后可以使用具有多个音频输入的多个音频采集设备和/或一个音频采集设备并将其与各种人工声源相关联，从而可以获得和分析由每个人工声源产生的音频信号。在实施例中，所提出的技术因此不限于获得和分析两个音频信号，即包括自然和人工发出的声音的混合的第一音频信号和仅包括人工发出的声音的第二音频信号。特别地，包括人工发出的声音的多个音频信号可以由一个或多个机器学习系统处理，以确保在区分自然发出的声音和人工发出的声音时考虑环境中存在的任何人工声源。

技术特征：

1.一种用于识别至少一种自然发出的声音的方法，所述声音由包括至少一个人工声源(assr)的环境中的真实声源产生，所述方法由音频识别设备实现，其中，所述方法包括：-同时获得(11)：-来自位于所述环境中的第一麦克风(mic)的第一音频信号；和-来自与所述至少一个人工声源相关联的音频采集设备(aad)的第二音频信号；-分析(12)所述第一音频信号，并传递与在所述第一音频信号中识别的声音相对应的声音类别的第一列表(l1)；-分析(13)所述第二音频信号，并传递与在所述第二音频信号中识别的声音相对应的声音类别的第二列表(l2)；-传递(14)声音类别的第三列表(l3)，所述声音类别的第三列表(l3)仅包括：被包括在所述声音类别的第一列表(l1)中、但不被包括在所述声音类别的第二列表(l2)中的声音类别。2.根据权利要求1所述的方法，其中，所述方法还包括：当所述声音类别的第三列表(l3)不为空时，向通信终端发送(15)通知。3.根据权利要求1所述的方法，其中，分析所述第一音频信号包括：计算一组参考声音类别上的第一概率分布，其中，所述一组参考声音类别中的每个参考声音类别与分数相关联，该分数表示在所述第一音频信号中存在属于该参考声音类别的声音的概率。4.根据权利要求3所述的方法，其中，所述声音类别的第一列表包括关于所述第一概率分布具有大于或等于第一预定阈值的相关联分数的声音类别。5.根据权利要求3所述的方法，其中，所述声音类别的第一列表包括第一预定数量n1个声音类别，其对应于关于所述第一概率分布具有最高分数的n1个声音类别。6.根据权利要求1所述的方法，其中，分析所述第二音频信号包括：计算一组参考声音类别上的第二概率分布，其中，所述一组参考声音类别中的每个参考声音类别与分数相关联，该分数表示在所述第二音频信号中存在属于该参考声音类别的声音的概率。7.根据权利要求6所述的方法，其中，所述声音类别的第二列表包括：关于所述第二概率分布具有大于或等于第二预定阈值的相关联分数的声音类别。8.根据权利要求6所述的方法，其中，所述声音类别的第二列表包括第二预定数量n2个声音类别，其对应于关于所述第二概率分布具有最高分数的n2个声音类别。9.根据权利要求1所述的方法，其中，所述音频采集设备(aad)是位于所述人工声源(assr)附近的第二麦克风。10.根据权利要求9所述的方法，其中，所述第二麦克风是指向所述人工声源的定向麦克风。11.根据权利要求1所述的方法，其中，所述音频采集设备(aad)以声学隔离的方式连接到所述人工声源(assr)的音频输出。12.一种音频识别设备(20)，用于识别由包括至少一个人工声源(assr)的环境中的真实声源产生的至少一种自然发出的声音，其中，所述音频识别设备(20)包括：-第一声音识别引擎(21)，其实现第一机器学习系统，所述第一机器学习系统被配置用于获得和分析由位于所述环境中的第一麦克风提供的第一音频信号，并用于传递与在所述第一音频信号中识别的声音相对应的声音类别的第一列表(l1)；
‑
第二声音识别引擎(22)，其实现第二机器学习系统，所述第二机器学习系统被配置用于获得和分析由与所述至少一个人工声源相关联的音频采集设备提供的第二音频信号，并用于传递与在所述第二音频信号中识别的声音相对应的声音类别的第二列表(l2)；-决策模块(23)，其被配置为传递声音类别的第三列表(l3)，所述声音类别的第三列表(l3)仅包括：被包括在所述声音类别的第一列表(l1)中、但不被包括在所述声音类别的第二列表(l2)中的声音类别。13.一种音频识别系统，用于识别由包括至少一个人工声源的环境中的真实声源产生的至少一种自然发出的声音，其中，所述音频识别系统包括：-根据权利要求12所述的音频识别设备(20)；-至少一个麦克风(mic)，其向所述第一识别引擎提供第一音频信号；-与所述至少一个人工声源(assr)相关联的至少一个音频采集设备(add)，其向所述第二识别引擎提供第二音频信号。14.一种计算机程序产品，其能从通信网络下载和/或记录在计算机可读和/或处理器可执行的介质上，所述计算机程序产品包括用于实现根据权利要求1至11中任一项所述的方法的程序代码指令。15.一种非瞬态计算机可读介质，包括记录在其上并且能够由处理器运行的计算机程序产品，该计算机程序产品包括用于实现根据权利要求1至11中任一项所述的方法的程序代码指令。

技术总结

本公开涉及一种用于识别至少一种自然发出的声音的方法，该声音由包括至少一个人工声源(ASSr)的环境中的真实声源产生。所述方法由音频识别设备实现，并且包括：同时获得(11)来自位于所述环境中的第一麦克风(MIC)的第一音频信号和来自与所述至少一个人工声源相关联的音频采集设备(AAD)的第二音频信号；分析(12)所述第一音频信号，传递与在所述第一音频信号中识别的声音相对应的声音类别的第一列表(L1)；分析(13)所述第二音频信号，传递与在所述第二音频信号中识别的声音相对应的声音类别的第二列表(L2)；传递(14)声音类别的第三列表(L3)，其仅包括：被包括在所述声音类别的第一列表(L1)中、但不被包括在所述声音类别的第二列表(L2)中的声音类别。第二列表(L2)中的声音类别。第二列表(L2)中的声音类别。