使用低功率加速度计进行声音活动检测的制作方法

1.本公开针对用于检测声音活动的设备和方法。

背景技术：

2.许多音频耳机，诸如真正的无线立体声(tws)耳机和游戏耳机，除了播放音频之外，还检测用户的声音。例如，许多tws耳机既可用作用于电话呼叫的电话耳机，也可用作播放媒体(例如，音乐)的音频播放设备。
3.在检测用户声音时，用户声音的质量往往会受到环境噪声的影响。为了将环境噪声对用户声音的影响最小化，许多耳机包括声音活动检测(vad)来检测人类语音的存在或不存在，并且响应于检测到人类语音的存在，执行噪声消除或抑制技术。结果，在例如电话呼叫期间，用户的声音质量被改进。

技术实现要素：

4.本公开针对用于执行声音活动检测(vad)来检测人类语音的存在或不存在的设备和方法。代替使用麦克风和/或骨传导加速度计来执行vad，设备和方法使用低功率加速度计。设备和方法使用加速度计生成加速度信号；利用带通滤波器或高通滤波器对加速度信号进行滤波；确定经滤波的加速度信号的至少一个计算；以及基于至少一个计算来检测声音的存在或不存在。
5.与使用麦克风和/或骨传导加速度计来执行vad的音频设备相比，本文所公开的设备的总电流消耗被显著降低。因此，本文所公开的设备和方法非常适合于具有有限电源的便携式音频设备，诸如真正的无线立体声耳机。
附图说明
6.在附图中，相同的附图标记标识相同的特征或元素。附图中特征的尺寸和相对位置不一定按比例绘制。
7.图1是根据本文所公开的实施例的设备的框图。
8.图2是根据本文所公开的实施例的检测语音的存在或不存在的方法的流程图。
9.图3示出了根据本文所公开的实施例的加速度信号和经滤波的加速度信号。
10.图4是根据本文所公开的实施例的决策树。
具体实施方式
11.在以下描述中，阐述了某些特定细节来提供对所公开主题的各个方面的透彻理解。然而，所公开的主题可以在没有这些具体细节的情况下实践。在一些情况下，没有详细描述制造电子设备和传感器的众所周知的机器学习技术和结构和方法，以避免混淆本公开的其他方面的描述。
12.除非上下文另有要求，否则在所附说明书和权利要求书中，词语“包括
(comprise)”及其变型(诸如“comprises”和“comprising”)应以开放、包括性的意义来解释，即“包括，但不限于”。
13.在整个说明书中对“一个实施例”或“实施例”的引用意味着结合实施例描述的特定特征、结构或特性被包括在至少一个实施例中。因此，在整个说明书的各个地方出现的短语“在一个实施例中”或“在实施例中”不一定指代相同的方面。此外，特定特征、结构或特性可以在本公开的一个或多个方面以任何合适的方式组合。
14.如上所述，许多音频耳机包括声音活动检测(vad)来检测人类语音的存在或不存在。音频耳机通常使用麦克风和/或骨传导加速度计来实现vad。例如，麦克风可以将用户的声音检测为通过空气传播的声学信号，并通过骨传导加速度计检测为通过人体传播的骨振动信号(例如，通过下颌或耳道的骨骼和组织振动)。所检测的声学信号和骨振动信号使用例如时分复用(tdm)来同步。音频耳机然后基于经同步的声学信号和骨振动信号来检测用户声音的存在或不存在。
15.利用麦克风和/或骨传导加速度计的vad技术通常涉及以高速率处理针对所检测的声学信号和骨振动信号的大量数据。例如，麦克风和骨传导加速度计中的每一个可以具有介于2千赫兹至32千赫兹之间的数据速率，并且微控制器可以每1毫秒处理一次数据。因此，vad技术消耗大量功率，并且因此通常不适用于具有有限电源的便携式音频设备，诸如真正的无线立体声(tws)耳机。例如，麦克风的功耗通常在120微安到700微安之间，骨传导加速度计的功耗通常在1.68毫安到3.3毫安之间，而用于控制麦克风和骨传导加速度计的微控制器的功耗通常在3毫安到5毫安之间。
16.本公开涉及用于执行vad的设备和方法。人类语音的存在或不存在使用低成本、低功率的加速度计代替当前音频耳机中使用的麦克风和/或骨传导加速度计来检测。结果，与使用麦克风和/或骨传导加速度计用于vad的设备相比，本文所公开的设备的总电流消耗被显著降低。因此，本文所公开的设备和方法非常适用于便携式音频设备，诸如tws耳机。
17.图1是根据本文所公开的实施例的设备10的框图。设备10可以是检测用户声音的任何类型的音频耳机。例如，设备10可以是tws耳机、游戏耳机、电话耳机等。设备10包括处理单元12、加速度计14和骨传导加速度计16。设备10还可以包括其他组件，诸如用于捕获声音信号的麦克风。
18.处理单元12例如是控制和处理设备10的各种功能的处理器、控制器、信号处理器或微控制器。处理单元12控制和协调设备10的硬件组件(例如，加速度计14和骨传导加速度计16)以及设备10的任何特征或应用(例如，计步器、手势识别、活动识别、轻敲检测等)。处理单元12还收集和处理来自设备10的硬件组件的数据(例如，由麦克风生成的声学信号、由骨传导加速度计16生成的骨振动信号以及由加速度计14生成的加速度信号)。
19.加速度计14被通信地耦合到处理单元12。加速度计14测量设备10的加速度，并生成指示所测量的加速度的加速度信号。加速度计14包括被配置为测量设备10沿至少一个轴的加速度的感测电路装置。在一个实施例中，加速度计测量沿三个轴的加速度。如将在下文进一步详细讨论的，加速度计14还包括控制或处理电路装置，控制或处理电路装置被配置为在骨振动信号传播通过人体(例如，通过颌或耳道的骨和组织振动)时，检测用户的声音以用于vad。
20.骨传导加速度计16被通信地耦合到处理单元12。在另一实施例中，骨传导加速度
计16被通信地耦合到加速度计14。骨传导加速度计16类似于加速度计14。例如，骨传导加速度计图16测量设备10的加速度，并生成指示所测量的加速度的加速度信号。然而，与加速度计14相比，骨传导加速度计16专用于在骨振动信号传播通过人体时，检测用户的声音。骨传导加速度计16以高速率(例如，在2khz至32khz之间)处理数据，并且通常包括tdm接口，以例如与麦克风所检测的声学信号同步。因此，如上所述，骨传导加速度计16消耗大量功率(例如，消耗在1.68毫安和3.3毫安之间)。
21.相比之下，加速度计14是既低成本又低功率的常规加速度计。加速度计14不是专用于在骨振动信号传播通过人体时检测用户的声音的骨传导加速度计。相反，加速度计14被用于实现设备10的其他应用，诸如计步器、手势识别、活动识别和轻敲检测。与骨传导加速度计16相比，加速度计14具有低数据速率并且不消耗大量功率。例如，加速度计14可以具有600赫兹和1000赫兹之间的数据速率，并且消耗150微安和200微安之间的电流。
22.加速度计14本身检测人类语音的存在或不存在。换言之，用于执行vad的步骤或操作直接在加速度计14的硬件(例如，控制或处理电路装置)中实现。因此，不需要单独的、专用微控制器来执行vad。附加地，在一些实施例中，骨传导加速度计16可以在不使用时关断或者甚至从设备10中移除。
23.图2是根据本文所公开的实施例的检测语音的存在或不存在的方法18的流程图。
24.在框20中，加速度计14测量设备10的加速度，并且生成指示所测量的加速度的加速度信号。
25.加速度信号指示由用户的声音引起的传播通过人体的骨振动信号(例如，通过下颌或耳道的骨骼和组织振动)。如上所述，加速度计14可以测量沿单个轴或多个轴的加速度。
26.在框22中，加速度计14对框20中生成的加速度信号应用滤波器，并且生成经滤波的加速度信号。
27.加速度计14将滤波器应用于加速度信号，以去除有声语音的频率范围之外的频率。典型成年男性的有声语音基频在85赫兹至180赫兹之间，而典型成年女性的有声语音基频在165赫兹至255赫兹之间。因此，加速度计14可以应用具有例如85赫兹的截止频率的高通滤波器来去除有声语音的频率范围之外的频率。备选地，加速度计14可以应用具有例如85赫兹至255赫兹的截止频率的带通滤波器。结果，在框22中生成的经滤波的加速度信号指示由用户声音引起的振动信号的加速度测量，而不是由周围环境或用户移动引起的振动信号。
28.图3示出了根据本文所公开的实施例的加速度信号24和经滤波的加速度信号26。在图3所示的实施例中，用户同时走路和说话。横轴表示时间(秒)，并且纵轴表示加速度(milli-g)。
29.加速度信号24例如是在框20中生成的加速度信号，并且经滤波的加速度信号26是在框22中应用滤波器之后的加速度信号24。在图3所示的实施例中，具有85赫兹的截止频率的高通滤波器被应用于加速度信号24。如上所述，经滤波的加速度信号26表示由用户声音引起的振动信号的加速度测量值，因为有声语音的频率范围之外的频率(在该示例中是低于85赫兹的频率)被滤波器从加速度信号24中移除。如图3所示，经滤波的加速度信号26包括指示有声语音的许多特征(例如，峰值、过零等)。
30.返回到图2，在框28中，加速度计14从框22中生成的经滤波的加速度信号(例如，图3中的经滤波的加速度信号26)中提取特征。
31.所提取的特征是指示人类语音的经滤波的加速度测量值的区别特征。在一个实施例中，特征在时域中从经滤波的加速度信号中提取。例如，加速度计14确定以下计算中的至少一个：峰值间计算(例如，经滤波的加速度信号在一个时间段内的最大振幅和最小振幅之间的差)、过零计算(例如，经滤波的加速度信号在一个时间段内过零的次数)、峰值计数计算(例如，经滤波后的加速度信号在一个时间段内的峰值总数)或方差计算(例如，经滤波的加速度信号在一个时间段内的方差)。其他类型的计算也是可能的。
32.在一个实施例中，特征在经滤波的加速度信号的时间窗内提取，该时间窗基于vad算法(例如，方法18)的期望最小等待时间而定义。例如，特征可以在经滤波的加速度信号的0.1秒的时间窗内计算。
33.在框30中，加速度计14基于在框28中提取的特征，将经滤波的加速度信号分类为人类语音或非人类语音。换言之，加速度计14通过检测经滤波的加速度信号，以及进而加速度信号是否是语音信号来检测用户声音的存在或不存在。
34.加速度计14使用机器学习方法来将经滤波的加速度信号分类为人类语音或非人类语音。在一个实施例中，加速度计14使用决策树、神经网络和支持向量机中的至少一个来将经滤波的加速度信号分类为人类语音或非人类语音。其他机器学习技术也是可能的。
35.学习机/推理机可能属于机器学习、人工智能、人工神经网络(ann)、概率推理引擎、加速器等技术名称。分类问题(诸如vad和其他信号处理应用)受益于学习机/推理机的使用，诸如深度卷积神经网络(dcnn)、模糊逻辑机等。例如，dcnn是处理大量数据并通过合并数据内最近相关的特征、对数据进行广泛预测并基于可靠的结论和新的合并改进预测来自适应地“学习”的基于计算机的工具。dcnn被布置在多个“层”中并且不同类型的预测在每个层处进行。
36.在一个实施例中，加速度计14沿设备10的不同轴提取不同特征，并且利用决策树，基于沿不同轴提取的特征来将经滤波的加速度信号分类为人类语音或非人类语音。例如，在框28中，加速度计14在选定时间窗(例如，60毫秒)内确定经滤波的加速度信号沿设备10的z轴的第一峰值间计算、经滤波的加速度信号沿设备10的x轴的第二峰值间计算以及经滤波的加速度信号沿设备10的y轴的过零计算。随后，在框30中，加速度计将使用决策树，基于第一峰值间计算、第二峰值间计算和过零计算，将加速度信号分类为人类语音或非人类语音。图4是根据本文所公开的实施例的决策树32。
37.在框34中，加速度计14确定第一峰值间计算是否大于第一阈值。如果第一峰值间计算大于第一阈值，则决策树32移动到框36。如果第一峰值间计算不大于(即，小于或等于)第一阈值，则决策树32移动到框38。
38.在框38中，加速度计14确定经滤波的加速度信号不是人类语音。
39.在框36中，加速度计14确定第二峰值间计算是否大于第二阈值。如果第二峰值间计算大于第二阈值，则决策树32移动到框40。如果第二峰值间计算不大于(即，小于或等于)第二阈值，则决策树32移动到框42。
40.在框40中，加速度计14确定经滤波的加速度信号不是人类语音。
41.在框42中，加速度计14确定过零计算是否大于第三阈值。如果过零计算大于第三
阈值，则决策树32移动到框44。如果过零计算不大于(即，小于或等于)第三阈值，则决策树32移动到框46。
42.在框44中，加速度计14确定经滤波的加速度信号是人类语音。
43.在框46中，加速度计14确定经滤波的加速度信号不是人类语音。
44.第一阈值、第二阈值和第三阈值可以被设置为任何值。此外，尽管沿决策树32中的三个轴使用峰值间计算和过零计算，但是可以使用沿任意数量的轴在框28中提取的任何类型的特征(例如，峰值间计算、过零计算、峰值计数计算、方差计算等)。
45.返回到图2，在框48中，加速度计14使用元分类器来对框30中的经滤波的加速度信号的分类进行滤波。加速度计14处理经滤波的加速度信号的分类来去除或减少误报或漏报。
46.在一个实施例中，加速度计14通过保持第一计数值，来减少经滤波的加速度信号是人类语音的错误检测。第一计数值是加速度计14将经滤波的加速度信号分类为人类语音的总次数。当总数等于或大于第一阈值计数值时，加速度计14确定经滤波的加速度信号为人类语音。
47.在一个实施例中，加速度计14通过保持第二计数值，来减少经滤波的加速度信号不是人类语音的错误检测。第二计数值是加速度计14将经滤波的加速度信号分类为不是人类语音的总次数。当总数等于或大于第二阈值计数值时，加速度计14确定经滤波的加速度信号不是人类语音。
48.框48也可以从方法18中去除(即，不执行)，以减少方法18的等待时间。
49.在框50中，加速度计14输出方法18的检测结果。例如，加速度计14向处理单元12输出指示存在人类语音(即，经滤波的加速度信号是语音信号)或人类语音不存在(即，经滤波的加速度信号不是语音信号)的检测信号。
50.在方法18包括框48的实施例中，在加速度计14将经滤波的加速度信号分类为人类语音的总次数等于或大于第一阈值计数值的情况下，加速度计14输出指示存在人类语音的检测信号。相反，在加速度计14将经滤波的加速度信号分类为不是人类语音的总次数等于或大于第二阈值计数值的情况下，加速度计14输出指示不存在人类语音的检测信号。
51.在方法18不包括框48的实施例中，在框30中加速度计14将经滤波的加速度信号分类为人类语音的情况下，加速度计14输出指示存在人类语音的检测信号。相反地，在框30中加速度计14未将经滤波的加速度信号分类为人类语音的情况下，加速度计14输出指示不存在人类语音的检测信号。
52.在一个实施例中，处理单元12基于从加速度计14接收的检测信号来将骨传导加速度计16激活或停用。例如，处理单元12在检测信号指示人类语音存在的情况下，将骨传导加速度计16激活，并且在检测信号指示人类语音不存在的情况下，将骨传导加速度计16停用。因此，当骨传导加速度计16在检测到人类语音时被激活而不是被连续导通时，可以降低设备10的功耗。在另一实施例中，在不需要来自处理单元12的干预的情况下，加速度计14将骨传导加速度计16直接激活或停用。
53.如上所述，用于执行检测人类语音的存在或不存在的方法18的程序或算法在加速度计14的硬件中直接实现。然而，用于执行方法18的程序或算法可以在设备10内的若干不同位置处实现。例如，用于执行方法18的程序或算法可以在处理单元12而不是加速度计14
中实现。在该实施例中，处理单元12被配置为如以上关于图2描述的检测语音的存在或不存在。例如，处理单元12可以接收在方法18的框20中生成的加速度信号，并且随后执行框22、28、30、48和50。处理单元12还被配置为接收和处理来自骨传导加速度计16和设备10中包括的任何其他组件的加速度信号。
54.本文所公开的各种实施例提供了用于检测人类语音的存在或不存在的设备和方法。设备和方法利用低功率、低成本的加速度计来执行vad。结果，与使用麦克风和/或骨传导加速度计用于vad的设备相比，本文所公开的设备的总电流消耗被显著降低。因此，本文所公开的设备和方法非常适合于具有有限电源的便携式音频设备，诸如tws耳机。
55.上述各种实施例可以被组合来提供进一步的实施例。可以根据以上详细描述对实施例进行这些和其他改变。一般而言，在所附权利要求中，所使用的术语不应被解释为将权利要求限制为在说明书和权利要求中公开的特定实施例，而应被解释为包括所有可能的实施例以及权利要求所要求保护的等同物的全部范围。因此，权利要求不受本公开内容的限制。

技术特征：

1.一种设备，包括：加速度计，被配置为：测量所述设备的第一加速度，并且基于所测量的第一加速度来生成第一加速度信号；将滤波器应用于所述第一加速度信号；确定经滤波的第一加速度信号的至少一个特性；基于所述至少一个特性来检测所述第一加速度信号是否为语音信号；以及输出指示所述第一加速度信号是否为语音信号的检测信号；以及操作系统层，被配置用于接收所述检测信号。2.根据权利要求1所述的设备，还包括：骨传导加速度计，其被配置为测量所述设备的第二加速度，并且基于所测量的第二加速度来生成第二加速度信号。3.根据权利要求2所述的设备，其中所述操作系统层被配置为基于所述检测信号，将所述骨传导加速度计激活或停用。4.根据权利要求2所述的设备，其中所述骨传导加速度计消耗比所述加速度计更大的电流量。5.根据权利要求1所述的设备，其中所述至少一个特性包括峰值间计算、过零计算、峰值计数计算或方差计算中的至少一项。6.根据权利要求1所述的设备，其中所述加速度计被配置为：确定指示所述加速度计检测到所述第一加速度信号为语音信号的总次数的第一计数值，在所述第一计数值等于或大于第一阈值计数值的情况下，所述检测信号指示所述第一加速度信号是语音信号；或者确定指示所述加速度计检测到所述第一加速度信号不是语音信号的总次数的第二计数值，在所述第二计数值等于或大于第二阈值计数值的情况下，所述检测信号指示所述第一加速度信号不是语音信号。7.根据权利要求1所述的设备，其中所述滤波器是带通滤波器或高通滤波器。8.根据权利要求1所述的设备，其中所述加速度计通过使用决策树、神经网络或支持向量机中的至少一项来检测所述第一加速度信号是否是语音信号。9.根据权利要求1所述的设备，其中所述至少一个特性包括峰值间计算和过零计算，并且所述加速度计通过使用决策树来检测所述第一加速度信号是否是语音信号。10.一种设备，包括：感测电路装置，被配置为生成加速度信号；以及处理电路装置，被配置为：对所述加速度信号进行滤波；确定经滤波的加速度信号的至少一个特性，所述至少一个特性包括峰值间计算、过零计算、峰值计数计算或方差计算中的至少一项；基于所述至少一个特性，检测语音的存在；以及输出指示所述语音的存在的检测信号。11.根据权利要求10所述的设备，其中所述设备是加速度计。12.根据权利要求10所述的设备，其中所述至少一个特性包括峰值间计算和过零计算。
13.根据权利要求10所述的设备，其中所述处理电路装置被配置为：确定指示所述处理电路装置检测到语音存在的总次数的第一计数值，在所述第一计数值等于或大于第一阈值计数值的情况下，所述检测信号指示所述语音的存在；或者确定指示所述处理电路装置检测到语音不存在的总次数的第二计数值，在所述第二计数值等于或大于第二阈值计数值的情况下，所述检测信号指示所述语音不存在。14.根据权利要求10所述的设备，其中所述加速度信号利用带通滤波器或高通滤波器进行滤波。15.根据权利要求10所述的设备，其中所述处理电路装置通过使用决策树、神经网络或支持向量机中的至少一项来检测所述语音的存在。16.根据权利要求10所述的设备，其中所述至少一个特性包括峰值间计算和过零计算，并且所述处理电路装置使用决策树来检测所述语音的存在。17.一种方法，包括：生成加速度信号；使用带通滤波器或高通滤波器对所述加速度信号进行滤波；确定经滤波的加速度信号的至少一个计算，所述至少一个计算包括峰值间计算、过零计算、峰值计数计算或方差计算中的至少一个；基于所述至少一个计算来检测语音的存在或不存在；以及输出指示所述语音的存在或不存在的检测信号。18.根据权利要求17所述的方法，其中所述生成、滤波、确定、检测和输出由加速度计来执行。19.根据权利要求17所述的方法，还包括：确定指示检测到语音存在的总次数的第一计数值，在所述第一计数值等于或大于第一阈值计数值的情况下，所述检测信号指示所述语音的存在；或者确定指示检测到语音不存在的总次数的第二计数值，在所述第二计数值等于或大于第二阈值计数值的情况下，所述检测信号指示所述语音不存在。20.根据权利要求17所述的方法，其中检测所述语音的存在或不存在利用决策树、神经网络或支持向量机中的至少一项。

技术总结

本公开的各实施例总体上涉及使用低功率加速度计进行声音活动检测。本公开涉及用于检测人类语音的存在或不存在的设备和方法。设备和方法利用低功率加速度计。设备和方法使用加速度计生成加速度信号；利用带通滤波器或高通滤波器对加速度信号进行滤波；确定经滤波的加速度信号的至少一个计算；基于至少一个计算，检测声音的存在或不存在；以及输出指示声音存在或不存在的检测信号。设备和方法非常适用于具有有限电源的便携式音频设备，诸如真正的无线立体声耳机。线立体声耳机。线立体声耳机。