用于车辆外部语音助手的情景感知信号调节的制作方法



1.本主题公开涉及用于车辆外部语音助手的情景感知(context-aware)信号调节。


背景技术:



2.车辆(例如,汽车、卡车、建筑设备、农场设备、自动化工厂设备、穿梭巴士)越来越有利于操作员和车辆之间的互动,包括听觉互动。外部语音助手指的是在车辆外部具有麦克风和扬声器的系统。外部语音助手有助于车辆和车外人员之间的语言交流。外部语音助手可以实现反应性协助、主动(proactive)协助和社交互动。反应式协助是指外部语音助手对诸如“打开举升门”的询问做出响应。主动协助是指外部语音助手提供预期的警报或建议,如“您将宠物留在了车内”。例如,社交互动指的是欢迎或告别问候。背景噪声和混响会降低语音信号的质量。人的位置、方位(orientation)和说话音量也可能影响语音信号。因此,期望为车辆外部语音助手提供情景感知信号调节。


技术实现要素:



3.在一个示例性实施例中,车辆包括多个麦克风,用于获取车外人员的语音作为输入信号,以及传感器系统,用于确定人员相对于车辆的位置和方位。该车辆还包括控制器,用于确定输入信号的特征,并基于一个或多个特征以及人的位置和方位来确定是否对输入信号执行语音增强。
4.除本文所述的一个或多个特征外,传感器系统包括超宽带(uwb)或蓝牙低能量(ble)检测器阵列。
5.除了本文所述的一个或多个特征之外,每个uwb或ble检测器阵列与人拥有的设备通信,以确定人相对于车辆的位置,并且在车辆不同位置的多个麦克风中的每个麦克风处的输入信号水平用于确定人相对于车辆的方位。
6.除本文所述的一个或多个特征外,控制器确定是否指示人员采取行动以改善输入信号的质量。
7.除了本文所述的一个或多个特征之外,控制器还指示人员靠近多个麦克风中的一个,或改变所述方位以面向多个麦克风中的一个。
8.除了本文所述的一个或多个特征之外,控制器基于在多个麦克风中与人最接近的一个麦克风处检测到的音量,确定是否指示人更大声说话。
9.除本文所述的一个或多个特征外,控制器基于模糊逻辑、贝叶斯概率、dempster-shafer证据决策作出或统计机器学习,确定是否对输入信号进行语音增强。
10.除了本文所述的一个或多个特征之外,控制器通过执行去噪来执行语音增强。
11.除本文所述的一个或多个特征外,控制器通过执行去混响来执行语音增强。
12.除了本文所述的一个或多个特征之外,控制器通过执行降噪、去混响和源分离的组合来执行语音增强。
13.在另一个示例性实施例中,车辆中的方法包括布置多个麦克风以获取车外人员的
语音作为输入信号,并布置传感器系统以确定人员相对于车辆的位置和方位。该方法还包括配置控制器来确定输入信号的特征,并基于一个或多个特征以及人的位置和方位来确定是否对输入信号执行语音增强。
14.除本文所述的一个或多个特征外,布置传感器系统包括布置超宽带(uwb)或蓝牙低能量(ble)检测器阵列。
15.除了本文所述的一个或多个特征之外,该方法还包括配置每个uwb或ble检测器阵列,以与人拥有的设备通信,从而确定人员相对于车辆的位置,并基于车辆不同位置处的多个麦克风中的每个麦克风的输入信号水平,确定人员相对于车辆的方位。
16.除本文所述的一个或多个特征外,配置控制器包括配置控制器,以确定是否指示人员采取行动来改善输入信号的质量。
17.除了本文所述的一个或多个特征之外,配置控制器包括配置控制器,以指示人员向多个麦克风中的一个更靠近地移动,或改变方位以面向多个麦克风中的一个。
18.除了本文所述的一个或多个特征之外,配置控制器包括配置控制器,以基于在多个麦克风中与人最接近的一个麦克风处检测到的音量,确定是否指示人更大声地说话。
19.除了本文所述的一个或多个特征,配置控制器包括配置控制器,以确定是否基于模糊逻辑、贝叶斯概率、dempster-shafer证据决策作出或统计机器学习对输入信号进行语音增强。
20.除了本文所述的一个或多个特征之外,配置控制器包括配置控制器,以通过执行去噪来执行语音增强。
21.除了本文所述的一个或多个特征之外,配置控制器包括配置控制器,以通过执行去混响来执行语音增强。
22.除了本文所述的一个或多个特征之外,配置控制器包括配置控制器,以通过执行降噪、去混响和源分离的组合来执行语音增强。
23.当结合附图时,根据以下详细说明,本公开的上述特征和优点以及其他特征和优点显而易见。
附图说明
24.其他特征、优点和细节仅作为示例出现在以下详细说明中,详细说明参考了附图,在附图中:
25.图1示出了根据一个或多个实施例的为车辆外部语音助手实施情景感知信号调节的车辆;
26.图2是根据一个或多个实施例的为车辆外部语音助手执行情景感知信号调节的方法的流程图;
27.图3示出了根据示例性实施例的作为图2的方法的一部分的确定人是否可以采取动作来改善输入信号;和
28.图4是根据示例性实施例的作为图2的方法的一部分的确定语音增强是否将改善输入信号的过程流程。
具体实施方式
29.以下说明本质上仅是示例性的,无意限制本公开及其应用或用途。应当理解,在所有附图中,相应的附图标记表示相同或相应的部件和特征。
30.如前所述,外部语音助手有助于车外人员与车辆之间的言语互动。一个人被协助的准确性可能在很大程度上取决于这个人被理解的准确程度。本文详述的系统和方法的实施例涉及用于车辆外部语音助手的情境感知信号调节。可以对来自人的输入信号执行语音增强。在某些情况下,语音增强技术可能会降低而不是提高输入信号的质量。在这些情况下,仍然可以通过引导说话人调节距离、方位或音量来获得改善信号。如所详述的,识别当前场景(即,情景)以便确定改善输入信号质量的适当方法。
31.根据示例性实施例,图1示出了为车辆外部语音助手125实施情景感知信号调节的车辆100。图1所示的示例性车辆100是汽车101。车辆100被示为具有位于车辆100每一侧的四个外部麦克风110(即,被布置为从车辆100外部获得音频的麦克风)。在替代实施例中,麦克风110的数量和位置不受示例性图示的限制。根据示例性实施例,麦克风110可以是数字阵列麦克风,例如,车辆100也被示出具有扬声器115。在替代实施例中,任何数量的扬声器115可以布置在车辆100周围,并且可以例如与麦克风110共同定位。车辆100还示出有控制器120。控制器120可以使用来自一个或多个外部传感器130(例如,雷达系统、激光雷达系统、相机)和/或一个或多个车辆传感器135(例如,惯性测量单元(imu)、转向角检测器、加速度计)的信息来控制车辆100的操作方面。例如,半自主操作(例如,防撞、自适应巡航控制)可以由控制器120控制。
32.控制器120可与麦克风110和扬声器115一起作为车辆外部语音助手125的一部分。控制器120可以为车辆外部语音助手125实现信号改善的方面,如图2中详细描述的。控制器可以包括处理电路,该处理电路可以包括专用集成电路(asic)、电子电路、执行一个或多个软件或固件程序的处理器(共享的、专用的或组的)和存储器、组合逻辑电路和/或提供所述功能的其他合适的部件。
33.一些外部传感器130也可视为车辆外部语音助手125的一部分。例如,外部传感器130可以包括超宽带(uwb)检测器305(图3)或蓝牙低能量(ble)检测器。这些或其他已知的外部传感器130可以基于人携带的设备140(例如,密钥卡(keyfob)、智能手机)使用外部语音助手125来检测到人的距离。设备140还可以将该人识别为被授权与外部语音助手125通信的说话者。也就是说,只有当输入信号145是与携带设备140的人相关联的语音时,才可以获得和处理输入信号145,如参考图2详细描述的。可替换地,可以使用其他授权机制(例如,外部语音助手的基于语音生物统计的授权),并且这些机制不是这里详细描述的信号改善过程的一部分。参考图2讨论的过程假设授权的说话者提供输入信号145。
34.当使用多个外部传感器130(例如,布置在车辆100周围的uwb或ble检测器305阵列)时,除了距离之外,还可确定人(即,设备140)相对于车辆100的位置。否则,麦克风阵列110可用于确定携带设备140的人的位置和方位。距离、位置和方位的确定可以根据多种已知技术来实现,并且将参考图3进一步讨论。
35.图2是根据一个或多个实施例的为车辆外部语音助手125执行情景感知信号调节的方法200的流程图。方法200的过程可以在检测设备140和/或识别授权说话者的其他过程之后执行。如所指示的,方法200被迭代地执行,同时语音输入信号145被授权的扬声器提供
给车辆外部语音助手125。在框210处,获得语音输入信号145可以使用例如如图1所示的车辆100外部的一个或多个麦克风110。如前所述,获得输入信号145可以包括在框210处的过程之前将语音识别为授权用户(例如,具有诸如密钥卡或智能手机的适当设备140的人)的语音。
36.在框220处,所述过程包括获取输入信号145的来源(即,授权说话者)的位置和方位。作为识别授权说话者的过程的一部分,可以在框210的过程之前确定位置。也就是说,例如,设备140可以被检测到以触发授权过程。作为该检测的一部分,可以确定设备140的位置,从而确定授权说话者的位置。确定提供输入信号145的人(即授权的说话者)的位置和方位可以涉及uwb和/或ble检测器305的阵列,如参考图3进一步讨论的,或者可以涉及麦克风110、麦克风110和uwb和/或ble检测器305的组合,或者另一种已知的方法。
37.例如,uwb和/或ble检测器305的阵列可位于车辆100的外部传感器130中。信号从每个uwb或ble检测器305到授权说话者持有的设备140并返回的飞行时间可以用于确定该阵列的每个uwb或ble检测器305和说话者之间的距离。鉴于车辆100的每个uwb或ble检测器305的位置,到每个uwb或ble检测器305的相对距离然后可以被使用(例如,由控制器120使用)来使用几何方法确定授权讲话者相对于车辆100的位置。在每个麦克风110处测量的相对音量水平可以用于确定方位。音量可以根据等式4确定,如本文所述的。可替换地,相机可以在外部传感器130之中,并且可以执行图像处理来确定授权说话者相对于车辆100的方位。
38.在框230处,表征输入信号145是指获得若干信号质量测量值,或附加地或替代地,是指使用标准化方法(例如,p.563)获得语音质量的标准估计值。如所指示的,授权说话者的位置和方位(在框220处获得)可以用于在框230处表征输入信号。例如,表征可以包括获得信噪比(snr)。根据示例性方法,当没有提供输入信号145时,可以基于在授权说话者的语音停顿期间估计和更新背景噪声频谱来估计噪声。snr可以被计算为输入信号145的功率与背景噪声的功率之比。在框230处,表征还可以包括如下获得源对伪像比(sar):
[0039][0040]
根据等式1获得sar是波束形成过程,其中s
target
是输入信号的允许变形,e
interf
是除授权说话者之外的源的允许变形,e
noise
是扰动噪声的允许变形,e
artif
可以对应于波束形成算法的伪像,例如音乐噪声,或者对应于由波束形成算法引起的不允许的变形。另一个示例性特性包括由下式给出的源失真比(sdr):
[0041][0042]
sdr反映了来自授权说话人的输入信号和均方意义上的估计信号之间的差异。另一个示例性特征是由下式给出的源干扰比(sir):
[0043][0044]
sir确定了来自授权扬声器的输入信号的能量与分离信号中的干扰的比率。授权扬声器的音量可以基于由下式给出的声压级(spl)来确定:
[0045][0046]
在等式4中,p是均方根声压,p0是参考声压(例如,空气中的参考声压20微帕斯卡),以及spl以分贝(db)为单位。
[0047]
在框240处,确定授权说话者是否可采取动作改善输入信号和/或确定语音增强是否有帮助,都可依次或以任意顺序进行。做出确定的顺序可以基于一条件,而不是总是相同的。例如,如果输入信号145的信号强度低于阈值,则根据示例性实施例,可以首先确定授权说话者是否可以采取行动来改善输入信号145。确定授权说话者是否可以采取行动来改善输入信号145是指确定是否指示授权说话者采取该行动。参照图3详细说明这种确定。
[0048]
根据示例性实施例,可在确定授权说话者无法改善输入信号145后进行确定语音增强是否有帮助。该确定使用该表征(在框230处),并且可以基于实现模糊逻辑、诸如贝叶斯概率的概率方法、dempster-shafer证据决策作出方法、统计机器学习方法或任何其他决策算法。参考图4进一步详细描述了使用模糊逻辑的示例性情况。这个确定的结果是不应该进行语音增强(即,它没有帮助)或者应该进行语音增强(即,它有帮助)。在后一种情况下,在已知的语音增强技术中,也可以确定应该进行的语音增强的类型(在框260处)。
[0049]
在框250处,向授权说话者提供引导,是基于(在框240处)确定授权说话者可采取动作改善输入信号145。这将参考图3进一步讨论。在框260执行语音增强是基于确定(在框240)应该执行语音增强。如前所述的,确定应该执行语音增强可以包括确定语音增强应该包括什么。例如,语音增强可以包括已知的技术,例如去噪、去混响或联合执行去噪、去混响和源分离。
[0050]
去噪是指从声信号中减少或去除噪声的过程。具有不同复杂程度和效率的已知去噪算法包括理想信道选择或理想二进制掩码、频谱减法、子空间、噪声估计和基于统计的方法。去混响指的是解决混响,混响是声信号从其源到麦克风110的多径传播。如果被授权的说话者太靠近麦克风110,则产生的混响是最小的,并且传统的去混响技术解决噪声。如果授权的说话者离麦克风110太远,结果可能是严重的失真,包括高水平的噪声和混响。可以使用已知的声学回声消除(aec)或已知的去混响抑制技术来实现去混响。源分离指的是从语音信号的卷积混合中恢复原始语音信号。已知的盲源分离(bss)技术通过观测信号来估计原始信号。像bss一样,盲信号分离(即盲波束形成)利用统计特性(来自框230)。
[0051]
图3示出了根据一示例性实施例的在框240(图2)中确定授权说话者是否可采取动作改善输入信号。继续参考图1和图2。两个麦克风110a、110b(统称为110)被示出在车辆100的与两个uwb或ble检测器305a、305b(统称为305)的位置相对应的位置。区域310a被示为对应于麦克风110a,区域310b被示为对应于麦克风110b。通常,每个麦克风110可以具有相应的区域310。为被示为携带设备140的授权说话者指示了说话区320。说话区320可以是从为说话者确定的方位开始的方位角度和距离的范围(在框220)。
[0052]
理想情况下,说话区320可完全位于与其中一个麦克风110相关的区域310内。这将考虑到位置和方位。然后,基于在麦克风110处测量的spl,确定授权的说话者是否应该增加音量是一种直接的确定,说话者位于麦克风110的相应区域310内。基于为授权说话者确定的位置和方位(在框220),控制器120可以确定授权说话者的说话区320是否在任何麦克风110的区域310内。如果说话区320不在任何麦克风110的区域310内,则在框240处的确定可
以是授权说话者可以采取行动来改善输入信号145。
[0053]
然后,在框250处,可通过车辆100上或车辆100内的音频扬声器115提供音频引导。特定引导可以基于授权说话者与麦克风110的接近度以及说话区320与特定区域310的接近度。也就是说,如果授权说话者与任何麦克风110的距离大于阈值距离,则引导可以是授权说话者向一个特定麦克风110移动得更近。如果该距离在阈值距离内,但是说话区320不在离授权说话者最近的麦克风110的区域310内,则引导可以是授权说话者改变他们朝向最近的麦克风110的方位。在图3所示的示例性情况中,可以要求说话者移动得更靠近驾驶员侧的镜子,并且转向面对麦克风110a所在的镜子,使得说话区320在对应于麦克风110a的区域310a内。
[0054]
图4是根据示例性实施例的在图2的方法200的框240处确定语音增强是否将改善输入信号145的过程流程。图4所示的示例性方法是模糊逻辑。如前所述的,用于在框240执行确定的其他示例性实施例可以使用贝叶斯概率、dempster-shafer证据决策作出方法、统计机器学习方法或任何其他决策算法。在框410处,从在框230生成的特征生成语言变量也可以被称为模糊化。在模糊逻辑中,模糊化是指将一个明确的量转换成一个模糊的量。也就是说,诸如snr、sar和sdl之类的输入信号的特性(在框230获得)是从根据诸如等式1-4之类的公式估计的值转换成模糊量(如低、中、高)。
[0055]
从框230接收的估计值到模糊量的映射可基于已建立的范围或规则。例如,从每个特征导出的每个语言变量可以表示为五元组(x,t(x),u,g,s)。变量名为x,t(x)是名为x的变量可能具有的一组语言值。u是论域,g是生成t(x)中术语的句法规则。s是将每个语言值与其含义相关联的语义规则(即,定义在u上的模糊集)。例如,与可变估计snr相关联的语言值集合可以是{非常低、低、中、高、非常高}。
[0056]
在框420处,实施推理机制依赖于规则数据库430。规则数据库430可以包括用于每个变量的每个语言值的每个组合的规则。例如,可能只有来自框230的两个特征变量,snr和噪声源识别(nsi)。snr可以与对应于snr值级别的五个语言值{非常低、低、中、高、非常高}相关联,并且nsi也可以与对应于nsi类型的五个语言值{高静态、静态、正常、非静态、非常非静态}相关联。在该示例性情况下,规则数据库430将包括与snr和nsi的25个语言值组合相关联的25个规则。例如,25个规则中的一个规则可能对应于“非常低”的snr和“正常”的nsi,而另一个规则对应于“高”的snr和“静态”的nsi。
[0057]
在框420处应用的规则可基于与从框230以及从框220接收的特征(例如,距离、方位)相对应的语言值的组合。该规则导致来自框240的决定的输出。如参考图2所讨论的,该决定可以是向说话者提供引导(在框250处),执行语音增强(在框260处),并且根据替换实施例,指定执行哪些语音增强(例如,去噪、去混响)。
[0058]
虽然已参照示例性实施例对上述公开内容进行了描述,但本领域技术人员应理解,在不脱离其范围的情况下,可对其进行各种变更,并可对其元件进行等效替换。此外,在不脱离本公开的实质范围的情况下,可以进行许多修改以使特定的情况或材料适应本公开的教导。因此,意图是本公开不限于所公开的特定实施例,而是将包括落入其范围内的所有实施例。

技术特征:


1.一种车辆,包括:多个麦克风,该多个麦克风被配置为从车辆外部的人获得语音作为输入信号;传感器系统,该传感器系统被配置为确定人相对于车辆的位置和方位;和控制器,该控制器被配置为确定输入信号的特征,并基于一个或多个特征以及人的位置和方位来确定是否对输入信号执行语音增强。2.根据权利要求1所述的车辆,其中,所述传感器系统包括超宽带或蓝牙低能量检测器阵列,并且超宽带或蓝牙低能量检测器阵列中的每个被配置为与该人拥有的设备通信,以确定该人相对于车辆的位置,并且在车辆的不同位置处的多个麦克风的每个处的输入信号的电平被用于确定该人相对于车辆的方位。3.根据权利要求1所述的车辆,其中,所述控制器还被配置成基于所述确定来确定是否指示所述人采取行动以改善所述输入信号的质量,并指示所述人更靠近所述多个麦克风中的一个运动或改变方位以面对所述多个麦克风中的一个,并且所述控制器被配置成基于在所述多个麦克风中的与该人最靠近的一个麦克风处检测到的音量来确定是否指示所述人更大声地说话。4.根据权利要求1所述的车辆,其中,所述控制器被配置为基于模糊逻辑、贝叶斯概率、dempster-shafer证据决策作出或统计机器学习来确定是否对输入信号执行语音增强。5.根据权利要求1所述的车辆,其中,所述控制器被配置为通过执行去噪、去混响或去噪、去混响和源分离的组合来执行语音增强。6.一种车辆中的方法,包括:布置多个麦克风以获得来自车辆外部的人的语音作为输入信号;布置传感器系统以确定该人相对于车辆的位置和方位;和配置控制器以确定输入信号的特征,并基于一个或多个特征以及该人的位置和方位来确定是否对输入信号执行语音增强。7.根据权利要求6所述的方法,其中,布置传感器系统包括布置超宽带或蓝牙低能量检测器阵列,并且该方法包括配置超宽带或蓝牙低能量检测器阵列中的每一个,以与该人拥有的设备通信,从而确定该人相对于车辆的位置,并且基于在车辆的不同位置处的多个麦克风中的每一个处的输入信号的电平来确定该人相对于车辆的方位。8.根据权利要求6所述的方法,其中,配置所述控制器包括配置所述控制器以确定是否指示所述人采取行动来改善所述输入信号的质量,配置所述控制器以指示所述人更靠近所述多个麦克风中的一个移动或改变方位以面对所述多个麦克风中的一个,以及配置所述控制器以基于在所述多个麦克风中的与该人最靠近的一个麦克风处检测到的音量来确定是否指示所述人更大声地说话。9.根据权利要求6所述的方法,其中,配置控制器包括配置控制器以确定是否基于模糊逻辑、贝叶斯概率、dempster-shafer证据决策作出或统计机器学习对输入信号执行语音增强。10.根据权利要求6所述的方法,其中配置所述控制器包括配置所述控制器以通过执行去噪、通过执行去混响或通过执行去噪、去混响和源分离的组合来执行语音增强。

技术总结


一种车辆包括:多个麦克风,用于获得来自车外人员的语音作为输入信号;以及传感器系统,用于确定人员相对于车辆的位置和方位。该车辆还包括控制器,用于确定输入信号的特征,并基于一个或多个特征以及人的位置和方位来确定是否对输入信号执行语音增强。确定是否对输入信号执行语音增强。确定是否对输入信号执行语音增强。


技术研发人员:

A.M.卡米斯 G.塔尔沃 R.D.小加西亚 C.F.德阿戈斯蒂诺 N.R.高塔马

受保护的技术使用者:

通用汽车环球科技运作有限责任公司

技术研发日:

2022.04.13

技术公布日:

2022/10/20

本文发布于:2024-09-22 04:25:41,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/23373.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:多个   信号   所述   语音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议