车辆座舱的音频信号处理方法、车辆及存储介质与流程



1.本技术涉及语音处理技术领域,具体涉及一种车辆座舱的音频信号处理方法、车辆及计算机可读存储介质。


背景技术:



2.随着车辆智能化的发展,车载语音技术可以支持用户通过语音在车辆座舱内进行交互,例如控制车辆零部件或与车载系统用户界面中的组件进行交互。具体而言,通过车辆座舱内的麦克风采集用户的语音指令进而进行语音识别来实现语音交互,但实际使用过程中由于车辆座舱内的扬声器在人机交互的过程中往往也同时工作并发出声音,如此,将会对麦克风收集到的用户语音指令产生干扰,从而无法准确地对用户的语音指令进行识别,甚至有可能由于语音指令的误识别造成行车的安全隐患。因此,如何对车辆座舱内部的信号环境状态进行探查判断,成为亟待解决的问题。


技术实现要素:



3.本技术提供了一种车辆座舱的音频信号处理方法、车辆及计算机可读存储介质,用以解决背景技术中所述的技术问题。
4.本技术实施方式涉及的车辆座舱的音频信号处理方法,其特征在于,所述方法包括:
5.获取车辆座舱内的第一音频信号以及第二音频信号;
6.根据预设滤波器组、所述第一音频信号以及所述第二音频信号,确定第一梅尔倒谱系数与第二梅尔倒谱系数;
7.根据所述第一梅尔倒谱系数与第二梅尔倒谱系数,确定比照系数;
8.根据所述比照系数,确定车辆座舱的音频信号状态,以输出处理后的音频信号供语音识别使用。
9.如此,本技术通过计算远近双端的梅尔倒谱系数以及进一步得到的比照系数,判定车辆座舱内部的单双讲状态,提升单讲状态时的回声抑制效果的同时减少双讲状态时对近端信号的损害。相比于目前的相关技术,以梅尔倒谱系数为特征判断单双讲状态的计算量更小,同时能够舍弃信号中的无效信息,首先避免了因设备造成的信号混淆以及对能量估计结果的损害,规避了采用能量估计方法进行判定的弊端;其次也降低了扬声器非线性信号对远近端信号相关性的损害,规避了相关性判定方法的弊端;另外能够屏蔽瞬时噪音或稳态噪音对远近端信号的不良影响,对车辆座舱的噪声具有较强的鲁棒性。
10.所述获取车辆座舱内的第一音频信号以及第二音频信号,包括:
11.确定获取第一音频信号的时间段;
12.获取扬声器在所述时间段内播放的音频文件;
13.根据所述音频文件,获取所述第二音频信号。
14.如此,本技术直接从车载系统中获取从扬声器发出的音频信号而非从麦克风获
取,隔开了近端信号与远端信号,避免了两组信号的互相干涉,同时大幅度屏蔽了瞬态噪音与稳态噪音,有效规避了远端信号对近端信号的相关性损害以及能量评估损害。
15.所述根据预设滤波器组、所述第一音频信号以及所述第二音频信号,确定第一梅尔倒谱系数与第二梅尔倒谱系数,包括:
16.根据所述预设滤波器组的幅频响应以及所述第一音频信号,确定所述第一梅尔倒谱系数;
17.根据所述预设滤波器组的幅频响应以及所述第二音频信号,确定所述第二梅尔倒谱系数。
18.如此,本技术提供了确定远近端信号的梅尔倒谱系数(mfcc)的方法。
19.所述预设滤波器组包括多个三角形滤波器,每个所述三角形滤波器的中心频率在梅尔频率尺度上等间隔分布;所述预设滤波器组的幅频响应根据每个所述三角形滤波器的下限频率、中心频率以及上限频率确定。
20.如此,本技术提供了确定预设滤波器组的幅频响应的方法。
21.所述根据所述预设滤波器组的幅频响应以及所述第一音频信号,确定所述第一梅尔倒谱系数,包括:
22.根据所述第一音频信号,确定第一功率谱函数;
23.根据所述预设滤波器组的幅频响应以及所述第一功率谱函数,确定所述第一梅尔倒谱系数。
24.如此,本技术提供了确定第一梅尔倒谱系数的方法。
25.所述根据所述预设滤波器组的幅频响应以及所述第二音频信号,确定所述第二梅尔倒谱系数,包括:
26.根据所述第二音频信号,确定第二功率谱函数;
27.根据所述预设滤波器组的幅频响应以及所述第二功率谱函数,确定所述第二梅尔倒谱系数。
28.如此,本技术提供了确定第二梅尔倒谱系数的方法。
29.所述根据所述第一梅尔倒谱系数与所述第二梅尔倒谱系数,确定比照系数,包括:
30.根据所述第一梅尔倒谱系数与所述第二梅尔倒谱系数,确定所述第一梅尔倒谱系数与所述第二梅尔倒谱系数的皮尔森系数,所述皮尔森系数是为所述比照系数。
31.如此,本技术提供了比照系数的特征与确定方法。
32.所述根据所述比照系数,确定车辆座舱的音频信号状态,包括:
33.根据所述比照系数与预设阈值的大小关系,确定车辆座舱的音频信号状态。
34.如此,本技术提供了根据比照系数确定车辆座舱的音频信号状态的方法。
35.根据所述比照系数与预设阈值的大小关系,确定车辆座舱的音频信号状态,包括:
36.在所述比照系数大于所述预设阈值的情况下,确定所述音频信号状态为单讲状态;
37.在所述比照系数小于或等于所述预设阈值的情况下,确定所述音频信号状态为双讲状态。
38.如此,本技术具体提供了确定车辆座舱的音频信号状态的条件。
39.所述车辆座舱的音频信号处理方法还包括:
40.根据所述第一音频信号以及第二音频信号,确定残差信号;
41.根据初始时刻的所述车辆座舱的音频信号状态,确定所述初始时刻的状态判定系数;
42.根据预设时刻的所述车辆座舱的音频信号状态以及所述预设时刻的前一时刻的状态判定系数,确定所述预设时刻的状态判定系数;
43.根据所述预设时刻的状态判定系数以及所述预设时刻的残差信号,确定输出音频信号;
44.将所述输出音频信号输入语音识别服务以实现人机交互。
45.如此,本技术可以根据判定确认的单双讲状态以及线性滤波确定的残差信号共同确定最终的输出信号以输入语音识别服务,从而实现语音人机交互。
46.所述根据所述预设时刻的状态判定系数以及所述预设时刻的残差信号,确定输出音频信号,包括:
47.根据所述预设时刻的残差信号与所述预设时刻的状态判定系数,确定所述输出音频信号的频谱;
48.根据所述输出音频信号的频谱,经傅里叶反变换,确定所述输出音频信号。
49.如此,本技术提供了确定输出音频信号的方法。
50.本技术还提供一种车辆,所述车辆包括存储器与处理器;所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上所述的车辆座舱的音频信号处理方法。
51.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现如上所述的车辆座舱的音频信号处理方法。
52.本技术的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实施方式的实践了解到。
附图说明
53.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
54.图1是本技术提供的车辆座舱的音频信号处理方法的流程示意图;
55.图2是本技术提供的车辆座舱的音频信号处理方法的流程示意图;
56.图3是本技术提供的车辆座舱的音频信号处理方法的流程示意图;
57.图4是本技术提供的车辆座舱的音频信号处理方法的流程示意图。
具体实施方式
58.下面详细描述本技术的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本技术的实施方式,而不能理解为对本技术的实施方式的限制。
59.在目前的回声消除技术中,双讲检测主要使用近端信号与远端信号的相关性或远
近双端信号的能量差异来判断。而根据双端信号的相关性进行判断时,当远端音量较大时远端信号的非线性特征对双端信号的相关性存在较大负面影响,导致相关性评估偏低,影响准确度;根据双端信号的能量进行判断时,由于能量估计受限于不同种类、不同标准设备以及同种设备的个体差异的影响,导致远近双端间的干扰过大,无法清楚地分辨远端信号与近端信号。另外,本技术的应用场景是在车辆座舱内,在车辆行驶中不可避免地会遇到瞬时或稳态的其它噪声,这对语音识别也会造成非常大的影响。
60.针对上述技术中存在的问题,本技术提出一种车辆座舱的音频信号处理方法,如图1所示,包括如下步骤:
61.01:获取车辆座舱内的第一音频信号以及第二音频信号;
62.02:根据预设滤波器组、第一音频信号以及第二音频信号,确定第一梅尔倒谱系数与第二梅尔倒谱系数;
63.03:根据第一梅尔倒谱系数与第二梅尔倒谱系数,确定比照系数;
64.04:根据比照系数,确定车辆座舱的音频信号状态,以输出处理后的音频信号供语音识别使用。
65.本技术还提供一种车辆,车辆包括存储器与处理器,存储器存储有计算机程序,处理器用于获取车辆座舱内的第一音频信号以及第二音频信号,以及用于根据预设滤波器组、第一音频信号以及第二音频信号,确定第一梅尔倒谱系数与第二梅尔倒谱系数,以及用于根据第一梅尔倒谱系数与第二梅尔倒谱系数,确定比照系数,以及用于根据比照系数,确定车辆座舱的音频信号状态,以输出处理后的音频信号供语音识别使用。
66.具体地,第一音频信号由麦克风采集,主要内容是用户用于与车辆系统进行交互时的说话声音,在目前相关的回声消除技术(aec技术)中对应于近端信号。第二音频信号的主要内容是在麦克风采集第一音频信号时车辆座舱内的扬声器发出的声音,在目前相关的aec技术中对应于远端信号。第二音频信号的采集并非通过麦克风,避免与第一音频信号过度混淆而导致处理效果下降。在采集到两组音频信号后,以两组音频信号为基础数据,经过预设的非线性滤波器进行滤波运算,确定与第一音频信号对应的第一梅尔倒谱系数以及第二梅尔倒谱系数。在声音处理领域中,梅尔倒谱(mel-frequency cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换,梅尔刻度与赫兹频率之间的互换关系如下:
[0067][0068][0069]
其中f为以赫兹hz为单位的频率,mel为梅尔刻度频率。
[0070]
预设的非线性滤波器用于确定梅尔倒谱系数(mfcc),一般是一组20个非线性分布的三角带通滤波器,能够实现确定每一个滤波器输出的对数能量,该组非线性分布的三角带通滤波器在梅尔刻度频率上是均匀分布的。在确认了第一梅尔倒谱系数以及第二梅尔倒谱系数后,以二者为基础数据计算比照数据。比照数据是用于判定车辆座舱内的音频信号状态为单讲或是双讲的表征数据,一般可以是皮尔森系数或者lp范数等能够表示多个数据间相关性的系数。根据该系数得到车辆座舱内部的单双讲状态后,根据单双讲状态处理用
户的语音信息,最终目的在于实现于存在信号干扰的条件下的人机语音交互。与目前的相关性判定单双讲状态的方法相比,本技术通过mfcc以及皮尔森系数等特征值的计算,规避了因为扬声器声音较大而带来的非线性影响所造成的相关性损害,提高了单双讲状态判断的精准度。若确定了车辆座舱内的信号状态时双讲状态,则证明用户有语音指令发出,则可以将最终确认的音频信号输入到语音识别服务中进行语音识别,以实现人机之间的语音交互;若确定了车辆座舱内的信号状态时单讲状态时,则可以证明用户没有语音指令发出,不进行语音识别过程,即通过滤除了单讲状态下的语音识别输入而节省了语音识别的性能消耗。另外,利用mfcc以及皮尔森系数等特征值进行计算可以很大程度上规避瞬时或稳态噪声对信号本身的影响,从而实现对噪声的大幅度规避,提高判别的精准度与鲁棒性。
[0071]
如此,本技术通过计算远近双端的梅尔倒谱系数以及进一步得到的比照系数,判定车辆座舱内部的单双讲状态,提升单讲状态时的回声抑制效果的同时减少双讲状态时对近端信号的损害。相比于目前的相关技术,以梅尔倒谱系数为特征判断单双讲状态的计算量更小,同时能够舍弃信号中的无效信息,首先避免了因设备造成的信号混淆以及对能量估计结果的损害,规避了采用能量估计方法进行判定的弊端;其次也降低了扬声器非线性信号对远近端信号相关性的损害,规避了相关性判定方法的弊端;另外能够屏蔽瞬时噪音或稳态噪音对远近端信号的不良影响,对车辆座舱的噪声具有较强的鲁棒性。
[0072]
如图2所示,步骤01包括:
[0073]
011:确定获取第一音频信号的时间段;
[0074]
012:获取扬声器在时间段内播放的音频文件;
[0075]
013:根据音频文件,获取第二音频信号。
[0076]
处理器用于确定获取第一音频信号的时间段,以及用于获取扬声器在时间段内播放的音频文件,以及用于根据音频文件,获取第二音频信号。
[0077]
具体地,为了实现第二音频信号在非干扰情况下的采集,可以采取从车载系统中直接获取的方式。在某些示例中,当麦克风采集第一音频信号的同时,记录下获取信号的时间段,并在车载系统内部根据这一时间段获取扬声器在这一时间段内正在调用播放的音频,包括但不限于导航语音、音乐、视频的音频轨道等。在这些音频中将对应时间端点部分截取出来,即形成第二音频信号。
[0078]
如此,本技术直接从车载系统中获取从扬声器发出的音频信号而非从麦克风获取,隔开了近端信号与远端信号,避免了两组信号的互相干涉,同时大幅度屏蔽了瞬态噪音与稳态噪音,有效规避了远端信号对近端信号的相关性损害以及能量评估损害。
[0079]
步骤02包括:
[0080]
根据预设滤波器组的幅频响应以及第一音频信号,确定第一梅尔倒谱系数;
[0081]
根据预设滤波器组的幅频响应以及第二音频信号,确定第二梅尔倒谱系数。
[0082]
处理器用于根据预设滤波器组的幅频响应以及第一音频信号,确定第一梅尔倒谱系数,以及用于根据预设滤波器组的幅频响应以及第二音频信号,确定第二梅尔倒谱系数。
[0083]
具体地,幅频响应指输入信号幅度固定,输出信号的幅度随频率变化而变化的规律,根据幅频响应的计算能够确定预设滤波器组的滤波器组系数,进而为计算mfcc提供基础数据。第一音频信号与第二音频信号则是原始数据输入,经过相关计算得到中间数据,将上述中间数据与滤波器组系数一同计算可以确定出第一梅尔倒谱系数以及第二梅尔倒谱
系数。
[0084]
如此,本技术提供了确定远近端信号的梅尔倒谱系数的方法。
[0085]
预设滤波器组包括多个三角形滤波器,每个三角形滤波器的中心频率在梅尔频率尺度上等间隔分布;预设滤波器组的幅频响应根据每个三角形滤波器的下限频率、中心频率以及上限频率确定。
[0086]
具体地,多个三角形滤波器构成了一个三角带通滤波器组,主要技术作用是确定mfcc。上述三角带通滤波器组一般包括20个三角型滤波器,每个三角型滤波器的中心频率在梅尔刻度上等间隔均匀分布。对于上述滤波器的幅频响应,
[0087]
则可以根据如下公式确定:
[0088][0089]
其中,k表示频点,o(m)表示第m个滤波器的下限频率,c(m)表示第m个滤波器的中心频率,h(m)表示第m个滤波器的上限频率,hm(k)表示第m个滤波器的幅频响应。
[0090]
如此,本技术提供了确定预设滤波器组的幅频响应的方法。
[0091]
根据预设滤波器组的幅频响应以及第一音频信号,确定第一梅尔倒谱系数,包括:
[0092]
根据第一音频信号,确定第一功率谱函数;
[0093]
根据预设滤波器组的幅频响应以及第一功率谱函数,确定第一梅尔倒谱系数。
[0094]
处理器用于根据第一音频信号,确定第一功率谱函数,以及根据预设滤波器组的幅频响应以及第一功率谱函数,确定第一梅尔倒谱系数。
[0095]
具体地,首先对第一音频信号(为了后文叙述方便,用d(n)表示,其中n为时间采样点)进行短时傅里叶分析,确定第一频域信号(为了后文叙述方便,用d(k,n)表示,其中k为频点,n为时间采样点),再根据第一频域信号d(k,n)进一步计算得到第一功率谱函数da(k),第一功率谱函数对应于回声消除技术(aec技术)中的近端信号功率谱密度函数。然后,根据预设滤波器组的幅频响应hm(k)以及第一功率谱函数da(k),确定第一梅尔倒谱系数,分为两个步骤:
[0096]
首先,根据预设滤波器组的幅频响应hm(k)以及第一功率谱函数da(k)确定近端卷积输出,公式如下:
[0097][0098]
其中:d
p
(m)为近端卷积输出,m为预设滤波器组中滤波器的个数,n表示频点的总个数,k具体表示频点的编号,da(k)为第一功率谱函数,hm(k)为预设滤波器组的幅频响应。
[0099]
接下来,根据近端卷积输出进行离散余弦变换,确定第一梅尔倒谱系数d
mfcc
(ε),公式如下:
[0100][0101]
其中,ε为正整数且ε≤l,l表示滤波器的维度,d
p
(m)为近端卷积输出,m为预设滤波器组中滤波器的个数,n表示频点的总数,k具体表示频点的编号,da(k)为第一功率谱函数,hm(k)为预设滤波器组的幅频响应。由上述公式可知,第一梅尔倒谱系数d
mfcc
(ε)是一个向量,该向量有l个元素。
[0102]
如此,本技术提供了确定近端信号的第一梅尔倒谱系数的方法。
[0103]
根据预设滤波器组的幅频响应以及第二音频信号,确定第二梅尔倒谱系数,包括:
[0104]
根据第二音频信号,确定第二功率谱函数;
[0105]
根据预设滤波器组的幅频响应以及第二功率谱函数,确定第二梅尔倒谱系数。
[0106]
处理器用于根据第二音频信号,确定第二功率谱函数,以及用于根据预设滤波器组的幅频响应以及第二功率谱函数,确定第二梅尔倒谱系数。
[0107]
具体地,首先对第二音频信号(为了后文叙述方便,用x(n)表示,其中n为时间采样点)进行短时傅里叶分析,确定第二频域信号(为了后文叙述方便,用x(k,n)表示,其中k为频点,n为时间采样点),再根据第二频域信号x(k,n)进一步计算得到第二功率谱函数xa(k),第二功率谱函数对应于回声消除技术(aec技术)中的远端信号功率谱密度函数。然后,根据预设滤波器组的幅频响应hm(k)以及第二功率谱函数xa(k),确定第二梅尔倒谱系数,分为两个步骤:
[0108]
首先,根据预设滤波器组的幅频响应hm(k)以及第二功率谱函数xa(k)确定远端卷积输出,公式如下:
[0109][0110]
其中:x
p
(m)为远端卷积输出,m为预设滤波器组中滤波器的个数,n表示频点的总个数,k具体表示频点的编号,xa(k)为第二功率谱函数,hm(k)为预设滤波器组的幅频响应。
[0111]
接下来,根据远端卷积输出进行离散余弦变换,确定第二梅尔倒谱系数x
mfcc
(ε),公式如下:
[0112][0113]
其中,ε为正整数且ε≤l,l表示mfcc的维度,x
p
(m)为远端卷积输出,m为预设滤波
器组中滤波器的个数,n表示频点的总数,k具体表示频点的编号,xa(k)为第二功率谱函数,hm(k)为预设滤波器组的幅频响应。由上述公式可知,第二梅尔倒谱系数x
mfcc
(ε)是一个向量,该向量有l个元素。
[0114]
如此,本技术提供了确定第二梅尔倒谱系数的方法。
[0115]
步骤03包括:
[0116]
根据第一梅尔倒谱系数与第二梅尔倒谱系数,确定第一梅尔倒谱系数与第二梅尔倒谱系数的皮尔森系数,皮尔森系数是为比照系数。
[0117]
处理器用于根据第一梅尔倒谱系数与第二梅尔倒谱系数,确定第一梅尔倒谱系数与第二梅尔倒谱系数的皮尔森系数。
[0118]
具体地,在确定了第一梅尔倒谱系数d
mfcc
(ε)以及第二梅尔倒谱系数x
mfcc
(ε)后,根据上述两组数据确定比照数据。该比照数据可以是皮尔森系数,也可以是lp范数等能够表现两组数据间相关性的数据。在某些示例中,以皮尔森系数为例来说明。根据第一梅尔倒谱系数d
mfcc
(ε)以及第二梅尔倒谱系数x
mfcc
(ε)确定皮尔森系数遵循如下公式:
[0119][0120]
其中l为mfcc的维度,d
mfcc
(ε)为第一梅尔倒谱系数,x
mfcc
(ε)为第二梅尔倒谱系数,ε为正整数且ε≤l,pcc
xd
为皮尔森系数。
[0121]
根据上述方法确定的皮尔森系数就作为比照系数参与单双讲状态的判定。
[0122]
如此,本技术提供了比照系数的特征与确定方法。
[0123]
步骤04包括:
[0124]
041:根据比照系数与预设阈值的大小关系,确定车辆座舱的音频信号状态。
[0125]
处理器用于根据比照系数与预设阈值的大小关系,确定车辆座舱的音频信号状态。
[0126]
具体地,根据第一、第二梅尔倒谱系数确定比照系数后,以比照系数为表征数据,与预设的阈值比较大小,根据比较得到的大小关系对应判定车辆座舱的音频信号状态是单讲状态或是双讲状态。预设阈值是一个用于描述远近端信号平衡状态边界值,一般地,在边界值的一侧意味着远端信号的影响大于近端信号甚至可以盖过近段信号,在边界的另一侧意味着远端信号的影响很难盖过近端信号。
[0127]
如此,本技术提供了根据比照系数确定车辆座舱的音频信号状态的方法。
[0128]
如图3所示,步骤041包括:
[0129]
0411:在比照系数大于预设阈值的情况下,确定音频信号状态为单讲状态;
[0130]
0412:在比照系数小于或等于预设阈值的情况下,确定音频信号状态为双讲状态。
[0131]
处理器用于在比照系数大于预设阈值的情况下,确定音频信号状态为单讲状态,以及用于在比照系数小于或等于预设阈值的情况下,确定音频信号状态为双讲状态。
[0132]
具体地,用前述示例中计算出的皮尔森系数pcc
xd
与预设的阈值p进行比较,阈值p用于描述远近端信号平衡状态。当pcc
xd
>p时,意味着此时远端信号的影响更大,可以认定近端没有人声信号,此时将车辆座舱内部的音频信号状态确定为单讲状态;当pcc
xd
≤p时则正好相反,意味着远端信号的影响不足以压制近端信号,近端信号的人声不可忽略,此时则将车辆座舱内部的音频信号状态确定为双讲状态。
[0133]
如此,本技术具体提供了确定车辆座舱的音频信号状态的条件。
[0134]
如图4所示,车辆座舱的音频信号处理方法还包括:
[0135]
05:根据第一音频信号以及第二音频信号,确定残差信号;
[0136]
06:根据初始时刻的车辆座舱的音频信号状态,确定初始时刻的状态判定系数;
[0137]
07:根据预设时刻的车辆座舱的音频信号状态以及预设时刻的前一时刻的状态判定系数,确定预设时刻的状态判定系数;
[0138]
08:根据预设时刻的状态判定系数以及预设时刻的残差信号,确定输出音频信号;
[0139]
09:将输出音频信号输入语音识别服务以实现人机交互。
[0140]
处理器用于根据第一音频信号以及第二音频信号,确定残差信号,以及用于根据初始时刻的车辆座舱的音频信号状态,确定初始时刻的状态判定系数,以及用于根据预设时刻的车辆座舱的音频信号状态以及预设时刻的前一时刻的状态判定系数,确定预设时刻的状态判定系数,以及用于根据预设时刻的状态判定系数以及预设时刻的残差信号,确定输出音频信号,以及用于将输出音频信号输入语音识别服务以实现人机交互。
[0141]
具体地,步骤05~步骤09实现的是根据车辆座舱内部的单双讲状态来生成输出音频信号,目的在于准确地将应输入语音识别服务的信号输入语音识别服务,以实现人机语音交互这一技术目的。为了得到输出音频信号,需要对第一音频信号以及第二音频信号进行线性滤波以获得残差信号。在某些示例中,首先对采集到的第一音频信号d(n)以及第二音频信号x(n)做频域处理,主要方法为短时傅里叶分析。第一音频信号d(n)与第二音频信号x(n)本身带有时间采样点信息n,经短时傅里叶分析处理后,第一音频信号d(n)转变为同时带有时间采样点信息以及频点信息的第一频域信号d(k,n),第二音频信号则转变为同时带有时间采样点信息以及频点信息的第二频域信号x(k,n)。其中频点信息k主要用于描述频域信号所在的频率。时间采样点信息n则主要用于描述信号被采集时的时间节点,是非常重要的迭代依据。然后,根据由上述方法得到的第一频域信号以及第二频域信号,经过预设的滤波算法计算,输出带有频点信息以及时间采样点信息的残差信号。
[0142]
在某些示例中,上述预设的滤波算法可以采用卡尔曼滤波算法或归一化最小均方滤波算法(也即nlms算法)。下面以nlms算法为例说明残差信号的确定方法:
[0143]
在确定了第一频域信号d(k,n)以及第二频域信号x(k,n)之后,对二者采用nlms算法,迭代公式如下:
[0144][0145][0146]
e(k,n)=d(k,n)-y(k,n)
[0147]
其中:w(k,n)为滤波算法提供的滤波器信号,e(k,n)为残差信号,y(k,n)为滤波器的一个中间输出量,k为频点信息,n为当前时间采样点,n+1为当前时间采样点的后一时间采样点,n-1为当前时间采样点的前一时间采样点,n为nlms算法提供的滤波器的阶数。经上述三组公式的复合迭代过程后,可以得到残差信号e(k,n),该数据是后续确定输出音频信号的基础数据。
[0148]
在某些示例中,确定了残差信号后,需要根据车辆座舱内部的单双讲状态确定状态判定系数。状态判定系数与单双讲状态相关的同时,也与上一次判定单双讲状态时得到的单双讲状态有关。下面解释状态判定系数的确定方法:
[0149]
首先,状态判定系数的迭代初始值设定为1。在初始时刻,若车辆座舱内的音频信号状态为单讲状态,则根据单讲状态下的状态判定系数公式确定初始时刻的状态判定系数;若车辆座舱内的音频信号状态为双讲状态,则直接将状态判定系数重置为1。具体公式表达如下:
[0150][0151]
其中dtd
*
为状态判定系数的迭代初始值,dtd为初始时刻的状态判定系数,pcc
xd
为前述示例中的皮尔森系数,p为预设阈值。
[0152]
更一般地,对于任意时刻的状态判定系数,都有如下迭代关系:
[0153][0154]
其中dtd
*
为上一时刻状态判定系数的值,dtd为当前时刻的状态判定系数,pcc
xd
为前述示例中的皮尔森系数,p为预设阈值。
[0155]
根据上述的迭代关系可知,在状态判定系数的迭代初始值为1或者某一双讲状态下降状态判定系数重置为1后,若出现多个时刻连续的单讲状态,根据单讲状态下的迭代关系,状态判定系数会随着单讲状态持续时间的增加而逐渐收敛于0。
[0156]
在某些示例中,确定了某特定时刻的状态判定系数以及该时刻的残差信号,将二者相乘取积,得到的积信号即为最终要向语音识别服务输入的输出音频信号。特别地,当车辆座舱内部的音频信号状态为单讲状态时,若采用将输出音频信号直接输入语音识别服务的方案,由于计算出的残差信号与状态判定系数的数学性质,输出音频信号会以较为平缓的方式收敛到0以有效抑制回声,也即输出音频信号的幅度没有达到能够被语音识别服务识别出来的程度,保证了单讲状态下语音识别不会出现误识别误交互的情况;除此之外也可以选择在单讲状态时不生成输出音频信号的方案。而当车辆座舱内部的音频信号状态为单讲状态时,由于状态判定系数为1,最终的输出音频信号等于残差信号,最大限度地保留了近端信号中用户的人声部分,避免了信息损失,使语音识别更准确,提高了人机交互的精确性。
[0157]
如此,本技术可以根据判定确认的单双讲状态以及线性滤波确定的残差信号共同确定最终的输出信号以输入语音识别服务,从而实现语音人机交互。
[0158]
步骤08包括:
[0159]
根据预设时刻的残差信号与预设时刻的状态判定系数,确定输出音频信号的频谱;
[0160]
根据输出音频信号的频谱,经傅里叶反变换,确定输出音频信号。
[0161]
处理器用于根据预设时刻的残差信号与预设时刻的状态判定系数,确定输出音频信号的频谱,以及用于根据输出音频信号的频谱,经傅里叶反变换,确定输出音频信号。
[0162]
具体地,经nlms算法计算出的残差信号携带有频点信息,为了得到只携带有时间采样点信息的信号,需要进行一次反傅里叶变换。因此在将残差信号与状态判定系数做积
后,将得到的积进行反傅里叶变换,得到的信号即为只携带有时间采样点信息的音频信号,以之作为输出音频信号输入语音识别系统既能够实现人机语音交互。
[0163]
如此,本技术提供了确定输出音频信号的方法。
[0164]
本技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现如上所述的车辆座舱的音频信号处理方法。
[0165]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(readonly memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0166]
在本说明书的描述中,参考术语“某些实施方式”、“一个例子中”、“示例地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0167]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
[0168]
尽管上面已经示出和描述了本技术的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施方式进行变化、修改、替换和变型。

技术特征:


1.一种车辆座舱的音频信号处理方法,其特征在于,所述方法包括:获取车辆座舱内的第一音频信号以及第二音频信号;根据预设滤波器组、所述第一音频信号以及所述第二音频信号,确定第一梅尔倒谱系数与第二梅尔倒谱系数;根据所述第一梅尔倒谱系数与所述第二梅尔倒谱系数,确定比照系数;根据所述比照系数,确定车辆座舱的音频信号状态,以输出处理后的音频信号供语音识别使用。2.根据权利要求1所述的方法,其特征在于,所述获取车辆座舱内的第一音频信号以及第二音频信号,包括:确定获取第一音频信号的时间段;获取扬声器在所述时间段内播放的音频文件;根据所述音频文件,获取所述第二音频信号。3.根据权利要求1所述的方法,其特征在于,所述根据预设滤波器组、所述第一音频信号以及所述第二音频信号,确定第一梅尔倒谱系数与第二梅尔倒谱系数,包括:根据所述预设滤波器组的幅频响应以及所述第一音频信号,确定所述第一梅尔倒谱系数;根据所述预设滤波器组的幅频响应以及所述第二音频信号,确定所述第二梅尔倒谱系数。4.根据权利要求3所述的方法,其特征在于,所述预设滤波器组包括多个三角形滤波器,每个所述三角形滤波器的中心频率在梅尔频率尺度上等间隔分布;所述预设滤波器组的幅频响应根据每个所述三角形滤波器的下限频率、中心频率以及上限频率确定。5.根据权利要求3所述的方法,其特征在于,所述根据所述预设滤波器组的幅频响应以及所述第一音频信号,确定所述第一梅尔倒谱系数,包括:根据所述第一音频信号,确定第一功率谱函数;根据所述预设滤波器组的幅频响应以及所述第一功率谱函数,确定所述第一梅尔倒谱系数。6.根据权利要求3所述的方法,其特征在于,所述根据所述预设滤波器组的幅频响应以及所述第二音频信号,确定所述第二梅尔倒谱系数,包括:根据所述第二音频信号,确定第二功率谱函数;根据所述预设滤波器组的幅频响应以及所述第二功率谱函数,确定所述第二梅尔倒谱系数。7.根据权利要求1所述的方法,其特征在于,所述根据所述第一梅尔倒谱系数与所述第二梅尔倒谱系数,确定比照系数,包括:根据所述第一梅尔倒谱系数与所述第二梅尔倒谱系数,确定所述第一梅尔倒谱系数与所述第二梅尔倒谱系数的皮尔森系数,所述皮尔森系数是为所述比照系数。8.根据权利要求1所述的方法,其特征在于,所述根据所述比照系数,确定车辆座舱的音频信号状态,包括:根据所述比照系数与预设阈值的大小关系,确定车辆座舱的音频信号状态。9.根据权利要求8所述的方法,其特征在于,根据所述比照系数与预设阈值的大小关
系,确定车辆座舱的音频信号状态,包括:在所述比照系数大于所述预设阈值的情况下,确定所述音频信号状态为单讲状态;在所述比照系数小于或等于所述预设阈值的情况下,确定所述音频信号状态为双讲状态。10.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述第一音频信号以及第二音频信号,确定残差信号;根据初始时刻的所述车辆座舱的音频信号状态,确定所述初始时刻的状态判定系数;根据预设时刻的所述车辆座舱的音频信号状态以及所述预设时刻的前一时刻的状态判定系数,确定所述预设时刻的状态判定系数;根据所述预设时刻的状态判定系数以及所述预设时刻的残差信号,确定输出音频信号;将所述输出音频信号输入语音识别服务以实现人机交互。11.根据权利要求10所述的方法,其特征在于,所述根据所述预设时刻的状态判定系数以及所述预设时刻的残差信号,确定输出音频信号,包括:根据所述预设时刻的残差信号与所述预设时刻的状态判定系数,确定所述输出音频信号的频谱;根据所述输出音频信号的频谱,经傅里叶反变换,确定所述输出音频信号。12.一种车辆,其特征在于,所述车辆包括存储器与处理器;所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-11任一所述的方法。13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现如权利要求1-11任一所述的方法。

技术总结


本申请公开了一种车辆座舱的音频信号处理方法,包括:获取车辆座舱内的第一音频信号以及第二音频信号根据预设滤波器组、第一音频信号以及第二音频信号,确定第一梅尔倒谱系数与第二梅尔倒谱系数;根据第一梅尔倒谱系数与第二梅尔倒谱系数,确定比照系数;根据比照系数,确定车辆座舱的音频信号状态,以输出处理后的音频信号供语音识别使用。本申请以梅尔倒谱系数为特征判断单双讲状态,计算量更小,能够舍弃信号中的无效信息,避免了因设备造成的信号混淆以及对能量估计结果的损害,降低了扬声器非线性信号对远近端信号相关性的损害,屏蔽瞬时噪音或稳态噪音对远近端信号的不良影响,对车辆座舱的噪声具有较强的鲁棒性。对车辆座舱的噪声具有较强的鲁棒性。对车辆座舱的噪声具有较强的鲁棒性。


技术研发人员:

闫宇霆

受保护的技术使用者:

上海小鹏汽车科技有限公司

技术研发日:

2022.12.08

技术公布日:

2023/3/28

本文发布于:2024-09-23 07:32:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/81955.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信号   所述   音频   谱系
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议