到达时间差TDOA估计方法、装置、电子设备及可读存储介质与流程

到达时间差tdoa估计方法、装置、电子设备及可读存储介质

技术领域


:1.本技术实施例涉及通信

技术领域


:,尤其涉及一种到达时间差tdoa估计方法、装置、电子设备及可读存储介质。

背景技术


::2.到达时间差(timedifferenceofarrival,tdoa)估计是语音信号处理的基本任务之一,可以利用tdoa进行说话人的定位。3.目前常用的tdoa估计方法为基于互相关方法,采用逐个采样点搜索对比方式,选择互相关函数最大时对应采样点间隔作为tdoa的估计值。在实现本技术过程中,发明人发现现有技术中至少存在如下问题:tdoa的估计值只能是采样周期的整数倍,可见,现有tdoa估计的精度较低。技术实现要素:4.本技术实施例提供一种到达时间差tdoa估计方法、装置、电子设备及可读存储介质,能够解决现有技术中因tdoa的估计分辨率受采样周期的限制,导致tdoa的估计精度较低的问题。5.为解决上述问题,本技术是这样实现的:6.第一方面,本技术实施例提供了一种tdoa估计方法,包括:获取第i语音帧的幅度谱和解卷绕相位差谱,i为正整数;获取所述幅度谱中位于镜像频点左侧的频点,得到所述第i语音帧的第一频点集合;根据所述解卷绕相位差谱中与所述第一频点集合对应的解卷绕相位差集合,以及所述幅度谱中与所述第一频点集合对应的第一幅度集合,确定所述第i语音帧对应的第一相位差斜率谱;根据所述第一相位差频率谱对应的第一平滑相位差频率谱,确定所述第i语音帧的tdoa。7.第二方面,本技术实施例还提供一种tdoa估计装置,包括:第一获取模块,用于获取第i语音帧的幅度谱和解卷绕相位差谱,i为正整数;第二获取模块,用于获取所述幅度谱中位于镜像频点左侧的频点,得到所述第i语音帧的第一频点集合;第一确定模块,用于根据所述解卷绕相位差谱中与所述第一频点集合对应的解卷绕相位差集合,以及所述幅度谱中与所述第一频点集合对应的第一幅度集合,确定第i语音帧对应的第一相位差斜率谱;第二确定模块,用于根据所述第一相位差频率谱对应的第一平滑相位差频率谱,确定所述第i语音帧的tdoa。8.第三方面,本技术实施例还提供一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的tdoa估计方法。9.第四方面,本技术实施例还提供一种可读存储介质,该可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的tdoa估计方法。10.第五方面,本技术实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。11.在本技术实施例中,在估计每个语音帧的tdoa时,先获取语音帧的幅度谱和解卷绕相位差谱,根据镜像频点,筛选出语音帧的第一频点集合。之后,利用解卷绕相位差谱中与所述第一频点集合对应的解卷绕相位差集合,以及所述幅度谱中与所述第一频点集合对应的第一幅度集合,确定语音帧对应的第一相位差斜率谱。根据所述第一相位差频率谱对应的第一平滑相位差频率谱,确定语音帧的tdoa。可见,本技术实施例的tdoa的估计消除了采样周期对估计分辨率的限制,从而可以提高tdoa的估计精度。附图说明12.图1是本技术实施例提供的tdoa估计方法的流程图之一;13.图2是本技术实施例提供的效果示意图之一;14.图3是本技术实施例提供的效果示意图之二;15.图4是本技术实施例提供的效果示意图之三;16.图5是本技术实施例提供的效果示意图之四;17.图6是本技术实施例提供的效果示意图之五;18.图7是本技术实施例提供的效果示意图之六;19.图8是本技术实施例提供的tdoa估计方法的流程图之二;20.图9是本技术实施例提供的效果示意图之七;21.图10是本技术实施例提供的效果示意图之八;22.图11是本技术实施例提供的tdoa估计装置的结构图;23.图12是本技术实施例提供的电子设备的结构图之一;24.图13是本技术实施例提供的电子设备的结构图之二。具体实施方式25.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。26.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。27.下面结合附图,通过一些实施例及其应用场景对本技术实施例提供的tdoa估计方法进行详细地说明。28.本技术实施例的tdoa估计方法可以由电子设备执行。所述电子设备包括至少两个麦克风(mic)。为方便理解,以下以电子设备包括第一麦克风和第二麦克风进行示例说明,但并不因此限制电子设备包括的麦克风的数量。29.在实际应用中,电子设备可以是手机、平板电脑(tabletpersonalcomputer)、膝上型电脑(laptopcomputer)或称为笔记本电脑、个人数字助理(personaldigitalassistant,pda)、掌上电脑、上网本、超级移动个人计算机(ultra-mobilepersonalcomputer,umpc)、移动上网装置(mobileinternetdevice,mid)、增强现实(augmentedreality,ar)/虚拟现实(virtualreality,vr)设备、机器人、可穿戴式设备(wearabledevice)、车载设备(vue)、行人终端(pue)、智能家居(具有无线通信功能的家居设备,如冰箱、电视、洗衣机或者家具等)等终端侧设备,可穿戴式设备包括:智能手表、智能手环、智能耳机、智能眼镜、智能首饰(智能手镯、智能手链、智能戒指、智能项链、智能脚镯、智能脚链等)、智能腕带、智能服装、游戏机等。30.在下述实施例中,所述第i语音帧可以理解为采集到的语音信号对应的任一个语音帧。针对每个语音帧,均可以采用本技术实施例的tdoa估计方法估计其tdoa。31.参见图1,图1是本技术实施例提供的tdoa估计方法的流程图之一。如图1所示,本技术实施例的tdoa估计方法可以包括以下步骤:32.步骤101、获取第i语音帧的幅度谱和解卷绕相位差谱,i为正整数。33.具体实施时,在对语音信号进行分帧处理得到所述第i语音帧之后,可以对所述第i语音帧进行傅里叶变换,得到所述第i语音帧的幅度谱(ampcur)和相位差谱(phasediff)。所述ampcur包括所述第i语音帧对应的各频点,以及各频点对应的幅度值。所述phasediff包括所述第i语音帧对应的各频点,以及各频点对应的两个麦克风(或称为两个通道)的相位差值。34.之后,对所述相位差谱执行解卷绕操作,得到解卷绕相位差谱(diffunwrap),diffunwrap具有较好的平坦性和一致性特征,可以消除卷绕的影响,这样,利用diffunwrap确定所述第i语音帧的tdoa,可以提高tdoa的估计精度。35.一种可选实施方式中,所述解卷绕操作可以包括:对phasediff进行2π(pi)取余数,再依次进行正弦变换和反正弦变换,但不限于此。36.ampcur、phasediff和diffunwrap的效果图可以参见图2。其中,图2中(a)所示为邻近三帧的某通道(通道与麦克风一一对应)幅度谱ampcur;图2中(b)所示为邻近三帧的phasediff;图2中(c)所示为邻近三帧的diffunwrap。由图2可知,diffunwrap在幅度较强的子带区域表现了很好的平坦性特征。37.步骤102、获取所述幅度谱中位于镜像频点左侧的频点,得到所述第i语音帧的第一频点集合。38.具体实施时,电子设备可以利用镜像频点(floorbin4mirror)筛选出ampcur中位于floorbin4mirror左边的频点,即小于floorbin4mirror的频点,得到第一频点集合(ibinbig)。在此情况下,ibinbig包括所述幅度谱中位于镜像频点左侧的频点。39.镜像频点(floorbin4mirror)可以根据双麦间距(distmic)、采样频率(fs)、傅立叶变换长度(lenfft)等计算得到。在一些实施例中,所述第i语音帧由第一麦克风和第二麦克风采集得到,所述幅度谱通过对所述第i语音帧执行傅里叶变换得到;所述获取所述幅度谱中位于镜像频点左侧的频点,得到所述第i语音帧的第一频点集合之前,所述方法还包括:根据所述第一麦克风和所述第二麦克风的间距,所述第一麦克风的采样频率,所述傅里叶变换的傅里叶变换长度,确定所述镜像频点。具体实现时,floorbin4mirror可以通过以下公式计算得到:floorbin4mirror=velocity×lenfft/(fs×distmic),但不仅限于此。40.通过上述方式,在确定所述第一频点集合时,仅考虑loorbin4mirror频点左边的频点,这样可以避免tdoa过大场景下因diffunwrap镜像卷绕导致的严重误差,从而可以提高tdoa的估计精度。41.步骤103、根据所述解卷绕相位差谱中与所述第一频点集合对应的解卷绕相位差集合,以及所述幅度谱中与所述第一频点集合对应的第一幅度集合,确定所述第i语音帧对应的第一相位差斜率谱。42.在确定ibinbig之后,可以先确定diffunwrap中与ibinbig对应的解卷绕相位差集合(diffunwrap(ibinbig)或diffbig);以及ampcur中与ibinbig对应的第一幅度集合(ampcur(ibinbig))。diffbig具有明显的等效率分布特征,具体可参见图3。43.图3中(a)所示为邻近三帧的ampcur;图3中(b)所示为邻近三帧的diffunwrap;图3中(c)所示为邻近三帧的diffbig。由图3可知,diffbig在幅度较强的子带区域表现了很好的等斜率分布特征。44.之后,根据diffunwrap(ibinbig)和ampcur(ibinbig),确定所述第一相位差斜率谱(slopebigcur)。一种可选实施方式中,可以对diffunwrap(ibinbig)进行ampcur(ibinbig)加权平均,得到slopebigcur。具体实施时,针对ibinbig中的每个频点,其斜率值可以通过以下公式计算得到:频点的斜率值=(频点对应的幅度值×频点对应的卷解扰相位差)/频点。由于diffbig在幅度较强的子带区域表现了很好的等斜率分布特征,基于diffbig估计tdoa,可以进一步提高tdoa的估计精度。45.步骤104、根据所述第一相位差频率谱对应的第一平滑相位差频率谱,确定所述第i语音帧的tdoa。46.具体实施时,在获取到slopebigcur之后,可以对slopebigcur进行历史平滑,得到第一平滑相位差频率谱(slopebigsmth)。47.slopebigcur和slopebigsmth的效果图可以参见图4。图4中(a)所示为某通道的语谱图;图4中(b)所示为slopebigcur和slopebigsmth。由图4可知,slopebigsmth能较好的趋近于一个稳定值,如在图4中,趋向于0.01。48.一种实施方式中,slopebigsmth趋近的稳定值可以直接映射tdoa,在此情况下,可以通过查稳定值与tdoa的映射关系,确定第i语音帧的tdoa。49.另一些实施方式中,电子设备可以结合slopebigsmth以及其他信息,确定第i语音帧的tdoa,具体可以参见下述相关描述,此处不再赘述。50.本实施例的tdoa估计方法,在估计每个语音帧的tdoa时,先获取语音帧的幅度谱和解卷绕相位差谱,根据所述幅度谱对应的幅度门限值,以及镜像频点门限值,筛选出语音帧的第一频点集合。之后,利用解卷绕相位差谱中与所述第一频点集合对应的解卷绕相位差集合,以及所述幅度谱中与所述第一频点集合对应的第一幅度集合,确定语音帧对应的第一相位差斜率谱。根据所述第一相位差频率谱对应的第一平滑相位差频率谱,确定语音帧的tdoa。可见,本技术实施例的tdoa的估计消除了采样周期对估计分辨率的限制,从而可以提高tdoa的估计精度。51.另外,由上述内容可知,本技术实施例的tdoa的估计可以通过四则运算和历史平滑处理实现,从而可以降低tdoa的估计复杂度。52.在一些实施例中,ibinbig包括的频点可以直接基于floorbin4mirror确定。在另一些实施例中,ibinbig包括的频点还可以进一步结合幅度门限值(floorbigamp)确定,具体说明如下:53.所述获取所述幅度谱中位于镜像频点左侧的频点,得到所述第i语音帧的第一频点集合,可以包括:54.根据所述幅度谱的幅度均值以及幅度最大值,确定所述第i语音帧对应的门限值;55.对所述门限值进行历史平滑,得到所述幅度谱对应的幅度门限值;56.获取所述幅度谱中满足第一条件的频点,得到所述第i语音帧的第一频点集合;57.其中,所述第一条件包括:位于镜像频点的左侧,以及对应的幅度值大于所述幅度门限值。58.ampcur对应的幅度门限值(floorbigamp)可以基于ampcur的均值(meanamp)和最大值(peakamp)计算得到的。59.具体实现时,门限值(floorbigcur)可以通过以下计算公式计算得到:floorbigcur=meanamp+0.3×(peakamp-meanamp),但不仅限于此。60.一种实施方式中,电子设备可以先利用floorbigamp,筛选出ampcur中幅度值大于floorbigamp的频点集合,之后,利用floorbin4mirror筛选出该频点集合中位于floorbin4mirror左边的频点,即小于floorbin4mirror的频点,得到所述第一频点集合(ibinbig)。61.另一种实施方式中,电子设备可以先利用floorbin4mirror筛选出ampcur中位于floorbin4mirror左边的频点,即小于floorbin4mirror的频点,得到频点集合,之后,利用floorbigamp筛选出该频点集合中对应的幅度值大于floorbigamp的频点,得到ibinbig。62.通过上述方式,在确定所述第一频点集合时,仅考虑位于loorbin4mirror频点左边,且幅度值大于floorbigamp的频点,这样,一方面可以避免tdoa过大场景下因diffunwrap镜像卷绕导致的严重误差,另一方面可以滤除抗干扰性弱的信息,从而可以提高tdoa的估计精度。63.在一些实施例中,所述根据所述第一相位差斜率谱对应的第一平滑相位差斜率谱,确定所述第i语音帧的tdoa,可以包括:64.根据所述第一相位差斜率谱对应的第一平滑相位差斜率谱,确定所述解卷绕相位谱中发生镜像卷绕的频点,得到所述第i语音帧的第二频点集合;65.根据所述第二频点集合,对所述解卷绕相位差谱去镜像,得到去镜像相位差谱;66.根据所述幅度谱对应的幅度均值,确定所述第i语音帧的第三频点集合,所述第三频点集合中各频点对应的幅度值均大于所述幅度均值;67.根据所述去镜像相位差谱中与所述第三频点集合对应的去镜像相位差集合,以及所述幅度谱中与所述第一频点集合对应的第二幅度集合,确定第i语音帧对应的第二相位差斜率谱;68.根据所述第一平滑相位差斜率谱,以及所述第二相位差斜率谱对应的第二平滑相位差斜率谱,确定所述第i语音帧的tdoa。69.在本实施例中,电子设备可以先基于slopebigsmth计算diffunwrap中发生镜像卷绕的频点,得到所述第i语音帧的第二频点集合(ibinmirror)。70.一种可选实施方式中,所述幅度谱通过对所述第i语音帧执行傅里叶变换得到;71.所述根据所述第一相位差斜率谱对应的第一平滑相位差斜率谱,确定所述解卷绕相位谱中发生镜像卷绕的频点,得到所述第i语音帧的第二频点集合,可以包括:72.根据所述第一相位差斜率谱对应的第一平滑相位差斜率谱中的最大斜率值,以及所述傅里叶变换的傅里叶变换长度,确定第一频点;73.根据所述第一频点,以及所述最大斜率值,确定发生镜像卷绕的频点,得到所述第i语音帧的第二频点集合。74.具体实施时,电子设备可以根据傅里叶变换长度(lenfft),计算得到幅度谱长度(lenamp)。一种可选实现方式中,lenamp=lenfft/2+1。75.电子设备在确定slopebigsmth中的最大斜率值(slopebig),以及lenamp之后,一种实现方式中,可以通过以下计算公式计算得到第一频点(nbinmirror):nbinmirror=floor(lenamp*slopebig/pi),其中,floor表示向下取整函数。76.一种实现方式中,可以通过以下计算公式计算得到发生镜像卷绕的频点:ibinmirror=round(pi/slopebig×(1:nbinmirror)'),其中,round表示四舍五入函数。77.之后,利用ibinmirror对diffunwrap去镜像去镜像,得到去镜像相位差谱(diffmirror)。一种可选实施方式中,所述去镜像操作可以包括:基于ibinmirror对diffunwrap进行2pi倍数翻转,但不仅限于此。78.diffmirror的效果可参见图5。图5中(a)所示为邻近三帧的ampcur;图5中(b)所示为邻近三帧的diffunwrap;图5中(c)所示为邻近三帧的diffmirror。由图5可知,diffmirror中不存在明显的镜像卷绕误差。因此,基于diffmirror计算tdoa,可以提高tdoa的估计精度。79.ampcur对应的幅度均值(ceilsmallamp)可以基于ampcur的meanamp确定,一种可选实施方式中,可以对meanamp进行历史平滑,得到ceilsmallamp。80.在确定ceilsmallamp之后,可以将ampcur中幅值大于ceilsmallamp的频点集合确定为所述第三频点集合(ibinnosmall)。81.之后,先确定diffmirror中与ibinnosmall对应的去镜像相位差集合(diffmirror(ibinnosmall)),以及ampcur中与ibinnosmall对应的第二幅度集合(ampcur(ibinnosmall))。确定第i语音帧对应的第二相位差斜率谱。82.之后,根据diffmirror(ibinnosmall)和ampcur(ibinnosmall),确定所述第二相位差斜率谱(slopenosmallcur)。一种可选实施方式中,可以对diffmirror(ibinnosmall)进行ampcur(ibinnosmall)加权平均,得到slopenosmallcur。具体实施时,针对ibinnosmall中的每个频点,其斜率值可以通过以下公式计算得到:频点的斜率值=(频点对应的幅度值×频点对应的去镜像相位差)/频点。83.对slopenosmallcur进行历史平滑,得到所述第二平滑相位差斜率谱(slopenosmallsmth)。相比于slopebigsmth,slopenosmallsmth能够更好的反映中高频区间的tdoa。slopenosmallsmth的效果图可以参见图6。84.图6中(a)所示为ampcur;图6中(b)所示为slopebigcur和slopebigsmth;图6中(c)所示为slopenosmallcur和slopenosmallsmth。由图6可知,slopenosmallsmth也能较好的趋近一个稳定值,该值能直接映射tdoa。85.因此,在本实施例中,电子设备可以根据slopebigsmth和slopenosmallsmth,确定tdoa,这样,相比于直接根据slopebigsmth确定tdoa,进一步考虑了高频区间的tdoa,从而可以进一步提高tdoa的估计精度。86.一种可选实施方式中,电子设备可以将slopebigsmth趋近的稳定值映射的第一tdoa,以及slopenosmallsmth趋近的稳定值映射的第二tdoa的平均值,确定为所述第i语音帧的tdoa。87.另一种可选实施方式中,所述根据所述第一平滑相位差斜率谱,以及所述第二相位差斜率谱对应的第二平滑相位差斜率谱,确定所述第i语音帧对应的tdoa,可以包括:88.根据所述第一平滑相位差斜率谱,以及所述第二相位差斜率谱对应的第二平滑相位差斜率谱,确定平均相位差斜率谱;89.根据所述平均相位差斜率谱,确定第i语音帧对应的角度谱;90.根据所述角度谱,确定第i语音帧的tdoa。91.具体实施时,可以对slopebigsmth和slopenosmallsmth做加权平均,得到平均相位差斜率谱(slopeavg)。92.之后,根据slopeavg,计算第i语音帧对应的角度谱(anglecur)。一种可选实现方式中,可以根据slopeavg、distmic、声速(velocity)、采样频率(fs)等信息,计算anglecur,具体可通过以下公式计算anglecur:anglecur=180/piꢀ×asin(slopeavg×velocity×lenfft/(2×pi×fs×distmic)),其中,asin表示反正弦函数。93.anglecur具有高精度和抗噪性较好等优点,具体可参见图7。94.图7中(a)所示为ampcur;图7中(b)所示为slopebigcur、slopenosmallcur和slopeavg;图7中(c)所示为anglecur。由图7可知,anglecur以较高精度和稳定性趋近于真实的入射角度(-20度),说明tdoa的估计是可靠的。95.再根据distmic、声速等信息计算得到对应的anglecur,后者具有高精度和抗噪性较好等优点。96.基于此,可以直接将所述角度谱趋近的稳定值确定为第i语音帧的tdoa。这样,可以提高tdoa估计精的精度和抗噪性。97.在本技术实施例中,在图2至图7中,入射角度(angle)为-20度,傅立叶变换长度(lenfft)为2048,麦克风间距(distmic)为0.2米(m),采样频率(fs)为16千赫兹(khz),帧长lenframe为512,信噪比(signal-noiseratio,snr)为100000db。98.phasediff也可以称为相位差;diffunwrap也可以称为解卷绕后的相位差;ampcur也可以称为当前帧幅度谱;floorbigcur也可以称为强幅度下限;diffbig也可以称为强幅度频点处相位差;floorbin4mirror也可以称为相位差发生镜像的频点的下限;slopebigcur也可以称为当前帧的强幅度频点的相位差的斜率;slopebigsmth也可以称为强幅度频点的相位差的斜率的历史平滑值;ibinmirror也可以称为发生镜像卷绕的频点位置;diffmirror也可以称为去镜像后的相位差;slopenosmallcur也可以称为当前帧的非弱幅度频点的相位差的斜率;slopenosmallsmth也可以称为非弱频点的相位差的斜率的历史平滑值;slopeavg也可以称为加权平均的相位差斜率;anglecur也可以称为当前帧的声源入射角;meanamp也可以称为当前帧的幅度谱的均值;peakamp也可以称为当前帧的幅度谱的最大值;ibinbig也可以称为强幅度频点集合;ibinnosmall也可以称为非弱幅度频点集合。99.需要说明的是,本技术实施例中介绍的多种可选的实施方式,在彼此不冲突的情况下可以相互结合实现,也可以单独实现,对此本技术实施例不作限定。100.为方便理解,示例说明如下:101.本示例提供的tdoa估计方法,计算复杂度低于现有所有方法,估计分辨率无限制,并且具有较好的抗噪性能。102.本示例提供的tdoa估计方法包括:103.1)计算通道间的相位差phasediff,然后对2pi取余和正反正弦变化,得到的diffunwrap具有较好的平坦性和一致性特征。效果示意图可以参见图2。其中,图2中(a)所示为邻近三帧的某通道(通道与麦克风一一对应)幅度谱ampcur;图2中(b)所示为邻近三帧的phasediff;图2中(c)所示为邻近三帧的diffunwrap。由图2可知,diffunwrap在幅度较强的子带区域表现了很好的平坦性特征。104.基于该示例分析得到:diffunwrap在幅度较强的子带区域表现了很好的平坦性特征。105.2)根据当前帧的幅度谱ampcur的均值和最大值,确定一个强能量门限floorbigcur,据此从diffunwrap中提取diffbig,后者具有明显的等斜率分布特征。效果示例图可以参见图3。106.图3中(a)所示为邻近十五帧的ampcur;图3中(b)所示为邻近十五帧的diffunwrap;图3中(c)所示为邻近十五帧的diffbig。107.基于该示例分析得到:diffbig在幅度较强的子带区域表现了很好的等斜率分布特征。108.3)在确定diffbig过程中,只考虑第floorbin4mirror频点左边的频点,这样可以避免tdoa过大场景下因diffunwrap镜像卷绕导致的严重误差。109.floorbin4mirror可根据双麦间距distmic、采样频率fs、傅立叶变换长度lenfft等计算得到。110.4)对diffbig进行ampcur加权取平均,得到slopebigcur,然后进行历史平滑得到slopebigsmth,后者与tdoa之间存在一一映射关系。效果示例图可以参见图4。图4中(a)所示为某通道的语谱图;图4中(b)所示为slopebigcur和slopebigsmth。111.基于该示例分析得到:slopebigsmth能较好的趋近于一个稳定值,该值能直接映射tdoa。112.5)根据slopebigsmth确定diffunwrap中发生镜像卷绕的频点位置ibinmirror,再将diffunwrap去镜像得到diffmirror。效果示例图可以参见图5。113.图5中(a)所示为邻近三帧的ampcur;图5中(b)所示为邻近三帧的diffunwrap;图5中(c)所示为邻近三帧的diffmirror。114.基于该示例分析得到:diffmirror中不存在明显的镜像卷绕误差。115.6)对diffmirror进行ampcur加权取平均,得到slopenosmallcur,然后进行历史平滑得到slopenosmallsmth,后者能够更好的反映中高频区间的tdoa。效果示例图可以参见图6。116.图6中(a)所示为ampcur;图6中(b)所示为slopebigcur和slopebigsmth;图6中(c)所示为slopenosmallcur和slopenosmallsmth。117.基于该示例分析得到:slopenosmallsmth也能较好的趋近一个稳定值,该值能直接映射tdoa。118.7)对slopebigsmth和slopenosmallsmth做加权平均得到slopeavg,再根据distmic、声速等信息计算得到对应的anglecur,后者具有高精度和抗噪性较好等优点。效果示例图可以参见图7。119.图7中(a)所示为ampcur;图7中(b)所示为slopebigcur、slopenosmallcur和slopeavg;图7中(c)所示为anglecur。120.基于该示例分析得到:anglecur以较高精度和稳定性趋近于真实的入射角度(-20度),说明tdoa的估计是可靠的。121.如图8所示,tdoa估计方法可以包括以下步骤:122.步骤801、信号分帧再进行傅立叶变换,得到ampcur和phasediff。123.步骤802、对phasediff进行2pi取余数,再依次进行正弦变换和反正弦变换,得到diffunwrap。124.步骤803、根据ampcur求取均值meanamp和最大值peakamp,计算得到floorbigcur。125.floorbigcur可以通过以下公式计算得到:floorbigcur=meanamp+0.3*(peakamp-meanamp)。126.步骤804、对meanamp和floorbigcur进行历史平滑,分别得到ceilsmallamp和floorbigamp。127.步骤805、选择ampcur中大于floorbigamp的频点集合,得到ibinbig。128.步骤806、对diffunwrap(ibinbig)进行ampcur(ibinbig)加权平均,得到slopebigcur。129.步骤807、对slopebigcur进行历史平滑,得到slopebigsmth。130.步骤808、根据slopebigsmth计算diffunwrap中发生镜像卷绕的频点位置集合ibinmirror。131.步骤809、基于ibinmirror对diffunwrap进行2pi倍数翻转,得到diffmirror。132.步骤810、选择ampcur中大于ceilsmallamp的频点集合,得到ibinnosmall。133.步骤811、对diffmirror(ibinnosmall)进行ampcur(ibinnosmall)加权平均,得到slopenosmallcur。134.步骤812、对slopenosmallcur进行历史平滑,得到slopenosmallsmth。135.步骤813、对slopebigsmth和slopenosmallsmth进行加权平均得到slopeavg,再根据后者计算得到anglecur。136.步骤814、根据anglecur,确定tdoa。137.本技术实施例的tdoa估计方法包括以下效果:138.一、消除了采样周期对估计分辨率的限制,提高了估计精度。为方便理解,请参见图9。在图9a至图9c中,distmic为0.2米(m),fs为16千赫兹(khz),帧长lenframe为512,傅立叶变换长度lenfft为2048,信噪比(signal-noiseratio,snr)为30分贝(db),入射角度为-20度。139.图9中(a)所示为下麦的幅度谱;图9中(b)所示为上麦的幅度谱;图9中(c)所示为anglecur。140.根据本例分析得到:anglecur的估计值和真实入射角十分接近,并且不受限于采样周期。141.二、不需要进行大计算量的矩阵搜索,明显降低了计算复杂度。142.从每帧处理过程看,只有少量的四则运算和很少量的历史平滑,说明本方法的计算复杂度非常低。143.三、具有较好的抗噪性能,工程实用性强。144.为方便理解,请参见图10。在图10中,distmic为0.2m,fs为16khz,帧长lenframe为512,傅立叶变换长度lenfft为2048,信噪比snr为0db,入射角度为-20度。145.图10中(a)所示为下麦的幅度谱;图10中(a)所示为上麦的幅度谱;图10中(a)所示为anglecur。146.根据本例分析得到:即使在snr很低的场景下,anglecur的估计误差均值约为5度,在工程上仍然具有较高参考价值。147.需要说明的是,本技术实施例提供的tdoa估计方法,执行主体可以为tdoa估计装置,或者,该tdoa估计装置中的用于执行tdoa估计方法的控制模块。本技术实施例中以tdoa估计装置执行tdoa估计方法为例,说明本技术实施例提供的tdoa估计装置。148.参见图11,图11是本技术实施例提供的tdoa估计装置的结构图。149.如图11所示,tdoa估计装置1100包括:150.第一获取模块1101,用于获取第i语音帧的幅度谱和解卷绕相位差谱,i为正整数;151.第二获取模块1102,用于获取所述幅度谱中位于镜像频点左侧的频点,得到所述第i语音帧的第一频点集合;152.第一确定模块1103,用于根据所述解卷绕相位差谱中与所述第一频点集合对应的解卷绕相位差集合,以及所述幅度谱中与所述第一频点集合对应的第一幅度集合,确定第i语音帧对应的第一相位差斜率谱;153.第二确定模块1104,用于根据所述第一相位差频率谱对应的第一平滑相位差频率谱,确定所述第i语音帧的tdoa。154.在一些实施例中,所述第二确定模块,包括:155.第一确定子模块,用于根据所述第一相位差斜率谱对应的第一平滑相位差斜率谱,确定所述解卷绕相位谱中发生镜像卷绕的频点,得到所述第i语音帧的第二频点集合;156.去镜像子模块,用于根据所述第二频点集合,对所述解卷绕相位差谱去镜像,得到去镜像相位差谱;157.第二确定子模块,用于根据所述幅度谱对应的幅度均值,确定所述第i语音帧的第三频点集合,所述第三频点集合中各频点对应的幅度值均大于所述幅度均值;158.第三确定子模块,用于根据所述去镜像相位差谱中与所述第三频点集合对应的去镜像相位差集合,以及所述幅度谱中与所述第一频点集合对应的第二幅度集合,确定第i语音帧对应的第二相位差斜率谱;159.第四确定子模块,用于根据所述第一平滑相位差斜率谱,以及所述第二相位差斜率谱对应的第二平滑相位差斜率谱,确定所述第i语音帧的tdoa。160.在一些实施例中,所述幅度谱通过对所述第i语音帧执行傅里叶变换得到;161.所述第一确定子模块,包括:162.第一确定单元,用于根据所述第一相位差斜率谱对应的第一平滑相位差斜率谱中的最大斜率值,以及所述傅里叶变换的傅里叶变换长度,确定第一频点;163.第二确定单元,用于根据所述第一频点,以及所述最大斜率值,确定发生镜像卷绕的频点,得到所述第i语音帧的第二频点集合。164.在一些实施例中,所述第四确定子模块,包括:165.第三确定单元,用于根据所述第一平滑相位差斜率谱,以及所述第二相位差斜率谱对应的第二平滑相位差斜率谱,确定平均相位差斜率谱;166.第四确定单元,用于根据所述平均相位差斜率谱,确定第i语音帧对应的角度谱;167.第五确定单元,用于根据所述角度谱,确定第i语音帧的tdoa。168.在一些实施例中,所述第一获取模块,包括:169.第五确定子模块,用于根据所述幅度谱的幅度均值以及幅度最大值,确定所述第i语音帧对应的门限值;170.第一平滑子模块,用于对所述门限值进行历史平滑,得到所述幅度谱对应的幅度门限值;171.获取子模块,用于获取所述幅度谱中满足第一条件的频点,得到所述第i语音帧的第一频点集合;172.其中,所述第一条件包括:位于镜像频点的左侧,以及对应的幅度值大于所述幅度门限值。173.在一些实施例中,所述第i语音帧由第一麦克风和第二麦克风采集得到,所述幅度谱通过对所述第i语音帧执行傅里叶变换得到;174.所述装置还包括:175.第三确定模块,用于根据所述第一麦克风和所述第二麦克风的间距,所述第一麦克风的采样频率,所述傅里叶变换的傅里叶变换长度,确定所述镜像频点。本技术实施例中的tdoa估计装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobilepersonalcomputer,umpc)、上网本或者个人数字助理(personaldigitalassistant,pda)等,非移动电子设备可以为服务器、网络附属存储器(networkattachedstorage,nas)、个人计算机(personalcomputer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。176.本技术实施例中的tdoa估计装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。177.本技术实施例提供的tdoa估计装置能够实现图1的方法实施例中tdoa估计装置实现的各个过程,为避免重复,这里不再赘述。178.可选地,如图12所示,本技术实施例还提供一种电子设备1200,包括处理器1201,存储器1202,存储在存储器1202上并可在所述处理器1201上运行的程序或指令,该程序或指令被处理器1201执行时实现上述tdoa估计方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。179.需要说明的是,本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。180.图13为实现本技术实施例的一种电子设备的硬件结构示意图。181.该电子设备1300包括但不限于:射频单元1301、网络模块1302、音频输出单元1303、输入单元1304、传感器1305、显示单元1306、用户输入单元1307、接口单元1308、存储器1309、以及处理器13010等部件。182.本领域技术人员可以理解,电子设备1300还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1130逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图13中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。183.其中,处理器13010,用于:184.获取第i语音帧的幅度谱和解卷绕相位差谱,i为正整数;185.获取所述幅度谱中位于镜像频点左侧的频点,得到所述第i语音帧的第一频点集合;186.根据所述解卷绕相位差谱中与所述第一频点集合对应的解卷绕相位差集合,以及所述幅度谱中与所述第一频点集合对应的第一幅度集合,确定所述第i语音帧对应的第一相位差斜率谱;187.根据所述第一相位差频率谱对应的第一平滑相位差频率谱,确定所述第i语音帧的tdoa。188.需要说明的是,电子设备1300能够实现图1的方法实施例中tdoa估计装置实现的各个过程,为避免重复,这里不再赘述。189.应理解的是,本技术实施例中,输入单元1304可以包括图形处理器(graphicsprocessingunit,gpu)13041和麦克风13042,图形处理器13041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1306可包括显示面板13061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板13061。用户输入单元1307包括触控面板13071以及其他输入设备13072。触控面板13071,也称为触摸屏。触控面板13071可包括触摸检测装置和触摸控制器两个部分。其他输入设备13072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器1309可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器13010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器13010中。190.本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述tdoa估计方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。191.其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等。192.本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述tdoa估计方法实施例的各个过程,且能达到相同的技术效果,为避免重复,不再赘述。193.应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。194.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。195.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。196.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。当前第1页12当前第1页12

技术特征:


1.一种到达时间差tdoa估计方法,其特征在于,包括:获取第i语音帧的幅度谱和解卷绕相位差谱,i为正整数;获取所述幅度谱中位于镜像频点左侧的频点,得到所述第i语音帧的第一频点集合;根据所述解卷绕相位差谱中与所述第一频点集合对应的解卷绕相位差集合,以及所述幅度谱中与所述第一频点集合对应的第一幅度集合,确定所述第i语音帧对应的第一相位差斜率谱;根据所述第一相位差频率谱对应的第一平滑相位差频率谱,确定所述第i语音帧的tdoa。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一相位差斜率谱对应的第一平滑相位差斜率谱,确定所述第i语音帧的tdoa,包括:根据所述第一相位差斜率谱对应的第一平滑相位差斜率谱,确定所述解卷绕相位谱中发生镜像卷绕的频点,得到所述第i语音帧的第二频点集合;根据所述第二频点集合,对所述解卷绕相位差谱去镜像,得到去镜像相位差谱;根据所述幅度谱对应的幅度均值,确定所述第i语音帧的第三频点集合,所述第三频点集合中各频点对应的幅度值均大于所述幅度均值;根据所述去镜像相位差谱中与所述第三频点集合对应的去镜像相位差集合,以及所述幅度谱中与所述第一频点集合对应的第二幅度集合,确定第i语音帧对应的第二相位差斜率谱;根据所述第一平滑相位差斜率谱,以及所述第二相位差斜率谱对应的第二平滑相位差斜率谱,确定所述第i语音帧的tdoa。3.根据权利要求2所述的方法,其特征在于,所述幅度谱通过对所述第i语音帧执行傅里叶变换得到;所述根据所述第一相位差斜率谱对应的第一平滑相位差斜率谱,确定所述解卷绕相位谱中发生镜像卷绕的频点,得到所述第i语音帧的第二频点集合,包括:根据所述第一相位差斜率谱对应的第一平滑相位差斜率谱中的最大斜率值,以及所述傅里叶变换的傅里叶变换长度,确定第一频点;根据所述第一频点,以及所述最大斜率值,确定发生镜像卷绕的频点,得到所述第i语音帧的第二频点集合。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一平滑相位差斜率谱,以及所述第二相位差斜率谱对应的第二平滑相位差斜率谱,确定所述第i语音帧对应的tdoa,包括:根据所述第一平滑相位差斜率谱,以及所述第二相位差斜率谱对应的第二平滑相位差斜率谱,确定平均相位差斜率谱;根据所述平均相位差斜率谱,确定第i语音帧对应的角度谱;根据所述角度谱,确定第i语音帧的tdoa。5.根据权利要求1所述的方法,其特征在于,所述获取所述幅度谱中位于镜像频点左侧的频点,得到所述第i语音帧的第一频点集合,包括:根据所述幅度谱的幅度均值以及幅度最大值,确定所述第i语音帧对应的门限值;对所述门限值进行历史平滑,得到所述幅度谱对应的幅度门限值;
获取所述幅度谱中满足第一条件的频点,得到所述第i语音帧的第一频点集合;其中,所述第一条件包括:位于镜像频点的左侧,以及对应的幅度值大于所述幅度门限值。6.根据权利要求1所述的方法,其特征在于,所述第i语音帧由第一麦克风和第二麦克风采集得到,所述幅度谱通过对所述第i语音帧执行傅里叶变换得到;所述获取所述幅度谱中位于镜像频点左侧的频点,得到所述第i语音帧的第一频点集合之前,所述方法还包括:根据所述第一麦克风和所述第二麦克风的间距,所述第一麦克风的采样频率,所述傅里叶变换的傅里叶变换长度,确定所述镜像频点。7.一种tdoa估计装置,其特征在于,包括:第一获取模块,用于获取第i语音帧的幅度谱和解卷绕相位差谱,i为正整数;第二获取模块,用于获取所述幅度谱中位于镜像频点左侧的频点,得到所述第i语音帧的第一频点集合;第一确定模块,用于根据所述解卷绕相位差谱中与所述第一频点集合对应的解卷绕相位差集合,以及所述幅度谱中与所述第一频点集合对应的第一幅度集合,确定第i语音帧对应的第一相位差斜率谱;第二确定模块,用于根据所述第一相位差频率谱对应的第一平滑相位差频率谱,确定所述第i语音帧的tdoa。8.根据权利要求7所述的装置,其特征在于,所述第一获取模块,包括:第五确定子模块,用于根据所述幅度谱的幅度均值以及幅度最大值,确定所述第i语音帧对应的门限值;第一平滑子模块,用于对所述门限值进行历史平滑,得到所述幅度谱对应的幅度门限值;获取子模块,用于获取所述幅度谱中满足第一条件的频点,得到所述第i语音帧的第一频点集合;其中,所述第一条件包括:位于镜像频点的左侧,以及对应的幅度值大于所述幅度门限值。9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的tdoa估计方法的步骤。10.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的tdoa估计方法的步骤。

技术总结


本申请提供一种到达时间差TDOA估计方法、装置、电子设备及可读存储介质。该方法包括:获取第i语音帧的幅度谱和解卷绕相位差谱,i为正整数;获取所述幅度谱中位于镜像频点左侧的频点,得到所述第i语音帧的第一频点集合;根据所述解卷绕相位差谱中与所述第一频点集合对应的解卷绕相位差集合,以及所述幅度谱中与所述第一频点集合对应的第一幅度集合,确定所述第i语音帧对应的第一相位差斜率谱;根据所述第一相位差频率谱对应的第一平滑相位差频率谱,确定所述第i语音帧的TDOA。确定所述第i语音帧的TDOA。确定所述第i语音帧的TDOA。


技术研发人员:

刘良兵

受保护的技术使用者:

维沃移动通信有限公司

技术研发日:

2022.04.25

技术公布日:

2022/10/18

本文发布于:2024-09-21 13:27:33,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/24744.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   相位差   斜率   幅度
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议