用于梅尔频率倒谱系数的实现的优化方法与流程



1.本发明涉及梅尔频率倒谱系数的实现,特别涉及一种用于梅尔频率倒谱系数的实现的优化方法。


背景技术:



2.在声音处理领域中,梅尔频率倒谱是基于对数能量频谱在非线性梅尔刻度上的线性转换,且梅尔频率倒谱系数(mel-frequency cepstral coefficients,mfcc)就是组成梅尔频率倒谱的系数。mfcc已广泛用于语言识别领域,且mfcc的实现主要包括如下步骤
3.1.分帧(framing):将声音信号分解为多个帧,且每一帧为声音信号的400个采样点。
4.2.分窗(windowing):将每一帧乘以窗函数,例如汉明(hamming)窗,以增加帧左端与右端的连续性。
5.3.快速傅立叶变换(fast fourier transform,fft):对已进行分帧及分窗后的帧信号做fft,以得到相对应的频谱。
6.4.梅尔滤波(mel filtering):将帧信号获得的频谱通过梅尔滤波器来得到梅尔刻度。
7.5.非线性转换(non-linear transformation):对梅尔滤波器得到的梅尔刻度取对数。
8.6.离散余弦转换(discrete cosine transform,dct):对取得的对数能量做dct,以转换为倒频谱域并得到mfcc。
9.然而,上述各步骤都还有可改善空间,因此如何提供出一种用于mfcc的实现的优化方法则成为本领域的一项重要课题。


技术实现要素:



10.有鉴于此,本发明实施例提供一种用于mfcc的实现的优化方法,包括如下步骤。在分帧的步骤中,用400
×
16的静态随机存取存储器(static random access memory,sram)来对声音信号的多个采样点完成有交叠的临时存储,并且将声音信号分解为多个帧。每一帧为400个采样点,相邻两帧之间则具有交叠区域,且交叠区域包含了240个采样点。接着,在分窗的步骤中,用比特级(bit level)设计来让每一帧乘以窗函数,并且在快速傅立叶变换的步骤中,对已进行分帧及分窗后的帧信号做512点快速傅立叶变换,以得到相对应的频谱。
11.优选地,在快速傅立叶变换的步骤中,进一步使用坐标旋转数字计算器(coordinate rotational digital computer,cordic)来完成快速傅立叶变换的所有乘法运算。
12.优选地,优化方法进一步包括在梅尔滤波的步骤中,将帧信号获得的频谱通过阶数不同的26个滤波器来获得梅尔刻度,并且进一步可采用两个乘法器和两个加法器来实现
梅尔滤波的所有运算。
13.优选地,优化方法进一步包括在非线性转换的步骤中,把对梅尔刻度取对数用的ln公式改成log2公式,以减少一个乘法器,同时使用移位加插值的方式来实现该log2公式,以得到对数能量。
14.优选地,优化方法进一步包括在dct的步骤中,用13个乘法器和13个累加器来完成对得到的对数能量做dct,以得到13个mfcc。
15.为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。
附图说明
16.图1是本发明实施例所提供用于mfcc的实现的优化方法的步骤流程图。
具体实施方式
17.以下是通过特定的具体实施例来说明本发明的实施方式,本领域技术人员可由本说明书所提供的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不悖离本发明的构思下进行各种修改与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所提供的内容并非用以限制本发明的保护范围。
18.应当理解的是,虽然本文中可能会使用到“第一”、“第二”、“第三”等术语来描述各种组件或者信号,但这些组件或者信号不应受这些术语的限制。这些术语主要是用以区分一组件与另一组件,或者一信号与另一信号。另外,本文中所使用的术语“或”,应视实际情况可能包含相关联的列出项目中的任一个或者多个的组合。
19.请参阅图1,图1是本发明实施例所提供用于mfcc的实现的优化方法的步骤流程图。如图1所示,在分帧的步骤s130中,本实施例会用400
×
16的静态随机存取存储器来对声音信号的多个采样点完成有交叠的临时存储,并且将声音信号分解为多个帧。
20.每一帧为400个采样点,且为了避免相邻两帧的变化过大,因此本实施例会让相邻两帧之间具有交叠区域,且交叠区域包含了240个采样点,也就是说帧彼此间隔160个采样点。接着,在分窗的步骤s140中,本实施例会用比特级设计来让每一帧乘以窗函数。窗函数可为汉明窗,且每一帧乘以汉明窗的公式为:
[0021][0022]
n为窗长度,也就是说在本实施例中,n为帧内的采样点个数,即400。另外,sw(n)为帧中的第n个采样点,且sw′
(n)则为帧乘以汉明窗后的第n个采样点。
[0023]
然后,在快速傅立叶变换的步骤s150中,本实施例会对已进行分帧及分窗后的帧信号,即sw′
(1)到sw′
(400)做512点快速傅立叶变换,以得到相对应的频谱。需说明的是,在快速傅立叶变换的步骤s150中,本实施例进一步可使用坐标旋转数字计算器来完成快速傅立叶变换的所有乘法运算。
[0024]
由此可见,相较于现有技术,本发明已提出了用于mfcc的实现的优化方法。另外,
在梅尔滤波的步骤s160中,本实施例会将帧信号获得的频谱通过阶数不同的26个滤波器来获得梅尔刻度。
[0025]
然而,如果要独立计算,最后一个滤波器就需要45个乘法运算,因此在梅尔滤波的步骤s160中,根据所有奇数级的滤波器或所有偶数级的滤波器会有首尾相连的特性,本实施例进一步可采用两个乘法器和两个加法器来实现梅尔滤波的所有运算。
[0026]
另外,在非线性转换的步骤s170中,本实施例会把对梅尔刻度取对数用的ln公式改成log2公式,以减少一个乘法器,同时使用移位加插值的方式来实现该log2公式,以得到对数能量。该ln公式为:
[0027][0028]
s(m)为对数能量,xa(k)为频谱,且hm(k)为滤波器。另外,这里的m和n分别为滤波器个数和快速傅立叶变换长度,即26和512,且该log2公式为:
[0029][0030]
最后,因为26
×
13矩阵的特殊性不能采用现有实现方法中系数对称的特性,所以在dct的步骤s180中,本实施例会直接使用13个乘法器和13个累加器来完成对得到的对数能量做dct,以得到13个mfcc,即其公式为:
[0031][0032]
l是指mfcc的系数阶数,本领域技术人员可依据实际需求来决定取哪13个,且lf为22。
[0033]
另一方面,在分帧的步骤之前,mfcc的实现更可包括直流偏移补偿(dc offset compensation)的步骤以及预加重(pre-emphasis)的步骤,且直流偏移补偿的现有公式为:
[0034]sof
(i)=s
in
(i)-s
in
(i-1)+0.999
×sof
(i-1)。
[0035]sin
(i)为声音信号的第i个采样点,且s
of
(i)为声音信号已进行直流偏移补偿后的第i个采样点。另外,预加重的现有公式为:
[0036]spe
(i)=s
of
(i)-0.91
×sof
(i-1)。
[0037]spe
(i)为声音信号已进行预加重后的第i个采样点。然而,因为0.999可相当于1-2-10
,所以本实施例可把直流偏移补偿的现有公式中的乘法改成一次减法,也就是说把直流偏移补偿的现有公式修改为:
[0038]sof
(i)=s
in
(i)-s
in
(i-1)+s
of
(i-1)-2-10sof
(i-1)。
[0039]
类似地,因为0.97可相当于1-2-5
,所以本实施例也可把预加重的现有公式修改为:
[0040]spe
(i)=s
of
(i)-s
of
(i-1)+2-5sof
(i-1)。
[0041]
换句话说,图1的优化方法进一步可包括在直流偏移补偿的步骤s110中,利用公式:s
of
(i)=s
in
(i)-s
in
(i-1)+s
of
(i-1)-2-10sof
(i-1)来对声音信号的每一采样点进行直流偏移补偿,并且在预加重的步骤s120中,利用公式:s
pe
(i)=s
of
(i)-s
of
(i-1)+2-5sof
(i-1)来对声音信号已进行直流偏移补偿后的每一采样点进行预加重。相对地,分帧的步骤s130所
指的多个采样点就是声音信号已进行预加重后的多个采样点。
[0042]
综上所述,相较于现有技术,本实施例的直流偏移补偿与预加重的公式就不会因有乘法而变得复杂,并且应当理解的是,本实施例的优化方法可让mfcc的实现做到面积和功耗更省。
[0043]
以上所提供的内容仅为本发明的优选可行实施例,并非因此局限本发明的申请专利范围,所以凡是运用本发明说明书及附图内容所做的等同技术变化,均包含于本发明的申请专利范围内。
[0044]
【符号说明】
[0045]
s110~s180:流程步骤

技术特征:


1.一种用于梅尔频率倒谱系数的实现的优化方法,包括:在分帧的步骤中,用400
×
16的静态随机存取存储器来对一声音信号的多个采样点完成有交叠的临时存储,并且将所述声音信号分解为多个帧,其中所述多个帧中的每一帧为所述多个采样点中的400个采样点,所述多个帧中的相邻两个帧之间则具有一交叠区域,且所述交叠区域包含了所述多个采样点中的240个采样点;以及在分窗的步骤中,用比特级设计来让所述多个帧中的每一帧乘以一窗函数,并且在快速傅立叶变换的步骤中,对已进行所述分帧及所述分窗后的帧信号做512点快速傅立叶变换,以得到相对应的频谱。2.根据权利要求1所述的优化方法,其中在所述快速傅立叶变换的步骤中,进一步使用坐标旋转数字计算器来完成所述快速傅立叶变换的所有乘法运算。3.根据权利要求1所述的优化方法,进一步包括:在梅尔滤波的步骤中,将所述帧信号通过阶数不同的26个滤波器来获得梅尔刻度。4.根据权利要求3所述的优化方法,其中在所述梅尔滤波的步骤中,进一步采用两个乘法器和两个加法器来实现所述梅尔滤波的所有运算。5.根据权利要求3所述的优化方法,进一步包括:在非线性转换的步骤中,把对所述梅尔刻度取对数用的ln公式改成log2公式,以减少一个乘法器,同时使用移位加插值的方式来实现所述log2公式,以得到对数能量。6.根据权利要求5所述的优化方法,进一步包括:在离散余弦转换的步骤中,用13个乘法器和13个累加器来完成对得到的所述对数能量做所述离散余弦转换,以得到13个梅尔频率倒谱系数。7.根据权利要求1所述的优化方法,其中在所述分帧的步骤之前,所述梅尔频率倒谱系数的实现进一步包括直流偏移补偿的步骤以及预加重的步骤。8.根据权利要求7所述的优化方法,进一步包括:在所述直流偏移补偿的步骤中,利用公式:s
of
(i)=s
in
(i)-s
in
(i-1)+s
of
(i-1)-2-10
s
of
(i-1)来对所述声音信号的所述多个采样点中的每一采样点进行该直流偏移补偿,其中s
in
(i)为所述声音信号的第i个采样点,且s
of
(i)为所述声音信号已进行所述直流偏移补偿后的第i个采样点。9.根据权利要求8所述的优化方法,进一步包括:在所述预加重的步骤中,利用公式:s
pe
(i)=s
of
(i)-s
of
(i-1)+2-5
s
of
(i-1)来对所述声音信号已进行所述直流偏移补偿后的所述多个采样点中的每一采样点进行所述预加重,其中s
pe
(i)为所述声音信号已进行所述预加重后的第i个采样点。

技术总结


本发明公开一种用于梅尔频率倒谱系数的实现的优化方法,包括如下步骤。在分帧的步骤中,用400


技术研发人员:

谈力立 王志林 曹晓峰 李晓焕

受保护的技术使用者:

瑞昱半导体股份有限公司

技术研发日:

2021.06.11

技术公布日:

2022/12/12

本文发布于:2024-09-22 19:31:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/35554.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   傅立叶   步骤   梅尔
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议