声学模型——特征提取MFCCs

声学模型——特征提取MFCCs评剧宋丽
⼈类的听觉器官通过频域⽽不是波形来辨认声⾳;
江西省计划生育条例我们以帧为单位,依据听觉感知机理,按需调整声⾳⽚段频谱中各个成分的幅值,并将其参数化,得到适合表⽰语⾳信号特性的向量,这就是声学特征。
梅尔倒谱系数(Mel-Frequency Cepstral Coefficients, MFCCs)是最常见的声学特征,其提取流程如下:
1、对语⾳滑动加窗,从⽽实现分帧。通常帧长25ms,帧移10ms,这样可以保证帧内信号的平稳性,并使帧之间有交叠。
2、对每⼀帧做快速傅⾥叶变换(Fast Fourier Transformer, FFT),并计算功率谱。
混凝土配合比设计规范3、对功率谱应⽤梅尔滤波器组,获取每个滤波器内的对数能量作为系数。
4、对得到的梅尔滤波器对数能量向量做离散余弦变换(Discrete Cosine Transform, DCT)(通过设定DCT的输出个数,可以得到不同维数的MFCCs特征)邢崇智
注:FBank、PLP也是常⽤的声学特征,且FBank是不做DCT的MFCCs,它保留了特征维间的相关性,在⽤神经⽹络尤其是卷积神经⽹络作为声学模型时,通常选⽤Fbank作为特征;PLP提取⾃线性预测系数(Linear Prediction Coefficient, LPC)。
经济责任审计目标
朱生豪——kaldi语⾳识别实践(4 经典声学建模技术)

本文发布于:2024-09-23 01:35:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/55360.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

下一篇:无线信道仿真
标签:声学   特征   作为   听觉
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议