声学模型——特征提取MFCCs

声学模型——特征提取MFCCs评剧宋丽

⼈类的听觉器官通过频域⽽不是波形来辨认声⾳；

江西省计划生育条例我们以帧为单位，依据听觉感知机理，按需调整声⾳⽚段频谱中各个成分的幅值，并将其参数化，得到适合表⽰语⾳信号特性的向量，这就是声学特征。

梅尔倒谱系数（Mel-Frequency Cepstral Coefficients, MFCCs）是最常见的声学特征，其提取流程如下：

1、对语⾳滑动加窗，从⽽实现分帧。通常帧长25ms，帧移10ms，这样可以保证帧内信号的平稳性，并使帧之间有交叠。

2、对每⼀帧做快速傅⾥叶变换（Fast Fourier Transformer, FFT），并计算功率谱。

混凝土配合比设计规范3、对功率谱应⽤梅尔滤波器组，获取每个滤波器内的对数能量作为系数。

4、对得到的梅尔滤波器对数能量向量做离散余弦变换（Discrete Cosine Transform, DCT）（通过设定DCT的输出个数，可以得到不同维数的MFCCs特征）邢崇智

注：FBank、PLP也是常⽤的声学特征，且FBank是不做DCT的MFCCs，它保留了特征维间的相关性，在⽤神经⽹络尤其是卷积神经⽹络作为声学模型时，通常选⽤Fbank作为特征；PLP提取⾃线性预测系数（Linear Prediction Coefficient, LPC）。

经济责任审计目标

朱生豪——kaldi语⾳识别实践（4 经典声学建模技术）

本文发布于:2024-09-23 01:35:46，感谢您对本站的认可！

标签：声学特征作为听觉

留言与评论（共有 0 条评论）