论文笔记:语音情感识别(一)语音知识概览

论⽂笔记:语⾳情感识别(⼀)语⾳知识概览
语⾳信号(声⾳是什么)
声⾳是由物体振动产⽣的声波,是通过介质(空⽓或固体、液体)传播并能被⼈或动物听觉器官所感知的波动现象,最初发出振动的物体叫声源。声⾳(语⾳消息)的基本模拟形式是⼀种称为语⾳信号的声学波。语⾳信号可以通过麦克风转化成电信号,转换成语⾳波形图,如下图为消息"should we chase"的波形图。横坐标表⽰时间,纵坐标表⽰振幅。⽂本"should we chase"按照发⾳可以表⽰成⾳素的形式[SH UH D - W IY - CH EY S],声波图中的每⼀段表⽰⼀个⾳素,在ARBAbet⾳素集中包含近64 = 2^6个符号。
声⾳作为波的⼀种,频率(声源在⼀秒内振动的次数)和振幅是描述波的重要属性,频率的⼤⼩与我们通常所说的⾳⾼对应,⽽振幅影响声⾳的⼤⼩。声⾳可以被分解为不同频率不同强度正弦波的叠加,正弦波是频率成分最为单⼀的⼀种信号,任何复杂信号都可以看成由许许多多频率不同、⼤⼩不等的正弦波复合⽽成。这种变换(或分解)的过程,称为傅⽴叶变换,通过这种分解我们可以把时域图转为频域图。
圆极化天线正弦信号表达式为\(y = A \sin(\omega x + \varphi)\)。其中A表⽰振幅。
\(\omega/2\pi\)表⽰频率。
对于(空⽓中的)声振动⽽⾔,振幅是声压与静⽌压强之差的最⼤值。其中声压是声波在空⽓中传播时形成压缩和稀疏交替变化的压⼒增值。麦克风录制声⾳的原理就是将空⽓中的压⼒变动波转化成电信号的变动。
⽽我们平常说的声⾳强度(响亮程度)就是由振幅决定的,声⾳强度的单位是分贝(dB),计算公式如下,⽤实测声压和参考声压之⽐的常⽤对数(常⽤对数lg以10为底,⾃然对数ln以e为底)的20倍来表⽰。下式中分母是参考值的声压,通常为20微帕,⼈类能听到的最⼩声压。
\[20*lg_(\frac{p}{p0}) \]
分贝表⽰功率量之⽐时,等于功率强度之⽐的常⽤对数的10倍。
分贝表⽰场量之⽐时,等于场强幅值之⽐的常⽤对数的20倍。
### 语⾳链(声⾳是怎么发出的)从语⾳信号的产⽣到感知的过程称为语⾳链,如下图所⽰。下⾯是语⾳信号产⽣的四个步骤。
1. ⽂本:消息以某种形式出现在说话者的⼤脑中,消息携带的信息可认为有着不同的表⽰形式,例如最初可能以英语⽂本的形式表⽰。假设书⾯语有32个符号,也就是2^5,⽤5个bit表⽰⼀个符号。正常的平均说话速率为15个符号每秒。上图例⼦中有15个字母“should we chase”,持续了0.6秒,信息流的速率为15x5/0.6 = 125 bps。
2. ⾳素:为了"说出"这条消息,说话者隐式地将⽂本转换成对应⼝语形式的声⾳序列的符号表⽰,即⽂本符号转成⾳素符号,⾳素符号⽤来描述⼝语形式消息的基本声⾳及声⾳发⽣的⽅式(即语速和语调)。ARBAbet⾳素集中包含近64 = 2^6个符号,⽤6个bit表⽰⼀个⾳素,上图例⼦中有8个⾳素,持续了0.6秒,信息流的速率为8x6/0.6 = 80 bps,考虑描述信号韵律特征的额外信息(⽐如段长,⾳⾼,响度),⽂本信息编码成语⾳信号后,总信息速率需要再加上100bps。
3. 发⾳:神经肌⾁系统以⼀种与产⽣⼝语形式消息及其语调相⼀致的⽅式,移动⾆头,唇,⽛齿,颌,软腭,使这些声道发声器官按规定的⽅式移动,进⽽发出期望的声⾳。
4. 刺激共振:声道系统产⽣物理⽣源和恰当的时变声道形状,产⽣上图所⽰的声学波形。
前两个阶段的信息表⽰是离散的,⽤⼀些简单假设就可以估计信息流的速率。
但是后两个阶段信息是连续的,以关节运动的形式发出,想要度量这些连续信息,需要进⾏恰当的采样和量化获得等效的数字信号,才能估计出数据的速率。事实上,因为连续的模拟信号容易收到噪声的影响,抗噪能⼒弱,通常会转为离散的数字信号。
在第三阶段,进⾏采样和量化后得到的数据率约为2000bps。
在最后⼀个阶段,数字语⾳波形的数据率可以从64kbps变化到700kbps。该数据是通过测量“表⽰语⾳信号时为达到想要的感知保真度”所需要的采样率和量化计算得到的。
⽐如,“电话质量”的语⾳处理需要保证宽带为0~4kHz,这意味着采样率为8000个样本每秒(根据⾹农采样定理,为了不失真地恢复模拟信号,采样频率应该不⼩于模拟信号频谱中最⾼频率的2倍),每个样本可以量化成8⽐特,从⽽得到数据率64000bps。这种表⽰⽅式很容易听懂,但对于⼤多数倾听者来说,语⾳听起来与说话者发出的原始语⾳会有不同。
另⼀⽅⾯,语⾳波形可以表⽰成“CD质量”,采⽤44100个样本每秒的采样率,每个样本16⽐特,总数据率为705600bps,此时复原的声学波听起来和原始信号⼏乎没有区别。
现在在⾳乐app上下载歌曲的时⼀般有四种⾳乐品质选择,标准(128kbps),较⾼(192kbps),极⾼(320kbps),⽆损品质。
将消息从⽂本表⽰转换成采样的语⾳波形时,数据率会增⼤10000倍。这些额外信息的⼀部分能够代表说话者的⼀些特征⽐如情绪状态,说话习惯等,但主要是由简单采样和对模拟信号进⾏精细量化的低效性导致的。因此,处于语⾳信号固有的低信息速率考虑,很多数字语⾳处理的重点是⽤更低的数据率对语⾳进⾏数字表⽰(通常希望数据率越低越好,同时保证重现语⾳信号的感知质量满⾜需要的⽔平)。
### 语⾳信号的ADC,即Analog-Digital Converter,“模-数”变换(声⾳是怎么保存的) **0. 预滤波(反混叠滤波)**:语⾳信号在采样之前要进⾏预滤波处理。⽬的有两个,⼀是抑制输⼊信号各频率分量中频率超过fs/2的所有分量(fs为采样频率),以防⽌混叠⼲扰;⼆是抑制50Hz的电源⼯频⼲扰。
1. 采样:原始的语⾳信号是连续的模拟信号,需要对语⾳进⾏采样,转化为时间轴上离散的数据。
采样后,模拟信号被等间隔地取样,这时信号在时间上就不再连续了,但在幅度上还是连续的。经过采样处理之后,模拟信号变成了离散时间信号。
采样频率是指⼀秒钟内对声⾳信号的采样次数,采样频率越⾼声⾳的还原就越真实越⾃然。
在当今的主流采集卡上,采样频率⼀般共分为22.05KHz、44.1KHz、48KHz三个等级,22.05KHz只能达到FM⼴播的声⾳品质,44.1KHz则是理论上的CD⾳质界限(⼈⽿⼀般可以感觉到20-20K Hz的声⾳,根据⾹农采样定理,采样频率应该不⼩于最⾼频率的两倍,所以40KHz 是能够将⼈⽿听见的声⾳进⾏很好的还原的⼀个数值,于是CD公司把采样率定为44.1KHz),48KHz则更加精确⼀些。
对于⾼于48KHz的采样频率⼈⽿已⽆法辨别出来了,所以在电脑上没有多少使⽤价值。
2. 量化:进⾏分级量化,将信号采样的幅度划分成⼏个区段,把落在某区段的采样到的样品值归成⼀
类,并给出相应的量化值。根据量化间隔是否均匀划分,⼜分为均匀量化和⾮均匀量化。
均匀量化的特点为“⼤信号的信噪⽐⼤,⼩信号的信噪⽐⼩”。缺点为“为了保证信噪⽐要求,编码位数必须⾜够⼤,但是这样导致了信道利⽤率低,如果减少编码位数⼜不能满⾜信噪⽐的要求”(根据信噪⽐公式,编码位数越⼤,信噪⽐越⼤,通信质量越好)。
通常对语⾳信号采⽤⾮均匀量化,基本⽅法是对⼤信号使⽤⼤的量化间隔,对⼩信号使⽤⼩的量化间隔。由于⼩信号时量化间隔变⼩,其相应的量化噪声功率也减⼩(根据量化噪声功率公式),从⽽使⼩信号时的量化信噪⽐增⼤,改善了⼩信号时的信噪⽐。
量化后,信号不仅在时间上不再连续,在幅度上也不连续了。经过量化处理之后,离散时间信号变成了数字信号。
3. 编码:在量化之后信号已经变成了数字信号,需要将数字信号编码成⼆进制。“CD质量”的语⾳采⽤44100个样本每秒的采样率,每个样本
16⽐特,这个16⽐特就是编码的位数。
采样,量化,编码的过程称为A/D转换,如下图所⽰。反过程为D/A转换,因为A/D之前进⾏了预滤波,D/A转换后⾯还需要加⼀个平滑滤波器。A/D转换,D/A转换,滤波这些功能都可以⽤⼀块芯⽚来
完成,在市⾯上能买到各种这样的芯⽚。
### 语⾳信号的预处理(声⾳要做什么预处理)语⾳信号的预处理⼀般包括预加重,分帧,加窗,端点检测。
1. 预加重:求语⾳信号频谱(频谱是指时域信号在频域下的表⽰⽅式,关于频域和时域的理解如下图所⽰,图源见参考资料[4]),频率越⾼相应的成分越⼩,⾼频部分的频谱⽐低频部分的难求,为此要在预处理中进⾏预加重(Pre-emphasis)处理。预加重的⽬的是提⾼⾼频部分,使信号的频谱变得平坦,以便于频谱分析或者声道参数分析。预加重可在语⾳信号数字化时在反混叠滤波器之前进⾏,但⼀般是在语⾳信号数字化之后。
2. 短时分析:语⾳信号从整体来看是随时间变化的,是⼀个⾮平稳过程,不能⽤处理平稳信号的数字信号处理技术对其进⾏分析处理。但是,由于不同的语⾳是由⼈的⼝腔肌⾁运动构成声道某种形状⽽产⽣的响应,这种运动对于语⾳频率来说是⾮常缓慢的,所以从另⼀⽅⾯看,虽然语⾳信号具有时变特性,但是在⼀个短时间范围内(⼀般认为在10-30ms)其特性基本保持相对稳定,即语⾳具有短时平稳性。所以任何语⾳信号的分析和处理必须建⽴在“短时”的基础上,即进⾏“短时分析”。
3. 分帧:为了进⾏短时分析,将语⾳信号分为⼀段⼀段,其中每⼀段称为⼀帧,⼀般取10-30ms,为了使帧与帧之间平滑过渡,保持连续性,使⽤交叠分段的⽅法,可以想成⼀个指针p从头开始,截取⼀段头为p,长度为帧长的⽚段,然后指针p移动,移动的步长就称为帧移,每移动⼀次都截取⼀段,这样就得到很多帧。
4. 加窗:加窗就是⽤⼀定的窗函数\(w(n)\)来乘\(s(n)\),从⽽形成加窗语⾳信号\(s_w(n) = s(n) * w(n)\),
常⽤的窗函数是矩形窗和汉明窗,⽤矩形窗其实就是不加窗,窗函数中有个N,指的是窗⼝长度(样本点个数),对应⼀帧,通常在8kHz取样频率下,N折中选择为80-160(即10-20ms持续时间)。
5. 端点检测:从⼀段语⾳信号中准确地出语⾳信号的起始点和结束点,它的⽬的是为了使有效的语⾳信号和⽆⽤的噪声信号得以分离。对于⼀些公共的语⾳数据集可以不做这步操作,因为这些语⾳的内容就是有效的语⾳信号(可以认为研究⼈员已经对数据做过端点检测)。
### 语⾳信号的特征(声⾳的特征)特征的选取是语⾳处理的关键问题,特征的好坏直接影响到语⾳处理(⽐如语⾳识别)的精度。然⽽在语⾳领域中,没有⼀个所谓的标准特征集,不同的语⾳系统选取的特征组合不尽相同。
语⾳的特征⼀般是由信号处理专家定义的,⽐较流⾏的特征是MFCC(梅尔频率倒谱系数)。
磁卡制作最近看的⼀些论⽂⼤都⽤CNN从声谱图中抽取特征。声谱图就是对原始的语⾳信号(raw waveform)分帧加窗,对每⼀帧做FFT后获得的图。声谱图的横坐标是时间,纵坐标是频率,坐标点值为振幅(或功率),振幅值的⼤⼩是通过颜⾊来表⽰。
在中我有介绍声谱图(⼜分为线性的和梅尔的)和MFCC的计算过程。
其它⽐较流⾏的特征如共振峰频率,基因周期,过零率和能量等等。
2013 InterSpeech其中⼀个挑战赛中⽤的特征集ComParE features set,有6373维的特征。
有另⼀个⽐较精简的特征集GeMAPS(Geneva Minimalistic Acoustic Parameter Set)包含62个特征。加上扩展的有88个特征,称为eGeMAPS(extended GeMAPS)。
最近看的论⽂中常常会出现有两个词,LLDs(low level descriptors)和HSFs(high level statistics fu
nctions),其中LLDs指的是⼈⼯设计的⼀些低⽔平特征,LLDs可以作为帧特征,⽽HSFs指的是在LLDs的基础上做⼀些统计⽽得到的特征,⽐如均值,最⼤值等等,HSFs可以作为utterance(⼀段语⾳,⽐帧⾼⼀级的语⾳单位,通常指⼀句话,⼀个语⾳样本)特征。
在中我有介绍LLDs,HSFs,eGeMAPS和ComparE特征集。
语⾳情感数据库介绍
计算机对从传感器采集来的信号进⾏分析和处理,得出对⽅正处在的情感状态,这种⾏为叫作情感识别。
⽬前对于情感识别有两种⽅式,⼀种是检测⽣理信号如呼吸,⼼律和体温等,另⼀种是检测情感⾏为如⾯部表情识别,语⾳情感识别和姿态识别。
语⾳情感数据集是研究语⾳情感识别的重要基础,按照情感描述类型可将数据集分为离散情感数据库和维度情感数据库,前者以离散的语⾔标签(如⾼兴,悲伤等)作为情感标注,后者以连续的实数坐标值表⽰情感。
下⾯介绍⼀些离散语⾳情感数据集。
1. Belfast英语情感数据库:40位录⾳者(20男20⼥,18-69岁),对五个段落(每个段落7-8个句⼦)进⾏演讲录制,演讲者按照五种情感倾向进⾏演讲:⽣⽓(anger),悲伤(sadness),⾼兴(happiniess),害怕(fear),中性(neutral)。
2. 柏林Emo-DB情感数据库:德国柏林⼯业⼤学录制,10位演员(5男5⼥),对10个德语语⾳进⾏表演,包含了七种情感:⽣⽓(anger),悲伤(sadness),⾼兴(happiniess),害怕(fear),中性(neutral),厌恶(disgust),⽆聊(boredom)。共包含800句语料(10 位演员 x10 句话 x7 种情感+100 条某些语句的⼆次版本),后经过筛选得到500多条,采样率为 48kHz (后压缩⾄
16kHz),16bit 量化。语料⽂本的选取遵从语义中性、⽆情感倾向的原则,且为⽇常⼝语化风格,⽆过多的书⾯语修饰。语⾳的录制在专业录⾳室中完成,要求演员在表演某个特定情感⽚段前通过回忆⾃⾝真实经历或体验进⾏情绪的酝酿,来增强情绪的真实感。
3. FAU AIBO⼉童德语情感数据库:2009年在Interspeech会议上举办Emotion Challenge评⽐中指定的语⾳情感数据库。通过⼉童与索尼公司的AIBO机器狗进⾏⾃然交互,从⽽进⾏情感数据的采集。说话⼈由51名⼉童组成,年龄段为10-13岁,其中30个为⼥性。语料库包含9.2⼩时的语⾳,48401个单词。采样频率为48kHz(后压缩⾄ 16kHz),16⽐特量化。该数据库中情感数据的⾃然度⾼,数据量⾜够⼤,是较为流⾏的⼀个语⾳情感数据库。
4. CASIA汉语情感数据库:中科院⾃动化所录制,两男两⼥录制500句不同的⽂本,通过演讲者不同的感情演讲得出,最后的语⾳⼜⼈⼯筛选,得到了⼤约9600条语句。分为六类情感。
5. ACCorpus系列汉语情感数据库:清华⼤学和中科院⼼理研究所合作录制,相对于CASIA录制⼯作者更多,代表性更强。包含如下 5 个相关⼦库:ACCorpus_MM 多模态、多通道的情感数据库;ACCorpus_SR 情感语⾳识别数据库;ACCorpus_SA 汉语普通话情感分析数据库;ACCorpus_FV ⼈脸表情视频数据库;ACCorpus_FI ⼈脸表情图像数据库。以 ACCorpus_SR 为例,该⼦库是由 50 位录⾳⼈(25男25⼥)对 5类情感(中性、⾼兴、⽣⽓、恐惧和悲伤)各⾃表演得到,16kHz 采样,16bit 量化。
室内天麻种植技术6. IEMOCAP:南加利福尼亚⼤学录制的,10个演员,1男1⼥演绎⼀个session,共5个session。录制了将近12⼩时的数据,有视频,语⾳,⼈脸的变动捕捉和⽂本。包括即兴⾃发的和照着稿⼦念的。每个utterance⾄少三个⼈评估。包括9种情感
(anger,happiness,excitement,sadness,frustration,fear,surprise,other和neural)的离散标签,以及三个维度的维度标签(valence, activation and dominance)。
7. 其它:除此之外,还有⼀些⽇语,丹麦语等情感数据库。
语⾳情感识别算法
六六六滴滴涕1. 常⽤的机器学习分类器:模式识别领域的诸多算法(传统)都曾⽤于语⾳情感识别的研究,⽐如GMM(⾼斯混合模
型),SVM,KNN,HMM(隐马尔可夫模型)。⽤LLDs(low level descriptors)和HSFs(high level statistics functions)这些⼿⼯设计特征喂进去训练。
2. 声谱图+CRNN:最近很多⼈⽤声谱图加上CNN,LSTM这些深度学习模型来做。还有⼿⼯特征加声谱图⼀起作为特征丢进深度学习模型。也有⼈⽤DBN但是相对少很多。具体的⼀些模型我在另⼀篇笔记中有介绍。
3. ⼿⼯特征+CRNN:也有⼈⽤⼿⼯特征加CRNN做。具体的⼀些模型我在另⼀篇笔记中有介绍。
参考资料高压脉冲电容器
[1]
方形磁铁
[2]
[3]
[4]

本文发布于:2024-09-22 14:34:10,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/241326.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信号   情感   特征   频率   量化   采样   数据库   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议