语音分析与语音处理

语音是人类获取信息的重要来源和利用信息的重要手段。语音信号处理是一门发展十分迅速、应用非常广泛的前沿交叉学科，同时又是一门跨学科的综合性应用研究领域和新兴技术。现代语音信号系统包括语音信号采集单元和语音信号处理单元。

语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科，它是一门新兴的学科，同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号信息处理及计算机应用等学科，但是它与语音学、语言学、声学、认知科学、生理学、心理学等学科也有非常密切的联系。

从技术角度讲，语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术之一。在高度发达的信息社会用数字化的方法进行语音的传送、存储、识别、合成、增强等是整个数字化通信网中的重要组成部分之一。同时，语言不仅是人类相互间进行沟通的最自然和最方便的形式，也是人与机器之间进行通信的重要工具，它是一种理想的人机通信方式，因而可为计算机、自动化系统等建立良好的人机交互环境，进一步推动计算机和其他智能机器的应用，提高社会的信息化和自动化程度。

其中语音信号处理的一个重要的部分是频谱分析。有趣的是，人类对变化的频率比对变化的本身更要敏感得多。人耳对声音敏感的不是声波本身而是声波的频率，例如男声、女生和低音、高音等。所谓频谱分析就是周期性分析，频谱估计就是周期性估计。频谱分析和估计不仅是揭示信号特征的重要方法，也是处理信号的重要手段。这些方法和手段己经广泛地应用于通信、雷达、地震、生物医学、物理、化学、音乐、经济等领域。如此广泛的应用主要归功于数字信号处理(DSP)理论和技术的进步。自从1965年图基（J.W.Tuky）和库利（T.W.Coody）在《计算机数学》杂志上发表了著名的《机器计算傅立叶级数的一种算法》论文后，桑德（G.Sand）——图基等快速算法相继出现，由经人们进行改进，很快形成一套高效运算方法，这就是现在的快速傅立叶变换，简称（FFT）。由于实现方法的限制，这些理论还得不到广泛得应用。直到20世纪80年代，世界上第一片单片可编程DSP（数字信号处理）芯片的诞生，才将理论研究成果广泛应用到低成本的实际系统中，并且推动了新的理论和应用领域的发展，并为各式各样的频域问题，提供了一个统一的、经济的、单片继承的解决办法。

2.1 语音信号的特点

构成人类语音的是声音，然而这是一种特殊的声音，是由人讲话所发出的声音。语音是由一连串的音所组成。语音具有被称为声学特征的物理性质。语音中的各个音的排列由一些规则所控制，对这些规则及其含意的研究属于语言学的范畴，而对语音中音的分类和研究则称为语音学。

语音既是人的发音器官发出来的一种声波，它就个其他各种声音一样，也具有声音的物理属性。它具有以下一些特性：

1 音质。它是一种声音区别与其他声音的基本特征。

2 音调。就是声音的高低。音调取决于声波的频率：频率快则音调高，频率慢则音调低

③声音的强弱。音强及音量，又称响度。它是由声波振动幅度决定的。

④声音的长短。也称音长，它取决于发音持续时间的长短。

语音信号最主要的特性是随时间而变化的，是一个非平稳的随机过程。但是，从另一方面看，虽然语音信号具有时变特性，但在一个短时间范围内其个性基本保持不变。这是因为

人的肌肉运动有一个惯性，从一个状态到另一个状态的转变是不可能瞬间完成的，而是存在一个时间过程。在没有完成状态转变时，可从近似认为它不变。只要时间足够短，这个假设是成立的。在一个较短的时间内语音信号的特征基本保持不变，这是语音信号处理的一个重要出发点。因而我们可以采用平稳过程的分析处理方法来处理语音。

2.2语音信号处理的主要方式

根据所分析的参数不同，语音信号分析又可分为时域、频域、倒频域等方法。时域分析具有简单、运算量小、物理意义明确等优点；但更为有效的分析多是围绕频域进行的，因为语音中最重要的感知特性反映在其功率谱中，而相位变化只起很小的作用。傅立叶分析在信号处理中具有十分重要的作用，它是分析线性系统和平稳信号稳态特性的强有力手段，在许多工程和科学领域得到了广泛的应用。这种以复指数函数为基函数的正交变换，理论上和完善，计算上很方便，概念上易于理解。傅立叶分析能是信号的某些特性变得很明显，而在原始信号中这些特性可能没有表现出来或至少不明显。

然而，语音波是一个非平稳过程，因此使用与周期、瞬变或平稳随机信号的标准傅立叶变换不能用来直接表示语音信号。前面已提到，我们可以采用平稳过程的分析处理方法来处

理语音。对语音处理来说，短时分析的方法是有效的解决途径。短时分析方法应用于傅立叶分析就是短时傅立叶变换，即有限长度的傅立叶变换，相应的频谱称为“短时谱”。语音信号的短时谱分析是以傅立叶变换为核心的，其特征是频谱包络与频谱微细结构以乘积的方式混合在一起，另一方面是可用FFT进行高速处理。语音信号处理基本分为两种分析方法：数字信号处理和模拟信号处理。而目前对语音信号处理均采用数字处理，这是因为数字处理与模拟处理相比具有许多优点。其表现为：

1 数字技术能够完成许多很复杂的信号处理工作；

2 通过语音进行交换的信息本质上具有离散的性质，因为语音可以看作是音素的组合，这就特别适合于数字处理；

3 数字系统具有高可靠性、廉价、快速等优点，很容易完成实时处理任务；

4 数字语音适于在强干扰信道中传输，也易于进行加密传输。因此，数字语音信号处理是语音信息处理的主要方法。

2.3 语音信号处理系统的一般结构

语音信号处理系统首先需要信号的采集，然后才进行语音信号的处理，其一般结构如下：

根据采集信号的不同，可分为模拟信号和数字信号，其处理系统也可分为模拟处理系统和数字处理系统。如果加上模数转换和数模转换芯片，模拟处理系统可处理数字信号，数字处理系统也可处理模拟信号。由于数字信号处理比模拟信号处理具有许多不可比拟的优越性，大多数情况都采用数字处理系统。

听觉的掩蔽效应

掩蔽效应指人的耳朵只对最明显的声音反应敏感，而对于不敏感的声音，反应则较不为敏感。例如在声音的整个频率谱中，如果某一个频率段的声音比较强，则人就对其它频率段的声音不敏感了。应用此原理，人们发明了mp3等压缩的数字音乐格式，在这些格式的文件里，只突出记录了人耳朵较为敏感的中频段声音，而对于较高和较低的频率的声音则简略记录，从而大大压缩了所需的存储空间。在人们欣赏音乐时，如果设备对高频响应得比较好，则会使人感到低频响应不好，反之亦然。

一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽

声音(maskingtone)，后者称为被掩蔽声音(maskedtone)。掩蔽可分成频域掩蔽和时域掩蔽。

人耳的掩蔽效应

mrxj

一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。ilvs 人耳的掩蔽效应一个较弱的声音延时电路(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值，或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明，3kHz—5kHz绝对闻阈值最小，即人耳对它的微弱声音最敏感；而在低频和高频区绝对闻阈值要大得多。在800Hz--1500Hz范围内闻阈随频率变化最不显著，即在这个范围内语言可储度最高。在掩蔽情况下，提高被掩蔽弱音的强度，使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限)，被掩蔽弱音必须提高的分贝值称为掩蔽量(或称阈移)。

语音压缩技术

语音压缩技术指的是对原始数字音频信号流运用适当的数字信号处理技术，在不损失有用

信息量，或所引入损失可忽略的条件下，压缩信号编码速率，也称为压缩编码。

语音压缩编码技术有多种，归纳起来大致可分为三类，即波形编码、参数编码和混合编码。波形编码即针对语音波形进行编码，而尽量保持输出波形不变，即恢复的语音信号基本上与输入信号波形相同；参数编码方法是先对语音信号进行分析，提取出其参数，对参数进行编码，在解码后由这些参数重新合成出重构的语音信号，使得到的信号听起来与输入语音相同；而不是对语音信号的波形直接处理，因而恢复信号与原信号不必保持相同；由参数编码与波形编码相结合的混合编码的编码器正在得到人们较大的关注。这种编码器既具备了声码器的特点(利用语音生成模型提取语音参数)，又具备了波形编码的特点(优化激励信号，使其与输入语音波形相匹配)。

当前语音压缩编码的常用技术有：脉冲编码调制(Pulse Code Modulation，简称PCM)，自适应差分脉；中编码调制(ADI cM)及自适应增量调制(ADM)，子带编码(SBC)微型齿轮，线性预测语音生成模型与参数编码。

语音处理

语音处理语音信号和这些信号的处理方法的研究。

通常的信号处理中的数字表示，所以数字信号处理语音处理可以作为一种特殊的情况下，适用于语音信号。 [澄清 ]

它也是紧密联系在一起，以自然语言处理（NLP），作为它的输入/输出可以去NLP的应用。如文本到语音语音降噪芯片合成可使用句法分析器，其输入文本和语音识别的输出可能是由如利用信息提取技术。

语音处理可分为以下类别：

语音识别，分析与处理语言的语音信号的内容。

说话人识别，其目的是识别身份扬声器。

语音编码，数据压缩的一种特殊形式，是在电信领域的重要。

用于医疗目的的语音分析，如分析声乐加载和功能障碍的声带。

语音合成：人工合成的言论，这通常意味着计算机生成的讲话。

美光隐形眼镜

语音增强：提高可懂像和/或语音信号的感知质量，音频降噪音频信号。

一、填空题：（每空1 分，共60分）

1、语音（speech）300－3400kHz，采样率为（）宽带语音（wide-band speech），带宽7kHz（50-7k），采样率为（ 14k ）带宽 20kHz（20-20k），采样率一般为（ 40k ）

2、语音由肺中的通过（喉头至嘴唇的器官）的气流或声道中的气流激励（）而产生。当肺中的气流通过声门时，声门由于其间气体压力的变化而开闭，使得气流时而通过，时而被阻断，从而形成一串周期性脉冲送入声道，由此产生的语音是（浊音）。如果声带不振动，声门完全封闭，而声道在某处收缩，迫使气流高速通过这一收缩部位而发音，由此产生的语音是（清音）。

3、语音信号从总体上是非平稳信号。但是，在短时段（ 20~200 ）ms中语音信号又可以认为是平稳的，或缓变的。

4、语音的四要素是音长，音强，音高和音质，它们可从时域波形上反映出来。其中音长特性：音长（长），说话速度必然慢；音长（短），说话速度必然快。音强的大小是由于声源的（振动幅度）大小来决定。

本文发布于:2024-09-21 17:39:52，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/344415.html

上一篇：数据失真校正对语音识别系统的影响与优化策略(四)

下一篇：数字音频信号增强技术研究