基于LPP与全局方差最大的语音数据处理方法和系统与流程


基于lpp与全局方差最大的语音数据处理方法和系统
技术领域
1.本发明属于语音识别技术领域,具体涉及一种基于lpp与全局方差最大的语音数据处理方法和系统。


背景技术:



2.语音是人际交流的重要媒介,语音信号中不仅包含所要传递的语义信息,还包含丰富的情感信息。因此,如何使计算机从语音信号中自动识别出说话人的情感状态及其变化,是实现人机交互的关键。
3.目前,如何寻有效的语音情感特征是语音情感识别的难点之一。根据现有研究显示,单一特征情感识别的效果并不理想,因此学者们更多的是采用多特征联合的方法来识别语音情感;但采用多特征联合的方法易使情感特征的维数偏高,进而增加计算的复杂度。pca与lda是常用的线性降维算法,其虽然很容易被实现,然而线性降维方式却容易忽略语音数据上的非线性结构,且在语音数据规模庞大、包含部分噪声时提取的特征不明显。


技术实现要素:



4.有鉴于此,本发明旨在解决目前语音识别技术中,语音数据量庞大、包含部分噪声时线性降维算法处理的数据特征不明显的问题。
5.为了解决上述技术问题,本发明提供以下技术方案:
6.第一方面,本发明提供了一种基于lpp与全局方差最大的语音数据处理方法,包括如下步骤:
7.对原始语音数据进行预处理,并提取高维语音数据;
8.将高维语音数据利用lpp-l2算法进行降维处理,得到低维语音数据,lpp-l2算法在lpp算法基础上,通过添加方差最大化的方式计算高维语音数据的低维表示;
9.将低维语音数据利用svm算法进行语音数据的分类识别。
10.进一步的,lpp-l2算法的目标函数具体为:
[0011][0012]
式中,xi∈rd(i=1,...,n)表示高维语音数据中的每个样本,n表示样本数,w表示代表高维语音数据内结构特征的投影矩阵。
[0013]
进一步的,将高维语音数据利用lpp-l2算法进行降维处理,得到低维语音数据,具体包括:
[0014]
对目标函数中的分母和分子进行分别计算,得到转换后的目标函数如下:
[0015][0016]
式中,为保存高维局部间几何信息的矩阵,为表示全局离点的外部几何结构的矩阵,w为需要获取的投影矩阵;
[0017]
基于约束条件对目标函数进行进一步转换,得到
[0018]
取前d个最大特征值所对应的特征向量作为高维语音数据降维后的表示。
[0019]
进一步的,对原始语音数据进行预处理,并提取高维语音数据,具体包括:
[0020]
对原始语音数据依次进行预滤波、预加重和分帧处理;
[0021]
对于预处理后的原始语音数据,采用若干种特征提取方式提取得到高维语音样本其中n表示样本数,表示每个语音样本;
[0022]
对每类高维语音样本进行中心化处理,得到高维语音数据其中是的中心。
[0023]
进一步的,将低维语音数据利用svm算法进行语音数据的分类识别,具体包括:
[0024]
将低维语音数据划分为n类训练集和测试集;
[0025]
从n类训练集中取两类数据训练两类svm分类器,得到n(n-1)/2个两类svm分类器;
[0026]
将测试集通过训练好的两类svm分类器进行预测,选取得票最多的结果作为语音数据的分类识别结果。
[0027]
第二方面,本发明提供了一种基于lpp与全局方差最大的语音数据处理系统,包括:
[0028]
预处理单元,用于对原始语音数据进行预处理,并提取高维语音数据;
[0029]
降维单元,用于将高维语音数据利用lpp-l2算法进行降维处理,得到低维语音数据,lpp-l2算法在lpp算法基础上,通过添加方差最大化的方式计算高维语音数据的低维表示;
[0030]
识别单元,用于将低维语音数据利用svm算法进行语音数据的分类识别。
[0031]
进一步的,在降维单元中,lpp-l2算法的目标函数具体为:
[0032][0033]
式中,xi∈rd(i=1,...,n)表示高维语音数据中的每个样本,n表示样本数,w表示代表高维语音数据内结构特征的投影矩阵。
[0034]
进一步的,在降维单元中,将高维语音数据利用lpp-l2算法进行降维处理,得到低维语音数据,具体包括:
[0035]
对目标函数中的分母和分子进行分别计算,得到转换后的目标函数如下:
[0036][0037]
式中,为保存高维局部间几何信息的矩阵,为表示全局离点的外部几何结构的矩阵,w为需要获取的投影矩阵;
[0038]
基于约束条件对目标函数进行进一步转换,得到
[0039]
取前d个最大特征值所对应的特征向量作为高维语音数据降维后的表示。
[0040]
进一步的,在预处理单元中,对原始语音数据进行预处理,并提取高维语音数据,具体包括:
[0041]
对原始语音数据依次进行预滤波、预加重和分帧处理;
[0042]
对于预处理后的原始语音数据,采用若干种特征提取方式提取得到高维语音样本其中n表示样本数,表示每个语音样本;
[0043]
对每类高维语音样本进行中心化处理,得到高维语音数据其中是的中心。
[0044]
进一步的,在识别单元中,将低维语音数据利用svm算法进行语音数据的分类识别,具体包括:
[0045]
将低维语音数据划分为n类训练集和测试集;
[0046]
从n类训练集中取两类数据训练两类svm分类器,得到n(n-1)/2个两类svm分类器;
[0047]
将测试集通过训练好的两类svm分类器进行预测,选取得票最多的结果作为语音数据的分类识别结果。
[0048]
综上,本发明提供了一种基于lpp与全局方差最大的语音数据处理方法和系统,其中,本发明的方法包括对原始语音数据首先进行预处理后提取高维语音数据,然后对高维语音数据采用基于lpp与全局方差最大的算法进行处理,其在lpp算法的基础上,通过添加方差最大化的方式计算高维语音数据的低维表示,最后再利用svm算法进行语音数据的分类识别。本发明通过局部保持投影与全局方差最大的语音处理方法能有效地数据特征,既学习了局部的线性结构,又保持局部外的离点在降维后依旧是远距离的,从而维持了全局几何信息。同时能使分类器的特征识别更加明显,处理效率更高。
附图说明
[0049]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0050]
图1为本发明实施例提供的一种基于lpp与全局方差最大的语音数据处理方法;
[0051]
图2为本发明实施例提供的svm中超平面划分样本数据的示意图;
[0052]
图3为本发明实施例提供的svm中支持向量与间隔的示意图;
[0053]
图4为本发明实施例提供的一种基于lpp与全局方差最大的语音数据处理系统。
具体实施方式
[0054]
为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0055]
语音是人际交流的重要媒介,语音信号中不仅包含所要传递的语义信息,还包含丰富的情感信息。因此,如何使计算机从语音信号中自动识别出说话人的情感状态及其变化,是实现人机交互的关键。
[0056]
目前,如何寻有效的语音情感特征是语音情感识别的难点之一。根据现有研究显示,单一特征情感识别的效果并不理想,因此学者们更多的是采用多特征联合的方法来识别语音情感;但采用多特征联合的方法易使情感特征的维数偏高,进而增加计算的复杂度。pca与lda是常用的线性降维算法,其虽然很容易被实现,然而线性降维方式却容易忽略语音数据上的非线性结构,且在语音数据规模庞大、包含部分噪声时提取的特征不明显。
[0057]
基于此,本发明提供了一种基于lpp与全局方差最大的语音数据处理方法和系统。
[0058]
以下对本发明提供的一种基于lpp与全局方差最大的语音数据处理方法的实施例进行详细的介绍。
[0059]
请参阅图1,本实施例提供一种基于lpp与全局方差最大的语音数据处理方法,包括如下步骤:
[0060]
s100:对原始语音数据进行预处理,并提取高维语音数据。
[0061]
对原始语音数据进行预处理就是对语音样本进行预滤波,然后对处理后的语音样本预加权重再对其分帧处理。具体的,预滤波是将语音数据分为测试集与训练集,首先对两种数据进行预滤波,为解决频率混叠问题,在对模拟信号进行离散化采集前,采用低通滤波器滤除高于1/2采样频率成分。预加重的目的则是为了对语言高频部分加重,去除口唇辐射的影响,增加语音高频的辨析率。分帧则是因为虽然语音信号是时变的,但是在一个短时间内,其特性保持相对稳定的。为了能有效地进行傅里叶变换,需要对语音信号进行分帧处理。
[0062]
对于预处理后的语音数据,需要进行语音情感的特征提取,将输入语音转换为可用于模型训练的特征矢量。该过程的目的是获得对语音识别有用的特征,同时去除那些传达非词汇信息的特征,如强调和情感。特征提取还应该最小化由说话者和录音条件引起的变化的影响,以避免冗余模型参数。不同的提取方式能分为短时能量、短时过零率、共振峰、倒谱参数、基于mel尺度的mel倒谱系数以及时长6大语音情感特征。
[0063]
对上述6大语音情感特征进行中心化处理,方法如下:
[0064]
中心化前所有的高维语音样本其中n表示样本数,表示每个语音样本。对任意一类语音样本进行中心化处理的公式如下:
[0065]
[0066]
其中是的中心。
[0067]
s200:将高维语音数据利用lpp-l2算法进行降维处理,得到低维语音数据,lpp-l2算法在lpp算法基础上,通过添加方差最大化的方式计算高维语音数据的低维表示。
[0068]
在数据采集的过程中往往会存在数据量过大,含有较多的冗余信息等现象,这造成cpu处理的数据过多,计算效率低,造成较大的传输误差,因此在数据传输之前需要对数据进行降维处理。本实施例基于数据降维的特点,提出了一种基于局部保持投影与全局方差最大的语音数据处理方法。该方法是基于lpp的算法基础上改进的思想,使得远距离数据点在降维过程中依旧保持较远距离,有效学习全局的几何特征。
[0069]
局部保持投影(lpp)用于降维的关键思想是高维空间中的局部的数据点在低维嵌入的中间中保持相邻的位置不变。lpp的具体步骤如下:
[0070]
首先给定一组高维数据集x=[x1ꢀ…ꢀ
xn]∈rd×n,其中n表示样本数,xi∈rd(i=1,...,n)表示每个样本。lpp的目标就是就是学习到代表高维数据内结构特征的投影矩阵w=[w1ꢀ…ꢀ
wd]∈rd×d,它的目标函数可以表示为:
[0071][0072]
其中d=diag(d1,d2,...,dn)是一个对角阵,上述的目标函数求解是一个广义特征值问题,可以表示成:
[0073]
xlx
t
w=λxdx
tw[0074]
其中l=d-s,s是一个由s
ij
组成的庞大矩阵。可以通过特征值求解方式获得投影矩阵w。
[0075]
本发明提出的lpp-l2算法,即基于局部保持投影与全局方差最大的数据处理方法,通过添加方差最大化的方式来避免“离”点造成的误差,从而更好地保持了全局的数据几何特征,它的目标函数可以表示成:
[0076][0077]
根据分母特征,先来计算分母,
[0078]
[0079]
其中
[0080]
同理,接下来计算分子,
[0081][0082]
其中其中则最终的目标函数变为
[0083][0084]
其中,保存高维局部间的几何信息,表示全局“离点”的外部几何结构,w为需要获取的投影矩阵。上式可以等效为
[0085][0086]
显然,可以通过特征值求解的方式来求解投影矩阵,进而获得降维后的低维特征。
[0087]
具体的,为了防止消除任意缩放因子,最后转换成:
[0088][0089]
其中λ为特征值,w为λ所对的特征向量。取前d个最大特征值所对应的特征向量为高维语音数据降维后的表示。
[0090]
s300:将低维语音数据利用svm算法进行语音数据的分类识别。
[0091]
将低维语音数据分为训练集和测试集训练svm模型。假设训练集有n类,分别取两类数据用于训练svm分类器,则n类数据可以得到n(n-1)/2个两类svm分类器。之后对经过降维后的测试集数据通过训练好的多个svm分类器预测,选择得票最多作为语音情感识别的判断结果。
[0092]
支持向量机方法最早由vapnik提出,它根据经验风险最小化erm和结构风险最小化的原则来进行机器学习。具有坚实的理论基础和良好的泛化能力。支持向量机的基本思想是在样本空间或特征空间构造出最优超平面,使得超平面与不同类别样本集之间的距离最大,从而达到最大的泛化能力。
[0093]
svm的基本原理是给定训练样本集d={(x1,y1),(x2,y2),

,(xm,ym)},yi∈{-1,+1},分类学习最基本的思想是基于训练集d在样本空间中到一个超平面,将不同类别的样
本分开,然而将不同样本分开的超平面可能存在很多,如图2所示。
[0094]
直观地看,我们应该寻训练样本正中间实线的划分超平面,这是因为划分超平面对训练样本具备更好的容纳性,具备更好的鲁棒性。在样本空间中,划分超平面可通过如下线性方程描述:
[0095]wt
x+b=0
[0096]
其中w=(w1,w2,

,wd)为法向量,决定了超平面的方向;b为位移项,决定了超平面与远点之间的距离。因此计算样本空间上任一点x到超平面(w,b)的距离可以写为:
[0097][0098]
超平面(w,b)能正确地将训练样本分类,若yi=+1,则有w
t
xi+b>0;若yi=-1,则有w
t
xi+b<0,令:
[0099][0100]
假如上式等号成立,则它们被称为“支持向量机”,两个异类支持向量到超平面之和为:
[0101][0102]
如图3所示,它被称为间隔。
[0103]
寻“最大间隔”的划分超平面,也就是到能满足的约束的参数w和b中的最大r,它的表达公式如下:
[0104][0105]
s.t.yi(w
t
xi+b)≥1i=1,2,...,m.
[0106]
显然,为了最大化间隔,上式可以重写为:
[0107][0108]
s.t.yi(w
t
xi+b)≥1i=1,2,...,m.
[0109]
上述便是支持向量机(svm)的基本原理。
[0110]
基于上述原理,可以实现对于低维语音数据的识别处理。
[0111]
本实施例提供一种基于lpp与全局方差最大的语音数据处理方法,包括对原始语音数据首先进行预处理后提取高维语音数据,然后对高维语音数据采用基于lpp与全局方差最大的算法进行处理,其在lpp算法的基础上,通过添加方差最大化的方式计算高维语音数据的低维表示,最后再利用svm算法进行语音数据的分类识别。本发明通过局部保持投影与全局方差最大的语音处理方法能有效地数据特征,既学习了局部的线性结构,又保持局部外的离点在降维后依旧是远距离的,从而维持了全局几何信息。同时能使分类器的特征识别更加明显,处理效率更高。
[0112]
以上是对本发明的一种基于lpp与全局方差最大的语音数据处理方法的实施例进
行的详细介绍,以下将对本发明的一种基于lpp与全局方差最大的语音数据处理系统的实施例进行详细的介绍。
[0113]
请参阅图4,本实施例提供一种基于lpp与全局方差最大的语音数据处理系统,包括:预处理单元、降维单元和识别单元。
[0114]
在本实施例中,预处理单元用于对原始语音数据进行预处理,并提取高维语音数据。
[0115]
具体的,对原始语音数据进行预处理,并提取高维语音数据,具体包括:
[0116]
对原始语音数据依次进行预滤波、预加重和分帧处理;
[0117]
对于预处理后的原始语音数据,采用若干种特征提取方式提取得到高维语音样本其中n表示样本数,表示每个语音样本;
[0118]
对每类高维语音样本进行中心化处理,得到高维语音数据其中是的中心。
[0119]
在本实施例中,降维单元将高维语音数据利用lpp-l2算法进行降维处理,得到低维语音数据,lpp-l2算法在lpp算法基础上,通过添加方差最大化的方式计算高维语音数据的低维表示。
[0120]
具体的,lpp-l2算法的目标函数具体为:
[0121][0122]
式中,xi∈rd(i=1,...,n)表示高维语音数据中的每个样本,n表示样本数,w表示代表高维语音数据内结构特征的投影矩阵。
[0123]
进一步的,将高维语音数据利用lpp-l2算法进行降维处理,得到低维语音数据,具体包括:
[0124]
对目标函数中的分母和分子进行分别计算,得到转换后的目标函数如下:
[0125][0126]
其中,矩阵保存高维局部间的几何信息,表示全局“离点”的外部几何结构,w为需要获取的投影矩阵。
[0127]
基于约束条件对目标函数进行进一步转换,得到
[0128]
取前d个最大特征值所对应的特征向量作为高维语音数据降维后的表示。
[0129]
在本实施例中,识别单元用于将低维语音数据利用svm算法进行语音数据的分类识别。
[0130]
具体的,分类识别的过程包括将低维语音数据划分为n类训练集和测试集;从n类训练集中取两类数据训练两类svm分类器,得到n(n-1)/2个两类svm分类器;将测试集通过
训练好的两类svm分类器进行预测,选取得票最多的结果作为语音数据的分类识别结果。
[0131]
需要说明的是,本实施例提供的语音数据处理系统用于实现前述实施例提供的语音数据处理方法,各单元的具体设置以完整实现该方法为准,在此不再赘述。
[0132]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:


1.基于lpp与全局方差最大的语音数据处理方法,其特征在于,包括如下步骤:对原始语音数据进行预处理,并提取高维语音数据;将所述高维语音数据利用lpp-l2算法进行降维处理,得到低维语音数据,所述lpp-l2算法在lpp算法基础上,通过添加方差最大化的方式计算所述高维语音数据的低维表示;将所述低维语音数据利用svm算法进行语音数据的分类识别。2.根据权利要求1所述的基于lpp与全局方差最大的语音数据处理方法,其特征在于,所述lpp-l2算法的目标函数具体为:式中,x
i
∈r
d
(i=1,...,n)表示所述高维语音数据中的每个样本,n表示样本数,t>0,w表示代表所述高维语音数据内结构特征的投影矩阵。3.根据权利要求2所述的基于lpp与全局方差最大的语音数据处理方法,其特征在于,将所述高维语音数据利用lpp-l2算法进行降维处理,得到低维语音数据,具体包括:对所述目标函数中的分母和分子进行分别计算,得到转换后的目标函数如下:式中,为保存高维局部间几何信息的矩阵,为表示全局离点的外部几何结构的矩阵,w为需要获取的投影矩阵;基于约束条件对所述目标函数进行进一步转换,得到xlx
t
w=λxfx
t
w;取前d个最大特征值所对应的特征向量作为所述高维语音数据降维后的表示。4.根据权利要求1所述的基于lpp与全局方差最大的语音数据处理方法,其特征在于,对原始语音数据进行预处理,并提取高维语音数据,具体包括:对所述原始语音数据依次进行预滤波、预加重和分帧处理;对于预处理后的原始语音数据,采用若干种特征提取方式提取得到高维语音样本其中n表示样本数,表示每个语音样本;对每类所述高维语音样本进行中心化处理,得到所述高维语音数据其中是的中心。5.根据权利要求1所述的基于lpp与全局方差最大的语音数据处理方法,其特征在于,将所述低维语音数据利用svm算法进行语音数据的分类识别,具体包括:将所述低维语音数据划分为n类训练集和测试集;从所述n类训练集中取两类数据训练两类svm分类器,得到n(n-1)/2个所述两类svm分类器;
将所述测试集通过训练好的所述两类svm分类器进行预测,选取得票最多的结果作为语音数据的分类识别结果。6.基于lpp与全局方差最大的语音数据处理系统,其特征在于,包括:预处理单元,用于对原始语音数据进行预处理,并提取高维语音数据;降维单元,用于将所述高维语音数据利用lpp-l2算法进行降维处理,得到低维语音数据,所述lpp-l2算法在lpp算法基础上,通过添加方差最大化的方式计算所述高维语音数据的低维表示;识别单元,用于将所述低维语音数据利用svm算法进行语音数据的分类识别。7.根据权利要求6所述的基于lpp与全局方差最大的语音数据处理系统,其特征在于,在所述降维单元中,所述lpp-l2算法的目标函数具体为:式中,x
i
∈r
d
(i=1,...,n)表示所述高维语音数据中的每个样本,n表示样本数,t>0,w表示代表所述高维语音数据内结构特征的投影矩阵。8.根据权利要求7所述的基于lpp与全局方差最大的语音数据处理系统,其特征在于,在所述降维单元中,将所述高维语音数据利用lpp-l2算法进行降维处理,得到低维语音数据,具体包括:对所述目标函数中的分母和分子进行分别计算,得到转换后的目标函数如下:式中,为保存高维局部间几何信息的矩阵,为表示全局离点的外部几何结构的矩阵,w为需要获取的投影矩阵;基于约束条件对所述目标函数进行进一步转换,得到xlx
t
w=λxfx
t
w;取前d个最大特征值所对应的特征向量作为所述高维语音数据降维后的表示。9.根据权利要求6所述的基于lpp与全局方差最大的语音数据处理系统,其特征在于,在所述预处理单元中,对原始语音数据进行预处理,并提取高维语音数据,具体包括:对所述原始语音数据依次进行预滤波、预加重和分帧处理;对于预处理后的原始语音数据,采用若干种特征提取方式提取得到高维语音样本其中n表示样本数,表示每个语音样本;对每类所述高维语音样本进行中心化处理,得到所述高维语音数据其中是的中心。10.根据权利要求6所述的基于lpp与全局方差最大的语音数据处理系统,其特征在于,将所述低维语音数据利用svm算法进行语音数据的分类识别,具体包括:
将所述低维语音数据划分为n类训练集和测试集;从所述n类训练集中取两类数据训练两类svm分类器,得到n(n-1)/2个所述两类svm分类器;将所述测试集通过训练好的所述两类svm分类器进行预测,选取得票最多的结果作为语音数据的分类识别结果。

技术总结


本发明提供了一种基于LPP与全局方差最大的语音数据处理方法和系统,其中,本发明的方法包括对原始语音数据首先进行预处理后提取高维语音数据,然后对高维语音数据采用基于LPP与全局方差最大的算法进行处理,其在LPP算法的基础上,通过添加方差最大化的方式计算高维语音数据的低维表示,最后再利用SVM算法进行语音数据的分类识别。本发明通过局部保持投影与全局方差最大的语音处理方法能有效地数据特征,既学习了局部的线性结构,又保持局部外的离点在降维后依旧是远距离的,从而维持了全局几何信息。同时能使分类器的特征识别更加明显,处理效率更高。处理效率更高。处理效率更高。


技术研发人员:

陈健 张国凯 黄宇轩 舒放 林宇峰 刘鹏 高云嵩 陈烨翰

受保护的技术使用者:

广东电网有限责任公司珠海供电局

技术研发日:

2022.07.05

技术公布日:

2022/10/11

本文发布于:2024-09-23 09:28:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/27671.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   数据   方差   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议