一种用于智能调度检修的方言识别方法和系统与流程



1.本发明涉及智能调度技术领域,特别是一种用于智能调度检修的方言识别方法和系统。


背景技术:



2.随着配电网规模的扩大和信息化建设的推进,配网指挥涉及的信息不断增多。调度员每天需要进行大量重复性的发令、收令、核对等工作,由此产生了采用智能虚拟调度员代替重复性人工劳动的需求。其中,语音识别环节关系到虚拟调度员对现场人员汇报信息的准确理解,是调度指令正确处理和发送的基础。虽然现有技术中已经有部分较为成熟的语音识别技术,但是电力领域的语音识别研究还较少。电网调度语言往往包含大量的命名实体,且调度指令的用语需要符合电力领域的专业规范,此外,由于现场工作人员的口音问题以及室外环境的噪声干扰,语音识别困难。因此,需要一种用于智能调度检修的方言识别方法,能对方言准确识别。


技术实现要素:



3.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
4.鉴于上述和/或现有的电网调度中存在的问题,提出了本发明。
5.因此,本发明所要解决的问题在于需要一种用于智能调度检修的方言识别方法和系统,解决当前现有智能调度无法准确识别方言的问题。
6.为解决上述技术问题,本发明提供如下技术方案:一种用于智能调度检修的方言识别方法,其包括,采集语音样本并提取mfcc特征;样本数据预处理,包括二维离散小波变换与压缩,奇异值分解;卷积神经网络模型的建立和概率神经网络的训练;构建方言辨识系统。
7.作为本发明所述用于智能调度检修的方言识别方法的一种优选方案,其中:所述语音样本包括不同地区、不同性别、不同年龄的若干份方言语音样本,所述语音样本时长20~300秒,所述语音样本中部分用于训练cnn,另一部分用于验证cnn;所述语音样本的采样率为8000hz,采样点数为256,帧长设置为32ms,帧移为10ms;提取的特征参数数据矩阵为24维,所述特征参数组成为12维mfcc系数和一维一阶差分系数,即一个语音样本提取到的mfcc为一个n
×
24的矩阵。
8.作为本发明所述用于智能调度检修的方言识别方法的一种优选方案,其中:所述二维离散小波变换与压缩,具体为:将提取到的mfcc的矩阵转换转为一个24
×
n的转置矩阵,再将所述转置矩阵进行二维离散小波转换(2-dwt),分解成高频分量与低频分量,所述2-dwt的公式为:
[0009][0010]
其中,i为假定值h、v、d的上标,m
×
n为图像大小,j0为任意的开始尺度;所述高频分量表示图片的细节,所述低频分量表示近似值,所述低频分量的公式为:
[0011][0012]
作为本发明所述用于智能调度检修的方言识别方法的一种优选方案,其中:所述奇异值分解,具体为:对语音样本的mfcc进行2-dwt分解得到低频分量的数据矩阵,对所述低频分量的数据矩阵采用滑动窗口进行重叠的分块操作,所述滑动窗口的高度为低频分量矩阵的行数,从而得到分块矩阵a,分块矩阵a如下式:
[0013][0014]
其中,n为被分块矩阵的列数,m为滑动窗口的宽度,t为横向滑动的步长,则第i分块的矩阵ai如下式:
[0015][0016]
其中,aj为被分块矩阵的列向量;
[0017]
对分块ai进行svd压缩,其中r=rank(ai)过程如下式:
[0018]ai
=sm×
mvm
×
ndtm
×n,m<<n,i=(1,2,3,

,k)
[0019]ai
≈sm×
mvm
×
rdtn
×r[0020]aidn
×r≈sm×
mvm
×
rdtn
×
rdn
×r,d
tn
×
rdn
×r=er×n[0021]bi
=a
idn
×r≈sm×
mvm
×r,i=(1,2,3,

,k)
[0022]
其中,矩阵bi横向合拼成矩阵b,矩阵b为该语音样本的svd压缩结果,矩阵b的公式如下:
[0023][0024]
作为本发明所述用于智能调度检修的方言识别方法的一种优选方案,其中:所述样本数据预处理还包括,对经过2-dwt分解和svd分解压缩得到的数据矩阵按统一的长度进行无重叠分块操作,将所述数据矩阵变换成一个16
×
16
×
n的3维矩阵pi,按语音样本的输入顺序将pi沿第3维方向拼接成一个3维矩阵:p=(p1,p2,p3,

,pk),k为输入的语音样本数,p作为卷积神经网络的输入矩阵;按采集地对语音样本进行编号,同一地区采用同一编号,每一个输入语音样本的每一个16
×
16的2维矩阵对应一个输出列向量ti,将编号的值赋予ti中与编号顺序相对应的位置的元素,将其他元素设为0,然后拼接成2维输出矩阵ti,再按语音样本的输入顺序拼接成t=(t1,t2,t3,

,tk),t作为神经网络的输出矩阵。
[0025]
作为本发明所述用于智能调度检修的方言识别方法的一种优选方案,其中:所述卷积神经网络模型包括输入层、特征提取层、分类器、分类储存层f8与竞争输出层o9,所述
特征提取层包括2个卷积层与2个池化层,所述分类器采用bp神经网络,所述分类储存层f8与竞争输出层o9用于cnn的仿真;所述分类储存层f8中节点数等于语音样本的采样地区数,每一个节点分别与输出层o7中对应的节点相连接。
[0026]
作为本发明所述用于智能调度检修的方言识别方法的一种优选方案,其中:所述卷积神经网络的建立,包括,一个语音样本的3维矩阵中的每一个2维矩阵的输入在输出层o7有一个相应的列向量输出,将列向量中数值最大的元素储存在分类存储层f8对应的节点中,由分类储存层f8对各个节点中储存的数据的个数进行分别求和,求和公式如下:
[0027][0028]
将求和所得结果输入至竞争输出层o9中,在竞争输入层比较选出最大求和值,如下式:
[0029]
output=max(ss)(s=1,2,

,m)
[0030]
所述最大求和值对应的分类储存层f8节点所对应的分类作为竞争输出层的输出,输出的分类结果即语音样本的辨识结果。
[0031]
作为本发明所述用于智能调度检修的方言识别方法的一种优选方案,其中:所述概率神经网络的训练,具体为:将一个语音样本的mfcc经过pca和压缩处理后得到一个数据矩阵,然后对数据矩阵矩阵进行转置,按语音样本的输入顺序把不同样本的数据矩阵横向拼接,得到概率神经网络模型的输入矩阵pn;对采样地区进行编号,同一地区的语音样本采用相同编号,每个语音样本中的每个列向量对应该语音样本的编号,从而一个语音样本对应一个n维行向量ti,按语音样本的输入顺序把不同样本的ti进行横向拼接,最后得到模型的训练数据集的输出矩阵tn;将输入向量矩阵pn和输出向量tn输入到概率神经网络pnn中,向量矩阵pn构成样本层,每一列向量对映一结点,样本层结点的数目等于矩阵pn列数,完成概率神经网络模型的输入向量矩阵pn和输出向量tn的输入,即完成概率神经网络方言辨识模型的训练。
[0032]
作为本发明所述用于智能调度检修的方言识别方法的一种优选方案,其中:所述构建方言辨识系统包括,系统需求分析,通过c/s与b/s相结合的系统架构,将系统分为客户端与网站两部分,所述客户端中设置lstm辨识模块;建立数据库,根据方言语音数据与方言口头禅数据建立两张表,口头禅样本数据表的属性与语音样本数据表属性相同;采集样本数据,将方言口头禅表中的口头禅数据根据相同的方言编码进行拼接,然后以方言编码相等为条件右连接方言语音表,提取拼接后的口头禅、语音样本数据与方言编码,生成lstm的训练数据。
[0033]
一种用于智能调度检修的方言识别系统,其包括,客户端,包括lstm辨识模块、第一系统管理模块、第一用户模块;以及,web端,包括第二用户模块、第二系统管理模块;所述lstm辨识模块用于语音样本的录制与语音文件的选取以及方言语音识别,所述第一系统管理模块用于收集训练数据,所述第一用户模块用于用户登录;所述第二用户模块用于用户的注册与登录以及用户方言辨识结果的数据管理,所述第二系统管理模块用于用户信息管理与训练数据的管理。
[0034]
本发明有益效果为:本发明提供了一种用于智能调度检修的方言识别方法及系统,可以代替调度员大量重复性工作,且能对电网调度专业语音进行识别,对于现场工作人
员的方言也能进行准确识别,极大地提高了电网调度检修工作的效率。
附图说明
[0035]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0036]
图1为用于智能调度检修的方言识别方法的方言辨识模型图。
[0037]
图2为用于智能调度检修的方言识别方法的双正交小波bior的尺度函数图。
[0038]
图3为用于智能调度检修的方言识别方法的双正交小波bior的小波函数图。
[0039]
图4为用于智能调度检修的方言识别方法的语音样本数字灰度原始图。
[0040]
图5为用于智能调度检修的方言识别方法的语音样本原始图像第1次小波分解压缩后的图。
[0041]
图6为用于智能调度检修的方言识别方法的语音样本原始图像第2次小波分解压缩后的图。
[0042]
图7为用于智能调度检修的方言识别方法的语音样本原始图像第3次小波分解压缩后的图。
[0043]
图8为用于智能调度检修的方言识别方法的语音样本原始图像第4次小波分解压缩后的图。
[0044]
图9为用于智能调度检修的方言识别方法的语音样本原始图像经4次2-dwt分解压缩后再经奇异值分解压缩得到的图。
[0045]
图10为用于智能调度检修的方言识别方法的特征向量的贡献率图。
[0046]
图11为用于智能调度检修的方言识别方法的卷积神经网络图。
[0047]
图12为用于智能调度检修的方言识别方法的cnn正确辨识率的交叉实验结果图。
[0048]
图13为用于智能调度检修的方言识别方法的改进的cnn正确辨识率的交叉实验结果图。
[0049]
图14为用于智能调度检修的方言识别方法的改进的cnn辨识时间交叉实验结果图。
[0050]
图15为用于智能调度检修的方言识别方法的改进的cnn不同时长的语音样本辨识的结果图。
[0051]
图16为用于智能调度检修的方言识别方法的方言辨识系统多层次数据流图。
[0052]
图17为用于智能调度检修的方言识别方法的方言辨识系统架构图。
[0053]
图18为用于智能调度检修的方言识别方法的方言辨识系统各模块构成图。
[0054]
图19为用于智能调度检修的方言识别方法的方言辨识系统数据表的属性表示图。
具体实施方式
[0055]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
[0056]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以
采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0057]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0058]
实施例1
[0059]
参照图1~图11,图16~图19,为本发明第一个实施例,该实施例提供了一种用于智能调度检修的方言识别方法,其能够建立方言辨识模型,对电网维修过程中智能调度并准确识别方言。
[0060]
方言辨识模型由两部分组成,即样本数据前处理和声学分类模型。样本数据前处理包括3级二维离散小波分解压缩和奇异值分解,奇异值分解包括采用滑窗(宽度为100)进行有重叠的分块操作、对每一分块分别进行奇异值分解并保留10个奇异值和按顺序合并分块并转换成1个16
×
16
×
n的3维矩阵作为声学分类模型的输入数据。声学分类模型采用改进的卷积神经网络,方言辨识模型结构如图1所示。
[0061]
所述用于智能调度检修的方言识别方法包括,
[0062]
s1:采集语音样本并提取mfcc特征;
[0063]
本步骤中,所述语音样本包括不同地区、不同性别、不同年龄的若干份方言语音样本,所述语音样本时长20~300秒,所述语音样本中部分用于训练cnn,另一部分用于验证cnn;所述语音样本的采样率为8000hz,采样点数为256,帧长设置为32ms,帧移为10ms;提取的特征参数数据矩阵为24维,所述特征参数组成为12维mfcc系数和一维一阶差分系数,即一个语音样本提取到的mfcc为一个n
×
24的矩阵。
[0064]
需说明的是,在该实施例中,样本语音的收集基于贵州省内,收集和整理了贵阳市、铜仁市、六盘水市3个地区的不同性别不同年龄的1000份方言语音样本(年龄区间为15-60岁),收集的语音样本时长20-300秒不等,其中800份方言语音样本用来训练cnn,200份方言语音样本用来验证cnn。
[0065]
s2:样本数据预处理,包括二维离散小波变换与压缩,奇异值分解;
[0066]
本步骤具体实施方式为:
[0067]
首先,对mfcc的转置矩阵(24
×
n)进二维离散小波变换(2-dwt),分解成高频分量与低频分量,高频分量表示的是图片的细节,而低频分量表示的是近似值,2-dwt如公式(1)所示,提取低频分量,如公式(2)所示,公式(1)、(2)中,i为假定值h、v、d的上标,m
×
n为图像大小,j0为任意的开始尺度;
[0068][0069][0070]
在本发明中,采用matlab的双正交小波bior3.7,其尺度函数与小波函数如图2和图3所示,对语音样本“1-贵阳”的mfcc进行伪彩编码得到数字灰度图像,如图4所示。对该数字灰度图像进行4次2-dwt分解压缩,每次只对前次的低频分量进行2-dwt分解压缩,对低
频分量的列数进行1/2降采样,由于图像的像素矩阵的列数远远大于行数,所以对于行数每次降采样只减少1行,过程如图1中的二维离散小波变换所示,从而利用2-dwt分解去除高频分量而保留低频分量同时也进行了压缩,结果如图5~图8所示。
[0071]
在本步骤中,奇异值分解(singular value decomposition,svd)用于从大量数据中寻所隐含的相关性,主要应用于模式辨识和数据压缩等方面。先把奇异值即特征向量按照重要性排列,然后去除不重要的特征向量保留重要的特征向量以此达到降维目的。
[0072]
对语音样本的mfcc进行2-dwt分解得到低频分量的数据矩阵,由于该矩阵的列数依然很大,所以对低频分量数据矩阵采用滑动窗口进行有重叠的分块操作,滑动窗口的高度为低频分量矩阵的行数,从而得到分块矩阵a,n为被分块矩阵的列数,m为滑动窗口的宽度(列数),t为横向滑动的步长,如公式3所示:
[0073][0074]
其中,n为被分块矩阵的列数,m为滑动窗口的宽度,t为横向滑动的步长。
[0075]
矩阵ai为第i分块,aj为被分块矩阵的列向量,如公式4所示:
[0076][0077]
对分块ai进行svd压缩,其中r=rank(ai)过程如下:
[0078]ai
=sm×
mvm
×
ndtm
×n,m<<n,i=(1,2,3,

,k)
[0079]ai
≈sm×
mvm
×
rdtn
×r[0080]aidn
×r≈sm×
mvm
×
rdtn
×
rdn
×r,d
tn
×
rdn
×r=er×n[0081]bi
=a
idn
×r≈sm×
mvm
×r,i=(1,2,3,

,k)
[0082]
其中,矩阵bi横向合拼成矩阵b,矩阵b为该语音样本的svd压缩结果,矩阵b如公式5所示:
[0083][0084]
对语音样本“1-贵阳”中的mfcc转置矩阵进行3级2-dwt分解提取低频分量,对低频分量进行滑动窗口分块操作,滑动窗口的宽度设为m=100,横向滑动的步长设为t=m/2,然后对每一分块数据进行svd分解,如图1中奇异值分解所示。把得到的特征向量按贡献率从大到小进行排序,并绘制贡献率曲线图,然后把所有分块的贡献率曲线图合并在一起,如图10所示。可以观察到排列顺序为11-15的特征向量的贡献率几乎为0,所以每个分块只保留前10个特征向量,因此每个分块由19
×
100的矩阵压缩为19
×
10的矩阵,然后把压缩后的每个分块按顺序横向拼接成一个2维矩阵,映射成灰度图像,结果如图9所示。
[0085]
由于语音样本录制的时间长度参差不齐,每个语音样本的mfcc矩阵经过转置后通过2-dwt分解和svd分解压缩得到的数据矩阵的列数也不尽相同,所以必须对该数据矩阵按统一的长度(列数)进行无重叠分块操作,变换成一个16
×
16
×
n的3维矩阵pi,不同语音样本的3维矩阵的n不尽相同。按语音样本的输入顺序把pi沿着第3维方向拼接成1个3维矩阵p=(p1,p2,p3,

,pk),k为输入的语音样本数,p作为卷积神经网络的输入矩阵。语音样本采集地共有6个,接采集地对语音样本的进行编号,同一个地区采集的语音样本用同一个编
号,每一个输入语音样本的每一个16
×
16的2维矩阵对应一个6维输出列向量ti,把编号的值赋给ti中与编号顺序相对应的位置的元素,其它元素设为0,然后拼接成2维输出矩阵ti,然后再按语音样本的输入顺序拼接成t=(t1,t2,t3,

,tk),为输入的语音样本数,t作为卷积神经网络的输出矩阵。
[0086]
按上述的方法,把800份语音样本转换成训练卷积神经网络的输入矩阵px和输出矩阵tx,把200份样本转换成验证卷积神经网络的输入矩阵pt和输出矩阵tt。对于改进的卷积神经网络,用于验证的输出矩阵tt有所不同,每一个语音样本的输入矩阵pi(3维)只对应一个输出值,所以其用于验证的输出数据为k维行向量,k为输入的语音样本数。为了使数据无量刚化并消除奇异样本和后面数据处理的方便并加快收敛,对输入矩阵进行归一化处理。
[0087]
s3:卷积神经网络模型的建立和概率神经网络的训练;
[0088]
在本步骤中,cnn一般由输入层、特征提取层与分类器组成,本发明所构建的cnn的特征提取层由2个卷积层与2个池化层组成,分类器采用bp神经网络。一个2维矩阵输入就会有一个分类输出,考虑到一个语音样本得到的输入数据是一个3维矩阵,所以会有n个输出,而且这n个输出也不会完全相同,所以本研究在原有的cnn的基础上加上分类储存层f8与竞争输出层o9,目的是在这n个输出中选一个最合适的输出作为该语音样本的所属类别,分类储存层f8与竞争输出层o9只用于cnn的仿真而不用于训练。本发明构建的神经网络模型如图11所示,其参数设置如下表1。
[0089]
表1:卷积神经网络参数
[0090]
层序号类型卷积核采样窗口特征图1输入层
‑‑
16
×
162卷积层c15
×
5步长:1-6@12
×
123池化层s2-2
×
26@6
×
64卷积层c35
×
5步长:1-16@2
×
25池化层s4-2
×
216@1
×
16全连接层c51
×
1步长:1-120@1
×
17全连接层f61
×
1步长:1-84@1
×
18输出层o71
×
1步长:1-6@1
×
19分类储存层f81
×
1步长:1-6@1
×
110竞争输出层o91
×
1步长:1-1@1
×1[0091]
由于语音样本有6个采样地区从而有6个类别,所以分类储存层f8设6个结点,即分类储存层f8中结点数等于语音样本的采样地区数,每一个节点分别对应一个采样地区也就是说对应一个类别,并且与输出层o7的6个结点中对应的结点相连接。一个语音样本的3维矩阵中的每一个2维矩阵的输入就会在输出层o7有一个相应的6维列向量的输出,然后把6维列向量中的数值最大的元素储存在分类储存层f8与之对应的节点中。
[0092]
当一个语音样本的输入矩阵输入完毕并把分类结果分别储存于分类储存层f8的结点中后,分类储存层f8对各个节点中储存的数据的个数进行分别求和,如公式6所示,然后输入竞争输出层o9中,在竞争输出层o9中对求和的值进行比较,选出最大的求和值,如公式7所示,其对应的分类储存层f8节点所对应的分类作为竞争输出层的输出,输出的分类结
果就是语音样本的辨识结果。其中,ss为分类储存层f8第s个结点所储存的值的数量,m为分类储存层f8的结点总数,output为改进的cnn的输出,如公式(6)、(7)所示:
[0093][0094]
output=max(ss)(s=1,2,

,m)
ꢀꢀꢀ
(7)
[0095]
所述卷积神经网络建立后还需要对概率神经网络进行训练,一个语音样本的mfcc经过pca和压缩处理后得到一个数据矩阵,然后对该矩阵进行转置,按语音样本的输入顺序把不同样本的数据矩阵横向拼接,从而得到该概率神经网络模型的输入矩阵pn。
[0096]
对位于贵州省的6个采样地区进行1~6编号,同一个地区的语音样本用相同的编号,每一个语音样本中的每一个列向量对应该语音样本的编号,从而一个语音样本对应一个n维行向量ti,按语音样本的输入顺序把不同样本的ti进行横向拼接,最后得到该模型的训练数据集的输出矩阵tn。
[0097]
把输入向量矩阵pn和输出向量tn输入到概率神经网络pnn中,向量矩阵pn构成样本层,每一列向量对映一结点,样本层结点的数目等于矩阵pn列数。在求和层中,输出向量tn中值相同的元素构成同一结点,即求和层中结点数等于地区数,样本层中的结点连接与其所属地区相同的求和层结点。完成概率神经网络模型的输入矩阵pn和输出矩阵tn的输入,即完成概率神经网络方言辨识模型的训练。平滑因子σ在概率神经网络模型中很重要,太大会导致每个神经元响应区域交叉过多,会带来精度问题,过小会导致过拟合。为了方便确定平滑因子σ,采用matlab的newpnn()函数构建另一个概率神经网络,把上述的训练数据分成数量相等的两部分,一部分用于训练,另一部分用于仿真,通过反复训练与仿真确定平滑因子σ为0.1。该平滑因子σ=0.1同样适用于本发明所构建的概率神经网络方言辨识模型。
[0098]
s4:构建方言辨识系统。
[0099]
在本步骤中,构建方言识别系统首先需要对系统需求进行分析,其需要包含客户端与网站两部分,该系统的需求多层次数据流如图16所示。从实用性考虑,采用client/server与browser/server架构相结合的方式构建了贵州方言辨识系统,架构图如图17所示。该系统包括用户端与网站两个部分,客户端包括lstm辨识模块、第一系统管理模块、第一用户模块;web端包括第二用户模块、第二系统管理模块;所述lstm辨识模块用于语音样本的录制与语音文件的选取以及方言语音识别,所述第一系统管理模块用于收集训练数据,所述第一用户模块用于用户登录;所述第二用户模块用于用户的注册与登录以及用户方言辨识结果的数据管理,所述第二系统管理模块用于用户信息管理与训练数据的管理,系统的主要模块构成如图18所示。用户端的主要功能之一是对贵州方言的辨识,辨识模型采用改进的长短期记忆神经网络(lstm)。网站的主要功能是对训练数据的储存与修改。该系统提高了用户的工作效率并让用户获得极大的方便和客观统一的方言辨识结果。
[0100]
此外,还需建立数据库,采用microsoft sql server 2008建立数据库gzfy_db,由于有两种方言数据(语音与口头禅),所以需要建两张表(方言语音与方言口头禅),口头禅样本数据表的属性与语音样本数据表属性相同。主要数据表之间的关系e-r图,如图19所示。
[0101]
进一步的,数据库与系统构建完成后,还需采集样本数据进行验证。从贵州省内的贵阳市、铜仁市、六盘水市3个地区收集了年龄区间为15~60岁、不同性别和时长区间为20~300s不等的1000份方言语音样本和96份地区口头禅样本然后提取特征参数,采样率设为
8khz,采样点数256,帧长设为32ms,帧移10ms,所提取的特征参数为24维,其中包括12维mfcc系数和12维一阶差分系数。所以一个样本(语音或口头禅)所提取获得的mfcc是一个24
×
n的矩阵。然后把所提取的数据分别保存在数据库gzfy_db中的方言语音(fyyydata)与方言口头禅(fyktcdata)两张表中并完善表中的其他数据,为贵州方言识别系统的训练与验证提供数据支撑。
[0102]
需说明的是,lstm包括3个门,分别是遗忘门(forgetgate)、输入门(inputgate)和输出门(outputgate),lstm能对在时间序列中间隔比较长的重要信息进行高效识别。由于在方言的时间序列中口头禅有可能会不时的出现,因此在用于训练lstm模型的语音样本中刻意地加入了相应地区的口头禅。
[0103]
在本实施例中,通过构建储存过程alterprocedure[dbo].[getfyyyktctraindata]完成以下对样本数据的操作。采用forxmlpath的方式,把方言口头禅表(fyktcdata)中的口头禅数据根据相同的方言编码进行拼接(用分号分隔),然后以方言编码相等为条件右连接(rightjoin)方言语音表(fyyydata),提取900份拼接了的口头禅、语音样本数据与方言编码,用于生成lstm神经网络的训练数据。matlab通过储存过程getfyyyktctraindata从数据库gzfy_db中得到拼接了的口头禅、语音样本数据与方言编码数据后,通过matlab对每份数据中的口头禅和语音样本数据行再次拼接,然后采用函数num2str()把字符串转换成矩阵,通过滑窗(宽度设为1500,横向滑动的步长设为750)对拼接后的每份数据进行分块操作并对每个分块进行先横向后纵向svd分解压缩,每个分块横向与纵向只保留前20个高贡献率的特征向量,因此每个分块被压缩为20
×
20的矩阵,最后合并每个分块,得到样本pi。按顺序把样本pi横向拼接成p=(p1,p2,p3,

,pk),k为语音样本份数,从而得到lstm的输入矩阵p。由于方言语音样本是从贵州的6个不同地区采集得到,对采集地区进行1~6编号(即方言编码),同一个地区采集到的语音样本用同一个方言编码,把该语音样本的编号的值赋给6维列向量ti中与编号顺序相对应的位置的元素,其他元素设为0,这样1个语音样本对应由n个6维输出列向量ti拼接成2维输出矩阵ti,然后再按语音样本的顺序拼接成t=(t1,t2,t3,

,tk),k为输入的语音样本数,t作为lstm的输出矩阵。按上述的方法,把从数据库中得到900份样本数据转换成训练lstm的输入矩阵px和输出矩阵tx。生成用于lstm模型的验证的输入矩阵的操作与生成用于训练的输入数据的操作基本相同,不同的是语音样本数据不需要拼接口头禅。用于验证的输出数据则是该语音样本的方言编码。
[0104]
实施例2
[0105]
本发明的第二个实施例,为了更好地对本发明方法中采用的技术效果加以验证说明,本实施例以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
[0106]
本发明中设计了交叉优化试验,目的是考察不同级数的2-dwt分解压缩和svd前的滑窗宽度的不同对cnn的辨识结果的影响,寻最优的数据前处理的方法。2-dwt分解压缩分别选择(1,2,3,4)级,滑窗的宽度分别选择(50,80,100,120)进行交叉试验,以800份语音样本作为训练数据,以200份语音样本作为验证数据,然后分别对cnn和改进的cnn进行训练和验证。cnn的辨识结果是针对200份语音样本的所有2维矩阵(16
×
16)的辨识结果的统计,如表2所示:
[0107]
表2:卷积神经网络的辨识率
[0108]
滑窗宽度/列数2-dwt 1次2-dwt 2次2-dwt 3次2-dwt 4次5059.0334%65.0794%71.5172%66.0765%8062.0943%67.1618%73.5405%68.9237%10067.3527%73.6667%77.2727%72.1429%12064.2648%70.9870%74.0870%69.9123%
[0109]
可以观察到2-dwt分解压缩选择3级和滑窗宽度选择100时模型辨识的正确率最高77.2727%,2-dwt分解压缩级数与滑窗宽度过高或过低都会导致正确率的下降,如图12所示。
[0110]
而改进的cnn辨识结果是针对200份语音样本的辨识结果的统计,如表3所示:
[0111]
表3:改进的卷积神经网络的辨识率与辨识耗时
[0112][0113]
改进的cnn相对于cnn的辨识结果有一定的提升,正确辨识率最高为90.5%,2-dwt分解压缩级数与滑窗宽度过高或过低都会导致正确率的下降,如图13所示。
[0114]
对于改进的cnn输入一个语音样本的3维矩阵(16
×
16
×
n),在输出层o7得到n个辨识结果,然后把结果储存在分类储存层f8中。在分类储存层f8中,如果正确辨识结果的数量>50%,或虽然正确辨识结果的数量≤50%,但是正确辨识的数量依然大于辨识为其它任何一个分类的数量时,语音样本在竞争输出层o9都能被正确辨识。改进的cnn的辨识时间随着2-dwt分解级数与滑窗的宽度的增加而降底如图14所示,而正确辨识率为90.5%的200份语音样本的所用的辨识时间(不包括数据前处理)为10.1653秒,在实际事务的应用中属于可接受的范围,如果增强计算机的性能时间会缩短。
[0115]
把用于验证的200份语音样本按时长区间分成3组(时长20-100/秒50份,时长101-200秒70份,时长201-300/秒80份),每组分别用训练好的改进的cnn辨识模型进行验证,结果如图15所示。可以看到语音样本的时长越长,模型的正确辨识率越高。
[0116]
重要的是,应注意,在多个不同示例性实施方案中示出的本技术的构造和布置仅是例示性的。尽管在此公开内容中仅详细描述了几个实施方案,但参阅此公开内容的人员应容易理解,在实质上不偏离该申请中所描述的主题的新颖教导和优点的前提下,许多改型是可能的(例如,各种元件的尺寸、尺度、结构、形状和比例、以及参数值(例如,温度、压力等)、安装布置、材料的使用、颜、定向的变化等)。例如,示出为整体成形的元件可以由多个部分或元件构成,元件的位置可被倒置或以其它方式改变,并且分立元件的性质或数目或位置可被更改或改变。因此,所有这样的改型旨在被包含在本发明的范围内。可以根据替代的实施方案改变或重新排序任何过程或方法步骤的次序或顺序。在权利要求中,任何“装置加功能”的条款都旨在覆盖在本文中所描述的执行所述功能的结构,且不仅是结构等同而且还是等同结构。在不背离本发明的范围的前提下,可以在示例性实施方案的设计、运行状况和布置中做出其他替换、改型、改变和省略。因此,本发明不限制于特定的实施方案,而是扩展至仍落在所附的权利要求书的范围内的多种改型。
[0117]
此外,为了提供示例性实施方案的简练描述,可以不描述实际实施方案的所有特征(即,与当前考虑的执行本发明的最佳模式不相关的那些特征,或于实现本发明不相关的那些特征)。
[0118]
应理解的是,在任何实际实施方式的开发过程中,如在任何工程或设计项目中,可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的,但对于那些得益于此公开内容的普通技术人员来说,不需要过多实验,所述开发努力将是一个设计、制造和生产的常规工作。
[0119]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

技术特征:


1.一种用于智能调度检修的方言识别方法,其特征在于:包括,采集语音样本并提取mfcc特征;样本数据预处理,包括二维离散小波变换与压缩,奇异值分解;卷积神经网络模型的建立和概率神经网络的训练;构建方言辨识系统。2.如权利要求1所述的用于智能调度检修的方言识别方法,其特征在于:所述语音样本包括不同地区、不同性别、不同年龄的若干份方言语音样本,所述语音样本时长20~300秒,所述语音样本中部分用于训练cnn,另一部分用于验证cnn;所述语音样本的采样率为8000hz,采样点数为256,帧长设置为32ms,帧移为10ms;提取的特征参数数据矩阵为24维,所述特征参数组成为12维mfcc系数和一维一阶差分系数,即一个语音样本提取到的mfcc为一个n
×
24的矩阵。3.如权利要求2所述的用于智能调度检修的方言识别方法,其特征在于:所述二维离散小波变换与压缩,具体为:将提取到的mfcc的矩阵转换转为一个24
×
n的转置矩阵,再将所述转置矩阵进行二维离散小波转换(2-dwt),分解成高频分量与低频分量,所述2-dwt的公式为:其中,i为假定值h、v、d的上标,m
×
n为图像大小,j0为任意的开始尺度;所述高频分量表示图片的细节,所述低频分量表示近似值,所述低频分量的公式为:4.如权利要求3所述的用于智能调度检修的方言识别方法,其特征在于:所述奇异值分解,具体为:对语音样本的mfcc进行2-dwt分解得到低频分量的数据矩阵,对所述低频分量的数据矩阵采用滑动窗口进行重叠的分块操作,所述滑动窗口的高度为低频分量矩阵的行数,从而得到分块矩阵a,分块矩阵a如下式:其中,n为被分块矩阵的列数,m为滑动窗口的宽度,t为横向滑动的步长,则第i分块的矩阵a
i
如下式:其中,a
i
为被分块矩阵的列向量;对分块a
i
进行svd压缩,其中r=rank(a
i
)过程如下:a
i
=s
m
×
mvmnn
d
tm
×
n
,m<<n,i=(1,2,3,

,k)a
i
≈s
m
×
mvm
×
r
d
tn
×
r
a
i
d
n
×
r
≈s
m
×
mvm
×
r
d
tn
×
r
d
n
×
r
,d
tn
×
r
d
n
×
r
=e
r
×
n
b
i
=a
i
d
n
×
r
≈s
m
×
mvm
×
r
,i=(1,2,3,

,k)其中,矩阵b
i
横向合拼成矩阵b,矩阵b为该语音样本的svd压缩结果,矩阵b的公式如下:5.如权利要求4所述的用于智能调度检修的方言识别方法,其特征在于:所述样本数据预处理还包括,对经过2-dwt分解和svd分解压缩得到的数据矩阵按统一的长度进行无重叠分块操作,将所述数据矩阵变换成一个16
×
16
×
n的3维矩阵p
i
,按语音样本的输入顺序将p
i
沿第3维方向拼接成一个3维矩阵:p=(p1,p2,p3,

,p
k
),k为输入的语音样本数,p作为卷积神经网络的输入矩阵;按采集地对语音样本进行编号,同一地区采用同一编号,每一个输入语音样本的每一个16
×
16的2维矩阵对应一个输出列向量t
i
,将编号的值赋予t
i
中与编号顺序相对应的位置的元素,将其他元素设为0,然后拼接成2维输出矩阵t
i
,再按语音样本的输入顺序拼接成t=(t1,t2,t3,

,t
k
),t作为神经网络的输出矩阵。6.如权利要求5所述的用于智能调度检修的方言识别方法,其特征在于:所述卷积神经网络模型包括输入层、特征提取层、分类器、分类储存层f8与竞争输出层09,所述特征提取层包括2个卷积层与2个池化层,所述分类器采用bp神经网络,所述分类储存层f8与竞争输出层o9用于cnn的仿真;所述分类储存层f8中节点数等于语音样本的采样地区数,每一个节点分别与输出层o7中对应的节点相连接。7.如权利要求6所述的用于智能调度检修的方言识别方法,其特征在于:所述卷积神经网络的建立,包括,一个语音样本的3维矩阵中的每一个2维矩阵的输入在输出层o7有一个相应的列向量输出,将列向量中数值最大的元素储存在分类存储层f8对应的节点中,由分类储存层f8对各个节点中储存的数据的个数进行分别求和,求和公式如下:将求和所得结果输入至竞争输出层o9中,在竞争输入层比较选出最大求和值,如下式:output=max(s
s
)(s=1,2,

,m)所述最大求和值对应的分类储存层f8节点所对应的分类作为竞争输出层的输出,输出的分类结果即语音样本的辨识结果。8.如权利要求7所述的用于智能调度检修的方言识别方法,其特征在于:所述概率神经网络的训练,具体为:将一个语音样本的mfcc经过pca和压缩处理后得到一个数据矩阵,然后对数据矩阵矩阵进行转置,按语音样本的输入顺序把不同样本的数据矩阵横向拼接,得到概率神经网络模型的输入矩阵p
n
;对采样地区进行编号,同一地区的语音样本采用相同编号,每个语音样本中的每个列向量对应该语音样本的编号,从而一个语音样本对应一个n维行向量t
i
,按语音样本的输入
顺序把不同样本的t
i
进行横向拼接,最后得到模型的训练数据集的输出矩阵t
n
;将输入向量矩阵p
n
和输出向量t
n
输入到概率神经网络pnn中,向量矩阵p
n
构成样本层,每一列向量对映一结点,样本层结点的数目等于矩阵p
n
列数,完成概率神经网络模型的输入向量矩阵p
n
和输出向量t
n
的输入,即完成概率神经网络方言辨识模型的训练。9.如权利要求8所述的用于智能调度检修的方言识别方法,其特征在于:所述构建方言辨识系统包括,系统需求分析,通过c/s与b/s相结合的系统架构,将系统分为客户端与网站两部分,所述客户端中设置lstm辨识模块;建立数据库,根据方言语音数据与方言口头禅数据建立两张表,口头禅样本数据表的属性与语音样本数据表属性相同;采集样本数据,将方言口头禅表中的口头禅数据根据相同的方言编码进行拼接,然后以方言编码相等为条件右连接方言语音表,提取拼接后的口头禅、语音样本数据与方言编码,生成lstm的训练数据。10.一种用于智能调度检修的方言识别系统,其特征在于:包括,客户端,包括lstm辨识模块、第一系统管理模块、第一用户模块;以及,web端,包括第二用户模块、第二系统管理模块;所述lstm辨识模块用于语音样本的录制与语音文件的选取以及方言语音识别,所述第一系统管理模块用于收集训练数据,所述第一用户模块用于用户登录;所述第二用户模块用于用户的注册与登录以及用户方言辨识结果的数据管理,所述第二系统管理模块用于用户信息管理与训练数据的管理。

技术总结


本发明公开了一种用于智能调度检修的方言识别方法,包括其包括,采集语音样本并提取MFCC特征;样本数据预处理,包括二维离散小波变换与压缩,奇异值分解;卷积神经网络模型的建立和概率神经网络的训练;构建方言辨识系统。本发明提供了一种用于智能调度检修的方言识别方法及系统,可以代替调度员大量重复性工作,且能对电网调度专业语音进行识别,对于现场工作人员的方言也能进行准确识别,极大地提高了电网调度检修工作的效率。高了电网调度检修工作的效率。高了电网调度检修工作的效率。


技术研发人员:

赵伟霖 周佳威 冀红超 潘飞 颜艳艳 黄玉辉 杨兴武 徐涛 彭又寒 陈怡璇 杨继先 王峰 刘颖 何佳 黄鑫 罗淑芳 吉娇 甘晓洁

受保护的技术使用者:

上海隆恒贝瑞科技有限公司

技术研发日:

2022.04.21

技术公布日:

2022/9/1

本文发布于:2024-09-23 02:24:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/56887.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:样本   矩阵   方言   语音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议