一种适用于语音分类的学习模型搜索空间全自动构建方法与流程



1.本发明涉及人工智能领域,尤其涉及一种适用于语音分类的学习模 型搜索空间全自动构建方法。


背景技术:



2.近年来,深度学习技术在图像、语音等问题上得到了广泛应用,它 可以自动学习出有用的特征,脱离了对特征工程的依赖,取得了超越其 他算法的结果。但设计出高性能的神经神经网络需要大量的专业知识与 反复试验,成本极高,限制了神经网络在很多问题上的应用。自动机器 学习是一种自动设计神经网络的技术,可以通过算法根据样本集自动设 计出高性能的网络结构,这可以有效的降低神经网络的使用和实现成本。 神经结构搜索的原理是给定一个称为搜索空间的候选神经网络结构集合, 用某种策略从中搜索出最优网络结构。但是,自动机器学习技术在搜索 空间构建过程中需要预先设定固定的神经网络层数,无法实现模型的全 自动化构建和训练。


技术实现要素:



3.本发明要解决的技术问题和提出的技术任务是对现有技术方案进 行完善与改进,提供一种适用于语音分类的学习模型搜索空间全自动构 建方法,以在无需人工干预的情况下实现算法模型全自动化构建和训练 的目的。为此,本发明采取以下技术方案。
4.一种适用于语音分类的学习模型搜索空间全自动构建方法,包括以 下步骤:
5.1)随机产生网络层数;
6.2)训练模型;
7.训练模型包括以步骤:
8.201)基本操作结构的选取
9.在设定神经结构细胞的搜索空间时,选取最简单的单层神经元结构 作为搜索细胞,其中包括卷积结构、全连接结构、池化结构、循环结构;
10.每个神经细胞有一个输入节点和一个输出节点组成,一个细胞的输 出能通过一个结合操作把所有中间节点进行整合;
11.202)元结构的层次化构建
12.元结构在神经细胞构建的基础上进行,设定神经结构,每个神经结 构通过神经细胞重复多次实现;根据设定神经结构进行网络的构建,网络 的构建采用层次化的构建完成;
13.203)神经结构的搜索
14.神经网络结构通过强化学习进行求解得到神经网络模型参数,在算 法求解过程中,根据步骤202)定义神经结构搜索空间;
15.3)计算模型准确率;若满足终止条件,则输出模型,若否,则进入 下一步;
16.4)重新确定神经网络层数。
17.利用gp高斯过程产生新的层数,并返回步骤2)继续训练模型;
18.作为优选技术手段:在步骤202)元结构的层次化构建时,对于神 经网络结构的第l层,记其中的基本操作结构集合为每个 基本操作都有唯一的输入和数据节点,定义操作的神经网络图模型的邻接 矩阵为其中,表示数据节点i和数据节点j之间的操 作为k;网络的构建采用层次化的构建完成,即第l层的结构为第l-1层的 结构组装产生:
19.o
l
=assem(g
l
,o
l-1
)
ꢀꢀꢀ
(1)
20.通过该网络结构,数据节点i的特征图xi为它的所有前驱数据节点的 特征图xj组合得到;
[0021][0022]
表示根据邻接矩阵g得到的连接数据节点i和数据节点j之间的 所有结构的操作;merge函数表示这些操作的组合;
[0023]
作为优选技术手段:在步骤203)神经结构的搜索中,算法求解过 程首先根据步骤202)定义神经结构搜索空间,并设计训练神经网络rnn, 每次从元结构集合中获取一组元结构组建神经网络,记训练神经网络rnn 控制器的输出为元结构序列a
{1:t}
,其中t为序列长度;强化学习的状态 空间为根据现有结构的参数序列,记t时刻状态为s
t
;为了得到最优的网 络模型,最大化以下的目标函数:
[0024][0025]
其中,p(a
t
|a
1:(t-1)
;θ)表示在当前状态下,rnn选取下一个动作a
t
的 概率;e为数学期望,为求解梯度的函数;
[0026]
利用q-learning进行函数的求解,则公式(4)等价于:
[0027][0028]
公式(4)中q
t
表示通过强化学习得到的模型在t时刻的具体分类任 务上得到高准确率的概率,通过构建的神经网络预测得到;
[0029]
r值为利用得到的模型在具体的分类任务中的准确率;
[0030][0031][0032]
公式(5)和(6)中x
val
、x
train
和y
val
、y
train
分别为分类任务中的 训练数据和相应的标签,w为构建的神经网络模型参数,w
*
表示最优的参 数。
[0033]
作为优选技术手段:在步骤4)中,神经网络层数为神经网络模型 搜索过程中的超参,计神经网络层数为l,在特定的神经网络层数下,得 到的最优的模型准确率为:
[0034]
y=f(l)
ꢀꢀꢀ
(7)
[0035]
则最优的网络层数l
*
满足:
[0036][0037]
在模型训练过程中,f(l)得到的结果具有随机性,服从一个高斯过 程;记d
1:t
={l
1:t
,f
1:t
},其中f
t
=f(l
t
),假定我们所需搜寻的下一个值为 l
t+1
,f
t+1
=f(l
t+1
);记协方差矩阵k为:
[0038][0039]
根据高斯过程的性质,f
1:t
与f
t+1
服从联合高斯分布
[0040][0041]
其中,k=[k(l1,l
t+1
)

k(l
t
,l
t+1
)]
[0042]
求该高斯分布的边缘密度函数,可以得到
[0043]ft+1
|d
t
,l
t+1
=n(μ
t
(l
t+1
),σ2(l
t+1
))
ꢀꢀꢀ
(11)
[0044]
其中,μ
t
(l
t+1
)=k
t
k-1
l
1:t
,σ2(l
t+1
)=k(l
t+1
,l
t+1
)-k
t
k-1k[0045]
根据最大可能概率准则,神经网络层数满足正态分布:
[0046][0047]
利用式(12),计算准确率概率最大的层数
[0048][0049]
利用式(13),得到一系列的最大可能层数,从中选取满足式(8) 最大的值,则为最优的神经网络层数。
[0050]
作为优选技术手段:在步骤201)基本操作结构的选取时,搜索空 间设计的细胞结构如下表所示:
[0051][0052][0053]
有益效果:本技术方案中,基本操作的选择、元结构的构建、网络 模型的搜索和网络层数的确定在同一个框架内完成,提高了自动机器学 习的设计效率,降低了算法使用的门槛,可以在无需人工干预的情况下 实现算法模型的构建和训练;选取最简单的单层神经元结构作为搜索细 胞,可以更快速获得合适的细胞结构,提高建模速度,且得到的学习模 型能有效提高图像及语音分类的准确率,具有推广和应用的价值。
附图说明
[0054]
图1是本发明的流程图。
具体实施方式
[0055]
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
[0056]
如图1所示,本发明包括步骤:
[0057]
s1:随机产生网络层数;
[0058]
s2:训练模型;
[0059]
s3:计算模型准确率;若满足终止条件,则输出模型并结束,若否, 则进入下一步;
[0060]
s4:重新确定神经网络层数。
[0061]
以下就部分内容作进一步具体说明。
[0062]
在进行训练模型时,其包括以下三步骤:
[0063]
s201:基本操作结构的选取
[0064]
为了实现神经结构细胞和元架构的搜索方式,首先需要解决神经结构 细胞的搜索空间设计问题。为了快速获得合适的细胞结构,选取最简单的 单层神经元结构作为搜索细胞,其中包括卷积结构、全连接结构、池化结 构、循环结构四种。
[0065]
每个神经细胞有一个输入节点和一个输出节点组成,而一个细胞的输 出可以通过一个结合操作把所有中间节点进行整合。
[0066]
对于最常用的图像分析类任务,搜索空间设计如下的细胞结构,这个 搜索空间覆盖了多种常见的卷积神经网络的操作,可以应对如图像分类、 目标检测、文本识别等任务,具有较强的普适性。
[0067][0068]
s202:元结构的层次化构建
[0069]
元结构在神经细胞构建的基础上进行,每个神经结构通过神经细胞重 复多次实现。
[0070]
对于神经网络结构的第l层,记其中的基本操作结构集合为每个基本操作都有唯一的输入和数据节点,定义操作的 神经网络图模型的邻接矩阵为其中,表示数据节点i和 数据节点j之间的操作为k。那么网络的构建可以采用层次化的构建完成, 即第l层的结构为第l-1层的结构组装产生:
[0071]ol
=assem(g
l
,o
l-1
)
ꢀꢀꢀ
(1)
[0072]
通过该网络结构,数据节点i的特征图xi为它的所有前驱数据节点的 特征图xj组合得到。
[0073][0074]
s203:神经结构的搜索
[0075]
神经网络结构通过强化学习进行求解。在算法求解过程中,首先根据 步骤2定义神经结构搜索空间,并设计训练神经网络rnn,它每次从元 结构集合中获取一组元结构组建神经网络,记rnn控制器的输出为元 结构序列a
{1:t}
,其中t为序列长度。强化学习的状态空间为根据现有 结构的参数序列,记t时刻状态为s
t
,为了得到最优的网络模型,需要 最大化以下的目标函数:
[0076][0077]
其中,p(a
t
|a
1:(t-1)
;θ)表示在当前状态下,rnn选取下一个动作a
t
的 概率。在强化学习中,该式存在不同的表达方法。本技术方案中利用 q-learning进行函数的求解,则公式(3)等价于:
[0078][0079]
公式3中q值表示通过强化学习得到的模型在具体分类任务上得到高 准确率的概率,通过构建的神经网络预测得到。r值为利用得到的模型在 具体的分类任务中的准确率。
[0080][0081][0082]
公式(4)和(5)中x和y分别为分类任务中的训练数据和相应的标签, w为构建的神经网络模型参数。
[0083]
在步骤s4中,重新确定神经网络层数的具体方法为:
[0084]
神经网络层数为神经网络模型搜索过程中的超参,计神经网络层数为l, 根据步骤2和步骤3,在特定的神经网络层数下,得到的最优的模型准 确率为:
[0085]
y=f(l)
ꢀꢀꢀ
(7)
[0086]
则最优的网络层数l
*
满足:
[0087][0088]
在模型训练过程中,f(l)得到的结果具有随机性,服从一个高斯过程。 记d
1:t
={l
1:t
,f
1:t
},其中f
t
=f(l
t
),假定我们所需搜寻的下一个值为 l
t+1
,f
t+1
=f(l
t+1
)。记协方差矩阵k为:
[0089][0090]
根据高斯过程的性质,f
1:t
与f
t+1
服从联合高斯分布
[0091]
[0092]
其中,k=[k(l1,l
t+1
)

k(l
t
,l
t+1
)]
[0093]
求该高斯分布的边缘密度函数,可以得到
[0094]ft+1
|d
t
,l
t+1
=n(μ
t
(l
t+1
),σ2(l
t+1
))
ꢀꢀꢀ
(11)
[0095]
其中,μ
t
(l
t+1
)=k
t
k-1
l
1:t
,σ2(l
t+1
)=k(l
t+1
,l
t+1
)-k
t
k-1k[0096]
根据最大可能概率准则,神经网络层数满足正态分布: [0097]
利用式(12),计算准确率概率最大的层数
[0098]
利用式(13),得到一系列的最大可能层数,并进而训练模型,根据公 式(7)计算分类准确率,当层数变化后准确率变化小于0.001时,算法 终止。从中选取满足式(8)最大的值,则为最优的神经网络层数。
[0099]
本技术方案提出的自动机器学习方法在语音情感分类任务上进行了验 证。利用收集到的客户语音片段共计2799段,这些片段人工划分为两类, 一类是2000段中性情感的语音,一类是799段愤怒的语音。这些片段都 并裁剪到固定的长度,每次实验过程中,从第一个类别中随机选取799 个语音片段,与第二个类别的799个片段合并,作为此情感分类任务的数 据集,并按照0.7,0.2,0.1的比例划分训练集、验证集和测试集。在尝 试的所有模型上分别迭代100次,选出最优的模型最为最终的结果。
[0100]
训练得到的模型的实验结果采用分类准确率进行评价。从所有模型中, 选出验证集上准确率最高的模型,并最终在的测试集上进行测试。训练过 程中得到的最好的模型,在测试集上的准确率为90.93%,结果相应的混 淆矩阵如下表所示,实现了一个比较高的识别率。
[0101]
表1分类结果混淆矩阵
[0102][0103]
以上图1所示的一种适用于语音分类的学习模型搜索空间全自动构 建方法是本发明的具体实施例,已经体现出本发明实质性特点和进步, 可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方 面的等同修改,均在本方案的保护范围之列。

技术特征:


1.一种适用于语音分类的学习模型搜索空间全自动构建方法,其特征在于包括以下步骤:1)随机产生网络层数;2)训练模型;训练模型包括以步骤:201)基本操作结构的选取在设定神经结构细胞的搜索空间时,选取最简单的单层神经元结构作为搜索细胞,其中包括卷积结构、全连接结构、池化结构、循环结构;每个神经细胞有一个输入节点和一个输出节点组成,一个细胞的输出能通过一个结合操作把所有中间节点进行整合;202)元结构的层次化构建元结构在神经细胞构建的基础上进行,设定神经结构,每个神经结构通过神经细胞重复多次实现;根据设定神经结构进行网络的构建,网络的构建采用层次化的构建完成;203)神经结构的搜索神经网络结构通过强化学习进行求解得到神经网络模型参数,在算法求解过程中,根据步骤202)定义神经结构搜索空间;3)计算模型准确率;若满足终止条件,则输出模型,若否,则进入下一步;4)重新确定神经网络层数;利用gp高斯过程产生新的层数,并返回步骤2)继续训练模型。2.根据权利要求1所述的一种适用于语音分类的学习模型搜索空间全自动构建方法,其特征在于:在步骤202)元结构的层次化构建时,对于神经网络结构的第l层,记其中的基本操作结构集合为每个基本操作都有唯一的输入和数据节点,定义操作的神经网络图模型的邻接矩阵为其中,表示数据节点i和数据节点j之间的操作为k;网络的构建采用层次化的构建完成,即第l层的结构为第l-1层的结构组装产生:0
l
=assem(g
l
,o
l-1
)
ꢀꢀꢀꢀꢀꢀ
(1)通过该网络结构,数据节点i的特征图x
i
为它的所有前驱数据节点的特征图x
j
组合得到;到;表示根据邻接矩阵g得到的连接数据节点i和数据节点j之间的所有结构的操作;merge函数表示这些操作的组合。3.根据权利要求2所述的一种适用于语音分类的学习模型搜索空间全自动构建方法,其特征在于:在步骤203)神经结构的搜索中,算法求解过程首先根据步骤202)定义神经结构搜索空间,并设计训练神经网络rnn,每次从元结构集合中获取一组元结构组建神经网络,记训练神经网络rnn控制器的输出为元结构序列a
{1:t}
,其中t为序列长度;强化学习的状态空间为根据现有结构的参数序列,记t时刻状态为s
t
;为了得到最优的网络模型,最大化以下的目标函数:
其中,p(a
t
|a
1:(t-1)
;θ)表示在当前状态下,rnn选取下一个动作a
t
的概率;e为数学期望,为求解梯度的函数;利用q-learning进行函数的求解,则公式(3)等价于:公式(4)中qt表示通过强化学习得到的模型在t时刻的具体分类任务上得到高准确率的概率,通过构建的神经网络预测得到;s
t
表示t时刻的状态;a
t
表示t时刻采取的动作;β和γ为权重参数;r值为利用得到的模型在具体的分类任务中的准确率;r值为利用得到的模型在具体的分类任务中的准确率;公式(5)和(6)中x
val
、x
train
和y
val
、y
train
分别为分类任务中的训练数据和相应的标签,w为构建的神经网络模型参数,w
*
表示最优的参数。4.根据权利要求3所述的一种适用于语音分类的学习模型搜索空间全自动构建方法,其特征在于:在步骤4)中,神经网络层数为神经网络模型搜索过程中的超参,计神经网络层数为l,在特定的神经网络层数下,得到的最优的模型准确率为:y=f(l)
ꢀꢀꢀ
(7)则最优的网络层数l
*
满足:在模型训练过程中,f(l)得到的结果具有随机性,服从一个高斯过程;记d
1:t
={l
1:t
,f
1:t
},其中f
t
=f(l
t
),假定所需搜寻的下一个值为l
t+1
,f
t+1
=f(l
t+1
);记协方差矩阵k为:根据高斯过程的性质,f
1:t
与f
t+1
服从联合高斯分布其中,k=[k(l1,l
t+1
)

k(l
t
,l
t+1
)]求该高斯分布的边缘密度函数,可以得到f
t+1
|d
t
,l
t+1
=n(μ
t
(l
t+1
),σ2(l
t+1
))
ꢀꢀ
(11)其中,μ
t
(l
t+1
)=k
t
k-1
l
1:t
,σ2(l
t+1
)=k(l
t+1
,l
t+1
)-k
t
k-1
k根据最大可能概率准则,神经网络层数满足正态分布:
利用式(12),计算准确率概率最大的层数利用式(13),得到一系列的最大可能层数,从中选取满足式(8)最大的值,则为最优的神经网络层数。5.根据权利要求3所述的一种适用于语音分类的学习模型搜索空间全自动构建方法,其特征在于:在步骤201)基本操作结构的选取时,搜索空间设计的细胞结构如下表所示:征在于:在步骤201)基本操作结构的选取时,搜索空间设计的细胞结构如下表所示:

技术总结


本发明公开了一种适用于语音分类的学习模型搜索空间全自动构建方法,涉及人工智能领域。自动机器学习在搜索空间构建过程中需要预先设定固定的神经网络层数,无法实现模型的全自动化构建和训练。本技术方案包括步骤:随机产生网络层数、训练模型、计算模型准确率、重新确定神经网络层数;在设定神经结构细胞的搜索空间时,选取最简单的单层神经元结构作为搜索细胞。在本技术方案中,基本操作的选择、元结构的构建、网络模型的搜索和网络层数的确定在同一个框架内完成,提高自动机器学习的设计效率,降低算法使用的门槛,在无需人工干预的情况下实现算法模型的构建和训练;提高建模速度,且得到的学习模型能有效提高图像及语音分类的准确率。类的准确率。类的准确率。


技术研发人员:

王庆娟 沈然 丁麒 金良峰 倪琳娜 孙钢 谷泓杰 张爽 罗欣 李伊玲

受保护的技术使用者:

国网浙江省电力有限公司

技术研发日:

2022.05.18

技术公布日:

2022/11/3

本文发布于:2024-09-20 17:33:19,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/13472.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:结构   神经网络   模型   节点
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议