面向强化学习的深度神经网络生成方法与流程

1.本发明涉及深度神经网络模型优化领域，尤其涉及一种面向强化学习的高精度低延迟深度神经网络生成技术。

背景技术：

2.随着导引头主动成像模式的加入，引入了丰富的舰船特征，使弹上舰船目标自动识别(atr)成为对海打击领域的热点之一。近几年，伴随着大数据红利以及深度神经网络在检测识别能力快速发展，研究人员提出利用深度神经网络技术处理弹载微波图像，利用网络强大的特征提取能力，获得一定的原理性成果。但是在工程化过程中，受限于弹体狭小的尺寸空间、孱弱的处理芯片，合理地轻量化网络，减少识别精度的损失，是重要的发展方向。
3.在网络轻量化研究方面，主要分为网络模型设计、损失函数改进、网络剪枝以及自动模型生成三个方向。对于网络模型设计，主要是对普通卷积层的改进，如深度卷积(dw)，在相同参数量下可以输出与输入数据相同通道数的特征图，再通过1
×
1的点态卷积(pw)，经计算，对于k
×
k卷积核，深度卷积计算复杂度大约降为普通卷积的1/k2；另外一种是空间可分离卷积(ssc)，将大尺度卷积核分解为多个级联的小尺度卷积核，比如5
×
5的卷积可以等效为两个3
×
3卷积，它们的特征提取效果一致但是参数量从25降维至18，在大规模网络中可获得可观的效率提升；为了抑制由于网络参数维度降低带来的精度损失，提出挤压-激励(se)，对特征块图进行沿通道维的平均池化，再通过反向残差pw，生成特征图权重，使网络注视重要特征。在损失函数设计方面，旨在通过损失函数反向刺激并提升前端网络提取特征效率，实现较浅的网络也能获得可接受的识别准确率。研究人员提出shufflenet，其使用了聚焦损失函数(fl)，它相比于传统的交叉熵损失函数，引入动态缩放因子，降低训练过程中易区分样本的损失权重，从而将重心快速聚焦在那些难区分的样本，动态控制单批次中样本对损失函数的贡献度；为了解决正负样本数量不均衡问题，研究人员提出前景和背景权重因子，抑制数量过多的一方，防止网络过拟合。对于网络剪枝，主要分为非结构化剪枝和结构化剪枝，其中非结构化主要特点是在参数张量内，将其权重值设为零，这种精细修剪的粒度使得可以在非常精密的模式下实现剪枝；结构化剪枝通过修剪整个神经元或者卷积核，使得深度神经网络的层结构更为稀疏；在剪枝原则上，主要有权重原则和梯度原则，主要原理在于随着训练过程深入，不重要的卷积核参数值与梯度越来越小，构成剪除依据。对于自动模型学习方面，研究人员提出mnasnet，在损失函数中增加了网络延迟约束，当卷积神经网络(cnn)前向推理延迟大于容忍值时，赋予其负奖励；采用分解式层级搜索策略，将网络分解为多个模块，每个模块设置搜索卷积算子、卷积核尺寸、跳跃连接方式、滤波器数量以及包含的层数等，可以实现模块平均层数次方倍的搜索效率提升。
4.专利“cn111242180a”(一种基于轻量化卷积神经网络的图像识别方法及系统)公开了一种基于轻量化卷积神经网络的图像识别方法及系统，其主要特征在于，采用基于核稀疏化方法，即通过对权重的更新加以正则项进行诱导，使其更加稀疏，方便计算出模型中卷积层、未被裁剪的卷积层中卷积核的裁剪因子，并对剪枝后卷积核的权重系数矩阵进行
量化编码,得到轻量化的卷积神经网络模型，获得图像识别能力。基于核稀疏化方法虽然通过对权重的更新进行限制，获得很好稀疏化目的，但是给训练的优化增加了难度，降低了模型的收敛性，其次，非结构的剪枝对矩阵稀疏处理优化有较高的要求，实际工程中很难到通用的处理手段，可移植性较差。
5.2021年ieee international conference on computer vision(iccv)中lusinea.公开的文献《bias loss for mobile neural networks》认为轻量化cnn中，由于参数数量少，提取的特征量会更小，不足以描述待分类对象，缺少区分不同类的对象所需的唯一描述符，这种情况下网络识别退化为随机预测，训练过程无法学到任何有用的特征。基于此，作者在最后的卷积层上，基于采样特征方差，根据当前批次中样本特征多样性，按比例加权每个数据点的贡献，在top-5精度下超越了mobilenet、shufflenet和efficientnet等。但是，该方法对特征方差大的样本赋予大权值，网络倾向于加强易分样本的学习，对于鲁棒性要求高的场景并不适用性，比如信噪比较低的合成孔径雷达图像等。

技术实现要素：

6.针对上述算法的不足，本发明提出了一种面向强化学习的深度神经网络生成方法，采用循环神经网络监督卷积神经子网络训练更新的方式，结合符合需求的奖励函数，自适应寻识别精度和延迟最优平衡的网络模型和超参，提升了深度网络的应用前景。
7.为了达到上述目的，本发明提出了一种面向强化学习的深度神经网络生成方法，包含以下步骤：采用循环神经网络产生子网络拓扑模型，设计需求驱动的直接奖励，对待识别的样本进行充分训练后计算该子网络拓扑模型的奖励，并反向传播至循环神经网络；采用策略梯度下降计算法则，结合交叉熵梯度模型，更新循环神经网络参数；产生新的卷积神经子网络拓扑模型，进行下一次更新直至收敛；对收敛时输出的子网络拓扑模型采样，选择最大概率项和其对应的状态空间元素，合并生成最优的子网络拓扑模型。
8.进一步地，所述面向强化学习的深度神经网络生成方法，具体包含以下步骤：
9.s1、设定循环神经网络、待优化子网络拓扑模型每一层类型状态空间、子网络拓扑模型每一层状态所具有的动作空间、子网络拓扑模型训练后所返回的直接奖励以及状态探索概率、子网络拓扑模型全样本训练周期、奖励折扣参数；
10.s2、采样生成循环神经网络初始输入状态，并得到第一组子网络拓扑模型；
11.s3、在子网络拓扑模型和训练样本基础上，经过设定的训练周期后，经测试计算该子网络模型所对应的返回奖励；
12.s4、基于子网络模型所对应的返回奖励，并通过策略梯度下降准则，更新循环神经网络模型参数。
13.s5、基于更新后的循环神经网络，并共享状态空间参数，再次生成第二组子网络拓扑模型，重复s3～s5直至收敛，输出该子网络拓扑模型；
14.s6、对输出的子网络拓扑模型进行采样，在每一个长短时记忆单元输出中选择最大概率项和其对应的状态空间元素，全部元素合并成最优的子网络拓扑模型，并用样本集进行性能测试。
15.进一步地，所述子网络拓扑模型每一层类型状态空间定义为：
16.s＝{conv dconv pooling bn-activation skip quantization}
17.式中“conv”表示卷积状态、“dconv”表示深度可分离卷积状态、“pooling”表示池化状态、“bn-activation”表示批量归一化激活状态、“skip”表示跳跃连接点状态、“quantization”表示量化状态；
18.所述子网络拓扑模型每一层状态所具有的动作空间定义为：
[0019][0020]
式中，卷积状态动作输出滤波器个数，包括16、32、64三种选择；深度可分离卷积动作同卷积状态动作；池化状态动作集包含“max”和“avg”两种，其中，max表示最大值池化，avg表示平均值池化；批量归一化-激活状态动作集包含“relu”和“tanh”两种；跳跃连接状态包含l-l两种动作，其中l表示子网络拓扑模型深度、l表示当前状态所在层数；量化状态包含“0”和“1”两种动作，分别表示不采用int8处理以及采用int8处理。
[0021]
进一步地，所述子网络拓扑模型训练后所返回的直接奖励，是平均识别精度有限损失情况下，获得最优的子网络推理延迟，其计算方法为：
[0022][0023]
式中，lat和t
fp32
分别表示子网络拓扑模型平均延迟和相同拓扑模型下基于单精度浮点运算的平均延迟；acc和acc
fp32
分别表示子网络拓扑模型平均识别精度和相同拓扑模型下基于单精度浮点运算的平均识别精度；β＞0，用于控制精度损失在奖励中的权重；α＞1，用于控制平均精度可允许损失范围。
[0024]
进一步地，所述循环神经网络由长短时记忆单元组成，所述长短时记忆单元的数量等于子网络拓扑模型深度的三倍。
[0025]
进一步地，所述步骤s2包含以下步骤：
[0026]
s2.1、对子网络拓扑模型每一层类型状态空间进行随机采样，产生循环神经网络的初始输入状态向量s0；
[0027]
s2.2、对子网络拓扑模型的状态探索概率进行随机采样，产生循环神经网络的初始输入动作a0；
[0028]
s2.3、基于循环神经网络的初始输入状态向量s0与初始输入动作a0，并根据one-hot编码规则，形成初始向量作为循环神经网络的第一个长短时记忆单元的输入；
[0029]
s2.4、第一个长短时记忆单元输出“1
×
动作集大小”的one-hot编码向量，并作为第二个长短时记忆单元的输入；
[0030]
s2.5、依此类推，直至循环神经网络中长短时记忆单元的层数与子网络的层数相同，进而得到子网络拓扑模型。
[0031]
进一步地，所述步骤s3中，采用折扣奖励的方式计算当前子网络拓扑模型对应的返回奖励，计算方法为：
[0032][0033]
式中，n表示当前子网络拓扑模型的时刻，t表示最大均衡范围，λ是折扣参数，r(t)表示t时刻子网络拓扑模型训练后返回的直接奖励。
[0034]
进一步地，所述步骤s4中，所述更新循环神经网络模型参数的方式，包含以下步骤：
[0035]
s4.1、计算循环神经网络模型的损失函数；所述循环神经网络模型的损失函数的计算公式为：
[0036][0037]
式中，π表示动作转移策略概率，θc是当前循环神经网络模型的参数；
[0038]
s4.2、计算循环神经网络模型的损失函数关于当前循环神经网络模型的参数的梯度：
[0039][0040]
式中，en[
·
]表示对n求期望，π(a
l
|a
l-1
,θc,n)表示长短时记忆单元lstm输出；n表示子网络拓扑模型的个数。
[0041]
s4.3、循环神经网络模型更新后的参数＝当前循环神经网络模型的参数+当前循环神经网络模型损失函数关于参数的负梯度
×
步长。
[0042]
本发明具有以下优势：
[0043]
(1)本发明设定与实际需要相关的直接奖励函数，自动约束子网络拓扑模型，最终迭代生成最符合要求的网络模型，全过程均是自适应的，不需要人为参与。该直接奖励函数中进行了子网络延迟和性能硬约束，优化出高精度低延迟的子网络拓扑模型，能够在实时性要求严格的应用平台使用，如军事武器系统、移动手机平台等。
[0044]
(2)本发明循环神经网络从状态空间中挑选子网络模型元素，随着人工智能的发展，状态空间将越来越丰富，会不断增加可优化网络种类和能力，因此具备能力可升级特点。
附图说明
[0045]
图1为本发明实施例提供的一种面向强化学习的深度神经网络生成方法的流程图。
[0046]
图2为本发明实施例提供的rnn网络的模型图。
[0047]
图3为本发明实施例提供的cifar-10训练样本集的示意图。
[0048]
图4为子网络拓扑模型的返回奖励以及循环神经网络的损失函数随迭代次数增加而变化的曲线图。
[0049]
图5为对cifar-10数据库的最优6层深度神经网络模型。
[0050]
图6为本发明实施例提供的深度神经网络的测试结果。
具体实施方式
[0051]
以下结合附图和具体实施例对本发明作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比率，仅用以方便、明晰地辅助说明本发明实施例的目的。
[0052]
本发明提出了一种面向强化学习的深度神经网络生成方法，包含以下步骤：采用循环神经网络产生子网络拓扑模型，设计需求驱动的直接奖励，对待识别的样本进行充分训练后计算该子网络拓扑模型的奖励，并反向传播至循环神经网络；采用策略梯度下降计算法则，结合交叉熵梯度模型，更新循环神经网络参数；产生新的卷积神经子网络拓扑模型，进行下一次更新直至收敛；对收敛时输出的子网络拓扑模型采样，选择最大概率项和其对应的状态空间元素，合并生成最优的子网络拓扑模型。
[0053]
具体地，如图1所示，本发明提出的面向强化学习的深度神经网络生成方法，具体包含以下步骤：
[0054]
s1、设定循环神经网络、待优化子网络拓扑模型每一层类型状态空间、子网络拓扑模型每一层状态所具有的动作空间、子网络拓扑模型训练后所返回的直接奖励以及状态探索概率、子网络拓扑模型全样本训练周期、奖励折扣参数。
[0055]
所述子网络拓扑模型每一层类型状态空间定义为：
[0056]
s＝{conv dconv pooling bn-activation skip quantization}
[0057]
式中，“conv”表示卷积状态、“dconv”表示深度可分离卷积状态、“pooling”表示池化状态、“bn-activation”表示批量归一化激活状态、“skip”表示跳跃连接点状态、“quantization”表示量化状态。
[0058]
所述子网络拓扑模型每一层状态所具有的动作空间定义为：
[0059]
[0060]
式中，卷积状态动作输出滤波器个数，包括16、32、64三种选择；深度可分离卷积动作同卷积状态动作；池化状态动作集包含“max”和“avg”两种，其中，max表示最大值池化，avg表示平均值池化；批量归一化-激活状态动作集包含“relu”和“tanh”两种；跳跃连接状态包含l-l两种动作，其中l表示子网络拓扑模型深度、l表示当前状态所在层数；量化状态包含“0”和“1”两种动作，分别表示不采用int8处理以及采用int8处理。
[0061]
本发明的状态空间s和动作空间a均可扩大。通过扩大状态空间s和动作空间a，能够自适应优化出更加优异的深度神经网络模型。
[0062]
所述子网络拓扑模型训练后所返回的直接奖励，其计算方法为：
[0063][0064]
式中，lat和t
fp32
分别表示子网络拓扑模型平均延迟和相同拓扑模型下基于单精度浮点运算的平均延迟；acc和acc
fp32
分别表示子网络拓扑模型平均识别精度和相同拓扑模型下基于单精度浮点运算的平均识别精度；β＞0，用于控制精度损失在奖励中的权重；α＞1，用于控制平均精度可允许损失范围。
[0065]
所述子网络拓扑模型训练后所返回的直接奖励r，是平均识别精度acc有限损失(硬约束)情况下，获得最优的子网络推理延迟(软约束)。本发明在奖励函数中进行硬约束，使得本发明可以应用于实时性要求严格的应用平台。本实施中，所述α和β分别设为1.005和1，即最大只允许0.5％的精度损失。
[0066]
s2、采样生成循环神经网络初始输入状态，并得到第一组子网络拓扑模型。
[0067]
所述循环神经网络(rnn)网络由长短时记忆单元(lstm)组成，所述lstm的数量等于子网络拓扑模型深度的三倍。所述rnn网络的模型如图2所示。
[0068]
本实施例中，所述rnn网络设定有32个lstm，每一个子网络层需要3个lstm输出确定，第一个lstm输出向量首先通过第一个全连接，形成网络类型(卷积、深度卷积、池化以及激活)；在另一个分支上，通过第二个全连接，选择该状态下行为(滤波个数、池化方式、激活方法)，并将该行为one-hot编码传递给下一个lstm；第二个lstm状态为skip，它选择跳跃到后续哪一层，输出为跳跃层的one-hot编码；第三个lstm状态为量化，它选择当前子网络层是否采用int8计算，输出为[0,1]的编码，传入子网络下一层。
[0069]
具体地，所述步骤s2包含以下步骤：
[0070]
s2.1、对子网络拓扑模型每一层类型状态空间进行随机采样，产生循环神经网络的初始输入状态向量s0；
[0071]
s2.2、对子网络拓扑模型的状态探索概率进行随机采样，产生循环神经网络的初始输入动作a0；
[0072]
s2.3、基于循环神经网络的初始输入状态向量s0与初始输入动作a0，并根据one-hot编码规则，形成初始向量并作为循环神经网络的第一个长短时记忆单元的输入；
[0073]
s2.4、第一个长短时记忆单元输出“1
×
动作集大小”的one-hot编码向量，并作为第二个长短时记忆单元的输入；
[0074]
s2.5、依此类推，直至完成子网络拓扑模型；
[0075]
具体地，重复执行步骤s2.4，当子网络的层数与循环神经网络中长短时记忆单元
的层数相同时，前向推理一次循环神经网络即可得到子网络拓扑模型。
[0076]
s3、在子网络拓扑模型和训练样本基础上，经过设定的训练周期后，计算该子网络模型所对应的返回奖励。
[0077]
本实施例中，子网络拓扑模型训练及测试用的样本集为cifar-10，如图3所示，它总计10类目标，包含60000幅32
×
32
×
3大小的rgb彩图像，其中50000幅用于训练、10000幅用于测试验证。子网络拓扑模型最大训练周期设为10，批次大小设为128，训练过程中为了降低奖励的不稳定，除了用均衡的方式，还采用去除基线的方法，基线计算冲量系数设为0.8。
[0078]
为了降低子网络拓扑模型返回奖励的方差，采用折扣奖励的方式计算当前子网络拓扑模型对应的返回奖励，计算得到的返回奖励即为当前子网络拓扑模型返回的实际奖励。当前时刻子网络拓扑模型返回的奖励受前t个时刻的影响，采用折扣奖励的方式，即计算增益的方式，对每个时刻的子网络模型的直接奖励进行加权，时间越近，权值越大，越有利于提升收敛的全局稳健性。所述采用折扣奖励的方式计算当前子网络拓扑模型对应的返回奖励的计算方法为：
[0079][0080]
式中，n表示当前子网络拓扑模型的时刻，t表示最大均衡范围，λ是折扣参数，r(t)表示t时刻子网络拓扑模型训练后返回的直接奖励。本实施例中，折扣参数λ设定为0.99，最大均衡范围t设为20。
[0081]
s4、基于子网络拓扑模型所对应的返回奖励，通过策略梯度下降准则，更新循环神经网络模型参数。
[0082]
所述更新循环神经网络模型参数的方式，包含以下步骤：
[0083]
计算循环神经网络模型的损失函数，所述循环神经网络模型的损失函数j定义为所有可能子网络拓扑模型返回奖励的平均值，即，
[0084][0085]
式中，π表示动作转移策略概率，θc是当前循环神经网络模型的参数。
[0086]
由于奖励不具备可导性，因此采用强化学习中策略梯度下降的方式计算循环神经网络模型的损失函数j关于循环神经网络模型的参数θc的梯度，即可得到循环神经网络模型的参数更新值。
[0087]
所述循环神经网络模型的损失函数关于参数θc的梯度的计算公式为：
[0088][0089]
式中，en[
·
]表示对n求期望，采用n个子网络拓扑模型样本平均，即对循环神经网络进行n次采样，产生n个子网络拓扑模型，π(a
l
|a
l-1
,θc,n)表示长短时记忆单元lstm输出。
[0090]
上式约等号右侧第二个求和项是标准的交叉熵梯度求和方式，可直接调用深度学习框架自带函数，降低计算复杂度。同时，上式中关于自然底数求梯度问题，可以采用tensorflow框架下交叉熵的求导计算。上述第二个求和项可通过计算循环神经网络每个长短时记忆单元lstm输出与标签之间的交叉熵梯度获得。所述标签是one-hot编码假设有两层模型[dconv,conv]，则one-hot编码为[1,0]和[0，1]，每个长短时记忆单元lstm输出与标签之间的交叉熵为：将0和1省略，即可获得上述第二个求和项。
[0091]
本实施例中，在计算循环卷积循环神经网络模型的参数梯度时，将n设定为1。
[0092]
循环神经网络模型更新后的参数＝当前循环神经网络模型的参数+当前循环神经网络模型损失函数关于参数的负梯度
×
步长。
[0093]
s5、基于更新后的循环神经网络，并共享状态空间参数，再次生成第二组子网络拓扑模型，重复步骤s3～s5直至收敛，并输出该子网络拓扑模型。
[0094]
具体地，所述子网络拓扑模型达到收敛时，当前子网络拓扑模型所对应的返回奖励相较于上一次更新的子网络拓扑模型所对应的返回奖励的增量，小于预设值。
[0095]
s6、对输出的子网络拓扑模型进行采样，在每一个长短时记忆单元输出中选择最大概率项和其对应的状态空间元素，全部元素合并成最优的网络模型，并用样本进行性能测试。
[0096]
具体地，循环神经网络中每个长短时记忆单元lstm节点对应于循环神经网络每一层可能的状态类型，包括卷积、池化等。每一个长短时记忆单元lstm取出这些状态类型的概率，本发明中，每个长短时记忆单元lstm去最大概率项及其对应的状态类型，以构成最优的子网络模型。
[0097]
本实施例中，子网络拓扑模型的返回奖励以及循环神经网络的损失函数随迭代次数的增加所产生的变化如图4所示，经过74次迭代后，子网络拓扑模型的返回奖励以及循环神经网络的损失函数整体均趋于收敛。
[0098]
本实施例在设定子网络层数为6的情况下，自动生成的最优深度神经网络模型如图5所示，该结果表明浅层量化对精度影响较大，其次浅层特征和深层特征融合连接有助于
提升识别准确率。整体测试结果如图6所示，对比mobilenet-v1和mobilenet-v2(相同层数)，本发明优化的卷积神经网络具有更高的top-5准确率和cpu延迟，进一步，相比于全浮点运算，图5的量化模型在精度损失0.37％的情况下，网络延迟降低了约16％，达到了高精度低延迟的设计要求。
[0099]
尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

技术特征：

和“1”两种动作，分别表示不采用int8处理以及采用int8处理。4.如权利要求2所述的深度神经网络生成方法，其特征在于，所述子网络拓扑模型训练后所返回的直接奖励，是平均识别精度有限损失情况下，获得最优的子网络推理延迟，其计算方法为：式中，lat和t
fp32
分别表示子网络拓扑模型平均延迟和相同拓扑模型下基于单精度浮点运算的平均延迟；acc和acc
fp32
分别表示子网络拓扑模型平均识别精度和相同拓扑模型下基于单精度浮点运算的平均识别精度；β＞0，用于控制精度损失在奖励中的权重；α＞1，用于控制平均精度可允许损失范围。5.如权利要求2所述的深度神经网络生成方法，其特征在于，所述循环神经网络由长短时记忆单元组成，所述长短时记忆单元的数量等于子网络拓扑模型深度的三倍。6.如权利要求5所述的深度神经网络生成方法，其特征在于，所述步骤s2包含以下步骤：s2.1、对子网络拓扑模型每一层类型状态空间进行随机采样，产生循环神经网络的初始输入状态向量；s2.2、对子网络拓扑模型的状态探索概率进行随机采样，产生循环神经网络的初始输入动作；s2.3、基于循环神经网络的初始输入状态向量与初始输入动作，并根据one-hot编码规则，形成初始向量作为循环神经网络的第一个长短时记忆单元的输入；s2.4、第一个长短时记忆单元输出“1
×
动作集大小”的one-hot编码向量，并作为第二个长短时记忆单元的输入；s2.5、依此类推，直至循环神经网络中长短时记忆单元的层数与子网络的层数相同，进而得到子网络拓扑模型。7.如权利要求2所述的深度神经网络生成方法，其特征在于，所述步骤s3中，采用折扣奖励的方式计算当前子网络拓扑模型对应的返回奖励，计算方法为：式中，n表示当前子网络拓扑模型的时刻，t表示最大均衡范围，λ是折扣参数，r(t)表示t时刻子网络拓扑模型训练后返回的直接奖励。8.如权利要求7所述的深度神经网络生成方法，其特征在于，所述步骤s4中，所述更新循环神经网络模型参数的方式，包含以下步骤：s4.1、计算循环神经网络模型的损失函数；所述循环神经网络模型的损失函数的计算公式为：式中，π表示动作转移策略概率，θ
c
是当前循环神经网络模型的参数；s4.2、计算循环神经网络模型的损失函数关于当前循环神经网络模型的参数的梯度：
式中，e
n
[
·
]表示对n求期望，π(a
l
|a
l-1
,θ
c
,n)表示长短时记忆单元lstm输出；n表示子网络拓扑模型的个数。s4.3、循环神经网络模型更新后的参数＝当前循环神经网络模型的参数+当前循环神经网络模型损失函数关于参数的负梯度
×
步长。

技术总结

本发明公开了一种面向强化学习的深度神经网络生成方法，包含以下步骤：采用循环神经网络产生子网络拓扑模型，设计需求驱动的直接奖励，对待识别的样本进行充分训练后计算该子网络拓扑模型的奖励，并反向传播至循环神经网络；采用策略梯度下降计算法则，结合交叉熵梯度模型，更新循环神经网络参数；产生新的卷积神经子网络拓扑模型，进行下一次更新直至收敛；对收敛时输出的子网络拓扑模型采样，选择最大概率项和其对应的状态空间元素，合并生成最优的子网络拓扑模型。本发明可以自适应优化出更加优异的深度神经网络，并且可以降低训练难度和收敛时间。难度和收敛时间。难度和收敛时间。