首页 > 专利查询

一种用于图像分割的新型深度强化学习算法[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202010029217.0

(22)申请日 2020.01.10

(71)申请人厦门大学

地址 361000 福建省厦门市思明南路422号

(72)发明人曾念寅　刘松明　李寒　

(74)专利代理机构厦门市首创君合专利事务所

有限公司 35204

代理人张松亭

(51)Int.Cl.

G06T 7/11(2017.01)

G06N 3/08(2006.01)

(54)发明名称

一种用于图像分割的新型深度强化学习算

法

(57)摘要

本发明公开了一种用于图像分割的新型深

度强化学习算法，包括以下步骤：1)采集若干相

关图像作为训练图像集，并且对其进行预处理，

提取出包含目标区域的感兴趣区域；2)针对要分

割图像的特点，建立深度强化学习所需的状态

值，动作值以及奖赏值；3)构建合适的深度学习

网络模型作为深度强化学习算法中的值网络和

目标网络；4)在深度网络训练过程中，利用多因

素自学习学习曲线对经验池和样本采样大小进

行动态调整；5)完成网络的训练，对测试样本进

行运动轨迹的预测，从而得到最终的图像的分割

结果。本发明提出了一种用于图像分割的新型深

度强化学习算法，通过构建合理的深度强化学习

模型，并且对其经验池和样本采样大小进行合理

改进，能够有效提高模型训练效率，获得较为精

确的分割结果，

具有较强的稳定性和应用性。权利要求书2页说明书5页附图2页CN 111260658 A 2020.06.09

C N 111260658

1.一种用于图像分割的新型深度强化学习算法，其特征在于，包括：

S1：采集若干相关图像作为训练图像集，并且对其进行预处理，提取出包含目标区域的感兴趣区域；

S2：针对要分割图像的特点，建立深度强化学习所需的状态值，动作值以及奖赏值；

S3：构建合适的深度学习网络模型作为深度强化学习算法中的值网络和目标网络；

S4：在深度网络训练过程中，利用多因素自学习曲线对经验池和样本采样大小进行动态调整；

S4：完成网络的训练，对测试样本进行运动轨迹的预测，从而得到最终的图像的分割结果。

2.根据权利要求1所述的一种用于图像分割的新型深度强化学习算法，其特征在于，所述步骤S2中具体包括：

S21：针对要分割图像的特点，以图像感兴趣区域的每一列为研究对象，构建深度强化学习模型所需要的状态值，动作值，奖赏值；

S22：状态值的确定：选取图像每一列某一像素的领域灰度值向量组成状态值；

S23：动作值的确定：深度强化学习智能体以图像的顶部或者底部为起始位置，根据当前状态是否是最佳状态给出相应的奖赏值或者惩罚，并依据当前状态做出向上或者向下运动改变当前的状态；

S24：奖赏值的确定：依据强化学习智能体当前状态是否是目标状态给出相应的奖赏值，奖赏值可以由

图像当前的分割效果与人工最佳分割版本进行对比得出，与人工版本符合率高给出较高的奖赏值，符合率低的给出相应的惩罚值。

3.根据权利要求1所述的一种用于图像分割的新型深度强化学习算法，其特征在于，所述步骤S3中具体包括：

S31：构建合适的深度学习网络模型作为深度强化学习算法中的值网络和目标网络，深度学习网络模型的输入层节点数与训练样本的状态特征向量维数一致，输出层的节点数与智能体的动作总数量相一致，隐含层的层数以及各层的节点数根据图像分割的效果来确定；

S32：预训练阶段从训练图片中获取训练样本并将训练样本储存到经验池中，从经验池中随机抽取部分训练样本，将训练样本输入到输入层，通过逐层训练的方式对各层结构进行训练，低一层隐含层输出作为高一层的输入；

S33：微调阶段：采用有监督学习方式对整个网络进行训练，将目标网络的输出作为值网络输出的标签，将值网络的实际输出与目标网络的误差逐层向后传播，对值网络的参数进行微调；

S34：目标网络更新阶段：训练每间隔一段时间将值网络的参数赋给目标网络，其余训练时间目标网络的参数保持固定不变，实现值网络和目标网络的参数同步；

S35：根据图像分割效果调节和优化网络参数，完成深度神经网络的训练；最后，根据训练好的深度强化学习模型对测试样本进行最终的分割。

4.根据权利要求1所述的一种用于图像分割的新型深度强化学习算法，其特征在于，所述步骤S4中具体包括：

S41：在后续的训练过程中，为了提高训练效率，根据多因子学习曲线动态调节经验池

的大小：

S42：在后续的训练过程中，为了提高训练效率，根据多因子学习曲线动态调节样本采样的大小：

R表示经验池的大小，N表示样本采样大小，k表示算法的首次学习效果，一般取为常数1，steps表示训练步数，γ表示奖赏折扣率，α表示学习率，C表示目标网络更新步数间隔。

一种用于图像分割的新型深度强化学习算法

技术领域

[0001]本发明涉及图像处理和智能算法技术领域，具体为一种用于图像分割的深度强化学习算法。

背景技术

[0002]深度强化学习是一种基于动态规划求解框架的无模型马尔可夫决策过程处理方法，通过与环境的交互来指导智能体在不同的状态下进行收益最大化的动作，从而得到最优决策。由于其具有智能、有效解决高维状态输入、数据可重用等特点，目前已经广泛应用于智能控制、策略分析、图像处理等领域。然而，传统的深度强化学习算法的经验池大小以及采样大小是固定的，没有考虑到智能体随着训练的进行其学习能力也在不断增强的特性，因此导致在模型训练前期出现效率较低的现象。因此，本专利采用多因子学习曲线动态调整经验池的大小和样本采样大小，提出了一种用于图像分割的新型深度强化学习算法。[0003]特别的，该算法已经成功运用于免疫层析图像试条的识别及其定量检测，可以为环境检测、临床诊断、食品安全检测、农业生产以及其它一些新兴领域比如分子诊断提供一种有效、准确而快速的检测手段。

发明内容

[0004]本发明为了克服现有技术存在的不足之处，提供了一种用于图像分割的新型深度强化学习算法。所述方法将图像分割方法转换成目标像素的运动状态估计问题，采用多因素自学习曲线原理动态改变经验池大小和采样样本大小能够有效提高算法效率，得到较为准确的目标状态估计，从而实现最终的图像分割。

[0005]本发明采用的技术方案是：一种用于图像分割的深度强化学习算法，包括以下步骤：

[0006]1、采集若干相关图像作为训练图像集，并且对其进行预处理，提取出包含目标区域的感兴趣区域。

[0007]2、针对要分割图像的特点，构建深度强化学习所需的状态值，动作值以及奖赏值。[0008]3、构建合适的深度学习网络模型作为深度强化学习算法中的值网络和目标网络，比如深度信念网络，堆栈自动编码网络等，并输入样本图像对网络进行训练。

[0009]4、根据多因子学习曲线动态调节经验池和样本采样大小，通过图像分割效果来调节深度神经网络的的参数，最终确定网络的模型。

[0010]5、深度强化学习模型确定之后，将待分割的图像以同样的方式构建测试样本，通过训练过的深度强化学习模型得出测试样本的分割结果。

[0011]所述步骤2具体包括：

[0012]21)针对要分割图像的特点，以图像感兴趣区域的每一列为研究对象，构建深度强化学习模型所需要的状态值，动作值，奖赏值。

[0013]22)状态值的确定：选取图像每一列某一像素的领域灰度值向量组成状态值。

[0014]23)动作值的确定：深度强化学习智能体以图像的顶部或者底部为起始位置，根据当前状态是否是最佳状态给出相应的奖赏值或者惩罚，并依据当前状态做出向上或者向下运动改变当前的状态。

[0015]24)奖赏值的确定：依据强化学习智能体当前状态是否是目标状态给出相应的奖赏值，奖赏值可以由图像当前的分割效果与人工最佳分割版本进行对比得出，与人工版本符合率高给出较高的奖赏值，符合率低的给出相应的惩罚值。

[0016]所述步骤3具体包括：

[0017]31)构建合适的深度学习网络模型作为深度强化学习算法中的值网络和目标网络，比如深度信念网络，堆栈自动编码网络等。其中，深度学习网络模型的输入层节点数与训练样本的状态特征向量维数一致，输出层的节点数与智能体的动作总数量相一致，隐含层的层数以及各层的节点数根据图像分割的效果来确定。

[0018]32)预训练阶段：从训练图片中获取训练样本并将训练样本储存到经验池中，从经验池中随机抽取部分训练样本，将训练样本输入到输入层，通过逐层训练的方式对各层结构进行训练，低一层隐含层输出作为高一层的输入。

[0019]33)微调阶段：采用有监督学习方式对整个网络进行训练，将目标网络的输出作为值网络输出的标签，将值网络的实际输出与目标网络的误差逐层向后传播，对值网络的参数进行微调。

[0020]34)目标网络更新阶段：训练每间隔一段时间将值网络的参数赋给目标网络，其余训练时间目标网络的参数保持固定不变，实现值网络和目标网络的参数同步。

[0021]35)根据图像分割效果调节和优化网络参数，完成深度神经网络的训练。最后，根据训练好的深度强化学习模型对测试样本进行最终的分割。

[0022]所述步骤4具体包括：

[0023]41)在后续的训练过程中，为了提高训练效率，根据多因子学习曲线动态调节经验池的大小：

[0024]

[0025]42)在后续的训练过程中，为了提高训练效率，根据多因子学习曲线动态调节样本采样的大小：

[0026]

[0027]R表示经验池的大小，N表示样本采样大小，k表示算法的首次学习效果，一般取为常数1，steps表示训练步数，γ表示奖赏折扣率，α表示学习率，C表示目标网络更新步数间隔，。

[0028]由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：[0029]1)建立了针对图像分割的深度强化学习模型所需的状态值，动作值以及奖赏值；

2)采用多因子学习曲线动态的调节经验池以及采样样本的大小，提高算法的效率；3)该新型深度强化学习算法能够取得较为准确的图像分割结果。特别的，该算法已经成功运用于免疫层析图像试条的识别及其定量检测，可以为环境检测、临床诊断、食品安全检测、农业

本文发布于:2024-09-24 05:30:35，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/423078.html

上一篇：一种语音信号驱动的脸部动画生成方法[发明专利]

下一篇：知识产权法(名词解释与简答)

标签：网络深度学习强化训练图像分割目标

留言与评论（共有 0 条评论）