首页 > 学术百科

基于DeepLabv3+的图像语义分割优化方法

第43卷第1期包装工程

2022年1月

PACKAGING ENGINEERING ·187·

收稿日期：2021-08-20

基金项目：一流专科高等职业教育专业建设项目（2020ylxm-1）

作者简介：郑斌军（1997—），男，上海理工大学硕士生，主攻数字图像处理、计算机视觉和深度学习。

通信作者：孔玲君（1972—），女，博士，上海出版印刷高等专科学校教授、硕导，主要研究方向为图文信息处理与彩基于DeepLabv3+的图像语义分割优化方法

郑斌军1，孔玲君2

（1.上海理工大学，上海 200093；2.上海出版印刷高等专科学校，上海 200093）

摘要：目的为了实现良好的图像语义分割精度，同时尽可能降低网络的参数量，加快网络训练速度，提出基于DeepLabv3+的图像语义分割优化方法。方法编码器主干网络增加注意力机制模块，并采用更密集的特征池化模块有效聚合多尺度特征，同时使用深度可分离卷积降低网络计算复杂度。结果基于CamVid 数据集的对比实验显示，优化后网络的MIoU 分数达到了71.03%，在像素精度、平均像素精度等其他方面的评价指标上较原网络有小幅提升，并且网络参数量降低了12%。在Cityscapes 的测试数据集上的MIoU 分数为75.1%。结论实验结果表明，优化后的网络能够有效提取图像特征信息，提高语义分割精度，同时降低模型复杂度。文中网络使用城市道路场景数据集进行测试，可以为今后的无人驾驶技术的应用提供参考，具有一定的实际意义。

关键词：语义分割；注意力机制；深度可分离卷积；编码器-解码器

中图分类号：TP391 文献标识码：A 文章编号：1001-3563(2022)01-0187-08 DOI ：10.19554/j

ki.1001-3563.2022.01.024

Image Semantic Segmentation Based on Enhanced DeepLabv3+ Network

ZHENG Bin-jun 1, KONG Ling-jun 2

(1.University of Shanghai for Science and Technology, Shanghai 200093, China; 2.Shanghai Publishing and

Printing College, Shanghai 200093, China)

ABSTRACT: The work aims to propose an image semantic segmentation optimization method based on DeepLabv3+ network, so as to achieve good image semantic segmentation accuracy, reduce the amount of network parameters as much as possible and speed up network training. The backbone network of encoder was added with attention module and more intensive feature pooling module was used to effectively aggregate multi-scale features. The depthwise separable convo-lution was applied to reduce the computational complexity of the network. According to the comparison test based on CamVid data set, MIoU score of the enhanced network reached 71.03%, and pixel accuracy and other evaluation indexes such as average pixel accuracy slightly improved compared

with the original network. Furthermore, parameters of net-work were reduced by 12%. The Miou score on the test data set of cityscapes was 75.1%. According to the experimental results, the improved network can effectively extract the feature information of image, improve the semantic segmentation accuracy, and reduce the complexity of the model. The proposed network is tested by the urban street scenes, which can provide reference for the future application of driverless technology, and has certain practical significance. KEY WORDS:

semantic segmentation; attention module; depthwise separable convolution; encoder-decoder

·188· 包装工程 2022年1月

图像分割是计算机视觉领域的重要研究任务之一。传统的图像分割方法多数是基于图像本身的特征如颜、纹理、形状等进行区域的生成，通过合并分类区域来得到图像分割结果[1]，过程较为烦琐，且分割精度也有很大的提升空间。深度学习技术由于其强大的计算能力与高效的非线性处理能力，现已被广泛应用在诸如图像分割、目标检测、模式识别在内的计算机视觉领域。语义分割是图像分割的一个类别，其任务是为图像中每个像素都匹配对应的语义标签。语义分割在多个领域发挥着重要的作用例如：医学图像诊断[2]，自动驾驶[3]，卫星图像处理[4]，环境分析[5]，语义分割结果的精度直接决定了后续的图像分类及处理结果的好坏，因此具有十分重要的研究意义和应用价值。

阿基米德分牛

现今，大多数语义分割网络基于完全卷积神经网络（Fully Convolution Network, FCN ）[6]，它第1次提出用卷积层来替代普通分类网络中的全连接层，让网络拥有能够处理任意而非固定图像尺寸的能力，得到了像素级的预测结果。此后，多位研究人员提出了多种方法对该基本网络进行优化。Ronneberger O 等[7]提出了一种基于收缩路径与扩张路径的网络架构U-net ，收缩路径是为了提取图像的深层次特征语义信息，扩张路径则利用跳跃连接的方式，融合不同分辨率的特征图来产生较好的分割效果。Yoo D 等[8]利用空间金字塔结构从不同大小的感受野获取信息。Chen L C 等[9—11]发布了一系列的DeepLab 网络，先后使用诸如全连接条件随机场，空洞卷积，空洞空间金字塔池化在内的方式，充分利用了特征图的多尺度信息，提高了获取高级语义信息的感受野大小。段立娟等[12]提出一种跨模态注意力机制来提取更精确的语义特征，提高分割精度。周勇[13]、赵宝齐[14]等也关注到注意力机制对于提高神经网络语义信息获取的有效性。

基于上述研究，文中设计一个新的网络架构用于图像语义分割。整体框架设计采用精度较高的DeepLabv3+的网络结构，在主干网络进行特征提取的过程中增加基于通道和空间信息的注意力机制模块[15]，引入密集空洞空间金字塔池化（Dense Atrous Spatial Pyramid Pooling, DASPP ）[16]，该模块能充分利用不同卷积率得到特征图的语义信息，获得更大的密集特征以及感受野，使得图像分割更加精细和平滑。使用深度可分离卷积[17]替换原始的普通卷积，在减少计算量的同时加快了训练网络的收敛速度。文中提出的网络在城市街道场景数据CamVid 上进行验证，通过与其他几个网络的比较，以及对图像分割类别精度的提升，验证该网络的有效性。

1 网络架构

1.1 DeepLabv3+

网络的基本原理

DeepLabv3+网络基于编码解码器架构，见图1。编码器部分，输入图像会经过骨干网络的下采样而生成高级语义特征图，此后特征图像进入ASPP 模块。ASPP 模块由3个空洞率分别为6，12，18的空洞卷积、1个1×1的卷积和1个全局平均池化层构成。然后将获得的5个特征图在通道上直接进行级联完成多尺度的采样过程，并经过1个1×1的卷积实现通道数的降维。解码器部分将骨干网络中4倍下采样获得的低级语义特征图进行1×1卷积处理完成通道数的降维，之后与编码器通过4倍上采样得到的特征图像进行连接，完成图像低级语义信息与高级语义信息之间的融合，增强网络分割图像的能力。再用3×3的卷积提取融合图的特征，最后再次进行4倍上采样，输出预测的分割图像。

图1 DeepLabv3+网络架构

Fig.1 DeepLabv3+

network architecture

第43卷第1期

郑斌军等：基于DeepLabv3+的图像语义分割优化方法

·189·

1.2 优化的网络

文中提出的网络见图2。在骨干网络的下采样模块之间添加注意力机制模块，该模块能够充分利用特征图的通道信息和空间信息，增强要关注的特征，抑制不必要的特征，有效地帮助特征信息在网络中的流动，提高网络捕获信息的能力。其次，引入DASPP 模块来替代图1中的ASPP 模块，DASPP 以级联的方式连接1组空洞卷积层，从而生成多尺度特征，覆盖尺度范围不仅更大而且更加密集，同时不会显著增加网络大小。最后，使用深度可分离卷积替换普通卷积，即原有的1×1卷积替换为1×1深度可分离卷积，3×3卷积换为3×3深度可分离卷积，并且对引入的DASPP 模块的空洞卷积也进行替换。相较于标准卷积方式，深度可分离卷积可以明显减少训练过程中的参数量，能够在对分割精度影响较小的情况下，加快网络拟合速度。

1.3 注意力机制模块的原理

众所周知，在人类的感知系统中，注意力有着十分重要的作用。由于视觉特性的影响，人眼不会同时处理整个场景中的信息而是先选择性地聚焦显著的部分，从而获得更佳的视觉感受，受此启发，引入注意力机制模块（见图3）来提高网络分割图像的性能。

首先对输入的特征图分别进行基于高度与宽度方向上的全局平均池化和全局最大池化，之后再分别通过多层感知器（Multi-Layer Perceptron, MLP ）将获得的输出特征进行基于元素的对位相加处理。接下来使用sigmoid 函数激活，生成通道注意力特征（生成方式见式（1））。然后将输入的特征图与该通道注意力特征作点乘处理，从而获得空间注意力模块所需的输入特征。

M c (F )=Sigmoid(MLP(AvgPool(F )+MLP(MaxPool(F ))))

(1)

将通道注意力模块输出的特征图用作空间注意力模块的输入特征图，随后分别进行全局最大池化和全局平均池化处理，获得上述的2个结果后根据通道信息做连接。之后使用一个7×7的卷积将连接的结果降成1个通道。再使用sigmoid 函数激活得到空间注意力特征，生成方式见式（2），最后将输入的特征图与该空间注意力特征作点乘，获得最终的空间注意力特征。

M s (F )=Sigmoid(77f ([AvgPool(F ); MaxPool(F )]))

(2)

1.4 密集空洞空间金字塔池化模块

充分地利用多尺度信息可以有效提高对不同目标的分割能力。如图4所示，DASPP 通过密集连接的方式将每个空洞卷积层的输出结果传递到在此之后的所有未被访问过的空洞卷积层，每个空洞卷积层只使用有合理膨胀率(d ≤24)的空洞滤波器。通过一系列的空洞卷积组合，处于结构较后层的神经元会得到越来越大的感受野，同时不会出现卷积核退化的问题。经过前面的特征组合，每个提取特征的神经元都能获得多个尺度的信息，不同的神经元编码来自不同尺度范围的多尺度信息，于是DASPP 输出

的最终特征图以非常密集的方式覆盖了大规模范围内的语义信息。

1.5 深度可分离卷积模块

可分离卷积的结构见图5，标准卷积滤波器见图5a ，图5b 和图5c 共同组成深度可分离卷积。在标准卷积层中，计算复杂度取决于大小为D F ×D F 的输入/输出特征映射（为简单起见，假设为平方特征映射），输入通道数M ，输出通道数N ，以及卷积核D K 的空间尺寸（常见卷积核尺寸为3×3和5×5），整体计算需要D F 2×D K 2×M ×N 次乘法。在深度可分离卷积中，大小为D F 2×D K 2×M ×N 的滤波计算被分成2部分。首先，

图2 文中优化的DeepLabv3+网络架构

Fig.2 Our enhanced network architecture of DeepLabv3+

·190·包装工程2022年1月

图3 注意力机制模块

Fig.3 Attention module

图4 Dense-ASPP模块

Fig.4 Dense-ASPP

图5 卷积滤波器

Fig.5 Convolutional filter

每个通道进行同一个滤波器的深度卷积，即所有M 个输入通道的大小为D K×D K，这里所需要的卷积计算消耗为D F2×D K2×M。

相比于标准卷积，深度卷积十分高效，但是深度卷积只是对输入通道进行了处理，并没有利用通道信息来生成新的特征，因此，这里增加一个额外的层来获得新的特征，该层使用1×1（点方向）卷积滤波器来获得深度卷积的输出并对其进行组合，卷积计算消耗为D F2×M×N。深度可分离卷积由深度方向卷积和1×1（点方向）卷积组合而成。计算总的消耗为D F2×K2×M+D F2×M×N。

当网络中卷积核尺寸增加或者网络深度加深的时候，通过将标准卷积分解为深度方向和点方向的卷积，可以有效地减少计算量，减少计算量的方式见式（3）。

11 K K F F F F

K K F F K

D D M D D M N D D

D D M N D D N D

⨯⨯⨯⨯+⨯⨯⨯

⨯⨯⨯⨯⨯

(3) 2实验与分析

2.1 实施细节

实验运行环境为Win10专业版操作系统，处理器为Intel Core i9-9900k，内存32 GB，图形处理卡为一张Nvidia GeForce GTX1080 Ti（11 GB），Cuda版本为10.2，数据处理使用Python3.6和Matlab 2020a。网络训练过程中采用的优化算法为带动量的随机梯度下降法（Stochastic Gradient Descent Momentum，SGDM），学习率衰减策略采用分段常数衰减。动量设置为0.9，学习率每10轮降低0.2，让网络以较高的初始学习率进行快速地学习，并且在网络优化迭代的后期阶段逐步降低学习率，这会帮助网络更快收敛，更容易接近最优解。在每轮的迭代过程中都使用验证数据集对网络进行校正，在验证的准确度收敛时提前结束网络训练，这样可以预防网络对训练数据集出现过拟合的现象。受图形计算卡的内存大小限制，设置大小为6的小批量来减少训练时的内存使用量。计算机网络管理技术

2.2 评价指标

语义分割有3个业界常用的评价指标，分别为像素精度（Pixel Accuracy, PA）、平均像素精度（Mean Pixel Accuracy, MPA）、平均交并比（Mean Intersection over Union, MIoU）。假定语义分割结果有k+1类（包

括k个目标类和1个背景类，背景类不计入计算），

表示真正（True Postives, TP）的像素数量，

C表示

假正(False Positives, FP)的像素数量，

C表示假负（False Negatives, FN）的像素数量。式中（4—6）中c∈[1,…,k]。

像素精度宝石岛

α指正确分类的像素数占所有像素数的比例，计算见式（4）。

∑

∑(4)

平均像素精度

MPA

α指每类正确分类的像素数占该类所有像素数的比例，然后对所有类求平均，计算见式（5）。

MPA

TP FP

k松江清真寺

k C C

=∑

(5)

第43卷第1期

郑斌军等：基于DeepLabv3+的图像语义分割优化方法

·191·领跑网吧

平均交并比MIoU α指实际标签与预测标签的交集比上它们的并集，然后求平均，计算见式（6）。

TP MIoU TP FP FN

k C C C αk C ++=∑

(6) 2.3 实验结果与分析

2.3.1 CamVid 数据集测试

CamVid （Cambridge driving Labeled Video ）是一个城市场景数据集，拥有以每秒30帧的速度以960×720像素捕获的4个高清视频序列，所有视频的总时长约22 min ，40 K 帧。并且挑选出了701张主要的城市道路场景图片。数据是从驾驶汽车的角度拍摄获取的，因为驾驶场景更加符合日常交通生活的情况，同时也增加了观察对象的数量和异质性。每张带注释的图片都由第2个人检查并确认其准确性。在实验中，对CamVid 数据集里的60%图像用以训练网络，其余的图像平均分为20%和20%用作验证集和测试集。由于数据集的样本数量有限，因此使用随机地左/ 右翻转和随机地X /Y 平移±20个像素来进行数据增强，从而向网络发送更多的训练样本，以此提高网络的准确度。

文中主要以DeepLabv3+网络和经典的轻量级网络Mobilenetv2作为对比实验。同时加入3个有相关性的神经网络模型作为参照，结果见表1，可明显看出文中方法在前3个评价指标上都优于参照网络，MI

OU 指标在DeepLabv3+网络的基线上提升了将近2个百分点，PA 和MPA 指标也有小幅的提高。这要得益于通道注意力机制模块和空间注意力机制模块在骨干网络中的应用，以及DASPP 模块的多尺度信息采样，文中的网络能够在编码器结构中高效地提取输入图像的特征信息，进而提高网络分割图像的精度。在网络参数量的比较上，文中的网络为22.4 M 相较于DeepLabv3+网络的25.6 M 减少了12%，基于深度可分离卷积的Mobilenetv2网络参数量仅为3.6 M ，在占用极小空间的基础上实现了较好的分割效率，这体现出深度可分离卷积在降低网络复杂度，减少计算的冗余量，加快网络训练时间方面的有效性。综合权

衡网络分割精度和网络的参数量，相较于DeepLabv3+网络，文中提出的网络能够提高分割精度的同时降低网络的参数大小。

语义分割的目的是把图像中不同类别的目标分割出来，因此除了上述的比较外，文中还对不同目标类别的分割精度做了罗列（表2）可以看出这3种网络的共同点在于对于天空、道路、建筑、行人等语义目标的分割精度较高。主要的原因是这几类目标在图像中所占像素的比例较高，因此能够取得良好的分割效果，而像道路杆、标志符号和围墙这类目标，由于本身像素较少，且语义特征不明显，因而分割的精度较低。文中的网络相较于Mobilenetv2和DeepLabv3+网络，效果均有一定程度的提升。

Mobilenetv2，DeepLabv3+和文中网络在CamVid 数据集上部分图片的分割可视化结果见图6。

评价语义分割网络的好坏直接取决于网络得到的分割图像与其对应标签图像的重合程度。在可视化的结果中，相较于Mobilenetv2和DeepLabv3+，文中的网络对于大部分类具有更好的分割效果。在第1张图中，3个网络对于近视角的路灯都有较不错的分割能力，但是在远处与树木混合的第2个路灯只有文中的网络较好地捕获到了这一信息并分割出来，而前两者的网络把这个路灯归到了树木的类别中。在第2和第4张图中，前2个网络对于行人这一类的分割效果不理想，行人的轮廓相较于标签图像被扩大了很多，也就是说网络判定为行人的像素数量大大多于标签标记的像素数量。与此同时，文中的网络对于行人类目标的分割情况与标签图像更加匹配，轮廓扩张不明显。还有车辆类目标的分割效果对比中，文中网络相较于前2个，对于车辆外形轮廓的分割拥有更好的连续性和准确性。

2.3.2 Cityscapes 数据集测试

Cityscapes 是高分辨率城市场景的数据集，包含2048像素×1024像素的街景图像和对应标签。其任务是在汽车摄像头拍摄的视频中分割物体。该大型数据具有来自不同城市街道场景中记录获得的多种立体视频片段，除20 000张弱注释帧以外，还包括5000

表1 CamVid 数据集上不同评价指标的结果

Tab.1 Result of different evaluation indexes on CamVid data set

网络 Pixel Accuracy/%

Mean Pixel Accuracy/%

Mean IoU/%

Params(million)上海不哭

Mobilenetv2 87.70 86.51 63.31 3.6 DeepLabv3+ 90.62 87.63 69.08 25.6 ICNet [20] 89.71 87.02 67.1 26.5 BiSeNetV1[21] 90.12 87.21 68.7 49 DFANet A [22]

88.93 86.95 64.7 7.8 Ours 91.69

89.22

71.03

22.4

本文发布于:2024-09-22 06:46:28，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/475188.html

上一篇：转置卷积的计算方式

下一篇：基于改进MnasNet网络的低分辨率图像分类算法

标签：网络分割卷积图像特征

留言与评论（共有 0 条评论）