deeplab-v3+原理详解

⼊门⼩菜鸟，希望像做笔记记录⾃⼰学的东西，也希望能帮助到同样⼊门的⼈，更希望⼤佬们帮忙纠错啦~侵权⽴删。

18惠

⽬录

氢氧化钾标定⼀、deeplab-v3+提出原因与简单介绍

deeplab-v3+是⼀个语义分割⽹络，它基于deeplab-v3，添加⼀个简单有效的Decoder来细化分割结果，尤其是沿着⽬标对象边界的分割结果，以及采⽤空间⾦字塔池模块或编解码结构⼆合⼀的⽅式进⾏实现。

⼆、deeplab-v3+⽹络结构图

可以看到他是Encoder-Decoder⽹络结构。接下来我们分成Encoder和Decoder进⾏解析。

三、Encoder

1、Backbone（主⼲⽹络）—— modified aligned Xception改进后的ResNet-101

想了解ResNet的可以康康博主往期⽂章的介绍

这⾥对应的是上⾯⽹络结构图中的DCNN（深度卷积神经⽹络）部分

backbone主要是为了提取特征

改进点：

（1）更深的Xception结构，不同的地⽅在于不修改entry flow network的结构，这是为了快速计算和有效使⽤内存

（2）所有的最⼤池化结构都被stride=2的深度可分离卷积代替

（3）每个3x3的深度卷积后都跟着BN和Relu

2、ASPP（Atrous Spatial Pyramid Pooling）

ASPP是在SPP的基础上，采⽤了Atrous Convolution（空洞卷积），在上⾯的⽹络结构图中对应⼤括号那⼀块块

SPP

如果想了解SPP，可以康康博主往期⽂章

家校网Atrous Convolution（空洞卷积）

山东大学学生之家如果想了解空洞卷积的可以看看博主往期博⽂

deeplab-v3+中的ASPP

武汛⾼级特征经过ASPP的5个不同的操作得到5个不同的输出

5个操作包括1个1×1卷积，3个不同rate的空洞卷积，1个ImagePooling（全局平均池化之后再上采样到原来⼤⼩）。卷积可以局部提取特征，ImagePooling可以全局提取特征，这样就得到了多尺度特征

特征融合在这⾥⽤concatenate的⽅法叠加，⽽不是直接相加

上网电价

3、Encoder最终输出

我们看⽹络结构图中Decorder中的“Upsample by 4”和“Concat”可以推出backbone的两个输出：⼀个是低级特征（low-level feature），这是个output=4x的输出；另⼀个是⾼级特征，给ASPP的输⼊，这是个output=16x的输出

四、Decorder

低级特征经过1x1卷积调整维度（output stride=4x）（论⽂表明低级特征调整到48 channels时效果最好）

⾼级特征进⾏上采样4倍（双线性插值），让output stride从16x变为4x

然后将两个4x特征concatenate，后⾯接⼀些3×3卷积（论⽂表明后⾯接2个输出channels=256的3x3卷积，输出效果较好），再上采样4倍（双线性插值）得到输出Dense Prediction

欢迎⼤家在评论区批评指正，谢谢~

本文发布于:2024-09-22 00:57:50，感谢您对本站的认可！

标签：卷积特征希望分割深度结构括号评论

留言与评论（共有 0 条评论）