CVPR2020论文笔记——EfficientDet---双尺度特征融合BiFPN目标检测

多血质CVPR2020论⽂笔记——EfficientDet---双尺度特征融合BiFPN⽬标检测
提出了⼀种加权的双向特征⾦字塔⽹络,它允许简单和快速的多尺度特征融合
提出了⼀种复合缩放⽅法,可以同时统⼀缩放所有主⼲、特征⽹络和bbx/类预测⽹络的分辨率、深度和宽度
1.引⾔
在融合不同输⼊特征的时候,以往的⽹络,对特征图总是不加以区分进⾏简单的计算,然后,由于不同输⼊特征拥有不同的分辨率,对融合后输出的特征的贡献是不⼀样的。为了解决这个问题,作者提出了bi-directional feature pyramid network 双向特征⾦字塔BiFPN。它引⼊了可学习的权值来学习不同输⼊特征的重要性,同时重复应⽤⾃顶向下和⾃底向上的多尺度特征融合。
在考虑模型缩放的时候,以前的⼯作主要依赖于更⼤的⽹络或者更⼤的输⼊图像⼤⼩来获得⾼精度。作者在这⾥提出了⼀种联合缩放的⽅法,该⽅法会缩放所有主⼲⽹络、特征⽹络、bbx和类概率预测的⽹络的分辨率/深度/宽度。
2.相关⼯作
one-stage ⽬标检测:
多尺度特征表⽰:
模型缩放:
3.BiFPN
介绍了提出的双尺度特征融合的主要思想:⾼效的双向跨尺度连接和加权特征融合。
多尺度特征融合旨在聚焦不同分辨率的特征。
给定⼀个多尺度特征列表
代表li级的特征,我们希望可以到⼀个映射f,使得f可以有效地聚合不同的特征,并输出新的列表
传统的FPN
P3~P7表⽰输⼊特征,其实下⾓标i(3,4,5,6,7)表⽰的是分辨率为输⼊图像的 (1/2)^2的特征级别。加⼊输⼊分辨率为640640,则P3的输⼊就为8080,P7的输⼊为5*5
传统FPN以⾃上⽽下的⽅式聚集多尺度特征:
其中Resize通常是分辨率匹配的上采样或下采样操作,⽽Conv通常是特征处理的卷积操作。
3.2跨尺度连接
传统的⾃上⽽下的FPN本质上受到单向信息流的限制。为了解决这个问题,PANet 增加了⼀个额外的⾃下⽽上的路径聚合⽹络,如图所⽰。
NAS-FPN 采⽤神经架构搜索来搜索更好的跨尺度特征⽹络拓扑,但是这种⽅法对算⼒资源消耗很⼤,并且⽹络不规则,很难解释,如图C。
本⽂提出的优化⽅法:
删除那些只有⼀条输⼊边的节点。如果⼀个节点只有⼀条输⼊边⽽没有特征融合,那么它对以融合不同特征为⽬标的特征⽹络的贡献就会更⼩。
如果它们在同⼀级别,我们从原始输⼊到输出节点添加额外的边,以便在不增加太多成本的情况下融合更多的特征
将每个双向(⾃顶向下&⾃底向上)路径视为⼀个特征⽹络层,并多次重复同⼀层,以实现更⾼级别的特征融合。
如下图所⽰
3.3加权特征融合
由于不同的输⼊特征具有不同的分辨率,它们对输出特征的贡献通常是不相等的。为了解决这个问题,为每个输⼊添加额外的权重,并让⽹络了解每个输⼊特征的重要性。作者考虑了三种⽅法
Unbounded fusion
其中wi是⼀个可学习的权重,可以是标量/向量/多维度张量。由于标量权重是⽆界的,它可能会导致训练不稳定。
因此,我们采⽤权重归⼀化来限定每个权重的取值范围。
基于Softmax的融合
将softmax应⽤于每个权重,使得所有权重被归⼀化为值范围从0到1的概率,表⽰每个输⼊的重要性。
Fast normalized fusion 快速归⼀化融合
这种快速融合⽅法与基于softmax的融合⽅法具有⾮常相似的学习⾏为和准确性,其中wi>=0,再通过Relu之后来确保数值的稳定。每个归⼀化权重的值也在0和1之间
作为⼀个具体的例⼦,描述了图(d)所⽰的两个融合特征在第6层的情况:
为了进⼀步提⾼效率,使⽤深度可分离卷积进⾏特征融合,并在每次卷积后添加批量归⼀化和激活。
4.efficientDet
如上图图三所⽰,主要遵循了one stage的检测器,采⽤ImageNet预训练⽹络,采⽤BiFPN来实现特征融合。从主⼲⽹络中提取3-7级特征{P3、P4、P5、P6、P7},反复应⽤⾃顶向下和⾃底向上的双向特征融合。这些融合的特征被馈送到类和bbx⽹络,以分别产⽣对象类和包围盒预测。类别和bbx⽹络权重在所有级别的功能中共享。
4.2.复合缩放
提出了⼀种新的⽤于⽬标检测的复合缩放⽅法,该⽅法使⽤简单的复合系数φ来联合缩放主⼲、BiFPN、类/bbx⽹络和分辨率的所有维度。
Backbone network
我们重新使⽤了EfficientNet-B0到B6相同的宽度/深度缩放系数莉桑迪亚
BiFPN network
线性增加了BiFPN的深度
灌水区
伤怀之美阅读答案
对于宽度(通道)采⽤指数增加的⽅法
(1.35是从⼏个参数中选择的最佳参数)
Box/class prediction network
宽度始终与BiFPN相同,但是线性增加了深度,
输⼊分辨率:
根据三个含有φ的等式,设计了8种检测器,EfficientDet-D0 (φ = 0) to D7 (φ = 7)。如表所⽰, D7和D7x具有相同的双PN和头,但是D7使⽤更⾼的分辨率,D7x使⽤更⼤的主⼲⽹络和⼀个更多的特征级别(从P3到P8)。
5.实验和消融研究
全面发展观在这⾥插⼊图⽚描述
全球公民社会

本文发布于:2024-09-24 08:31:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/212533.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   融合   尺度   分辨率   权重   缩放   深度
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议