首页 > 专利学习

MetaFasterR-CNN:基于注意力特征对齐的小样本目标检测

MetaFasterR-CNN：基于注意⼒特征对齐的⼩样本⽬标检测论⽂标题：

Meta Faster R-CNN: Towards Accurate Few-Shot Object Detection with Attentive Feature Alignment

1 出发点 & 创新点

1.1 出发点

以往的⽅法使⽤基于base类数据训练得到的 RPN 去⽣成 novel 类的候选框，这样做会错过⼀些新类的⾼ IoU 框，因为在 RPN 训练

中，novel 类框被视为 base 类的背景区域。在 novel 类数据上进⾏微调确实能提⾼效果，但它对未知类的泛化能⼒是受限的。

RPN 中简单的前景/背景线性分类在检测 FSOD 所需的⾼质量⽅案时往往缺乏鲁棒性。忽略了空间错位问题，类似的语义区域不会出现在噪声和⼩样本的⽀持图像之间的相同空间位置。

1.2 创新点

本⽂提出粗粒度原型匹配⽹络（Meta-RPN），使⽤基于度量学习的⾮线性分类器代替传统的线性⽬标

分类器，去处理查询图⽚中的锚框和novel 类之间的相似性，从⽽提⾼对少量 novel 类候选框的召回率。作者还提出细粒度原型匹配⽹络（Meta-Classifier），该⽹络具有空间特征对齐和前景注意模块，去处理噪声和少量 novel 类之间的相似性，以解决候选框特征和类原型之间的空间错位问题，从⽽提⾼整体检测精度。

论⽂综合考量了 softmax 分类器和他们设计的⼩样本分类器，在他们各⾃发挥优势的地⽅使⽤，⽽不是像以往的⽅法⼀样只⽤ softmax

分类器。

Meta-RPN 和普通 RPN 的⽐较：普通 RPN 主要区分出前景和背景，在 base 类数据上进⾏训练；Meta-RPN 将提取出来的特征和 novel 类的原型进⾏⽐较，看它们之间的相似性。⼆者作⽤都是筛选出候选框。

Meta-Classifier 和普通 Classifier 的⽐较：普通的分类器会将候选框和类原型进⾏直接⽐较（直接对应位置⽐较，左上⾓对左上⾓）；Meta-Classifier 则会进⾏空间特征对齐（如候选框中机尾的地⽅，也会对应上类原型的机尾特征），来解决空间错位的问题。

23模型结构

2.1 Feature Extractor

该模型使⽤孪⽣神经⽹络去提取⽀持图像和查询图像的特征：

1. 对于查询图像，作者⽤⼀个 CNN 来提取，如 ResNet50/101。

2. 对于⽀持图像，⾸先使⽤周围上下⽂区域将候选框扩张，然后裁剪出⽬标区域，再将裁剪后的图像调整为相同⼤⼩，再将其输⼊共享特征的 backbone，从⽽提取出⽀持图像的特征。

2.2 Object Detection for Base Classes

在特征提取⽹络的基础上，RPN ⽤于⽣成图像中所有 base 类的类不可知的候选框。之后，对于每个候选框，使⽤ R-CNN 分类器⽣成所有 base 类加上“背景”类的 softmax 概率和 bbox 回归。

2.3 Proposal Generation for Novel Classes

对查询图像特征做⼀个 3x3 的卷积层和 ReLu 层处理，⽤于提取以每个空间位置为中⼼的多尺度锚的特征。

对于每个 novel 类，作者将 K-shot ⽀持图像的平均 CNN 特征作为类原型：盐酸储存罐

然后，为了得到与锚框相同的特征⼤⼩，进⾏空间平均池化，得到全局池化原型。

接着，使⽤新设计⾮线性轻量级分类模块来计算了类原型和锚框特征之间的相似性。作者提出了⼀个具有乘法（Mult）、减法（Sub）和拼接（Cat）⼦⽹络的更强的特征融合⽹络。Mult 可以突出显⽰相关和常见的特征，Sub 可以直接测量两个输⼊之间的距离。Cat 可以被看作是⼀种可以学习的操作。形式为：

其中，、和都有卷积层和 ReLu 层组成，代表 channel-wise concatenation。然后将输⼊⼆元分类和 bbox 回归层，以预测候选框。所提出的特征融合⽹络可以⾃然地⽤卷积层实现，并且计算效率⾼，可以提⾼对 novel 类候选框的召回率。

2.4 Proposal Classiﬁcation and Reﬁnement for Novel Classes

验证码自动输入作者⾸先通过计算相似度矩阵，在两个输⼊特征之间建⽴软对应关系，也就是孪⽣神经⽹络。然后，使⽤相似度矩阵计算与候选框⼀致的原型，并定位前景区域。最后再⽤⾮线性分类器去计算相似性分数。建议每个模块都对应下⾯的结构图看，理解公式。

a. Spatial Alignment Module

dota重金属

之后再做个 softmax normalization ，分母为与所有类原型的空间位置进⾏⽐较的总和，求出它与这个类原型的不同空间位置的相似程度，作为⼀个权重系数。

最后通过聚合归⼀化相似性来算出候选框空间位置 i 对应的类原型：

b. Foreground Attention Module

前景关注掩码 M ⽤来突出显⽰对应的⽬标区域：

M 值越⼤，表⽰中的相应位置更类似于对齐原型的位置，并且更有可能是相同的语义部分。另⼀⽅⾯，候选框中的背景区域很难在具有⾼度相似性的类原型中到相应的位置，所以 M 值较低。

因此，作者将注意⼒掩码 M 与和相乘，以关注相应的前景区域：

作者还加了两个可学习参数（初始化均为 0），将其与输⼊特征进⾏相加，使训练更加平稳（残差的思想）：

c. Non-linear Classiﬁcation Module

特征融合⽹络：

其中，、和都是拥有的三个卷积层和⼀个 ReLu 层的⾮线性卷积神经⽹络，之后送到⼆元分类和 bbox 回归进⾏最终检测。

3 模型训练

分为三个阶段：

1. Meta-learning with base classes：从 base 类中标记⼀些类，这些类的⽀持图像为 K-shot，去模拟 FSOD 中 novel 类的学习情况。此外，作者还使⽤真实边界框对⼀些查询图像进⾏采样，并使⽤⼆元交叉熵损失和平滑 L1 损失进⾏模型训练。晶振封装

2. Learning the separate detection head for base classes：作者调整主⼲特征提取器的参数，并学习 base 类的 RPN 和 R-CNN 模块。

开放式基金预测3. Fine-tuning with both base and novel classes：在前两个步骤中只采⽤ base 类数据，⽽在微调这⼀步中，会采⽤⼀个⼩型的平衡数据集，base 类和 novel 类都有。元学习和微调的关键区别在于，没有针对元学习 novel 类的训练。在元测试期间，我们只使⽤ novel 类的⽀持集来计算原型。⽀持图像是使⽤真实边界框注释从原始图像中裁剪出来的。在优化过程中，我们使⽤原始的 novel 类图像作为查询图像来优化我们的少数镜头检测器，包括 Meta-RPN 和 Meta 分类器。当我们逐渐使⽤更多图像进⾏微调时，novel 类的模型性能将得到改善。

自制路由器天线4 实验部分

4.1 部分消融实验

RPN、Attention-RPN 和 Meta-RPN 之间的⽐较，还有⾮线性分类器、对齐、前景注意⼒模块的使⽤，以及 backbone 为 101 层和 50层，对实验结果的影响。

三种⽅法使⽤两种训练对 novel 类的检测效果。

特征聚合模块的三项⼦⽹络做消融实验。直接使⽤ Cat ⼦⽹络并不能在元 RPN 和元分类器中获得良好的效果。这是因为 Cat ⼦⽹络试图直接学习两个特征之间的复杂融合，这不容易训练和泛化。

4.2 和以往SOTA的对⽐

本文发布于:2024-09-23 18:29:46，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/259791.html

上一篇：人和环境的契合度

下一篇：施乐c2265 彩定位校正