【深度学习：目标检测】RCNN学习笔记（7）：FasterR-CNN英文论文翻译笔记

【深度学习：⽬标检测】RCNN学习笔记（7）：FasterR-

CNN英⽂论⽂翻译笔记

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun

reference link：blog.csdn/liumaolincycle/article/details/48804687

摘要

⽬前最先进的⽬标检测⽹络需要先⽤区域建议推测⽬标位置，像SPPnet[7]和Fast R-CNN[5]这些⽹络已经减少了检测⽹络的运⾏时间，这时计算区域建议就成了瓶颈问题。本⽂中，我们介绍⼀种区域建议⽹络（Region Proposal Network, RPN），它和检测⽹络共享全图的卷积特征，使得区域建议⼏乎不花时间。RPN是⼀个全卷积⽹络，在每个位置同时预测⽬标边界和objectness得分。RPN是端到端训练的，⽣成⾼质量区域建议框，⽤于Fast R-CNN来检测。通过⼀种简单的交替运⾏优化⽅法，RPN和Fast R-CNN可以在训练时共享卷积特征。对于⾮常深的VGG-16模型[19]，我们的检测系统在GPU上的帧率为5fps（包含所有步骤），在PASCAL VOC 2007和PASCAL VOC 2012上实现了最⾼的⽬标检测准确率（2007是73.2%mAP，2012是70.4%mAP），每个图像⽤了300个建议框。已公开。

1.引⾔

最近在⽬标检测中取得的进步都是由区域建议⽅法（例如[22]）和基于区域的卷积神经⽹络（R-CNN）[6]取得的成功来推动的。基于区域的CNN在[6]中刚提出时在计算上消耗很⼤，幸好后来这个消耗通过建议框之间共享卷积[7,5]⼤⼤降低了。最近的Fast R-CNN[5]⽤⾮常深的⽹络[19]实现了近实时检测的速率，注意它忽略了⽣成区域建议框的时间。现在，建议框是最先进的检测系统中的计算瓶颈。

区域建议⽅法典型地依赖于消耗⼩的特征和经济的获取⽅案。选择性搜索（Selective Search, SS）[22]是最流⾏的⽅法之⼀，它基于设计好的低级特征贪⼼地融合超级像素。与⾼效检测⽹络[5]相⽐，SS要慢⼀个数量级，CPU应⽤中⼤约每个图像2s。EdgeBoxes[24]在建议框质量和速度之间做出了⽬前最好的权衡，⼤约每个图像0.2s。但⽆论如何，区域建议步骤花费了和检测⽹络差不多的时间。

Fast R-CNN利⽤了GPU，⽽区域建议⽅法是在CPU上实现的，这个运⾏时间的⽐较是不公平的。⼀种明显提速⽣成建议框的⽅法是在GPU 上实现它，这是⼀种⼯程上很有效的解决⽅案，但这个⽅法忽略了其后的检测⽹络，因⽽也错失了共享计算的重要机会。

本⽂中，我们改变了——⽤深度⽹络计算建议框——这是⼀种简洁有效的解决⽅案，建议框计算⼏乎不会给检测⽹络的计算带来消耗。为了这个⽬的，我们介绍新颖的区域建议⽹络（Region Proposal N

etworks, RPN），它与最先进的⽬标检测⽹络[7,5]共享卷积层。在测试时，通过共享卷积，计算建议框的边际成本是很⼩的（例如每个图像10ms）。

我们观察发现，基于区域的检测器例如Fast R-CNN使⽤的卷积（conv）特征映射，同样可以⽤于⽣成区域建议。我们紧接着这些卷积特征增加两个额外的卷积层，构造RPN：第⼀个层把每个卷积映射位置编码为⼀个短的（例如256-d）特征向量，第⼆个层在每个卷积映射位置，输出这个位置上多种尺度和长宽⽐的k个区域建议的objectness得分和回归边界（k=9是典型值）。

我们的RPN是⼀种全卷积⽹络（fully-convolutional network, FCN）[14]，可以针对⽣成检测建议框的任务端到端地训练。为了统⼀RPN和Fast R-CNN[5]⽬标检测⽹络，我们提出⼀种简单的训练⽅案，即保持建议框固定，微调区域建议和微调⽬标检测之间交替进⾏。这个⽅案收敛很快，最后形成可让两个任务共享卷积特征的标准⽹络。

我们在PASCAL VOC检测标准集[4]上评估我们的⽅法， fast R-CNN结合RPN的检测准确率超过了作为强⼤基准的fast R-CNN结合SS的⽅法。同时，我们的⽅法没有了SS测试时的计算负担，对于⽣成建议框的有效运⾏时间只有10毫秒。利⽤[19]中⽹络⾮常深的深度模型，我们的检测⽅法在GPU上依然有5fps的帧率（包括所有步骤），因此就速度和准确率（PASCAL VOC 2007上是73.2%mAP，PASCAL VOC 2012上是70.4%）⽽⾔，这是⼀个实⽤的⽬标检测系统。已公开。

2.相关⼯作

最近⼏篇⽂章中提出了⽤深度⽹络定位类确定或类不确定的包围盒[21, 18, 3, 20] 的⽅法。在OverFeat⽅法[18]中，训练全连接（fc）层，对假定只有⼀个⽬标的定位任务预测包围盒坐标。fc层再转⼊卷积层来检测多个类确定的⽬标。MultiBox⽅法[3, 20]从最后⼀个fc层同时预测多个（如800）包围盒的⽹络中⽣成区域建议，R-CNN[6]就是⽤的这个。他们的建议框⽹络应⽤于单个图像或多个⼤图像的切割部分（如224x224）[20]。我们在后⽂中讲我们的⽅法时会更深层次地讨论OverFeat和MultiBox。

卷积的共享计算[18, 7, 2, 5]⾼效、精确，已经在视觉识别⽅⾯吸引了越来越多的注意。OverFeat论⽂[18]从图像⾦字塔计算卷积特征，⽤于分类、定位、检测。在共享的卷积特征映射上⾃适应⼤⼩的pooling（SPP）[7]能有效⽤于基于区域的⽬标检测[7, 16]和语义分割[2]。Fast R-CNN[5]实现了在共享卷积特征上训练的端到端检测器，显⽰出令⼈惊叹的准确率和速度。

3.区域建议⽹络

区域建议⽹络（RPN）将⼀个图像（任意⼤⼩）作为输⼊，输出矩形⽬标建议框的集合，每个框有⼀个objectness得分。我们⽤全卷积⽹络[14]对这个过程构建模型，本章会详细描述。因为我们的最终⽬标是和Fast R-CNN⽬标检测⽹络[15]共享计算，所以假设这两个⽹络共享⼀系列卷积层。在实验中，

我们详细研究Zeiler和Fergus的模型[23]（ZF），它有5个可共享的卷积层，以及Simonyan和Zisserman的模型[19]（VGG），它有13个可共享的卷积层。

为了⽣成区域建议框，我们在最后⼀个共享的卷积层输出的卷积特征映射上滑动⼩⽹络，这个⽹络全连接到输⼊卷积特征映射的nxn的空间窗⼝上。每个滑动窗⼝映射到⼀个低维向量上（对于ZF是256-d，对于VGG是512-d，每个特征映射的⼀个滑动窗⼝对应⼀个数值）。这个向量输出给两个同级的全连接的层——包围盒回归层（reg）和包围盒分类层（cls）。本⽂中n=3，注意图像的有效感受野很⼤（ZF是171像素，VGG是228像素）。图1（左）以这个⼩⽹络在某个位置的情况举了个例⼦。注意，由于⼩⽹络是滑动窗⼝的形式，所以全连接的层（nxn的）被所有空间位置共享（指所有位置⽤来计算内积的nxn的层参数相同）。这种结构实现为nxn的卷积层，后接两个同级的1x1的卷积层（分别对应reg和cls），ReLU[15]应⽤于nxn卷积层的输出。

图1：左：区域建议⽹络（RPN）。右：⽤RPN建议框在PASCAL VOC 2007测试集上的检测实例。我们的⽅法可以在很⼤范围的尺度和长宽⽐中检测⽬标。

平移不变的anchor

在每⼀个滑动窗⼝的位置，我们同时预测k个区域建议，所以reg层有4k个输出，即k个box的坐标编码。cls层输出2k个得分，即对每个建议框是⽬标/⾮⽬标的估计概率（为简单起见，是⽤⼆类的softmax层实现的cls层，还可以⽤logistic回归来⽣成k个得分）。k个建议框被相应的k个称为anchor的box参数化。每个anchor以当前滑动窗⼝中⼼为中⼼，并对应⼀种尺度和长宽⽐，我们使⽤3种尺度和3种长宽⽐，这样在每⼀个滑动位置就有k=9个anchor。对于⼤⼩为WxH（典型值约2,400）的卷积特征映射，总共有WHk个anchor。我们的⽅法有⼀个重要特性，就是平移不变性，对anchor和对计算anchor相应的建议框的函数⽽⾔都是这样。

作为⽐较，MultiBox⽅法[20]⽤k-means⽣成800个anchor，但不具有平移不变性。如果平移了图像中的⽬标，建议框也应该平移，也应该能⽤同样的函数预测建议框。此外，因为MultiBox的anchor不具有平移不变性，所以它需要（4+1）x800－d的输出层，⽽我们的⽅法只要（4+2）x9-d的输出层。我们的建议框层少⼀个数量级的参数（MultiBox⽤GoogleLeNet[20]需要2700万vs.RPN⽤VGG-16需要240万），这样在PASCAL VOC这种⼩数据集上出现过拟合的风险较⼩。美味关系电影

学习区域建议的损失函数

为了训练RPN，我们给每个anchor分配⼀个⼆进制的标签（是不是⽬标）。我们分配正标签给两类an

chor：（i）与某个ground truth（GT）包围盒有最⾼的IoU（Intersection-over-Union，交集并集之⽐）重叠的anchor（也许不到0.7），（ii）与任意GT包围盒有⼤于0.7的IoU交叠的anchor。注意到⼀个GT包围盒可能分配正标签给多个anchor。我们分配负标签给与所有GT包围盒的IoU⽐率都低于0.3的anchor。⾮正⾮负的anchor对训练⽬标没有任何作⽤。

有了这些定义，我们遵循Fast R-CNN[5]中的多任务损失，最⼩化⽬标函数。我们对⼀个图像的损失函数定义为

这⾥，i是⼀个mini-batch中anchor的索引，Pi是anchor i是⽬标的预测概率。如果anchor为正，GT标签Pi* 就是1，如果anchor为负，Pi* 就是0。ti是⼀个向量，表⽰预测的包围盒的4个参数化坐标，ti* 是与正anchor对应的GT包围盒的坐标向量。分类损失*Lcls是两个类别（⽬标vs.⾮⽬标）的对数损失。对于回归损失*，我们⽤来计算，其中R是[5]中定义的鲁棒的损失函数（smooth L1）。

Pi* Lreg这⼀项意味着只有正anchor（Pi* =1）才有回归损失，其他情况就没有（Pi* =0）。cls层和reg层的输出分别由{pi}和{ti}组成，这两项分别由Ncls和Nreg以及⼀个平衡权重λ归⼀化（早期实现及

公开的代码中，λ=10，cls项的归⼀化值为mini-batch的⼤⼩，即Ncls=256，reg 项的归⼀化值为anchor位置的数量，即Nreg~2,400，这样cls和reg项差不多是等权重的。

对于回归，我们学习[6]采⽤4个坐标：

x，y，w，h指的是包围盒中⼼的（x, y）坐标、宽、⾼。变量x，xa，x*分别指预测的包围盒、anchor的包围盒、GT的包围盒（对y，w，h 也是⼀样）的x坐标。可以理解为从anchor包围盒到附近的GT包围盒的包围盒回归。

⽆论如何，我们⽤了⼀种与之前的基于特征映射的⽅法[7, 5]不同的⽅法实现了包围盒算法。在[7, 5]中，包围盒回归在从任意⼤⼩的区域中pooling到的特征上执⾏，回归权重是所有不同⼤⼩的区域共享的。在我们的⽅法中，⽤于回归的特征在特征映射中具有相同的空间⼤⼩（nxn）。考虑到各种不同的⼤⼩，需要学习⼀系列k个包围盒回归量。每⼀个回归量对应于⼀个尺度和长宽⽐，k个回归量之间不共享权重。因此，即使特征具有固定的尺⼨/尺度，预测各种尺⼨的包围盒仍然是可能的。

优化

索爱p908RPN很⾃然地实现为全卷积⽹络[14]，通过反向传播和随机梯度下降（SGD）[12]端到端训练。我们

遵循[5]中的“image-centric”采样策略训练这个⽹络。每个mini-batch由包含了许多正负样本的单个图像组成。我们可以优化所有anchor的损失函数，但是这会偏向于负样本，因为它们是主要的。因此，我们随机地在⼀个图像中采样256个anchor，计算mini-batch的损失函数，其中采样的正负anchor的⽐例是1:1。如果⼀个图像中的正样本数⼩于128，我们就⽤负样本填补这个mini-batch。

我们通过从零均值标准差为0.01的⾼斯分布中获取的权重来随机初始化所有新层（最后⼀个卷积层其后的层），所有其他层（即共享的卷积层）是通过对ImageNet分类[17]预训练的模型来初始化的，这也是标准惯例[6]。我们调整ZF⽹络的所有层，以及conv3_1，并为VGG⽹络做准备，以节约内存[5]。我们在PASCAL数据集上对于60k个mini-batch⽤的学习率为0.001，对于下⼀20k个mini-batch⽤的学习率是0.0001。动量是0.9，权重衰减为0.0005[11]。我们的实现使⽤了Caffe[10]。

区域建议与⽬标检测共享卷积特征

迄今为⽌，我们已经描述了如何为⽣成区域建议训练⽹络，⽽没有考虑基于区域的⽬标检测CNN如何利⽤这些建议框。对于检测⽹络，我们采⽤Fast R-CNN[5]，现在描述⼀种算法，学习由RPN和Fast R-CNN之间共享的卷积层。

RPN和Fast R-CNN都是独⽴训练的，要⽤不同⽅式修改它们的卷积层。因此我们需要开发⼀种允许两个⽹络间共享卷积层的技术，⽽不是分别学习两个⽹络。注意到这不是仅仅定义⼀个包含了RPN和

Fast R-CNN的单独⽹络，然后⽤反向传播联合优化它那么简单。原因是Fast R-CNN训练依赖于固定的⽬标建议框，⽽且并不清楚当同时改变建议机制时，学习Fast R-CNN会不会收敛。虽然这种联合优化在未来⼯作中是个有意思的问题，我们开发了⼀种实⽤的4步训练算法，通过交替优化来学习共享的特征。

第⼀步，我们依上述训练RPN，该⽹络⽤ImageNet预训练的模型初始化，并端到端微调⽤于区域建议任务。第⼆步，我们利⽤第⼀步的RPN⽣成的建议框，由Fast R-CNN训练⼀个单独的检测⽹络，这个检测⽹络同样是由ImageNet预训练的模型初始化的，这时候两个⽹络还没有共享卷积层。第三步，我们⽤检测⽹络初始化RPN训练，但我们固定共享的卷积层，并且只微调RPN独有的层，现在两个⽹络共享卷积层了。第四步，保持共享的卷积层固定，微调Fast R-CNN的fc层。这样，两个⽹络共享相同的卷积层，构成⼀个统⼀的⽹络。

实现细节

我们训练、测试区域建议和⽬标检测⽹络都是在单⼀尺度的图像上[7, 5]。我们缩放图像，让它们的短边s=600像素[5]。多尺度特征提取可能提⾼准确率但是不利于速度与准确率之间的权衡[5]。我们也注意到ZF和VGG⽹络，对缩放后的图像在最后⼀个卷积层的总步长为16像素，这样相当于⼀个典型的PASCAL图像（~500x375）上⼤约10个像素（600/16=375/10）。即使是这样⼤的步长也取得了好结果，尽管若步长⼩点准确率可能得到进⼀步提⾼。

对于anchor，我们⽤3个简单的尺度，包围盒⾯积为128x128，256x256，512x512，和3个简单的长宽⽐，1:1，1:2，2:1。注意到，在预测⼤建议框时，我们的算法考虑了使⽤⼤于基本感受野的anchor包围盒。这些预测不是不可能——只要看得见⽬标的中间部分，还是能⼤致推断出这个⽬标的范围。通过这个设计，我们的解决⽅案不需要多尺度特征或者多尺度滑动窗⼝来预测⼤的区域，节省了相当多的运⾏时间。图1（右）显⽰了我们的算法处理多种尺度和长宽⽐的能⼒。下表是⽤ZF⽹络对每个anchor学到的平均建议框⼤⼩（s=600）。

跨越图像边界的anchor包围盒要⼩⼼处理。在训练中，我们忽略所有跨越图像边界的anchor，这样它们不会对损失有影响。对于⼀个典型的1000x600的图像，差不多总共有20k（~60x40x9）anchor。忽略了跨越边界的anchor以后，每个图像只剩下6k个anchor需要训练了。如果跨越边界的异常值在训练时不忽略，就会带来⼜⼤⼜困难的修正误差项，训练也不会收敛。在测试时，我们还是应⽤全卷积的RPN到整个图像中，这可能⽣成跨越边界的建议框，我们将其裁剪到图像边缘位置。

有些RPN建议框和其他建议框⼤量重叠，为了减少冗余，我们基于建议区域的cls得分，对其采⽤⾮极⼤值抑制（non-maximum suppression, NMS）。我们固定对NMS的IoU阈值为0.7，这样每个图像只剩2k个建议区域。正如下⾯展⽰的，NMS不会影响最终的检测准确率，但是⼤幅地减少了建议框的数

高中音乐教学案例量。NMS之后，我们⽤建议区域中的top-N个来检测。在下⽂中，我们⽤2k个RPN建议框训练Fast R-CNN，但是在测试时会对不同数量的建议框进⾏评价。

4.实验

我们在PASCAL VOC2007检测基准[4]上综合评价我们的⽅法。此数据集包括20个⽬标类别，⼤约5k个trainval图像和5k个test图像。我们还对少数模型提供PASCAL VOC2012基准上的结果。对于ImageNet预训练⽹络，我们⽤“fast”版本的ZF⽹络[23]，有5个卷积层和3个 fc层，公开的VGG-16 模型[19]，有13 个卷积层和3 个fc层。我们主要评估检测的平均精度（mean Average Precision, mAP），因为这是对⽬标检测的实际度量标准（⽽不是侧重于⽬标建议框的代理度量）。

表1（上）显⽰了使⽤各种区域建议的⽅法训练和测试时Fast R-CNN的结果。这些结果使⽤的是ZF⽹络。对于选择性搜索（SS）[22]，我们⽤“fast”模式⽣成了2k个左右的SS建议框。对于EdgeBoxes（EB）[24]，我们把默认的EB设置调整为0.7IoU⽣成建议框。SS的mAP 为58.7％，EB的mAP 为58.6％。RPN与Fast R-CNN实现了有竞争⼒的结果，当使⽤300个建议框时的mAP就有59.9％（对于RPN，建议框数量，如300，是⼀个图像产⽣建议框的最⼤数量。RPN可能产⽣更少的建议框，这样建议框的平均数量也更少了）。使⽤RPN实现了⼀个⽐⽤SS或EB更快的检测系统，因为有共享的卷积计算；建议框较少，也减少了区域⽅⾯的fc消耗。接下来，我们考虑RPN的⼏种消融，然后展⽰使⽤⾮常深的⽹络时，建议框质量的提⾼。

表1 PASCAL VOC2007年测试集的检测结果（在VOC2007 trainval训练）。该检测器是Fast R-CNN与ZF，但使⽤各种建议框⽅法进⾏训练和测试。罗山车祸

消融试验。为了研究RPN作为建议框⽅法的表现，我们进⾏了多次消融研究。⾸先，我们展⽰了RPN和Fast R-CNN检测⽹络之间共享卷积层的影响。要做到这⼀点，我们在4步训练过程中的第⼆步后停下来。使⽤分离的⽹络时的结果稍微降低为58.7％（RPN+ ZF，⾮共享，表1）。我们观察到，这是因为在第三步中，当调整过的检测器特征⽤于微调RPN时，建议框质量得到提⾼。

接下来，我们理清了RPN在训练Fast R-CNN检测⽹络上的影响。为此，我们⽤2k个SS建议框和ZF⽹络训练了⼀个Fast R-CNN模型。我们固定这个检测器，通过改变测试时使⽤的建议区域，评估检测的

mAP。在这些消融实验中，RPN不与检测器共享特征。

在测试时⽤300个RPN建议框替换SS，mAP为56.8％。mAP的损失是训练/测试建议框之间的不⼀致所致。该结果作为以下⽐较的基准。

有些奇怪的是，在测试时使⽤排名最⾼的100个建议框时，RPN仍然会取得有竞争⼒的结果（55.1％），表明这种⾼低排名的RPN建议框是准确的。另⼀种极端情况，使⽤排名最⾼的6k个RPN建议框（没有NMS）取得具有可⽐性的mAP（55.2％），这表明NMS不会降低检测mAP，反⽽可以减少误报。

接下来，我们通过在测试时分别移除RPN的cls和reg中的⼀个，研究它们输出的作⽤。当在测试时（因此没有⽤NMS/排名）移除cls层，我们从没有计算得分的区域随机抽取N个建议框。N =1k 时mAP⼏乎没有变化（55.8％），但当N=100则⼤⼤降低为44.6％。这表明，cls得分是排名最⾼的建议框准确的原因。

另⼀⽅⾯，当在测试时移除reg层（这样的建议框就直接是anchor框了），mAP下降到52.1％。这表明，⾼品质的建议框主要归功于回归后的位置。单是anchor框不⾜以精确检测。

我们还评估更强⼤的⽹络对RPN的建议框质量的作⽤。我们使⽤VGG-16训练RPN，并仍然使⽤上述

SS+ZF检测器。mAP从56.8％（使⽤RPN+ZF）提⾼到59.2％（使⽤RPN+VGG）。这是⼀个满意的结果，因为它表明，RPN+VGG的建议框质量⽐RPN+ZF的更好。由于RPN+ZF的建议框是可与SS竞争的（训练和测试⼀致使⽤时都是58.7％），我们可以预期RPN+VGG⽐SS好。下⾯的实验证明这⼀假说。VGG-16的检测准确率与运⾏时间。表2展⽰了VGG-16对建议框和检测的结果。使⽤RPN+VGG，Fast R-CNN对不共享特征的结果是

68.5％，⽐SS基准略⾼。如上所⽰，这是因为由RPN+VGG产⽣的建议框⽐SS更准确。不像预先定义的SS，RPN是实时训练的，能从更好的⽹络获益。对特征共享的变型，结果是69.9％——⽐强⼤的SS基准更好，建议框⼏乎⽆损耗。我们跟随[5]，在PASCAL VOC2007 trainval和2012 trainval的并集上进⼀步训练RPN，mAP是73.2％。跟[5]⼀样在VOC 2007 trainval+test和VOC2012 trainval的并集上训练时，我们的⽅法在PASCAL VOC 2012测试集上（表3）有70.4％的mAP。ahb

表2：在PASCAL VOC 2007测试集上的检测结果，检测器是Fast R-CNN和VGG16。训练数据：“07”：VOC2007 trainval，“07+12”：VOC 2007 trainval和VOC 2012 trainval的并集。对RPN，⽤于Fast R-CNN训练时的建议框是2k。这在[5]中有报告；利⽤本⽂所提供的仓库（repository），这个数字更⾼（68.0±0.3在6次运⾏中）。

表3：PASCAL VOC 2012测试集检测结果。检测器是Fast R-CNN和VGG16。训练数据：“07”：VOC 2007 trainval，“07++12”： VOC 2007 trainval+test和VOC 2012 trainval的并集。对RPN，⽤于Fast R-CNN训练时的建议框是2k。

表4中我们总结整个⽬标检测系统的运⾏时间。SS需要1~2秒，取决于图像内容（平均1.51s），采⽤VGG-16的Fast R-CNN在2k个SS建议框上需要320ms（若是⽤了SVD在fc层的话只⽤223ms[5]）。我们采⽤VGG-16的系统⽣成建议框和检测⼀共只需要198ms。卷积层共享时，RPN只⽤10ms来计算附加的⼏层。由于建议框较少（300），我们的区域计算花费也很低。我们的系统采⽤ZF⽹络时的帧率为17fps。

表4： K40 GPU上的⽤时（ms），除了SS建议框是在CPU中进⾏评价的。“区域⽅⾯”包括NMS，pooling，fc和softmax。请参阅我们发布的代码运⾏时间的分析。

轴流式压缩机IoU召回率的分析。接下来，我们计算建议框与GT框在不同的IoU⽐例时的召回率。值得注意的是，该

IoU召回率度量标准与最终的检测准确率只是松散[9, 8, 1]相关的。更适合⽤这个度量标准来诊断建议框⽅法，⽽不是对其进⾏评估。

在图2中，我们展⽰使⽤300，1k，和2k个建议框的结果。我们将SS和EB作⽐较，并且这N个建议框是基于⽤这些⽅法⽣成的按置信度排名的前N个。该图显⽰，当建议框数量由2k下降到300时，RPN⽅法的表现很好。这就解释了使⽤少到300个建议框时，为什么RPN有良好的最终检测mAP。正如我们前⾯分析的，这个属性主要是归因于RPN的cls项。当建议框变少时，SS和EB的召回率下降的速度快于RPN。

本文发布于:2024-09-26 04:29:14，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/212454.html

上一篇：精确的目标检测中定位置信度的获取

下一篇：碰撞检测算法的研究现状

标签：建议卷积检测区域共享特征训练计算

留言与评论（共有 0 条评论）