经典论文之MaskR-CNN全文翻译

经典论⽂之MaskR-CNN全⽂翻译

Mask R-CNN

Kaiming He Georgia Gkioxari Piotr Doll´ar Ross Girshick

全国初中数学联赛Facebook ⼈⼯智能研究院 (FAIR)

摘要

我们提出概念上简单、灵活和通⽤的对象实例分割框架。我们的⽅法能够有效检测图像中的对象，同时⽣成每个实例的⾼质量分割掩膜。通过添加与现有的边界框识别分⽀平⾏的预测对象掩膜分⽀，这种被称作掩膜R-CNN的⽅法拓展了极速R-CNN的⽅法。掩膜R-CNN易于训练，且仅稍微增加了极速R-CNN的⽇常开⽀，运⾏帧率为5 fps。此外，掩膜R-CNN还易于推⼴到其他任务中，例如，它能够使我们在同⼀个框架中预测⼈类的姿势。我们展⽰了COCO系列挑战的所有三个⽅向，包括实例分割、边界框对象检测以及⼈体关键点检测，的最佳匹配结果。说实话，掩膜R-CNN达成每项任务的效果确实胜过所有现有的单模型参赛作品，包括COCO 2016挑战获胜者的作品。我们希望，该简单有效的⽅法能够作为可靠的基线，促进未来实例级识别研究的发展。相关代码即将公开。

1. 导论

在视觉领域，对象检测和语义分割结果的研究结果在短时间内得到快速发展。这些进展在很⼤程度上是由强有⼒的基线系统推动的，⽐如分别⽤于对象检测和语义分割的快速/极速R-CNN框架[12, 34]和全卷积⽹络(FCN) [29]框架。这些⽅法从概念上来讲是直观的，具有灵活性和鲁棒性，并且其训练和推理时长较短。本⽂旨在构建针对实例分割效果相对较好的框架。

实例分割极具挑战性，因为它要求对图像中所有对象进⾏正确检测并同时准确分割每个实例。因此，它综合了对象检测和语义分割的经典计算机视觉任务，对象检测的⽬的在于对单个对象进⾏分类并利⽤边界框定位每个对象，⽽语义分割的⽬的在于在不区分对象实例的条件下将每个像素归类到固定的类别集1。有鉴于此，⼈们可能会认为要达到较好的效果需要复杂的⽅法。然⽽，本⽂表明，相当简单、灵活且快速的系统达到的效果可以胜过之前最先进的实例分割成果。

张之香图 1.⽤于实例分割的掩膜R-CNN框架。

我们的⽅法叫作掩膜R-CNN，通过添加⽤于每个感兴趣区域(RoI)的掩膜分割预测并与⽤于分类和边界框回归分析的现有分⽀并⾏的的分⽀，它拓展了极速R-CNN [34]见图1。该掩膜分⽀是应⽤于每个RoI的⼩型FCN，可通过像素到像素的⽅式预测分割掩膜。极速R-CNN分⽀促进了各种各样灵活架构设计的发展，得益于此，掩膜R-CNN易于实现和训练。另外，掩膜分⽀仅会增加⼩部分的计算开销，却可实现快速的系统和快速实验。

从原则上来说，掩膜R-CNN是极速R-CNN的直观拓展模式，但是恰当地构建掩膜分⽀对于达成较好的结果⽽⾔⾄关重要。最重要的是，极速R-CNN不是专为⽹络输⼊和输出之间像素到像素的对准⽽设计的。这⼀点在RoIPool[18, 12]（实际上处理实例的核⼼操作）进⾏特征提取时如何执⾏粗糙的空间量化的过程中最为明显。为解决未对准的问题，我们提出被称为RoIAlign的简单、⽆需量化的层，它可以真实地保留准确的空间位置。尽管RoIAlign看起来似乎是很⼩的改变，但它却产⽣了很⼤的影响：它使得掩膜准确率相对提⾼了10% 到 50%，在严格定位指标的条件下显⽰出更⼤的提⾼。第⼆，我们发现，它对于分离掩膜和分类预测⾄关重要：在不对⽐类别的情况下，我们单独预测每个类别的⼆元掩膜，并

依靠该⽹络的RoI分类分⽀对类别进⾏预测。与此相反，FCN通常执⾏逐像素多类别的分类，使分割和分类结合在⼀起，并且，根据我们的实

验，FCN在实例分割⽅⾯的效果很差。

图2.掩膜R-CNN在COCO 测试集中的结果。

这些结果基于ResNet-101 [19]，达到了35.7的掩膜AP并以5 fps的速度运⾏。掩膜以不同的颜⾊、边界框和类别显⽰，同时也显⽰了可信度。实话实说，掩膜R-CNN在COCO实例分割任务上的表现超越了之前最先进的单模型成果[28]，包括出⾃于该竞赛获胜者之⼿的设计复杂的参赛作品。作为该⽅法的副产品，我们的⽅法在COCO对象检测任务上也优于其他⽅法。在切除实验中，我们评估了多种基本例⽰，这使我们能够展⽰其鲁棒性并分析核⼼因素的效果。

我们的模型可在GPU上以200ms每帧的速度运⾏，并且在8个GPU的单个机器上进⾏关于COCO上的训练仅需耗时⼀到两天。我们认为，快速的训练、较⾼的测试速度以及框架的灵活性和准确度将有利于促进未来实例分割的研究。

最后，我们展⽰了通过在COCO关键点数据集上进⾏的⼈类姿势评估任务⽣成我们的框架[28]。通过将每个关键点视作独热⼆元掩膜，掩膜R-CNN只需进⾏微⼩的修改即可应⽤于具体实例姿势的检测。⽼实说，掩膜 R-CNN超越了2016 COCO关键点竞赛的获胜作品，同时以5 fps的速度运⾏。因此，从更⼴泛的意义上来讲，掩膜 R-CNN可被视为实例级识别的灵活框架并可拓展以完成更为复杂的任务。

我们将会发布代码，以促进未来的研究。

2. 相关⼯作

R-CNN：⽤于边界框对象检测并基于区域的CNN (R-CNN)⽅法的⽬的在于处理可管理数量内的候选对象区域[38, 20]并独⽴评估每个RoI中的卷积⽹络[25, 24]。R-CNN经过拓展后[18, 12]可使⽤RoIPool在特征图上处理RoI，可达到较快的速度和更⾼的准确度。通过区域⽅案⽹络(RPN)学习注意机制，极速R-CNN[34]促进了这种流的发展。极速R-CNN的灵活性和鲁棒性⾜以促进多种后续进展（⽐如[35, 27, 21]），⽽且它是当前⼏种基准重的领先框架。

实例分割：经过R-CNN有效性的推动，很多实例分割的⽅法都建⽴在分割⽅案之上。早前的⽅法[13, 15, 16, 9]依赖于⾃下⽽上的分割⽚段[38, 2]。深度掩膜(DeepMask)[32]以及以下作品[33, 8]学会提出候选分割⽚段，这些⽚段随后由快速R-CNN进⾏分类。在这些⽅法中，分割在识别之前，识别速度较慢且准确度相对较低。同样，戴(Dai)等⼈[10]提出分类之后进⾏复杂的多级级联，以通过边界框⽅案预测分割⽅案。相反，我们的⽅法基于掩膜和类别标签的并⾏预测，这种⽅法更加简单和灵活。

最近，李(Li)等⼈[26]将[8]中的分割⽅案系统和[11]中的对象检测系统结合起来，⽤于“全卷积实例分割”(FCIS)。[8, 11, 26]中的⽅案的共同⽬的在于以全卷积的⽅式预测⼀组位置敏感的输出信道。这些信道同时处理对象类别、框以及掩膜，使系统的速度加快。但是FCIS在重叠的实例中出现系统性错误，并导致虚假边缘（图5），这表明，它的有效性受到了分割实例的基本难题的挑战。

3. 掩膜R-CNN

掩膜R-CNN的概念⽐较简单：极速R-CNN拥有针对每个候选对象的两个输出信道，还拥有⼀个类别标签和⼀个边界框偏置：对此，我们增加了⽤于输出对象掩膜的第三个框架。因此，掩膜R-CNN是⾃然⽽直观的概念。但是，额外的掩膜输出与类别和框的输出不同，因为它要求对于对象空间布局的抽取更加精细。其次，我们介绍了掩膜R-CNN的关键因素，包括像素到像素的对准，这是快速/极速R-CNN主要⽋缺的部分。

极速R-CNN：⾸先，我们简要回顾了极速R-CNN检测器[34]。极速R-CNN包括两个阶段。第⼀个阶段叫作区域⽅案⽹络(RPN)，该⽹络提出候选对象边界框。第⼆个阶段实质上是快速R-CNN[12]，它通过使⽤RoIPool从每个候选框中抽取特征并执⾏分类和边界框的回归分析。这两个阶段使⽤的特征可共享，以加快推理速度。我们建议读者参考[21]，以获取极速R-CNN和其他框架之间最新的复杂⽐较。模具技术

掩膜R-CNN：掩膜R-CNN采⽤了与上相同的两阶段步骤，第⼀个阶段与上述的第⼀个阶段（即RPN）完全相同。在与预测类别和框偏置并⾏的第⼆个阶段，掩膜R-CNN还针对每个RoI输出⼆元掩膜。这与⼤多数最近的系统截然不同，在这些系统中，分类依赖于掩膜预测（例如，[32,

10, 26]）。我们的⽅法遵循了快速R-CNN[12]的原则，即并⾏应⽤边界框分类和回归分析（结果证明这⼤⼤简化了原来的R-CNN [13]的多阶段管道）。

在训练期间，我们将每个取样的RoI上的多任务损失定义为L = Lcls + Lbox + Lmask。类别损失Lcls与边界框损失Lbox与[12]中的对应定义相同。针对每个RoI，掩膜分⽀有Km2的三维输出，这可将分辨率为m×m的K个⼆元掩膜进⾏编码，这K个⼆元掩膜与K个类别⼀⼀对应。对此，我们应⽤了逐像素sigmoid函数，并将Lmask定义为平均⼆元交叉熵损失。对于与地⾯实况类别k关联的RoI，Lmask仅在第k个掩膜上进⾏定义（其他掩膜输出不会造成损失）。

我们对于Lmask的定义使得该⽹络能够在不对⽐类别的条件下⽣成针对每种类别的掩膜；我们依赖于专门的分类分⽀对⽤于选择输出掩膜的类别标签进⾏预测。这与将FCN [29]应⽤于语义分割时的惯例不同，该惯例通常使⽤逐像素的softmax函数与多项交叉熵损失。在那种情况下，不同类别的掩膜进⾏对⽐；在我们的⽅法中，通过逐像素的sigmoid函数和⼆元损失，不同类别的掩膜不会进⾏对⽐。我们的实验表明，这种⽅式是优化实例分割结果的关键。

掩膜表⽰：掩膜可对输⼊对象的空间布局进⾏编码。完全连接的(fc)图层必将导致类别标签或框的偏置塌陷为较短的输出⽮量，因此，与此不同，通过卷积提供的像素到像素的对应可⾃然地处理掩膜空间结构的抽取。

特别需要指出的是，我们利⽤FCN [29]从每个RoI中预测m×m的掩膜。这使得掩膜分⽀中的每个层都能保持明确的m×m的对象空间布局，⽽不⾄于塌陷为缺乏空间维度的⽮量表⽰。与之前依赖于fc图层进⾏掩膜预测的⽅法[32, 33, 10]不同，我们的全卷积表⽰所要求的参数更少，且正如实验所⽰，其准确度更⾼。

这种像素到像素的特性需要我们的RoI的特征（这些特征本⾝就是⼩型特征图）进⾏准确地对准，以忠实保留明确的逐像素空间对应。这激励着我们推动在掩膜预测中发挥关键作⽤的以下RoIAlign图层的发展。

RoIAlign: RoIPool [12]是从每个RoI中抽取⼩型特征图（例如，7×7）的标准操作。⾸先，RoIPool 会将浮点数RoI量化为特征图的不连续间隔尺度，然后，量化后的RoI会被细分为空间容器，这些空间容器本⾝也会进⾏量化，最后，每个容器覆盖的特征值会被放⼤（通常是通过最⼤池化）。通过计算机运算[x=16]，在例如连续的坐标x上执⾏量化，在这种运算中，16是特征图步幅，⽽[.]是舍⼊；同样，分为容器（例

如，7×7）时执⾏量化。这些量化引⼊了RoI和所抽取特征之间的未对准现象。尽管这可能并不会影响对于微⼩的平移具有鲁棒性的分类，它对于像素精度的掩膜预测具有负⾯影响。

为处理这个问题，我们提出已去掉RoIPool粗略量化步骤的RoIAlign层，通过恰当地将所抽取的特征和输⼊对准。我们提出的改变是简单的：我们避免对于任何RoI边界或容器进⾏量化（例如，我们使⽤x/16⽽⾮[x/16]）。我们利⽤双线性插值[22]计算每个RoI容器中四个常规取样位置的输⼊特征的精确值并将结果放⼤（使⽤最⼤值或平均值）。

正如4.2章中表明的那样， RoIAlign取得了重⼤进展。我们还⽐较了[10]中提出的RoIWarp操作。与RoIAlign不同，RoIWarp忽略了对准问题，并且其在[10]中实施 RoI的量化，这点与RoIPool相同。因此，即使RoIWarp也采取了[22]推动的双线性重采样，正如实验（详情参见表

2c）所⽰，它与RoIPool的效果相似，这证明对准⾄关重要。

⽹络架构：为展⽰我们的⽅法的⽣成，我们通过多种架构举例说明掩膜R-CNN。为了清晰起见，我们对以下两种概念作了区分：(i)⽤于从整个图像中抽取特征的卷积主⼲架构，(ii)⽤于边界框识别（分类和回归分析）以及分别应⽤于每个RoI的掩膜预测的⽹络头。

我们⽤术语⽹络深度特征指称主⼲架构。我们评估了深度为50或101层的ResNet [19]或ResNeXt [40]⽹络。最初实现的带ResNets [19]极速R-CNN从第4阶段(我们称为C4)的最后的卷积层抽取特征。例如，这种带ResNet-50的主⼲架构被指称为ResNet-50-C4。这是应⽤在[19, 10, 21, 36]的通⽤选择。

我们还探讨了另外⼀种更加有效的主⼲架构，它是最近由林(Lin)等提出并被称为特征⾦字塔⽹络(FPN)。特征⾦字塔⽹络运⽤带侧⾯连接的⾃上⽽下的架构，从单尺度输⼊中构建⽹络内特征⾦字塔。带特征⾦字塔⽹络主⼲架构的极速R-CNN根据尺度从不同级别的特征⾦字塔中抽取RoI 特征，但是另⼀⽅⾯，该⽅法的其余部分与普通的ResNet类似。对带掩膜R-CNN且针对特征抽取的ResNet-FPN主⼲架构的运⽤在准确度和速度上都取得了良好成效。如需了解关于FPN的细节内容，建议读者参考[27]。

对于⽹络头，我们遵循了之前作品中展现的架构，并在这些架构中添加了全卷积掩膜预测分⽀。特别值得⼀提的是，我们根据ResNet [19]和 FPN [27]的论⽂拓展了极速R-CNN框头。详细内容请参见图3。ResNet-C4主⼲架构上的头包括运算密集型的ResNet（即9

层‘res5’[19]）。对于FPN，该主⼲架构包括res5，因此能够使⽤带更少过滤器的更有效的头。

我们注意到，我们的掩膜分⽀拥有简单的结构。更加复杂的设计可能有提⾼效果的潜⼒，但这不是本⽂的关注点。

3.1. 实现细节

我们遵循现有的快速/极速R-CNN的相关⽂章[12, 34, 27]设定了超参数。尽管这些关于对象检测的决策出于论⽂[12, 34, 27]，但是我们发现我们的实例分割系统⽐它们的更具鲁棒性。

训练：正如在快速R-CNN中⼀样，如果RoI拥有的IoU所带的真实框⾄少为0.5，则其被认为是正的，否则它就为负。掩膜损失Lmask仅能在正的感兴趣区域 (RoI)上进⾏定义。掩膜⽬标是感兴趣区域 (RoI)与其相关的地⾯实况掩膜之间的交集。

我们采⽤了图像为中⼼的训练[12]。图像的⼤⼩经过调整后，其尺度（短边）为800像素[27]。每个最⼩批量在每个GPU中含有两个图像，每个图像有N个取样的RoI，正数和负数的⽐例为1:3[12]。对于C4主⼲架构⽽⾔，N是64（正如[12, 34]中⼀样），对于FPN⽽⾔，N是512（正如[27]中⼀样）。我们在8个GPU（因此有效的最⼩批量尺度为16）上进⾏160k 迭代的训练，学习率为0.02，并在120k的迭代时降了10个单位。我们使⽤了 0.0001的权重衰减和0.9的动量项。

图3.头部架构：我们拓展了两种现有的极速R-CNN的头部[19, 27]。左侧/右侧的⾯板分别显⽰了 [19] 和 [27] 中的ResNet C4和FPN的头部，这两种头部中都添加了掩膜分⽀。数字代表空间分辨率和信道。箭头指的是卷积、反卷积或者

fc层，这些可从上下⽂中推理出来（卷积保留了空间维度，⽽反卷积则增加了空间维度）。除了输出卷积为1×1之外，其

他所有的卷积都是3×3，反卷积为2×2且其步幅为2，并且我们在隐藏层中使⽤ReLU [30]。左侧：‘res5’指的是

ResNet的第5阶段，为了简单起见，我们将其做了更改，这样第⼀个卷积在7×7的RoI上操作，且步幅为1（⽽⾮[19]中

的14×14的RoI/为2的步幅）。右侧：‘×4’指的是⼀叠4个连续的卷积。

推理：在测试期间，我们提出，C4主⼲架构的数量为300（正如[34]中⼀样），FPN的数量为1000（正如[27]中⼀样）。我们在这些⽅案中运⾏框预测分⽀，然后执⾏⾮极⼤值抑制[14]。之后，将掩膜分⽀应⽤到最⾼得分为100的检测框中。尽管这与训练中使⽤的并⾏运算不同，但是它提⾼了推理的速度和准确度（由于其使⽤了更少且准确度更⾼的RoI）。掩膜框架可在每个RoI中预测K个掩膜，但是我们仅使⽤第K个掩膜，这⾥的k指的是类别框架预测的类别。之后，m×m的浮点数掩膜输出的⼤⼩被调整为RoI的尺度，并且在0.5的阈值上进⾏⼆值化。

请注意，因为我们只运算了头100个检测框上的掩膜，掩膜R-CNN增加了其极速R-CNN对应物的边际运⾏时间（例如，在典型的模型中，约增加20% 的边际运⾏时间）。

4. 实验：实例分割

通过复杂的切除实验，我们将掩膜R-CNN与最先进的⽅法进⾏了全⾯的对⽐。我们在所有实验中使⽤的都是COCO数据集[28]。我们报告了标准COCO判据，包括AP（IoU阈值下的平均值）、AP50,、AP75和 APS、 APM和APL（不同尺度下的AP）。除⾮特别声明，AP都通过使⽤掩膜IoU进⾏评估。正如之前的论⽂[5, 27]所述，我们通过使⽤80k训练图像和35k val图像⼦集(trainval35k)的组合进⾏训练，并报告了剩余5k val图像⼦集(minival)的切除。我们还报告了test-dev [28] 的结果，其不包含公开

标签。出版之后，我们会按照建议将test-std的完整结果上传⾄公共的竞赛排名板上。

图4.更多掩膜R-CNN在COCO测试图像上的结果，使⽤的是ResNet-101-FPN，以5fps的速度运⾏，通过35.7的掩膜

AP实现(表1)。

表1在COCO test-dev上的实例分割掩膜AP。 MNC [10] 和 FCIS [26]分别是COCO 2015和2016分割挑战的获胜作

品。坦诚地讲，掩膜R-CNN⽐更复杂的FCIS+++的表现更好，后者包括多尺度训练/测试，⽔平翻转测试以及OHEM

[35]。所有条⽬都是单模型结果。

4.1主要结果

我们在表1中⽐较了掩膜R-CNN与最先进⽅法在实例分割⽅⾯的区别。我们模型中的所有实例的效果都优于以前最先进模型的基线变体。这包括分别是COCO 2015和2016分割挑战获胜作品的MNC [10]和FCIS [26]。坦⽩讲，带ResNet-101-FPN主⼲架构的掩膜R-CNN的效果优于FCIS+++ [26]，后者包括多尺度训练/测试，⽔平翻转测试以及在线难例挖掘(OHEM)[35]。在本⽂涵盖的内容之外，我们期待出现更多可以应⽤于我们的⽅法的类似进展。

在图2和图4中可以看到掩膜R-CNN输出。掩膜R-CNN即使在相当困难的条件下也能达到很好的结果。在图5中，我们⽐较了掩膜R-CNN基线和FCIS+++ [26]。FCIS+++在重叠实例上表现出系统伪迹，表明其有着实例分割基础困难⽅⾯的问题。掩膜R-CNN并未表现出类似的伪迹。

4.2 切除实验

我们运⾏了⼤量切除实验，以分析掩膜R-CNN。结果在表2中呈现，且具体细节在以下内容中进⾏讨论。

架构：表2a显⽰的是带多个主⼲架构的掩膜R-CNN。该架构得益于更深层的⽹络(50 vs. 101)以及包括FPN 和 ResNeXt3等⾼级设计。我们注意到，不是所有的框架都能⾃动从更深层或⾼级的⽹络（参见[21]中的中评量基准）获益。

mih图5.FCIS+++ [26]（顶部）对⽐掩膜R-CNN（底部，ResNet-101-FPN）。FCIS在重叠对象上表现出系统伪迹。

阴离子

cccp(a) 主⼲架构：更好的主⼲架构可以带来预期效果：更深层的⽹络表现更好，FPN的效果优于C4的特征，并且ResNeXt

在ResNet上得到了提⾼。

(b) 多项式对⽐独⽴掩膜(ResNet-50-C4)：通过每个类别的⼆元掩膜（sigmoid函数）进⾏的分离极⼤地提⾼了多项式掩

膜的效果（softmax函数）。

本文发布于:2024-09-20 20:40:16，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/602005.html

上一篇：...学习的口红识别器的设计与实现_本科毕业设计(论文)

下一篇：论文阅读:NaturalLanguageProcessingAdvancementsByD。。。

标签：掩膜分割实例对象

留言与评论（共有 0 条评论）