PointRend：基于点的渲染实现高质量图像分割

199 浏览量更新于2023-10-23 收藏 2.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9799×PointRend：图像分割作为渲染Alexander Kirillov Yuxin Wu Kaiming He Ross GirshickFacebook AI Research（FAIR）摘要我们提出了一种有效的高质量图像分割的对象和场景的新方法通过类比经典的计算机图形学方法，有效地渲染与像素标记任务中面临的过采样和欠采样挑战，我们开发了一个独特的视角，图像分割作为一个渲染问题。从这个角度来看，我们提出了PointRend（基于点的渲染）神经网络模块：一个基于迭代细分算法在自适应选择的位置执行基于点的分割预测的模块。PointRend掩码R-CNN+PointRend可以灵活地应用于实例和语义28×2856×56112×112 224×224通过建立在现有的最先进的模型之上的分割任务虽然许多具体的实现的一般思想是可能的，我们表明，一个简单的设计已经取得了优异的效果。在质量上，PointRend在由先前方法过度平滑的区域中输出清晰的对象边界从数量上讲，PointRend在COCO和Cityscapes上都有显著的收益，无论是实例分割还是语义分割。PointRend代码已在https：github.com/facebookresearch/detectron2/tree/master/projects/PointRend上提供。1. 介绍图像分割任务涉及将在规则网格上采样的像素映射到同一网格上的标签图或一组标签图。对于语义分割，标签图指示每个像素处的预测类别在实例分割的情况下，一个二进制前景与。为每个检测到的对象预测背景图。用于这些任务的现代工具是建立在卷积神经网络（CNN）上的[24，23]。用于图像分割的CNN通常在规则网格上操作：输入图像是像素的规则网格，它们的隐藏表示是规则网格上的特征向量并且它们的输出是规则网格上的标签映射规则网格很方便，但不一定是计算-图1：使用PointRend进行实例分割。我们引入了PointRend（基于点的渲染）模块，该模块使用新的基于点的特征表示在图像上的自适应采样点处进行预测（见图 1 ）。（ 3 ）第三章。PointRend是通用的，可以灵活地集成到现有的语义和实例分割系统。当用于替换Mask R-CNN的默认掩码头[ 17 ]（左上）时，PointRend会产生更详细的结果（右上）。（底部）在推理期间，PointRend iterative计算其预测。每一步都在平滑区域中应用双线性上采样，并在可能位于对象边界（黑点）上的少量自适应选择点处进行更高分辨率的预测。文件中的所有数字都是最好的数字放大查看。图片来源：[36]。非常适合图像分割。由这些网络预测的标签映射应该大多是平滑的，即，相邻像素通常采用相同的标签，因为高频区域被限制在对象之间的稀疏边界。一个规则的网格将不必要地过采样的平滑区域，同时欠采样对象的边界。其结果是在平滑区域和模糊轮廓中的过度计算（图11）。1，左上角）。图像分割方法通常预测低分辨率规则网格上的标签，输入的1/8 [30]用于语义分割，或28 28 [17]用于例如分割，作为欠采样和过采样之间的折衷。在计算机图形学中，类比采样问题已经研究了几十年例如，渲染器映射模型（例如，3D网格）到光栅化图像，即，一28×28224×2249800图2：MaskR-CNN[17]的示例结果对及其标准掩码头（左图）与使用PointRend（右图），使用ResNet-50 [18]和FPN [25]。请注意PointRend如何在对象边界周围预测具有更精细细节的遮罩像素的规则网格当输出在规则网格上时，计算不是均匀地分配在网格上。相反，一种常见的图形策略是在图像平面中自适应选择的点的不规则子集处计算像素值例如，[43]的经典细分技术产生了一种类似四叉树的采样模式，可以有效地渲染抗锯齿的高分辨率图像。本文的中心思想是将图像分割视为一个渲染问题，并采用计算机图形学的经典思想来有效地“渲染”高质量的标签地图（见图1）1，左下）。我们将这种计算思想封装在一个新的神经网络模块PointRend中，该模块使用细分策略自适应地选择一组非均匀的点来计算标签。PointRend可以被合并到流行的元架构中，用于实例分割（例如，MaskR-CNN [17]）和语义分割（例如，FCN[30]）。它的细分策略使用比直接密集计算更少数量级的插值点操作来有效地计算高分辨率分割图。PointRend是一个通用模块，允许许多可能的实现。抽象地看，PointRend模块接受一个或多个在规则网格上定义的典型CNN特征图f（x i，y i），并在更细的网格上输出高分辨率预测p（x′i，yi′）。而不是对所有点进行过度预测，输出网格时，PointRend仅对精心选择的点进行预测。为了进行这些预测，它通过插值f来提取所选点的逐点特征表示，并使用小点头子网络来预测逐点特征的输出标签。我们将介绍一个简单而有效的PointRend实现。我们使用COCO [26]和Cityscapes [8]基准对PointRend的实例和语义分割任务进行评估。定性，PointRend有效地计算对象之间的清晰边界，如图所示。 2和图8. 我们还观察到定量改进，即使这些任务的标准的基于交集的度量（掩模AP和mIoU）偏向于对象内部像素，并且对边界改进相对不敏感。PointRend显著提高了强大的Mask R-CNN和DeepLabV 3 [4]模型。2. 相关工作计算机图形学中的渲染算法输出规则的像素网格。然而，它们通常在非均匀的点集上计算这些像素值细分[43]和自适应采样[33，37]等有效程序在像素值具有较大方差的区域中细化粗光栅化。光线跟踪渲染器通常使用过采样[45]，这是一种比输出网格更密集地采样某些点以避免锯齿效应的技术。在这里，我们应用经典的细分图像分割。9801××××××§非均匀网格表示。规则网格上的计算是2D图像分析的主要范例，但对于其他视觉任务并非如此在3D形状识别中，由于立方缩放，大的3D网格是不可行的。大多数基于CNN的方法不会-CNN主干粗预测yond粗64 64 64网格[11，7]。最近的作品考虑更有效的非均匀表示，如网格[42，13]，符号距离函数 [32] 和八叉树 [41] 。与带符号距离函数类似，PointRend可以计算任何点处的分割值。最近，Marinet al.[31]提出了一种有效的语义分割网络，该网络基于在用标准se-sem处理之前对输入图像进行细粒度特征MLP点特征点预测智能分割网络PointRend，相比之下，专注于在输出非均匀采样。结合这两种方法是可能的，尽管[ 31 ]目前还没有得到证明，例如分割。基于Mask R-CNN元架构的实例分割方法[17]在最近的挑战中占据了领先地位[29，2]。这些基于区域的架构typically预测28 28网格上的掩模，而不管对象的大小。这对于小对象是足够的，但对于大对象，它会产生不希望的 1，左上角）。替代地，自下而上的方法将像素分组以形成对象掩模[28，1，22]。这些方法可以产生更详细的输出，然而，它们在大多数实例分割基准上落后于基于区域的方法[26，8，35]。 TensorMask [6]是另一种滑动窗口方法，它使用复杂的网络设计来预测大型物体的锐利高分辨率掩模，但其准确性也略有滞后。在本文中，我们证明了配备PointRend的基于区域的分割模型可以生成具有精细细节的掩模，同时提高基于区域的方法的准确性。语义分割全卷积网络（FCN）[30]是现代语义分割方法的基础。他们通常预测输出具有比输入网格更低的分辨率，并使用双线性上采样来恢复剩余的8-16分辨率。结果可以通过扩张/atrous卷积来改善，这些卷积以更多的内存和计算为代价来替换一些子采样层[ 3，4 ]。替代方法包括编码器-解码器实现[5，21，39，40]，其在编码器中对网格表示进行子采样，然后在解码器中对其进行上采样，使用跳过连接[39]来恢复滤波的细节。当前的方法将膨胀卷积与编码器-解码器结构[5，27]相结合，以在应用双线性插值之前在比输入网格更稀疏的4网格上产生输出。在我们的工作中，我们提出了一种方法，可以有效地预测与输入网格一样密集的网格上的精细级细节图3：PointRend应用于实例分割。一个标准的网络，例如分割（实心红色箭头）采取输入图像，并产生一个粗略的（例如，7）使用轻量级分割头对每个检测到的对象（红框）进行掩模预测为了细化粗糙掩码，PointRend选择一组点（红点），并使用小的MLP独立地对每个点进行预测。 MLP使用在这些点（虚线红色箭头）处计算的插值特征，这些特征来自（1）骨干CNN的细粒度特征图和（2）粗预测掩码。粗掩模特征使得MLP能够在由两个或更多个框包含的单个点处进行不同的预测所提出的细分掩模渲染算法（参见图1B）可以被用于绘制图像。4和3.1）迭代地应用该过程来细化预测掩模的不确定区域。3. 方法我们将计算机视觉中的（对象和/或场景的）图像分割为计算机图形学中的图像渲染。渲染是关于显示模型（例如，3D网格）作为像素的规则网格，即，一个形象虽然输出表示是规则网格，但底层物理实体（例如，3D模型）是连续的，并且可以使用物理和几何推理（例如射线跟踪）在图像平面上的任何实值点处查询其类似地，在计算机视觉中，我们可以将图像分割视为底层连续实体的占用图，并且分割输出（其是预测标签的规则网格）从其“渲染”。实体被编码在网络的特征图中，并且可以通过插值在任何点处一个参数化的函数，它被训练来预测从这些插值逐点特征表示的占用，是对物理和几何推理的反作用。基于这种类比，我们提出了PointRend（基于点的渲染）作为一种方法，图像分割使用点表示。 PointRend模块接受C通道f∈R C×H×W的一个或多个典型CNN特征图，每个特征图定义在规则网格上（通常比图像网格粗4倍至16倍），以及9802∈××M0×·M0××输出K类标签p的预测RK×H′×W′在不同（可能更高）分辨率的规则网格上。 PointRend模块由三个主要组件组成：（i）点选择策略选择少量实值点进行预测，避免对高分辨率输出中的所有像素进行过度计算4×48×88×8网格（ii）对于每个选定点，提取逐点特征表示。实值点的特征通过f的双线性插值来计算，使用该点在f的规则网格上的4个因此，它能够利用在f的通道维度中编码的子像素信息来预测具有以下特征的分割：图4：一个自适应细分步骤的示例。一个4 - 4网格上的预测是上采样2使用双线性插值。然后，PointRend对N个最模糊的点（黑点）进行预测，以恢复更精细网格上的细节。重复此过程，直到达到所需的网格分辨率。分辨率高于F。（iii）点头：一个小的神经网络，被训练为独立地针对每个点从该逐点特征表示预测标签。PointRend体系结构可以应用于实例分割（例如，在MaskR-CNN [17]上）和语义分割（例如，在FCN [30]上）任务。例如，seg-k= 1，β =0。0k=3，β= 0。75k= 10，β = 0。75分割，PointRend应用于每个区域。它是-a）规则网格b）均匀c）轻度偏差D.严重偏见通过对一组选定的点进行预测，以由粗到精的方式放置遮罩（见图1）。（3）第三章。对于语义分割，整个图像可以被认为是一个单一的区域，因此不失一般性，我们将在实例分割的上下文中描述PointRend。接下来我们将更详细地讨论这三个主要组件。3.1. 用于推理和训练的点选择在我们的方法的核心是灵活和自适应地选择点在图像平面上预测分割标签的想法。直观上，这些点应该更密集地位于高频区域附近，例如对象边界，类似于光线跟踪中的抗锯齿问题我们开发了这个想法的推理和培训。推理。我们的推理选择策略受到计算机图形学中自适应细分[43]的经典技术的启发。该技术用于有效地渲染高分辨率图像（例如，通过射线跟踪），通过仅在值与其相邻值显著不同的可能性很高的位置处进行计算;对于所有其他位置，通过内插已经计算的输出值（从粗网格开始）来获得值。对于每个区域，我们以由粗到细的方式迭代地“渲染”输出掩码。对规则网格（例如，通过使用标准的粗分割预测头）。在每次迭代中，PointRend使用双线性插值对其先前预测的分段进行上采样，然后选择N个最不确定的点（例如，对于二进制掩模具有最接近0.5的概率的那些）。然后，PointRend计算这N个点中每个点的逐点特征表示（在§3.2中简要描述），并预测它们的图5：训练过程中的点采样。我们显示N=14 2点采样使用不同的策略相同的基础粗预测。为了实现高性能，每个区域只对少量点进行采样，采用轻度偏置采样策略，使系统在训练期间更有效。在图1中的玩具示例上示出4.第一章在期望的输出分辨率为MM像素和起始分辨率为M0M0的情况下，PointRend需要不超过Nlog2M点预测。这比MM小得多，使PointRend能够更有效地进行高分辨率预测。例如，如果 M0是7，并且期望的分辨率是M=224，则执行5个细分步骤。如果我们在每一步选择N=28 2点，PointRend只对28 24.25点进行预测，比224 2小15倍。请注意，总体上选择的点少于Nlog 2M，因为首先细分步骤只有142点可用。训练在训练过程中，PointRend还需要选择点，在这些点上构建用于训练点头的逐点特征。原则上，点选择策略可以类似于推理中使用的细分策略然而，细分引入了顺序步骤，这些步骤对使用反向传播训练神经网络不太友好。相反，对于训练，我们使用基于随机采样的非迭代策略。采样策略在特征图上选择N个点进行训练。[1]它的目的是偏向选择不确定的区域，同时也保留一定程度的统一覆盖，使用三个原则。(i)过度生成：我们通过以下方式过度生成候选点：标签重复该过程，直到分割完成为止。采样到所需的分辨率。这个过程的一个步骤1对于训练和推理选择，N的值可以不同。2×点预测9803−∈§§××××从均匀分布中随机抽样kN个点（k>1）。（ii）重要性抽样：我们通过在所有kN点插值粗略预测值并计算特定于任务的不确定性估计（在4和5中定义）来关注具有不确定粗略预测的点从kN候选中选择最不确定的βN点（β[0，1]）（iii）覆盖范围：从均匀分布中采样剩余的（1β）N个点。我们在不同的设置下演示了这一过程，并将其与常规网格选择进行了比较，如图所示。五、在训练时，预测和损失函数仅在N个采样点上计算（除了粗分割之外），这比通过细分步骤的反向传播更简单，更有效。这种设计类似于FasterR-CNN系统中RPN + FastR-CNN的并行训练[12]，其推理是顺序的。3.2. 点式表示和点头PointRend通过组合（例如，连接）两种特征类型，细粒度和粗预测特征，如下所述细粒度特征。为了让PointRend渲染精细的分割细节，我们从CNN特征图中提取每个采样点的特征向量。因为点是实值2D坐标，所以我们在特征图上执行双线性插值以计算特征向量，遵循标准实践[19，17，9]。可以从单个特征图（例如，ResNet中的res2）;它们也可以从多个特征图中提取（例如， res 2到res 5，或它们的特征金字塔[25]对应物）并按照超列方法[15]连接。粗预测特征。细粒度特征能够解决细节，但在两个方面也存在不足。首先，它们不包含特定于区域的信息，因此被两个实例的绑定框重叠的同一点然而，这一点只能在一个实例的前景因此，对于实例分割的任务，其中不同的区域可以预测相同点的不同标签，需要特定于区域的广告信息。其次，取决于哪些特征图用于细粒度特征，特征可以仅包含相对低级的信息（例如，我们将在DeepLabV3中使用res2在这种情况下，具有更多上下文和语义信息的要素源可能会有所帮助。这个问题影响实例和语义分割。基于这些考虑，第二特征类型是来自网络的粗略分割预测，即，在区域（框）中的每个点处的K维向量表示K类预测。粗略的分辨率，通过设计，提供更多的全球化的背景，而通道传达语义类。这些粗略的预测与现有架构的输出类似，并且在训练期间以与现有模型相同的方式进行监督。例如，分割，粗略预测可以是例如MaskR-CNN中的轻量级7 × 7分辨率掩码头的输出。 Forsemanticseg-mentation, it can be, for example,predictionsfrom astride 16 feature map.尖头。给定每个选定点处的逐点特征表示，PointRend使用简单的多层叠加器（MLP）进行逐点分割预测。该MLP在所有点（和所有区域）之间共享权重，类似于图卷积[20]或PointNet [38]。由于MLP预测每个点的分割标签，因此可以通过标准的特定于任务的分割损失（在§4和§5中描述）进行训练。4. 实验：实例分割数据集。我们使用两个标准的实例分割数据集：COCO [26]和Cityscapes [8]。我们使用COCO的3次运行和Cityscapes的5次运行的中位数报告标准掩码AP度量[ 26 ]（它具有更高的方差）。COCO有80个带有实例级注释的类别我们在train2017上训练（118k张图像），并在val2017上报告结果（5k张图像）。如[14]所述，COCO地面实况通常是粗糙的，数据集的AP可能无法完全反映掩模质量的改善。因此，我们使用LVIS [14]的80个 COCO类别子集测量的AP补充COCO结果，用AP*表示。LVIS注释具有显著更高的质量。请注意，对于AP *，我们使用在COCO上训练的相同模型，并使用LVIS评估API根据更高质量的LVIS注释重新评估其预测。Cityscapes是一个以自我为中心的街景数据集，包含8个类别，2975个火车图像和500个验证图像。与COCO（1024 2048像素）相比，这些图像的分辨率更高，并且具有更精细，更精确的地面实况实例分割。架构我们的实验使用具有ResNet-50 [18]+ FPN [25]主干的Mask R-CNN。Mask R-CNN中的默认掩码头是一个区域式FCN，我们用“4 conv”来表示[2]我们将此作为我们的基准。对于PointRend，我们对此基线进行了适当的修改，如下所述。轻量、粗掩模预测头。为了计算粗预测，我们用一个更轻的设计来代替4 conv mask head，它类似于MaskR-CNN的box head，并产生一个7×7的具体来说，对于每个边界框，我们提取一个14×14的特征2将具有256个输出通道的4层3×3卷积应用于14×14输入特征映射。使用2×2核的反卷积将其转换为28×28。最后，1×1卷积预测掩码logits。9804××××§××××××××××××映射从P2水平的FPN使用双线性插值。特征是在边界框内的规则网格上计算的（此操作可以视为RoIAlign的简单版本）。接下来，我们使用具有256个输出通道的stride 2 2卷积层，然后是ReLU [34]，将空间大小减少到7 7。最后，类似于 MaskR-CNN ReLU 用于 MLP 的隐藏层，并将sigmoid激活函数应用于其输出。PointRend. 在每个选定的点处，使用双线性插值从粗预测头的输出中提取K维特征向量。 PointRend还内插了一个256维的特征向量从P2水平的FPN。这个级别有一个步幅为4 w.r.t.。输入图像。这些粗预测和细粒度特征向量被连接在一起。我们使用具有3个隐藏层和256个通道的MLP在选定的点处进行K类预测。在MLP的每一层中，我们用K个粗预测特征补充256个输出通道，以形成下一层的输入向量我们在MLP内部使用ReLU，并将sigmoid应用于其输出。训练默认情况下，我们使用Detectron 2 [ 44 ]的标准1训练时间表和数据增强（完整细节见附录）。对于PointRend，我们使用3.1，k=3，β=0.75。我们利用0.5和地面真值类插值的概率掩模头输出分辨率CocoAP35.2APS37.6PointRendPointRend4×转换28×28224×22428×28城市景观AP33.036.1（+0.9）39.2（+1.6）35.5（+2.5）36.3（+1.1）39.7（+2.1）35.8（+2.8）表1：PointRend与MaskR-CNN的默认4convmask头[17]。报告屏蔽AP。APS是根据更高质量的LVIS注释[14]评估的COCO掩码AP（详情见正文）。ResNet-50-FPN主干用于COCO和Cityscapes模型。 PointRend在定量和定性方面均优于标准4 conv面罩头。更高的输出分辨率导致更详细的预测，见图。2和图六、图6：PointRend推理与不同的输出分辨率。高分辨率蒙版与对象边界对齐得更好作为逐点不确定性度量从粗略预测中得出。对于具有真实类别c的预测框，我们对第c个MLP的二进制交叉熵损失求和4ConvPointRend224×224224×22434B 33M0.9B 0.7M产量超过142点。轻量级粗略预测头使用针对类别C预测的掩码的平均交叉熵损失，即，与基线4 CONV头的损失相同。我们将所有损失相加，不重新加权。在训练过程中，Mask R-CNN并行应用盒子和掩码头，而在推理过程中，它们作为级联运行。我们发现，作为级联训练并不能改善基线Mask R-CNN，但PointRend可以通过在更准确的框内采样点来从中受益，从而略微提高整体性能（AP = 0.2%，绝对值）。推理。对于预测类别为c的盒子的推断，除非另有说明，否则我们使用自适应细分技术将类别c的粗略7 7预测细化为5步224 224在每一步中，我们选择并更新（最多）N=282个最不确定的点，基于预测与0.5之间的绝对差4.1. 主要结果我们将PointRend与表1中MaskR-CNN中的默认4 conv头进行比较。PointRend在这两个数据集上的性能都优于缺陷头当评估时，差距更大表2：针对一个实例的FLOP（乘加）和激活计数224×224输出分辨率掩码。 PointRend的有效细分使224×224输出成为可能，而标准的4× conv掩模头则被修改为使用112×112的RoIAlign尺寸。使用LVIS注释（AP *）和Cityscapes来分析COCO类别，我们将其归因于这些数据集中的卓越注释质量。即使输出分辨率相同，PointRend也优于基线。 28 28和224 224之间的差异相对较小，因为AP使用交并[10]，因此严重偏向于对象内部像素，对边界质量不太敏感。然而，从视觉上看，边界质量的差异是明显的，见图。六、细分推理允许PointRend使用比默认4conv头输出相同分辨率所需的计算（FLOP）和存储器少30倍以上的计算（FLOP）和存储器来产生高分辨率224 224预测（基于采用112 112 RoIAlign输入），参见表2。PointRend通过忽略对象中存在粗分辨率的区域，使得Mask R-CNN框架中的高分辨率输出成为可能。224×22428×28掩模头输出分辨率FLOPs激活次数4×转换28×280.5B0.5M9805××××××××§×选择策略Coco美联社城市景观AP规则网格35.7 39.134.4均匀（k=1，β=0.0）35.9 39.034.5轻度偏倚（k=3，β=0.75）36.3 39.735.8严重偏倚（k=10，β=1.0）37.534.1表3：细分推断参数。更高的输出分辨率提高AP。尽管改进随着在每个细分步骤中采样的点的数量而迅速饱和（在下划线值处），但是对于复杂对象，定性结果可以继续改进。 AP S是根据更高质量的LVIS注释评估的COCO面罩AP [14]（详情见正文）。表4：每盒142个点的训练时间点选择策略对不确定区域的适度偏置抽样表现最好。严重偏差的采样表现甚至比均匀或规则的网格采样更差，表明覆盖率的重要性 AP S是根据更高质量的LVIS注释评估的COCO面罩AP [14]（详情见正文）。28×2856×56112×112 224×224表5：更大的模型和更长的3时间表[16]。 PointRend受益于更先进的模型和更长的培训。PointRend和Mask R-CNN中的默认掩码头之间的间隙保持不变。 AP S是根据更高质量的LVIS注释评估的COCO面罩AP [14]（详情见正文）。图7：使用PointRend进行抗锯齿。精确的对象delin-eation要求输出掩模分辨率匹配或超过对象占用的输入图像区域的分辨率预测是足够的（例如，在远离对象边界的区域在挂钟运行时间方面，我们的未优化实现以1.13fps输出224 224个掩码，这与4 conv头修改为输出56 56个掩码（通过将默认RoIAlign大小加倍）的帧率大致相同，与28 28 4 conv头相比，该设计实际上具有更低的COCO AP（34.5% vs.35.2%）。表3显示了PointRend细分推理与不同的输出分辨率和在每个细分步骤中选择的点数。以更高的分辨率预测掩模可以改善结果。虽然AP饱和，但当从较低（例如，5656）到更高（例如， 224 224）分辨率输出，见图。7 .第一次会议。 AP也会饱和每个细分步骤中采样的点数量，因为首先在最模糊的区域中选择点。额外的点可以在粗略预测已经足够的区域中进行预测。然而，对于具有复杂边界的对象，使用更多的点可能是有益的。4.2. 消融实验我们进行了多次消融以分析PointRend。在一般情况下，我们注意到，它是强大的点头MLP的精确设计。在我们的实验中，其深度或宽度的变化没有显示出任何显著差异。训练中的选点。在训练过程中，我们按照有偏采样策略（3.1）为每个对象选择14个2点。仅采样142个点使训练具有计算性和记忆效率，我们发现使用更多点并不能改善结果。令人惊讶的是，每个盒子只采样49个点仍然保持AP，尽管我们观察到AP的方差增加。表4显示了在训练期间使用不同选择策略的PointRend性能。规则网格选择实现了与均匀采样类似的结果。而将采样偏向模糊区域则可提高AP。然而，过于偏向粗略预测的边界（k>10且β接近1.0）的采样策略会降低AP。总的来说，我们发现参数2< k< 5和0.75< β< 1.0的范围很广，结果相似。更大的模型，更长的训练。使用COCO上的1时间表训练ResNet-50 + FPN（表示为R50-FPN）在表5中，我们显示了PointRend在基线上的改进在更长的训练时间表和更大的模型下都有效（详见附录）。输出分辨率每例的点数细分步长Coco美联社城市景观AP28×2856×56112×112224×22428228228228236.1 39.236.2 39.636.3 39.736.3 39.735.435.835.835.8224×224224×224224×224224×224142282562112236.1 39.436.3 39.736.3 39.736.3 39.735.535.835.835.8掩模头骨干Coco美联社4×转换PointRendR50-FPNR50-FPN37.238.2 （+1.0）39.541.5（+2.0）4×转换PointRendR101-FPNR101-FPN38.639.8 （+1.2）41.443.5（+2.1）4×转换PointRendX101-FPNX101-FPN39.540.942.144.9（+2.8）9806×××××××Mask R-CNN +4 conv Mask R-CNN + PointRend DeeplabV3DeeplabV3+PointRend图8：实例和语义分割的Cityscapes示例结果。在实例分割中，较大的对象从PointRend产生高分辨率输出的能力中受益更多而语义分割PointRend恢复小对象和细节。5. 实验：语义分割PointRend不限于实例分割，可以扩展到其他像素级识别任务。在这里，我们证明PointRend可以使两个语义方法DeeplabV 3-OS-16DeeplabV3-OS-8DeeplabV3-OS-16 +PointRend输出分辨率64×128128×2561024×2048mIoU77.277.8（+0.6）78.4（+1.2）分割模型：DeeplabV 3 [4]，它使用扩张卷积在更密集的网格上进行预测，以及Se-manticFPN [21]，一种简单的编码器-解码器架构。数据集。我们使用Cityscapes [8]语义分割集，其中包含19个类别，2975个训练图像和500个验证图像。我们报告了5项试验的中位数mIoU实作详细数据。我们根据各自的论文重新实现了DeeplabV3和SemanticFPN 。 Se-manticFPN使用标准ResNet-101 [18] ，而 DeeplabV 3 使用 [ 4 ] 中提出的ResNet-103。3我们遵循原始论文的训练时间表和数据扩充（详细信息见附录）。我们使用与实例分割相同的PointRend架构。粗预测特征来自语义分割模型的（已经粗的）输出。对于DeeplabV3 ，细粒度特征从 res2 插值，对于SemanticFPN，从P2在训练期间，我们对输入的步幅16特征图上的尽可能多的点进行采样（对于deeplabV 3为2304，对于Se-manticFPN为2048）。我们使用相同的k=3 ， β=0.75 点选择策略。在推断期间，细分使用N=8096（即，1024×2048图像的步幅16图中的点数）直到达到输入图像分辨率。为了测量预测的不确定性，我们在训练和推理过程中使用相同的策略：最有把握和第二有把握的类别概率之间的差异DeeplabV3.在表 6 中，我们比较了 DeepLabV3 和DeeplabV3与PointRend。如[ 4 ]所述，通过在res 4阶段使用扩张卷积，在推理时输出分辨率也可以增加2。两者相比3它用三个33卷积取代了ResNet-101 res 17 7卷积（因此称为“ResNet-103”）。表6：带有PointRend的DeeplabV3用于Cityscapes语义分割优于基线DeepLabV3。在推理过程中扩大res4阶段会产生更大，更准确的预测，但计算和内存成本要高得多;它仍然优于使用PointRend。图9：语义分割的PointRend推理。PointRend为粗预测不充分的区域细化预测分数。为了可视化每一步的分数，我们在给定的分辨率下取argmax，而不使用双线性插值。方法输出分辨率MiouSemanticFPN P2-P5SemanticFPN P2-P5 + PointRend256×5121024×204877.778.6（+0.9）SemanticFPN P3-P5SemanticFPN P3-P5 + PointRend128×2561024×204877.478.5（+1.1）表7：使用PointRend的SemanticFPN用于Cityscapes语义分割优于基线SemanticFPN。PointRend具有更高的mIoU。质量上的改进也很明显，见图。8. 通过自适应采样点，PointRend达到1024 2048分辨率（即。2M点），仅对32k点进行预测，见图。9 .第九条。语义FPN。表7示出了具有PointRend的 SemanticFPN比没有PointRend的8和4输出步幅变体都有所改进9807引用[1] Anurag Arnab和Philip HS Torr。使用动态实例化网络的逐像素实例分段。在CVPR，2017年。3[2] KaiChen，Jiangmiao Pang，Jiaqi Wang，YuXiao Li，Shuyang Sun ， Wansen Feng ， Ziwei Liu ， JianpingShi，Wanli Ouyang，et al. 实例分段的混合任务级联。在CVPR，2019年。3[3] Liang-ChiehChen，GeorgePapandreou，IasonasKokkinos ， KevinMurphy ， andAlanLYuille.DeepLab：使用深度卷积网络、无纹理卷积和全连接CRF进行语义图像分割。PAMI，2018年。3[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arXiv：1706.05587，2017。二、三、八[5] Liang-ChiehChen ， Yukun Zhu ， George Papandreou ，Florian Schroff，and Hartwig Adam. 用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。3[6] 陈新蕾， RossGirshick ，何开明，和 PiotrDol la'r 。TensorMask：密集对象分割的基础。在ICCV，2019年。3[7] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese.3D-R2 N2：用于单视图和多视图3D对象重建的统一方法。在ECCV，2016年。3[8] Marius Cordts，Mohamed Omran，Sebastian Ramos，TimoRehfeld，MarkusEnzweiler，RodrigoBenenson ， Uwe Franke ， Stefan Roth ， and BerntSchiele. Cityscapes数据集用于语义城市场景理解。在CVPR，2016年。二、三、五、八[9] JifengDai ， Haozhi Qi ， Yuwen Xiong ， Yi Li ，Guodong Zhang，Han Hu，and Yichen Wei. 可变形卷积网络。InICCV，2017.5[10] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pher KI Williams 、 John Winn 和 AndrewZisserman。PASCAL视觉对象类的挑战：回顾。IJCV，2015年。6[11] Rohit Girdhar ， David F Fouhey ， Mikel Rodriguez ，and Ab-hinav Gupta. 学习对象的可预测和生成矢量表示。在ECCV，2016年。3[12] 罗斯·格希克。快速R-CNN。在ICCV，2015年。5[13] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格R-CNN。在ICCV，2019年。3[14] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。LVIS：用于大词汇实例分割的数据集。在ICCV，2019年。五、六、七[15] BharathHariharan，PabloArbe la'ez，RossGirshick，andJi-tendra Malik. 用于对象分割和细粒度定位的超列。CVPR，2015。5[16] 何凯明，罗斯·格希克，彼得·多尔·拉尔。重新思考imagenet预训练。在ICCV，2019年。7[17] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔·拉尔和罗斯·吉尔希克.面罩R-CNN。InICCV，2017.一、二、三、四、五、六[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 用于图像识别的深度残差学习。在CVPR，2016年。二、五、八[19] MaxJaderberg，Karen Simonyan，Andrew Zisserman，Kora

下载后可阅读完整内容，剩余1页未读，立即下载