多边形变换：实例分割的深多边形Transformer

108 浏览量更新于2023-10-25 收藏 3.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9131多边形变换：用于实例分割的深多边形TransformerJustin Liang1Namdar Homayounfar1，2马伟秋1，3熊玉文1，2胡瑞1拉奎尔1，21优步先进技术集团2多伦多大学3麻省理工学院{justin.liang，namdar，weichiu，yuwen，rui.hu，urtasun}@ uber.com摘要在本文中，我们提出了PolyTransform，一种新的实例分割算法，通过结合当前分割方法和现代基于多边形的方法的优势，产生精确的，几何保持的掩模。特别是，我们首先利用一个分段网络生成实例掩码。然后，我们将遮罩转换为一组多边形，然后将其馈送到变形网络，该变形网络转换多边形，使其更好地适应对象边界。我们在具有挑战性的Cityscapes数据集上的实验表明，我们的PolyTrans-表单显着提高了骨干实例分割网络的性能，并在Cityscapes测试集排行榜上排名第一。我们在交互式注释设置中也显示了令人印象深刻的收益。11. 介绍实例分割方法的目标是识别场景中的所有可数对象，并为每个对象生成掩码。在实例分割的帮助下，我们可以更好地理解场景[68]，设计能够执行复杂操作任务的机器人系统[17]，并改进自动驾驶汽车的感知系统[44]。然而，这项任务极具挑战性。与推断图像中每个像素的类别的传统语义分割任务相比，实例分割还要求系统具有单独对象的额外概念，以便将每个像素与其中之一相关联。处理对象的尺度和外观以及遮挡和运动模糊的广泛变化使得这个问题非常困难。为了解决这些问题，大多数现代实例分割方法采用两阶段过程[21，63，42]，其中首先创建对象提案，然后在每个边界框内执行前景背景分割。在盒子的帮助下，他们可以更好地处理情况（例如，闭塞），而其他方法往往失败1本文的补充资料可以在这里找到。[4]的文件。虽然这些方法已经在多个基准上实现了最先进的性能（例如，COCO [38]，Cityscapes [11]）他们的输出往往过于平滑，无法捕捉细粒度的细节。另一种工作路线解决了交互式注释的问题[5，2，62，39]。这些技术是在循环中具有注释器的上下文中开发的这些工作的目标是通过为注释者提供初始多边形来加快注释工作，因为从头开始注释是一个非常昂贵的过程。在这方面的工作中，方法利用多边形来更好地捕获对象的几何形状[5，2，39]，而不是将问题视为逐像素标记任务。这导致更精确的遮罩和潜在的更快的注释速度，因为注释器能够通过移动顶点来简单地校正多边形。然而，这些方法在存在大的遮挡或当对象被分成多个断开的分量时受到影响。考虑到这些问题，在本文中，我们开发了一种新的模型，我们称之为PolyTransform，并解决了实例分割和交互式注释问题。我们的方法背后的想法是，由常见的分割方法生成的我们通过一个变形网络来进行这种细化，该变形网络预测每个多边形的每个顶点的位移，同时考虑到所有顶点的位置。通过变形每个多边形，我们的模型能够更好地捕捉对象的局部几何形状。与[5，2，39]不同，我们的模型对用于描述每个对象的多边形的这使我们能够自然地处理由于遮挡而将对象分割为部分的情况。我们首先在Cityscapes数据集上证明了我们方法的有效性 [11]。 On the task of instance segmen- tation, ourmodel improves the initialization by 3.0 AP and10.3在验证集上的边界度量中。进口-因此，我们在测试集排行榜上获得了第一名，以3.7AP的优势击败了目前的技术水平我们进一步评估-9132图1.我们的PolyTransform模型概述。在新的自动驾驶数据集上评估我们的模型。我们的模型将初始化提高了2.1个AP和5.6个边界度量。在交互式注释的上下文中，我们在边界度量中比先前的最新技术水平[62]高出2.0%。最后，我们进行了一个实验，其中众包标签注释对象实例，使用从我们的模型输出的多边形。我们表明，这可以加快35%的注释时间！2. 相关工作在本节中，我们简要回顾了有关实例分割和循环中注释的相关文献。基于建议的实例分割：大多数现代实例分割模型采用两阶段管道。首先，识别一组过完备的分段建议，然后利用投票过程来确定保留哪一个[8，14]由于显式特征提取过程[53]耗时[19，20]，Dai等人。[13将特征池集成到神经网络中以提高效率。虽然与以前的方法相比，速度大大提高，但由于这些方法受到传统的基于检测的流水线的限制，因此仍然相对较慢。考虑到这个问题，研究人员已经研究了在网络中直接生成实例掩码，并将其视为建议[51，52]。基于这个想法，Mask R-CNN [21]引入了一种联合方法来进行掩码预测和识别。它建立在Faster R-CNN [54]的基础上，除了现有的边界框识别分支之外，还添加了一个额外的并行头来预测对象Liu等[42]提出了一种路径聚集网络来改善Mask R-CNN中的信息流最近，Chenet al. [6]交错包围盒回归，掩模回归和语义分割在一起，以提高实例分割性能。Xu等[64]通过让网络学习系数来拟合Cheby-shev多项式到实例，这允许实时实例分割。Huang等人. [25]通过预测每个掩码的IoU而不是仅预测分类得分来优化绑定框的评分Kuo等人[34]第三十四话框并使用形状先验对其进行优化。Xiong 等[63]和Kirillovet al. [31]将Mask R-CNN 扩展到全景分割任务。Yang等[65]将Mask R-CNN扩展到视频实例分割任务。无建议实例分割：这条研究线的目的是分割场景中的实例，而无需明确的对象建议。Zhang等人[67，66]首先预测提取的多尺度补丁内的实例标签，然后利用密集的条件随机场[33]来获得完整图像的一致标签虽然取得了令人印象深刻的结果，他们的方法是计算密集型。Bai和Urtasun [4]利用深度网络来预测流域变换的能量，使得每个流域对应于一个对象实例。通过一个简单的切割，他们可以获得整个图像的实例掩码，而无需任何后处理。类似地，[32]利用边界预测来分离相同语义类别中的实例。尽管速度快得多，但在处理边界模糊的远或小对象时，为了解决这个问题，Liuetal. [41]提出了一个顺序分组的方法，采用神经网络逐渐组成对象从简单的元素。它可以鲁棒地处理单个实例被拆分为多个部分的情况。Newell和Deng [49]通过让模型预测每个像素的语义类和标签，将分组概念直接编码到神经网络中。标签是一维的嵌入，它将每个像素彼此关联。Kendall等人[28]提出了一种将像素分配给对象的方法，该对象使每个像素点指向其对象Sofiiuk等人[58] use a point proposal network to generatepoints where the instances can be, this is then processed bya CNN to outputs instance masks for each lo- cation.Neven等人[48]提出了一种新的聚类损失，将属于同一实例的像素的空间嵌入拉在 Gao等人[18]提出了一个单镜头实例分割网络，它输出一个像素对亲和金字塔来计算两个像素是否属于同一个实例，然后将其与预测的语义分割相结合，输出单个实例9133图2. 我们的特征提取网络。分割图交互式注释：交互式注释的任务也可以被视为找到最适合对象边界的多边形或曲线。事实上，变形曲线以拟合对象轮廓的概念可以追溯到80年代，其中首次引入了活动轮廓模型从那时起，ACM的变体[10，47，9]已经被提出来更好地捕捉形状。最近，利用多边形来表示实例的想法在循环分割中的人的上下文中进行了探索[5，2]。Castrej o'n等[5]采用RNN对多边形的顶点进行顺序预测Acuna等人[2]通过结合图形神经网络和增加图像分辨率扩展了[5]。虽然这些方法在公共基准测试中表现出了良好的结果[11]，但它们需要地面实况边界框作为输入。Ling等人[39]和Donget al. [16]利用样条作为替代参数化。他们不是从头开始绘制整个多边形/曲线，而是从一个圆开始并使其变形。Wang等人然而，使用水平集[62]的隐式曲线导致了这个问题，因为输出不是多边形，注释器不能容易地校正它们。在[46]中，Maniniset al.使用极端边界作为输入，而不是边界框和Majumder等人。[45]使用用户点击来生成内容感知引导地图;所有这些都有助于网络学习更强的线索以生成更准确的分段。然而，因为它们是像素级的遮罩，注释者不容易接受它们。Acuna等人[1]开发一种方法，可以用于通过用CNN和水平集公式联合推理对象边界来细化噪声标注。在离线映射领域，Homayounfar等人的几篇论文。和Lianget al.[23，35，24，36]已经解决了通过预测结构化输出（例如，道路边界）来自动注释人行横道、道路边界和车道的问题3. 多边形变换我们的目标是设计一个强大的分割模型，能够产生精确的，几何形状保持掩模为每个单独的对象。为了实现这一目标，我们开发了PolyTransform，这是一种新型的深度架构，它结合了流行的分割方法[21，63]和现代的基于分割的方法[5，2]。通过充分利用在这两种情况下，我们能够在各种具有挑战性的情况下生成高质量的在本节中，我们首先描述特征提取和多边形初始化的主干体系结构。接下来，我们提出了一种新的变形网络，扭曲初始多边形，以更好地捕捉物体的局部几何形状。我们的方法概述如图1所示。3.1. 实例初始化我们的实例初始化模块的目标是为每个单独的对象提供一个良好的多边形初始化。为此，我们首先利用模型为场景中的每个实例生成我们的实验表明，我们的方法可以显着提高各种分割模型的性能。如果分割模型输出建议框，我们使用它们来裁剪图像，否则，我们将边界框拟合到掩码。裁剪后的图像随后被调整为正方形，并输入到特征网络中（在第2节中描述）。3.2)以获得一组可靠的深度特征。实际上，我们将裁剪后的图像调整为（Hc，Wc）=（512，512）。为了初始化多边形，我们使用[60]的边界跟踪算法从预测的掩模中提取我们通过在轮廓中每隔10px距离放置一个顶点来获得初始顶点集。经验上，我们发现这种密集的顶点插值提供了一个很好的性能和内存消耗之间的平衡3.2. 特征提取网络我们的特征提取网络的目标是学习强对象边界特征。这是必不可少的，因为我们希望我们的多边形捕捉高曲率和复杂的形状。因此，我们采用特征金字塔网络（FPN）[37]来学习和利用多尺度特征。该网络将从实例初始化阶段获得的（Hc，Wc）作物作为输入，并输出一组不同金字塔级别的特征。我们的骨干可以在图2中看到。3.3. 变形网络我们已经计算了一个多边形初始化和FPN的深度接下来，我们为所有N个顶点构建一个特征嵌入，并学习一个变形模型，该模型可以有效地预测每个顶点的偏移量，以便多边形更好地捕捉到对象边界。顶点嵌入：我们在从上一节的骨干FPN网络中提取的多尺度特征上构建我们的顶点表示。特别地，我们采用P2、P3、P4、P5和P6特征图，并对每个特征图应用两个横向卷积层，以便将每个特征通道的数量从256减少到64。由于特征图分别为1/4、1/8、1/16、1/32和1/64，9134训练数据AP值AP AP50人骑手车卡车总线火车 mcycle bcycleDWT [4]罚款21岁2−−29岁2−31岁5−−−三十六5三十六4三十六3三十七3−三十七841岁444.619号。4三十五3十五岁5十四岁131岁5二十二岁5二十七岁0二十二岁9十三岁98. 0Kendall等人[28日]罚款21岁639岁019号。221岁4三十六6十八岁8二十六岁8十五岁919号。4十四岁5Arnab等人[3]第一章罚款23岁4四十五221岁0 十八岁431岁7二十二岁831岁131岁019号。611个国家。7SGN [41]细+粗二十五044.921岁8 20块139岁4二十四岁8三十三岁。2三十8十七岁712个。4PolygonRNN++[2]罚款二十五5四十五529岁4 21岁8四十八321岁2三十二323岁7十三岁6十三岁6[21]罚款二十六岁2四十九9三十5 23岁7四十六岁。9二十二岁8三十二2十八岁619号。1十六岁0[29]第二十九话罚款二十七岁350块429岁7 23岁4四十六岁。7二十六岁1三十三岁。3二十四岁820块3 十四岁1GMIS [43]细+粗二十七岁3四十五631岁5 二十五2四十二321岁8三十七228岁9十八岁812个。8Neven等人[48个]罚款二十七岁650块9三十四5二十六岁152岁421岁731岁2十六岁420块1 十八岁9PANet [42]罚款31岁8五十七1三十六8三十4五十四8二十七岁0三十六3二十五5二十二岁620块8[21]fine+COCO三十二0五十八1三十四8二十七岁0四十九1三十1四十9三十9二十四岁1十八岁7AdaptIS [58]罚款三十二552岁531.429.1 50.0 31.6 41.7 39.4二十四岁712.1SSAP [18]罚款三十二751岁8三十五4二十五555. 9 三十三岁。2四十三931岁919号。5十六岁2[29]第二十九话fine+COCO三十二9五十八8三十六6二十四岁850块4三十三岁。741岁0三十三岁。7二十五4十七岁8UPSNet [63]fine+COCO三十三岁。0五十九7三十五9二十七岁451岁931岁8四十三131岁423岁819号。1PANet [42]fine+COCO三十六463岁141岁5 三十三五十八231岁8四十五328岁728岁2二十四岁19135×××K岁。6我们fine+COCO四十1六十五9四十二4三十四8五十八539岁850块041岁3三十9 23岁4表1.Cityscapes val和测试集上的实例分割此表显示了我们在Cityscape测试上的实例分割结果我们在fine和fine+COCO上训练的报表模型。我们报告AP和AP50。罚款 CocoAPAP50车卡车总线火车人骑手 bcycle+r bcycle mcycle+r mcycle[21]第二十一话C-二十六岁6五十三5四十七041岁1四十二810个。7三十二8二十七岁5十八岁610个。2十四岁8 20块2PANet [42]C-二十六岁6五十三5四十六岁。641岁844. 2 二、7三十二8二十七岁4十八岁7 11个国家。3十五岁1二十五8UPSNet [63]C-29岁0五十六0四十七141岁8四十七812个。7三十三岁。5二十七岁3十八岁610个。420块4三十2PANet [42]CC29岁155. 2 四十七4四十三7四十七610个。7三十四4三十120块511个国家。8十七岁3二十七岁4UPSNet [63]CC31岁5五十八4四十六岁。944. 0 四十九821岁6三十四1三十321岁712个。819号。3 三十四5我们CC三十五3六十岁。850块5四十七352岁523岁4四十4 三十七0二十五1 十六岁028岁7三十二6表2. 在我们新的自动驾驶数据集的测试集上进行实例分割：此表显示了我们的实例分割结果，我们的新数据集的测试集。我们报告了在fine和fine+COCO上训练的模型。我们报告AP和AP50。+r是with rider的缩写。原始尺度，我们将它们双线性上采样回原始大小，并将它们连接起来以形成HcWc320特征张量。为了向网络提供每个顶点的概念，我们进一步附加了一个2通道CoordConv层[40]。通道表示相对于裁剪框架的x和y坐标最后，我们利用空间Transformer网络[26]的双线性插值操作，从特征张量中对初始多边形顶点坐标处的特征进行我们表示这样的N×（320+2）嵌入为z。变形网络：当移动多边形中的一个顶点时，两个连接的边也随之移动.这些边的移动取决于相邻顶点的位置。因此，每个顶点都必须知道它的邻居，并需要一种方式来相互通信，以减少不稳定和重叠的行为。在这项工作中，我们利用自参与Transformer网络[61]来建模这种复杂的依赖关系。我们利用注意力机制在顶点之间传播信息并改进预测偏移。更正式地说，给定顶点嵌入z，我们首先使用三个前馈神经网络将其转换为Q（z），K（z），V（z），其中Q，K，V代表查询、键和值。然后，我们通过对点积Q（z）K（z）T取softmax来计算顶点之间的权重。最后，将权重与键V（z）相乘以跨所有顶点传播这些依赖性。这种注意力机制可以写为：Q（z）K（z）TQ（z），K（z），V（z）=softmax（√d）V（z），其中dk是查询和键的维度，用作缩放因子以防止极小的梯度。我们重复相同的操作固定次数，在我们的实验中为6次。在最后一个Transformer层之后，我们将输出馈送到另一个前馈网络，该网络预测N顶点的2个偏移。我们将偏移量添加到多边形初始化中以变换多边形的形状。3.4. 学习我们以端到端的方式训练变形网络和特征提取网络具体来说，我们最小化两个损失的加权和。第一种方法在顶点偏离地面实况时惩罚模型。第二个规则化的多边形的边缘，以防止重叠和不稳定的顶点移动。9136×ǁ − ǁǁ −ǁ−城市景观（精细+COCO）AP AFUPSNet四十三0515四十三八点五十二6四十三552444. 6557基线1基线2我们表3. Cityscapes val实例分段初始化的改进：我们报告初始化的AP，AF和AP，AF中的增益从初始化实例运行我们的Poly-Transform模型Cityscapes val时。Init骨干CocoAP AP增益AFAF增益M-RCNNRes50-28岁8+2。244.2+5。6UPSNetUPSNetRes101Res101WRes38+PANet+DCN-CC31岁7三十四2三十六1+1。6+1。9+1。4四十五7四十五850块1+3。2+3。4+3。4表4. 对我们新的自动驾驶数据集验证的实例分割初始化的改进：我们报告了初始化的AP，AF以及在运行PolyTransform模型时从初始化实例中获得的AP，AF，以验证我们新的自动驾驶数据集。多边形转换损失：我们使用类似于[23]的Cham- fer距离损失来移动我们预测的多边形P的顶点，使其更接近地面真实多边形Q。倒角距离损失定义为：表5. 与Cityscapes值集上的朴素精炼器进行比较。真值多边形当对损失进行加权时，我们发现确保损失值大致平衡会产生最佳结果。对于我们的PolyTransform FPN ，我们使用ResNet50 [22]作为骨干，并在Cityscapes上使用来自UPSNet [63]的相同预训练权重。对于我们的变形网络，我们不使用预先训练的权重。4.1. 实例分割数据集：我们使用Cityscapes [11]，它具有高质量的像素级实例分割注释。在27个城市收集了1024 2048张图像，并将其分为2975、500和1525张图像进行训练/验证/测试。有8个实例类：自行车，公共汽车，人，火车，卡车，摩托车，汽车和骑手。我们还报告了我们收集的新数据集的结果。它由10235/1139/1186张图像组成，用于列车/验证/试验分割，注释有10个类别：汽车，Lc（P，Q）=1|P|Σminpiq2+q∈Q我1|Q|Σminpqj2p∈PJ卡车，公共汽车，火车，人，骑手，自行车与骑手，自行车，带骑手的摩托车和摩托车。每个图像的大小1200 ×1920。其中p和q是多边形P和Q的光栅化边缘像素。为了防止顶点的不稳定移动，我们在顶点之间的边e的长度上添加偏差损失。从经验上讲，我们发现，如果没有这项，顶点可能会突然移动很大的距离，导致很大的损失，并导致梯度下降。起来我们定义了Σǁe−e¯e ǁ2*：对于我们的实例分割结果，我们报告预测掩码的平均精度（AP和AP50）这里，在[11]之后以0.05的步长在范围从0.5到0.95的10个IoU重叠阈值处计算APAP50是重叠50%的AP。我们还引入了一个新的指标，重点是边界。特别地，我们使用类似于[62，50]的度量，其中精度，召回率和F1标准偏差损失为：Ls（P）=表示边缘的平均长度。4. 实验n，其中eée为每个掩模计算得分，其中如果预测在距地面真实的特定距离阈值内，则预测是正确的。我们使用1px的阈值，并且仅计算真阳性的度量。我们用同样的10张借条-我们在两个实例的上下文中评估我们的模型分段和交互式注释设置。实验设置：我们使用分布式训练框架Horovod在8个Titan 1080 Ti GPU上训练模型[56]了1天我们使用批量大小为1，ADAM [30]，1 e-4学习率和1 e-4权重衰减。我们通过随机水平翻转图像来增加 During train- ing, we only train with instanceswhose proposed box has an Intersection over Union (IoU)overlap of over 0.5 with the ground truth (GT) boxes.我们使用建议框和GT框生成的两个实例进行训练，以进一步增加数据。对于我们的实例分割实验，我们在训练过程中将盒子大小增加了3%到+3%。用2%的盒子膨胀进行测试。对于我们的交互式注释实验，我们在每边扩展5 px的盒子上进行训练和测试;我们只计算一个倒角损失，如果预测的顶点是至少2 px从地面重叠阈值范围为0.5至0.95，步长为0.05，以确定真阳性。一旦我们计算了所有类别和阈值的F1分数，我们就对所有示例取平均值以获得 AF。实例编号：我们希望使用一个强实例初始化来表明我们仍然可以改进结果。我们采用公开可用的UPSNet[63]，并用WideResNet38 [55]替换其主干，并添加PANet [42]的所有元素，除了同步批处理规范化（我们使用组规范化）。然后，我们在COCO上进行预训练，并在骨干中使用可变形卷积（DCN）[15]。与SOTA比较：如图1所示，我们在Cityscapes的val和test集上的每个指标上都优于所有基线。我们实现了一个新的最先进的测试结果Init骨干CocoAPAP增益AFAF增益DWTRes101-十八岁7三十三岁。3三十七841岁4四十三0+2。2+3。0+2。4+1。6+1。644.241岁4四十五751岁151岁5+5。8+10。3+7。8+4。9+4。2UPSNetRes50-UPSNetRes50CUPSNetWRes38+PANetCUPSNet WRes38+PANet+DCNC9137−输入图像我们的实例分割GT实例分割图3.我们展示了我们的模型在Cityscapes验证集上的定性实例分割结果40.1AP这在AP和AP50m中分别优于PANet 3.7和2.8个点。它也在官方城市景观排行榜上排名第一。我们在表2中报告了新数据集的结果我们在这个排行榜上取得了最强的AP测试成绩。我们看到，我们在AP中比PANet提高了6.2分，在AP中比 UPSNet提高了3.8分初始化稳健性：我们在Cityscapes的表3中报告了用作初始化的不同实例分割网络的改进，显示了所有模型中valAP的显著和一致的改进。当我们在DWT [4]实例上训练模型时，我们看到+2的改进。2，+5。AP和AF 8分。我们还在原始论文的UPSNet结果以及UPSNet与WRes38+PANet的基础上进行训练，以重现PANet的当前SOTA val AP。我们显示出+1的改进。6，+4。9分在AP和AF。最后，我们将最佳初始化提高了+1。6，+4。AP和AF中有2个AP点正如我们所看到的，我们的边界矩阵在所有型号中看到了非常一致的4%-10%的AF增益。这表明，我们的方法显着impros在边界处的实例。我们注意到AP中的大增益（WRes38+PANet到WRes38+PANet+DCN ）不一定转化为AF 中的大增益，我们的模型将始终提供此度量的显著增加我们还在表4中报告了新数据集在不同实例分割网络我们可以看到我们可以将Mask R-CNN [21]提高+2。2，+5。6分，AP，AF。对于不同的UPSNet模型，我们在1.4-2.2 AP点之间对其进行了改进。再一次，我们的模型显示了一个一致的，对所有初始化的强大改进。我们还看到所有型号的AF都有非常一致的3%-6%的注释效率：我们进行了一个实验，我们要求众包标签人员从我们的新数据集中注释150个图像，其中车辆的实例大于24 x24 px，行人/骑手的实例大于12 x14 px。我们进行了一个对照实验，其中实例从头开始注释（没有我们的方法），以及一个并行实验，其中我们使用我们的模型输出实例，以便他们修复以产生最终的注释。在完全手动的实验中，注释每张图像平均需要60.3分钟。当为注释器提供PolyTransform输出进行注释时，注释每个图像平均需要39.4分钟。从而减少了35%的时间需要注释的图像。这大大节省了费用。9138图4.我们在新的自动驾驶数据集的验证集上展示了我们模型的定性实例分割结果是说自行车总线人火车卡车 mcycle车骑手F1pxF2pxDexTR*[46]79岁。11七十一9287岁4278岁3678岁1184. 88七十二4184. 62 75. 18 五十四0068岁60[62]第六十二话八十8674岁3288岁85八十14八十3586岁。0574岁1086岁。35七十六。74六十岁。2974岁40我们八十9074岁2288岁78八十73七十七。9186岁。4574岁4286岁。82七十七。8562.33七十六。55表6. 交互式注释（Cityscapes Stretch）：此表显示了我们在注释设置中的IoU %性能，其中我们被赋予了地面真值框。DEXTR* 表示没有极值点的DEXTR是说自行车总线人火车卡车 mcycle车骑手F1pxF2pxPolygon-RNN [5]Polygon-RNN++[2]61岁40七十一3852岁1363岁0669岁。5381. 3863岁94七十二41五十三74六十四2868岁0378岁9052岁0762. 01七十一1779岁。08六十岁。5869岁。95−四十六岁。57−62. 26[39]第三十九话七十三。7067岁36八十五43七十三。72六十四40八十22六十四8681. 88 七十一73四十七7263岁64[62]第六十二话七十三。8467岁1583岁38七十三。0769岁。10八十74六十五2981. 08 七十86四十八59六十四45我们78岁76七十二9787岁5378岁58七十二25八十五08七十二50八十五3675.83五十六89七十一60表7. 交互式注释（Cityscapes Hard）：此表显示了我们在注释设置中的IoU %性能，其中我们被赋予了地面真值框。单纯炼器师：我们实现了两个基线，在初始掩码之上应用语义分割网络1）我们用受DeepLabV 3 [7]和PWC-Net [59]启发的细化网络替换PolyTransform它将相同的初始化掩码、裁剪后的RGB图像和裁剪后的特征作为输入，并利用一系列卷积来细化二进制掩码。2)我们向UPSNet添加一个额外的头，并将初始化掩码和裁剪特征作为输入来细化二进制掩码。头部的架构类似于语义头部的架构（即，使用来自UPSNet的FPN的特征）。为了公平起见，两个基线的参数数量与PolyTransform相似。如Tab.所示。5、我们的方法是最好的。时间：我们的模型需要575毫秒来处理Cityscapes上的每个图像。这可以很容易地通过更多的GPU内存来改进因此，FPN的隐藏维度可以调整为GT实例段我们的实例段输入图像9139加快模型。定性结果：我们在图3中展示了我们的模型在验证集上的定性结果。在我们的实例分割输出中，我们看到在许多情况下我们的模型能够处理遮挡。例如，在第3行中，我们看到我们的模型能够捕获紫色和蓝色行人的脚，尽管他们的脚被身体遮挡。我们还在图4中显示了新数据集的定性结果。我们看到，我们的模型能够捕捉精确的边界，使其能够捕捉困难的形状，如汽车后视镜和行人。失效模式：当初始化不好时，我们的模型可能会失败（图5中的左图）。尽管能够处理遮挡，但当遮挡复杂或模糊时，我们的模型仍然会失败，如图5. 这里有一个半透明的栅栏挡住了汽车。9140BBone Coco Miou 百万单位增益F1F1，增益F2F2，增益FCNR50-79岁。93八十94八十65八十41八十93八十90+0 15.+0 11.+0 08.+0 17.+0 09.+0 08.五十九43+1。53七十三。64+1。30FCNFCNR101R101-C六十岁。64五十九21+1。14+1。3974岁78七十三。47+1。06+1。10DeepLabV3R50-五十九70+1。51七十三。81+1。48DeepLabV3DeepLabV3+R101R101-C六十岁。5061岁10+1。18+1。2374岁4475.25+1。33+1。30表8. Cityscapes Stretch分割算法初始化：我们报告了在不同模型上运行PolyTransform模型时的度量改进。我们-移植我们在FCN [57]和DeepLabV3 [7]上训练的模型结果。DeepLabV3+使用来自[46]的类平衡损失。我们报告了具有各种骨干（Res50 vs Res101）的模型，以及在COCO上进行和不进行预训练的模型[38]。4.2. 交互式注释我们的目标是注释一个对象与多边形给定其地面实况边界框。这个想法是，注释器提供了一个地面真值框，我们的模型在它上面工作，输出对象实例的多边形表示。数据集：我们遵循[5]并分割Cityscapes数据集，使得原始val集是测试集，来自训练的两个城市（魏玛和苏黎世）形成val集。[62]进一步将该数据集分为两个设置：1）Cityscapes Hard，其中地面实况边界框被放大以形成正方形，然后裁剪图像。 2 ） CityscapesStretch，将地面实况边界框与图像一起拉伸为正方形，然后进行裁剪。度量：为了评估我们的模型，我们报告每个实例的交集（IoU）和每个类的平均值。然后，[5]这是所有类的平均值。我们还报告了[62，50]中报告的边界度量，该度量计算给定阈值下沿轮廓的F测度使用的阈值是1和2像素，因为Cityscapes包含很多小实例。实例编号：对于我们的最佳模型，我们使用DeepLabV3的变体[7]，我们称之为DeepLabV3+作为实例初始化网络。不同的是，我们使用[46]中使用的类平衡损失来训练DeepLabV3与SOTA比较：表6和表7显示了Cityscapes Stretch和Hard测试集的结果。对于Cityscapes Stretch，我们看到我们的模型在边界指标上明显优于与输出像素掩码的深度水平集[62]方法不同，我们的方法输出一个多边形，它允许注释器通过简单地移动顶点进行修改。对于Cityscapes Hard，我们的模型在平均IOU、1px处的F和2px处的F方面分别优于SOTA 4.9%、8.3%和7.2%。图5. 失效模式：（左）我们的模型失败了，因为初始化很差。（右）模型由于复杂的遮挡而失败。（黄色：黄色;青色：我们的）初始化的耐用性：我们还在表8中报告了对不同分割初始化的改进，结果在测试集上。我们的模型在各种骨干初始化模型上进行了训练（FCN [57]和DeepLabV3[7]，在 COCO [38] 上进行了预训练和未进行预训练）。我们的模型能够一致地显著提高1和2像素的边界度量，最高可达1.5%，并且我们将IOU提高了0.1-0.2%。我们还注意到，尽管DeepLabV3是一个更强大的分割模型，但FCN和DeepLabV3之间的平均IOU差异非常小（最多0.5%）。我们认为，该数据集的平均IOU改善幅度非常小。时间：我们的模型运行平均21毫秒每个对象的立场。这比 Polygon-RNN++[2] 快 14 倍，比最先进的 CurveGCN [39]快1.4倍。5. 结论在本文中，我们提出了PolyTransform，这是一种新型的深度架构，它结合了流行的分割方法和现代的基于神经网络的方法的优点。我们首先利用分割网络为每个单独的对象生成一个掩码。然后将实例掩码转换为一组多边形，并作为我们的初始化。最后，应用变形网络来扭曲多边形以更好地拟合对象边界。我们评估了我们的模型在Cityscapes数据集以及我们收集的新数据集上实验表明，我们的方法是能够产生精确的，几何形状保持实例分割，显着优于形式的骨干模型。与实例分段初始化相比，我们将验证AP和边界指标提高了3.0和10.3分，使我们能够在Cityscapes排行榜上获得第一名我们还表明，我们的模型将注释速度提高了35%。与以前关于注释循环的工作[2]相比，我们的性能优于边界度量 2.0% 。重要的是，我们的PolyTransform可以在各种实例分割网络中进行推广9141引用[1] David Acuna，Amlan Kar，and Sanja Fidler. 魔鬼在边缘：从嘈杂的注释中学习语义边界在CVPR，2019年。[2] David Acuna，Huan Ling，Amlan Kar，and Sanja Fidler.使用polygon-rnn++对分割数据集进行有效的交互式注释。2018年。[3] Anurag Arnab和Philip H. S.乇使用动态实例化网络的逐像素实例分段。在CVPR，2017年。[4] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在CVPR，2017年。[5] LluısCastrejo'n ， Kausta vKundu ， RaquelUrtasun ，andSanjaFidler.使用多边形rnn注释对象实例。在CVPR，2017年。[6] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang ，Chen Change Loy ，andDahua Lin.用于实例分段的混合任务级联。在CVPR，2019年。[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR，2017年。[8] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割在CVPR，2018年。[9] 多米尼克·程，廖仁杰，桑加·菲德勒，拉奎尔·乌尔-塔松。DARNet：用于建筑分段的深层活动射线网络。在CVPR，2019年。[10] 劳伦·D·科恩。活动轮廓模型和引出序号。CVGIP，1991年。[11] Marius Cordts ， Mohamed Omran Sebastian Ramos ，Markus Enzweiler ， Rodrigo Benenson ， Uwe Franke ，Stefan Roth ， Bernt Schiele ， Daimler Ag R ， TuDarmstadt，Mpi Informatics，and Tu Dresden.城市景观数据集。[12] Jifeng Dai ，Kaiming He ，Yi Li ，Shaoqing Ren ，andJian Sun.实例敏感的全卷积网络。在ECCV，2016年。[1

下载后可阅读完整内容，剩余1页未读，立即下载