高精度语义分割的实例掩码投影

187 浏览量更新于2023-10-12 收藏 1.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5178IMP：用于高精度语义分割的实例掩码投影傅承洋亚历山大山Berg Facebook AI摘要在这项工作中，我们提出了一个新的运营商，称为实例掩码投影（IMP），预测实例分割作为一个新的功能，语义分割项目。它还支持反向传播，并且是端到端可训练的。通过添加这个操作符，我们引入了一种新的方式来结合自上而下和自下而上的信息在语义分割。我们的实验表明，IMP的服装解析（具有复杂的分层，大变形，和非凸对象），和街道场景分割（有许多重叠的实例和小对象）的有效性。在VariedClothing Parsing数据集（VCP）上，我们表明实例掩码投影可以将mIOU提高3个点，而不是最先进的Panoptic FPN分割方法。在ModaNet服装解析数据集上，与现有的基线语义分割结果相比，我们显示出20.4%的显着改进。此外，实例掩码投影运算符在其他（非服装）数据集上工作良好，在Cityscapes（自动驾驶数据集）的“事物”类上提供3个点的mIOU改进，1. 介绍本文讨论了产生像素精确的语义分割。这与广泛的应用相关，从自动驾驶，其中预测物体，建筑物，人等的准确本地化（如Cityscapes数据集[ 9 ]所示），对于生产安全的自动驾驶车辆是必要的，到商业，其中某人穿着的服装的准确分割[43]将形成应用的基础构建块。比如视觉搜索或者虚拟试穿。可以设想许多其他潜在的应用，特别是在现实世界的场景中，智能代理使用视觉来感知周围的环境，但在本文中，我们专注于两个领域，街景和时尚服装，作为两个截然不同的设置，以证明我们的方法的通用性。我们建议结合自上而下的信息从去-图1：示例系统流程：实例掩码投影运算符将实例掩码作为输入（Class、Score、BBox、Mask），并将结果投影为语义分割预测的特征图。在此示例中，在实例检测流水线中检测到检测结果，边界框和实例掩码预测，如Mask R-CNN[18]，具有语义分割。我们的方法的核心是一个新的算子，实例掩码投影（IMP），它将每次检测的MaskR-CNN预测的掩码（不确定性）投影到特征图中，用作语义分割的辅助输入，显着提高准确性。此外，在我们的实施方式中，语义分割流水线与检测器共享主干，如在Panoptic FPN [21]中，从而得到快速解决方案。这种方法对于改进对象的语义分割最有帮助，对于这些对象，检测效果很好，可移动的前景对象（事物），而不是像草（东西）这样的区域。使用从检测器输出的实例掩码允许该方法做出关于作为单元的对象的存在/不存在/类别的决定，并且显式地估计和使用检测到的对象的尺度以用于聚集特征（例如：在ROI池中）。相比之下，标准的语义分割必须在每个位置使用空间上下文的固定尺度一遍又一遍地做出关于对象类型的决定将语义分割预测与实例掩码投影相结合，除了提供高分辨率输出外，还提高了凹面形状的准确性。作为验证此方法有效性的一部分，类实例BBox面具项目Conv +4倍以conv罗亚利尼转换遮罩提取语义分割特征concat语义分割结果5179我们证明了几个新的结果：• Mask R-CNN [18]预测的对象掩码有时比某些对象的语义分割更准确。参见第4.1和4.2。• 根据这一见解，我们设计了实例掩码投影（IMP）运算符，以将这些掩码投影为语义分割的特征，参见第二节。第3.1条• 使用IMP的分割结果显着改善了服装分割的语义分割的最新技术水平。在ModaNet上显示最佳结果[43]，将平均IOU从DeepLabV3+的51%提高到71.4%。参见第2节。四点二。• 在三个数据集中，使用IMP的特征显著改善了全景分割基线（不含IMP的相同系统），并产生了最先进的结果。参见第四点三。2. 相关工作我们的工作建立在当前最先进的对象检测和语义分割模型的基础上，这些模型极大地受益于卷积神经网络架构的最新进展。在这一部分中，我们首先回顾了对象定位和语义分割的最新进展。然后，我们描述了我们所提出的模型是如何适应与其他作品，其中集成了对象检测和语义分割。2.1. 本地化事物最初，定位图像中的对象的方法主要集中在预测每个感兴趣对象周围的紧密边界框随着准确性的成熟，对象定位的研究已经扩展到不仅产生矩形边界框，而且还产生实例分割，识别每个对象对应的像素。目标检测：R-CNN [16]一直是推动检测领域最新发展的最基本的研究路线之一，它启动了使用CNN中学习的特征表示进行定位的工作。许多相关的工作在两阶段检测方法中继续这一进展，包括SPP Net [19]，FastR-CNN [15]和Faster R-CNN [34]。此外，已经提出了单次检测器YOLO [33]和SSD [28]以实现实时速度。最近还提出了许多其他方法以提高准确性。R-FCN[11]汇集位置敏感的类映射，使预测更加稳健。FPN[24]和DSSD [14]增加了自顶向下的连接，将语义信息从深层带到浅层。Focal- Loss [25]通过降低预测良好的示例的影响来减少极端的类不平衡。实例分割：与早期的实例分割工作[10，23]相比，Mask R-CNN [18]识别了输入全景FPN掩码R-CNN-IMP Panoptic-FPN-IMP（一）（b）第（1）款（c）第（1）款（d）其他事项5180皮肤毛发帽子领带眼镜t恤衬衫式上衣打底裤鞋靴子裤子外套连身裤项链图2：从左到右，图像，Panoptic- FPN的结果，MaskR-CNN-IMP 的结果，我们最终模型的结果，Panoptic-FPN-IMP。图2b、图2c和图2d显示Mask R-CNN-IMP生成的结果比Panoptic-FPN更清晰。图2a显示了将语义分割特征与IMP相结合可以解决两者的问题。图2b示出了掩码R-CNN-IMP导致较少的假阳性。针对掩模预测的核心问题为ROI池化盒未对准，并提出了一种新的解决方案，使用双线性插值来修复量化误差的ROI对准路径聚合网络[27]在多个层而不是一个层上汇集结果，以进一步改善结果。51812.2. 语义分割全卷积网络（FCN）[36]是许多最近的语义分割模型的基础。FCN使用卷积层直接输出语义分割结果。大多数当前的语义分割方法可以大致分为两种类型，扩张卷积或基于编码器-解码器的方法。我们将在下面描述每一个和图形模型增强。扩张卷积：扩张卷积[39，7]增加了扩张的内核，以更少的卷积学习更大的感受野，在长距离上下文有用的语义分割任务中产生很大的好处。因此，许多最近的方法[8，41，40，3]都包含了扩张卷积。可变形卷积网络[12]将这一想法进一步发展，学习预测采样区域以提高卷积性能，而不是使用固定的几何结构。编码器-解码器架构：SegNet[二]《中国日报》和U-NET [35]提出添加解码器级，以对特征分辨率进行上采样并产生更高分辨率的语义分割。编码器-解码器框架也被广泛应用于计算机视觉的其他定位相关领域，例如面部地标预测[20]、人体关键点检测[30]、实例分割[32]和对象检测[24，14]。图形模型：尽管深度学习方法已经显著改善了语义分割结果，但输出结果通常仍然不够清晰。缓解这些问题的一种常见方法是应用基于CRF的方法以使输出与色差更一致。完全连接的CRF [8，6]和域变换[5]是两种可以以端到端方式使用神经网络进行训练的方法。Soft Segmentation [1]将高层语义信息与底层纹理和颜色特征融合在一起，精心构造了一种图结构，其对应的拉普拉斯矩阵及其特征向量揭示了语义对象及其之间的软段然后可以通过本征分解生成。虽然使用图形模型可以使预测边界与色差对齐，但由于过度平滑，它也会导致小对象此外，这些方法都依赖于良好的语义分割结果。2.3. 部分&由于新发布的数据集，例如COCO-Stuff[4]，在单个网络中集成对象检测/实例分割和语义分割的研究工作有所增加。Panoptic Segmentation [22]提出了一个单一的评估指标来整合实例分割和语义分割。在这些努力之后，Panoptic FPN [21]表明FPN架构可以很容易地将这两个任务集成到一个经过端到端训练的网络中。早期的工作，Blitznet [13]，也证明了这两个任务可以在多任务训练中得到改善。Panoptic FPN的一个相关改进是UPSNet [38]，它使用与语义分割输出堆叠的投影实例掩码来决定在每个位置使用哪种类型的预测（实例掩码或语义分割）。这个决定是使用softmax（无- out学习）。相比之下，我们的方法使用投影实例掩码作为特征来改进语义分割，这是一种正交改进。虽然我们使用Mask R-CNN [18]/Panoptic FPN [21]架构来产生实例分割和语义分割预测，但我们的实例掩码投影运算符是通用的，并且可以替代地使用其他实例和语义分割架构作为基线模型，从而可以轻松地将未来的开发纳入任何一项任务，以提供更好的组合结果。3. 模型我们的目标是开发一个联合实例/语义分割框架，可以直接集成实例分割的预测，以产生更准确的语义分割标记。我们的模型能够利用Mask R-CNN [18]等实例分割算法的最新进展以及语义分割模型[21]的进步。在本节中，我们首先解释所提出的实例掩码投影（IMP）运算符（第3.1节）。接下来，我们将描述如何使用它来增强和改进各种基础模型（第3.2节）。3.1. 实例遮罩投影实例掩码投影操作符将分割掩码从实例掩码预测（在检测边界框上定义）投影到在整个图像上定义的画布该画布然后被用作语义分割1的输入特征层。每个预测的实例掩码具有Class、Score、BBox位置和h×wMask2。首先，Mask中每个像素的分数然后，对画布层中Class的位置进行采样，缩放的面具。请注意，仅当缩放的遮罩值大于当前画布值时，才会更新画布。这在图1中示出，其中MaskR-CNN检测到“连衣裙”，然后将其投影到画布上检测到的BBox位置。投影层显示预测裙子轮廓的低分辨率实例掩码，而语义分割的下一步骤使用一些FPN特征层以及画布作为特征以产生更准确的解析。1画布的分辨率可以根据附加的要素图层进行选择2MaskR-CNN5182(a) 掩码R-CNN-IMP算法1：CUDA推进Imp输入：（C，P，M，B）：掩码R-CNN结果，C类：[N]，概率P：[N]，掩模M：[N，28，28]，以及BBoxB：[N]，其中N是检测输出：（F）：由F：[D，H，W]表示的投影特征图，其中D是类，H，W是特征图的高度和宽度函数IMP（C，P，M，B）：forcellci∈Mask：[N，28，28] do in paralleln，maskh，maskw←DecodeIndexes（c）;我我我v=M[n，maskh，maskw]P[n];我我(b) Panoptic-P2xmin，ymin，xmax，ymax←ProjectRegion（B[ni]，maskhi，maskwi）;foreachpixelpj∈F[C[ni]，ymin：ymax，xmin：xmax]dopj←atomicMax（pj，vi）;returnF;(c) Panoptic-P2-IMPBBox，Class，Score实例掩码…1x N x28x281x128x（1/4）总和1x128x（1/4）1x128x（1/4）1x128x（1/4）语义分割模块语义分割结果4x conv3 +1x conv1 +4x up语义细分负责人FPN+掩码R-CNN实例检测P5：1x256x（1/32）P4：1x256x（1/16）P3：1x256x（1/8）P2：(d) 全景-FPN图3：我们在实验中使用的模型的变体(a)Mask R-CNN-IMP使用IMP直接生成语义分割预测。(b)Panoptic-P2使用FPN中的P2层来生成语义分割。(c)Panoptic- P2-IMP演示了如何在Panoptic-P2上应用IMP。(d)全景-FPN组合特征层{P2，P3，P4，P5}以用于语义分割。Panoptic-FPN-IMP的图示见图4IMP运算符可以使用自定义CUDA内核有效地实现，参见算法1。输入参数是实例分割结果，类别C：[N]，概率P：[N]，掩码M：[N，28，28]，以及BBox可以使用 BBox 位置 B[n ， i] 及其在 Mask 中的索引maskh，i，maskw，i来计算。在投影区域F[C[ni]，ymin：ymax，xmin：xmax]中，我们使用atomicMax操作来更新每个像素的值。每个单元格在CUDA内核中同时运行，并且atomicMax操作保证当多个单元格投影到同一像素时仅保留最大值。我们将IMP画布与特征层（P2或P2-5）连接起来，让网络将其用作对象位置的强先验，允许模型的语义分割部分专注于在学习期间改进实例预测。3.2. 将IMP添加到基础模型掩码R-CNN-IMP图3a示出了Mask R-CNN-IMP，其使用Mask R-CNN作为基础模型并添加IMP以将实例掩码投影到画布，用作近似语义分割。这不涉及用于投影之后的语义分割的任何学习或附加处理，并且对于一些对象已经表现良好。Panoptic-P2、Panoptic-P2-IMP、Semantic-P2接下来，我们考虑Panoptic FPN的轻量级版本[21]作为基础模型。Panoptic FPN扩展了Mask R-CNNB：[N]，其中N是掩码的数量。为每个在MaskM中的单元ci，它首先使用DecodeIndexes函数识别其在Mask中的索引，然后通过将其值与概率P[ni]相乘来获得投影值vi。投影区域xmin，ymin，xmax，ymax网络架构来预测实例分割和语义分割。添加的语义分割头从Mask R-CNN中使用的特征金字塔网络（FPN）[24]的多个层中获取输入。我们用一个轻量级的版本进行了一些实验，4倍以上concat语义分割结果1xCx（1/4）实例掩码项目实例掩码…1x N x28x28实例遮罩投影BBox，Class，ScoreFPN+掩码R-CNN实例检测P5：1x256x（1/32）P4：1x256x（1/16）P3：1x256x（1/8）P2：BBox，Class，Score实例掩码…1x N x28x28语义分割结果1x256x（1/4）语义分割模块4x conv3 +1x conv1 +4x up语义细分负责人FPN+掩码R-CNN实例检测P5：1x256x（1/32）P4：1x256x（1/16）P3：1x256x（1/8）P2：concat语义分割结果语义分割模块concat1x256x（1/4）4x conv3 +1x conv1 +4x up1xCx（1/4）实例掩码项目BBox，Class，Score实例掩码…1x N x28x28语义细分负责人实例遮罩投影FPN+掩码R-CNN实例检测P5：1x256x（1/32）P4：1x256x（1/16）P3：1x256x（1/8）P2：51831x128x（1/4）总和1x128x（1/4）1x128x（1/4）concat1x128x（1/4）语义分割结果1x128x（1/4）语义分割模块4xconv3+1xconv1+4x up语义细分负责人1xCx（1/4）实例遮罩投影实例遮罩项目BBox，Class，Score实例掩码…1x N x28x28P5：1x256x（1/32）P4：1x256x（1/16）P3：1x256x（1/8）P2：FPN+掩码R-CNN实例检测图4：架构：Panoptic-FPN-IMP：我们的完整模型包含四个部分。第一部分是FPN + Mask R-CNN，用于检测和预测对象的实例掩码实例遮罩投影模块投影实例遮罩以生成新的要素图层（1xCx 1/4）。对于语义分割模块，我们采用Panoptic FPN [21]，其上采样并将{P2，P3，P4，P5}变换为1x 128 x1/4并将其求和。然后，我们将实例掩码投影和语义分割模块的结果其他型号见图3调用Panoptic-P2，其仅从FPN的P2层获取特征以供语义预测头使用（并且不使用GroupNorm），如图3b所示。当我们还从Panoptic-P2中移除RPN和边界框预测头时，只留下连接到 P2 的语义头，我们称网络为Semantic-P2。我们尝试将实例遮罩投影添加到Panoptic-P2，并将其称为Panoptic-P2-IMP（如图3c所示）。Panoptic-FPN、Panoptic-FPN-IMP、Semantic-FPN接下来，我们尝试将IMP添加到完整的Panop中-tic FPN [21]，称之为Panoptic-FPN-IMP，如图4所示。我们还用两个消融版本进行了实验，即单独的Panoptic-FPN（参见图3d）和从Panoptic-FPN中删除RPN和边界框头部的Semantic- FPN。图 4 示出了 Panoptic-FPN-IMP ，其使用 conv 3x 3（ 128 ） + GroupNorm [37] + ReLU + 双线性上采样（2x）。对于P3（比例/8），P4（比例/16），P5（比例/32）层，我们首先将每个层上采样到（1/4）比例。对于P2层，我们应用conv3x3将维度从256减少到128。然后，我们将这4层相加为（128×H/4×W/4），并与实例掩码投影层连接以形成特征层（（ 128+C ）×H/4×W/4 ）。最后，我们应用 4 个 conv3x3 和 1 个conv1x1层来生成语义分割预测。与FPN-P2网络相比，所有conv 3x 3都使用GroupNorm。3.3. 培训我们采用两阶段训练解决方案，首先训练Mask R-CNN检测/实例分割模型，然后将其用作训练完整模型的初始预测预训练是出于减少训练时间的实际原因而被纳入的（如果没有预训练，IMP将在训练迭代中显著变化，从而使收敛变慢）。在第一阶段，我们遵循Mask R-CNN训练设置，但通过遵循线性缩放规则[17]调整4台GPU机器（Nvidia 1080Ti）的参数为了实现，我们使用PyTorch v1.0.0 [31]并将我们的代码基于Maskrcnn基准库[29]。4. 实验我们评估我们提出的模型在两个不同的任务：服装解析和街景分割。4.1. 各种服装数据集Varied Clothing Dataset评估服装解析-目标是分配服装类别标签（例如，衬衫、裙子、毛衣、外套等）到包含衣服图片中的每个像素。这是一个非常棘手的分割问题，由于服装变形和严重的闭塞，由于分层。该数据集描述了25个服装类别，加上皮肤，头发和背景标签，具有像素精确的多边形分割，在6k图像上手工标记。该数据集涵盖了广泛的描述，包括：人物的真实世界照片、平铺图像（布置在平面上的服装项目）、时装秀照片和电影剧照。特别注意从世界各地的服装照片中取样，包括各种各样的身体形状，各种各样的姿势，以及完整或部分身体可见。由于该数据集最初是为了服装解析而收集的，因此单个服装可以被分成多个片段（例如，穿在带纽扣的运动夹克下的衬衫可以表现为在颈部的一段，加上在每个手腕处的2个衬衫袖口段）。为了将语义分段转换为实例注释，每个分段（连接的组件）被视为具有相应边界框的实例。这个定义与COCO [26]或5184P2，并且与Panoptic-FPN相当，而不需要专用的语义分割分支。Panoptic-FPN-IMPMask R-CNN-IMP5040全景FPN6050表1：以ResNet-50为骨干网络的各种服装数据集的消融研究。我们用不同的设置训练模型，Panoptic-P2 vsPanoptic-FPN，w/wo 实例掩码投影（IMP），w/woBBox/Mask 预测头。对于 BBox 和 Mask ，我们使用COCO评估指标。对于语义分割度量，3010 20 50 100200400(a) mIOU与距离4010 20 50 100200400(b) m精度与距离我们使用平均IOU和平均精度。Cityscapes [9]并产生更多的小实例。然而，我们通过实验观察到这种方法比将服装的所有片段组合到单个实例/BBox中更有好处，因为它在我们的实验中，训练集和验证集分别包含5493和500幅图像，所有图像都是1280×720像素或更高。对于第一阶段的训练，我们使用ImageNet Classification预训练模型，预测层权重根据正常的区分进行初始化。分布（平均值=0，标准差=0.01）。我们将批量大小设置为8，学习率设置为0.01，并训练70，000次迭代，在40，000和60，000次迭代时将学习率降低0.1我们还使用此设置来训练第二阶段（包括语义分割分支）。对于输入图像，我们将短边调整为800像素，将长边限制为1333像素。消融研究：不同设置的有效性：表1显示了以ResNet-50作为骨干网络的不同设置下我们模型的性能。首先，我们报告了基线实例（第1行）和语义分割模型（第2-3行）的性能。接下来，我们展示了整合实例和语义分割的 Panoptic 模型的结果（ Panoptic-P2 和Panoptic-FPN，第4和第5行）。添加我们提出的IMP操作符显着提高语义分割性能时，纳入这些基本模型（行6和7），提高Panoptic-P2的绝对性能9.45 mIOU和1.42 mAcc ，并提高 Panoptic-FPN 2.02 mIOU 和 4.44mAcc。作为参考，我们还尝试将IMP添加到基础MaskR-CNN模型（第1行）中，并且实现了比Semantic-FPN和Panoptic更好的语义分割性能图5：不同像素的掩模精度分析设置到地面实况对象边界的距离。在该图中，我们使用Panoptic FPN作为骨干网络，并显示了4个模型，Semantic-FPN ， Mask R-CNN-IMP ， Panoptic-FPN 和Panoptic-FPN-IMP，以显示mIOU和mAccuracy相对于像素（X轴）的L2边界距离。消融研究：边界附近的准确度：我们考虑的另一个问题是这种方法在多大程度上有助于细化对象边界，因为产生准确的对象轮廓对于视觉搜索或虚拟服装试穿等应用可能是必要的。在图5中，我们分析了距离边界10-400 L2距离内的像素的mIOU/mAccuracy。通常，我们观察到，对于接近边界的像素，语义和实例/语义方法都比Mask-R-CNN-IMP执行得好得多，并且这距离越大，间隙越小这是因为Mask R-CNN生成28×28个实例掩码。因此，一旦我们将实例分割结果投影到画布上，边界将不会很清晰，但对象中心附近的像素将被正确标记。我们也普遍观察到IMP操作符在边界附近的像素上的较大改进，对于中心像素的好处下降。定性结果：在图2中，我们展示了一些定性示例。在某些情况下，2b，2d，Mask R-CNN-IMP已经产生了比Panoptic-FPN架构更好的语义分割。我们也经常观察到，当对象很小（领带、手表）或很普通且覆盖很大区域时，IMP增强方法通常执行得更好。在图2a中，通过结合语义分割特征和IMP，我们的模型修复了对象不同区域上发生的类别尽管Varied Clothing数据集中的大多数训练图像每张图像只包含一个人，但我们发现我们的模型可以很好地推广到包含多个人的复杂示例Mioum精度模型BBox掩模语义MiouMACC1掩码R-CNN-IMP29.926.743.9156.93纯语义分割2语义-P2NANA37.0048.573语义FPNNANA42.6655.19+多任务训练4Panoptic-P229.826.437.1448.825Panoptic-P2-IMP30.626.846.5959.24+添加IMP6 Panoptic-FPN29.626.745.0157.087 Panoptic-FPN-IMP30.426.847.0361.525185模型是说袋带靴子鞋外裙子太阳眼镜裤子顶部短裤裙子头饰围巾领带[36]第三十六话3527123233362825513840283317[36]第三十六话3726193238352537513840234116FCN-8 [36]3824213240352841513840244418[36]第三十六话3826203140352936503938264416CRFasRNN [42]4130184139433236564044264522DeepLabV3+[8]5142284051565246685553415531我们的：R50 Panoptic-P2-IMP69.774.857.459.759.469.264.268.577.267.771.962.775.397.5R50 Panoptic-FPN-IMP71.177.158.157.959.172.268.268.480.468.772.567.976.297.9R101 Panoptic-FPN-IMP71.477.959.058.859.472.068.368.679.369.174.167.876.497.9表2：与ModaNet提供的基线模型的比较我们的模型显示平均IOU的绝对改善为20.4%对于某些类别，特别是那些尺寸相当小的，如腰带，太阳镜，头饰和围巾领带，我们的模型显示出显着的改善。为了简单起见，我们使用R50和R101来表示ResNet 0 -50和ResNet-101。（图2c）。4.2. ModaNetModaNet [43]是一个大型服装解析数据集，包含BBox注释、实例级掩码和语义分割。它包含55k张图像（52，377张图像在训练中，2，799张图像在验证中），这些图像来自Chictopia网站的现有时尚图像数据集。ModaNet数据与Varied Clothing Dataset数据相比分辨率相对较低（640x480或更小）13个服装类别以相对较高的保真度（但像素精度低于Varied ClothingDataset）进行标记（没有皮肤，头发或背景）我们使用与Varied Clothing数据集类似的两阶段ImageNet分类预训练方法，训练90k次迭代，在60k和80k次迭代时降低学习率在这里，我们调整输入图像的大小，将其短边限制为600，长边限制为1000。在训练过程中，我们使用多尺度训练，通过将短边随机改变为{400，500，600，700，800}。模型BBox掩模语义（百万国际单位）语义-P2NANA64.60Panoptic-P257.255.565.93掩码R-CNN-IMP57.255.566.23Panoptic-P2-IMP58.055.969.65Panoptic-FPN-IMP57.855.671.41表3：使用ResNet-50作为骨干模型的ModaNet上的结果。与 Semantic-P2 和 Panoptic-P2 相比， Panoptic-P2-IMP和Mask R-CNN-IMP都提供了语义分割的改进表3示出了证明本发明的实施例的实验结果。添加IMP操作符。我们评估了基线模型Semantic-P2和Panoptic-P2，分别为64.60%和65.93% mIOU。与这些模型相比，我们看到Mask R-CNN-IMP可以在语义分割上产生更好的结果在一个实施例中，可以使用没有专用语义分段头的分段这也与我们之前在Varied Clothing数据集上的实验相匹配。将IMP添加到Panoptic-P2，Panoptic-P2-IMP实现了 69.65% 的语义性能，比 Panoptic-P2 性能好3.72%mIOU ，并且 Panoptic-FPN-IMP 甚至进一步将mIOU提高到71.41%。在表2中，我们还使用ResNet-101训练了我们的最终模型Panoptic- FPN-IMP，并与ModaNet [43]提供的基线结果进行了比较。首先，与ModaNet提供的最佳语义分割算法DeepLabV3+相比，我们的模型实现了20.4%的绝对mIOU改进。此外，我们实现了更一致的结果，得分超过50% IOU为每个类。与基线结果相比，我们的模型在小物体上表现非常好，例如。腰带、太阳镜、头饰、围巾领带（围巾领带的mIOU达到97.9%我们对这些改进有一些猜测。相比，语义分割的方法，倾向于基于固定规模的局部区域的预测，对象检测需要从一个动态选择的区域周围的对象的上下文我们还观察到混淆类的改进，例如。连衣裙的底部在视觉上类似于裙子。纯语义分割方法可能无法区分模糊情况以及利用由对象检测确定的上下文的方法。4.3. 城市景观我们还在Cityscapes [ 9 ]上进行了实验，这是一个以自我为中心的自动驾驶汽车数据集。所有图像都是高分辨率（1024×2048），具有19个语义分割类，以及8个事物类型类别的实例级掩码。该集合包含两个集合，精细注释和粗略注释。注释集我们的实验集中在精细注释上，包含2975/500/1525个训练/验证/测试图像。对于Cityscapes，我们使用COCO模型作为预训练模型，将预测层中的权重重新用于所有类，除了然后，在-5186类型东西类物类模型路侧边走建造-ing壁围栏极交通光交通签署植物，植物tion地形天空人骑手车卡车总线火车马达-周期自行车没有所有的数据增强58.859.267.366.674.674.991.691.559.359.793.893.881.281.960.364.793.693.861.463.980.481.663.274.057.063.576.176.7Imp97.797.681.781.591.291.241.239.651.752.0所有的数据增强97.782.591.745.0五十六点四IMP 97.983.691.438.3五十五点九61.462.069.669.977.177.591.791.960.159.894.394.582.483.564.069.194.795.174.583.984.591.477.683.162.967.277.978.7表4：Cityscapes上有和没有IMP的每类IOU的比较我们展示了两种情况，没有（顶部）和（底部）数据增强。我们看到实例遮罩投影（IMP）改进了这两种情况。对于Thing类，我们看到4.2/3.2 mIOU的改进，有/没有所有数据增强。put的大小被随机调整为1024×2048或800×1600。我们遵循Panoptic FPN [21]添加三个数据增强器-tations ： multi-scaling ， color distortion ， andhardboostrap- ping.对于多尺度，输入图像的短边随机调整为 {512 ， 724 ， 1024 ， 1448 ， 2048} ，并裁剪为512×1024。颜色失真随机地增加/减少亮度、对比度和饱和度40%，并且使色调移位{-0.4，0.4}。硬自举为损失函数选择前10%、25%、50%的像素与Varied Clothing Dataset和ModaNet相比，我们跳过了第一阶段的训练，因为COCO的预训练模型我们将批量大小设置为16，学习率设置为0.005，并训练130，000次迭代，在80，000和110，000次迭代时将学习率降低 0.1 。对于 Cityscapes ，我们将重点评估 FPN-Panoptic网络。参数选择的详细消融研究见附录中的表1。与Varied Clothing Dataset和ModaNet相比，我们观察到IMP的整体改善不太明显。原因之一是，19个类中只有8个是我们期望我们的方法最有帮助的“东西”。在表4中，我们为每个Cityscapes类显示了两个比较集（有和没有数据增强）。对于Stuff类，除了“Wall”（-1.6/-6.7）之外，差异很小。对于Thing类，某些类得到了戏剧性的改进，特别是那些具有较少训练实例或较小的类，即。骑手，卡车，公共汽车，火车，摩托车。事实上，在所有Thing类中，我们观察到mIOU增加了4.2/3.2，分别有和没有数据增强。除了 ResNet-50 之外，我们还使用 ResNet-101 和ResNeXt- 101-FPN 训练了我们的最终模型 Panoptic-FPN-IMP，以与Cityscapesval set上的最先进方法进行比较（表 5 ）。我们的方法仍然优于Panoptic FPN[21]，尽管当使用更复杂的模型时，改进会减少。总的来说，我们观察到我们的简单模型可以实现类似的性能，这些模型使用大量的工程方法。方法骨干MiouPSANet101 [41]ResNet-101-D877.9马皮里[3]WideResNet-38-D879.4DeeplabV3+[8]X-71-D1679.6[21]第二十一话ResNet-101-FPN77.7ResNeXt-10179.1我们的产品：Panoptic-FPN-IMPResNet-50-FPN77.5ResNet-101-FPN78.3ResNeXt-10179.4表5：Cityscapes值集的比较。我们的模型在相同的骨干架构上比Panoptic- FPN [214.4. 推理速度分析由于实例类的数量和输入分辨率不同，模型的速度性能可能会有所不同。在实验中，我们发现结果是相当一致的，非常有效的，添加IMP仅花费在每个基线模型上的推理时间为101 -2 ms。的推理时间实验中使用的模型可在附录中的表6中找到。5. 结论在这项工作中，我们提出了一个新的运营商，实例掩码投影，项目的结果，实例segmenta-灰作为语义分割的特征表示。它很容易结合自上而下和自下而上的信息进行语义分割。这个运算符简单但功能强大. 将IMP添加到Panoptic-P2/Panotpic-FPN的实验显示出一致的改进，推理时间的增加可以忽略不计虽然我们只将其应用于Panoptic- P2/Panoptic-FPN，但该运算符通常也可以应用于其他架构。6. 确认感谢Sarene Fu拍摄的T台时装照片，以及JonathanShih和Adam Aji的许多深思熟虑的讨论，在Imm Thai的午餐，以及在Shopagon的有趣时光！5187引用[1] YagızAksoy，Tae-HyunOh ，Syl vainParis ，MarcPollefeyys，and Wojciech Matusik.语义软分割ACM事务处理图表（Proc. SIGGRAPH），2018. 3[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegNet ： ADeepConvolutionalEncoder-DecoderArchitec- ture for Image Segmentation. PAMI，2017年。3[3] SamuelRotaBu lo` ，Loren z oPorzi，andPeterKontakede r.就地激活的BatchNorm用于DNN的内存优化训练。在CVPR，2018年。三、八[4] Holger Caesar Jasper Uijlings和Vittorio FerrariCOCO-材料：上下文中的事物和东西类。在CVPR，2018年。3[5] 放大图片作者： JonathanT.Barron ， GeorgePapandreou，Kevin Murphy，and Alan L.尤尔。语义图像分割与特定任务的边缘检测使用CNN和一个有区别的训练域变换。在CVPR，2016年。3[6] Liang-Chieh* Chen ， George* Papandreou ， IasonasKokki- nos，Kevin

下载后可阅读完整内容，剩余1页未读，立即下载