全景分割：基于双向聚合网络的遮挡处理方案

82 浏览量更新于2023-10-24 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3793BANet：具有遮挡处理的双向聚合网络Yifeng Chen1，Guangchen Lin1，Songyuan Li1，Omar Bourahla1，YimingWu1，Fangfang Wang1，Junyi Feng1，Mingliang Xu2，Xi Li11浙江大学2郑州大学{yifengchen，aaronlin，leizungjyun，xilizju}@ zju.edu.cn摘要全景分割的目标是同时对前景实例进行实例分割和对背景内容进行语义分割。典型的自上而下管道集中于两个关键问题：1）如何有效地对语义分割和实例分割之间的内在交互进行建模，以及2）如何适当地处理用于全景分割的遮挡。语义分割和实例分割之间的互补性可以用来提高性能。此外，我们注意到使用检测/掩模分数不足以解决遮挡问题。受这些观察的启发，我们提出了一种新的基于双向学习管道的深度全景分割方案。此外，我们引入了一个即插即用的遮挡处理算法来处理不同对象实例之间的遮挡。在COCO全景基准上的实验结果验证了该方法的有效性。代码将很快在https://github.com/Mooonside/BANet发布。1. 介绍全景分割[19]是计算机视觉中的一个新兴和挑战性问题，是一个将语义分割（用于背景材料）和实例分割（用于前景实例）统一起来的复合任务。该任务的典型解决方案是自上而下的深度学习方式-首先识别实例，然后将其分配给语义标签[22，23，28，38]。通过这种方式，稳健的解决方案会产生两个关键问题：1）如何有效地对语义分割和实例分割之间的内在交互进行建模，以及2）如何鲁棒地处理图1. 图为BANet。我们引入了一个双向的路径来利用语义和实例分割之间的互补性。为了获得全景分割结果，在遮挡处理算法中利用低级外观信息。原则上，语义切分和实例切分之间存在互补性语义分割集中于捕获丰富的像素级类别信息以用于场景理解。这些信息可以作为有用的上下文线索来丰富例如分割的特征相反，实例分割产生结构信息（例如，形状），这增强了用于语义分割的特征表示的辨别能力。因此，这两项任务之间的相互作用是双向加强和互惠的。然而，以前的作品[22，23，38]通常采用单向学习管道来使用实例分割的得分图来指导语义分割，导致缺乏从语义分割到实例分割的路径。此外，这些实例得分图所包含的信息通常是粗粒度的，通道大小非常有限，导致难以编码更细粒度的结构信息用于语义分割。鉴于上述问题，我们提出了一个双向聚合网络，称为BANet，用于全景分割，以模拟在fea.用于全景分割的遮挡。通讯作者，xilizju@zju.edu.cn真实水平具体而言，BANet具有双向这两个任务之间的特征聚合路径，分别对应两个模块：实例-实例头处理闭塞语义中心骨干3794语义到实例（Semantic-to-Instance，S2 I）。S2I将上下文丰富的特征从语义分割传递到实例分割以进行定位和识别。同时，将具有更多结构信息的实例相关特征反馈到语义分割中，以增强语义特征的区分为了实现实例到语义特征的精确转换，我们设计了基于双线性插值的ROI Inlay算子该算子能够恢复裁剪后的实例特征的结构，使其能够与语义特征聚合以进行语义分割。在语义和实例分割过程之后，我们需要将它们的结果融合到全景格式中。在融合过程中，一个关键问题是推理对象实例之间被遮挡部分的遮挡关系传统的方法[11，19，28，38]严重依赖于检测/掩模分数，这通常与对象实例的实际空间排名关系不一致。例如，领带通常与一个人重叠，但它往往会得到较低的分数（由于类别不平衡）。基于这种动机，我们提出了一种基于重叠部分与低层外观特征空间中每个对象实例之间的亲和力的它比较被遮挡部分和对象实例之间的相似性，并将每个部分指定给外观最接近的对象。概括地说，本工作的贡献如下：• 我们提出了一种基于双向学习管道的深度全景分割方案，即实例到语义（I2S）和语义到实例。e（S2I）以实现实例分割和语义分割之间的特征级交互。• 我们提出了ROIInlay算子来实现从裁剪的边界框到整体场景图像的精确实例到语义特征映射。• 我们提出了一个简单而有效的无学习方法来处理遮挡，它可以插入任何自顶向下的网络。2. 相关工作语义分割语义分割，即为图像中的每个像素分配语义类别的任务，最近随着深度CNN以完全卷积的方式（FCN[32]）的发展取得了很大进展。众所周知，上下文信息有利于分割[8，12，15，17，20，21，33，36]，这些模型通常提供了一种利用它的机制。例如，PSPNet [41]具有全局金字塔池，为FCN提供额外的上下文信息。特征金字塔网络（FPN）[26]将来自不同层的特征作为多尺度信息，并将其堆叠到特征金字塔中。DeepLab系列[5，6]应用了几种具有atrous卷积的架构来捕获多尺度上下文。在我们的工作中，我们专注于利用语义分割的功能，以帮助实例分割，而不是设计一个复杂的上下文机制。实例分割实例分割为图像中的每个对象像素分配类别和实例标识。例如分割的方法分为两大类：自上而下和自下而上。自上而下或基于提议的方法[4，9，10，16，24，30，35]首先生成用于对象检测的边界框，然后执行用于实例分割的密集预测。自下而上或基于分割的方法[1，7，13，25，29，31，34，37，39，40]首先执行逐像素语义分割，然后从分组中提取实例。自上而下的方法在实例分割的排行榜上占据主导地位。我们对管道中的实例分段分支采用这种方式。 Chen等人[2]在实例分割中利用了语义特征。我们的方法与之不同的是，我们设计了一个双向的路径之间的实例分割和语义分割。全景分割将语义分割和实例分割统一起来，因此其方法也可以根据其进行实例分割的策略分为自顶向下和自底向上两类基尔伊洛夫等[19]提出了一种通过启发式融合将Mask-RCNN [16]和PSPNet [41]的输出组合在一起的基线。De Geus等人[11] Kirillovet al.[18]提出了具有用于全景分割的多个头的端到端网络。为了对实例分割和语义分割之间的内部关系进行建模，以前的作品[22，23]利用类不可知的得分图来指导语义分割。为了解决对象之间的遮挡，Liuet al. [28]提出了一个空间排序模型来预测观测结果的排序，熊等提出了一个空间排序模型。[38]提出了一个无参数的模型，使对象得分和语义逻辑之间的显式竞争。我们的方法是从三个方面不同于以往的作品。1)我们利用实例特征代替粗粒度的得分图来提高语义特征的区分能力。2)我们建立了从语义分割到实例分割的路径。3)我们利用低层次的外观来解决遮挡问题。3. 方法我们的BANet包含四个主要组件：骨干网络，语义到实例（S2I）模块，3795SSFPN屏蔽Logits类盒RoIInlay实例头语义中心每个处理的特征实例特征语义特征语义特征实例到语义语义到实例处理闭塞图2. 我们的框架利用语义和实例分割之间的互补性。这通过两个关键模块来显示，即语义到实例（S2I）和实例到语义（I2S）。S2I使用语义特征来增强实例特征。I2S使用所提出的RoIInlay操作恢复的实例特征，以实现更好的语义分割。在执行实例和语义分割之后，应用遮挡处理模块来确定被遮挡像素的归属，并将实例和语义输出合并为最终的全景分割。实例到语义（I2 S）模块和遮挡处理模块，如图2所示，我们采用ResNet-FPN作为骨干。S2I模块旨在使用语义特征来帮助实例分割，如第3.1节所述。I2S模块通过第3.2节所述的实例特征辅助语义分割。在第3.3节中，提出了一个遮挡处理算法来处理实例遮挡。3.1. 实例分割实例分割是定位、分类和预测每个实例的像素级掩模的任务。我们提出了S2I模块，为实例分割带来上下文线索，如图3所示。通过对FPN特征应用规则语义分割头来获得语义特征FS{Pi}i =2. 五、对于每个实例建议，我们裁剪语义特征FS和所选择的FPN特征Pi由RoIAlign [16]。这些特征用Fcrop和Pcrop表示。亲-建议RPNFPN功能语义特征转换和RoIAlign磷作物F作物F我SS2i图3. 我们的S2I模块的架构。对于每个实例，S21裁剪该实例的语义特征和所选择的FPN特征，然后聚合裁剪的特征。因此，它增强了实例分割的语义信息。3.2. 语义分割语义分割为每个像素分配一个类别标签。我们的框架利用实例功能引入结构信息的语义特征。它是通过我们的I2S模块来实现的，该模块使用前面的FinsS i部分。然而，F不能与语义fea融合，我们这里使用的参数是通过输入FPN特征获得的变成一个普通的RPN头之后，F作物和Pi作物的合计如下：F=φ（F作物）+P作物，（1）ins因为它已经被裁剪和调整大小。为了解决这个问题，我们提出了RoIInlay操作，该操作将Fins映射回具有相同spa的特征图FinlayS2ISi其中φ是用于对齐特征空间的1×1卷积层。聚合特征FS21受益于来自Fcrop的上下文信息和来自Plcrop的空间细节。FS2I被馈送到常规实例分割头中，以预测实例的掩码、框和类别。实例头的具体设计如下[16]。对于掩码预测，将三个3×3卷积应用于FS2I以提取实例特征Fins。然后解卷积-tion层对特征进行上采样，并预测28×28的对象掩码。同时，将全连接层应用于FS2I来预测盒子和类别。请注意，Fins稍后将在3.2节中使用。大小为FS。这将恢复每个实例的结构，允许我们有效地在语义分割中使用它。在获得F嵌体后，我们将其与FS一起使用，以执行-形式语义分割如图4所示，这些两个特征被聚合在两个模块中，即结构注入模块（SIM）和对象上下文模块，规则（OCM）。在SIM中，首先将Finlay和FS 然后，它们被连接起来，经过3×3卷积层，以减轻RoIInlay可能造成的失真。通过这样做，我们注入了F的结构信息嵌入到语义特征FS中。OCM采用SIM的输出，并通过场景中对象布局的信息进一步增强它3796ConcatSIMConvConvConvConv嵌体8X84X42X21X1I2sConvPyramidFlatten Conv重复合并OCM图4. I2S模块的架构。SIM使用RoIInlay恢复的实例特征，并将其与语义特征相结合。同时，OCM提取场景中物体的布局信息之后，OCM将其与SIM的输出相结合，用于语义分割。如图 4 所示，我们首先将 Finlay 投影到 E 维空间（E=10）。然后，应用最大池金字塔来获得对象布局的多尺度描述这些描述被扁平化、连接和投影以获得布局的编码。这种编码在水平和垂直方向上重复，并与SIM的输出连接。最后，将连接的特征投影为FI2S。然后使用FI2S来预测语义分割，其稍后将用于获得全景结果。语义特征提取为了提取FS，我们使用一个语义头，其设计如下[38]。三个堆叠的3×3卷积的子网应用于每个FPN特征。之后，对它们进行上采样并级联以形成FS。RoIInlayRoIInlay旨在将由RoIAlign等操作裁剪的特征恢复为其原始结构。特别是，RoIInaly调整裁剪特征的大小，并将其嵌入空特征图中的正确位置，即首次裁剪的位置。作为补丁恢复操作器，RoIInlay与RoIUpsample [23]共享共同的目的，但RoIInlay由于其不同的内部结构而具有图5. RoIUpsample和我们的RoIInlay之间的区别。RoIUpsample和RoIInlay都可以恢复RoIAlign裁剪的特征。然而，RoIUpsample仅对每个像素使用单个引用，而RoIInlay使用四个引用，并且不会受到具有unas- signed值的像素的影响。每个采样点处的值是通过从图5所示的4个最接近的像素进行内插而获得的给定每个采样点的位置和值，RoIInlay旨在恢复区域内的像素值为了实现这一点，它被设计为在采样点的相对坐标具体地，对于位于（a，b）的像素，我们找到其四个最近的采样点{（xi，yi），i∈[1，4]}。（a，b）处的值计算为：Σ4v（a，b）=G（a，xi，bw）G（b，yi，bh）v（xi，yi），（2）i=1其中v（xi，yi）是采样点（xi，yi）的值，（bh，bw）是每个采样仓的大小，G是采样点相对坐标中的双线性插值核：|a− xi|polation样式，如图5所示。RoIUpsample通过修改后的双线性梯度函数获得值，G（a，xi，bw）=1。0−.（三）BW内插RoIInlay应用在采样点的相对坐标中执行的双线性插值（在RoIAlign中使用）。因此，它既可以避免其值不能被恢复和更精确地内插的像素。关于这两种操作符的更多比较可以在补充材料中找到。回想一下，在RoIAlign [16]中，生成m×m个采样点因此，所得到的特征被划分为一组m×m个bin，每个bin的中心具有采样点给定大小为（wr，hr）的区域，每个仓的大小将是bh=hr/m和bw=wr/m，并且在该区域内但在sam计算加载点，就好像它们位于边界处一样。为了处理不同对象可能在同一位置生成值的情况，我们取这些值的平均值以保持比例。3.3. 遮挡处理在实例分割期间，当像素x被多个对象{01，. . .，Ok}。为了得到最终的全景结果，我们必须解决对象之间的重叠关系，以便x只分配给一个RoIAlign图像提案恢复恢复RoIRoIInlay上采样落后内插3797object.我们认为，低层次的外观是一个强大的视觉线索的空间排名的对象相比，se-mantic功能或实例功能。前者主要包含类别信息，这不能解决属于同一类的对象的闭塞，而后者在RoIAlign之后丢失细节，这在小对象（例如，领带）重叠大的（例如，人）。通过利用外观作为参考，我们提出了一种新的遮挡处理算法，分配像素的最相似的对象实例。为了比较像素x和对象实例Oi之间的相似性，我们需要定义一个度量f（x，Oi）。在该算法中，我们采用像素x的RGB和每个像素x的RGB对象实例Oi（由其平均RGB值表示）。在计算x和每个ob之间的相似度之后，object，我们将x赋值为O，其中∗O=argmaxOif（x，Oi）（4）在实践中，我们不是考虑单个像素，而是将它们放在集合中考虑，这将导致更稳定的结果。为了在对象和像素集合之间进行比较，我们对该对象与集合中每个像素的相似性进行平均。通过这种无学习算法，解决了每个像素点的实例分配问题。在此之后，我们根据[19]中的程序将其与语义分割相结合，以获得最终的全景结果。3.4. 训练和推理训练在训练过程中，我们对地面实况检测框进行采样，并仅对采样与语义分割预测相结合[19]，其中实例总是覆盖填充区域。最后，如果填充区域的面积低于某个阈值，则将其移除并标记为4. 实验4.1. 数据集我们在MS COCO [27]上评估了我们的方法，MSCOCO是一个大型数据集，具有实例分割和语义分割的注释。它包含118k训练图像，5k验证图像和20k测试图像。COCO中的全景分割任务包括80个事物类别和53个材料类别。我们在没有额外数据的训练集上训练模型，并在val和test-dev集上报告结果。4.2. 评估指标对于语义分割，报告mIoUSf（在所有类别上平均的交集对并集）。我们不报告在事物类别上的mIoU，因为事物类别的语义分割预测将不用于融合算法中例如分割，我们报告了AP掩码，它是类别和IoU阈值之间的平均值[27]。我们使用PQ [19]（类别平均值）作为全景分割的度量。它捕获识别质量（RQ）和分割质量（SQ）：对象采样率从0.6到1随机选择，其中至少保留一个地面真值框那里PQ=n（p，g）∈TP IoU（p，g）|TP||TP|×|T P |+1 |FP |+1 |FN|、（6）2 2总共有七项损失RPN提案负责人包含两种损失：Lrpncls和Lrpnbox。实例vsegmentatiosoulquality（SQ）}v再认率（RQ）个文件夹Head包含三个损失：Lcls（bbox分类损失）、Lbox（bbox回归损失）和Lmask（mask预测损失）。语义中心包含两个损失：L段（从FS的语义段）和LI2S（从FI2 S的语义段）。总损失函数L为：L=Lrpn cls+Lrpn box+Lcls+Lbox+Lmask其中IoU（p，g）是预测段p和地面实况g之间的交并，TP是指匹配的片段对，FP表示不匹配的预测，FN表示不匹配的地面实况片段。此外，报告了PQTh（事物类别的平均值）和PQSf（事物类别的平均值），以反映实例和语义分段的改进联系我们RPN建议损失+λsLseg+λiLI2S，联系我们语义分割损失联系我们实例分割损失（五）分段4.3. 实现细节我们的模型基于[3]中的实现我们其中λs和λi是控制平衡的损失权重，补间语义分割和其他任务。推理在推理过程中，来自实例头部的预测被发送到遮挡处理模块。它首先执行非最大值抑制（NMS）以去除重复预测。然后利用相似度识别被遮挡物体并解决其冲突.之后，遮挡解析实例预测用stuff head扩展Mask-RCNN，并将其视为我们的基线模型。ResNet-50-FPN和DCN-101-FPN [10]分别被选为val和test-dev的主干我们使用SGD优化算法，动量为0.9，权重衰减为1e-4。对于基于ResNet-50-FPN的模型，我们遵循[14]中的1x训练计划在前500次迭代中，我们采用线性预热策略将学习率从0.002提高到0.02。那么它3798模型子集骨干PQ SQRQPQThSQ ThRQThPQSfSQ SfRQSf[第11话ValResNet-50-FPN26.9 72.435.729.3 72.139.223.3 72.030.4[18]第十八话ValResNet-50-FPN39.0--45.9--28.7--OANet [28]ValResNet-50-FPN39.0 77.147.848.381.458.024.9 70.632.5AUNet [23]ValResNet-50-FPN39.6--49.1--25.2--我们ValResNet-50-FPN41.1 77.25149.180.460.329.1 72.437.1[38]第三十八话ValResNet-50-FPN42.5 78.052.448.5 79.559.633.4 76.341.6我们的†ValResNet-50-FPN43.0 79.052.850.5 81.161.531.8 75.939.4AUNet [23]test-devResNeXt-152-FPN46.581.056.155.9 83.766.332.5 77.040.7[38]第三十八话test-devDCN-101-FPN46.6 80.556.953.2 81.564.636.7 78.945.3我们的†test-devDCN-101-FPN47.380.857.554.9 82.166.335.978.944.3表1. 与COCO val和测试开发集上的最新方法进行比较。†是指可变形卷积。分别在60k次迭代和80k次迭代时除以10。对于基于DCN-101-FPN的模型，我们遵循[14]中的3x训练计划并应用多尺度训练。3x时间表的学习率设置与1x时间表成比例调整。至于数据增强，短边的大小调整为800，而长边保持在1333以下。使用随机裁剪和水平翻转当训练包含I2S的模型时，我们将λs设置为0.2，λi设置为0。3 .第三章。对于没有I2S的模型，λs设置为0.5，因为没有LI2S。对于包含可变形卷积的模型，我们将λs设置为0.1，λi设置为0。二、NMS以与类别无关的方式应用于分数高于0.6的所有候选人，其阈值设置为0.5. 在遮挡处理算法中，我们首先如下定义对于两个对象A和B，当重叠区域大于A或B的20%时，将对（A，B）视为被遮挡对。当重叠率小于20%时，具有较高分数的对象仅覆盖其他人对于所有被遮挡的对，我们将重叠部分分配给具有更接近外观的对象，如第3.3节所述。为了处理涉及两个以上对象的遮挡至于交织的情况下，其中对象重叠我们会把分数较低的矛盾对放在一边。例如，设A→B表示对象 A 与对象 B 重叠。给定图像中的 A→B ，C→A，B→C，它们的配对得分按降序排列，我们将B→C放在一边。如果超过50%的对象被指定给其他对象，我们将其从场景中删除。然后，我们通过对实例进行优先级排序来解决实例和内容之间的冲突最后，我们删除面积小于4096的填充区域，如[19]所述。4.4. 与最新技术水平方法的在表1中，我们将我们的方法与COCOval和test-dev集上的其他最先进的方法[11]进行了比较。当与没有变形卷积的方法相比时，我们的模型在COCO值上的几乎所有指标上都优于它们。尤其是高质量的，结果表明，在SQ和RQ，它是分割和识别之间的平衡。通过在网络中应用可变形卷积，我们的方法在PQ上获得了明显的改善（从41.1%到43.0%），并且在大多数指标上都优于UpsNet。在性能方面，我们在PQTh达到了50.5%，超过了UpsNet 2%。PQTh的改善来自于具有更好的SQTh（+1.6%）和RQTh（+1.9%）。至于对材料的性能，我们的方法不如UpsNet，因为我们简单地解决了实例和分割之间的冲突，有利于实例。在COCO测试开发集上，我们基于DCN-101- FPN的模型实现了 47.3%PQ 的持续高性能（比 UPSNet 高0.7%）。4.5. 消融研究我们使用基于ResNet 50-FPN的模型对COCOval我们通过将模块一个接一个地添加到基线来研究模块的实例到语义为了研究实例到语义（I2S）的效果，我们单独使用SIM以及使用SIM和OCM进行实验。如表2的第二行所示，单独应用SIM导致PQ方面的0.4%增益。我们注意到SQTh和SQSf都得到了超过1%的改善。这表明SIM利用恢复的结构信息来帮助语义分割。将OCM与SIM一起应用导致PQ方面的另外0.5%的改善由于OCM提供的对象RQSf.语义到实例我们将S2I与I2S一起应用，即，SIM和OCM。结果表明，S2I模块通过引入语义分割的补充上下文信息，可以有效地提高RQTh（+0.4%）。实例分割度量AP掩码也提高了0.3%。尽管填充区域上的语义分割（mIoUSf）保持相同，但是由于更好的事物预测，PQSf3799图像基线双向双向+OH地面实况图6. 在COCOval上显示全景分割结果。“双向”是指S2I和I2S的组合。“0H”表示阻塞处理模块。下图显示了我们的模块所带来的改进。可变形卷积为了验证我们的模块与可变形卷积的兼容性，我们用可变形卷积层替换语义头中的普通卷积层。如表2所示，可变形卷积将我们的模型遮挡处理遮挡处理的目的是重新解决对象实例之间的遮挡，并将遮挡像素分配给正确的对象。我们的遮挡处理程序利用了本地外观（RGB）信息，完全免费学习。通过应用所提出的occlu- sion处理算法，我们大大提高了识别的东西，反映了2%的增长w.r.t.PQTh.由于我们的算法提供了更好的对象排列，PQSf也略有改善（+0.1%）。通过比较不同的骨干网，分析了骨干网的作用.我们的模型的性能可以进一步提高到44。通过采用更深的ResNet-101-FPN主干，如表3所示，在没有阻塞处理算法的情况下，基于ResNet-101-FPN的模型高3800SIMOCMS2iDFM哦PQ平方RQPQThSQThRQThPQSfSQSfRQSfAP掩模mIoUSf39.177.348.146.780.456.627.772.535.434.238.6C39.578.048.647.181.257.128.073.135.834.639.5CC40.078.449.147.281.657.029.273.537.134.839.7CCC40.378.149.547.581.557.429.473.237.335.139.7CCCC41.879.650.848.582.158.331.775.939.436.441.1CCCCC43.079.052.850.581.161.531.875.939.536.441.1表2. COCO阀的消融研究。'SIM'、'OCM'是实例到语义中使用的模块。S2 I是Semantic-To-Instance的缩写。DFM代表可变形卷积。OH是指遮挡处理算法。所有没有OH的结果都是通过启发式融合获得的[19]。骨干哦PQPQThPQSfResNet-50-FPN41.848.531.7ResNet-101-FPN42.548.633.4ResNet-50-FPNC43.050.531.8ResNet-101-FPNC44.051.033.4表3.我们的方法与不同的骨干实验结果。GT框GTICAGTOCCGTSegPQPQThPQSf43.050.531.8C44.653.231.8C47.156.632.8CC58.474.833.5CCC59.376.333.5C60.850.576.4表4. COCO val.我们将不同类型的地面实况输入到模型中。GT Box是Ground Truth Box的缩写。GT ICA指的是将地面真值类分配给实例。GT Occ表示地面实况重叠关系。GT Seg表示地面实况语义分割。比ResNet-50-FPN更好。当两者都应用遮挡处理算法时，我们基于ResNet-101-FPN的模型的性能比ResNet-50-FPN高1.0%。这也揭示了我们的遮挡处理算法可以基于不同的主干一致地改善PQTh瓶颈分析为了分析我们的方法的性能瓶颈，我们用基本事实替换部分中间结果，看看它会带来多大的具体来说，我们研究地面实况重叠关系，地面实况框，地面实况实例类分配和地面实况分割作为输入。为了估计遮挡算法的潜力，我们将地面实况重叠输入模型。具体地，预测的框首先与地面实况框匹配。然后，匹配的预测之间的遮挡使用地面真值重叠关系解决。其余未匹配的遮挡预测由我们的遮挡处理算法处理如表4所示，当馈送地面实况重叠时，性能PQTh增加到53.2%。这表明我们的遮挡算法与理想的遮挡算法之间仍然存在很大的差距。通过输入地面真值框，事物和东西的PQ分别增加了6.1%和1%，这表明更好的RPN的最大性能增益。我们进一步将盒子的预测分配给地面真实标签，这将PQTh增加了20%以上。这表明缺乏对事物的识别能力是我们模型的主要瓶颈。同时，我们还测试了喂养地面真值重叠以及地面真值盒和类分配，PQTh得到了2%的进一步这表明，即使输入了地面真值框和标签，也必须小心处理遮挡问题。最后，在给定地面真值分割的情况下，PQSf的性能仅为76.4%。这表明，将事物优先于物质的常见融合过程远非最佳。可视化我们在图6中显示了通过我们的方法通过比较第二列和第三列，我们可以看到使用双向架构带来的巨大改进，具体地说，许多大的错误分类区域被纠正。添加遮挡处理模块（第四列）后，我们注意到实例的几个冲突得到解决。这会显著提高重叠对象的精度。5. 结论在本文中，我们表明，我们提出的双向学习架构全景分割是能够有效地利用实例和语义功能的互补方式。此外，我们使用我们的遮挡处理模块，以证明解决像素的实例分配问题的低层次的外观特征所提出的方法实现了国家的最先进的结果和我们的每个模块的有效性在实验中得到验证。鸣谢本工作得到浙江省教育厅科技创新重点研究项目（LR19F020004）、百度人工智能前沿技术联合研究计划、浙江大学K.P.赵氏高科技发展基金会。3801引用[1] M. Bai和R.乌塔松深度分水岭变换用于实例分割.在CVPR中，第2858-2866页[2] K. 陈，J.Pang，J.Wang，Y.Xiong，X.Li，S.太阳，W。冯先生，Z. 刘，J.施，W。欧阳C.C. Loy和D.是林书用于实例分段的混合在CVPR中，第4969- 4978页[3] K. 陈，J.Wang，J.pang等人Mmdetection：打开mmlab检测工具箱和基准测试。CoRR，abs/1906.07155，2019。[4] L. Chen，中国山核桃A. Hermans，G.帕潘德里欧F.Schroff，P. Wang，and H. Adam. Masklab：通过使用语义和方向特征改进对象检测来进行实例分割。在CVPR中，第4013-4022页[5] L. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。IEEE TPAMI，40（4）：834[6] L. Chen，Y. Zhu，G.帕潘德里欧F. Schroff和H. Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。参见ECCV，第801[7] R. Cipolla，Y.Gal和A.肯德尔使用不确定性来权衡场景几何和语义损失的多任务学习在CVPR中，第7482-7491页[8] J. Dai，K.He和J.太阳用于联合对象和填充物分割的卷积特征掩蔽在CVPR，第3992- 4000页[9] J. Dai，K.He和J.太阳通过多任务网络级联的实例感知语义分割在CVPR，第3150[10] J. Dai，H.Qi，Y.Xiong，Y.Li，G.Zhang，H.Hu和Y.伟.可变形卷积网络。在ICCV，第764- 773页[11] D. de Geus、P.Meletis和G.杜伯曼使用联合语义和实例分割网络的全景分割。CoRR，abs/1809.02110，2018。[12] C.法拉贝特角库普里湖Najman和Y.乐存。学习- ing场景标记的层次特征。IEEE TPAMI，35（8）：1915[13] A. Fathi ， Z. 沃伊纳河谷 Rathod ， P.Wang ， H. 宋，S.Guadar-rama和K.P. 墨菲基于深度度量学习的语义实例分割CoRR，abs/1703.10277，2017。[14] R. 格尔希克岛 Rados avo vic，G. Gkioxari，P. Doll a'r和K. 他外探测器 https://github.com/ facebookresearch/detectron，2018.[15] S.古尔德河Fulton和D.科勒将场景分解为几何和语义一致的区域。载于ICCV，第1-8页[16] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。在ICCV，第2980-2988页[17] X. 赫利河S. Zemel和M.A. 卡雷拉-佩尔皮南用于图像标记的多尺度条件随机场。见CVPR，第2卷，第II-II页[18] A. 基里尔河格希克角He和P. 娃娃。全光特征金字塔网络。在CVPR中，第6392-6401页[19] A. Kirill o v，K. 赫利河吉希克角Rother和P. 娃娃。全景分割。在CVPR中，第9396-9405页[20] P. 科赫利湖 Ladick y'和P. H. S. 托尔。为了保证标签的一致性，我们需要高阶IJCV，82（3）：302[21] L. Ladick y'，C。Russell，P. Kohli和P. H. S. 托尔。用于目标类图像分割的关联层次crfs。载于ICCV，第739-746页[22] J. Li，A. Raventos，A. Bhargava，T. Tagawa和A. 盖顿学会融合各种东西。CoRR，abs/1812.01192，2018。[23] Y. Li，X. Chen，Z.朱湖，加-地Xie，G. Huang，黄氏拟谷盗D. Du，和X。王.用于全景分割的注意力引导统一网络。在CVPR中，第7019-7028页[24] Y. Li，H. Qi，J. Dai，X. Ji和Y.伟.完全卷积的实例感知语义分割。在CVPR中，第4438-4446页[25] X.梁湖，加-地Lin，Y. Wei，X. Shen，J. Yang，and S.燕.用于实例级对象分割的无建议网络。IEEE TPAMI，40（12）：2978[26] T. Lin，P. 多尔河格希克角他，B. Hariharan和S. 贝隆吉用于对象检测的特征金字塔网络。在CVPR中，第936-944页[27] T.林，M。迈尔，S。贝隆吉湖布尔代夫河格希克，J。海斯角Perona ， D. 拉马南角 Zitnick 和 P.多尔拉。Microsoft coco：上下文中的公用对象。参见ECCV，第740-755页。Springer，2014.[28] H. Liu，C.彭角，澳-地Yu，J.Wang，X.Liu，G.Yu和W.蒋用于全景分割的端到端网络在CVPR中，第6165-6174页[29] S. Liu，J. Jia，S. Fidler和R.乌塔松 SGN：用于实例分割的顺序分组网络。在ICCV，第3516-3524页[30] S.柳湖，加-地Qi，H. Qin，J. Shi，and J.贾用于实例分段的路径聚合网络。在CVPR中，第8759- 8768页[31] Y. Liu，S.扬湾，澳-地Li，W. Zhou，J. Xu，H. Li和Y.陆实例分割中的仿射推导和图合并。在ECCV中，第686-703页[32] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在CVPR，第3431[33] M. Mostajabi山口Yadollahpour和G.沙赫纳洛维奇具有缩小功能的前馈语义分割。在CVPR，第3376-3385页[34] A. Newell，Z. Huang和J.邓小平更关联嵌入：用于联合检测和分组的端到端学习。在NIPS，第2277-2287页[35] C.彭氏T.肖，Z. Li，Y. Jiang，X. Zhang，K. Jia，G. Yu和J. Sun. Megdet：大型小型批量物体探测器。在CVPR中，第6181-6189页[36] J. Shotton，J.温恩角Rother和A.天啊Textonboost用于图像理解：通过联合建模纹理、布局和上下文的多类对象识别和分割。IJCV，81（1）：2[37] J. Uhrig，M. Cordts，U. Franke和T.布洛克斯用于实例级语义标记的像素级编码和深度分层。德国模式识别会议，第14-25页。施普林格，2016年。3802[38] Y. 雄河，巴西-地廖氏H.Zhao河，巴西-地Hu，M.Bai，中国山茱萸E.Yumer和R.乌塔松Upsnet：统一的全景分割网络。在CVPR中，第8810-8818页[39] Z. Zhang，S. Fidler和R.乌塔松具有深度密集连接mrfs的自动驾驶实例级分割。在CVPR，第669-677页[40] Z. Zhang，中国古柏A.G. Schwing，S.Fidler和R.乌塔松基于cnn的单目标实例分割和深度排序。在ICCV，第2614-2622页[41] H. Zhao，J. Shi，X. Qi，X. Wang和J.贾金字塔场景解析网络。在CVPR中，第6230-6239页

下载后可阅读完整内容，剩余1页未读，立即下载