亲和度金字塔：一种基于像素对亲和金字塔的单镜头无命题实例分割方法

155 浏览量更新于2023-10-12 收藏 1.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

642SSAP：使用Affinity Pyramid的高乃宇1，2，单彦虎3，王玉培1，2，赵欣1，2，余亦男3，杨明3，黄凯琪1，2，41中国科学院自动化研究所CRISE2中国科学院大学3地平线机器人公司4中科院脑科学与智能技术{gaonaiyu2017，wangyupei2014}@ ia.ac.cn，{xzhao，kaiqi.huang}@ nlpr.ia.ac.cn{yanhu.shan，yinan.yu}@ horizon.ai，m-yang4@u.northwestern.edu摘要近年来，无命题实例分割由于其简洁高效的流水线而受到越来越多的关注。通常，无建议方法生成实例不可知的语义分割标签和实例感知特征，以将像素分组到不同的对象实例中。然而，以前的方法大多采用单独的模块来完成这两个子任务，并且需要多个图像亲和力金字塔实例分段通过推理。我们认为，单独处理这两个子任务是次优的。事实上，采用多个单独的模块大大降低了应用的潜力这两个互补子任务之间的相互利益为此，本文提出了一种单镜头无命题实例分割方法，该方法只需要一次预测。我们的方法是基于一个像素对亲和金字塔，它计算的概率，两个像素属于同一个实例中的分层方式。亲和度金字塔也可以与语义类标注联合学习，实现互惠互利。此外，结合学习的亲和金字塔，提出了一种新的级联图划分模块，用于顺序地从从粗到细。与以往耗时的图分割方法相比，该模块实现了5倍的加速比，平均精度（AP）相对提高了9%。我们的方法在具有挑战性的Cityscapes数据集上达到了新的艺术水平。1. 介绍卷积网络的快速发展[30，29]彻底改变了各种视觉任务，使我们能够对图像进行更细粒度的理解。而不是经典的边界框级别的对象检测[19，18，46，39，44，15]或类级别的语义分割，*通讯作者图1.所提出方法的概述每像素的语义用全卷积网络的单次通过来生成tic类和像素对亲和度。最后的实例分割结果，然后从这些预测所提出的cas-caded图分割模块。[41，6，49]，实例分割通过分割所有对象并区分不同的对象实例来提供深入的理解。因此，近年来研究人员对实例分割的兴趣越来越大目前最先进的解决方案，这个具有挑战性的问题可以分为基于提议和无提议的方法[34，28，40]。基于提议的方法将其视为经典目标检测任务的扩展[46，39，44，15]。在用边界框定位每个对象之后，在每个边界框提议内预测前景掩模。然而，这些基于提议的方法的性能受到边界框预测的质量的高度限制，并且两阶段流水线也限制了系统的速度。相比之下，无提案方法具有设计简单、效率高的优点。这项工作也集中在无提案范式。无命题方法主要从产生实例不可知的像素级语义类标签开始[41，6，8，49]，然后将它们聚类到具有特别设计的实例感知功能的不同对象实例中。然而，以前的方法主要将这两个子过程视为两个独立的阶段，并采用多个模型，语义段ConvNet…级联图划分……643这是次优的。事实上，这两个子任务之间的相互利益可以被利用，这将进一步提高实例分割的性能。此外，采用多个模块可能会导致实际应用的额外计算成本。针对上述问题，本文提出了一种单镜头无命题实例分割方法，该方法在单一骨干网络的统一模型中联合学习像素级语义类分割和对象实例区分，如图所示1.一、具体地说，为了区分不同的对象实例，提出了一种像素对亲和度计算两个像素属于同一实例的概率在这项工作中，近距离的亲和像素彼此接近的密集的小学习窗口。同时，对于大尺度或不相邻部分的对象，也需要彼此远离的像素而不是扩大的窗口，多范围的亲和力是解耦的，长范围的亲和力是稀疏地从实例地图与较低的分辨率。在此之后，我们建议沿着U形网络的结构在多个尺度上学习亲和金字塔，其中短程和长程亲和分别从具有较高和较低分辨率的特征水平有效地学习。表3中的实验表明，像素级语义分割和基于像素对亲和度金字塔的分组确实从所提出的联合学习方案中相互受益。因此，进一步改进了整体实例分割。然后，为了利用全局上下文推理的线索，本文采用了图划分的方法[26] 从习得的相似性中获得实例。不像以前的耗时的方法，级联图划分模块，提出了将图划分过程与层次化的方式的亲和金字塔，并最终提供加速和性能的改善。具体地，利用学习的像素对亲和力金字塔，通过将每个像素视为节点并将亲和力转换为边缘分数来构建图。然后，从较高级别的较低分辨率层到较低级别的较高分辨率层逐步采用图划分。来自较低分辨率的实例分割预测产生有信心的建议，这显著减少了较高分辨率下的节点数量。这样整个过程就加快了。本文的主要贡献如下：• 提出了一种新的实例感知的像素对亲和金字塔来区分实例，它可以与语义的像素级标记联合学习，抽搐课通过鼓励双向交互，探索了两个子任务之间的互利关系。动作，这进一步增强了实例分割。• 提出了一种基于亲和度的金字塔与大多数以前的方法不同，我们的方法只需要一个单一的通道来生成实例。在具有挑战性的Cityscapes数据集上，我们的方法达到了新的艺术水平，AP（val）/32.7%（test）和61.1% PQ（val）。• 利用仿射金字塔的分层方式，提出了一种新的级联图分割模块，将图像逐步分割为多个独立的子图。从粗到细。与非级联方式相比，该模块实现了5倍的加速比，在AP上的相对性能提高了9%.2. 相关工作2.1. 实例分割现有的实例分割方法可以分为两种范式：基于提案的方法和无提案的方法。基于提议的方法识别具有由检测器生成的边界框的对象实例[46，39，15]。MNC [14]将实例分割分解为一系列子任务，包括框定位、掩码细化和实例分类。另一项工作 [2 ， 32] 将检测和语义分割的预测与CRFasRNN [50]相结合以生成实例。FICS[33]开发了位置敏感评分图[13]。Mask R-CNN [20]通过在每个帧间区域（ROI）上添加分段掩码预测分支来扩展Faster R-CNN [46以下工作通过修改特征层[38]或掩码预测头[7]来扩展Mask R-CNN。无命题方法主要基于语义分割的成功来解决实例分割[6，49，8]。基于分割的方法学习实例感知特征，并使用相应的分组方法将像素聚类为实例。DWT [3]学习每个像素的边界感知能量，然后进行分水岭变换。几种方法[5，17，43]采用实例级嵌入来区分实例。SGN [37]顺序地将实例分组为三个子网络。递归神经网络（RNN）在几种方法中被采用[47，45]，每次生成一个实例掩码。基于图的算法[26]也用于后处理[31，28]，其将图像分割为具有全局推理的实例然而，基于图的算法通常是耗时的. 为了加快速度，Levinkovet al.[31]在图优化之前对输出进行下采样，而Kirillov等人。[28]仅导出相邻邻居的边。它们都是以牺牲性能为代价的。最近，Yanget al.[48]提出了一种单镜头图像解析器，它可以实现准确性和效率之间的平衡。644RR22.2. 像素对亲和性学习像素对亲和度的概念已经在许多先前的作品中被描述[36，23，1，4，42]，以促进训练或后处理期间的语义分割。最近，Liuet al. [40]提出学习实例感知亲和性并将像素分组为具有凝聚层次聚类的实例。我们的方法：当前像素.........这是什么？：标签1：标签0也利用实例感知的相似性来区分对象实例，但是导出相似性和分组像素的两种方式是显著不同的重要的是，Liuet al. [40]使用两个模型，并需要从语义分割结果生成的ROI的多个通道相反，我们的方法是单镜头的，它只需要一个单一的通道来生成最终的实例分割结果。3. 该方法本文提出了一种基于语义分割和像素对亲和度金字塔的单次无命题实例分割模型，该模型配备了级联图划分模块来区分对象实例。如图 3、我们的模型由两部分组成：（a）利用单个骨干网络来学习语义分割和亲和金字塔的统一网络，以及（b）使用联合学习的亲和金字塔和语义分割来顺序地生成多尺度实例预测的级联图划分模块。在本节中，首先在子节3.1中解释亲和金字塔，然后在子节3.2中描述级联图划分模块。3.1. 亲和力金字塔对于实例不可知的语义分割，将像素分组为单个对象实例对于实例分割是至关重要的本文提出了基于实例感知的像素对亲和度来区分不同的对象实例如图2的第二列所示。2，对于每个像素，短程亲和力neigh-学习小R×R窗口内的无聊像素。这样，就给出了一个r2×h×w的对于训练，平均L2损失用r2计算。每个像素的预测亲和度：2l〇ss（a，y）=1∑（yj-aj）2，（1）j=1图2.亲和力金字塔的图解。像素对亲和性指定两个像素是否属于同一实例。对于每个当前像素，预测到小的r×r窗口（这里，r=5）内的相邻像素的亲和力。短程和长程亲和度是解耦的，分别从具有较高和较低分辨率的实例映射导出。实际上，如果两个像素来自同一实例，则地面真实亲和度设置为1，否则为0。最好的颜色和缩放查看。如果两个像素来自不同的实例，则为0。重要的是，以这种方式生成的训练数据具体来说，地面真实亲和度大多数都是1，因为大多数像素都在实例的内部区域。为此，在训练期间随机丢弃具有所有1个地面真实亲和力的80%像素。此外，我们设置3倍的损失属于对象的情况下，像素。此外，除了上述的短程亲和性，还需要长程亲和性来处理更大尺度的对象或不相邻的对象部分。简单的解决方案是利用大的亲和性窗口大小。然而，在训练过程中，大的亲和度窗口除了会增加GPU内存开销外，还不可避免地会与语义分割产生冲突，严重阻碍了两个子任务的联合学习如实验中所示（见表2），联合学习短程亲和力与语义分割获得了两个任务的共同利益。然而，长程相似度显然更难与像素级语义类标注联合学习。Ke等人也获得了类似的观察结果。[24]第10段。而不是扩大亲和窗口，我们建议学习多尺度的亲和度作为亲和金字塔，其中短程和长程亲和度是解耦的，后者是稀疏地从具有较低分辨率的实例映射中获得的更具体地说，如图所示。2、长距离的亲和力是用同样小的亲和力来实现的，窗口分辨率较低。请注意，窗口大小可以不同，但在此工作简单。通过这种方式，12r2j1其中a =[a，a，. . . 得双曲余切值.]中。一是预测的亲和力64分辨率可以在像素之间产生亲和力，在当前像素和其亲和性中的第j个像素窗口，表示两个像素属于同一实例的概率 sigmoid激活用于让最大128像素距离。与构建的亲和力pyra-中，分别从较高和较低的分辨率学习较精细的短程和较粗糙的长程亲和力，j1 2r2ja∈（0，1）.这里，y=[y，y，. . .，y]和y代表活泼地因此，多尺度实例预测是The ground ground truth aff foraj.如果两个像素都是在相应的分辨率下由亲和力产生。作为645我们的结果A 1A2......这是什么？A4A5S4S1一个5一个5S5(a) U型结构预测Sem。隔离区和仿射金字塔（b）级联图划分元素总和语义分支SIA我第i个分辨率的语义第i个分辨率的亲和力上采样内部区域图划分图3.我们的实例分割模型由两部分组成：（a）联合学习语义分割和亲和度金字塔的统一U形框架。通过分别从具有不同分辨率的特征层学习多范围的相似度来构造相似度金字塔。（b）级联图划分模块，其利用联合学习的亲和度金字塔和语义分割来从最深层开始逐步细化实例预测具有较高分辨率的较低级别层中的实例预测最好的颜色和缩放查看。示于图2、对较大样本的预测由较低的分辨率仿射提出，并由较高的分辨率仿射进一步细化。同时，虽然较小的实例具有太弱的响应而不能在较低分辨率下提出，但是它们可以通过与较高分辨率的亲和力来生成。之后，可以通过沿着解码器网络的层次结构与用于语义分割的现有分支并行地添加亲和分支来容易地学习亲和金字塔。如图3（a），亲和力是1、1，1，1，1，利用学习的像素对亲和金字塔，构造无向图G=（V，E），其中V是像素的集合，并且E=V2是亲和窗口内的像素对的集合。eu ，v∈E表示像素{u，v}之间的边缘。此外，au，v，av，u∈（0，1）是分别在像素u和v处预测的像素{u，v}的亲和度。平均亲和力αu，v为然后计算并转换为边的得分wu，veu，v通过：αu，v=（au，v+av，u）/2，（2）481632 64最终图像以这种方式，可以在U形架构的特征金字塔中的不同特征层处有效地学习短程和长程亲和力。的wu，vαu，v=log（）。（三）1−αu，v因此，所形成的亲和金字塔可以与统一模型中的语义分割联合学习，从而产生互利。3.2. 级联图划分通过联合学习语义分割和亲和度金字塔，实现了基于图的分割机制。由于亲和度预测两个像素属于在相同的情况下，平均亲和力高于0。5则转化为正、负，否则。通过这种方式，实例分割被转换为图分割问题[11]，并且可以通过解决以下优化问题[26]来解决∑在这项工作中使用，以区分对象实例。结合亲和金字塔的层次化方式，提出了一个级联图划分模块。sented。此模块按顺序生成实例，miny∈{0，1}′S.T. C（4）e∈E∑ye≥ye′。（五）′多尺度，由亲和度金字塔的深层编码的线索引导。e ∈C\{e}这里，ye=yu，v∈ {0，1}是二进制变量，yu，v=14ℎℎ42141811632ℎ322132164S564ℎ64编码器解码器2一个5一个4S4的1S1…646Q422′像素{u，v}的亲和度α u，v通过下式细化为αu，v′αu，v=αu，v<$exp[−DJS（su<$sv）]，（6）（一）(a)(b)(c)(d)DJS（PQ）=1[（DKLP2P+Q）2（+ DKLQP+Q）]、2∑Pi（七）图4.分割细化（SR）的影响（a）输入图像。(b)语义分割(c)实例分段-DKL（PQ）=P ilog。（八）我我out SR（d）使用SR的实例分割。（e）地面实况。 Sr这里，s u=[s1，s2，. . . ，sc]和sv=[s1，s2，. . . ，s c]是显著改善了实例分割中的错误，uu uvV V是由语义分割失败引起的。最好的颜色和缩放查看。表示节点u和v属于不同的分区。C是图G的所有圈的集合。公式4中的目标是使所选边的总得分最大化，并且不等式5约束表示分区的每个可行解。开发了一种基于搜索的算法[26然而，当使用该算法对实例进行分割时，推理时间不仅较长，而且显著增加w.r.t. 节点的数量，这给实际应用带来了潜在的问题。Cascade SchemeCityscapes数据集中实例的大小差异很大。对于较大的图像，像素点多集中在内部区域，虽然易于分割，但干扰时间较长。基于此，本文提出了一种级联策略，将图划分机制与亲和金字塔的层次化方式相结合。如图在图3（b）中，首先在低分辨率上利用图分区，其中图分区具有较少的像素并且需要用于图分区的短运行时间。虽然只生成大实例的粗略片段，但这些片段的内部区域在这种情况下，可以对这些内部区域进行上采样，并将其视为更高分辨率的建议在更高的分辨率下，每个pro-prone中的像素被组合以生成节点，并且剩余的像素各自被视为节点。为了用这些节点构造一个图，边得分wti，tj 在节点ti和tj之间通过将Σll pix el对边缘得分相加，C对象类的语义分割分数像素u和v，它们表示C对象类上的分类可能性分布。这两个分布之间的距离可以用Popular Jensen-Shannon散度来测量，如方程2所述七比八在对初始亲和度进行细化之后，以1分辨率对所有前景像素进行图分割。通过结合语义分割和亲和分支的信息，显著改善了由于语义分割失败而导致的实例分割错误，如图所示。4.第一章最后，通过基于语义分割标签的所有像素之间的投票来获得每个实例的类标签。在DWT [3]之后，小实例被移除，并且来自语义分割的语义分数被用于对预测进行排名。4. 实验数据集我们的模型在具有挑战性的城市街道场景数据集Cityscapes上进行评估[12]。在这个数据集中，每个图像都具有1，024 × 2，048像素的高分辨率。有5，000张高质量密集像素注释的图像-和20，000张带有粗略注释的图像。请注意，只有精细注释的数据集才用于训练我们的模型。Cityscapes基准评估了实例分割的8个类。连同另外11个背景类，19个类的语义分割进行评估。评估的主要指标是平均精度（AP），它是通过对IoU（交集大于并集）阈值下的精度求平均值来计算的，0.50在0.05的步长处至0.95。我们的结果还报告了Cityscapes 的三个子指标： AP50% 、 AP100m 和AP50m。它们在0.5 IoU阈值下计算，或两个wo节点：wti，tj为u∈ti，v∈tj武乌河谷如此则只针对特定距离内的物体。本文还用一种新的度量标准对结果进行了评价用于实例预测的建议被逐步地细化。因为节点的数量在每一步都显著减少，所以整个图的划分被加速了。在前面的步骤中，分割是在每个班级内进行的，以加快速度。在这一步，全景质量（PQ）[27]，进一步分为分割质量（SQ）和识别质量（RQ），以衡量识别和分割性能的恢复。制剂PQ定义为：∑IoU（p，g）来自语义分割和亲和分支的线索PQ=p，g∈TP×|TP|、（九）被集成到来自被分类为前景的所有像素的分割实例。实际上，平均|TP|质量保证（SQx）|+1|FP|+1 |FN|FN|`重复性（RQ）X6474S一4是一个α λAP（%）PQTh（%）PQ（%）0的情况。0003差异27.545.054.60的情况。001差异29.548.055.80的情况。003差异31.549.256.60的情况。003相同31.048.756.20的情况。01diff.31.049.256.30的情况。03差异28.146.453.4表1.平衡参数的影响表2.亲和窗口大小r的影响。还提供了用于语义分割评估的mIoUr=0表示仅训练语义分割。特征JLAP（%）PQTh（%）PQ（%）mIoU（%）单个29.446.954.974.5（无扩张）√30.247.655.074.2单个30.648.255.574.5（扩张）√30.848.855.874.5分层√30.047.755.274.531.349.056.575.0表3. JL：联合学习。与从单个1/4分辨率特征图学习所有层的亲和金字塔相比，我们的分层联合学习方式表现得更好。其中p和g是预测的和真实的片段，而TP、FP和FN分别表示匹配的片段对、不匹配的预测片段和不匹配的真实片段。此外，可计数对象（事物）和不可计数区域（填充物）都在PQ中进行评估，并分别用PQTh和PQSt报告。由于本工作不涉及材料，因此仅报告PQ和PQTh我们的模型使用基于ResNet-50的统一U形框架预测语义分割和像素对亲和力[21]。训练损失L定义为：∑L=（Li+αλi Li），（10）我图5.不同对象大小下级联图划分模块的运行时间。级联方案大大减少了大型物体的时间。最好用彩色观看。工作[9]。我们的模型使用Nadam [16]在8 个TitanX1080ti GPU上使用同步批量归一化[22]进行 70，000次迭代训练学习率初始化为10−4，并分别在30，000和50，000次迭代时除以10。联合学习的影响我们单独训练的语义分割模型实现了74. 5%的mIoU。在与亲和度金字塔联合训练后，该结果得到了显著改善，如表2所示。然而，实例分割和语义分割的性能受亲和窗口大小的影响。Ke等人也观察到类似的现象。[24]他们解释说，小窗口和大窗口分别有利于小对象和由于GPU硬件的限制，窗口大小从3到9进行了测试其中，5×5的亲和度窗口平衡了冲突，取得了最佳性能，并用于其他实验。此外，在我们提出的模型中，语义分割和亲和金字塔沿着U形网络的层次共同学习。我们将这种方法与从具有相应步幅的单个1还测试了扩张卷积[6]的使用表3显示了我们的方法表现最好，其中探索了两个任务的共同利益，并最终提高了实例分割的性能。级联图划分的影响在这一部分，其中L是且Li[35]第35话，一个人，一个人，所提出的级联图划分模块由以下分析：erage L2损失（参见等式1）对于[1，1，.，1]res-从每个分辨率初始化。如图5、图划分的运行时间相对于图划分的运行时间有了快速的增长。4 8 64溶液分别。为了合并每个规模的损失，我们首先调整平衡参数λ i，使各尺度的损耗处于同一量级，最后将其设置为[0. 010 03，0。1，0。3，1）。之后，α被设置为0.003来平衡亲和力金字塔和语义的损失，当进行分区时，1决议直接，没有指导的实例建议。然而，当从较低分辨率（如1分辨率）初始化级联图分区时，时间显著减少，其中图分区1611 1抽动分段α和λi的影响显示在表1. 我们使用MXNet框架运行所有实验-在[16，8，4]分辨率下依次构造，并且后两项建议以前两项建议为指导，RAP（%）PQTh（%）PQ（%）mIoU（%）0---74.5330.548.556.475.0531.349.056.575.0731.248.156.075.1930.046.255.074.364841616864163216Init. Res.GP time（s）AP（%）PQTh（%）PQ（%）1/41.2628.945.154.91/80.3331.349.256.61/160.2631.549.256.61/320.2630.948.856.51/640.2630.948.756.5骨干SrHFMSAP（%）PQTh（%）PQ（%）ResNet-5028.745.455.1ResNet-50√31.549.256.6ResNet-50√√32.850.457.6ResNet-50√√√34.450.658.4ResNet-101√√√37.355.061.1表4.初始分辨率对级联图划分的影响。随着初始分辨率的降低，GP时间（每个图像的级联图划分的运行时间）保持下降。表7. SR：细分细化。HF：水平翻转试验。MS：多尺度测试。折痕与1解析初始化，初始化-从1开始分辨率达到5×加速，AP提高9%。表5.远程亲和力的有效性 [A1，A2，...， A5]是[1，1，...，[1]决议。亲，亲表8. Cityscapesval set的结果。所有结果仅使用Cityscapes数据进行训练。4 8 64与更长距离的联系逐渐增加。BDOL内核AP（%）PQTh（%）PQ（%）329.146.455.8√330.048.856.0√√331.349.056.5√√531.549.256.6表6.BD：通过随机丢弃80%像素来平衡训练数据，所有1个OL：为属于对象实例的像素设置3倍亲和度损失。Kernel：内核大小。表9.COCOval（“PQ [val]”列）和测试开发结果（其余列）集。结果报告为百分比。验证集。我们的模型也使用ResNet- 101进行了训练，达到了37.3%的AP和61.1%的PQ，如表8所示。对于测试集，我们的模型达到了32.7%AP的性能，这超过了所有以前的方法。详情见表10。阶段定量结果示于表4中。Com-与1分辨率初始化（非级联）配对，可视化结果从1生成的建议和114个分辨率在图6中可视化。上的一些示例结果64分辨率的初始化方案实现了5倍的加速度，第重要的是，级联方法在不牺牲精度的情况下实现了如表4所示，从1分辨率初始化对AP有2.0%的绝对改善，这是由于来自较低分辨率的建议可以减少干扰信息。验证集在图7中可视化，其中精确地捕获了精细细节。如第二列所示，被人或杆遮挡并被分成部分的车厢被成功分组。为了证明我们的方法在街道以外的场景中的有效性，我们在COCO上进行了评估。为预测。与此同时，解决方案初始化-1COCO数据集。COCO实例的注释部分-ing方法实现了比64和1方式，这表明从太低的分辨率的建议，但仍会给预测带来误差。在其他实验中，级联图分区从1分辨率初始化。定量结果首先，为了显示长程亲和力的有效性，我们从仅使用来自1/4分辨率的亲和力开始，并逐渐添加长程亲和力。结果示于表5中。然后，评估平衡训练数据、设置较大的亲和度损失和采用大内核的影响，并在表6中示出。之后，如表7所示，心理状态是重叠的，这使得它不适合训练和测试像我们这样的无建议方法。因此，我们的方法在全景分割任务中进行评估。为了在COCO上训练，我们将较长的边调整为640并训练模型512×512作物。迭代次数为80，000次，学习率在60，000和70，000中迭代其他实验设置保持不变。我们的模型（基于ResNet-101）的性能总结在表9 中。据我们所知，DeeperLab [48]是目前唯一一种报告COCO结果的无建议方法。我们的方法在所有子指标上都优于Deeper-Lab（基于Xception-71）。细化以2.8%AP提高性能。与测试技巧，我们的模型在1上实现了34.4%的AP和58.4%的PQ。[27]第10段。方法AP（%）PQTh（%）PQ（%）骨干Li等[32个]28.6 42.553.8ResNet-101SGN [37]29.2---Mask R-CNN [20]31.5 49.61-ResNet-50GMIS [40]34.1--ResNet-101[第48话]- -56.5Xception-71 [10]PANet [38]36.5--ResNet-50SSAP（我们的）34.4 50.658.4ResNet-50SSAP（我们的）37.3 55.061.1ResNet-101使用的亲和力AP（%）PQTh（%）PQ（%）仅A125.741.253.2+A229.846.555.4+A330.848.656.3+A431.449.256.5+A531.549.256.6方法PQ [val]PQSQ RQPQTh SQThRQ Th PQSt SQStRQ St[48]第四十八话33.834.3 77.1 43.137.577.546.829.6 76.4三十七点四SSAP（我们的）36.536.9 80.7 44.8 40.181.6四十八点五32.0 79.439.3649168方法训练数据APAP50%AP50米AP100米人骑手车后备箱总线火车电机自行车[28]第二十八话细+粗13.027.926.122.110.08.023.714.019.515.29.34.7多任务[25]罚款21.639.037.035.019.221.436.618.826.815.919.414.5SGN [37]细+粗25.044.944.538.921.820.139.424.833.230.817.712.4Mask RCNN [20]罚款26.249.940.137.630.523.746.922.832.218.619.116.0GMIS [40]细+粗27.345.6--31.525.242.321.837.228.918.812.8Neven等人[四十三]罚款27.650.9--34.526.152.421.731.216.420.118.9PANet [38]罚款31.857.146.044.236.830.454.827.036.325.522.620.8SSAP（我们的）罚款32.751.851.447.335.425.555.933.243.931.919.516.2表10. Cityscapes测试集的结果。所有结果仅使用Cityscapes数据进行训练。结果报告为百分比。图片来源：1Res.建议1Res.实例分段地面实况图6.在级联图分区模块中从较低分辨率生成的建议和最终实例分割结果的可视化。最好的颜色和缩放查看。语义段实例分段语义段实例分段图7.验证集上采样结果的可视化最好的颜色和缩放查看5. 结论本文提出了一种单镜头无命题的实例分割方法，该方法只需要一次遍历即可生成实例。我们的方法是基于一种新的亲和金字塔来区分实例，它可以使用一个单一的骨干网络与像素级的语义类标签联合学习。实验结果表明，这两个子任务从我们的联合学习方案中相互受益，进一步提高了实例分割。此外，一个级联图划分模块已被开发，分割实例的仿射金字塔和语义分割的结果。比较-该模块采用非级联的方式，在AP的基础上实现了5倍的加速比和9%的相对提高。我们的方法在具有挑战性的Cityscapes数据集上达到了新的艺术水平确认本工作得到了国家重点研究发展计划（批准号：2016 YFB 1001005）、国家自然科学基金（批准号：2016 YFB 1001005）和国家自然科学基金（批准号：2016 YFB 1001005）的部分支持。中国科学院项目（批准号：QYZDB-SSW-JSC 006）。650引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在CVPR，2018年。3[2] Anurag Arnab和Philip H. S.乇使用动态实例化网络的逐像素实例分段。在CVPR，2017年。2[3] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在CVPR，2017年。二、五[4] Gedas Bertasius，Lorenzo Torresani，Stella X Yu，andJianbo Shi.用于语义图像分割的卷积随机游走网络。在CVPR，2017年。3[5] Bert De Brabandere，Davy Neven，and Luc Van Gool.基于判别损失函数的语义实例分割。arXiv：1708.02551，2017。2[6] LiangchiehChen ， GeorgePapandreou ， IasonasKokkinos，KevinPMurphy，andAlanLYuille.Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义TPAMI，40（4），2018年。一、二、六[7] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割在CVPR，2018年。2[8] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arXiv：1706.05587，2017。一、二[9] Tianqi Chen ， Mu Li ， Yutian Li ， Min Lin ， NaiyanWang，Minjie Wang，Tianjun Xiao，Bing Xu，ChiyuanZhang，and Zheng Zhang. Mxnet：一个面向异构分布式系统的灵活高效的机器学习库arXiv：1512.01274，2015年。6[10] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习。在CVPR，2017年。7[11] Sunil Chopra 和 M R Rao 。分区问题。 MathematicalProgramming，59（1），1993. 4[12] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。5[13] Jifeng Dai ，Kaiming He ，Yi Li ，Shaoqing Ren ，andJian Sun.实例敏感的全卷积网络。在ECCV，2016年。2[14] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR，2016年。2[15] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。在NIPS，2016年。一、二[16] 蒂莫西·多扎特把涅斯捷罗夫的动力转化成亚当。2016.6[17] Alireza Fathi、 Zbigniew Wojna 、 Vivek Rathod 、 PengWang、Hyun Oh Song、Sergio Guadarrama和Kevin P.墨菲基于深度度量学习的语义实例分割。 arXiv ：1703.10277，2017。2[18] 罗斯·格希克。快速R-CNN。在ICCV，2015年。1[19] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。1[20] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面具R-CNN。InICCV，2017. 二七八[21] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。6[22] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。6[23] Tsungwei Ke，Jyhjing Hwang，Ziwei Liu，and Stella XYu.用于语义分割的自适应亲和字段在ECCV，2018。3[24] Tsung-Wei Ke，Jyh-Jing Hwang，Ziwei Liu，and StellaX. Yu.用于语义分割的自适应亲和字段。在ECCV，2018。三、六[25] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在CVPR，2018年。8[26] Margret Keuper，Evgeny Levinkov，Nicolas Bonneel，Guil-laume Lavoue，Thomas Brox，and Bjoern Andres.提升多重割的图像和网格图的有效分解在ICCV，2015年。二、四、五[27] Alexander Kirillov 、 Kaiming He 、 Ross Girshick 、Carsten Rother和Piotr Dollar。全景分割。在CVPR，2019年。五、七[28] Alexander Kirillov，Evgeny Levinkov，Bjoern Andres，Bog- dan Savchynskyy，and Carsten Rother.即时切割：从边到多切割实例。在CVPR，2017年。一、二、八[29] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。1[30] Yann Lecun，Leon Bottou，Yoonne Bengio，and PatrickHaffner. 基于梯度的学习应用于文档识别。Proceedingsof the IEEE，86（11），1998. 1[31] Evgeny Levinkov，Jonas Uhrig，Siyu Tang，MohamedOm- ran ， Eldar Insafutdinov ， Alexander Kirillov ，Carsten Rother ， Thomas Brox ， Bernt Schiele ， andBjoern Andres. 联合图分解&节点标注：问题，算法，应用。在CVPR，2017年。2[32] Qizhu Li，Anurag Arnab，and Philip H.S.乇弱监督和半监督全景分割。在ECCV，2018。二、七[33] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。在CVPR，2017年。2[34] 梁晓丹，魏云超，沈晓辉，杨建超用于实例级对象分割的无建议网络。arXiv：1509.02636，2015年。1[35] Tsungyi Lin，Priya Goyal，Ross B Girshic

下载后可阅读完整内容，剩余1页未读，立即下载