实例共分割：基于共峰搜索和共显著性检测的深度方法

99 浏览量更新于2023-10-19 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1DeepCO3：通过共峰搜索和共显著性检测进行深度实例共分割许光瑞1，2林燕玉1庄永玉1，21台湾中央研究院2国立台湾大学摘要在本文中，我们提出了一个新的任务称为实例共分割。给定一组共同覆盖特定类别的对象实例的图像，实例共分割的目的是识别所有这些实例并分割它们中的每一个，即：为每个实例生成一个掩码。这个任务很重要，因为实例级分割对于人类和许多视觉应用来说是优选的。这也是有挑战性的，因为没有逐像素注释的训练数据可用，并且每个图像中的实例数量未知。我们通过将其分为两个子任务来解决这个任务，共峰搜索和实例掩码分割。在for- mer子任务中，我们开发了一个基于CNN的网络来检测一对图像的共峰以及共显着性图。共峰有两个端点，每个图像中有一个端点，它们是响应图中的局部最大值，并且彼此相似。因此，这两个端点可能被同一类别的一对实例覆盖。在后一个子任务中，我们设计了一个排序函数，该函数将检测到的共峰和共显着图作为输入，并且可以选择对象提案以产生最终结果。我们的方法，例如共同分割和其变体的对象共同定位的四个数据集上进行评估，并实现ffab-vorable性能对国家的最先进的方法。源代码和收集的数据集可在www.example.com上获得https://github.com/KuangJuiHsu/DeepCO3/。1. 介绍对象共分割是指对图像中重复出现的共同对象进行分割。它是计算机视觉中一个十分活跃的基础性研究课题。作为图像内容理解的重要组成部分，它对许多视觉应用至关重要，例如语义分割[48]，图像匹配[4，19，25，52，60，61]，对象重建[8，27]和3D重建[42]。由于卷积神经网络（CNN）的快速发展，对象共分割最近取得了重大进展。基于CNN的方法[21，33，62]最终学习常见对象的表示，图1.两个例子的例子共同分割类别鸟和羊，分别。这里的实例是指出现在图像中的在每个示例中，顶行给出了输入图像，而底行显示了通过我们的方法分割的实例特定于实例的着色表示我们的方法为每个实例生成一个分割掩码以端到端的方式，并可以产生高质量的对象级结果。然而，它们不探索实例感知信息，即。一个分割掩模用于每个实例而不是每个类，这与人类感知更一致，并提供更好的图像理解，例如各个实例的位置和形状。在这项工作中，我们提出了一个新的和具有挑战性的任务，称为实例感知对象共同分割（或简称为实例共同分割）。图1中显示了此任务的两个示例，以便快速入门。给定一组特定对象类别的图像，每个图像覆盖该类别的至少一个实例，实例共分割旨在识别所有这些实例并将它们中的每一个分割出来，即每个实例一个掩码。注意，不像语义[18]或实例分割[65]，没有收集像素数据注释用于学习。对象类别可以是任意的和未知的，这意味着该类别的训练图像事先不可用。通过解决此任务可以获得的实例级片段对许多视觉应用都很有价值，例如自动驾驶[2，64]，实例放置[31]，图像和句子匹配[26]或非模态分割[23]。88468847因此，实例联合分割在输入收集方面具有实用性，并且更好地实现它可能会推动计算机视觉领域的发展。在本文中，我们开发了一种基于CNN的实例共分割方法。基于问题设置，我们的方法无法访问用于学习的注释实例掩码，并且无法涉及任何预训练过程。受Zhouet al的启发。[65]共峰损失建立在4D张量上，该4D张量被学习以在每个位置处编码图像间相似性。从学习的4D张量推断的共峰对应于两个位置，两个图像中的每个图像中的一个位置，其中存在区别性和相似的特征。因此，这两个位置可能被两个对象实例覆盖。单独使用共峰损失可能导致不利的假阳性和假阴性。因此，我们开发了亲和力损失和显著性损失来补充共峰损失。前者通过分离前景和背景特征，对4D张量构造进行判别性特征学习。后者通过估计共显图来定位图像中的共显对象，并使我们的模型专注于共显区域中的共峰搜索。这三个损失函数共同工作，可以检测出高质量的共峰。我们设计了一个排序函数，将检测到的共峰和共显着图作为输入，并通过选择对象建议来完成实例掩码分割。我们在这项工作中做出了以下贡献。首先，我们引入了一个新的有趣的任务，称为实例共分割.它的输入是一组包含特定类别的对象实例的图像，因此很容易收集。它的输出是实例感知的片段，这是许多视觉应用中所需要的。因此，我们认为实例共分割值得探索。其次，以联合分割为例，提出了一种简单有效的方法。所提出的方法通过优化三种损失（包括共峰、模糊性和显著性损失）来学习基于全卷积网络（FCN）[40]的模型。学习的模型可以可靠地检测共峰和共显着图，例如掩模分割。第三，我们收集了四个数据集用于评估实例共分割。在四个数据集上广泛评估了所提出的方法，例如共同分割及其用于对象共同定位的变体[5，6，51，58，59我们的方法与最先进的方法相比表现良好。2. 相关工作对象共分割。本任务[13，28，45，46，54，56，57]旨在分割图像中的常见对象。它的主要困难在于大的类内变化和背景杂波。大多数方法依赖于鲁棒的特征，例如作为手工制作和基于深度学习的功能，用于广告这些困难。此外，显着性证据，包括单图像显着性[12，20，27，28，46，53]或多图像共同显着性[3，54，57]，已被探索定位显着和常见的对象。最近，基于CNN的方法[21，33，62]通过联合表示学习和联合分割实现了更好的性能。尽管有效，上述方法不提供实例级结果。在本文中，我们从对象联合分割出发，研究了实例联合分割。我们的方法可以确定每个图像中常见实例的数量、位置和轮廓，并提供实例感知的图像理解。对象共定位。这个任务[5，6，51，58，59]发现了图像中的常见实例。与对象联合分割不同，它是实例感知的。它检测并输出每个图像中单个实例的边界框，即使图像中存在多个实例。与对象共定位相比，实例共分割以实例片段的形式识别图像中的所有实例实例感知分割。实例感知分割包括类感知[1，7，15，17，65]和类不可知[11，24，32]方法。给定预先定义的类别的训练数据，类感知的实例分割，又名实例分割，学习模型来寻找属于这些类别之一的每个对象实例。实例分割的一种广泛使用的方法是首先检测实例边界框，然后在边界框内分割实例[7，15另一种方法是直接分割每个实例，而无需边界框检测[1，30，36，39，65]。虽然大多数方法，例如分割是有监督的，但Zhouet al. [65]这是一个很弱的监督。所有这些方法，例如分割，都依赖于训练数据来学习模型。尽管测试的有效性和效率，他们学习的模型不适用于看不见的对象类别。在实践中，很难提前枚举所有感兴趣的对象类别并准备特定于类的训练数据，这限制了类感知实例分割的适用性。类不可知实例分割[11，24，32]旨在分割任意类别的对象实例，最近引起了人们的关注。它是chal，因为它涉及到两个通用的目标检测和分割。实例联合分割与类无关的实例分割高度相关，因为它们都可以应用于任意甚至不可见的对象类别。然而，现有的类不可知方法需要对象轮廓形式的注释训练数据。相反，我们的方法，例如联合分割，探索了给定图像中常见实例的互信息，并且不需要对额外的数据注释进行任何预训练。因此，我们的方法具有更好的推广性。8848n1M共峰搜索我n我GMFnF大化M相关性不nm同峰损耗WHHDWD1 × 1转化山森实例掩码分割{Oi}最大化亲和力损失⁝nSn1-Sn⁝SnS^n结果⁝解卷积排名→…⁝凸极引导损耗图2.概述了我们的方法，它包含两个阶段，蓝阴影背景内的共峰搜索和红阴影背景内的实例掩码分割为了在一对图像中搜索共峰，我们的模型提取图像特征，估计它们的共显着性图，并执行共峰定位的特征相关。该模型通过三种损耗进行优化，包括共峰损耗Δt、衰减损耗Δa和凸极损耗Δs。例如掩码分割，我们设计了一个排名函数，将检测到的共峰，共显着图和对象提案作为输入，并为每个检测到的实例选择排名最高的提案。3. 该方法在本节中，我们将概述我们的方法，描述其组成部分，共峰搜索和实例掩码分割，并提供实现细节。3.1. 概述一个流使两个图像的特征图相关以用于共峰定位。另一个估计输入图像的共同显着性图，这反过来又迫使FCNg生成更具鉴别力的特征图。我们的模型通过三种新的损耗进行优化，包括共峰损耗Δt、自适应损耗Δa和显著性损耗Δs。优化后，检测共峰，并将共显着图假设一组图像DInN组成估算在实例掩码分割阶段，我们其中InRW<$H<$c是第n幅图像，W、H和c分别是I n的宽度、高度和通道数。实例共分割的目标是识别和分割D中的所有实例。请注意，没有提供具有逐像素注释的训练数据此外，每个图像中的对象类别和实例数量都是未知的。在该方法中，我们将实例共分割分为两个阶段，即：共峰搜索和实例掩模分割。我们的方法概述如图2所示，其中两个阶段分别用蓝色阴影区域和红色阴影背景突出显示。在共峰搜索阶段，我们的目标是在两个图像的响应图中寻找共峰，其中共峰对应于两个有区别的相似点，每个图像中一个，使得每个点潜在地在对象实例内。我们设计了一个共峰检测的网络模型。我们模型的前半部分是一个全卷积网络（FCN）g，它提取输入图像的特征图。在特征提取之后，我们的模型被分成两个流。设计排序函数，该排序函数考虑检测到的共峰、估计的共显著性图和实例提议，并且为每个检测到的实例产生一个掩码。3.2. 共峰搜索如图2所示，我们的模型每次从D获取一对图像I n和I m作为输入。它首先提取I n的特征图FnRwhd，其中w、h和d分别是宽度、高度和通道数。类似地，针对Im产生特征图FmRwhhd。然后，我们的模型被分为两个流。一个流执行F n和F m之间的相关，并产生4D相关张量TnmRwhwh。每个元素Tn mi，j，s，tTn mp，q记录存储在两个空间位置的特征向量之间的归一化内积，即，p∈i，j在Fn 中，q∈s，t在Fm 中.另一个流采用1× 1卷积层来估计共凸性映射 Rwh，并采用解码层来生成高分辨率的共显著图SkRWH，对于k n，m。我们设计了三个损失函数，包括共峰损失函数，模糊损失函数和凸极损失函数，来推导网络，从而得到8849nmnmnm☎nm✌跟随目标函数NLwλttn，Im;wn1mnN（一）N3.2.2亲和性损失a共峰损失指的是图像的特征图，因此可以将实例从背景中分离出来的区别性特征是优选的。此外，共峰损耗为ap-λaaIn，Im;wsIn;w，的位置，以及其他地方的特征阳离子被忽略。而亏损的原因，则是因为亏损。n1mnn1两件衣服的问题。它的目的是获得的功能，其中w是网络的可学习参数集非负权重λt和λa控制三种损失之间它们被固定为0。5和0的情况。1在这项工作中，分别。共峰损耗不受刺激，显著区域中的像素彼此相似对于一对图像In和Im，损失ΔIn，Im定义为：延迟共峰检测。相似度损失矩阵a指的是共显着图，并且能够进行区分性特征学习。显着性损失与其他两个损失一起工作，从而实现了共显着性检测，ℓ˜a♣In,Im✏➳➳S˜n♣pS˜n♣q♣1✁Tnm♣p,qpP qPα<$S<$n<$p <$S<$n <$q2Tnm<$p，q，（四）共分割这三个损失在下文中详细阐述。3.2.1共峰损耗这种损失旨在刺激共峰检测。共峰其中常数α根据经验设置为4。由方程式（4）、第一项惩罚两个显著像素之间的低相似性的情况，而第二项防止显著像素和非显著像素之间的高相似性所提出的有限性损失在方程中推广了有限性损失。（4）考虑图像间和图像内的属性，定义如下：由两个点组成，每个点在In和Im中。以来我，我我，我我，我ℓ˜♣I，我.（五）由同一对象的一对实例覆盖的共峰类别，共峰的两个点必须一nM一nM一nn一MM在物体内部并且彼此相似。因此，图像内显著性和图像间相关性都被考虑在该损失中。如图2所示，我们的双流网络在一个流中产生图像内显著性映射Sn和Sm，另一个流中的图像间相关性映射Tnm。为了联合考虑这两种类型的信息，显著性引导的相关张量 TsRwhwh构造为3.2.3显著性损失这个术语旨在识别显著区域，并可以指导我们模型的训练。在对象共分割的研究之后[27，28，46，53]，我们利用现成的方法进行显着性检测。所得到的显著图可以用作对象先验。在这项工作中，我们采用了无监督的方法，SVFSal [63]，它为图像In产生了显着的cy映射Sn。请注意，其元素定义如下sp，qSnpSmqTnmp，q，（2）其中pP、qP和P是特征图的所有空间坐标的集合。由方程式（2），S_p是凸性cySn和In是一样的。因此，采用deco n volutionary层来增加分辨率。在[22]之后，应用于图像In的显着性损失由下式定义：2˜ ˜nℓs♣In✏➳ρn♣p⑥Sn♣p✁Sˆn♣p⑥2, (6)在点p处的Sn的值，并且Smq被类似地定义。为了具有更可靠的关键点来揭示对象实例，我们将共峰定义为大小为3μ 3μ 3μ 3的4D局部窗口内的Ts中的局部最大值。假设pIn其中，p表示In的像素，ρnp是表示像素p的权重是Ts中的一个峰值. Fn中的点p和Salien c y映射。重量ρnp处理q在Fm 中是显著的，并且它们在局部区域中彼此最相似。前一个属性意味着这两个点可能存在于两个显著的对象实例中。后一种情况表明，这两个实例可能属于同一类，因为它们具有相似的部分。基于上述讨论，用于激励可靠共峰的共峰损耗定义为：与显着和非显着的AR之间的不平衡等。如果像素p位于显著区域中，则将其设置为1 μ ε，否则设置为ε，其中ε是显著区域与整个图像的比率。以S_n的平均值为阈值，将S_n划分为显著区和非显著区。以这种方式，显着和非显着的区域在等式中贡献相等。（六）、如图2所示，除了去卷积层，我们的模型用于生成地图Sn我不知道，我1双头原木✆⑤Mnm⑤➳μ p，qMnmsnmp，q，（3）是由三个损失共同决定的。因此，与图像内和图像间线索两者相关联的SNR被称为共显著性图。这个前期是有帮助的，因为它补偿了不不8850其中Mnm是共峰的集合在实例共分段中缺乏监督信号8851ni1nnni1nnnn3.3. 实例掩码分割优化Eq.（1），我们简单地使用在估计的共显著图上检测到的峰作为最终的共峰，因为检测所有可能图像pairs很复杂。因此，峰值pi=m，每个IM-表1.四个收集所得数据集的部分统计数字，包括（a）其中M是峰的数目。我们采用称为峰值反向传播[65]的方法来推断每个峰值pi的实例感知热图Oi。的类的数量，（b）图像的数量，（c）实例的平均数目，（d）每类图像的平均数目，以及（e）每图像实例的平均数目。n nmapOi应该突出显示覆盖pi的实例。图2中给出了一个示例。例如，掩码生成，我们利用一种称为多尺度组合分组（MCG）[44]的非监督方法来生成一组用于图像的实例建议。随着热图OiM和共同显着性映射Sn，我们通过进一步考虑共同显着性线索来扩展[ 65 ]中的建议排名函数，并选择排名最高的建议作为每个检测到的掩码将实例共同分割结果的大小调整回原始图像分辨率以进行性能评估。4. 实验结果在本节中，我们的方法，例如共同分割及其变体的共同定位进行评估。首先，描述了所采用的数据集和评估指标峰具体地说，给定映射Oi和Sn，排名然后，介绍了竞争的方法。最后应用于实例建议P的函数R定义为：RPβOiSnPOiSnPγ1SnP，（7）报告并分析比较结果。4.1. 数据集集合其中P是提案 P 的轮廓，运算符 P是两个矩阵之间的Frobenius内积。系数β和γ设置为0。8和10分5秒，尊重我。由方程式（7）、三项，即包括实例感知、轮廓保持和对象无关项。实例感知术语更喜欢覆盖O i中具有高响应和Sn中具有高显着性的区域的提议。轮廓保持项侧重于精细的边界信息。背景图，1 Sn，用于对象无关项中，以抑制背景区域。与[65]中的排名函数相比，我们进一步利用了实例共分割的特性，I.E.对象实例中的高共显值，并且可以选择更准确的建议。遵循标准的实例分割协议，我们执行非最大值抑制（NMS），以消除冗余。3.4.实现细节我们使用MatCon-vNet[55]实现了所提出的方法。采用VGG-16 [49]作为特征提取器。它在ImageNet [47]数据集上进行了预训练，并在优化Eq.（一）.在所有实验中使用相同的网络体系结构。注意，Eq.（1）涉及所有图像对。由于内存大小有限，直接优化是不可行的。因此，我们采用分段训练方案[50]。也就是说，在每个时期中仅考虑图像的子集，并且在这项工作中将子集大小设置为6。学习率、权重衰减和动量设置为10×6，0。0005和0。9，分别。优化过程在40个时期后停止。我们选择ADAM [29]作为优化求解器。所有图像的大小调整到决议448 -448提前。我们由于实例共分割是一项新任务，因此不存在公共基准。因此，我们通过从三个公共基准（包括MS COCO[ 37 ]、PASCAL VOC 2012 [9，14]和SOC [ 10 ]）收集图像，建立了四个具有像素级实例注释的数据集。数据集。以下预处理应用于每个数据集。首先，我们删除存在多个类别的对象的图像。其次，我们丢弃包含少于10个图像的类别。从每个数据集收集图像的细节如下所述。MS COCO数据集。我们从MS COCO 2017目标检测任务的训练集和验证集中收集图像。由于MS CCCO是一个大规模的数据集，我们进一步移动不包含至少两个实例的图像。共有44个类别。一些竞争方法在PASCAL VOC2012数据集上进行了预训练。为了便于比较，我们将44个类别分为两个独立的集合，COCO-VOC和COCO-NONVOC。前者包含PASCAL VOC 2012数据集涵盖的12个类别，而后者包含其余类别。PASCAL VOC 2012数据集。由于PASCAL VOC 2012数据集中几乎没有像素级实例注释，因此我们采用了增强的VOC 12数据集[14]，该数据集在数据集预处理后具有18个对象类别。SOC数据集。 SOC [10]是新收集的数据集用于显著性检测。它提供图像级标签和实例感知注释。预处理后，只有五个对象类别仍然存在，因为许多图像包含多个类别的对象实例，某些类别的图像少于10个。数据集（一）（b）第（1）款（c）第（1）款（d）其他事项（e）COCO-VOC1212813151106.82.5COCO-NONVOC323130830391.82.788520的情况。250的情况。5方法年训练COCO-VOCmAPr rr0的情况。25mAP 0. 5COCO-NONVOCR rmAP0. 25mAP 0. 5VOC12mAPr rr0的情况。25mAP 0. 5SoCmAPrmAPr0的情况。 2505CLRW [51]CVPR 2014✂33.313.724.610.729.210.534.915.6UODL [5]CVPR 2015✂9.62.28.51.89.42.011.02.7滴滴涕[58]IJCAI 2017✂31.410.125.79.730.78.843.025.7滴滴涕[59个]arXiv 2017✂31.710.626.010.133.69.439.622.4DFF [6]ECCV 2018✂30.811.622.67.327.713.742.317.0NLDF [41]CVPR 2017❵39.118.223.98.534.312.749.521.6C2S-Net [34] ECCV 2018❵39.613.425.17.630.110.737.012.5PRM [65]CVPR 2018❵44.914.6--45.314.8--我们-✂52.621.135.312.345.616.754.226.0表2.在四个收集的数据集上执行实例共分割。红色和绿色的数字分别表示最好和第二好的结果。列所收集的四个数据集的统计数据和缩写见表1。请注意，我们的方法可以在包含一个或多个常见对象类别实例的图像上工作。SOC数据集有助于测试此问题。如表1所示，SOC中的平均实例数为1。6，小于2。结果表明，该数据集中存在多幅图像，但只有一个对象实例.请参考补充材料，以了解更多细节和四个收集数据集的一些图像样本。4.2. 评估指标例如，联合分割，采用平均精度（mAP）[15]作为性能指标。遵循[65]，我们使用0的IoU阈值报告mAP。25共定位，即每个图像中具有最高置信度的对象边界框。在方法比较的两种策略中，需要两种类型的预测转换，包括将边界框转换为实例段及其逆方向。除非进一步指定，否则我们采用以下方式将边界框预测转换为实例片段。给定图像中的一个边界框，我们将MCG [44]应用于该图像以生成一组实例pro-tools，并检索具有最高IoU的提案，并用边界框表示它。另一方面，很容易将给定的实例段与边界框相结合。我们简单地使用实例片段的边界框来表示它。在下文中，所选择的竞争方法-乙腈-0.5，表示为mAPrmAPr分别表示这三个类别中的每一个类别的消耗臭氧层物质都有具体说明。对于对象共定位，性能度量CorLoc [5，6，51，58，59]用作评估度量。测量CorLoc被设计用于以对象边界框的形式评估结果。为了与输出为对象或实例段的方法进行比较，我们将CorLoc扩展为CorLocr，以对象段的形式计算结果。4.3. 竞争方法由于实例共分割是一个新的任务，没有现有的方法进行性能比较。我们采用两种策略来比较我们的方法与现有的。首先，我们考虑三个类别的竞争方法，包括对象共定位，类不可知的显着性分割，和弱监督的实例分割。对于这三类方法，我们将它们的预测转换为实例共分割形式的结果，即每个检测到的实例对应一个片段掩码。通过这种方式，我们的方法可以与这些方法进行比较的任务的实例共分割。其次，我们比较了我们的方法与所有上述三类方法的目标共定位任务。为此，我们需要将每个比较方法的输出转换为对象对象共定位。我们选择了这一类别的最先进的方法进行比较，包括CLRW [51]，UODL [5]，DDT [58]，DDT[59]，DFF [6].前两种方法，CLRW和UODL，输出所有边界框及其分数，但不能确定每个图像中的实例数量。因此，我们选择与我们的方法检测到的实例一样多的得分最高的边界框，并类似地应用NMS来去除冗余。最后三种方法，DDT，DDT和DFF，首先产生热图以突出显示对象，然后通过使用他们提出的机制将热图转换为二进制掩码，最后在二进制掩码上取连通分量的边界框。类不可知实例分割（CAIS）。我们选择该类别中的两种强大方法NLDF [41]和C2 S-Net [34]作为竞争方法。[32]中提出的算法用于将NLDF和C2 S-Net生成的显着轮廓转换为实例共分割形式的结果弱监督实例分割（WSIS）。WSIS方法PRM [65]是在PASCAL VOC 2012数据集上训练的，它不能应用于PASCAL VOC 2012未涵盖类别的图像88530的情况。25（一）（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款（g）图3.实例共分割的结果对四个对象类别，即。COCO-VOC数据集的牛、羊、马和火车（a）输入图像。（b）基本真相。（c）（g）由不同方法生成的特定于实例的着色结果，包括（c）我们的方法，(d)[51]，（e）DFF [6]，（f）NLDF [41]和（g）PRM [65]。PsPs + PtP + P + PS t aPsPs +PtPs +Pt+Pa图4.性能（mAPr）不同损失函数表3.我们的方法在没有或有COCO-VOC和COCO-NONVOC数据集上的共同显着性信息的情况下使用提案排名功能的性能。COCO-VOC和COCO-NONVOC数据集的组合数据集。因此，PRM仅在COCO-VOC和VOC 12数据集上与我们的方法进行比较。4.4. 实例共分段为了便于执行分析，我们将评价的方法分为两组，即，受过训练的和未受过训练的。培训的小组包括NLDF [41]，C2 S-Net [34]和PRM [65]。方法除了实例共分割的输入之外，该组的其他训练数据需要额外的训练数据。另一组未训练的包含我们的方法和其他竞争方法。非训练组的方法只能访问实例共分割的输入。我们的方法和所有竞争的方法进行评估四个收集的数据集。它们的性能报告在表2中。所提出的方法优于竞争的方法组未训练的大幅度，即使他们都访问相同的数据。我们在-将我们的方法产生的性能增益归功于支持特征学习的CNN。非训练组的竞争方法采用预先定义的特征，不能很好地处理复杂多样的类内变化和背景杂波。相反，我们的方法利用CNN同时进行特征学习和实例共分割，从而获得更好的性能。虽然小组训练的方法可以获得额外的训练数据，但我们的方法仍然达到了更有利的结果。主要原因是我们的方法通过共峰检测来探索共现模式，当图像例如共分割可用时，而组训练的方法在对额外数据进行训练后固定其模型，并且不能适应新给定的图像例如共分割。为了深入了解定量结果，图3可视化了我们的方法CLRW [51]、DFF [6]、NLDF [41]和PRM [65]生成的定性结果。实例分割的主要困难在于实例间的相互遮挡、类内变化和clut。牛羊马火车COCO-VOCR rmAP 0. 25mAP 0.5COCO-NONVOCmAPr rr0的情况。25mAP 0. 5w/o共显著图33.512.425.38.3w共显著图52.621.135.312.38854方法年训练COCO-VOC COCO-NONVOC VOC12 SoCCLRW [51]CVPR 2014✂33.431.629.930.9UODL [5]CVPR 2015✂12.312.79.510.3滴滴涕[58]IJCAI 2017✂30.027.425.016.7滴滴涕[59个]PR 2019✂29.525.823.718.4DFF [6]ECCV 2018✂32.330.528.722.9NLDF [41]CVPR 2017❵51.231.039.242.0C2S-Net [34] ECCV 2018❵39.028.431.132.9PRM [65]CVPR 2018❵18.1-23.3-我们-✂49.634.339.243.1表4.在四个数据集上执行对象共定位红色和绿色的数字分别表示最佳和次佳结果。列图5.七个例子，每行一个，我们的方法在COCO-NONVOC数据集上的共定位结果场景。如图3（c）所示，当类别cow、sheep和horse上发生实例相互遮挡，并且类别队列上存在较大的类内变化和混乱的场景时，我们的方法仍然可以很好地工作。在图3（d）中，CLRW在背景中产生一些假警报，而在类别序列上具有假阴性。在图3（e）中，DFF不能很好地解决实例相互遮挡，到计算连接的组件，用于实例识别。在图3（f）和图3（g）中，NLDF和CRP与其他竞争方法相比表现良好，但仍分别存在过度分割和缺失。消融研究。我们分析了提出的目标consisting三个损失函数方程。（1）在COCO-VOC和COCO-NONVOC数据集上，并在图4中报告结果。除损失的损失外，其他两项损失，即损失的损失和损失的损失，是一个接一个地增加的。当包含了数据集时，两个数据集的性能增益都很显著。这意味着，可靠的共峰搜索在我们的方法中是很重要的一旦添加了ESTA，性能就会适度增强，这意味着区分性特征学习有助于实例共分割。除了目标之外，表3中还分析了在提案排名中参考共显着图的效果。结果清楚地指出，信息的形成，从共同显着性检测是至关重要的建议排名。这并不奇怪。由于共峰识别实例中的关键点，我们仍然需要来自共显着图的证据来揭示相应的实例。4.5. 目标共定位我们评估我们的方法和竞争的方法，在我们收集的四个数据集的对象共同定位。对于我们的方法，我们在评估CorLocr中的性能时选择每个图像中排名最高的建议。表4报告了所有比较方法的性能。我们的方法实现了可比的，甚至更好的perfor-曼斯，即使它不是最初设计的对象共定位。图5中示出了通过我们的方法进行的对象共定位的七个示例，其中通过我们的方法发现了准确的实例掩码和对应的边界框。5. 结论在本文中，我们提出了一个有趣的任务，称为实例共分割，并提出了一种基于CNN的方法来有效地解决它，而无需使用额外的训练数据。我们将此任务分解为两个子任务，包括共峰搜索和实例掩码分割。在前一个子任务中，我们设计了三个新的损失，共峰，模糊度和显着性损失，用于联合共峰和共显着图检测。在后一个子任务中，我们开发了一个有效的建议排名算法，可以检索到高质量的建议，以完成实例共分割。我们的方法，例如共同分割及其变体的对象共同定位广泛评估的四个收集的数据集。定量和定性的结果都表明，我们的方法及其变体对国家的艺术表现良好。在未来，我们计划将所提出的方法集成到更高级别的任务中，例如自动驾驶，视觉问答，图像和句子匹配，其中实例感知注释是有价值的。致谢。这项工作得到了科学技术部（MOST）的部分支持，赠款为107-2628-E-001-005-MY 3和108-2634-F-007-009，MOST人工智能技术和所有Vista医疗保健联合研究中心，授权108-2634-F-002-004。teddybear 大象手机斑马斑马斑马熊8855引用[1] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换在CVPR，2017年。[2] Bert De Brabandere，Davy Neven，and Luc Van Gool.面向自动驾驶的语义实例分割。2017年CVPR研讨会[3] Kai-Yueh Chang，Tyng-Luh Liu，and Shang-Hong Lai.从共同显着性到共同分割：一个有效且完全不受监督的能量最小化模型。CVPR，2011。[4] 陈信义，林燕玉，陈炳玉。用于鲁棒特征匹配的联合分割引导Hough变换。TPAMI，2015。[5] Minsu Cho ，Suha Kwak ，Cordelia Schmid ，and JeanPonce.野外无监督对象发现和定位：基于部分的匹配与自底向上的CVPR，2015。[6] Edo Collins Radhakrishna Achanta和SabineSu？ sstrunk用于概念发现的深度特征分解在ECCV，2018。[7] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR，2016年。[8] Jifeng Dai，Ying Nian Wu，Jie Zhou，and Song-ChunZhu.基于无监督学习的共分割和cosketch。InICCV，2013.[9] 放大图片作者：Mark Everingham ，Luc Van Gool ，Christopher K. I. Williams ， John Winn ， and AndrewZisserman. Pascal Visual Object Classes（VOC）IJCV，2010年。[10] Deng-Ping Fan，Ming-Ming Cheng，Jiang-Jiang Liu，Shang- Hua Gao，Qibin Hou，and Ali Borji.显着的对象在clut- ter：把显着的对象检测到前景。在ECCV，2018。[11] 范若尘，侯启斌，程明明，穆泰江，胡世民。S4Net：单阶段显著实例分割。在CVPR，2019年。[12] H. Fu，D.徐湾，澳-地Zhang，S.Lin和R.病房基于多状态选择图的多前景视频对象联合分割。TIP，2015年。[13] 韩俊伟，全荣，张定文，聂飞平基于背景先验的鲁棒目标联合分割TIP，2018年。[14] BharathHariharan、 PabloArbelaez、LubomirBourdev、Subhransu Maji和Jitendra Malik。从反向检测器的语义轮廓见ICCV，2011年。[15] 巴拉斯·哈里哈兰，巴勃罗·阿贝莱兹，罗斯·格希克，还有吉坦德拉·马利克.同时检测和分割。2014年，在ECCV[16] Zeeshan Hayder，Xuming He，and Mathieu Salzmann.边界感知实例分割。在CVPR，2017年。[17] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面罩R-CNN。InICCV，2017.[18] 许光瑞、林燕玉、庄永玉。用于推断边界框中对象轮廓的增广多实例回归TIP，2014年。[19] 许光瑞、林燕玉、庄永玉。使用多个特征描述符和匹配引导的邻域进行 RO-BUST 图像对齐。 CVPR ，2015。[20] 许光瑞、林燕玉、庄永玉弱监督显着性检测与类别驱动的地图生成器。在BMVC，2017年。[21] 许光瑞、林燕玉、庄永玉。用于无监督对象共分割的共注意CNN在IJCAI，2018。[22] 许光瑞，蔡中奇，林燕玉，钱小宁，庄永玉。无监督的基于CNN的协同显着性检测与图形优化。在ECCV，2018。[23] 胡元婷，陈洪硕，惠可欣，黄佳斌，亚历山大·施维因。SAIL-VOS：语义非模态实例级视频对象分割-合成数据集和基线。在CVPR，2019年。[24] 胡元婷，黄家斌，亚历山大·施温。MaskRNN：实例级视频对象分割。在NIPS，2017年。[25] 胡元婷和林燕宇渐进式特征匹配与替代描述符选择和对应丰富。在CVPR，2016年。[26] 炎黄、魏王、梁王。使用选择性多模态LSTM进行实例感知图像和句子匹配在CVPR，2017年。[27] 蔡剑飞，卢江波，袁俊松.对象协同分割。在CVPR，2017年。[28] Koteswar Rao Jerripothula ， Jianfei Cai ， and JunsongYuan.基于显著性联合融合的图像联合分割TMM，2016.[29] 迪德里克·金马和吉米·巴。亚当：随机优化的一种方法。见ICLR，2014年。[30] 舒空和查尔斯·福克斯。用于实例分组的递归像素在CVPR，2018年。[31] Donghoon Lee，Sifei Liu，Jinwei Gu，Ming-Yu Liu，Ming-Hsuan Yang，and Jan Kautz.对象实例的上下文感知合成和放置。在NIPS，2018年。[32] 李冠斌、元燮、梁琳、益州余。实例级显著对象分割。在CVPR，2017年。[33] Weihao Li，Omid Hosseini Jafari，and Carsten Rother.深度对象共分割。在ACCV，2018年。[34] Xin Li ， Fan Yang ， Hong Cheng ， Wei Liu ， andDinggang Shen.用于显著对象检测的轮廓知识传递。在ECCV，2018。[35] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。在CVPR，2017年。[36] 梁晓丹，魏云超，沈晓辉，杨建超用于实例级对象分割的无建议网络。TPAMI，2018年。[37] 林宗义，迈克尔·梅尔，塞尔日·贝隆吉，卢博米尔·布尔德夫，罗斯·吉希克，詹姆斯·海斯，彼得·佩罗纳，德瓦·拉马南，C. 劳伦斯·齐特尼克和彼得·多尔·拉尔。MicrosoftCOCO：上下文中的公共对象。2014年，在ECCV[38] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络。在CVPR，2018年。[39] Yiding Liu ， Siyu Yang ， Bin Li ， Wengang Zhou ，Jizheng Xu，Houqiang Li，and Yan Lu.用于实例分割的有限性推导和图合并。在ECCV，2018。8856[40] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分割的完全卷积模型CVPR，2015。[41] Zhiming Luo ， Akshaya Mishra ， Andrew Achkar ，Justin Eichel，Shaozi Li，and Pierre-Marc Jodoin.用于显著对象检测的非局部深度特征。在CVPR，2017年。[

下载后可阅读完整内容，剩余1页未读，立即下载