基于像素间关系的实例分割方法及图像级类标签的监督学习方法

64 浏览量更新于2023-10-19 收藏 2.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2209基于像素间关系Jiwoon AhnDGIST，KakaoCorp.jyun@dgist.ac.krChoSunghyun*DGISTscho@dgist.ac.kr郭淑华*POSTECHsuha. postech.ac.kr摘要本文提出了一种新的学习实例分割的方法与图像级的类标签作为监督。我们的方法生成训练图像的伪实例分割标签，用于训练完全监督模型。为了生成伪标签，我们首先从图像分类模型的注意力图中识别对象类的置信种子区域，并传播它们以发现具有准确边界的整个实例区域。为此，我们提出了IRNet，估计粗糙的区域的个别实例和检测边界之间的不同对象类。因此，它能够将实例标签分配给种子并在边界内传播它们，使得实例的整个区域可以被准确地估计此外，IRNet是用注意力地图上的像素间关系训练的我们使用IRNet的方法在PASCAL VOC 2012数据集上实现了出色的性能，不仅超过了以前用相同水平的监督训练的最先进的模型，而且还超过了以前依赖于更强监督的一些模型。1. 介绍实例分割是联合估计各个对象的类标签和分割掩码的任务。与其他视觉识别任务一样，卷积神经网络（CNN）的监督学习推动了实例分割的最新进展[7，9，10，16，17，23，30，35]。由于深度CNN的数据饥渴性质，这种方法需要大量带有地面真实标签的训练图像，这些标签通常是手工给出的。然而，逐实例分段掩码的手动注释是极其耗时的，这导致现有数据集在类别多样性和注释数据量方面受到限制。因此，学习可以处理现实世界中的不同对象类的实例分割模型*共同通讯作者。缓解这个问题的一种方法是弱监督学习，它采用比实例分割掩码更弱且更便宜的标签作为监督。由于弱标签的低注释成本，这类方法可以利用不同对象的更多训练图像例如分割，边界框已被广泛用作弱标签，因为它们提供了对象的所有属性，除了形状[22，41]。然而，它仍然是昂贵的，以获得框标签的各种类别在大量的图像，因为它们是手动注释。为了进一步降低注释成本，可以利用图像级类别标签来学习实例分割，因为这样的标签在大规模图像分类数据集中是容易获得的，例如，ImageNet [42].此外，尽管图像级类别标签仅指示对象类别的存在，但它们可用于获得用于实例分割的强线索，称为类别注意力地图（CAM）[37，43，45，49]。CAM通过调查局部图像区域对类别的分类得分的贡献来粗略地估计每个类别的面积。然而，CAM不能直接用作实例分割的监督，因为它们具有有限的分辨率，通常仅突出显示对象的部分区域，并且最重要的是，不能区分同一类的不同实例为了解决这个问题，最近的一种方法[50]将CAM与现成的分割建议技术[2]结合在一起，但是必须在外部数据集上单独训练，并进行额外的监督。在本文中，我们提出了一种使用图像级类别标签学习实例分割的新方法，该方法优于以前使用相同监督水平训练的最先进方法[50]，甚至是一些依赖于更强监督的方法[16，22]。此外，与以前的方法不同，它既不需要额外的监督，也不需要任何分割建议[16，50]。我们的方法在给定图像级标签的情况下生成训练图像的伪实例分割标签，并使用伪标签训练已知的CNN模型。为了生成伪标签，它利用CAM，但如前所述，它们既不能区分不同的实例，也不能找到2210⋮实例CAM成对亲和力实例映射班级注意力地图类边界映射位移场像素间关系网络语义传播对于每个实例式CAMArgmax对于每个像素图像分类网络类标签实例标签合成实例分段标签图1.概述我们的框架，用于生成伪实例分割标签。具有精确边界的整个实例区域。为了克服CAM的这些限制，我们引入了像素间关系网络（IRNet），其用于估计与CAM互补的两种类型的附加信息：类不可知实例映射和成对语义亲和性。类无关实例映射是一个粗略的实例分割掩码，没有类标签也没有准确的边界。另一方面，一对像素之间的语义相似度是它们之间的类等价性通过将实例不可知的CAM与类不可知的实例映射相结合，我们获得了实例方面的CAM，这反过来又通过基于相邻像素之间的语义亲和力将它们的注意力分数传播到相关区域在增强之后，通过在每个像素处选择在逐实例CAMS中具有最高注意力分数用于标记合成的整个程序在图1中示出。1.一、IRNet有两个分支，分别估计实例映射和语义亲和度。第一分支预测位移向量场，其中每个像素处的2D向量指示该像素所属的实例的质心。通过将相同的实例标签分配给其位移矢量指向相同位置的像素，将位移场转换为实例贴图。第二个分支检测不同对象类之间的边界。然后以这样的方式从检测到的边界计算成对语义亲和度：由强边界分开的两个像素被认为是具有低语义亲和度的一对此外，我们发现IRNet可以有效地训练来自CAM的像素间关系。具体来说，我们收集具有高注意力分数的像素，并使用所收集像素之间的位移和类等价性来训练IRNet。因此，除了图像级类别标签之外，不需要监督。本文的贡献有三个方面：• 我们提出了一种新的方法来识别和定位通过类不可知的实例映射，使用映像级监督来管理实例。这使得实例分割没有现成的分割建议。• 我们提出了一种新的方法来学习和预测像素之间的语义相似性与图像级的监督，通过类边界检测，这是更有效的，比以前的工作更有效率[1]。• 在PASCAL VOC 2012数据集[12]上，我们的模型大大优于以前在相同监督水平下训练的最先进模型[50]。还有，它甚至超越了以前基于更强监督的模型，如使用边界框标签的SDI [22]和使用完全监督的早期模型SDS [16]2. 相关工作本节回顾与我们的方法密切相关的语义和实例我们首先介绍了弱监督的方法，这两项任务，并讨论模型的基础上的想法类似的位移场和成对的语义亲和力，我们的框架。弱监督语义分割：对于语义分割的弱监督，已经使用了各种类型的弱标签，例如边界框[8，38]，涂鸦[27，44]和点[3]。特别地，图像级类别标签已被广泛用作弱标签，因为它们需要最小的或不需要注释的努力[1，11，19，20，36，39，40，45，50]。大多数使用图像级监控基于CAM [37，43，49]，CAM通过吸引注意力来粗略地定位对象区域对象类的区别部分。然而，CAM通常不能以准确的边界揭示整个对象区域。为了解决这个问题，已经利用额外的数据或监督来获得额外的证据，如显着性[20，36]，视频中的运动[19，39]和类别不可知的对象建议[40]。最近的方法解决了这个问题，没有外部信息，挖掘复杂的，22112倍下采样1x1转换，2561x1转换，2561x1转换，2561x1转换，2561x1转换，2561x1转换，64ResNet50Level5级别4Level3level2level11x1转换，2561x1转换，2561x1转换，2561x1转换，2561x1转换，641x1转换，2562倍上采样4倍上采样级联位移场类边界映射Ccc，迭代地关注[20，45]或基于像素之间的语义相似性传播CAM[1]。弱监督实例分割：例如分割，边界框已被广泛用作弱标签。由于边界框告知对象的确切位置和尺度，因此使用框标签的弱监督模型主要关注于估计对象形状。例如，在[22]中，GraphCut与通用边界检测[48]相结合此外，在[41]中，通过对抗学习[14]训练对象形状估计，使得通过将估计的对象区域剪切并粘贴到随机背景而生成的伪图像同时，具有图像级类别标签的弱监督实例分割很少被研究，因为这是一个显着不适定的问题，其中监督不提供任何实例特定的信息。为了解决这个挑战问题，最近的一种方法[50]检测类注意力的峰值以识别单个实例，并将它们与高质量的分割建议[2]相结合，以揭示整个实例区域。然而，该方法的性能在很大程度上取决于分割程序的性能，分割程序必须使用具有高级监督的额外数据进行训练。相比之下，我们的方法既不需要现成的建议，也不需要额外的监督，它大大超过了以前的工作[50实例位置的逐像素预测逐像素1x1转换，21x1转换，2561x1转换，256图2. IRNet的整体架构我们的方法与[1]具有相同的动机，但我们的IRNet可以通过检测类边界来更有效地学习和预测亲和力。3. 班级注意力地图CAM在我们的框架中扮演两个重要角色。首先，它们用于定义实例的种子区域，实例位置的预测在文献中已被证明对于实例分割是有效的。在[26]中，以逐像素方式预测每个像素所属的实例边界框的坐标，使得具有相似框坐标的像素被聚类为单个实例掩码。这个想法在[21，35]中得到了进一步的探索，它预测了实例质心而不是框坐标。我们基于位移场的方法与[21，35]有相同的想法，但它只需要图像级监督，而以前的方法是用实例分割标签训练的。像素之间的语义相似性：像素之间的成对语义亲和力已被用于提高语义分割的质量。在[4，6]中，用于语义分割的CNN与计算像素的语义亲和力矩阵的可微模块结合，并且以具有完全监督的端到端方式进行训练。在[4]中，预测的亲和矩阵被用作随机游走的转移概率矩阵，而在[6]中，它被嵌入到卷积解码器[34]中，以鼓励局部像素在推理期间具有相同的标签。最近，已经提出了一种弱监督模型来学习与图像级类别标签的成对语义亲和力[1]。该模型为每个像素预测一个高维嵌入向量，一对像素之间的亲和度被定义为它们的嵌入向量之间的相似度。以将整个实例区域恢复为在[1，24]中。第二，它们是学习IRNet的监督源;通过仔细地利用CAM，我们提取可靠的像素间关系，从该关系中训练IRNet。为了生成用于训练图像的CAM，我们采用[49]的方法，使用具有全局平均池的图像分类CNN，然后是分类层。给定图像，地面实况类c的CAM通过下式计算：M（x）=φf（x）maxxφf（x）其中f是来自CNN的最后一个卷积层的特征图，x是f上的2D坐标，并且φc是类c的分类权重。此外，用于不相关类的CAM被固定为零矩阵。我们采用ResNet50[18]作为分类网络，并将其最后一个下采样层的步长从2减小到1，以防止CAM的分辨率进一步下降。结果，CAM的宽度和高度是输入图像的宽度和高度的1/164. 像素间关系网络IRNet旨在提供两类信息：位移向量场和类边界图，这两者又被用来估计来自CAM的伪实例掩码。本节介绍IRNet架构2212以及使用CAM作为监督的模型学习策略。如何使用IRNet生成伪标签将在第2节中说明。五、4.1. IRNet架构IRNet有两个输出分支，分别预测位移向量场和类边界图。其架构如图所示。二、这两个分支共享相同的ResNet50主干，这与第二节中的分类网络相同。3 .第三章。作为输入，两个分支都从主干的所有五个级别1获取特征图。两个分支的所有卷积层都遵循组归一化[47]和ReLU，除了（一）（c）第（1）款马人BG未知（b）第（1）款（d）其他事项正负忽略最后一层两个分支的细节描述如下。位移场预测分支：首先将1×1卷积层应用于每个输入特征图，如果信道数大于256，则信道数减少到256。在它们之上，我们附加了一个自上而下的路径方式[28]来迭代地合并所有的特征图，这样低分辨率的特征图被上采样两次，与相同分辨率的特征图相协调，并由一个1×1卷积层。最后，从最后一个连接的图3.我们的像素间关系挖掘过程的可视化。(a)CAMs. (b)对象类的可信区域。(c)局部邻域内的伪类标签映射（d）中心与其他中心之间的类等价每个像素的最佳得分。最后，我们从细化的置信区域中采样相邻像素对，并根据它们的类等价性将它们分类为两个集合P+和P-，特征图，位移场通过三个1×1卷积层解码，其输出具有两个通道。边界检测分支：我们首先应用1×1卷积-.P=（i，j）|<$x i− x j<$2<γ，<$i.P+氯代苯Σj，（2）Σ（三）=（i，j）|M（xi）= M（xj），（i，j）∈ P，对每个输入特征图进行降维然后，将结果调整大小、连接并馈送到P−= .（i，j）|M（xi）M∈（xj），（i，j）∈PΣ、（四）最后一个1×1卷积层，它产生一个类界-从连接的特征的ary映射。其中γ是限制一对的最大距离的半径我们进一步将P+分为P+和P+，FG BG4.2. 基于CAM的像素间关系挖掘像素间关系是训练IRNet的唯一监督，因此可靠地收集它们非常重要。定义了像素对之间的两种关系：像素对坐标间的位移关系和像素对的类位移可以很容易地通过一个简单的减法计算，但类等价不是因为像素类标签没有在我们的弱监督设置。因此，我们仔细利用CAM预测像素级伪类标签，并从中获得可靠的类等价关系。我们的方法的整个过程如图所示。3.第三章。因为摄像头很模糊而且-十分不准确，我们首先识别具有确信的前地/背景注意力分数的区域。具体地，我们收集具有大于 0 的注意力分数的像素。三是前--接地像素，并且小于0。05作为背景像素。请注意，我们不关心置信区域之外的像素在这个过程中。然后通过密集CRF [25]对每个置信区域进行细化，以更好地估计对象形状。然后，我们通过选择类来构造伪类映射M2213对和背景对，分别。4.3. 位移场预测IRNet 的第一个分支预测一个位移向量场D∈Rw×h×2，其中每个2D向量指向相关实例的质心虽然在我们的设置中没有给出地面真实质心，但我们认为D可以通过像素之间的位移隐式地学习，同一个班级。D是位移场有两个条件首先，对于属于同一实例的一对像素位置xi和xj，它们的估计质心必须相同，i。e. ，xi+φD（xi）=xj+D（xj）. 其次，根据质心的定义，对于每个实例，xD（x）=0为了满足第一个条件，我们首先假设一对由于它们是在小半径γ内采样的，因此附近像素（i，j）∈ P+的可能是相同的。然后，给定这样的对（i，j），我们的目标是用它们的图像坐标位移δ（i，j）= x j − x i来近似它们的图像坐标位移δ（i，j）=xj− xi。D中的差由δ（i，j）=D（xi）-D（xj）表示。在在δ=δ的理想情况下，将保持xi+D（xi）=xj+D（xj）对于相同实例的所有（i，j）这意味1在[18]中，级别意味着共享相同输出大小的一组残差单元然而，在我们的主干中，level4和level5的输出大小是相同的，因为最后一个下采样层的步幅被减小到1。D（x）是表示相应质心的位移矢量。为了学习D，使用在第2节中获得的像素间关系。4.2，我们最小化L1之间的损失2214FGFGBGBGFGFGBGΣBG..FGBG质心δ（i，j）和δ（i，j）：LD =1。.FG|P+|（i，j）∈P+. δ（i，j）− δ（i，j）. .（五）第二个条件，另一方面，不明确鼓励方程。（五）、然而，我们认为，IRNet仍然可以学习预测位移向量指向粗糙的质心的实例，由于初始网络参数的随机性。直观地说，初始随机位移向量已经可能满足第二个条件，并且IRNet的训练收敛到仍然满足该条件的局部最小值。类似的php-在[35]中观察到了nomenon然后通过从D中减去D的平均值来进一步细化位移向量。此外，我们消除平凡的质心估计从后面-由于背景的质心是不确定的，并且可能干扰上述过程，因此，为此，我们最小化背景像素的以下损失：图4.从类边界映射导出两两语义相似度（左）输入图像。（中心）类别边界图。（右）随机游走后从中心开始的标签传播。图5.正在检测实例质心。（左）输入图像。（中心）初始位移场。（右）细化的位移场和检测到的质心。其中三个单独的损失在正常化后被合计-由于P+、P+和P−的种群显著增加，D1FG BGLbg= |P+|（i，j）∈P+|.|.（六）总体上不平衡。通过Eq.（8）我们可以隐式地学习具有像素间类等价关系B。在这方面，Eq.（8）可以被认为是一个MIL ob-4.4. 类边界检测给定一幅图像，IRNet的第二个分支检测不同类别之间的边界，输出由B ∈[0，1]w×h表示。虽然在我们的设置中没有给出类边界的地面真值标签，但我们可以用pix之间的类等价关系来训练第二个分支多实例学习（MIL）目标。关键假设是类边界存在于具有不同伪类标签的一对像素之间的某个位置。为了实现这一想法，我们表示两个像素之间的类边界的存在的语义亲和力。对于一对像素xi和xj，我们将它们的语义定义为：aij=1−maxB（xk）（7）k∈Πij其中，xi，j是xi和xj之间的线上的一组pi x el。我们利用像素之间的类等价关系作为学习aij 的监督。具体地说，类方程-两个像素之间的灰度被表示为二进制标签，如果它们的伪类标签相同，则该二进制标签的值为1，否则为0。然后，通过最小化二元亲和标签的独热向量与等式中的预测亲和度之间的交叉熵来学习亲和度。（7）：其中，是潜在边界像素的包。4.5. 两科联合学习IRNet的两个分支通过同时最小化我们之前定义的所有损失来联合训练：L=LD+LD+ LB（九）请注意，上述损失是类不可知的，因为P+和P-只考虑像素之间的类等价性，而不是它们各自的类标签。这使得我们的方法UTI-每个类包含更多的像素间关系，有助于提高IRNet的泛化能力。5. 基于IRNet的为了合成伪实例标签，IRNet的两个输出D和B分别被转换为类不可知的实例映射和成对的亲和度。其中，可以通过等式（1）从B直接导出色亲和度。（7）如图所示。4，而D的转换由于其不准确的估计而不是直接的。本节首先介绍如何将D转换为实例映射，然后介绍如何生成伪实例分割标签使用实例映射和语义关联。ΣLB=−我爱你− Σ我爱你5.1. 生成类不可知的实例映射（i，j）∈P+ 2|P+|（i，j）∈P+2|P+|类不可知的实例映射I是w×h2D映射，其中每个元素都是与Σ−（i，j）∈P−log（1−aij）（8）|P−|元素。如果D是以完美的精度估计的，则I可以简单地通过将位移向量指向相同质心的像素分组来获得。然而，D经常失败。2215狗狗猫猫奶牛奶牛狗狗一IJ5.2. 合成实例分段标签（a）为了生成伪实例掩码，我们首先组合具有类不可知实例映射的CAM，如下所示：.（b）第（1）款木村（x）=Mc（x）如果I（x）=k，否则，（十一）其中，M<$ck是类c和实例k的按实例的CAM。每个实例式CAM通过将其注意力分数传播到相关区域来单独细化。具体-（c）通常，传播是通过随机游走完成的，其传输是随机的。位置概率矩阵由语义相似度矩阵A=[aij]∈Rwh×wh导出如下：Σ（d）其他事项T=S−1Aβ，其中Sii=βJ（十二）（e）图6.PASCAL VOC 2012训练集上的伪实例分段标签示例（a）输入图像。（b）反倾销措施。（c）分布场。(d)类边界映射。(e)伪标签。预测到质心的精确偏移，因为IRNet是用来自CAM的不完整监督进行训练的。为了解决这个问题，通过下式迭代地细化DDu+1（x）=Du（x）+D（x+Du（x））x，（10）其中u是迭代索引，D0是IRNet给出的初始位移场。每个位移向量都是通过在当前估计的质心位置处添加位移矢量来迭代地精细化。由于质心附近的位移矢量在幅度上趋于几乎为零，因此细化在有限次数的迭代内收敛。细化的效果在图1中示出。五、由于通过改进的D估计的质心通常仍然是分散的，我们考虑一小群邻居，将像素而不是单个坐标作为质心。为此，我们首先识别D中位移向量大小较小的像素，并将其视为候选质心，因为真实质心周围的像素将具有接近零的位移向量。然后每个连通分量将候选人视为质心。请注意，候选项往往被很好地分组为几个连接的分量，因为位移向量在局部邻域内平滑地变化，如图2所示。五、2216ckck并且A◦β是A到β的Hadamard幂，并且S是A◦β的行归一化的对角矩阵。此外，β >1是用于平滑A中的亲和度值的超参数。然后通过下式进行具有T的随机游走传播：vec（M<$c）=Tt·vec（M<$ck（1−B）），（13）其中t表示迭代次数，k是Hadamard乘积，并且vec（·）表示向量化。我们通过乘以（1-B）来惩罚边界像素的分数，因为那些孤立的像素不将其分数传播到邻居，因此与其他人相比具有过高的分数。然后通过选择最大化的c和k的组合M（x）foreachpi x elx. 如果最大得分小于底部25%，像素被视为背景。6. 实验我们的框架的有效性在PASCAL VOC 2012数据集上得到了证明[13]，我们的框架为训练图像生成伪标签，并使用图像及其伪标签训练完全监督模型我们评估我们的伪标签的质量以及使用它们训练的模型的性能。由于我们的伪标签也可以用于训练语义分割模型，因此对实例分割和语义分割都进行了评估6.1. 实验环境数据集：我们在PAS- CAL VOC 2012 [12]数据集上训练和评估我们的框架。虽然数据集包含语义分割和实例分割的标签，我们只利用图像级的类标签。按照通常的做法，通过增加[15]中提出的图像集来扩展训练集总共有10，582张图像用于训练，1，449张图像用于验证。221750方法Miou凸轮8.6CAM +类边界34.1CAM +位移场+类边界（我们的）37.7表1.在PASCAL VOC 2012训练集上评估的APr凸轮Prop. w/ AffinityNet [1]Prop. w/ IRNet（我们的）48.359.366.5表2.mIoU中伪语义分割标签的质量，在PASCAL VOC 2012训练集上超参数设置：限制等式（1）中的对γ的搜索空间的半径当训练时，公式（2）被设置为10等式1中的随机游走迭代次数（13）固定为256。等式（1）中的超参数β（12）被设置为10。方程中D的迭代更新（10）做100次。网络参数优化：我们采用随机-梯度下降法用于网络优化。学习率初始设置为0.1，并在每次迭代时以多项式衰减减小[32]。IRNet的主干在训练期间被冻结，位移场分支接收的梯度被放大10倍。与AffinityNet比较：为了进行公平的比较，我们修改了AffinityNet [1]，将其主干替换为我们的IRNet 中的ResNet50 。然后，我们比较 IRNet 与修改后的AffinityNet在以下方面的准确性：伪分割标签（表2）和使用这些伪标签训练的DeepLab[5]的性能（表4）。6.2. 伪标签实例分段标签：伪实例分割标签的一些定性示例如图所示。6，以及IRNet各分支的贡献在表1中分析了对标签质量的影响。在表1中的“CAM”的在表1中的“CAM +类边界”的情况下我们评估了每种方法的平均精度（AP）的性能。为了评估AP，每个检测到的实例的分数被给出为其掩码内的最大类分数。如表中所示，利用类边界映射有效地将伪标签的质量提高了25%以上，因为它有助于恢复CAM中丢失利用位移场表3.PASCAL VOC 2012val集上的实例分割性能监理类型（补充）指示：I-方法辅助核算额外数据/信息Val测试美国证券交易委员会[24]我-50.7 51.7AffinityNet [1]我-58.7-PRM [50]我MCG [2]53.4-[19]第十九话我YouTube视频58.1 58.7MDC [46]我Ground-truth背景60.4 60.8[第20话]我MSRA-B [31]61.4 63.2[27]第二十七话S-63.1-免费WiFi [8]B-62.0 64.6SDI [22]BBSDS [33]65.7 67.5上界F-72.372.5我们的-ResNet50我-63.564.8表4. PASCAL VOC 2012验证集和测试集上的语义分割性能。监督类型（Sup.）指示：I-图像级标签，B -边界框，S -涂鸦，F -分割标签。语义分割标签：我们的框架的简化版本，它跳过了实例CAM生成步骤，产生了用于语义分割的伪标签。在这方面，我们将我们的框架与语义分割标签合成中的先前最先进的AffinityNet [1]进行了比较。与我们的相似，AffinityNet也进行语义传播，以使用预测的成对语义亲和力来增强CAM表2将我们的伪分割标签的质量与AffinityNet [1]的质量进行了比较。由于IRNet预测的成对语义相似度的卓越质量，我们的伪标签的准确性大大高于AffinityNet6.3. 用于实例分割的Mask R CNN我们评估了一个实例分割网络的性能，该网络使用我们的框架生成的伪标签进行训练。为了进行评估，我们采用了Mask R-CNN [17]，这是最先进的实例分割网络之一，以ResNet-50-FPN [28]作为其骨干。图7显示了使用我们的伪标签训练的Mask-RCNN的定性结果，表3将其性能与APr2 [16]中以前的方法进行了比较。如表3所示，我们的性能大大优于PRM [50]，后者是最先进的，也使用图像级监督。我们的方法甚至优于SDI [22]，它使用边界框监督，1.9%，SDS [16]，它使用完全监督，在APr中为2.9%。进一步提高了3.6%的性能，因为它有助于dis-50区分同一个类的不同实例。2APr表示不同IoU阈值下的掩码的平均精度。方法辅助核算额外数据/信息APR50APR70PRM [50]我MCG [2]26.8-SDI [22]BBSDS [33]44.8-SDS [16]FMCG [2]43.8 21.3MRCNN [17]FMS-COCO [29]69.0-我们的-ResNet50我-46.723.52218图7.我们的实例分割模型在PASCAL VOC 2012val集上的定性结果图8. PASCAL VOC 2012val集上嗅觉分割的定性结果。（顶部）输入图像。（中）Groundtruth Semantic Segmentaton。（下）我们的ResNet50结果。6.4. DeepLab的语义分割我们通过使用我们的伪语义分割标签训练DeepLabv2-ResNet 50 [5]来进一步探索我们框架的有效性图8显示了通过我们的方法获得的语义分割结果，表4将我们的方法与其他弱监督方法进行了比较。我们的方法优于依赖于相同水平的监督的先前技术，并且甚至与利用更强的边界框监督的Box-Sup [8]竞争。此外，它还恢复了完全监督对应物的88%，这是它可以实现的上限。7. 结论具有图像级监督的弱监督实例分割由于缺乏实例特定信息而是显著不适定的问题。为了解决这个具有挑战性的问题，我们提出了IRNet，一种新颖的CNN ar-识别单个实例并估计其粗略边界的架构。由于IRNet提供的证据，简单的类注意力可以显着改进，并用于训练完全监督的实例分割模型。在Pascal VOC 2012数据集上，使用我们的伪标签训练的模型在实例和语义分割方面都达到了最先进的性能。鸣谢：这项工作得到了韩国创意内容机构的支持文化、体育和旅游部（MCST）、基础科学研究计划和下一代信息计算开发计划，这些项目由韩国科学院ICT资助的韩国国家研究基金会实施（ NRF-2018R1C1B6001223 、 NRF- 2018R1A5A1060031 、NRF-2017M3C4A7066316）。这是也得到了DGIST启动基金计划（2018010071）的支持。2219引用[1] J. Ahn和S.夸学习像素级语义亲和力与图像级监督弱监督语义分割。 IEEE 计算机视觉与模式识别会议（CVPR），2018年。[2] P. Arbela' ez，J.Pont-Tuset，J.Barron，F.Marques和J.妈-喜欢多尺度组合分组IEEE计算机视觉和模式识别会议（CVPR），2014年6月。[3] A. Bearman，O.Russakovsky，V.Ferrari和L.飞飞重点是什么：基于点超视的语义分割。欧洲计算机视觉会议（ECCV），2016年。[4] G. 贝尔塔修斯湖Torresani，S.X. Yu和J.石卷积语义图像分割的随机游走网络。IEEE计算机视觉和模式识别会议（CVPR），2017年7月。[5] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE TransactionsonPatternAnalysisandMachineIntelligence（TPAMI），2017年。[6] Y. 成河，巴西-地蔡氏Z.Li，X.Zhao和K.煌地点-用于RGB-D室内语义分割的具有门控融合的敏感反卷积网络IEEE计算机视觉和模式识别会议（CVPR），2017年7月。[7] J. Dai，K.他，Y.Li，S.Ren和J.太阳实例敏感全卷积网络在proc 欧洲计算机视觉会议（ECCV），2016年。[8] J. Dai，K.He和J.太阳 BoxSup：利用边界框来监督用于语义分割的卷积网络在 proc IEEEInternational Conference on Computer Vision（ICCV），2015年。[9] J. Dai，K. He和J. Sun.卷积特征掩蔽联合对象和填充物分割。在Proc.IEEE Conference onComputer Vision and Pattern Recognition （ CVPR ），2015中。[10] J. Dai，K.He和J.太阳实例感知语义段通过多任务网络级联。在proc IEEE计算机视觉与模式识别会议（CVPR），2016年。[11] T. Durand，T.Mordan，N.Thome和M.线. 野猫：用于图像分类、逐点定位和分割的深度卷积网络的弱监督学习IEEE计算机视觉和模式识别会议，2017年7月。[12] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A.齐瑟曼。Pascal Visual Object Classes（VOC）挑战赛。国际计算机视觉杂志（IJCV），2010年。[13] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I. 威廉斯，J.温和A.齐瑟曼。PASCAL Visual Object Classes Challenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊[14]I. J. Goodfellow，J. Pouget-Abadie，M.米尔扎湾，澳-地许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。根-交互对抗网神经信息处理系统（NIPS），2014年。[15]B. 哈里哈兰山口阿尔韦湖Bourdev，S.Maji和J.马利克从反向检测器的语义轮廓。IEEEInternational Conference onComputer Vision（ICCV），2011年。[16]B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J.马利克模拟-皮肤检测和分割。在proc European Conference on ComputerVision（ECCV），第297-312页，2014年。[17]K. 他，G. Gkioxari，P. Doll a'r和R. 娘娘腔。面具r-cnn。在proc IEEE国际计算机视觉会议（ICCV），2017。[18] K.他，X。Zhang，S. Ren和J. Sun.深度残差学习用于图像识别。IEEE计算机视觉与模式识别会议（CVPR），2016年6月[19] S. Hong，D. Yeo，S. Kwak，H. Lee和B.韩弱苏-使用网络抓取视频的监督语义分割。在Proc. IEEE计算机视觉和模式识别会议（CVPR），第2224-2232页[20] Z. Huang，X.Wang，J.Wang，W.Liu和J.王. 微弱地-基于深度种子区域生长的监督语义分割网络IEEE计算机视觉和模式识别会议（CVPR），2018年。[21] A. Kendall，Y. Gal和R.西波拉多任务学习用户-使用不确定性来权衡场景几何和语义的损失。在procIEEE计算机视觉和模式识别会议（CVPR），2018年。[22] A. 霍雷瓦 R. 本纳森， J. 宝相 M. 海因，还有B.席勒简单做到：弱监督实例和语义分割。IEEE计算机视觉和模式识别会议（CVPR），2017年。[23] A. Kirillov、E.列温科夫湾安德烈斯湾萨夫钦斯基，以及C.罗瑟即时切割：从边缘到实例与多-康涅狄格州。IEEE计算机视觉与模式识别会议（CVPR），2017年。[24] A. Kolesnikov和C.H. 蓝伯特播种，扩展和控制-应变：弱监督图像分割的三个原则。在Proc.欧洲计算机视觉会议（ECCV），2016年。[25] P. Kr aühenbuühl和V. 科尔顿充分条件下的有效推理具有高斯边缘势的连接的CRF 在proc 神经信息处理系统（NIPS），2011年。[26] X. 梁湖，加-地Lin，Y.Wei，X.Shen，J.Yang和S.燕.用于实例级语义对象分割的无提议网络 IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），2018。[27] D. Lin，J. Dai，J. Jia，K.He和J. Sun.乱涂乱画-Super ： Scribble-supervised convolutional networks forseman- tic segmentation.IEEE计算机视觉与模式识别会议（CVPR），2016年。[28] T.- Y. Lin，P.多尔河格希克角他，B.Hariharan和S.贝隆吉用于对象检测的特征金字塔网络。IEEE计算机视觉与模式识别会议（CVPR），2017年。[29] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan，P. Doll a'r和C. L. 齐特尼克MicrosoftCOCO：上下文中的常见对象。欧洲计算机视觉会议（ECCV），2014年。[30]S. Liu，X. Qi，J. Shi，H. zhang和J.贾多尺度面片聚合（MPA）的同时检测和分段-2220位置。IEEE计算机视觉与模式识别会议（CVPR），2016年。[31] T. 刘，J.太阳，N.N. Zheng，X.Tang和H.Y. 沈学习-以检测显著对象。IEEE计算机视觉和模式识别会议（CVPR），2007年。[32] W. Liu，中国粘蝇A. Rabinovich和A. C.伯格。Parsenet：寻找看得更清楚。arXiv预印本arXiv：1506.04579，2015。[33] D.马丁角，澳-地Fowlkes，D.塔尔和J·马利克数据库及其在评价分割算法和测量生态统计中的应用。IEEEInternationalConferenceonComputerVision（ICCV），2001年。[34] H. Noh，S. Hong和B.韩学习反卷积网进行语义分割。在Proc.IEEE International Conference onComputer Vision（ICCV），2015中。[35] D. Novotny，S. Albanie，D. Larlus，和A. 维达尔迪半卷积算子，例如分割。欧洲计算机视觉会议（ECCV），2018年。[36] S. J. 哦RBenenson，A.Khoreva，Z.Akata，M.Fritz和B. 席勒利用显著性从图像级标签进行对象分割IEEE计算机视觉与模式识别会议（CVPR），2017年。[37] M. 奥夸布湖博图岛Laptev和J.西维克物体是不是-免费的calization？- 用卷积神经网络进行弱监督学习。IEEE计算机视觉和模式识别会议（CVPR），2015年。[38] G. 帕潘德里欧湖C. Chen，K.Murphy和A.L. 尤尔。用于语义图像分割的DCNN的弱监督和半监督学习在proc IEEE国际计算机视觉

下载后可阅读完整内容，剩余1页未读，立即下载