弱监督语义分割中的图像间显著性关联

20 浏览量更新于2023-10-13 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

弱监督语义分割中的图像间显著性关联范若尘1[0000 - 0003 - 1991 - 0146]、侯启斌2[0000 - 0002 - 8388 - 8708]、程明明2[0000 - 0001 -5550 - 8758]、于刚3[0000 - 0001 - 5570 - 2710]、Ralph R.马丁4，胡世民1[0000−0001−7507−6542]1清华大学，北京，中国{frc16@mails.，shimin@}tsinghua.edu.cn2南开大学，天津，中国cmm@nankai.edu.cn，andrewhoux@gmail.com3Megvii Inc.，中国北京yugang@megvii.com4卡迪夫大学，卡迪夫CF243AA，英国ralph@cs.cardiff.ac.uk抽象。在图像级关键字注释和对应的图像像素之间有效地桥接是弱监督语义分割的主要挑战之一。在本文中，我们使用一个实例级的显着对象检测器，自动生成显着的实例（候选对象）的训练图像。利用从整个训练集中的每个显著实例中提取的相似性特征，我们构建了一个相似性图，然后使用图划分算法将其分成多个子图，每个子图与单个关键字（标签）相关联。我们的基于图分区的聚类算法允许我们考虑训练集中所有显着实例之间的关系以及其中的信息我们进一步表明，在注意力信息的帮助下，我们的聚类算法是能够纠正某些错误的作为，使更准确的结果。所提出的框架是通用的，并且可以结合任何最先进的全监督网络结构来学习分割网络。当与DeepLab一起进行语义分割时，我们的方法大大优于最先进的弱监督alter- natives，达到65。PASCAL VOC 2012数据集上的6%mIoU。我们还将我们的方法与Mask R-CNN结合起来进行实例分割，并首次证明了仅使用关键字注释的弱监督实例分割的能力保留字：语义分割，弱监督，图划分。1介绍语义分割是计算机视觉中最重要的任务之一，它为场景提供丰富的像素级标记卷积神经网络（CNN）的强大学习能力最近在这一领域取得了重大进展[5，27，29，46，47]。然而，这种基于CNN的方法的性能需要大量的被注释到像素级的训练数据，例如，PASCAL VOC [11]和MS COCO [28];收集这些数据非常昂贵。作为一种方法，以减轻像素精确的注释的需求，弱监督语义分割最近引起了极大的关注。这样的方法仅需要监督一个或多个实施例。2范若尘，侯启斌，程明明(a) 输入图像（b）显著实例（c）代理GT（d）输出结果图1：输入图像（a）被馈送到显著实例检测方法（例如，S4Net[12]）给出了（b）中以颜色示出的实例我们的系统通过将正确的标签分配给突出实例并拒绝噪声实例来自动生成传统的全监督语义/实例分割方法从这些代理地面实况数据中学习;在（d）中示出了最终生成的分割结果。以下种类：关键字[19，22，23，42，43]、边界框[36]、涂鸦[26]、点[2]等，使得注释数据的收集更加容易。在本文中，我们认为弱监督语义分割只使用图像级的关键字注释。在弱监督语义分割中，主要挑战之一是有效地在图像级关键字注释和对应的语义对象之间建立桥梁。大多数先前的最先进的方法集中于通过利用低级线索检测器来捕获像素级信息来从原始图像生成代理地面实况。例如，这可以使用显著性检测器[4，20，22，42]或注意力模型[4，42]来完成。因为这些方法只给出像素级的显著性/注意力信息，所以很难从产生的启发式线索中区分不同类型的语义对象。因此，区分语义实例的能力是必不可少的。随着显着性检测算法的快速发展，一些显着性提取器，如MSRNet[24]和S4Net[12]，现在不仅能够预测灰度显着对象，还能够预测实例级掩模。受这种实例级显著性对象检测器的优点的启发，在本文中，我们提出在早期显著性检测阶段，在S4Net的帮助下进行实例区分任务，大大简化了学习管道。图1（b）示出了由S4Net预测的一些实例级显著性图。为了利用突出实例掩码及其边界框，需要克服两个主要障碍。首先，图像可能被标记有多个关键字，因此为每个类别不可知的显著实例确定正确的关键字（标签）是必不可少的。例如参照图图1（b）：上部图像与两个图像级标签相关联：“羊”和“人”。将正确的标签分配给每个检测到的实例是困难的。其次，并非所有显著实例都由显著实例生成关联图像间显著性实例3检测器在语义上是有意义的;合并这样的噪声情况将降低下游操作的等级。例如，在图1中的下部图像在图1（b）中，在天空中出现明显的使用当前算法经常出现这样的实例和相关联的噪声标签。因此，在我们的方法中，识别和排除这种嘈杂的突出实例是重要的。上述两个障碍可以被认为构成标签分配问题，即，将显著实例（包括语义上有意义的实例和噪声实例）与正确的标签相关联。在本文中，我们考虑到一个显着实例的内在属性和整个训练集中所有显着实例之间的语义关系在这里，我们使用术语显著实例的内在属性来指代其（单个）感兴趣区域内的事实上，可以仅使用其固有属性来预测显著实例的正确标签：参见[19，22，42]。然而，除了每个感兴趣区域内的外观信息之外，所有显著实例之间也存在很强的语义关系：同一类别中的显著实例我们将在5.2节中说明，在标签赋值操作中考虑这个属性是很重要的。更具体地说，我们提出的框架包含一个注意力模块来预测属于某个类别的显着实例的概率，基于其内在属性。另一方面，为了评估语义关系，我们使用语义特征提取器，其可以预测每个显著实例的语义特征;共享相似语义信息的显著实例具有接近的语义特征向量。基于语义特征，建立相似度图，其中顶点表示显著实例，边权重记录一对显著实例之间的语义相似度我们使用一个图划分算法将图划分为子图，每个子图代表一个特定的类别。图划分过程被建模为混合整数二次规划（MIQP）问题[3]，可以找到全局最优解。其目的是使每个子图中的顶点尽可能相似，同时考虑到显着实例的内在属性。我们的方法提供了高质量的代理地面实况数据，可用于训练任何最先进的全监督语义分割方法。当使用DeepLab [5]进行语义分割时，我们的方法获得65的平均交集-并集（mIoU）。PASCAL VOC 2012测试集为6%，超过了当前最先进的水平。除了像素级语义分割之外，本文还首次展示了仅使用关键字注释的弱监督实例分割的能力，通过将我们的实例级代理地面实况数据拟合到最新的实例分割网络中，即，Mask R-CNN [14]. 综上所述，本文的主要贡献在于：– 在弱监督分割框架中首次使用显著实例，显著简化了对象辨别，并在弱监督下执行实例级分割。– 弱监督分割框架不仅利用显著实例内部的信息，而且利用整个数据集中所有对象之间的关系。4范若尘，侯启斌，程明明2相关工作虽然长期的研究已经考虑了完全监督的语义分割，例如，[5，27，29，46，47]，最近，弱监督语义分割已经脱颖而出。早期的工作，如[41]依赖于手工制作的特征，如颜色，纹理和直方图信息来构建图形模型。然而，随着卷积神经网络（CNN）方法的出现，这种传统方法已经逐渐被取代，因为它在具有挑战性的基准测试中的性能较低[11]。因此，我们只讨论基于CNN的弱监督语义分割工作在[32]中，Papandreou等人使用期望最大化算法[8]来基于注释的边界框和图像级标签执行弱监督语义分割。类似地，Qi等人。[36]使用多尺度组合分组（MCG）[35]生成的建议来帮助定位语义上有意义的对象。涂鸦和点被进一步用作额外的监督。在[26]中，Lin等人利用基于区域的图形模型，通过涂鸦提供地面实况注释来训练分割网络。 Bearman等人[2]类似杠杆从人工标注的点获取知识作为监督。其他作品仅依赖于图像级标签。Pathak等人。[33]通过引入一系列约束来解决弱监督语义分割问题Pinheiro等人[34]将这个问题视为多实例学习问题。在[23]中，设计了三个损失函数来逐渐扩大注意力模型[48]所定位的区域。 Wei等人[42]使用对抗擦除方案改进了这种方法，以获得更有意义的区域，从而为训练提供更准确的启发式线索。在[43]中，Wei等人提出了一个简单到复杂的框架，该框架使用[6，21]中的方法产生的显着图作为初始指南。侯等人。[19]通过将显着图[18]与注意力图[45]相结合来改进这种方法。最近，Oh等人。[31]和Chaudhry等人。[4]考虑将显着性和注意线索联系在一起，但他们采用不同的策略来获得语义对象。Roy和Todorovic[38]利用自下而上和自上而下的注意力线索，并通过条件随机场将它们融合为循环网络。最近的工作[17，22]使用来自互联网的图像或视频解决了弱监督语义分割问题。尽管如此，用于获得启发式线索的想法是类似的那些在以前的作品。在本文中，不同于所有上述方法，我们提出了一个弱监督分割框架，使用显着的情况。我们将标签分配给显著实例，以生成用于完全监督分割网络的代理地面实况。标签分配问题被建模为图分区，其中考虑了整个数据集中所有显着实例之间的关系以及它们内部的信息。3概述和网络结构我们现在提出一个概述我们的管道，然后讨论我们的网络结构和标签分配算法。我们提出的框架如图所示。二、大多数以前的工作，依赖于像素级线索（如显着性，边缘和注意力地图）regards实例歧视作为一个关键的任务。然而，随着深发展关联图像间显著性实例5输入图像显著实例检测器语义特征特征提取器图划分代理GT +图像分割网络注意模型显著实例概率向量p结果图2：管道。通过显著实例检测器（例如，S4 Net [12]）。注意力模块使用其内在属性来预测每个突出实例属于某个类别从显著实例中获得语义图分割用于确定显著实例的最终标签全监督分割网络（例如， DeepLab[5]或 Mask R-CNN[14]）使用生成的代理地面实况进行训练。通过学习，显著性检测器现在可用，其可以预测显著性图以及实例边界框。给定仅用关键字标记的训练图像，我们使用实例级显着性分割网络S4 Net[12]从每个图像中提取显每个显著实例具有边界框和指示图像中视觉上可注意到的前景对象的掩模。这些显著实例是类不可知的，因此提取器S4 Net不需要为我们的训练集进行训练。尽管显著实例包含用于训练分割掩模的地面实况掩模，但是在使用这种显著实例来训练分割网络时存在两个主要限制。第一个是图像可以由多个关键字标记。例如，常见类型的场景涉及行人在汽车附近行走。确定与每个显著实例相关联的正确关键字是必要的。第二个是S4 Net检测到的实例可能不属于训练集中的类别。我们将这种突出的实例称为噪声实例。消除这种噪声实例是我们完整管道的必要组成部分。这两个限制都可以通过解决标签分配问题来消除，在该问题中，我们根据图像关键字将突出实例与正确的标签相关联，并将其他实例标记为噪声实例。我们的管道既考虑了单个区域的固有特征，又考虑了所有突出实例之间的关系。分类网络强烈地响应于得分图中对象的区分区域（像素）以用于对象的正确类别。因此，受类别激活映射（CAM）[48]的启发，我们使用注意力模块来识别显著实例的标签。...6范若尘，侯启斌，程明明从其内在的特性。现有的弱监督分割工作的一个弱点是它逐个图像地对待训练集，忽略了整个训练集上的显著实例之间的关系然而，属于相同类别的显著我们的体系结构提取每个显着实例的语义特征;具有相似语义信息的区域具有相似的语义特征。这些用于构造相似性图。标签分配问题现在成为一个图分区，不仅利用一个单一的显着实例的内在属性，但所有显着实例之间的全局关系。3.1关注模块在我们的管道中的注意力模块是用来确定正确的标签，每个显着的实例，从其内在的特点。形式上，令C为训练集中类别（不包括背景）的数量。给定图像I，注意力模块预测C个注意力图。映射中的每个像素指示该像素属于对应对象类别的概率。遵循FCAN[4]，我们使用完全卷积网络作为我们的分类器。在通过骨架模型预测C评分图之后，例如，现成的VGG16[40]或ResNet101[15]，分类结果y由sigmoid层输出，该sigmoid层使用全局平均池化（GAP）层馈送得分图的平均值。注意，y不是概率分布，因为输入图像可能具有多个关键字。可以通过将第i个得分图馈送到S形层中来产生由Ai由于图像可能与多个关键字相关联，我们将网络优化视为C独立的二进制分类问题。因此，损失函数为：1摄氏度La=−C（y¯ilogyi+（1−y¯i）log（1−yi）），（1）我其中y¯i表示关键字ground-truth。弱监督语义分割的数据集用于训练分类器，之后可以获得该数据集中的图像的注意力图假设显著实例在图像I中具有边界框（x0，y0，x1，y1），则该显著实例属于第i个类别p1的概率为：pi =−（x11−x0）（y1Σx1 Σy1-y0）x=x0y=y0Ai（x，y），（2）并且该显著实例的标签由arg_max（p）给出。3.2语义特征提取器上面介绍的注意力模块根据显著实例的内在属性将标签分配给显著实例，但未能考虑所有显著实例之间的关系。为了发现这样的关系，我们使用语义特征提取器来产生关联图像间显著性实例7每个输入感兴趣区域的特征向量，使得具有相似语义内容的感兴趣区域共享相似特征。为了避免需要额外的数据，我们使用ImageNet[9]来训练这个模型。语义特征提取器的网络架构与标准分类器的网络架构非常相似。ResNet[16]被用作主干模型。我们在ResNet的最后一层之后添加GAP层，以获得2048通道的语义特征向量f。在训练阶段期间，通过下式预测1000维辅助分类向量y将f馈送到1×1卷积层。我们的训练目标是最大化来自区域的要素之间的距离具有不同语义内容的感兴趣的特征，并最小化来自相同类别的特征之间的距离。为此，除了标准的softmax-cross entropy分类损失之外，我们还采用中心损失[44]来直接将特征集中在相似的语义内容上。对于ImageNet的特定类别，标准分类损失将y训练为正确的概率分布，中心损失同时学习语义特征的中心c并惩罚f和c之间的距离。总损失函数被公式化为：L=LCLS+λLc，Lcf·cy¯=1−，（3）f其中，Lcls是softmax-crossentropy loss，y¯是训练样本的地面真实值标签，cy¯是第y¯个猫的中心。在每次训练迭代中，输入样本的类别的中心使用以下来更新：ct+1=ct+α·（f−ct），（4）Y'Y'Y'4标签分配算法为了分配一个正确的关键字，每个显着的实例与或识别它作为一个嘈杂的实例，我们使用的标签分配算法，利用一个单一的显着实例的内在属性，和整个数据集中的所有显着实例之间的关系。标签分配过程被建模为一个图分割问题。虽然图分区的目的可以被认为是聚类，但使用分层方法 [37] ， k-means[30]， DBSCAN[10]或OPTICS[1]的传统聚类算法不适合我们的任务，因为它们只考虑输入数据点之间的关系，而忽略了每个数据点的内在属性。详细地，假设已经通过S4Net从训练集中产生了n个显著实例，并且针对每个显著实例提取了n个语义特征，表示为fj，j = 1，. . . ，n. 作为Sec. 3.1所描述的，我们预测每个显著实例j属于类别i的概率，写为pij，i = 0，. . . ，C，j= 1，. . . ，n，其中类别0意味着显著实例是噪声实例。令用于显著实例j的图像关键字是集合Kj。标签分配算法的目的是预测显著实例的最终标签Σ0，. . . ，C，j=1，. . . ，n，使得如果i∈Kj，则xij∈{0，1}，否则xij∈{0}，并且ixij=1，其中x0j=1意味着实例j被认为是有噪声的。8范若尘，侯启斌，程明明我(a) 相似图（b）一个详细的顶点（c）子图图3：图分区。(a)相似性图，表示边权重的边的厚度;颜色显示顶点的正确标记。(b)：考虑由虚线正方形包围的顶点-只有通过将其包括在红色子图中才能优化目标。(c)：分割后的子图。我们将语义相似性与加权无向相似性图的边缘相关联，所述加权无向相似性图具有用于每个显著实例的顶点，以及用于每对显著实例的边缘，所述每对显著实例是强相似的。边权重给出显著实例对的相似性因此，标签分配成为一个图划分过程。顶点被划分为C个子集，每个子集代表一个特定的类别;它们的顶点被相应地标记。由于同一类别中的显著实例具有相似的语义内容和语义特征，因此图划分算法应确保子集内的顶点强相关，而不同子集中的顶点应尽可能弱相关。我们定义一个特定子图的凝聚度为连接该子图内部顶点的边权之和;优化目标是最大化所有类别上的内聚性的总和。该图划分问题可以被建模为稍后描述的混合整数二次规划（MIQP）问题4.1相似图设顶点、边和权的相似图为G=（V，E，W）。最初，我们计算每对特征之间的余弦相似度以确定W： .f·fWij=ij+1，ij=j，fiWij=0，i=j，（五）如果每对顶点都由一条边关联，则G将是一个稠密图，边的数量与顶点的数量成二次增长，反过来，凝聚性将由子集中的顶点数量决定。为了消除子图大小的影响，我们通过边约简将G转化为稀疏图，使得每个顶点仅保留具有最大权重的那些k个链接边。在我们的实验中，我们设置k=3。4.2图的基本划分算法如上所述，子集i的内聚性可以以矩阵形式写为xTWxi.由于xi是长度为n的二进制向量，因此该公式简单地将关联图像间显著性实例9我我子图i中所有顶点之间的边。为了最大化所有类别的内聚性，我们制定了以下优化问题：MaxXΣCi=1xTW xi，使得ΣCS. t.xi=1，（六）xiji=1。∈{0，1} 如果i∈Kj{0}否则。为了进一步解释这个公式，考虑一个突出的实例，例如图3（b）中由虚线正方形界定的顶点，它属于类别ia。共享相似的语义内容，表示该显著实例的顶点与子集ia中的顶点具有强相似性。所以这个顶点和子集ia之间的边的权重大于它和任何其他子集，比如ib之间的边的权重优化问题的目标达到最大值，当且仅当该顶点被划分成子集i，a，这意味着显著实例被分配正确的标签。这个优化问题可以很容易地转化为一个标准的混合整数二次规划（MIQP）问题。虽然这个MIQP是非凸的，因为它的零对角线和非负元素，它可以很容易地重新制定为一个凸MIQP，因为所有的变量被约束为0或1。它可以通过使用IBM-CPLEX [3]的分支定界方法来求解。4.3具有注意力和噪声顶点的图划分第4.2节中的标签分配问题使用显著实例之间的语义关系来然而，显着实例的固有如第3.1节中所解释的，注意力模块预测显著实例j属于类别i的概率pij。为了利用显著实例的内在特征，我们将优化问题重新表述为：MaxXΣCi=1ΣCi=1xTW xi +β pi xi，使得xi=1，.（七）xij∈{0，1} 如果i∈Kj{0}否则，其中，超参数β平衡固有实例信息和全局对象关系信息。10范若尘，侯启斌，程明明我由于显著实例是由类无关的S4网获得的，因此一些显著实例可能落在训练集的类别因此，我们应该进一步调整优化问题以拒绝这样的噪声顶点：ΣCMaxXi=1ΣCi=1ΣxTWxi+βpixi，使得xi≤1，xij =rn，（八）i=1j .xij∈{0，1} 如果i∈Kj{0}否则，其中保持率R确定被识别为无噪声的顶点的数目5实验在本节中，我们展示了我们的方法在具有挑战性的PASCAL VOC 2012语义分割基准上的有效性，同时与最先进的方法进行比较结果表明，我们提出的框架大大优于现有的弱监督方法。我们还进行了一系列的实验来分析我们的方法中的每个组件的重要性，并讨论了实验所强调的局限性。此外，我们提出的第一个结果的实例级分割的MS COCO。5.1方法数据集。我们考虑在其他工作中广泛使用的两个训练集，PASCAL VOC 2012语义分割数据集[11]加上该集的增强版本[13]。由于它已被广泛用作主训练集[4，23，42]，因此我们也这样做。我们还考虑了一个简单的数据集[19]，其所有图像都是从ImageNet数据集中自动选择的[39]。我们分别展示了两组训练的结果，以及组合的结果。有关数据集的详细信息，请参见选项卡。1b. 我们已经在PASCAL VOC 2012验证集和测试集上测试了我们的方法。对于实例级分割，在标准COCO训练集上执行训练过程;移除地面实况中的所有像素级掩模我们使用标准的COCO评估指标来评估性能。我们使用ImageNet作为辅助数据集来预训练所有骨干模型和特征提取器。超参数和模型设置。为了集中同一类别中的显著实例的特征向量，我们使用中心损失。如[44]中所建议的，我们设置λ = 10−3和α = 0。5、火车站的损失。然而，与原始版本不同，中心损失是通过余弦距离而不是欧氏距离计算的，以保持一致性关联图像间显著性实例11表1：我们提出的框架在三个数据集上的消融研究。每列中的最佳结果以粗体突出显示。下标表示相对于上述值的增长。还给出了三个数据集中的样本数量。mIoU（%）方法VOCSIVOC+SI随机五十六4−61岁3关注62. 0 +5。6−62. 七加一。4GP w/o滤波六十四0+ 2。062. 8六十四九加二。2数据集大小VOC10582SI两万四千VOC + SI34，(a) 消融结果'Attention'代表仅使用attention模块的框架。给出了有无噪声显著实例滤波(b) 每个数据集的大小在实验中，我们使用来自增强的PAS-CAL VOC 2012数据集的10，582个图像，以及来自简单 Ima-geNet 数据集的24，000个图像。表2：超参数β和r对图划分的影响每个超参数的最佳结果以粗体突出显示。该实验在PASCAL VOC数据集上进行。β0 3 10 30 90 300R1 .一、000. 950 900850 80075mIoU（%）63岁263 964 164563. 662. 9mIoU（%）63岁864564163 四六二。3609(a) β的影响超参数β平衡了优化模型中的实例内在信息和β= 0意味着仅使用全局关系信息来划分图。(b) r的影响保留率r确定的比例显着的情况下，beled标记为有效的在图分区。r= 0意味着没有噪声实例过滤的标签分配算法。其中距离度量用于相似性图构造。语义特征提取器在ImageNet上使用裁剪并调整为224×224像素的输入图像进行训练。注意力模块被实现为标准分类器，ResNet-50被用作骨干模型。我们使用所有的训练数据（PASCAL VOC 2012或sim-使用ImageNet）来训练这个模块。对于我们框架中的传统全监督分割CNN，我们使用以下超参数训练DeepLab：ini-平均学习率= 2。5×10−4），在20k次迭代后除以因子10，权重衰减=5×10−4，动量= 0.9。用于实例级分割的mask-RCNN使用以下参数进行训练：初始学习率=2×10−3，在5个epoch后除以因子10，权重衰减=10−4，动量= 0.9。5.2敏感性分析为了分析我们提出的框架的每个组件的重要性，我们使用三个数据集进行了一系列的消融实验选项卡. 图1a示出了所述方法的结果12范若尘，侯启斌，程明明消融研究至于现有的工作，PASCAL VOC 2012训练集（VOC）[11]在我们的实验中使用。此外，简单的ImageNet（SI）在我们的实验中使用了重要的数据集。与PASCAL VOC 2012不同，在简单的ImageNet数据集中，每个图像只有一个关键字。Tab中的结果。1a在PASCAL VOC测试装置上进行评估，结果见表11。2在PASCAL VOC值集上进行评价框架各组成部分的重要性图1a表明，通过将图像关键字随机分配给实例来获得合理的结果是不可能的，表明标签分配的必要性。可以从Tab中看到。1a，所提出的图划分操作带来2。与PASCAL VOC和简单ImageNet数据集的单一注意力模块相比，提高了2%这些结果表明，在整个数据集的全局对象关系信息是有用的标签分配。并且明显有助于最终的分割性能。在三个数据集上的结果，特别是对于包含更多噪声突出实例的简单ImageNet集，表明噪声过滤机制进一步提高了分割性能。图的划分取决于两个关键的超参数：平衡比β和保持比r，它们对整个框架的最终性能有很大影响。平衡比率β将显著实例内的信息平衡到整个数据集上的全局对象关系信息如果β被设置为0，则图划分仅取决于全局关系信息;随着β的增加，显著实例的固有属性的影响也增加。选项卡. 图2a示出了β的影响。即使仅使用全局关系信息（β=0），仍然可以获得合理的结果这验证了全局关系信息的有效性和重要性当β=30时，1. 3%的性能增益获得的显着的实例的固有属性也被考虑在图分割。太大的β值会减少全局关系信息的使用，并可能损害最终性能。保留率r 另一个关键的超参数，留存率r，决定了在图分割中被视为有效的显著实例的比例，作为实例的比例（1-r）被拒绝为噪声。选项卡. 图2b显示了r对PASCAL VOC值集的影响。消除适当数量的具有低置信度的显著实例提高了代理地面实况的质量并且有益于最终的分割结果，但是太小的保留率导致性能下降。5.3与现有工作的比较我们将我们提出的方法与现有的最先进的弱监督语义分割方法进行比较。选项卡. 3显示了基于PASCAL VOC 2012“val”和“test”集的结果我们可以看到，我们的框架在'val'和'test'集上都取得了最好的结果具体来说，我们的方法在MiningPixels [19]中提出的基线结果上改进了6。0%的点用于“测试”集和5。8%用于是关联图像间显著性实例13表3：PASCAL VOC 2012 'val'和'test'集上的像素级分割结果与来自现有最先进方法的像素级分割结果相比。对于我们提出的框架，默认的训练数据集是VOC2012，而每列中基于关键字的最佳结果以粗体突出显示。监管数据集方法出版物关键词涂鸦点Val测试[33]第三十三话✓35.3%-[32]第三十二话✓38.2%百分之三十九点六MIL[34] CVPR'15✓42.0%-美国证券交易委员会[23]ECCV'16✓百分之五十点七百分之五十一点七[36]第三十六话✓百分之五十四点三百分之五十五点五[43]第四十三话✓百分之四十九点八51.2%Roy等人[38]第38届中国国际汽车工业展览会✓52.8%53.7%Oh等人[31]第31届中国国际汽车工业展览会✓55.7%56.7%AS-PSL[42] CVPR'17✓55.0%55.7%[22]第二十二话✓百分之五十三点四55.3%DCSP-VGG16[4] BMVC'17✓58.6%百分之五十九点二[19]第十九话✓58.7%59.6%我们的-VGG 16（我们的）-✓百分之六十一点三62.1%我们的-ResNet 101-✓63.6%64.5%我们的-VGG 16†（我们的）-✓61.9%63.1%我们的-ResNet 101†-✓64.5%百分之六十五点六[26]第二十六话✓✓63.1%-Bearman等人[2]ECCV'16✓✓49.1%-表4：COCO测试开发集上的实例分割结果与现有方法的实例分割结果的比较。我们的弱监督框架的训练集是没有像素级注释（掩码）的COCO训练集。方法弱充分APAP50AP75APSAPMAPLFCIS[25]✓百分之二十九点二百分之四十九点五-百分之七点一百分之三十一点三百分之五十中国[7]✓百分之二十四点六百分之四十四点三百分之二十四点八百分之四点七百分之二十五点九百分之四十三点六14范若尘，侯启斌，程明明[14]第十四话✓37.1%60.0%百分之三十九点六35.3%35.3%35.3%我们✓百分之十三点七百分之二十五点五13.5%百分之零点七百分之十五点七百分之二十六点一进一步值得注意的是，我们的框架甚至优于具有以涂写和点的形式的附加监督的方法除了语义分割的结果，我们提出的结果，实例级分割弱监督下，只使用关键字注释。选项卡. 4关联图像间显著性实例15将我们的结果与最先进的完全监督方法的结果进行比较。仅使用原始RGB图像与关键字，我们的方法实现了最好的完全监督方法的36.9%内的结果5.4效率分析我们使用IBM-CPLEX[3]来解决图划分过程中的MIQP由于我们的学术版CPLEX限制了要优化的变量的最大数量，因此我们在实施中使用了400个突出实例的批次为18878分配标记从VOC数据集中提取的显著实例，18878/400=48个批次被处理在i7 4770HQ CPU上需要226M内存和22.14s6结论我们提出了一种新的弱监督分割框架，专注于基于从训练图像和分配给它们的标签中提取的突出实例生成准确的代理地面实况。在本文中，我们引入了显着的实例弱监督分割，显着简化了对象的歧视，在现有的工作和操作，使我们的框架进行实例级分割。我们把标签分配任务作为一个网络划分问题，可以解决一个标准的方法。为了提高标签分配的准确性，同时考虑来自个体显著实例的信息和来自整个数据集中的所有对象之间的关系的信息。实验表明，我们的方法在PASCAL VOC 2012语义分割基准测试中取得了新的最先进的结果，并首次证明了仅使用关键字注释的MS COCO实例级分割任务的弱监督结果致谢本研究得到了国家自然科学基金（项目编号：61521002、61620106008、61572264）、国家自然科学基金与国际自然科学基金联合资助项目（项目编号：61561146393）、国家青年人才支持计划、天津市杰出青年基金（项目编号：61561146393）的资助。17JCJQJC43700），华为创新研究计划。引用1. Ankerst，M.，Breunig，M.M.，Kriegel，H.P.，Sander，J.：光学：排序点以识别群集结构。In：ACM Sigmod记录。第28卷，第49-60. ACM（1999）72. Bearman，A.，Russakovsky，O.，法拉利，V。，李菲菲：What’s the point：带点监督的语义分割。In：ECCV. pp. 5493. Bliek 1u´，C.，Bonami，P.，Lodi，A.：使用ibm-cplex解决混合整数二次规划问题：进度报告见：第二十六届RAMP专题讨论会论文集。pp. 1616范若尘，侯启斌，程明明4. Chaudhry，A.，Dokania，P.K.，Torr，P.H.：发现用于弱监督语义分割的类特定像素。BMVC（2017）2，4，6，10，135. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲KYuille，A.L.：Deeplab：使用深度卷积网络、atrous卷积和全连接crf进行语义图像分割IEEE TPAMI（2017）1，3，4，56. Cheng，M.，美国新泽西州米特拉市黄，X.，托，pH值，Hu，S.：基于全局对比度的显著区域检测。IEEE TPAMI（2015）47. Dai，J.，他，K.，孙杰：通过多任务网络cases的实例感知语义分割。IEEE计算机视觉和模式识别会议论文集pp. 31508. Dempster，A.P.，Laird，N.M.，Rubin，D.B.：基于em算法的不完全数据最大似然估计。英国皇家统计学会会刊系列B（方法论）pp.第19. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大型的层次图像数据库。在：计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议。pp. 248-255. IEEE（2009）710. Ester，M.，Kriegel，H.P.，Sander，J.，徐，X.，等：一种基于密度的含噪声大型空间数据库聚类发现算法In：Kdd.第96卷，第22611. Everingham，M. Eslami，S.A.凡古尔湖威廉姆斯，C.K.，Winn，J.，齐瑟曼，A.：pascal visual object classes挑战：回顾展。IJCV（2015）1，4，10，1212. Fan，R.，Hou，Q.，郑女士Mu，T.J.，Hu S.M.：S4：单阶段显著实例分割。arXiv预印本arXiv：1711.07618（2017）2，513. Har i haran，B.， Arbel a'ez，P.， Bourd ev，L.，Maji，S.，Malik，J.：来自不同检测器的语义轮廓In：ICCV（2011）1014. 他，K.，Gkioxari，G.， Doll a'r，P.，Girshick，R.：面具r-cnn。在：计算机Vis i on（ICCV），2017年IEEE国际会议上。pp. 2980-2988. IEEE（2017）3，5，1315. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：IEEE计算机视觉和模式识别会议的进展。pp. 77016. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：CVPR（2016）717. Hong，S.，Yeo，D. Kwak，S.，李，H.，汉，B.：使用网络抓取视频的弱监督语义分割。在：CVPR（2017）418. Hou，Q.，郑女士Hu，X.，Borji，A.，Tu，Z.，Torr，P.：具有短连接的深度监督显著对象检测。在：CVPR（2017）419. Hou，Q.，Dokania，P.K.，Massiceti，D.，魏，Y.，郑女士Torr，P.：弱监督语义分割的自下而上自上而下EMMCVPR（2017）2，3，4，10，12，1320. Hou，Q.，Dokania，P.K.，Massiceti，D.，魏，Y.，郑女士Torr，P.：弱监督语义分割的自下而上自上而下线索arXiv预印本arXiv：1612.02101（2016）221. 江，H.，王杰，Yuan，Z.，吴，Y.，郑，N.，李S：显著对象检测：一种区分性区域特征集成方法。在：计算机视觉和模式识别（CVPR），2013年IEEE会议。pp. 2083-2090. IEEE（2013）422. Jin，B. Ortiz Segovia，M.V. Susstrunk，S.：Webly监督语义分割。在：CVPR中。pp.362623. Kolesnikov，A.，Lampert，C.H.：设置种子、展开和约束：弱监督图像分割的三个原则。In：ECCV（2016）2，4，10，1324. Li，G.，Xie，Y.，（1986 - 1990），中国科学院，林，L.，Yu，Y.：实例级显著对象分割。2017年IEEE计算机视觉和模式识别会议（CVPR）。pp. 247-256. IEEE（2017）2关联图像间显著性实例1725. 李，Y.，Qi，H.，Dai，J.，吉，X.，魏云：完全卷积的实例感知语义分割。在：IEEE Conf.计算机视觉和模式识别（CVPR）。pp. 235926. Lin，D. Dai，J.，贾，J.，他，K.，孙杰：Scribblesup：Scribble-supervised卷积网络-用于语义分割。在：CVPR（2016）2，4，1327. 林，G.，Milan，A. Shen，C.，Reid，I.：Refinenet：具有识别映射的多路径细化网络，用于高分辨率语义分割。In：CVPR（2017）1，428. Lin，T. 是的，Maire ，M.，Belongie，S.，Hays，J.，Perona，P.，Ramanan ，D.Dol la'r ，P.，Zitnick，C.L.：微软coco：上下文中的公用对象。见：ECCV（2014）129. 朗JShelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络见：CVPR（2015）1，430. MacQueen，J.，等：多元观测分类与分析的若干方法。在：第五届伯克利数学统计和概率研讨会论文集。第1卷，第100页。281-297.美国加利福尼亚州奥克兰市（1967年）731. SJ Benenson河Khoreva，A. Akata，Z.，Fritz，M.，Schiele，B.：利用显著性从图像

下载后可阅读完整内容，剩余1页未读，立即下载