弱监督图像分割方法的综合模型及其性能分析

57 浏览量更新于2023-10-16 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1结合自底向上、自顶向下和平滑度线索的弱监督图像分割Anirban Roy和Sinisa Todorovic俄勒冈州立大学Corvallis，OR 97330，美国网址：royani@oregonstate.edu，sinisa@eecs.oregonstate.edu摘要本文研究了弱监督语义图像分割问题。我们的目标是标记新图像中的每个像素，仅给出与训练图像相关的图像级对象标签。我们的问题陈述不同于常见的语义分割，其中像素注释通常假设在训练中可用我们指定了一种新的深度架构，该架构融合了三个不同的计算过程进行语义分割-(ii) 在给定预测对象的情况下，CNN激活的条件似然的自上而下估计(iii) 从同一CNN层的相邻神经元传递的横向注意力消息（i）-（iii）的融合通过条件随机场作为递归网络来实现，目的是生成平滑和边界保持的分割。与现有的工作不同，我们制定了一个统一的端到端学习我们的深层架构的所有组件。对基准PASCAL VOC 2012数据集的评估表明，我们的表现优于合理的弱监督基线和最先进的方法。1. 介绍本文研究了弱监督下的语义图像分割问题给定一个图像，我们的目标是为每个像素分配一个对象类标签。从仅具有图像级类别标签的训练图像学习关于对象的知识，即，图像标签。我们的问题不同于完全监督的语义分割，通常在以前的工作中解决，其中对象类的像素级地面实况注释在训练中可用。由于图像中的对象可能以各种姿态出现，在部分遮挡下，以及在杂乱的背景下，因此语义图像分割具有挑战性。这是一个漫长的-长期存在的问题，在训练中可以访问地面真实像素标签的假设下，通过大量成功的方法解决[22，14，27，11，3，7，12]。由于该假设，难以将先前的工作扩展到不提供逐像素注释的广泛范围的其他领域，或者难以提供不足量的用于鲁棒学习的这种监督。为了放松训练中所需的监督水平，最近，弱监督卷积神经网络（CNN）已被提出用于语义图像分割[24，25，28，26，45，29，18，41，4，30，36]。这些方法在训练中仅使用图像标签。它们中的大多数在多实例学习（MIL）框架内执行分割，这确保像素标记与预测图像标签一致，因为后者预测可以很容易地用于针对可用的图像级基础事实指定损失，并以这种方式训练CNN。受这些方法成功的启发，我们也从CNN开始，旨在完成两项任务：像素标记和预测图像类别-其中训练数据上的图像分类结果用于端到端基于MIL的学习。具体来说，我们使用DeepLab网络[7]进行像素标记，另一个全连接层用于预测图像类别。然后，我们扩展了这个框架，以便融合自上而下，自下而上和平滑视觉线索，以实现更准确的语义分割，如图所示1.一、我们的扩展旨在解决我们在相关工作[24，25，28，26，45，29，18]的分割结果中观察到的以下两个问题：（1）对象的定位差;以及（2）对象边界的有限保留和对象的真实空间范围上的平滑度。为了生成边界保持分割，我们将CNN预测的像素标签以及图像的原始具体来说，在[46]之后，我们将CRF实现为递归神经网络（RNN），并将此网络称为CRF-RNN。我们的CRF-RNN细化了初始CNN重要的是，我们基于CRF的35293530图1：概述：给定一幅图像，我们使用CNN为每个对象类计算自底向上的分割图（蓝色链接用于自底向上计算）。这些逐像素预测与用于对象识别的全连接层（FCL）聚合。相同的CNN用于自顶向下估计注意力地图的每一个识别的对象类（红色链接自上而下的计算）。最后，自下而上和自上而下的线索在CRF-RNN中融合并迭代细化，以改善对象边界的定位和最终分割的空间平滑度（用于融合和细化计算的黑色链接在学习中，我们反向传播图像分类损失，从训练图像上的FCL输出估计。这种学习通过弱监督分割“损失”进行正则化，该损失估计注意力图中像素标签的两个概率分布之间的距离和自分割不是一个独立的后处理步骤，如相关工作[24，25，29，18]，而是我们深度架构训练端到端的一个组成部分由于CRF-RNN试图尊重图像边缘，因此其输出可能易于过度分割。为了避免过度分割，从而提高对象空间范围的平滑度，我们将CNN用于另一项任务，即第三项任务，即预测识别图像类的自上而下的视觉注意力图。我们将对象类的视觉注意力图指定为该类CNN中神经激活的空间校正高斯分布[34，16这扩展了最近的方法[44]，该方法使用马尔可夫链对神经激活的父子依赖性进行建模以估计注意力地图，因为我们通过考虑CNN中的三种类型的神经依赖性来估计校正的高斯分布：（i）父母到孩子;（ii）孩子到父母;以及（iii）在同一CNN层的相邻神经元的激活之间重要的是，我们使用相同的CNN来计算注意力地图，旨在进行语义分割，这与使用外部网络来估计对象种子的相关工作不同[18]。如图1，我们的方法迭代地：（i）融合CNN和CRF-RNN自下而上产生的过度分割图，以及CNN自上而下估计的注意力图，然后（ii）用CRF-RNN优化融合的像素标签预测以生成最终的分割图。注意图表示对分类至关重要的有区别的对象部分，而分割图捕获对象的空间范围。我们采用与相关文献[5，20，16]中相同的自上而下和自下而上处理的定义，其中自下而上过程从像素预测对象类别，并且自顶向下过程以由自底向上过程预测的对象类别为条件来预测图像中的注意力图。我们的深度架构的所有组件都是通过估计图像分类损失和分割“损失”来进行端到端训练的。在训练中使用来自像素标签预测的全连接层（FCL）来这反过来又会产生图像分类损失，通过FCL、CRF-RNN和CNN反向传播，以学习所有网络参数。重新划分分割我们将分割“损失”估计为注意力图和自底向上分割中像素标签的两个概率分布之间的距离。分割对基准PASCAL VOC 2012数据集的评估表明，我们的表现优于合理的弱监督基线和最先进的方法。我们的贡献包括：• 新的深度架构，融合了自上而下的注意力和自下而上的分割，并细化分割以保留边界。架构是统一的，不使用外部网络，也不进行后期处理。• 使用修正的高斯分布对视觉注意力图进行新的建模，该高斯分布解释了父母激活之间的统计依赖性儿童和CNN中的相邻神经元。接下来，SEC。2、相关工作，二。3规范了对象的自底向上像素标记和聚合3531我我我我承认，SEC。4制定了我们的自上而下的注意力估计，秒。5描述了我们的边界保持细分，Sec。6解释了两个损失函数和我们的学习，和SEC。7、我们的成果2. 先前工作弱监督语义图像分割已经解决了使用图形模型，和参数3. 自底向上计算过程像素标记。给定图像x，我们使用DeepLabnet具有大视场[7]以生成像素标签y={yi}，其中yi∈ Y是来自对象类集合Y的第i个像素的对象类标签。具体来说，我们生成K=| Y|分割图，通过计算每个对象类y ∈ Y的每个像素i处的输出得分fi（y）。将逐像素分数归一化以估计对应的使用标准soft-max运算的后验结构化预测模型[39，40，9，45，21]。这些方法典型地利用关于空间平滑度的算法（例如，基于相邻像素之间的相似性p S（y|x）= Σefi（y）fi（y），（1）y∈Y[39]），需要预处理以提取超像素[40]，或使用弱分割先验[9]。最近，基于CNN的方法[28，25，24，4，41]被证明可以通过通常考虑多实例学习（MIL）来迭代加强其输出分割与地面实况图像标签一致来实现更好的性能MIL框架可以扩展为广义期望或后验正则化，以最大化域约束下模型参数的期望[25]。为了提高性能，最近的一些方法[28，24，4，41]试图通过运行对象提议的检测器来初始化对象定位[1，10]。然而，这增加了监督的水平，因为对象建议检测器需要边界框注释或对象边界注释用于训练。此外，使用基于注意力的对象定位已被证明可以改善弱监督分割[29，18，15，30]。然而，这些方法通常求助于外部网络来计算注意力线索[18]，或者从自下而上的神经激活中估计前景掩模（类别非特定）[29]。最近的工作[44]通过估计自上而下的马尔可夫链来计算注意力地图，但这项工作没有考虑弱监督分割。我们扩展了马尔可夫链公式，[44]通过使用修正的高斯分布对视觉注意力图进行建模，从而提高了每个对象类的注意力图的空间平滑度。结合自上而下和自下而上的线索图像分割和其他视觉问题是一个反复出现的研究课题;然而，这两个线索通常在单独的阶段中计算[5，6，20，42]。最近的方法[16]将两个计算过程结合在单个CNN中，用于使用整流高斯分布进行人体姿势估计。但他们的CNN是在全面监督下训练的。虽然我们解决了一个不同的视觉问题，但关键的区别在于，我们的校正高斯的协方差矩阵不是二进制的，而是基于视觉外观估计的，并且我们的自上而下的注意力线索在预测的对象类别上具有语义因此，我们将使用简写符号p S（y）来表示p S（y|x）作为自底向上的分割预测。聚合来然后聚合上述逐像素对象预测分数以用于对象识别，即，预测图像中存在的对象类的集合YxX. 文献提出了一系列启发式方法，这种聚合，包括全局最大池化（GMP）[23]，全局平均池化（GAP）[47]，用于GMP和GAP的平滑组合的对数和指数（LSE）度量[28]，以及全局加权秩池化（GWRP），以有利于地面实况对象的高分并抑制聚合中的其他对象[18]。我们没有使用这些启发式方法，而是采用全连接层（FCL）来从像素级分数中估计图像级分数，然后与我们方法的其他组件一起训练FLC给定逐像素得分{fi（y）：i，y ∈ Y}的K个映射，FLC输出K个归一化的对象得分{p（y|x）：y∈Y}。为此，每个分割热图{fi（y）：i}完全连接到表示分割热图的对应输出单元对象类y。4. 自顶向下计算过程本节解释如何估计每个对象类的自上而下的视觉注意力图，然后将其用作上下文线索，以改善对象定位并减少自下而上像素标记中的过度分割。在估计概率视觉注意力图[38，17，35]以及最近可视化神经激活的方法[43，32，2，44]的一长串工作之后，我们使用自上而下的我们的自上而下的估计是一次一层地执行的，从FCL的对象识别输出层开始，如第2节所述。3 .第三章。为了提高效率，如[44]所示，我们在pool-4层停止自顶向下的计算，然后将此结果放大到图像大小，以获得对应于K个对象类的所有像素上的K个对于对象类y，我们将层l处的第i个神经元的视觉注意力定义为神经元激活的相关性e3532我我IIIIII我IJ我我II我我σσ我δΣ我我IIzR我用于预测图像中的y-表示为p（a，l|y）≥0。第l层所有神经元的视觉注意力图被定义为随机变量的向量：pl（y）= [. . . p（a l|y）。. . [16]，由整流高斯分布[34，16]控制：10.C++（1名p-2 Dp+bp），p≥0（2）其中我们使用简写符号p=pl（y），矩阵D=Dl= [δl′]表示同一层l上相邻神经激活之间的依赖性强度，b=bl（y）表示第l层和下一层l-1上神经激活的父子依赖性。通过设计，我们保证δ l′ <0，因此负−D是（2）中的一个共正矩阵，即，−p<$Dp≥0，其中p≥0。计算δ l′在下面解释。从（2）可以得出，pl（y）的计算相当于修正高斯的MAP估计图2：（左）以前的工作[44]计算了一个自上而下的马尔可夫链来估计注意力地图。（右）我们还考虑了同一层的邻近神经激活，以基于对象的平滑度来改善注意力图的估计其中p（al|al−1）是转移概率，定义为Ij可以用公式表示为二次规划消极约束：w+·alp（al|al−1）= 吉吉岛、（6）Maxp≥01pT2 Dp+bp.（三）Iji′∈Cj+伊日·al′负矩阵−D的共正性保证了（3）[16，34]中二次优化的收敛性。给定我们的CNN，我们顺序地计算（3）中的二次规划，一次一层，直到pool-4层。使用前一层l-1的结果定义参数bl（y），因为它们捕获父子关系其中，w+=m ax{0，wij}仅考虑CNN中神经元i和它们的父神经元j之间的加权，并且Cj表示j的子神经元的集合。其次，我们规范化前馈神经处理在同一层的所有神经元上的神经元i处l，导致aL神经激活的依赖性。最后，估计池-4层的PL（y）被放大到图像大小，αl=π我伊阿莱（七）然后在对象类别上进行归一化，以便在每个像素处进行适当的概率分布：p（a l|y）最后，第三，我们使用标准的双边滤波，图像中的像素以定义同一层处的相邻神经元之间的依赖性的强度Dl = [ δ l′]pA（y）=y∈Y我p（al|y）.（四）对于层l处的每个神经元对（i，i′），我们确定它们在图像中的像素区域的对应中心，与最近的工作[44]相比，它只考虑了神经行为的亲子依赖性，神经元可以访问并计算其双侧相似性[37]，p（al|y）=p（al|al−1）p（al−1|y），我们增加计算zi−zi′ri−ri′iji j jwii′=exp（−）exp（−），（8）的时间由一个小幅度，但大大提高了2 2注意力地图，使他们覆盖对象的真实空间范围。在本节的其余部分，我们定义参数bl（y）和D的修正高斯。如示于图2、各其中zi=（xi，yi）是像素位置，ri是HSV颜色直方图，σz= 10和σr= 30控制灵敏度。然后，我们对双边相似性进行归一化，p（a l|y）取决于以下神经激活：定义lwii′′=- 第1、（9）段1. parents：γl（y）;2. 前馈神经处理：αl;3. 同层相邻神经元l，Dl=[δ l′]。其中我们计算bl（y）=γ l（y）+ α l。W3533IIiijj第二章请注意，δ l′仅取决于图像，而不是对象类预测，因此可以预先计算以提高效率。注意，在（8）中，wii= 1并且wii′>0：i i′，i il在（9）中蕴涵δii′0<因此，矩阵−D是余正的首先，根据[44]，我们定义了p（a i）的依赖性，|y）onCNN中的父神经元Pi的激活为Σγl（y）=p（al|al−1）p（al|y）、（5）j∈Pi这保证了（3）中的二次优化的收敛回想一下，注意力图被用来计算在学习过程中通过网络反向传播的分割损失（图1）。①的人。3534我我X图3：CRF平均场推断的单个步骤实现为卷积层的堆栈。平均场迭代表示递归神经网络。5. 精化计算过程由于CNN中的连续池化，初始像素标记p S（y|由（1）给出的（x）可能产生粗略的分割图，对对象边界的检测较差。为了解决这个问题，我们通过初步的粗分割，连同估计的视觉注意力映射和输入图像到CRF-RNN [19，46]，用于细化分割。我们考虑一个完全连接的CRF，其像素类分配的能量y={yi}定义为：CRF推断。在[19，46]之后，我们将CRF推断作为一系列平均场迭代进行。如图在图3中，每个平均场估计对应于沿着卷积层堆叠的前馈神经处理，其结果被反馈用于另一次迭代。因此，平均场迭代表示递归神经网络。请注意，我们的CRF推断将pS和pA作为输入来计算φ（yi），如（11）中所示，对于每个像素i和所有K个对象类。在第一次迭代中，将一元势上的soft-max分数视为边际概率以初始化解。在接下来的迭代中，边际概率被估计为CRF-RNN输出的软最大分数从给定前一层的输出的输入图像计算双边滤波器响应。与[46]不同，我们考虑固定的双边内核，因为它们在没有像素监督的情况下无法可靠地学习。标签兼容性µ（yi，yi′）通过应用具有K个输入和K个输出通道的1×1卷积滤波器对于K个对象类，给定双边响应。最后，给定估计的φ（yi）和φ（yi，yi′），组合CRFE（y）=Σφ（yi）+我Σ（i，i′）n（yi，yi′），（10）通过soft-max操作传递电势，以生成下一次CRF-RNN迭代的归一化分割分数。其中φ（yi）和φ（yi，yi′）表示一元势和成对势，如下所述。一元潜力为了初始化我们的分割细化，在每个像素i处，我们将由（4）给出的自上而下的视觉注意力pA（yi）和自下而上的分割a相结合。6. 端到端学习和损失函数我们方法的所有组件都是以端到端的方式学习的，只使用地面实况图像标签。为了S我在学习中使用这种图像级监督，我们的方法第一，第二|x），由（1）给出，用于计算相应的一元势φ（yi）asφ（y i）= − log（p S（y i）p A（yi））。（十一）将训练图像上的预测像素标签聚合到对象识别中，这反过来又可以用于估计分类损失。用于训练CRF-RNN和我们的我我初始分段器DeepLab网络[7]，我们还使用在（11）中，我们使用视觉注意力PA（yi）作为用于分割的我们的动机来自于现有的弱监督分割工作，该工作考虑了图像级先验（ILP），例如，图像级对象预测得分，用于改进其分割[28，31，39]。ILP已经被证明通过减少假阳性来改善弱监督分割我们在（11）中的公式扩展了这项工作，因为我们在每个像素处的注意力驱动先验似乎比图像级先验更适合于分割。与ILP不同，我们的PLP包含了关于物体位置的线索- 对象分割因此，在我们的学习中，我们反向传播以下损失：其中λ = 1。5通过交叉验证设置分类损失是根据FCL的图像级对象识别输出聚合函数p（y）定义的|x），在Sec. 3作为成对电位。我们定义成对势为C=−1Σ1logp（y|x）−Σ log（1−p（y|x））双边权项wii′，由（8）给出，用于确保|Yx| y∈Yx|Y¯ |y∈Y¯x我们的分割细化尊重对象边界：（yi，yi′）=μ（yi，yi′）wii′，（12）（十四）其中Yx表示存在的地面实况对象类的集合在训练图像x和Y中，=Y\Yx是一组类其中，µ（yi，yi′）是标签兼容性，旨在估计类yi和yi′在像素i和i′处共现的可能性。注意，µ（yi，yi′）随不同像素位置而变化它被实现为一个卷积层，并从Sec中指定的分割“损失”中学习。六、已知不存在的。对于在训练图像中标注为存在的对象，FCLC惩罚来自FCL的低预测分数，而对于其他对象惩罚高分数。对象分割损失被定义为惩罚估计分割和视觉分割之X3535间的任何差异。3536II注意力地图定义为训练图像中标注为存在的对象y∈Yx的两个预测分布pS和pA之间的距离对最终的表现有很大的影响基线。为了证明我们的方法的各个组成部分的重要性，我们定义了以下基线。与基线的比较见表1。1.一、S=−1ΣN ΣB1：没有自上而下的关注（w/o att）。在这个基地里-N·|Y x|i=1 y∈Yx[pA（y）logpS（y）+（1−pA（y））log（1−pS（y））]，线，我们忽略了自上而下的注意力线索在我们的方法。由于分割损失无法计算，我我我我（十五）注意力线索，只有分类损失用于学习分段网络注意，如果没有注意力提示，其中N表示像素的数量。值得注意的是，在我们的方法中，视觉注意力以两种不同的方式使用-因此，在我们的方法中，这两种视觉注意力的使用并不是多余的，正如我们的实验所证明的那样。7. 实验在本节中，我们首先描述我们的实验设置，然后给出结果。数据集。我们在PASCAL VOC 2012数据集[13]上评估了我们的方法，该数据集通常被认为是弱监督分割基准[25，28，29，18]。该数据集由21个对象类组成，包括背景。我们遵循标准的实验设置，其中图像被分成三组：1464张训练图像、1456张测试图像和1449张验证图像。按照惯例，我们在训练中考虑额外的训练集[18，36]，并在验证集和测试集中评估我们的图像方法。我们考虑标准PASCAL VOC分割度量，其被定义为平均交并比（mIoU），也称为Jaccard指数。实作详细数据。我们考虑使用大视场的DeepLab网络[7]进行图像分割。DeepLab采用VGG-16网络[33]进行分割，用卷积层替换全连接层。给定一个输入图像，DeepLab会生成对应于每个对象类的粗略热图。该网络使用动量次梯度下降进行训练。我们考虑批量大小为20张图像，动量设置为0.9。学习率初始设置为0.001，然后按每2000次迭代中的因子为10。我们训练网络10000次迭代。在Nvidia Tesla k80 GPU上的整体训练需要10个小时，与[25，24]相当。在推理过程中，我们首先计算特定于对象的注意图，然后将其视为基于注意的PLP。基于注意力的PLP充当CRF-RNN层中的一元势。虽然图像级标签在推理过程中不可用，但可以基于完全监督的图像分类从可靠的对象预测中估计注意力图对于学习和推理，我们将CRF-RNN应用于三次迭代，因为额外的迭代不会缩放图像中的对象是困难的。选项卡中的结果。1表明忽略自上而下的注意线索对性能有显着影响，这证明了注意线索在弱监督分割中的重要性。B2：无分段丢失（无分段丢失）。在这个基线中，我们忽略了基于注意力图计算的分割损失在没有分割损失的情况下，注意力线索仅在CRF-RNN层中的一元电位中被考虑，如（11）中所定义的如Tab.所示1，分割损失是重要的弱监督分割，因为它是在学习分割网络和CRF-RNN所需的。B3 ：没有基于注意力的一元电位（ W/OATTUNARY）。在这个基线中，我们不考虑CRF-RNN层中一元电位中的注意线索。因此，注意力线索仅通过损失函数（15）并入分割框架中。Tab中的结果1表明，考虑CRF一元电位的注意线索，提高整体性能。B4：不考虑注意中的相邻依赖性（无邻居）。在这个基线中，我们忽略了相邻神经元的依赖性（即，δ l′在（9）中），同时计算注意力图。因此，我们只考虑父子依赖性来计算注意力地图，如[44 ]第44段。如Tab.所示。1，在注意估计中不考虑相邻依赖性的性能较差，因为这些依赖性提供了关于对象的平滑性和边界的线索B5：没有CRF-RNN层（w/o CRF-RNN）。在这个基线中，不是应用CRF-RNN层来细化分割图，而是执行基于密集CRF的后处理[7]。在没有CRF-RNN层的情况下，标签兼容性或对象类之间的同现（即，（12）中的μ（yi，yi′））不能学习。我们在Tab中看到。1，考虑CRF-RNN层实现了比基于CRF的后处理更好的性能。B6：在推理中没有注意线索（无注意推理）。在这个基线中，我们忽略了注意线索计算CRF一元电位在推理过程中。回想一下，注意线索可以被认为是像素级的先验知识，这对定位图像中的对象很重要。因此，在推理中忽视注意力会导致整体表现更差①的人。与最先进的图像相比3537背景飞机自行车鸟船瓶子公共汽车汽车猫椅子牛餐桌狗马摩托车人种羊沙发火车tv/监视器avg.[28]第二十八话77.2 37.3 18.4 25.4 28.2 31.9 41.6 48.1 50.7 12.7 45.7 14.6 50.9 44.1 39.2 37.9 28.3 44.0 19.6 37.6 35.0 36.6[第24话]67.2 29.2 17.6 28.6 22.2 29.6 47.0 44.0 44.2 14.6 35.1 24.9 41.0 38.8 41.6 32.1 24.8 37.4 24.0 38.1 31.6 33.8[25]第二十五话68.5 25.5 18.0 25.4 20.2 36.3 46.8 47.1 48.0 15.8 37.9 21.0 44.5 34.5 46.2 40.7 30.4 36.4 22.2 38.8 36.9 35.6DSCM [30]76.7 45.1 24.6 40.8 23.0 34.8 61.0 51.9 52.4 15.5 45.9 32.7 54.9 48.6 57.4 51.8 38.2 55.4 32.2 42.6 39.6 44.1F-B [29]79.2 60.1 20.4 50.7 41.2 46.3 62.6 49.2 62.3 13.3 49.7 38.1 58.4 49.0 57.0 48.2 27.8 55.1 29.6 54.6 26.6 46.6美国证券交易委员会[18]82.4 62.9 26.4 61.6 27.6 38.1 66.6 62.7 75.2 22.1 53.5 28.3 65.8 57.8 62.3 52.5 32.2 62.6 32.1 45.4 45.3 50.7我们的方法85.8 65.2 29.4 63.8 31.2 37.2 69.6 64.3 76.2 21.4 56.3 29.8 68.2 60.6 66.2 55.8 30.8 66.1 34.9 48.8 47.1 52.8表2：在mIOU测量（%）方面，与PASCAL 2012验证集上最先进方法的比较。PASCAL验证PASCAL测试不含ATT30.531.6无分段损失47.549.1无属性一元50.151.4W/O邻居51.352.1无CRF-RNN49.451.3无属性推理50.451.8全进近52.853.7Val. 测试附加监管[28]第二十八话37.8 37.0BING包围盒MIL+ILP+SP-seg [28] 42.0 40.6MCG对象建议SN-B [41]41.9 43.2MCG对象建议[24]第二十四话38.2 39.6多种图像裁剪CCCN+作物[25]36.4 47.2多种图像裁剪CCCN+尺寸[25]42.4-对象大小（大或小）点击鼠标[4]43.4-每个对象实例检查面罩[29]51.5 52.9用户选择的前地面遮罩表1：与PASCAL 2012验证和测试数据集的基线方法在mIoU测量（%）方面的比较。级别注释。在PASCAL 2012验证和测试图像上进行了与最先进方法的比较我们的方法只使用图像级标签学习因此，为了公平的比较，我们与仅将图像级注释视为弱监督的方法进行比较。由于基于注意力的定位提示，我们不需要依赖于额外的监督，例如对象建议[28]，图像裁剪[24]或对象的大小[25]。PASCAL验证集和测试集的结果见表1。2、Tab。3，分别，其中我们在mIoU度量方面优于与最新技术水平进行比较，并添加注释。一些方法考虑额外的低成本监督以促进弱监督分割。例如，MIL+ILP+SP-bb [28]，MIL+ILP+SP-seg [28]，SN-B [41]在MCG对象建议[1]或BING边界框[10]方面使用对象定位线索。EM-Adapt [24]和CCCN [25]的变体考虑多个图像裁剪以增加监督量。在 [ 4 ] 和CCCN+size中使用了额外的[25]根据对象的大小（大或小）考虑额外的1位监督。直接与这些方法进行比较是不公平的，但我们在表中总结了上述方法的结果。四是完整性。对聚集方法的评价。回想一下，我们考虑了一个全连接层（FCL），它被学习来将像素级预测聚合到图像级对象预测得分中。我们将FCL与其他聚合方法进行比较，如GMP [23]，GAP [47]和LSE [28]，后者是GMP和GAP的平滑组合虽然考虑-表4：在PASCAL 2012验证和测试集上使用附加监督的方法之间的比较，以mIoU度量（%）表示。PASCAL验证PASCAL测试GMP48.349.6间隙47.448.3LSE50.851.3我们的FCL52.853.7表5：FCL与其他聚合方法在PASCAL 2012验证和测试数据集上的平均IoU测量值（%）方面的比较。运行FCL层会增加学习中的参数数量，如表10中所示5，我们提出的FCL显着优于其他启发式聚合方法。定性结果。在图4中，我们展示了PASCAL 2012验证集的定性结果。我们的方法，在大多数情况下，可以正确地定位图像中的对象，并尊重对象的边界。一对失败案例如图所示。5，其中我们的方法未能检测到图像中的“飞机”，因为它相对于训练数据中的在第二种情况下，我们的方法无法检测到图像中的一些我们认为这是由于缺少对小物体的注意线索（例如，瓶子在图像中。请注意，即使在完全监督的情况下，分割小物体也是一项挑战[8]。8. 结论我们已经为弱监督图像分割指定了一个新的深度架构我们的关键思想是使用3538背景飞机自行车鸟船瓶子公共汽车汽车猫椅子牛餐桌狗马摩托车人种羊沙发火车tv/监视器avg.MIL [26]---------------------25.66[28]第二十八话74.7 38.8 19.8 27.5 21.7 32.8 40.0 50.1 47.17.244.8 15.8 49.4 47.3 36.6 36.4 24.3 44.5 21.0 31.5 41.335.8[25]第二十五话-24.2 19.9 26.3 18.6 38.1 51.7 42.9 48.2 15.6 37.2 18.3 43.0 38.2 52.2 40.0 33.8 36.0 21.6 33.4 38.335.6DSCM [30]78.1 43.8 26.3 49.8 19.5 40.3 61.6 53.9 52.7 13.7 47.3 34.8 50.3 48.9 69.0 49.7 38.4 57.1 34.0 38.0 40.045.1F-B [29]80.3 57.5 24.1 66.9 31.7 43.0 67.5 48.6 56.7 12.6 50.9 42.6 59.4 52.9 65.0 44.8 41.3 51.1 33.7 44.4 33.248.0美国证券交易委员会[18]83.5 56.4 28.5 64.1 23.6 46.5 70.6 58.5 71.3 23.2 54.0 28.0 68.1 62.1 70.0 55.0 38.4 58.0 39.9 38.4 48.351.7我们的方法85.7 58.8 30.5 67.6 24.7 44.7 74.8 61.8 73.7 22.9 57.4 27.5 71.3 64.8 72.4 57.3 37.0 60.4 42.8 42.2 50.653.7表3：在mIOU测量（%）方面，与PASCAL 2012测试集上最先进方法的比较。图4：PASCAL 2012验证集的定性结果。图5：PASCAL 2012确认集的失效案例。相同的网络，以更好地适应对象边界和覆盖对象的空间范围。我们的统一框架由CNN，CRF-RNN和一个完全连接的层组成，可以只使用地面实况进行端到端训练3539图像标签。在我们对基准PASCAL VOC 2012数据集的评估中，我们观察到我们的方法可以定位对象，而不必依赖于额外的监督，如对象建议和图像裁剪。基于外观的相邻依赖关系估计视觉注意力使我们能够更好地定位对象的全部范围，而不仅仅是部分。我们的方法与基线的比较证明了注意线索，CRF-RNN平滑和FCL层作为弱监督分割中的聚合方法的重要性确认这项工作得到了DARPA XAI和NSF RI1302700的部分支持。3540引用[1] P. Arbe la'ez，J. Pont-T uset，J. T. Barron，F. Marques和J. 马利克多尺度组合分组CVPR，2014。三、七[2] S. Bach 、黑腹滨藜 A.Binde r ， G.Mont av on ， F.Klauschen，K.- R. Müller和W.萨梅克基于逐层相关传播的非线性分类器决策PloS one，10（7），2015. 3[3] 诉Badrinarayanan、A.Handa和R.西波拉Segnet：一种深度卷积编码器-解码器架构，用于鲁棒的语义像素标记。arXiv预印本arXiv：1505.07293，2015年。1[4] A. Bearman，O. Russakovsky，V. Ferrari和L.飞飞这有什么意义：带有点监督的语义分割。在ECCV，2016年。一、三、七[5] E. Borenstein和S.乌尔曼自上而下/自下而上组合分割。PAMI，30（12）：2109-2125，2008. 二、三[6] T. 布罗克斯湖Bourdev，S.Maji和J.马利克通过将poselet激活与图像轮廓对齐的对象分割CVPR，2011。3[7] L- C. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A.L.尤尔。使用深度卷积网络和全连接CRF进行语义图像分割2015年，国际会议。一二三五六[8] L- C. Chen，Y. Yang，J. Wang，W. Xu和A. L.尤尔。注意比例：尺度感知语义图像分割。CVPR，2015。7[9] X. Chen，中国山核桃A. Shrivastava和A.古普塔。通过对象发现和分割丰富视觉知识库。CVPR，2014。3[10] M.- M. 郑，Z.张文--Y. Lin，和P.乇Bing：在300fps下用于对象估计的二进制赋范梯度CVPR，2014。三、七[11] C.库普里角法拉贝特湖Najman和Y.乐存。使用深度信息的室内语义分割。InICLR，2013. 1[12] J. Deng，N.丁氏Y.Jia，中国茶条A.Frome，K.Murphy，S.本吉奥Y. Li，H.Neven和H.Adam. 使用标签关系图的大规模对象分类在ECCV。2014. 1[13] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html 啊6[14] C.法拉贝特角库普里湖Najman和Y.乐存。学习用于场景标注的分层特征。PAMI，35（8）：1915 1[15] S.洪，J。哦，B。Han和H.李你用深度卷积神经网络学习语义分割的可传递知识。在CVPR，2016年。3[16] P.Hu，D. Ramanan，J. Jia，S. Wu，X.王湖，加-地蔡和J. 唐自下而上和自上而下的层次校正高斯推理。在CVPR，2016年。二、三、四[17] C. Koch和S.乌尔曼选择性视觉注意力的变化：对潜在的神经回路的影响。《智力问题》，第 115-141 页Springer，1987年。3[18] A. Kolesnikov和C.H. 蓝伯特种子，扩展和约束：弱监督图像分割的三个原则。在ECCV，2016年。一二三六七八[19] P. Kr aühenbuühl和V. 科尔顿具有高斯边缘势的全连通CRF中的有效推理NIPS，2011年。5[20] M. P. 库马尔山口H. Torr和A.齐瑟曼。目标：使用自上而下和自下而上的线索进行有效分割。PAMI，32（3）：530-545，2010. 二、三[21] B. Lai和X.龚用于弱监督图像解析的显著性引导字典学习。在CVPR，2016年。3[22] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015年。1[23] M. 奥夸布湖博图岛Laptev和J.西维克对象本地化是免费的吗用卷积神经网络进行弱监督学习CVPR，2015。三、七[24] G.帕潘德里欧湖C. Chen，K. P.Murphy和A. L.尤尔。用于语义图像分割的深度卷积网络的弱监督和半监督学习在ICCV，2015年。一二三六七[25] D. Pathak，P.Krahenbuhl和T.达雷尔。用于弱监督分割的约束卷积神经网络CVPR，2015。一二三六七八[26] D. Pathak，E. Shelhamer，J. Long和T.达雷尔。完全卷积的多类多实例学习。2015年，国际会议。1、8[27] P. O. Pinheiro和R.科洛伯特用于场景解析的递归卷积神经网络。ICML，2014年。1[28] P. O. Pinheiro 和R.科洛伯特使用卷积网络的弱监督CVPR，2015。一、三、五、六、七、八[29] F. Saleh，M.S. A. Akbarian，M.萨尔茨曼湖彼得森S. Gould和J.M. 阿尔瓦雷斯内置前景/背景先验，用于弱监督语义分割。在ECCV，2016年。一二三六七八[30] W. Shimoda和K.柳井用于弱监督语义分割的不同类别特定显着

下载后可阅读完整内容，剩余1页未读，立即下载