弱监督语义分割的区域语义对比与聚集

157 浏览量更新于2023-10-25 收藏 1.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4299弱监督语义分割的区域语义对比与聚集Tianfei Zhou1，Zhou，Meijie Zhang2，Zhou，Fang Zhao3，Jianwu Li2，†1苏黎世联邦理工学院计算机视觉实验室2北京理工大学3https://github.com/maeve07/RCA.git摘要从弱标记（例如，仅图像标签）数据是具有挑战性的，因为难以从稀疏的语义标签推断密集的对象区域。尽管被广泛研究，但目前大多数努力直接从单个图像或图像对携带的有限语义注释中学习，并且难以获得完整的我们的工作从一个新的角度对此进行了阐述，通过在大量弱标记训练数据中协同探索丰富的语义上下文，以进行网络学习和推理。特别是，我们提出了区域语义对比和ggregation（RCA）。RCA具有区域记忆库，可以存储训练数据中出现的大量、多样的对象模式，为探索语义层结构提供了有力的支持。特别是，我们提出了i）语义对比，通过对比大量的分类对象区域来驱动网络学习，从而获得更全面的对象模式理解，以及ii）语义聚合，以收集记忆中的不同关系上下文，以丰富语义表示。以这种方式，RCA获得了细粒度语义理解的强大能力，并最终在两个流行的基准上建立了新的最先进的结果，即，PASCAL VOC2012和COCO 2014。1. 介绍语义分割仍然是计算机视觉中的基本任务，在自动驾驶、机器人、人机交互和医学成像分析中有许多应用。虽然全监督系统已经取得了巨大的进步，但它们受到像素级注释可用性的限制，即使使用智能界面，也往往需要付出巨大的成本[3]。弱监督语义分割（WSSS）可选地调查是否可以利用有效和弱监督信号（例如，图像标签[2，25，37，66]，涂鸦[39，40，54]，边界方框[14，34，44，51]）。这项工作研究了图像级标签的形式，可以毫不费力地获得，贡献相等;†通讯作者：李建武。（例如，[第二、二十五、三十五、五十九、六十六、七十一条]）（例如，[17、37、52]）图1.整个文件的主要思想是促进语义上下文的本地化的个别对象在WSSS。因此，我们的RCA执行数据集级别的关系学习（c），从大量（理想情况下是所有）训练样本中挖掘丰富的上下文知识，而不是从单个图像（a）或图像对（b）中挖掘。这使得我们的模型能够获得深入的语义模式理解，最终提高对象本地化。因此被主流方法广泛接受在训练数据中缺乏真正的“图像标签”到“对象区域”对应关系的情况下，学习将视觉概念映射到像素区域特别困难。开创性的工作，即，类激活映射（CAM）[81]通过从图像分类器的内部激活中挖掘区域来解决这个问题。然而，该技术易于给出稀疏和不完整的对象估计，因为分类器仅被驱动以激活具有强区分能力的小比例特征为了解决这个问题，随后的努力中的一个普遍的努力是努力学习更完整的对象区域，区域生长以扩展初始响应[24，30，60]，以隐藏和寻找方式进行对抗性擦除[23，32，33，64]，收集图像内上下文的特征富集[66，72]，寻求辅助显着性监督[35，71，74]，或自我监督学习。与预先设计的借口任务[6，47，63]。虽然令人印象深刻，但这些方法仅使用单个图像信息进行对象定位（图1（a）），忽略图像间上下文信息。图像级标签不仅告诉出现在每个单独的图像类别，但也揭示了所有的语义结构4300数据集中的图像对于每个概念（即，猫在Fig.1），数据集包含许多语义相似但视觉上不同的实例;对于任何两个不同的概念（例如，猫和狗），它们的所有实例在语义上都是不同的，即使有些实例可能看起来彼此非常相似。应该利用这种先验知识来获得更准确的语义模式理解。虽然一些初步的尝试[17，52，80，83]已经朝着这个方向（图。1（b）），他们专注于在有限数量的图像中进行成对[17，52，80]或四元组[83此外，所有这些方法都倾向于逐像素的关系建模，这是相当困难的，由于缺乏适当的超分辨率信号，并导致高昂的计算成本。受上述分析的启发，我们提出了区域语义对比和聚合（RCA），以最大限度地利用视觉数据中的上下文知识（图1）。1（c）），旨在全面的对象模式学习以及有效的CAM推理。代替[17，52，83]中的像素级关系建模，RCA更喜欢区域感知表示，其对噪声更有效和鲁棒特别是，对于每个小批量图像，我们根据中间的粗CAM将其划分为分类伪区域，该CAM是在其单个图像标签的监督下学习的。对于每个伪区域，RCA建立其与所有其他图像中的区域的关系，以促进小块级语义上下文学习。对于可行的计算，我们将RCA与连续更新的内存库相关联，该内存库在训练过程中收集并保留数据集中有意义的区域语义在训练过程中，RCA从两个新的角度探索每个小批量和记忆库中区域的语义关系：语义对比，让模型学习区分数据集中所有可能的对象区域，促进更全面的对象模式理解。特别是，对于每个伪区域，语义对比迫使网络将其嵌入拉近相同类别的记忆嵌入，并将不同类别的记忆嵌入推开。这种对比特性很好地补充了分类目标（对于每个单个图像），以改进对象表示学习。语义聚合，它允许模型收集数据集级别的上下文知识，以产生更有意义的对象表示。这是通过一个非参数注意力模块来实现的，该模块独立地总结了每个图像的记忆表示。与传统的图像内上下文学习方案[12，73]相比，我们的语义聚合专注于图像间上下文挖掘，因此能够捕获更多信息的文本级语义。这两种上下文建模方案是不可或缺的我们的模型。语义对比有助于网络从整体角度学习更结构化的对象嵌入空间，而语义聚合则侧重于通过收集不同的语义上下文来改善此外，语义对比对于保持唯一的、信息丰富的记忆嵌入是必不可少的，这是产生可靠的语义聚合的前提。这两个组件一起工作，使RCA成为一个强大的WSSS模型（见表1）。我们的RCA是灵活的，可以很容易地纳入现有的WSSS模型。它在具有挑战性的数据集上显示出持续改进的分割性能（即，PASCAL VOC 2012 [15]和COCO 2014[41] ），在最先进的 WSSS 模型之上（即， OAA+[25]，EPS [35]）。主要贡献。i）我们研究了WSSS中一个重要但长期被忽视的问题，以探索弱标记训练数据中的丰富上下文，用于网络学习。这本质上缩小了图像级语义概念和像素级对象区域之间的差距。从技术上讲，ii）我们引入了一种用于语义对比的鲁棒对比学习算法，该算法能够从不完美的伪区域特征中学习有效的表示，以及iii）用于语义聚合的非参数注意力模型，以从整个数据集中收集丰富的上下文知识。2. 相关工作弱监督语义分割由于其在减少其完全监督对应物所需的大规模收集像素级注释的负担方面的实用价值而越来越受欢迎[56，57，82，84，85]这里弱监督可能以各种形式出现，例如，图像级标签[7，55，65，75，83]，涂鸦[40，54]，绑定-输入框[14，28，44，51]，点击[3，27]。其中，图像级标签由于其最小的注释需求而获得最多的关注。然而，由于仅指示特定语义的存在或不存在，因此任务变得极具挑战性。[81]的开创性工作提出获得粗略的对象定位图（即，CAM）作为种子来生成像素级伪分割标签。后续工作扩展粗CAM以通过区域生长[24，30，66]获得对象区域的完整范围，使用随机推理[33]，结合自监督学习[6，47，63]，探索边界约束[8，35]，或者挖掘和擦除对象区域[23，36，64]。过去的努力只考虑每个图像单独，忽略了丰富的语义背景下，在不同的训练图像。最近的工作[17，52]通过计算每对图像之间的语义共同关注来解决跨图像语义挖掘，而[83]通过图神经网络架构进一步实现从更多图像中进行高阶语义挖掘。虽然令人印象深刻，这些方法仍然考虑有限的语义上下文在一个小的数量，··4301联系我们∈IFFCN我FFCAMQ地图（等式。（二）P（§3.2.1）M1M2M3M（§3.2.4）FCAMRM-NCEO（§3.2.3）CES F′F间隙（O）y图2.区域语义对比和聚合的详细说明。更多详情请参见§3图像的BER（即，2在[17，52]和4在[83]）。相比之下，我们的方法更进一步，探索从大量弱注释数据中学习丰富关系。它配备了一个伪区域内存库，用于存储每个类别的区域级语义嵌入，从而实现区域感知的语义对比和聚合，以实现更全面的对象模式挖掘。对比表示学习由于其在非/自我监督表示学习方面的巨大潜力而变得越来越有吸引力[10，21，45，50，53，68]。这些方法学习比较样本，以便将不同的（或负的）数据对分开，同时将相似的（或正的）数据对拉到一起。一些方法[4，11，19]甚至在不使用任何负对的情况下实现了令人信服的性能。除了图像级别的实例区分，最近的努力[5，62，70]探索像素或块级别的区分，以学习更好地推广到下游密集预测任务的视觉表示（例如，语义分割、对象检测）。此外，在[29]中研究了用于图像识别的监督对比学习，在[58]中研究了用于监督语义分割的监督对比学习。这些方法扩展了自监督设置（通过利用标签信息），以将来自相同类别的所有样本的集合作为阳性与来自其他类别的阴性进行对比。受这些进展的启发，我们的方法使用弱监督注释执行密集的对比学习以提高神经网络的对象定位能力我们的方法自然与上述密集表示学习方法不同，后者要么忽略任何注释[5，62，70]，要么需要像素级监督[58]。关系上下文学习在图像和视频分割中很受欢迎，通过从其上下文像素[18，78]或区域[12，73]中收集有用的表示来但这些方法局限于捕捉每个单独图像内的局部上下文，而忽略了不同图像之间的潜在语义上下文。与此形成鲜明对比的是，我们的语义聚合挖掘整个数据集的所有图像之间的关系语义，以获得更多信息的上下文学习。非参数记忆库已经被发现可以记住大量的样本来学习良好的表示[21，43，58，61，68]。我们的记忆库受到这些努力的启发，然而，这是独一无二的，i）它存储从图像级标签推断的一致的和表达性的区域级语义;ii）更重要的是，它还在推断阶段保持活跃，以提供用于网络推断的整体3. 我们的方法3.1. 问题陈述任务设置。遵循标准设置，数据集中的每个训练图像IRw× h ×3仅与图像级标签向量y =[y1，y2，. - 是的- 是的，y L] 0，1 L，用于L个预先指定的类别。这里，yl=1表示I中存在类l，否则为0给定这种粗略的注释，大多数当前的解决方案遵循两阶段流水线来解决“从分类到分割“的任务首先训练分类网络，用于识别对应于每个类别的对象区域，然后对对象区域进行细化以产生伪分割标签作为语义分割网络的监督。以前的WSSS解决方案。最近的方法[25，35，79]通常直接从全卷积网络（FCN）中导出类感知注意力图，这被证明可以产生与CAM相同质量的定位图[79]。具体地，对于小批量图像I，其类感知注意力图P如下生成：F=FFCN（I）∈RW×H×D，P=FCAM（F）∈RW×H×L. （一）LL4302F§--Σ联系我们{∈M\ M}NCELL1（）e2L=x=1，y=1Lm+∈MlLLm−l∈M\MlLLLL这里，FCN是FCN网络，通常对应于标准分类器的卷积部分（例如，VGG [49]，ResNet [22]）。F是I的密集嵌入，具有D通道和W×H空间大小。FCAM是一个类感知的概念，迭代层以产生P=[P1，· · ·，PL]，其中每个整个学习阶段。在每个训练步骤中，将在反向传播期间更新存储库以包含新的观察结果。特别地，当前特征向量fl（等式10）2）将被平滑地更新到存储器表示ml中，如下所示：映射Pl∈RW×H表示第l个网络的激活m←γm+（1 −γ）f，（3）课Ne xt，得分向量p=[p，p，···，p]∈RL为l l l经由全局平均池化（GAP）层从P导出，其中pl=GAP（Pl）是第l个类的未归一化分数。最后，p用于多标签分类。我们的主要思想。通过以上对现有WSSS解决方案的描述，我们发现它们仅利用个体图像中有限的上下文线索，导致难以更完整地理解不同的语义模式。为了弥补这一局限性，我们引入了一种新的方法，RCA，在大量图像的伪区域（理想情况下是整个数据集）上执行语义对比和语义聚合语义对比和语义聚合都由外部伪区域存储体支持。接下来，我们将首先描述构建初始伪区域表示（ §3.2.1 ）以及构建内存库（§3.2.2）。然后，我们对语义对比（§3.2.3）和语义聚合（§3.2.4）进行了评价。RCA的整个流水线如图所示二、3.2. 区域语义对比与聚合3.2.1伪区域表示对于每个小批量样本I，我们将其密集嵌入F（等式1）转换为1）到一组分类区域表示的基础上P（方程1）。1）。特别地，对于出现在I中的第l个类别（即，yl=1），其区域级语义信息通过掩码平均池化（MAP）被总结为紧凑的嵌入向量fl∈RD[48]：其中γ是记忆进化的动量当第l个类出现在I中时，我们更新m l（即， y1 = 1）并且其分类分数高于阈值v，即，pl> v.否则，我们就保持原来的样子记忆机制讨论。虽然内存库已被广泛用于最近的方法[21，68，69]，我们显示了几个独特的和有吸引力的特点，可以提升更多的优势，WSSS的任务。首先，记忆被划分得足够小，以压缩每一个潜在的语义假设（即：伪区域嵌入）单独地在每个训练样本中，并且能够很好地编码弱标记的视觉数据内的每个类别的不同语义模式;第二，动量更新方案（Eq.3）不仅有助于获得语义对比（3.2.3）的一致性特征[21，68]，但更重要的是，提供了能够准确描述对象语义的全面表示。更具体地说，Eq。3累加所有中间状态（例如，f1）由图像分类器在不同的训练时期产生的每个对象区域。这些状态已被证明是很好的互补与对方[25]，并作为一个结果，方程。3.随着训练的进行，每个记忆特征ML将被逐渐提升以这最终会导致信息性记忆表现-训练后的文本，可以作为语义聚合的可靠上下文（§3.2.4）。H.W.，HFMl（x，y）F（x，y）3.2.3区域语义对比lW，Hx=1，y =1 Ml（x，y）我们在伪区域语义上进行语义对比其中Ml=1（Pl> μ）0，1W× H是二元掩模，仅高亮其激活图中的类I的强激活像素（即， pl∈ RW×H）。 1（·）是指示函数，用于学习更具区分性的密集表示的tic。对于每个分类伪区域嵌入fl（等式2），2）在图像I中，我们的目标是增加其与图像的相似性同一类的理论特征{m+∈Ml}，同时减少并且阈值μ被设置为Pl的平均值。这里fl是l−紧凑和轻量级，允许可行的探索其与从其他样本中挖掘的大量伪区域的关系。不同类别的特征M11。我们通过区域感知对比损失来实现这一点Ll（fl，yl）3.2.2伪区域存储体1=|M|esim（fl，m+）/τ−logesim（f，m+）/τ+esim（f，m−）/τ，（四）RCA的参数化和动态存储库，用于存储集群级的区域语义信息。特别是其中τ是标度距离分布的温度超参数，sim（i，j）=i·j是点积最大，存储体M由L字典，即，之间l2-正规化i和ji2j2.，余弦相似性）。M={M1，M2，···，ML}，每个用于一个猫。Ml的每个条目表示在图1中观察到的图像I当量4属于监督对比学习的范围[29]，即，给出了fl/m+/m-不同的是，在我们的背景下，标签是弱的和嘈杂的，正-D∈R，（2）从[68，69]中得到启发，我们设置了一个非-Σ4303/B··BNCE·L§MFFM×FΣ∈∈···∈LMLLLLLF不仅编码F中的图像内局部上下文，学习鲁棒的表示是一个巨大的挑战为了解决这个问题，我们开发了区域混合来正则化Eq。4学习有效的区域表示，即使是从嘈杂的样本。更具体地说，对于I中的每个区域l，我们通过将其与另一个小批量图像中的区域l-线性组合来创建混合区域。这里我们假设区域l和l−来自不同的类别，即， yl=yl−。混合区域的嵌入被计算为：fl=ωfl+（1−ω）fl−，（5）其中，系数ω（β，β）遵循Beta分布（，），两个形状参数设置为相同的β[77]。然后，我们定义了一个新的区域混合对比损失：LRM-NCE=ωLNC E（fl，yl）+（1− ω）LNC E（fl，y−）。（六）表示矩阵乘法。softmax（）对输入的每一行进行标准化。S中的每个条目反映每行之间的归一化相似性（即，特征）和每一列（即，原型）中。基于亲和度矩阵，特征嵌入F的上下文摘要w.r.t.可以计算原型表示QF′=S<$Q∈R（WH）×D，（8）其中F′表示F的丰富特征表示，其进一步重塑为RW×H ×D。最后，我们将F′和原始特征F连接在一起：F∈[F，F′]∈RW×H×2D.（九）在这里它计算tw oL相对于yl和yl−的损失，它们由用于区域混合的相同权重ω组合（等式（五）。当量 6鼓励网络学习混合区域的相对相似性，正则化模型以从标签不完美的样本中学习鲁棒的表示。而且还捕获了F′中的图像间全局上下文，从而丰富了语义理解的可表示性。3.2.5类激活图预测最后，F被送入另一个类--一个与之一致的类3.2.4区域语义聚合（RSA）上下文被广泛认为对于像素理解是重要的[26，73，78]，但是现有方法集中于图像内上下文建模，忽略了丰富且有价值的图像间上下文。为了缓解这一问题，我们设计了语义聚合，以利用记忆库中的文本级上下文线索来增强语义理解。如3.2.2所述，我们的记忆库提供了大量语义区域的信号。虽然大规模的记忆库可能有利于语义对比[21]，但它包含过完整（或冗余）的表示，有些甚至是嘈杂的，使得准确的上下文学习变得困难。另外，直接聚合大规模表示在计算上是昂贵的，并且将大大减慢学习和推理过程。为了解决这些问题，我们将过完备的记忆表示压缩成一组紧凑的表示原型.对于每个类l，我们对l中的所有特征进行k-均值聚类以获得K个原型向量（即，类质心），以矩阵形式组织层FCAM（等式1）1）产生最终激活图O：O=FCA M（F）∈RW×H×L.（十）3.3. 详细的网络架构我们的分类器由四个主要组件组成i）骨干网络FCN（等式1）1）将输入图像I映射到卷积表示F。这里可以使用任何FCN网络，我们使用两种常用的网络，VGG16 [49]和ResNet38 [22]，与现有方法进行公平ii）按类卷积层CAM（等式2）1）从特征嵌入中产生类感知的注意力地图在我们的网络中，两个独立的CAM在方程中使用。1和等式10，分别。每个都被实现为11卷积层。iii）分类库将所有区域模式存储在训练数据中。注意，在推断阶段移除存储体，仅保留压缩的全局原型表示。这降低了在模型部署期间维护大型存储库的成本（四）损失函数我们的分类器如下：QlRK× D。这里我们使用多个原型（即，K >1），以说明显著的类内变异。接下来，所有从L=α1L我RM-NCE+α2L CE（GAP（P），y）+LCE（GAP（O），y），（11）存储器组连接在一起，提供整体原型表示Q=[Q1，，QL]RK× D × L。然后，对于具有特征F RW× H × D的每个小批量图像I（等式1），1），我们计算其亲和矩阵S其中原型表示Q如下：S=softmax（F<$QT）∈R（WH）×（LK），（7）其中F∈R（WH）× D和Q∈R（LK）× D被展平为矩阵表示以便于计算。 ⊗4304其中每个图像I由三个损失的组合来监督。第一项RM-NCE是区域混合对比损失（等式10）。6），其计算为I.第二个是用于监督中间CAM预测P的辅助交叉熵损失CE（等式2）。1），而第三个损失是施加在最终CAM预测O上的主要交叉熵损失（等式1）。第10段）。系数α1和α2平衡这三项。4305§§变体mIoU（%）伪标号分段（val）OAA+-65.2OAA+68.267.7带RSC（§3.2.3）69.5↑1.369.3↑1.668.5↑0.371.4↑3.268.6↑0.970.6↑2.9使用RSA（§3.2.4）带RSC和 RSA（完整型号）表1. 2012年VOC消融研究[15]。“pseudo label”:4. 实验4.1. 实验环境数据集。实验在两个数据集上进行：PASCAL VOC 2012[15]是WSSS的黄金标准基准。它包含4，369张图像，分别分为1，464/1，449/1，456张用于训练/验证/测试。它为21个类别提供像素级注释。作为常见的实践[24，33，75]，我们使用广告10，582张图像[20]进行训练。COCO 2014[41]是一个更具挑战性的数据集，包含-80个对象类的复杂上下文交互，这吸引了人们的兴趣来验证我们的模型在这个数据集中的性能。我们遵循官方设置，使用80K图像进行训练，使用40K图像进行验证。评价方案。我们根据i）VOC 2012val/test和COCO2014val上的语义分割以及ii）VOC 2012train上生成的伪分割标签的质量来评估RCA。作为惯例[25，35]，在这两种情况下都使用平均交并（mIoU）作为度量。VOC 2012测试的分数来自官方评估服务器。实施详情。如3.3中所述，我们测试了两个常用的主干（即，VGG16 [49]，ResNet38 [22]）用于实验。骨干的权重从ImageNet预训练的RCA使用SGD优化器进行训练，批量大小为8，动量为0。9和重量衰减5e-4。对于主干，初始学习率设置为1 e-3，对于其他组件，初始学习率设置为1 e-2，它们减少0。每5个时期1个。我们在第一个时期通过仅在等式中使用交叉熵损失来预热网络。11，即，α1=0。该网络总共训练了30个epoch。对于VOC 2012，我们为每个类使用自适应内存大小来存储数据集中的所有区域嵌入，而对于COCO 2014，每个类的内存大小设置为500，以避免大量的内存消耗。3.2.4中的k均值原型聚类仅在每个epoch开始时执行一次，并且默认情况下，每个类的原型数量设置为K=10。对于超参数，我们根据经验将阈值ν、动量γ、形状参数β、权重α1和α2设置为0。七比零。99，8，0。01和0。4，分别。图3. 亲和力S的可视化（等式（七）.每个热图对应于矩阵S中的列，矩阵S是特定原型与图像特征F之间的点积。详见第4.2节。一旦分类器被很好地训练，我们就生成类感知的注意力图O（Eq. 10）对每一幅训练图像，将它们作为前景种子。根据[25]，35，37，67，71]，我们还使用现成的模型来计算每个图像的显著性图以估计背景线索。通过将前景和背景线索组合在一起来获得最终的伪标签[25，37]。最后，使用伪掩码作为监督，我们使用[9]中的默认超参数设置训练DeepLabV2 [9]。密集CRF [31]用作后处理例程，以细化分割边界，如[35，38，67，71，76]所示基线。RCA是灵活的，可以很容易地纳入大多数WSSS模型。在实验中，我们基于两个基线来评估RCA，[25]（由于其受欢迎程度）和EPS[35]（由于其整体最佳性能）。对于传统的OAA+，我们通过将其显着性模型替换为[42]来构建更强的基线OAA++，该模型被最近的方法广泛使用[67，71]。EPS是当今领先的WSSS模型;我们使用它来验证RCA的有效性，即使有很强的基线。再现性。我们的网络在PyTorch中实现，并在四个NVIDIA V100卡上进行训练。测试是在一个单一的NVIDIA RTX2080Ti卡上进行的。4.2. 诊断实验我们首先在VOC 2012列车上从伪标签质量方面消融RCA的核心设计。默认情况下，VGG16语义对比与语义聚合。我们调查的必要性，学习Web服务支持系统的浏览器级的视觉表1总结了结果。首先，变体1.3%）和分割（即，1.6%）的性能，证明通过对比大量的对象区域，我们的模型实现了更深入的对象模式理解的目标。其次，然而，当将它与RSC集成在一起时，我们的完整模型（即，“w/ RSC andRSA”）与“w/ RSC”（69. 伪标记阳性率为71.4%;3%vs70.6%）。这表明，RSC，这有助于获得信息的记忆表征，··4306∼∼对于RSA执行可靠的上下文聚合至关重要为了获得对RSA的更多见解，我们可视化特征-原型亲和度S（等式10）。7）在Fig.3 .第三章。我们看到我们的原型能够处理语义上有意义的区域，这可以有利于对象定位。地区混淆。下表详细说明了第3.2.3节中区域混淆的设计：变体W/O区域混淆（等式。四、w/ 区域 mixup （等式。六、mIoU（%）70.671.4我们发现，在丢弃区域混淆后，mIoU得分降低了0。百分之八这个结果揭示了区域混合确实有助于模型从噪声数据中学习更鲁棒的表示（即，伪区域），导致更准确的语义理解。存储器更新系数γ。下表示出了具有不同更新系数的所生成的伪分割标签的3）：系数γ00.50.80.90.990.999mIoU（%）69.970.971.271.271.470.9最佳值为γ=0。99（我们的默认值）。此外，当γ在0.八点零分99，示出了以相对慢的速度更新存储器是有益的，但不能太慢（即，γ=0。999）。当γ太小时，性能下降;在没有动量的极端（即，γ=0），则模型显著退化。这些结果图4. VOC 2012列车上的类激活图的可视化。从左到右：输入图像，OAA++的结果，P的结果（等式2）。1）和O（Eq.（1）我们的完整模型。支持我们的讨论 3.2.2动量更新有助于获得更一致和全面的记忆表示，为语义对比和语义聚合提供了有力的帮助。原型编号K。下表消除了原型数K在语义聚合中的作用（§3.2.4）：K1102050100所有mIoU（%）70.471.471.171.171.370.0请注意，对于K=1，我们对每个字典中的所有嵌入求平均值，以获得每个类别的单个原型向量;对于设置从表中可以看出，当K为10 100时，RCA表现出稳定的性能。在极端情况下，由于严重的信息丢失（K=1）或太多的噪声嵌入（“全部”），模型会降级。内存大小。默认情况下，我们的内存库存储数据集中的所有伪区域。但是，下表显示我们的模型对此设置不敏感：内存大小100500所有mIoU（%）70.871.271.4通过每个类只存储100或500个区域嵌入，性能只会略微下降。这表明我们的模型可以扩展到更大规模的数据集（例如COCO 2014），我们无法负担缓存所有嵌入的费用。表2. VOC 2012 [15]列车上伪分割标签。4.3. 与现有技术对象定位。表2报告了VOC 2012列车上生成的伪分段标签的结果。值得注意的是，当使用 VGG16 和ResNet38作为分类器骨干时，RCA将OAA++提高了3.2%和3.8%。它也产生了坚实的改善对每股收益（71。4%对74.1%）。这些结果证实了我们的方法具有很强的局部化能力。语义分割。表3提供了RCA与VOC 2012验证和测试的代表性方法的比较。如图所示，RCA 在两个基线（即，OAA++和EPS）。使用VGG16（或ResNet38）作为分类骨架，RCA在val上提高了2.9%（3.0%）的OAA++，在test上提高了3.6%（3.4%）。每股盈利亦持续改善（1.3%/2.0%）。此外，RCA+EPS设置了一个新的国家的最先进的。表4总结了COCO 2014的细分结果[41]。我们观察到RCA分别超过OAA+和EPS2.1%和1.1%值得注意的是，采用VGG16作为主干的RCA+EPS的性能优于许多基于ResNet的模型（例如，[71].方法骨干mIoU（%）[CVPR 20][2]ResNet3862.2ICD[CVPR 20][16]VGG1662.2[6]第六届全国政协委员ResNet3863.4[75]第75届中国国际音乐节ResNet3865.4[83]第83话：我的世界VGG1665.7IRNet[CVPR 19][1]ResNet5066.5北京谱仪[ECCV 20][8]ResNet5067.2[67]第六十话ResNet3868.1OAA+VGG1668.2RCA+OAA+71.4↑3.2OAA+ResNet3869.4RCA+OAA+73.2↑3.8[35]第三十一话ResNet3871.4RCA+EPS74.1↑2.74307图5. VOC 2012val（左）和COCO 2014val（右）的定性分割结果。从左到右：输入图像，地面实况，OA A++的分割结果以及我们的RCA。方法骨干mIoU（%）[46]第46话VGG1620.4[30]第三十话VGG1622.4[24]第二十四话VGG1626.0[59]第59话VGG1627.7[83]第83话：我的世界VGG1628.7[13]第十三届全国政协委员VGG1630.8[63]第63话ResNet3832.8[75]第75届中国国际音乐节ResNet3832.8[71]第二十一届中国国际音乐节ResNet3833.9[25]第二十五话VGG1624.6RCA+OAA+[ICCV 19][25]VGG1626.7↑2.1[35]第三十一话VGG1635.7[35]第十一届中国国际音乐节VGG1636.8↑1.1表4.COCO 2014上的定量性能[41]val.++OAA和RCA在VOC 2012上的细分结果表3. VOC 2012 [15]验证和测试的定量性能。所有模型都使用ResNet作为分割主干。、4.4. 可视化结果对象定位。图4描绘了PASCAL VOC 2012中用于训练样本的OAA++如所观察到的，我们的RCA能够在各种具有挑战性的情况下产生更完整的对象定位结果（例如，微小物体、尺度变化）。此外，最终的CAM预测（等式10）比中间的（方程10）更准确。1），展示我们核心设计的有效性。语义分割。图5说明了一些定性val和COCO 2014val.我们发现，RCA实现了更准确的分割结果比OAA++，在处理复杂的场景，如小/大的对象，多个实例，遮挡显示出显着的能力5. 结论在这项工作中，我们提出了一种新的方法，RCA，学习语义分割只使用图像级监督。为了缓解图像标签所携带的有限可用知识，我们的方法探索了从弱标记训练数据中发现丰富语义上下文的可能性特别是，RCA配备了一个连续更新的存储库，用于存储大量的历史- ical伪区域功能。记忆内容和小批量训练样本之间的语义关系被充分利用，作为额外的监督信号（通过语义对比）或整体上下文线索（通过语义聚合），以改善网络的学习和推理。我们的方法是有效的和原则性的，广泛的实验表明其在流行的基准上的领先性能，PASCAL VOC 2012和COCO 2014。鸣谢本研究得到了北京市自然科学基金（L191004）和CCF-百度开放基金的支持方法ValMiou（%）测试[74]第74话：我的世界63.364.3[CVPR 19][1]63.564.8美国[17]64.365.3[33]第33届中国国际音乐节64.965.3[47]第四十七话：一个女人64.965.5[63]第六十届世界音乐节64.565.7†SubCat[CVPR 20][6]66.165.9[25]第二十六话：65.266.4哥伦比亚特区[ECCV 20][8]65.766.6[75]第75届中国国际音乐节66.166.7[52]第52话66.266.9[16]第十六届中国国际音乐节67.868.0[76]第二十一届世界音乐大会67.868.5[72]第72话68.368.5[71]第71话：我的世界69.068.6[38]第38届中国国际音乐节68.569.0[83]第83话最后一句话68.769.0[67]第六十届中国国际音乐节70.970.6[ICLR 21][27]69.571.6公司简介67.767.4RCA+O AA++70.6↑2.971.0↑3.6†OAA++68.168.2†RCA+O AA++71.1↑3.071.6↑3.4[35]第35话70.970.84308引用[1] Jiwoon Ahn，Sunghyun Cho，和Suha Kwak.具有像素间关系的实例分割的弱监督学习。在CVPR，2019年。[2] 尼基塔·阿拉斯拉诺夫和斯特凡·罗斯单阶段语义从图像标签分割。在CVPR，2020年。[3] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么在ECCV，2016年。[4] 玛蒂尔德·卡隆彼得·波亚诺夫斯基阿曼德·朱兰，还有Matthijs Douze用于视觉特征的无监督学习的深度聚类。在ECCV，2018。[5] Krishna Chaitanya，Ertunc Erdil，Neerav Karani和Ender科努克格鲁有限注释医学图像分割的全局和局部特征对比学习在NeurIPS，2020年。[6] 张玉婷，王乔松，洪伟智，罗宾逊Piramuthu，Yi-Hsuan Tsai和Ming-Hsuan Yang。通过子类别探索的弱监督语义分割。在CVPR，2020年。[7] Arslan Chaudhry，Puneet K Dokania，and Philip HS Torr.发现用于弱监督语义分割的类特定像素。arXiv预印本arXiv：1707.05821，2017。[8] Liyi Chen，Weiwei Wu，Chenchen Fu，Xiao Han，andYun-张涛。具有边界探索的弱监督语义分割。在ECCV，2020年。[9] Liang-Chieh Chen，George Papandreou，IasonasKokkinos，Kevin Murphy和Alan L Yuille。Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE TPAMI，40（4）：834[10] Ting Chen，Simon Kornblith，Mohammad Norouzi，andGe-奥弗里·辛顿。视觉表征对比学习的一个简单框架。2020年。[11] Xinlei Chen，Kaiming He.探索简单的暹罗代表-怨恨学习在CVPR，2021年。[12] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan ， and Jianshi Feng. A2-nets ：双重注意网络。NeurIPS，2018。[13] 崔俊锡李承浩和沈贤贞注意-基于dropout层的弱监督单目标局部化和语义分割。IEEE TPAMI，2020。[14] 戴季峰、何开明、孙建。 Boxsup：Exploit使用边界框来监督卷积网络进行语义分割。在ICCV，2015年。[15] Mark Everingham，Luc Van Gool，Christopher KIWilliams，John Winn和Andrew Zisserman。pascal视觉对象类（voc）的挑战。IJCV，88（2）：303[16] 范俊松、张兆祥、宋春风、铁牛Tan.使用类内判别器学习完整对象，用于弱监督语义分割。在CVPR，2020年。[17] 范俊松，张兆祥，谭天牛，春风宋，还有君萧。Cian：用于弱监督语义分割的跨图像亲和网络。在AAAI，2020年。[18] 傅军，刘静，田海杰，李勇，鲍勇军，志伟方和卢汉青。用于场景分割的双注意网络。在CVPR，2019年。[19] Jean-BastienGrill ， FlorianStrub ， FlorentAltche'，CorentinTallec，PierreHRichemond，ElenaBuchatskaya ， Carl Do- ersch ， Bernardo Avila Pires ，Zhaohan Daniel Guo，Moham- mad Gheshlaghi Azar，etal. Bootstrap your own latent ： A new approach to self-supervised learning.在NeurIPS，2020年。[20] Bharat hHariharan，PabloArbela' ez， LubomirBourdev，Subhransu Maji和Jitendra Malik从反向

下载后可阅读完整内容，剩余1页未读，立即下载