基于聚类的弱监督目标定位方法——CREAM

175 浏览量更新于2023-10-25 收藏 12.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Jilan Xu1 Junlin Hou1 Yuejie Zhang1* Rui Feng1∗ Rui-Wei Zhao2Tao Zhang3 Xuequan Lu4 Shang Gao4{jilanxu18,jlhou18,yjzhang,fengrui,rwzhao}@fudan.edu.cn, taozhang@mail.shufe.edu.cn,{xuequan.lu,shang}@deakin.edu.auBackground activationsForeground activationsmixupactivationsafter re -activationIOU at different thresholds 𝜏Background activationsForeground activationsIOU at different thresholds 𝜏94370CREAM:基于类别重新激活映射的弱监督目标定位01上海复旦大学计算机科学学院，智能信息处理上海市重点实验室，智能视觉计算上海协同创新中心 2复旦大学工程技术学院 3上海财经大学 4Deakin大学0摘要0弱监督目标定位（WSOL）旨在通过图像级别的监督来定位对象。现有的方法主要依赖于从分类模型中得到的类别激活映射（CAM）。然而，基于CAM的方法通常只关注对象的最具有区分度的部分（即不完整的定位问题）。在本文中，我们通过实验证明这个问题与前景区域和背景之间的激活值混淆有关。为了解决这个问题，我们提出了一种基于聚类的新方法Class RE-ActivationMapping（CREAM），以提升整体对象区域的激活值。为此，我们引入了类别特定的前景和背景上下文嵌入作为聚类中心。在训练过程中，我们开发了一种基于CAM的动量保持策略来学习上下文嵌入。在推理阶段，重新激活映射被建模为高斯混合模型下的参数估计问题，可以通过推导出的无监督期望最大化的软聚类算法来解决。通过将CREAM简单地集成到各种WSOL方法中，我们的方法显著提高了它们的性能。CREAM在CUB、ILSVRC和OpenImages基准数据集上实现了最先进的性能。代码将在https://github.com/Jazzcharles/CREAM上提供。01. 引言0弱监督目标定位（WSOL）旨在仅通过图像级别的监督来定位每个图像中属于一个类别的对象0*通讯作者0CAM我们的方法0图1.CAM和我们提出的CREAM中激活值的直方图。红色曲线显示了当τ从0.1变化到0.5时，地面真实框和预测框之间的IOU。0使用图像级别的监督[6, 33, 34,38]进行WSOL。WSOL减轻了获取精细注释的大量工作。先前的方法主要遵循训练分类网络然后从中得到类别激活映射（CAM）[38]进行WSOL的流程。前景区域由CAM值大于阈值确定。然而，CAM只突出显示最具有区分度的区域（即不完整的定位）。现有的方法试图通过对抗擦除[22,34]，空间正则化[15,19]或注意机制[6]来发现完整的对象。其中大部分仍然通过类似CAM的分类流程获取激活图以回答“哪些像素对类别预测有贡献”。在本文中，我们认为这是不完整定位的问题94380CAM的问题与前景区域和背景之间的激活值混淆有关。图1（顶部）展示了CAM中前景激活（红色）和背景激活（蓝色）的分布情况。高激活值仅由最具有区分度的部分（例如鸟头）主导。相反，许多低激活值属于较不具有区分度的部分（例如鸟身体）和背景，使它们难以区分。混淆的激活值带来了平衡前景区域的精确度和召回率的挑战。具体而言，广泛采用的阈值τ=0.2 [6, 22,38]似乎太大，无法完全覆盖前景对象。而调整一个非常小的阈值（例如τ<0.1）可能会导致显著的误报定位。此外，由于混淆的激活值，当τ很小时，阈值的轻微变化会导致IOU的剧烈变化（红色曲线），因此定位结果对阈值非常敏感。Choe等人[5]还揭示了通过简单控制阈值来改进CAM的误解。这表明仅通过控制阈值来改进CAM是不可行的。为了解决上述挑战，我们提出了一种新的弱监督目标定位框架Class RE-ActivationMapping（CREAM）。我们通过回答“像素更类似于前景还是背景”来重新思考WSOL任务。特别地，我们引入了描述公共前景（背景）特征的类别特定前景（背景）上下文嵌入。在训练过程中，我们开发了一种动量保持策略，根据CAM的指导更新上下文嵌入。通过丰富的上下文信息，学习到的嵌入可以作为每个类别的初始前景（背景）聚类中心。在推理过程中，我们将重新激活映射视为在高斯混合模型（GMM）框架下的参数估计问题。我们通过推导基于期望最大化（EM）的软聚类算法来解决这个问题。CREAM提升了整体对象的激活值，简化了前景-背景分离，并且对阈值表现出鲁棒性，如图1（底部）所示。它在CUB、ILSVRC和OpenImages数据集上优于先前的WSOL方法。总之，本文的贡献如下：0•我们提出了一种基于聚类的方法CREAM，通过增强整体对象区域的激活来解决不具有辨别性的前景区域和背景之间的混合问题。0•我们设计了一种基于CAM的动量保持策略，学习类别特定的上下文嵌入，并将其用作重新激活映射的初始聚类中心。0• 我们将重新激活映射视为GMM框架下的参数估计问题，并解决了它。0通过推导出一种基于EM的软聚类算法来解决它。0•CREAM在CUB、ILSVRC和OpenImages基准数据集上实现了最先进的定位性能。它还可以作为各种现有WSOL方法的即插即用方法。02. 相关工作02.1. 弱监督目标定位0无回归器的WSOL方法。在Class ActivationMapping（CAM）[38]之后，大多数方法仅使用分类网络获取类别预测和定位图[2, 6, 22, 27, 35,37]。为了解决CAM的不完整定位问题，一些方法在输入图像[22, 32]或特征图[27,35]上采用了迭代擦除策略，以强制网络关注对象的剩余部分。受注意机制的启发，Zhang等人[36]利用不同对象之间的像素级相似性获取它们的一致特征表示。RCAM[1]提供了阈值化的平均池化、负权重夹紧和百分位阈值化等方法来改进CAM。SEM[37]采样前K个激活作为前景种子，并用它们为每个像素分配标签。Xie等人[28]在低级特征的指导下生成紧凑的激活图。与这些方法不同，我们的方法通过基于EM的软聚类机制获取激活图，从而自然地解决了不完整的定位问题。基于回归器的WSOL方法。这类工作[10, 15, 25,33]将WSOL任务分解为图像分类和类别无关的对象定位。其直觉是模型的高定位性能伴随着早期时期的低分类准确性，而后期时期则相反。这种分解旨在提升定位和分类性能。PSOL[33]首次证明了为边界框预测训练额外的回归网络可以获得很大的改进。边界框注释是使用无监督的共定位方法获得的[26]。Lu等人[15]应用分类器、生成器和回归器来施加几何约束以进行紧凑对象发现。SLT-Net[10]通过语义和视觉刺激容忍强化机制产生了稳健的定位结果。在单独的回归网络的辅助下，这些方法在大多数无回归器方法上实现了更好的定位性能。我们的CREAM适用于无回归器和基于回归器的方法。02.2. 基于EM的深度学习方法0最近的深度学习工作中经常采用期望最大化（EM）算法[3,12, 14, 16, 30, 31]。Hinton等人[12]引入了EM路由where 1() is an indicator function; and δ is set to 0.2 ×max(Mc) as suggested in [38].The foreground (back-ground) features can be retrieved by the element-wise multi-plication of the original feature F and the mask M fgc (M bgc ).For each sample (x, c), we exploit a momentum preserva-tion strategy on the foreground (background) embeddingsusing the spatial average of the foreground (background)94390� ��0⊙0映射校准0� �0� �0� �0� 200 �� 200 ��0归一化和阈值化0仅训练仅推断0⊙ 逐元素乘法0基于EM的重新激活0∙∙∙0类别特定的上下文嵌入0200类。普通黄喉鸟0001类。黑脚信天翁0�1�� 1��0Class_002. 赖森信天翁0�2�� 2��0∙∙∙0分类器0EM EM0��(0)0��(0)0��(0)0��(0) 前景聚类中心0背景聚类中心0动量更新0E：软标签分配M：聚类中心调整0图2.CREAM的整体架构。在训练期间，维护类别特定的上下文嵌入。在推理阶段，训练好的嵌入作为初始聚类中心，并通过交替执行E步和M步来重新激活CAM。进行地图校准以生成最终的类别重新激活映射ˆMc。最佳观看效果为彩色。0为了构建部分-整体关系，Wang等人[31]使用胶囊对部分进行分组。他们设计了原型混合模型用于少样本分割。他们应用EM算法估计查询图像的模型均值向量。Biggs等人[3]使用EM算法学习动物重建的3D形状先验。大多数先前的工作在训练期间同时优化EM算法中的参数和网络的参数。相比之下，我们推导出一种基于EM的算法，在推理过程中作为无监督的软聚类机制用于前景-背景分离。03. 方法论03.1. 重新审视用于WSOL的类激活映射0设F ∈Rd×h×w为最后一个卷积层中的特征图，每个fk对应于通道k的特征图。wck是与类别c相关的第k个通道的权重。类激活映射Mc定义为：0Mc = �0k wck fk。（1）0同时，类别预测可以重写为：0Sc = �0k w c 0i，j fk(i, j) = �0i，j Mc(i, j)。（2）0其中i和j表示空间位置。通过CAM解决WSOL可以解释为回答“哪些像素对类别预测有贡献”。为了生成用于WSOL评估的最终边界框/掩码，将Mc归一化到[0,1]并通过预定义的超参数τ进行阈值处理。只有大于τ的CAM值被视为前景像素。然而，较少具有区分性的前景区域和背景的激活值是无法区分的，如下所示：0如图1（顶部）所示，CAM很容易出现不完整的定位问题。03.2. 类别重新激活映射0对于每个图像，我们的目标是通过将每个像素映射到前景或背景聚类来发现其前景区域。我们首先引入Vfg和Vbg作为上下文嵌入。Vfgc ∈ Rd和Vbgc ∈Rd分别表示类别c中的公共前景和背景上下文特征。它们也可以被视为每个类别的两个聚类中心。学习嵌入和基于学习嵌入的重新激活的方法如下所述。图2显示了我们提出的Class RE-ActivationMapping的框架。训练阶段：上下文嵌入学习。我们完全按照CAM[38]的训练过程和交叉熵损失进行训练，只是额外维护上下文嵌入。上下文嵌入学习的基本思想是使用当前小批量图像的前景（背景）特征来更新嵌入。首先，我们对CAM进行硬阈值处理，以获得前景-背景指示器的one-hot二进制掩码Mfgc，Mbgc ∈ {0, 1}h×w，计算如下：0Mfgc = 1 (Mc ≥ δ)，Mbgc = 1 (Mc < δ)，（3）features. Suppose m ∈ {fg, bg}, the update of the embed-dings with regard to class c is given by:V mc= λV mc+ (1 − λ)1||M mc ||0Fij(M mc )ij, (4)where Fij is the F value at location (i, j); λ is the mo-mentum coefficient; || · ||0 counts the number of non-zeroelements. With rich context features, the trained V fg andV bg act as the initial cluster centroids for re-activation.Inference stage: re-activation mapping.At the in-ference stage, we formulate re-activation mapping as aparameter estimation problem under Gaussian MixtureModel (GMM) [20] and solve it using an unsupervisedExpectation-Maximization (EM) algorithm [7]. EM algo-rithm is a generalization of Maximum Likelihood Estima-tion for probabilistic models with latent variables [4].Problem Formulation.For each sample x, the log-likelihood we aim to maximize is given by:log p(x|θ) =log p(xij|θ),(5)where θ = {afg, abg, V fgc , V bgc } is the model parameter. Inparticular, we define the model for each pixel xij as a prob-ability mixture model of two distributions, i.e., foregrounddistribution and background distribution:p(xij|θ) =�m∈{fg,bg}ampm(xij|V mc ),(6)where the mixing weights afg, abg ∈ [0, 1] and afg+abg=1.The foreground (background) base model pfg(pbg) is de-signed to measure the similarity between the image featuresand the learned embeddings. Instead of using the RBF ker-nel in GMM, the choice of base models is Gaussian functionbased on cosine similarity for implementation efficiency:pm(xij|V mc ) = e(V mc )T Fij/σ,m ∈ {fg, bg},(7)where σ is a scale parameter. Next, we describe the ap-plication of EM in solving the mixture model. We defineZfg, Zbg∈ [0, 1]h×w as the latent variables. Zfgij representsthe probability of belonging to foreground at location (i, j).E-step. In the E-step, current parameters are utilized toevaluate the posterior distribution of the latent variables,i.e., p(Zfg|x, afg, V fgc ) and p(Zbg|x, abg, V bgc ). In each it-eration t(1 ≤ t ≤ T), assuming the model parameters arefixed, the latent variables are computed as:Zm(t)ij=ampm(xij|V m(t)c)�m′∈{fg,bg} am′pm′(xij|V m′(t)c), m ∈ {fg, bg}.(8)From the perspective of soft clustering, Eq. (8) calculatesthe similarity between each pixel feature and context em-beddings (i.e., centroids), and assigns a soft label (fg/bg) toeach pixel. Different from the random initialization in EM,in our case, the initial embeddings have gained sufficientclass-specific features from context embedding learning.M-step. In the M-step, the purpose is to adjust the con-text embeddings by maximizing the expected log-likelihoodof the image features using the computed latent variables.This enables class-specific context embeddings to be image-specific. The new model parameters can be obtained by:V m(t+1)c=Zm =1M fgc0Zm(T )ij(M fgc )ij,m ∈ {fg, bg},94400h高度0w宽度0h高度0w宽度0∑ h i ∑ w j Z m ( t ) ij F ij0∑ h i ∑ w j Z m ( t ) ij , a m( t +1) =0∑ h i ∑ w j Z m ( t ) ij0h × w ,0(9) 其中 m ∈ { fg, bg } 。 V fg c 和 a fg通过特征的加权平均和分配给前景的像素的有效数量进行更新。方程（8）和（9）交替执行直到收敛。Z fg ( T ) 和 Zbg ( T )成功标记整个对象区域。通过特征聚类获得激活图的结果是避免全局平均池化层对小区域的偏向[ 1 ]。03.3. 地图校准0到目前为止，Z fg ( T ) 和 Z bg ( T )一直作为目标定位结果。根据CAM的基本假设，前景对象对应于激活图中的高值。然而，从方程（7）和（8）无法判断较高或较低的值是否对应于Z fg ( T )中的前景区域。具体而言，只有当Z fg ( T )的前景区域具有较高的值时，Z fg ( T )才被期望成为最终的定位图。否则，应选择Z bg ( T )。为了处理这种不确定性，我们通过利用它们作为前景的平均概率进行地图校准，即 Z fg 和 Z bg ：0h×0w×0(10) 其中前景区域 M fg c可以通过CAM的指导类似地检索到训练阶段。校准的前景图 M cal c 定义为具有更大平均概率的图像：0M cal c = ( Z fg ( T ) ) 1 ( Z fg ≥ Z bg ) ( Z bg ( T ) ) 1 ( Z fg

下载后可阅读完整内容，剩余1页未读，立即下载