基于信息熵的卷积神经网络特征池化

70 浏览量更新于2023-10-12 收藏 17.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10.40.30.20.110-6Grass SnakeMarmotMegalithArmadillo�� 134050基于信息熵的卷积神经网络特征池化0万伟涛，陈建生�，李天鹏，黄逸青，田静琪，于成，薛有泽清华大学电子工程系0wwt16@mails.tsinghua.edu.cn, jschenthu@mail.tsinghua.edu.cn0{ ltp16, huang-yq17, tianjq16, yuc18, xueyz19 } @mails.tsinghua.edu.cn0摘要0在卷积神经网络（CNN）中，我们提出通过网络对类别预测的不确定性来估计特征图中空间位置上特征向量的重要性，这可以用信息熵来量化。基于这个想法，我们提出了基于熵的特征加权方法，用于语义感知特征池化，可以方便地集成到各种CNN架构中进行训练和推断。我们证明了这种位置自适应的特征加权机制有助于网络集中注意语义重要的图像区域，从而改善大规模分类和弱监督语义分割任务的性能。此外，生成的特征权重可以在弱监督目标定位等视觉任务中使用。我们在不同数据集和CNN架构上进行了大量实验，优于最近提出的池化方法和注意机制在ImageNet分类中，同时在PASCAL VOC2012数据集上实现了最新的弱监督语义分割结果。01. 引言0在大规模图像数据集上的视觉分类[18,38]具有挑战性，因为自然图像中存在微妙的类间差异和大背景变化。迄今为止，深度卷积神经网络（CNNs）是解决这个问题最成功的模型，已经提出了各种CNN架构[10, 31,12,30]来不断提升分类性能。当前的CNN模型通过利用卷积层和池化层的堆叠来从图像中提取深层特征进行特征选择。为了聚合输入图像中的全局语义信息，在流行的CNN架构（如ResNet [10]和InceptionV3[31]）中，全局平均池化（GAP）层被放置在最后一个卷积层和分类器之间。0� 通讯作者0卷积特征图0类别（GT）0概率0类别（GT）0w0熵0w0h c0h0� � � ��0熵加权系数0� � � �� 0熵加权系数0熵加权系数0图1.使用信息熵的提出的位置自适应特征加权机制的示意图。模型在图像分类标签的训练下，对于以“草蛇”为中心的特征向量，其对于其所在位置的类别预测更加确定，而对于背景岩石的类别预测不太确定。0传统的卷积神经网络（CNN）通过卷积层和全连接层之间的池化层来提取全局特征。因此，这些CNN能够以非常低的计算成本提取出对平移和旋转具有鲁棒性的全局特征。在全局平均池化（GAP）层中，最终的图像表示是从最后一个卷积特征图中所有特征向量的平均值计算得到的。换句话说，输入图像中不同空间位置上的局部特征被平等对待。然而，这可能不是最佳的特征选择策略。从数据分布的角度来看，自然图像中的对象通常出现在各种复杂的背景上，并且同一图像中不同对象的共现频率很高。同时，对于特征图中不同位置上的特征向量，其有效感受野的中心不同，这表明这些特征中嵌入的语义是不同的。34060特征向量可能会有很大的变化。其中一些特征向量与目标对象密切相关，可以对类别预测做出贡献，而其他特征向量可能不相关甚至对分类结果有害。因此，合理的做法是以自适应的方式聚合来自不同空间位置的信息，而不是像GAP那样通过对空间维度上的所有特征向量进行平均加权。因此，对于有益于分类任务的特征向量应该被增强，而噪声特征应该被抑制。最近的研究[37]揭示了在CNN-GAP架构中，关于目标类别的不同图像区域的重要性可以通过特征向量与分类器权重之间的点积来量化，这被称为类激活图（CAM）。CAM方法通过推理作为事后附加到预训练模型上，以更好地理解分类结果。然而，更理想的是设计一个内部模块，可以通过驱动网络以更有效的方式选择特征来影响训练过程。实现这一点的最关键问题是如何在产生分类结果之前制定一个评估特征重要性的通用标准。我们认为可以通过测量网络的类别预测的确定性来实现这一点。具体而言，分类器可以直接对每个局部特征向量进行操作，生成局部类别概率分布。我们采用信息论中的不确定性测量，并计算该分布的信息熵。直观地说，熵值表征了网络对相应局部特征向量的分类的不确定性程度。小的熵值表明相应的局部特征向量可能与图像中的对象区域相关，而大的熵值通常与受到误导的图像区域（如背景或具有混淆模式的区域）相关的局部特征向量相关，这些区域对最终的分类不太有帮助甚至有害。因此，局部特征向量的重要性可以通过与相应熵负相关的加权系数来衡量。这种想法在图1中有所说明。我们将这种方法称为熵池化（EP），它可以很容易地集成到流行的CNN架构中。我们总结我们的主要贡献如下：0•我们提出了一种新颖的基于熵的机制，以促进语义感知特征池化，帮助网络提取更具鲁棒性的图像表示，以应对背景变化或干扰模式。0•利用EP有效定位语义重要区域，并引导网络集中在与类别最相关的区域上进行弱监督定位和0弱监督语义分割。0•我们的方法是通用的，可以促进多个视觉任务的性能。通过将EP集成到各种CNN骨干网络中，我们的模型在ImageNet[18]分类任务中优于最近提出的池化方法和注意机制。并且我们在PASCAL VOC2012基准测试的弱监督语义分割任务上取得了新的最佳效果。02. 相关工作0特征池化最近提出的架构，如ResNet [10]，InceptionV3[31]和SENet[12]，用不可训练参数的GAP层取代了AlexNet [18]和VGG[30]中计算成本高昂的FC层。已经提出了几种方法来改进GAP的简单平均机制。为了获得平移不变性和形状保持性，2D DFT-based pooling [26]计算特征图的每个通道的2DDFT，然后选择低频的幅度作为新特征。在二阶池化的背景下，双线性池化[23]利用特征图中的通道相关性。然而，在大规模数据集上，它计算成本高昂，并且在给定非常高维特征的小样本的情况下难以进行稳健的协方差估计。为了解决这个问题，FBP[21]利用因子化参数化，只引入线性增加的参数。MPN-COV[20]旨在开发在大规模设置中的有效协方差池化方法。iSQRT-COV[19]通过引入迭代矩阵平方根归一化方法来提高MPN-COV的计算效率，更适合在GPU上进行并行实现。分类的注意机制 EntropyPooling的工作原理是为不同位置的特征生成不同的权重。CNN中的注意机制遵循类似的做法。Residual AttentionNetworks（RAN）[32]提出了使用注意模块构建CNN的方法，该方法采用卷积编码器-解码器架构，后跟sigmoid激活来生成注意力图，以实现空间和通道特征加权。Squeeze-and-ExcitationNetworks（SENet）[12]通过沿空间维度对中间卷积特征图进行平均，然后通过两个全连接层和sigmoid激活生成通道特征加权系数，实现了ImageNet分类任务的最新结果。我们的方法与[32,12]的主要区别在于（1）我们明确地制定了与信息熵负相关的熵加权系数。H(ˆpi) = −34070局部类别概率的熵和（2）熵权重系数可以可靠地用于进行弱监督定位，网络在弱监督语义分割中非常有效。0弱监督定位和语义分割仅使用图像级标签，ClassActivation Maps (CAM)[37]可以在特征图上生成分布在不同类别上的类别得分。这种机制被广泛用于弱监督定位和语义分割等任务中突出显示有区分性的物体部分。grad-CAM[27]被提出来推广其在没有GAP层的网络中的应用。Kolesnikov等人[17]使用CAM定位类别特定的图像区域，并将其用作语义分割网络的伪标签进行训练。然而，这种监督在整个训练过程中保持不变，并且它们是小而稀疏的。为了解决这个问题，DSRG[13]提出了使用种子区域生长来更新初始分割掩码（称为种子）的方法。然而，通过提供更高质量的初始种子，这种方法可以进一步改进。多扩张卷积（MDC）[35]使用具有不同扩张率的多个卷积层分支将类别信息从最有区别的区域传递到周围区域。然而，正如其实验所示，由于扩张卷积核的尺寸限制，很难在具有大面积物体的情况下传递类别信息。我们的网络通过提出的熵池化方法可以有效地定位与类别相关的区域，并覆盖大部分真正的正样本区域。03. 熵池化0在本节中，我们将解释开发所提出方法的直觉。我们将介绍所提出的熵池化方法的公式。然后我们将描述如何在中间卷积层中插入它，并进行轻微修改。03.1. 直觉0我们首先回顾了由一系列卷积层、GAP层和通常是FC层的分类器组成的流行CNN架构。在softmax函数之前，最终的预测得分F在K个类别上计算如方程1所示，其中fGAP(∙)是GAP层的平均操作；W = [w1, w2, ...,wK]是分类器的权重，每一列对应一个类别；U∈Rh×w×c是由局部特征向量{vi∈Rc | i =01 , 2 , ..., hw }。为简单起见，我们省略了分类器的偏置。0F = WT fGAP(U)0= WT 10hw0�0i vi = 1 hw0�0i WTvi (1)0实际上，每个vi主要编码了输入图像中一个子区域受到的语义信息。特征图中不同空间位置对应的图像子区域可能覆盖不同的物体部分或背景区域。这表明不同vi与目标对象类别之间的相关性可能会有很大的变化。然而，在CNN-GAP架构下，由于GAP层的简单平均操作，所有的vi都受到相同的类别标签监督。我们的目标是探索一种空间自适应的权重方案，而不是简单地对它们进行平均。03.2. 公式化0我们的目标是通过为不同的局部特征向量vi分配不同的权重来开发一种语义感知的池化方法。我们将方程1中的WTvi称为ˆFi∈RK，它是特征图中位置i的分类得分向量。我们称ˆFi为vi的局部类别预测。然后我们有F = 1 hw �0iˆFi，这表明在GAP池化表示上进行分类等效于首先获得特征图中每个位置的局部分类得分，然后对它们进行平均。因此，在池化操作之前提取每个vi中编码的语义信息是可能的。令ˆpi =softmax(ˆFi)为位置i的局部类别概率。可以使用公式2计算ˆpi的香农熵[28]。0H(ˆpi) = -0对于特征位置i，如果其感受野FOVi位于特定对象的中心，网络对vi的局部类别预测可能会非常自信，导致H(ˆpi)值较低。否则，如果FOVi位于图像纹理或在许多不同类别的图像中频繁出现的模式的中心，则相应的H(ˆpi)通常较高。图1显示了一个典型的例子。因此，使用与H(ˆpi)负相关的系数λi对vi进行加权是合理的，如公式3所示。0k=1 ˆpi(k0max j∈[1,hw] H(ˆpj) (3)0λi = 1 - H(ˆpi)0fEP(U) = 1/hw0iλivi (4)34080CNN0卷积0W=[w1, ..., wK]0局部分类0熵加权系数0图像表示0熵池化0完全连接类别概率0空间平均w0h0c0K0h0w0h0w0c0c0w1到wK0c0K0Softmax0类别概率0类别标签监督0图2.所提出的EP层的架构，它将最后的卷积特征图和分类器权重作为输入，进行局部分类。然后使用公式3获得熵加权系数λi。特征图通过乘以λi进行加权，然后沿空间维度平均以产生最终的表示。0EP层的架构如图2所示。需要注意的是，基于熵的加权过程不引入额外的参数。因此，EP可以作为事后附加到预训练的CNN模型中。为了清晰起见，我们将这种使用EP的方式称为EP推理。实际上，通过实验证明，即使使用EP推理，分类性能已经可以得到改善。使用EP的更有利的方式是将其纳入训练中，以便通过对重要性更大的局部特征施加更强的监督来引导网络集中于对更具信息的图像区域进行自信的类别预测。03.3. 分支熵加权0根据上述公式，EP层只能插入在最后的卷积层和分类器之间。然而，EP的核心思想是位置自适应的特征加权，实际上可以应用于中间的卷积层，以便以分层的方式进行自适应特征加权。无论如何，EP层需要进行修改以适应网络中间层的结构。根据公式3，为了获得熵加权系数，需要对特征图进行局部分类。然而，最终FC层的分类器权重W不能直接应用于中间层的特征图。因此，需要添加一个分支的分类任务。一种可能的解决方案是在目标中间层之后直接分叉一个分支的FC层以便进行分支分类。在实践中，与最后的特征图相比，嵌入在中间特征图中的语义信息可能不够丰富，导致训练困难。为了解决这个问题，中间的卷积特征图通过一个卷积层进一步过滤以适应0用于分类。为了提高效率，我们遵循“瓶颈”设计[10]，使用一个1x1的卷积层来减少输入特征的通道数。FC层也可以使用一个1x1的卷积层来进行局部分类。此外，我们在分类实验中使用不超过两个BEW层以获得最佳性能。总体而言，我们的EP不会引入额外的参数，而BEW只引入了少量的参数。我们将这种修改后的EP称为分支熵加权（BEW）层。中间熵加权系数是在BEW层内计算的，然后与中间特征图相乘。图3描述了BEW层及其与主干网络的连接。可以在不同深度将多个BEW层集成到主干网络中，形成多级BEW。因此，在网络的不同层次上同时鼓励语义感知特征加权，进一步提高最终的分类性能。图4对应于一个配备了EP和两个BEW层的ResNet-50网络。绘制了主干网络和两个BEW分支的分类损失。还呈现了EP层和两个BEW层中熵加权系数的演变。可以观察到生成的熵加权系数逐渐捕捉到语义重要的图像区域，并在训练过程中转换整个对象。04. 实验0为了验证我们方法的有效性，我们在两个大规模数据集ImageNet [18]和Places365[38]上进行图像分类实验，通过将EP和BEW集成到各种CNN架构中CNN Backbone��34090我们利用生成的熵加权系数直接在ImageNet数据集上进行弱监督定位任务，并在PASCAL VOC2012数据集[8]上进行弱监督语义分割任务。所有实验都使用Keras [6] API和Caffe [14]框架实现。04.1. ImageNet分类0ImageNet ILSVRC2012数据集[18]包含120万张用于训练的图像和5万张用于验证的图像，涵盖了1000个类别的对象。按照[10, 30,31]中的数据增强实践，每个训练图像的较短边随机采样在[342, 640]范围内（对于InceptionV3）和[256,480]范围内（对于其他架构）。然后我们随机裁剪大小为299×299（对于InceptionV3）和224×224（对于其他架构）的子区域。每次训练迭代时，对每个通道的均值进行减法运算，并以0.5的概率对图像进行水平翻转。我们将网络权重初始化为[9]中的初始值，并以学习率0.1开始训练，每30个epoch将学习率除以10。我们使用随机梯度下降（SGD）算法在四个Tesla P100GPU上以批量大小256进行100个epoch的训练，权重衰减设置为0.0001。网络架构我们将提出的EP和BEW集成到各种CNN主干网络中，包括VGG-16 [30]、VGG-GAP[37]、ResNet [10]、InceptionV3[31]，其中VGG-16使用多个FC层提取全局语义，而其他网络则利用GAP层。对于VGG-16，我们保持原始层不变，只添加BEW层，而不用EP替换FC层。这些CNN主干网络中的每个都有5个步长为2的下采样操作。对于VGG-16，我们在第4个和第5个池化层之前分别加入两个BEW层。对于VGG-GAP、ResNet和InceptionV3，我们在最后一个卷积层之后用EP层替换GAP层。此外，我们还在这三个网络中加入了两个BEW层。较浅的一个放置在第四个下采样操作之前，另一个放置在GAP层之前的一个卷积层（对于VGG-GAP）或一个残差/Inception块（对于ResNet/InceptionV3）之前。对于基线模型，我们使用原始论文中公开发布的预训练模型。0中间特征图0卷积0熵池化0图像表示0类别标签监督0权重0熵权重系数0Softmax0类别概率0分支熵权重0正向传递0权重共享0图3. BEW层的架构，可以集成到不同中间层的各种CNN架构中。0Epoch 2 Epoch 20 Epoch 60 Epoch 1000图4.在ImageNet数据集上，展示了ResNet-50与EP和BEW集成的训练进展。将熵权重系数重塑为样本验证图像的图像尺寸后进行可视化，分别在2、20、60、100个epoch时。从上到下的三行分别对应于从浅到深的两个BEW层和EP层。0将基线模型中的GAP层替换为EP层进行EP推理实验。评估我们在验证集上执行标准的10次裁剪测试[10,18]，并报告top-1和top-5错误率。不同骨干网络的评估结果如表1所示。通过简单地在推理过程中使用EP，可以改善原始预训练模型的分类性能。这验证了我们的直觉，即EP比GAP更好地区分不同的局部特征向量。当在训练中采用EP层时，性能进一步提升，正如我们所预期的那样。正如我们所指出的，EP层通过关注语义相关区域并忽略噪声模式，引导模型提取更加鲁棒的表示。多级BEW始终为所有四个CNN架构实现了最佳性能。对于VGG-16，取得了相当显著的top-5/top-1错误率降低，分别为3.29% /1.53%。结果表明，我们的提议在各种CNN架构中具有很好的泛化能力。我们将我们的方法与表2中的最先进的池化和注意机制进行了比较。为了公平比较，我们进行了单次裁剪测试。结果表明，分支熵权重和熵池化可以有效提升大规模分类的性能。34100配置 VGG-16 [30] VGG-GAP [37] ResNet-50 [10] InceptionV3 [31]0基线 28.07 / 9.33 31.66 / 11.28 22.85 / 6.70 20.20 / 5.130EP推理（我们的）N/A 30.74 / 10.85 22.73 / 6.62 20.16 / 5.10 EP（我们的）N/A 30.37 / 10.6222.64 / 6.52 20.07 / 5.06 多级BEW + EP（我们的）24.78 / 7.80 30.04 / 10.32 22.45 / 6.31 19.92 /4.970表1. ImageNet验证集上的top-5/top-1错误率（%，10次裁剪测试）。'N/A'表示我们保持原始的VGG-16骨干网络不变，没有替换其全连接层。基线行指的是原始论文中报告的结果。0方法 Top-1错误率 Top-5错误率0骨干网络：ResNet-50 He等人 CVPR'16 [10] 24.7 7.8DFT-Pooling ECCV'18 [26] 24.1 7.3 FBN ICCV'17[21] 24.0 7.1 SORT ICCV'17 [33] 23.82 6.72MPN-COV ICCV'17 [20] 22.73 6.54 iSORT-COVCVPR'18 [19] 22.14 6.22iSORT-COV+EP（我们的）21.97 6.020骨干网络：ResNet-152 He等人 CVPR'16 [10] 23.06.7 残差注意力 CVPR'17 [32] 21.76 5.9 SENetCVPR'18 [12] 21.57 5.73骨干网络+BEW+EP（我们的）21.41 5.60SENet+BEW+EP（我们的）21.08 5.340表2.ImageNet验证集上的top-5/top-1错误率（%，单次裁剪测试），与大规模分类的池化方法和注意机制的最新技术进行比较。0通过在CNN中使用新的池化方法或注意机制，我们的提议可以提高分类性能，并超越其他最先进的方法。图4有助于更好地理解我们的提议如何促进分类性能。不同深度的训练和验证损失在训练过程中收敛一致。随着损失的收敛，生成的熵权重系数变得越来越有希望，并逐渐集中在图像的最重要区域。定量和定性实验证实，我们的提议可以通过驱使它们抑制噪声模式并强调语义重要的图像区域，提升不同CNN模型的分类性能。04.2. Places365分类0我们进一步在另一个大规模图像分类基准数据集Places365上评估我们的方法。Places365包含来自365个不同场景的图像，其中包括超过180万张训练图像和36500张验证图像。CNN的输入尺寸为224×224，数据增强策略与[10]相同。按照[38]的做法，我们使用在ImageNet数据集上预训练的CNN进行微调。学习率初始设置为0.01，并在每30个epoch时除以10。我们使用批量大小为256来训练每个模型，共训练100个epoch。0渡槽0公墓高架桥0小木屋0着陆甲板0图5.在Places365验证集上，对ResNet-50的EP层生成的熵加权系数进行可视化。所有样本都通过了top-1预测的正确分类。第一行显示了两个令人困惑的类别。在右下角的图像中，还定位到了一个小的chalet实例位于左下角。0在四个GPU上进行训练。我们使用带有动量0.9的SGD，权重衰减设置为0.0001。我们使用4.1节中描述的相同网络架构。评估我们在验证集上进行10次裁剪测试，并在表3中报告top-5和top-1的错误率（%）。可以观察到，VGG-16+BEW模型的性能优于原始的VGG-16模型，提高了1.40% /1.45%。而ResNet-50+BEW+EP模型甚至超过了ResNet-152网络，后者明显更深。从定性上看，我们还在图5中可视化了样本场景图像的熵权重系数，结果显示所提出的方法有助于定位与场景识别最相关的特征。0网络架构 Top-1 Top-50AlexNet [38] 46.83 17.11 GoogLeNet[38] 46.37 16.12 ResNet-152 [38] 45.2614.92 VGG-16 [38] 44.76 15.09ResNeXt-101 [36] 43.79 13.750ResNet-50 + BEW + EP (我们的方法) 43.75 13.93VGG-16 + BEW (我们的方法) 43.36 13.640表3.Places365验证集上的top-5/top-1错误率（%，10次裁剪测试）𝜆𝑡𝑜𝑝534110方法 top-1 top-50GoogLeNet的反向传播[29] 61.31 50.55VGGnet-GAP + CAM [37] 57.20 45.14GoogLeNet-GAP + CAM [37] 56.40 43.000ResNet-50 + CAM [37] 51.12 42.24 ResNet-50+ BEW + EP (我们的方法) 50.15 41.850表4. ImageNet验证集上的弱监督定位错误率（%）04.3. 弱监督目标定位0正如我们所看到的，EP层生成的熵加权系数相当准确地描绘出了目标位置。因此，它们可以用于ImageNet的弱监督目标定位任务，该任务仅使用图像级标签进行训练。我们在4.1节中使用在ImageNet上训练的ResNet50+BEW+EP模型。考虑到目标定位任务是类别相关的，而熵加权系数则不是，我们进一步在公式5中定义了类别特定的熵加权系数，其中c表示特定类别的索引。λi可以解释为特征位置i的客观性先验。因此，λci可以被视为位置i属于对象类别c的可能性。我们只考虑前5个类别，通过求和它们的λc来得到λtop5。因为图像中存在不属于前5个类别的对象的可能性极低。然后，我们使用[4]中提出的方法在λtop5中搜索覆盖98%总可能性的最小矩形，并将其作为目标类别的预测定位边界框。λci = λiˆpi(c)，i∈[1,hw]（5）0生成的样本验证图像的λ和λ top5在图6中进行了可视化。可以观察到，λ top5比λ包含的噪声更少，因此更有效地捕捉到了目标位置。目标定位的数值结果在表4中呈现。为了公平比较，我们还将CAM方法[37]应用于ResNet-50架构，该方法在原始论文中未使用。我们的方法通常优于CAM，表明目标区域被更准确地突出显示。04.4. 弱监督语义分割0提出的熵池可以通过集中于最相关的目标区域来引导CNN提取语义信息。它与Deep Seeded Region Growing(DSRG)方法[13]相结合，该方法将不同类别的定位图作为种子进行监督，并在同时生长种子的过程中训练语义分割网络。前景类别的种子最初是通过在VGG-16[30]网络的全卷积变体上使用类激活图（CAM）[37]进行推导的，该网络是使用图像级别的多标签监督训练的。0图6.使用预测的边界框（绿色）和真实边界框（红色）进行弱监督目标定位。第二行和第三行分别可视化了原始（ λ ）和类别特定（ λtop 5）的熵权重系数。在左上角的图像中，真实目标是一辆汽车，它被一堆人遮挡。未被遮挡的汽车部分在相应的 λ top 5热图中成功突出显示。0我们在最后一个卷积特征图上使用EP来促进语义感知的特征池化和类别特定特征区域的有效定位。由于这种改进，可以生成更准确和更密集的初始种子，如图7所示。然后将种子输入DSRG方法进行种子生长和网络训练。数据集我们在PAS- CAL VOC2012分割基准数据集[8]上评估了所提出的方法，该数据集包含20个目标类别和一个背景类别。按照常规做法[5,13]，训练集扩充到10,582张图像。所有实验仅使用图像级别的类别标签。我们在验证集和测试集上进行评估，分别包含1,449张和1,456张图像。测试集结果是通过将预测结果提交给官方的PASCALVOC评估服务器获得的。训练/测试设置使用在ImageNet[18]上预训练的VGG-16[30]网络来初始化多标签分类网络和DeepLab-ASPP[5]语义分割网络。我们使用带有0.9动量和0.0005权重衰减的SGD来训练分类和分割网络。批量大小为20，丢弃率为0.5。学习率从0.001开始，每2000次迭代缩小10倍。按照DSRG[13]的做法，我们使用显著性检测方法[15]来定位背景像素。热图中类激活值最大的30%像素被视为前景目标区域。而归一化显著性值小于0.06的像素被视为背景。我们使用DeepLab [5]的公开Caffe [14]实现，并在一块NVIDIA GeForceGTX TITAN X GPU上进行训练。1 http://host.robots.ox.ac.uk:8080/anonymous/GRNBRX.htmlWe propose a feature weighting mechanism based on in-formation entropy to enable semantics-ware feature pool-ing in CNNs. Implemented as Entropy Pooing (EP) or theBranched Entropy Weighting (BEW) layer, our proposal en-hances classiﬁcation performances of different CNN mod-els by guiding them to extract semantic information frommore informative image regions without changing the back-bone structures. Moreover, the networks with EP can gener-ate high-quality seeds for weakly-supervised semantic seg-mentation and the Entropy Weighting Coefﬁcients can beeffectively employed for weakly-supervised localization.Extensive experiments on various datasets and CNN archi-tectures verify the effectiveness of the proposed method.Acknowledgement. This work was supported by the Na-tional Natural Science Foundation of China (61673234).34120方法训练验证测试0监督方法：Box WSSL ICCV’15 [25] 10K 60.662.2 BoxSup ICCV’15 [7] 10K 62.0 64.2GuidedSeg CVPR’17 [24] 20k 55.7 56.70监督方法：Spot 1 Point ECCV’16 [2] 10K46.1 - Scribblesup CVPR’16 [22] 10K 51.6 -0监督方法：图像级别标签 SEC ECCV’16 [17] 10K 50.7 51.7 STCTPAMI’17 [34] 50K 49.8 51.2 TPL ICCV’17 [16] 10K 53.1 53.8 DCSPBMVC’17 [3] 10K 58.6 59.2 Hong et al . CVPR’17 [11] 970K 58.158.7 Af�nityNet CVPR’18 [1] 10K 58.4 60.5 DSRG CVPR’18 [13] 10K59.0 60.4 MDC CVPR’18 [35] 10K 60.4 60.8 DSRG+EP (Ours) 10K 61.562.7 10表5. 弱监督语义分割方法在VOC2012验证集和测试集上的mIoU（%）比较。0图像真实边界框种子（我们的）种子（DSRG）0图7. DSRG[13]和带有EP（我们的）的普通网络生成的种子。白色像素的类别要么是未知的，要么面临来自前景热图和背景显著性结果的冲突。0与最新技术的比较弱监督语义分割解决方案在PASCALVOC验证集和测试集上的结果总结如表5所示。可以观察到，我们的方法在性能上优于以前的最新技术方法。与基础网络DSRG相比，我们的方法在验证集和测试集上分别取得了2.5%和2.3%的大幅改进。而我们没有像Af�nityNet [1]和STC[34]那样使用额外的训练样本。此外，EP在训练中不引入额外的参数，易于实现和计算效率高。定性评估为了展示EP与DSRG结合时如何提高性能，我们在图7中可视化了网络生成的种子，其中包括EP和没有EP的网络。我们的模型在定位特定类别的区域上是有效的，并生成保持对象更多形状信息的高质量种子。而没有EP的网络倾向于仅捕捉最具有区分性的小离散区域，这对于训练语义分割网络可能是不足够的。我们还在图8中展示了我们模型生成的一些分割结果的示例。它证明了我们的方法可以产生令人满意的分割掩码，尽管只使用了图像级别的标签进行训练。0图像真值预测0图8. 在PASCAL VOC2012验证集上的分割结果。底部一行显示了一个失败案例，这是由两个因素引起的。首先，在种子生成步骤中，手很少被突出显示为“人”类。其次，很难将“人”标签扩展到这些手部，因为它们远离上半身。0我们提出了一种基于信息熵的特征加权机制，以实现CNN中的语义感知特征池化。我们的提议作为熵池化（EP）或分支熵加权（BEW）层实现，通过引导不同CNN模型从更具信息量的图像区域提取语义信息，提高了它们的分类性能，而不改变骨干结构。此外，具有EP的网络可以为弱监督语义分割生成高质量的种子，并且熵加权系数可以有效地用于弱监督定位。在各种数据集和CNN架构上进行的大量实验证实了所提方法的有效性。致谢。本工作得到了中国国家自然科学基金（61673234）的支持。05. 结论34130参考文献0[1] Jiwoon Ahn和SuhaKwak。学习像素级别的语义亲和力，以进行弱监督语义分割。在计算机视觉和模式识别的IEEE会议论文集中，第4981-4990页，2018年。[2] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。有什么意义：点监督的语义分割。在欧洲计算机视觉会议上，第549-565页。斯普林格，2016年。[3] ArslanChaudhry，Puneet K. Dokania和Philip H. S.Torr。发现类特定像素的弱监督语义分割。英国机器视觉会议（BMVC），2017年。[4] Jiansheng Chen，GaochengBai，Shaoheng Liang和ZhengqinLi。自动图像裁剪：计算复杂性研究。在计算机视觉和模式识别的IEEE会议上，第507-515页，2016年。[5] Liang-ChiehChen，George Papandreou，Iasonas Kokkinos，KevinMurphy和Alan LYuille。Deeplab：使用深度卷积网络，扩张卷积和完全连接的CRF的语义图像分割。模式分析与机器智能的IEEE交易，40（4）：834-848，2018年。[6] FrançoisChollet等。Keras。https://keras.io，2015年。[7] JifengDai，Kaiming He和JianSun。Boxsup：利用边界框监督卷积网络进行语义分割。在计算机视觉的IEEE国际会议论文集中，第1635-1643页，2015年。[8]Mark Everingham，SM Ali Eslami，Luc VanGool，Christopher KI Williams，John Winn和AndrewZisserman。帕斯卡尔视觉对象类别挑战：回顾。计算机视觉国际期刊，111（1）：98-136，2015年。[9] Xavier Glorot和YoshuaBengio。理解训练深度前馈神经网络的困难。在第十三届国际人工智能和统计学会议论文集中，第249-256页，2010年。[10]Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在计算机视觉和模式识别的IEEE会议上，第770-778页，2016年。[11] SeunghoonHong，Donghun Yeo，Suha Kwak，Honglak Lee和BohyungHan。使用网络爬取的视频进行弱监督语义分割。在计算机视觉和模式识别的IEEE会议论文集中，第7322-7330页，2017年。[12]Jie Hu，Li Shen和GangSun。挤压和激励网络。在计算机视觉和模式识别的IEEE会议上，2018年。[13] Zilong Huang，Xinggang Wang，JiasiWang，Wenyu Liu和JingdongWang。具有深度种子区域生长的弱监督语义分割网络。在计算机视觉和模式识别的IEEE会议论文集中，第7014-7023页，2018年。[14] Yangqing Jia，Evan Shelhamer，Jeff Donahue，SergeyKarayev，Jonathan Long，Ross Girshick，SergioGuadarrama和Trevor Darrell。Caffe：用于快速的卷积架构0特征嵌入。在第22届ACM国际多媒体会议上，第675-678页。ACM，2014年。[15]江华祖，王京东，袁泽健，吴阳，郑南宁和李世鹏。显著目标检测：一种区域特征整合的判别方法。在IEEE计算机视觉和模式识别会议上，第2083-2090页，2013年。[16]DahunKim，Donghyeon Cho，Donggeun Yoo和In SoKweon。两阶段学习弱监督目标定位。在IEEE国际计算机视觉会议上，第3534-3543页，2017年。[17]AlexanderKolesnikov和Christoph HLampert。种子，扩展和约束：弱监督图像分割的三个原则。在欧洲计算机视觉会议上，第695-711页。Springer，201

下载后可阅读完整内容，剩余1页未读，立即下载