弱监督目标定位中的归一化问题

39 浏览量更新于2023-10-13 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3427弱监督目标定位中的归一化问题Jeesoo Kim1 Junsuk Choe3*Sangdoo Yun2 Nojun Kwak11首尔大学情报信息系2NAVER AI实验室3西江大学摘要弱监督对象定位（WSOL）允许在没有任何定位信息的情况下使用数据集找到对象。通过仅使用图像级注释简单地训练分类模型尽管在许多提出新策略的WSOL方法中，关于如何规范化类激活图（CAM）还没有任何事实上的标准。因此，许多WSOL方法未能充分利用自己的能力，因为误用的规范化方法。本文回顾了现有的许多归一化方法，指出应根据给定数据集的性质来使用它们此外，我们提出了一个新的归一化方法，大大提高了性能的任何基于CAM的WSOL方法。使用所提出的归一化方法，我们在三种不同的架构上对三个数据集（CUB、ImageNet和Open-Images）进行了全面的评估，并在所有评估的情况下观察到比传统的最小-最大归一化方法显著的性能增益①的人。1. 介绍除了对象的类信息之外，弱监督对象定位（WSOL）允许卷积神经网络（CNN）定位场景中的对象。虽然许多完全监督的对象检测器保证在定位图像中的对象时的相当大的性能，但是仍然需要在没有边界框注释的情况下的定位技术。使用神经网络的WSOL最初由类激活图（CAM）[30]方法引入。用分类问题训练卷积神经网络（CNN）模型，使模型能够从最后一层生成激活图。然后，简单地用适当的阈值切割激活图，*在NAVER AI Lab担任研究科学家图1：几种WSOL方法与不同类型的类激活图规范化方法的比较。根据[6]中建议的评价指标，使用CUB-200-2011数据集评价了准确度。本图中的所有分数均在所有WSOL方法中，使用我们的归一化方法IVR的性能是最好的。可以定位对象。尽管合理的公理，更好地为特定类别的功能很可能代表的对象的位置，问题仍然存在，一个对象的区别部分欺骗模型的激活，使目标对象的定位不准确。已经提出了许多方法来克服这个问题[21，27，28，7，25]，并且已经定性和定量地证明了性能改进的有说服力的证据。然而，先前的工作已经在不同的条件下进行了评估，并且他们的超参数已经根据经验进行了选择。通常，来自模型的最后一层的特征被后处理以用作类激活图。每种方法所使用的归一化方案彼此不同，使得比较不公平。[6]的工作提出了一种新的评估协议，并提供了3428对以前的六种WSOL方法进行了全面的比较。在他们的实验中，最小-最大归一化已经应用于每种方法以进行公平比较，并且已经使用随机搜索找到了最佳超参数[2]。据此，与原始CAM [30]相比，所有方法几乎没有改善。在[1]的工作中，作者提出了一种阈值策略，该策略排除了每个图像中异常高的激活值。在激活图中的有效值范围改变的意义上，这可以与其他归一化方法进行比较。使用这种新方法，一些方法（如CAM [30]和HaS [21]）在几个数据集中显示出性能改进。在本文中，我们调查的问题，可以发生时，使用最小-最大归一化。即使最小最大归一化是最流行的计划，在最近的WSOL作品，我们验证了最小最大计划可以恶化的性能，大多数WSOL方法。我们重新审视了长期以来流行的最大归一化，指出它可以解决上述问题。此外，尽管包括作为阈值标准的百分位数（PaS）[1]的其他方法已经显示出比最小-最大归一化更好的结果，但是它们仍然存在本文将描述的问题。为了解决这些问题，我们提出了一种新的归一化方法&劣值去除（IVR）。通过大量的实验结果，IVR已被证明可以提高几乎所有WSOL方法的本地化性能。为了更好地利用每一个WSOL方法，一个全面的重新评估和排序的几个WSOL方法已经进行。本文的贡献如下：• 我们提供了一个深入的调查，在WSOL中常用的规范化方法的问题。定性和定量地解释了使用最小-最大归一化产生的问题• 我们提出了一种新的归一化方法，可以更好地利用许多WSOL方法的性能。它可以用于任何使用类激活映射的WSOL方法。• 在三种不同的数据集和三种不同的体系结构的各种归一化方法进行了综合评价。我们提供了一个新的基准的六个WSOL方法。2. 相关作品图像中目标的定位是计算机视觉领域中最重要和最常研究的任务根据模型的监督类型，语义分割[31，29，5，11，8]和对象检测，[15，13，14，12，3，26，23]可以是强大的定位方法。一直存在对仅依赖于图像级注释的定位方法的持续需求。类激活映射（CAM）[30]是第一种使用激活的卷积特征作为评分图来定位图像中的对象的方法，并且它为其他后续研究提供了很大的里程碑。捉迷藏[21]在图像中制作网格并随机擦除多个补丁。该模型努力对损坏的图像做出正确的对抗互补学习（ACoL）[27]使用两个分支，它们相互对抗地消除突出显示的激活区域。这种方法与HaS的不同之处在于，特征被擦除而不是图像本身。自产制导（SPG）[28]在每层中生成激活掩码，并将其用作前一层的伪监督。基于注意力的丢弃层（ADL）[7]将注意力模块添加到模型中，并相反地丢弃高度激活的区域。CutMix [25]最初旨在增强任何CNN模型的鲁棒性。来自训练图像的块被剪切并粘贴到彼此，并且这有助于模型捕获目标对象的较少区分的部分。除了上述基于CAM的WSOL方法之外，还提出了然而，他们往往是沉重的实际使用，我们不考虑这些方法在本文中。同时，在[6]中对上述基于CAM的方法进行了全面而公正的评价。提出了更合理的评价指标，并通过彻底的超参数搜索和统一的最小-最大归一化方法对所有考虑的WSOL方法进行了重新评价。因此，有人声称，CAM出现后的所有WSOL方法在性能上与CAM没有显着差异。为了更好地利用类别激活图，已经提出了基于百分位数的阈值修改方法[1]。此方法假定必须将大值视为离群值并从类激活图中排除。在其他技术的帮助下，一些现有的方法已经成功地提高了性能。然而，阈值的经验选择违反了[6]中的评估协议，即每个WSOL方法都有自己的最佳阈值。在本文中，我们回顾了大多数基于CAM的WSOL方法所遇到的问题，并为未来的研究重新设定了基准。3. 初步WSOL是在图像中找到属于特定类的在用分类问题训练CNN时，模型内部的中间层生成激活模式以提供正确的输出。Af-3429∈我我∈∈KCK我我i=1当一幅给定的图像XRW×H×3被一个CNN f处理后，其生成的特征图通常被平均池化并交给一个分类器。将来自分类器的权重向量wc乘以平均池化特征，然后类c的logit变得可用。另一方面，通过将该权重向量w。RW′×H′×K，我们可以推断出位置属于图像内的类别C的对象。后乘法，沿通道维度平均产生FRW′×H′，本文称之为类激活映射：F=1Σwc·f（X）（1）F′c = H（Fc）.（二）这里，K表示信道的数量。从现在开始，为了简洁起见，我们省略了表示类索引的下标c。在所有WSOL方法中，F中的值通常位于一定范围内，其最小值在大多数情况下为负值为了将一致的阈值水平应用于所有图像，通过归一化函数H将F归一化到[0，1]的范围内，从而产生分数图F’。没有多少研究人员看到了特征归一化的重要性。我们讨论了许多不同的归一化函数H在本文中的效果，并提出了更好地评估WSOL的策略。4. 规范化类激活映射数据集中的图像的上下文或图像内的对象的部分可以引起分数图F’中的值的基本上不同的范围。许多规范化的方法已经提出，但规范化如何可以影响性能从来没有处理。在本节中，我们将解释所有现有的归一化方法，包括我们提出的方法4.1. 最小-最大归一化最小-最大归一化是WSOL最常用的归一化方法，已用于ACoL [27]、SPG [28]、ADL [7]和CutMix [25]。在从类别激活图中减去最小值之后，将其除以其最大值。这可以表示如下：F′=F − min（F）。（三）max（F）−min（F）通过将最小值对准为零并且将最大值对准为一，得分图中的所有值都落在得分范围内。这在图1的（a）中视觉地描述。2. 到图2：每个标准化方法如何对齐类激活图中的值的图示。在这种情况下，所有方法共享相同的类激活图F，其范围被假设为[-0.1，0，4]。不同的方法将F映射到不同的分数图F′，所有分数图F ′的范围都从0到1。因此，我们可以假设用红色着色的区域被从最终得分图中排除。在一致的归一化方法下提供公平的比较，[6]的工作提出了一个设计良好的评估度量，并在最小-最大归一化下比较了每种方法。[6]的结论是，在CAM之后出现的WSOL方法实际上没有显示出显着的性能增强。然而，我们观察到使用最小-最大归一化遇到了在[6]的工作中没有考虑的问题。太大或太小的离群值可能会在归一化期间扭曲在数据集内，一些图像（但并不罕见）的类激活图通常包括非常小的最小值，并且这通常显著地降低那些图像上的定位性能。对于在类别激活图F中具有普通水平的最小值的大多数图像，该最小值不影响总得分图F′。然而，当涉及到具有特别小的最小值的图像时，它提高了整个图像的激活水平，并且几乎整个图像区域被定位为所讨论的对象（参见图1B）。3，尤其是CAM、HaS和CutMix）。4.2. 最大归一化最大归一化首先用于 CAM [30]，然后用于HAS[21]。与最小-最大归一化不同，最大归一化将特征值除以其最大值，并将类激活图约束为低于1。这在图1的（c）中视觉地描述二、这可以是前-3430·(a) CAM（b）HaS(c)ADL（d）CutMix图3：CUB数据集上CAM、HaS、ADL和CutMix中最佳阈值的评分图和激活区域的可视化。红色、绿色和蓝色区域是通过IoU 0.3、0.5和0.7的最佳阈值提取的区域。按下如下：F′=F最大值（F）（四）表示如下：F′=F−min（F）Pctp（F−min（F））.（五）归一化后可能存在负值。允许值小于零，该方法线性地将F变换为F′。由于通常预期WSOL方法的最佳激活阈值τ*为正，因此可以简单地将最大归一化视为忽略负值的方法。然而，所有图像的值范围显著不同，并且存在负值可能有助于得分图的质量的可能性。4.3. 百分位数作为阈值标准（PaS）在 [1] 中已经提出了百分位数作为阈值的标准（PaS）作者说，激活图中异常大的值使其他相对较小的值被忽略。必须通过使用百分位数而不是其最大值从分数图中排除这些大值这在图1的（b）中视觉地描述。2.根据作者提供的代码1，PaS使用最小-最大归一化，除了最大值被替换为所有得分图值的90百分位因此，它可以被看作是各种最小-最大归一化。这可以1https://github.com/won-bae/rethinkingCAMPctp（）表示从给定值中找到p个百分位数的函数。在最初的论文中，最佳阈值τ*对于每个数据集都被固定为特定值，并且p被启发式地设置为90。然而，[6]的工作中建议的评估度量验证所有阈值并选择最佳阈值，因为WSOL方法非常容易受到未优化阈值的影响。我们重新评估PaS的基础上，这个指标，并报告这种方法的性能。此外，我们进一步将PaS应用于其他论文[1，6]中提到的所有其他WSOL方法和数据集。4.4. 低值删除（IVR）在本文中，我们提出了一种新的规范化方法，劣值删除（IVR），与深入的研究。IVR的基础是类激活图中的极小值不必要地提高分数图中的整体值，这干扰了图像之间的一致阈值。与PaS不同，IVR是一种规范化方法，它限制了激活图的最小值。在将F中的所有值除以它们的最大值之前，从其最小值减去百分位值这在图1中视觉地描述。第2段（d）分段。换句话说，IVR使用3431联系我们图4：所有测试图像的类激活图F的最小值和最大值分布每个点表示单个图像，其来自水平轴和垂直轴的值分别是最小值和最大值。黑点对应于正确定位的图像，而红点不是。请注意，IVR显示阳性样本（黑点）的总体密度高于用绿色圆圈突出显示的其他方法。除了最小值之外的最大归一化用所有激活图值的某个百分位值代替。这可以表示如下：F′ =F − Pct p（F）。（六）max（F−Pctp（F））从激活图中排除高达p百分位数的值，并通过其最大值重新排列剩余值。百分位数参数p由验证集确定，并且性能趋势已被验证为与测试集相同通过使用IVR，我们可以使用原始激活图，其相对不受其最小值的值偏移的影响，同时根据给定值校准范围。5. 实验5.1. 设置数据集：对于WSOL的评估，Caltech-UCSD Birds-200-2011（CUB）[24]，ImageNet [16]和OpenIm- ages [10]是最常用的。在[6]的工作中，两个数据集被分成三个不同的部分： train-weaksup 、 train-fullsup 和test。我们遵循[6]中描述的所有数据集的细节。在这三个数据集中，我们从 CUB 和 ImageNet 的train-fullsup集中选择了IVR的最佳百分位数。评价指标：在本文中，我们使用MaxBox-AccV 2和PxAP作为评估度量，如[6]中所建议的。对于CUB和ImageNet，MaxBoxAccV2（δ）测量了多交集对并集（IoU）的性能δ0。3，0。5，0。7以解决精确度和召回之间的权衡。当掩模可用于评估时，PxAP测量逐像素平均精度。与前述度量不同，MaxBoxAccV2（δ）和PxAP选择最佳操作阈值并报告其分数。在这方面，我们可以确保本文中所做的任何性能已在 VGG-GAP [20 ， 30] 、InceptionV 3 [22]和ResNet 50 [9]上进行了评价。5.2. 类激活图定性分析：Fig. 图3显示了类别激活图和值高于操作阈值τ3*0、τ5*0和τ7*0的区域（分别为红色、绿色和蓝色）。注意τ7*0通常小于τ3*0和τ5*0，捕获更宽的图像中的区域在所有方法中，最小-最大归一化-tion和PaS遭受错误处理的类激活映射。分数图中具有异常小值的区域（看起来像黑色的洞）提高了所有其他像素的整体分数，并使背景比最大归一化和IVR的背景特别是对于PaS，背景中的值甚至比最小-最大归一化中的值更高。相当多的图像在类激活图中具有沉洞值，并且最佳阈值对于它们变得太低。因此，边界框简单地保持整个图像，导致性能崩溃。最大归一化和我们的IVR显示通过将背景留在后面，在所有三个IoU阈值中紧密地定位对象。即使类激活中的激活区域3432表1：使用具有不同归一化方法的MaxBoxAccV2评估WSOL方法规范ImageNet（MaxBoxAccV2）CUB（MaxBoxAccV2）OpenImages （PxAP）VGG初始ResNet平均值VGG初始ResNet平均值VGG初始ResNet平均值Minmax 60.0263.4063.65 62.36 63.7156.6862.98 61.13 58.3063.2358.4960.01凸轮MaxPaS60.8561.7764.7764.2064.8864.7263.5063.5764.5463.1659.1055.0763.4762.6762.3760.2359.6555.9464.9760.3359.4955.3761.3757.21IVR61.4765.4965.57 64.18 65.2760.7666.83 64.29 59.2563.6658.9760.62Minmax 60.5963.7263.40 62.57 63.7153.3864.63 60.58 58.1458.1155.9357.39具有MaxPaS61.1662.0565.0764.5364.6464.5763.6263.7269.8361.1658.4651.2767.8461.8565.3758.0959.2155.9762.0657.7956.2852.8559.1855.54IVR61.6265.7164.90 64.08 71.7760.5671.23 67.85 58.7861.3155.6858.59Minmax 57.4363.6962.29 61.14 57.3856.1866.43 59.99 54.3457.0257.2556.26AcolMaxPaS57.1758.1063.5563.7562.1462.7060.9561.5156.8257.2955.7856.0266.4566.3859.6859.9053.9951.2956.8352.7156.2252.4355.7452.14IVR57.9664.7661.95 61.55 60.2258.7866.33 61.78 54.1357.3359.5457.00Minmax 59.9263.2763.27 62.15 56.2855.9160.37 57.52 58.3162.3156.7159.11SPGMaxPaS60.4461.2064.6363.9664.0464.3263.0463.1660.2155.0156.6654.7460.8558.7759.2456.1759.2055.6764.5060.0857.4254.1060.3756.62IVR60.8665.4964.59 63.65 60.2258.4166.56 61.73 58.7964.0856.7359.87Minmax 59.8661.4363.65 61.65 66.2758.8158.33 61.14 58.6556.8555.1556.88ADLMaxPaS63.2060.8662.8862.3064.5964.4963.5662.5567.1064.9759.9257.3263.1756.6763.4059.6559.8755.9957.6154.4255.7653.0657.7554.49IVR63.7164.0165.06 64.26 67.2560.2864.30 63.94 59.2556.8855.0357.05Minmax 59.4663.8663.27 62.20 62.3157.4362.76 60.83 58.0762.5657.7359.45CutMixMaxPaS60.1461.0765.4364.4064.6064.4263.3963.3069.0360.9459.7955.9063.6162.5864.1459.9059.5155.7264.6360.1259.8255.4761.3257.10IVR60.5766.0464.93 63.84 71.5461.7467.14 66.80 58.8963.2458.9560.36图F在所有归一化方法中都是清晰可见的，我们可以理解F′中的低值是多么有害。如果处理不当，任何方法的性能将不再被正确评估，无论特征训练得多么好。定量分析：图4示出了所有测试图像的类激活图内的最小值和最大值的分布。请注意，图1中所示的值。4是归一化之前的那些，并且在每个归一化方法之后进行定位。具有VGG16的HaS已用于CUB中的比较，并且具有VGG16的ADL已用于ImageNet。最小值绘制在X轴上，而最大值绘制在y轴上。换句话说，单个点可以表达图像的类激活图F中的值范围应用IoU 70的最佳阈值τ*，黑色和红色点表示局部化的正样本和负样本。在这两个数据集中，最小-最大归一化显示了最低效的分布形状。特别是，最大值的变化似乎不会影响定位性能在很大程度上。同时，大量具有高度负最小值的样本未能被定位。这一点可以在这一点上得到证明已经成功地定位了更多的样本。在这一点上，我们可以假设类激活图中的高度负值对于定位是不必要的。由PaS覆盖的区域比最小-最大归一化的区域稍宽，但它仍然不能完全抑制极小值的影响。如前所述，IVR可以假设为最大归一化的变体，并且分布类似于最大归一化的分布。5.3. WSOL方法[6]开创的所有超参数都可以在2号线上获得。使用从超参数搜索获得的这些优化值，我们可以避免来自选择不同超参数的问题。WSOL方法、架构和数据集也与[6]中相同。选项卡. 1显示了所有相关实验的性能。在ImageNet中，最小-最大归一化在所有WSOL方法中表现最差，除了ACoL。使用最小-最大归一化，CAM仍然比所有其他WSOL方法更好。当使用最大归一化时，除ACoL之外的所有方法都从最小-最大归一化略有改善。在这种情况下，ADL表现最好。ImageNet.整体性能比max最小值低于-0.07的大多数样本均未通过在CUB本地化。在最大归一化的图中，2https://github.com/clovaai/wsolevaluation3433(a) CUB（b）ImageNet（c）OpenImages图5：使用IVR时，使用不同百分位值测量的定位准确度。仅在每个数据集的验证集中使用CAM进行了评价。为了保持简单性，每个体系结构和数据集中的最佳百分比值已用于所有其他WSOL方法。除ADL外，在PaS中可以看到正常化。注意，具有PaS的ADL仍然优于最小-最大归一化。IVR增强了所有WSOL方法，没有任何例外。在这种情况下，当所有架构被平均时，ADL已经显示出最佳性能。当单独测量时，带有 IVR 的 CutMix 在 Incep- tion 中的记录为66.04%，这是ImageNet整体性能最好的。在CUB中，PaS在所有WSOL方法中显示出比最小-最大归一化更低的性能。请注意，本文中报告的分数高于[1]中的分数。例如，[1]报告了具有PaS的CAM中IoU 50定位准确度的65.90。在我们的实验中，具有PaS的CAM的IoU 50准确度记录为71.61，因为[6]中的更好的超参数可用。与此同时，IVR在所有实验中都显示出了显著的改善。特别是HaS和CutMix在VGG中超过70% ，这是任何其他归一化方法从未达到的与ImageNet不同，WSOL方法之间的性能差距变得相当明显。在OpenImages中，PaS的性能相当下降，甚至IVR的性能也略好于最小-最大归一化。最大归一化显示出整体改进，CAM仍然是最好的方法。IVR是第二好的归一化方法，而PaS是最差的归一化方法。即使使用PxAP，低值而不是高值也会影响类激活图中的每个像素，从而导致性能下降。因此，CAM仍然比ImageNet和OpenImages中的最佳方法更好或至少几乎相等。然而，它已经放弃了它的最高位置，以哈斯在CUB。[6]的结论是，许多基于CAM的WSOL方法几乎没有改进原始CAM，这一结论仅在ImageNet和OpenImages中是正确的我们还进行了实验，同时使用PaS和在所有情况下，所得分数比仅使用PaS好得多，但比使用IVR略差一个人因此，我们省略了表中的结果以避免冗余。5.4. IVR中的百分位数选择在PaS中，根据经验选择最大值百分位数。为了减轻选择IVR百分位数的模糊性图5显示了百分位数值如何影响CUB，ImageNet和OpenImages的性能。在CUB中，从图像中提取的类激活图已经示出了最小值的大变化，如图1中所描述的。4.一致地，从激活标测图中移除大部分已经显示出更好的性能。使用第45、60和60百分位数分别在VGG、ResNet和Inception中达到峰值。在所有情况下，这些值都是正的，并且这意味着类激活图中的甚至正值可能对定位性能没有贡献。在ImageNet中，第25、30和35百分位数分别在VGG、ResNet和Inception中工作得最好。换句话说，ImageNet使用比CUB更宽的最小值分布范围。如图4所示，这是因为ImageNet中最小值的变化相对小于CUB中的变化。在OpenImages中，使用IVR在所有架构中不断降低性能实验在Tab。1在所有情况下使用第5百分位数。使用NWC的评估[1]在前面的部分中，我们主要讨论了类激活图的规范化，并且在使用PaS时排除了[1]中提出的阈值平均池（TAP）和负权重钳制（NWC）的使用TAP缓解了全局平均池化层不反映不同信道中的差异的问题。通过在平均池化期间应用阈值，模型可以在训练时专注于每个通道中因为这是一项技术-3434表2：另外使用负权重夹紧时的定位精度[1]。方法规范定位精度IoU 30IoU 50IoU 70是说Min-max97.6284.4343.8975.31具有MaxPaS97.4594.7483.8875.4743.3639.7574.8969.99IVR98.4186.5646.8277.26Min-max98.5088.1348.0378.22CutMixMaxPaS98.3997.3987.9482.9147.5342.8777.9574.39IVR98.7489.2549.5979.19nique在训练时间中的应用，本文不作讨论。同时，NWC是一种假设来自分类器的负权重对定位没有贡献的方法。负权重被钳位为零，并且可以排除类激活图中的低值。[1]的作者声称PaS本身改进了基于CAM的WSOL方法，但需要用NWC选项卡. 图2示出了在CUB中与 NWC组合的所有归一化方法的比较在HaS 和CutMix中，PaS仍然表现最差。即使考虑到[1]中报告的IoU 50时HaS的最佳定位准确度78.58%，其他归一化方法的得分也CutMix中的IVR平均得分为79.19%，特别是在IoU 50时为89.25%。据我们所知，这是CUB中报告的最佳本地化6. 讨论在上面的实验中，最大归一化显示了OpenImages中的最佳结果这可以归因于数据集的属性。图6示出了在OpenImages中具有三种不同架构的类激活映射的CAM的最小值和最大值。如图所示，最小值的变化远小于CUB和ImageNet的变化从数值上看，VGG中所有最大值的标准偏差与所有最小值之一的比值记录为约11、12.04和12.05。18.36在CUB，ImageNet和OpenImages分别。在ResNet的情况下，该比率已记录到高达31.79，并且ResNet中的最大归一化和IVR的性能改进与VGG中的一样不显著。此外，Inception已经记录了8.19，并且性能改进优于其他架构。根据数据集和体系结构，我们可以看到这个比率和最佳百分位数成反比。当最大值的变化更高时，使用最大归一化而不是任何其他归一化可能是更好的选择。因此，根据数据集和体系结构的属性，我们建议使用适当的图6：OpenIm中所有测试图像的类激活图F的最小值和最大值的分布。与CUB和ImageNet相比，最大值的分布更有影响力。速率归一化法此外，与[6]相反，CAM之后出现的所有WSOL方法确实改进了 CUB 中的 CAM ，而它们在 ImageNet 和OpenImages中几乎没有贡献，如[6]中所总结的那样。因为CUB是一个细粒度的分类问题，所有的图像共享一只鸟的共同特征。因此，CUB数据集的分类器必须区分细微的细节，而共同特征具有微弱的区分能力。最近的WSOL方法集中在补偿这些相对较少的歧视性的功能。根据我们的调查，WSOL方法研究到目前为止，成功地处理了这个问题。另一方面，他们没有关注更一般的分类问题，如ImageNet和OpenImages，并且对于这个问题仍然有很大的研究空间7. 结论几年来，已经提出了关于许多提议的弱监督对象定位方法是否实际上已经得到改进的问题。同时，很少有工作处理类激活映射的归一化在本文中，我们提出了一种新的和有效的归一化方法，以及与许多其他可能的归一化方法的坚实的评价。新提出的归一化方法在CUB-200-2011和ImageNet数据集中实现了新的最先进性能同时指出，归一化方法的选择应根据数据集的特点而定。对于 WSOL 的未来工作，我们建议，即使许多WSOL方法成功地提高了CUB等数据集的性能，但仍然需要一种新的视角，这种视角也适用于现实世界的数据集，如ImageNet和OpenImages。确认这项工作得到了 NRF 赠款（ 2021 R1 A2 C3006659）和IITP赠款（2021-0-00537）的支持，两者都由大韩民国政府资助3435引用[1] Wonho Bae，Junhyug Noh，and Gunhee Kim.重新思考弱监督对象局部化的类激活映射欧洲计算机视觉会议，第618-634页Springer，2020年。[2] James Bergstra和Yoshua Bengio。超参数优化的随机搜索。Journal of Machine Learning Research，13（2），2012.[3] Alexey Bochkovskiy，Chien-Yao Wang，and Hong-YuanMark Liao. Yolov4：目标检测的最佳速度和准确性。arXiv预印本arXiv：2004.10934，2020。[4] AdityaChattopadhay ， AnirbanSarkar ， PrantikHowlader ， and Vineeth N Balasubramanian. Grad-cam++：深度卷积网络的一般化基于梯度的视觉解释。在2018年IEEE计算机视觉应用冬季会议（WACV），第839-847页。IEEE，2018年。[5] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[6] Junsuk Choe、Seong Joon Oh、Seungho Lee、SanghyukChun、Zeynep Akata和Hyunjung Shim。正确评估弱监督对象定位方法在IEEE/CVF计算机视觉和模式识别会议上，第3133-3142页，2020年[7] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层。在IEEE/CVF计算机视觉和模式识别会议论文集，第2219-2228页，2019年[8] 傅军，刘静，王宇航，李勇，鲍勇军，唐金辉，卢汉青.用于场景解析的自适应上下文网络。在IEEE/CVF国际计算机视觉会议论文集，第6748-6757页，2019年。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[10] Alina Kuznetsova 、 Hassan Rom 、 Neil Alldrin 、 JasperUijlings 、 Ivan Krasin 、 Jordi Pont-Tuset 、 ShahabKamali 、 Stefan Popov 、 Matteo Malloci 、 AlexanderKolesnikov、Tom Duerig和Vittorio Ferrari。开放图像数据集v4：统一的图像分类，对象检测，和视觉关系检测的规模。IJCV，2020年。[11] Di Lin，Dingguo Shen，Siting Shen，Yuanfeng Ji，DaniLischinski ， DanielCohen-Or ， andHuiHuang.Zigzagnet：融合自上而下和自下而上的上下文进行对象分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第7490-7499页[12] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年[13] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。[14] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在IEEE计算机视觉和模式识别集，第779-788页[15] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。arXiv预印本arXiv：1506.01497，2015。[16] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211[17] Wojc i echSamek，Al e xanderBinde r，G re´ goireMont avon，SebastianLapuschkin，andKlaus-RobertMüller. 评估深度神经网络所学习内容的可视化。IEEE Transactions onNeural Networks and Learning Systems，28（11）：2660[18] Ramprasaath R Selvaraju，Michael Cogswell，AbhishekDas，Ramakrishna Vedantam，Devi Parikh，and DhruvBatra.Grad-cam：通过基于梯度的定位从深度网络进行视觉解释。在IEEE国际计算机视觉会议论文集，第618-626页，2017年。[19] Karen Simonyan Andrea Vedaldi和Andrew Zisserman卷积网络内部：可视化图像分类模型和显着图。arXiv预印本arXiv：1312.6034，2013。[20] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[21] Krishna Kumar Singh和Yong Jae Lee。捉迷藏：迫使网络对弱监督的对象和动作定位进行细致的处理。2017年IEEE国际计算机视觉会议（ICCV），第3544-3553页。IEEE，2017年。[22] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构在Proceedings of the IEEE conference on computervision and pattern recognition，pages 2818[23] Mingxing Tan，Ruoming Pang，and Quoc V Le.有效日期：可扩展且高效的对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第10781-10790页[24] Peter Welinder、Steve Branson、Takeshi Mita、CatherineWah、Florian Schroff、Serge Belongie和Pietro Perona。200.第200章大结局2010年。[25] Sangdoo Yun ， Dongyoon Han ， Seong Joon Oh ，Sanghyuk Chun ， Junsuk Choe ， and Youngjoon Yoo.Cutmix：正则化策略，用于训练具有本地化特

下载后可阅读完整内容，剩余1页未读，立即下载