学习空间判别特征表示技术及其应用

97 浏览量更新于2023-10-13 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1326学习空间判别特征表示王朝飞*，肖佳宇*，韩益增，杨其森，宋世基，高煌†清华大学摘要传统CNN分类器的主干一般被认为是特征提取器，其次是线性层交通灯：0.938;加农炮：0.026;极点：0.008。黑熊：0.537;ox：0.167;加农炮：0.672;水箱：0.225;步枪：0.008。ox：0.435;水氧：0.242;其执行分类。我们提出了一种新的损失函数，称为CAM损失，以约束嵌入拉布拉多寻回犬：0.106。黑熊：0.059。诺福克梗：0.335;酸模0.642;特征图与类别激活图（CAM），其指示特定类别的图像的空间区分区域CAM-loss驱动主干网ex-酸模：0.154;叶猴：0.142。马耳他犬：0.895;拉萨市：0.064;叶猴：0.024;萨卢基：0.022。拉萨市：0.834;马耳他犬：0.107;突出目标类别的特征，压制非目标类别或背景的特征，从而获得目标类别的特征。(a) 输入图像(b) 凸轮(c) CAAM（CE）（d）CAAM（ours）西藏梗：0.013. 狮子座：0.005。(e)标签（CE）（f）标签（我们的）获得更有区别的特征表示。它可以简单地应用于任何CNN架构，具有可忽略的附加参数和计算。实验结果表明，CAM-loss算法适用于多种网络结构，可以与主流的正则化方法相结合在迁移学习和小样本学习任务中验证了CAM-loss的泛化能力基于CAM-loss，我们还提出了一种新的CAAM-CAM匹配知识提取方法。该方法直接利用教师网生成的CAM来监督学生网生成的CAAM，有效地提高了学生网的准确率和收敛速度。1. 介绍在过去的几年中，卷积神经网络（CNN）在许多视觉分类任务中取得了优异的性能。为了处理日益复杂的数据，CNN不断改进更深层次的结构（AlexNet[22] ， VGGNet [32] ， ResNet [14] ， ResNext [46] ，DenseNet [18]）。然而，深度网络在获得较强学习能力的同时，容易出现过拟合现象许多研究人员提出了有效的正则化解决方案，例如Dropout [33]，WeightDecay [10] ， Stochastic Depth [19] ， Mixup [54] ，Shakedrop [47]，Cutmix [51]。另一种解决方案是设计不同的损失函数，以获得更多的区别特征表示。*同等缴款。†通讯作者。图1.一些例子来说明我们的动机。采用在ImageNet上训练的ResNet- 50模型。“GT” represents the ground黑色边界框示出了（b）和（c）之间的主要差异，而白色边界框示出了（c）和（d）之间的主要差异。表示，这增加了类内紧凑性和类间可分离性。受此启发，提出了对比损失[12]，三重损失[30]，中心损失[45]，以在交叉熵损失的基础上引入额外的约束。不幸的是，它们通常会大大增加计算成本。L-Softmax[26]和SM-Softmax [25]被提出来在数学上修改原始softmax函数，从而导致特征向量之间的潜在更大的隐式语义数据增强（ISDA）损失[41]被提出来优化预期交叉熵损失的上限。然而，当采用上述损失函数时，输入图像由一维特征向量表示，其折叠空间信息。在本文中，我们建议通过利用具有丰富空间信息的类激活图（CAM [56]）来构建一种新的损失函数。CAM指示空间区分区域以识别特定类别。通过计算最后一个卷积层的特征图的加权和可以容易地获得它。事实上，我们还可以通过直接计算特征图的总和来获得类别不可知的激活图（CAAM [2]），其指示嵌入特征的空间分布为了直观地描述我们的动机，在图1中，我们展示了一些被预先训练的ResNet错误分类的验证图像GT：加农炮GT：oxGT：栗色GT：拉萨亚普索132750 [14] ImageNet上的交叉熵损失模型[29]。目标类别的CAM、CAAM和输出标签分别在列（b）、（c）和（e）中示出。直观的结论是，CAAM一般比目标类别的CAM显示出更大的激活区域和更丰富的特征。不幸的是，冗余特征表示（列（c）中的黑色边界框区域）导致非目标类别（列（e）中的红色标签）的置信度得分超过目标类别（列（e）中的绿色标签）的置信度得分，这导致误分类。例如，身体的表情使模型将牛误认为黑熊，耳朵和鬃毛的表情使模型将马误认为狗。直观地说，如果我们将CAAM约束为更接近目标类别的CAAM，则目标类别的特征将被很好地表达，而非目标类别的特征将同时被抑制。这有效地加强了类内紧凑性和类间可分性。基于上述启示，我们构造了一个新的损失函数，称为CAM-loss，通过最小化CAAM和目标类别的CAM之间的距离为每个训练图像。CAM损失驱动主干从空间角度学习更多的判别特征表示。我们用CAM损失训练另一个ResNet-50模型它表明由CAM损失产生的CAAM通常比由交叉熵损失产生的CAAM更清洁非目标类别的一些特征被抑制（列（d）中的白色边界框区域），这大大提高了标签的准确性（将列（e）与列（f）进行比较）。事实上，大量的实验表明，CAM损失有效地提高了各种分类模型的性能。作为一个独立的损失模块，CAM损失也可以与主流的正则化方法相结合，以提高其性能。此外，我们还验证了CAM-损失在迁移学习和小样本学习任务中的强大泛化能力。CAM损失特别地将基线方法提高了7。04%（1次注射）和4. 75%（5杆）在CUB上[38]，2。78%（1次射击）和1。68%（5次）在Mini-ImageNet[37]上，在少量学习的情况下。这归因于CAM损失在减少图像背景的负面影响中的关键作用。在传统的师生知识蒸馏框架中，现有的方法都是使用某种类型的教师知识来监督同一类型的学生知识，如软目标[15]、提示[28]、注意力地图[52]、样本之间的关系[27]或层[49]。受CAM-loss的启发，我们提出了一种不同的思想来匹配教师和学生之间不同类型的知识，即用教师生成的CAMs直接监督学生网络网络我们称之为CAAM-CAM匹配（CCM）知识蒸馏。实验结果表明，CCM能有效地提高学生网络的精度和收敛速度。我们工作的主要贡献是：我们提出了一种新的损失函数CAM-loss从空间信息的角度。它可以有效地提高各种CNN模型的分类性能，只需忽略额外的参数和计算，并且可以轻松地与主流正则化方法结合，以实现CIFAR-100和ImageNet上的最新技术。CAM-loss在迁移学习和少量学习任务中表现出较强的泛化能力。特别是，CAM损失显着提高了性能的少拍图像分类。提出了一种新的知识提取方法CAAM-CAM匹配，该方法匹配教师和学生之间不同类型的知识，同时提高了学生网络的准确率和收敛速度。2. 相关工作2.1. 的类激活图使用CNN分类模型生成类激活图（CAM [56]）在计算机视觉中起着重要作用。Grad-CAM [31]和Grad-CAM++ [3]对CAM [56]进行了通用化，因此可以在任何基于CNN的分类模型中获得CAM。从分类网络衍生的CAM技术已广泛用于其他弱监督视觉任务，例如定位[2，48]，检测[39，43，55]，分割[1，23，44]。在图像分类任务中，CAM通常用作可视化技术，但很少有研究人员将其视为可以反馈到训练中的一些东西[8，11，34]。[8]介绍了一个复杂的多分支结构，它由注意机制、注意分支（基于CAM）和感知分支组成。[11]采用双图像输入和两分支结构进行注意一致性（基于CAM）。这两种方法都依赖于复杂的网络结构，导致了额外的计算量.相比之下，CAM-loss直接引入了CAAM和CAM之间的距离约束，两者都是在分类模型的正常训练过程中生成的。我们的方法是非常清洁，直接，低成本，但有效的。[34]提出了通过最小化前k个负类别的CAM或用均匀的空间分布约束它们来抑制负类别的特征。与[34]相比，CAM损失抑制了更广泛的非目标区域，例如背景。此外，由于目标类别的CAM和非目标类别的CAM可能在一些区域中重叠···1328Σk kKKKΣCAM（x，y）=wf（x，y）。（2）ikΣi ii×ΣHx，yWK高×宽Ki到softmax，zi=Σkwi FkKx为ohKCAM损失可以更好地避免同时抑制目标类别的特征的风险。2.2. 损失函数交叉熵损失由于其简单性和概率解释而广泛用于CNN中。尽管它很受欢迎，但它并没有明确地鼓励类内紧致性和类间可分性。一种解决方案是添加额外的损失项以辅助交叉熵损失。对比度损失[12]被提出来同时最小化正图像对之间的距离并扩大负图像对之间的距离类似地，提出了三元组损失[30]，以将类似的策略应用于图像三元组而不是图像对。中心损失[45]被提出来最小化特征向量和相应类质心之间的欧氏距离这些损失的一个主要缺点是昂贵的计算图像对或三元组爆炸，类质心更新。另一种解决方案路线是修改softmax交叉熵损失。L-Softmax [26]、SM-Softmax [25]和 AM-Softmax [40] 被提出来将一些裕度参数引入softmax函数中。ISDA [41]被提出来优化预期交叉熵损失的上限。然而，在这些方法中，图像由不包括任何空间信息的一维特征向量表示与以往的方法不同，CAM损失利用3. 方法在这一部分中，我们首先形式化地定义和描述了提出的CAM-损失，然后分析了超参数的选择，最后介绍和解释CAAM-CAM匹配知识提取。3.1. CAM损失的定义基于[56]中生成CAM的过程，我们介绍了如何在基于CNN的架构中获得CAM、CAAM和CAM损失，如图2所示。注意，我们也可以使用广义方法Grad-CAM[31]或Grad-CAM++ [3]来代替CAM [56]的方法。唯一的区别是，由于梯度的计算，Grad-CAM [31]或Grad-CAM++[3]将增加计算成本。本文采用CAM [56]的方法，以便于描述和降低实验成本。正式描述如下所示对于给定的图像，最后一个卷积层输出一些特征映射单元。设f_k（x，y）表示在空间位置（x，y）处的单元k的赋值。那么对于单位k的高度H和宽度W，执行全局平均池化的结果，F=1f（x，y）。因此，对于A给定类，输入H×Wx，y，其中wi是对应于单元k的类别i的权重。本质上，wi表示Fk对于类i的重要性。最后，类i的softmax的输出p i由下式给出：e（zi）ΣJ. 通过插入F为1 Σf（x，y）到学习更多空间区分特征表示。它具有显著的视觉可解释性，并且需要很少的附加-类得分zi，我们获得z=1ΣwiΣf（x，y）我函数计算这些优点使其适合于广泛的应用场景。高×宽kKKx为oh（一）f（x，y）= 1.香草知识蒸馏（KD [15]）提出通过最小化两个模型的软目标之间的Kullback-Leibler散度，将强能力教师模型的一些知识从那时起，就有研究探索知识蒸馏的变体。Fitnets [28]建议不仅使用最终输出，而且还使用中间输出来传输知识。AT [52]提出了一种基于注意力的方法来匹配基于激活和基于梯度的空间注意力图。FSP [49]提出计算跨层特征的Gram矩阵以进行知识传输。CCKD [27]提出转移实例之间的相关性。现有的方法都使用某种类型的教师知识来监督相同类型的学生知识。与之不同的是，本文首先提出了一种新的思路，将教师和学生之间不同类型的知识进行匹配，可以有效地同时提高学生网络的准确率我们将CAMi定义为类i的类激活图，其中每个空间元素由下式给出：IkK因此，z=1CAM（x，y），其中CAM（x，y）直接指示空间位置（x，y）处的激活的重要性，导致图像属于类别i。此外，我们将CAAM定义为类不可知的AC。输入图像的激活图。CAAM的每个空间元素由下式给出CAAM（x，y）=fk（x，y）。（三）K自生成CAM的空间信息来约束特征图，这驱动CNN的主干e（zjK高×宽x为oh2.3.知识蒸馏1329为了驱动CAAM接近CAMi，我们定义Lcam来测量CAAM和CAMi之间的距离。在CAAM和CAMi的相同的最小-最大归一化之后，我们得到13302我c，xt高×宽我ΣCNN的主干Softmax标签一个热标签特征图110输入图像..飞机.间隙.��−1...1个载波...0Lce12�� −1��CAAMCAML凸轮1CAM-损耗图2.如何在CNN框架中获得CAM，CAAM和CAM损失。CAM是最后一个卷积层的特征图的加权和。CAAM直接是特征图的总和。CAM-loss是Lcam和Lce的组合CAAM′和CAM′，然后使用任意像素空间距离测量L凸轮。在本文中，我们简单地选择l1distance（也可以使用l2）。因此，Lcam的形式表达式如下：Lcam=1Σ¨CAAM′（x，y）−CAM′（x，y）¨。（四）x为ohL1算法1具有CAM损失的训练过程初始化：骨干网参数θ;后续全连接层参数W;优化：1：对于训练迭代次数，执行2：计算CAAM和CAM;当然，交叉熵（CE）损失Lce仍然是必要的，并且定义如下：e（zi）3：用WPWLce更新W;4：用▽θCAM损失更新θ5：返回最优参数θ*和W*Lce=−日志J e（zj）.（五）在更新骨干网参数时，这两个损耗项应该很好地结合起来，如下所示CAM损失=αLcam+Lce，（6）其中α表示联合收割机比率。训练过程总结在算法1中。注意，Lce用于更新W，而CAM-损失用于更新θ。目的是消除W和Lcam之间的相关性，这可能导致W接近全一向量，导致CAM损失的虚幻下降。3.2. α的选择如何选择α是一个悬而未决的问题。直观地，在最前面的时期中获得的CAM太离散而不能引导CAAM，而在后面的时期中获得的CAM对于引导更有效。因此，我们认为α是一个简单的阶跃函数，形式描述如下α=. 0，xt，（7）ConvConvConv…1331其中t是跳跃点（或起始时期）。这意味着L_cam将从第t个历元被添加到L_ce。我们简单地设置c=1来分析t的值和错误率之间的关系它表明最佳t为30。进一步分析发现，在第30个历元时，训练误差和测试误差都小于50%目前，CAM已经具有明显的目标类别特征。从这个意义上说，当训练精度超过50%时，自适应地将t的值设置为epoch是一个简单但聪明的选择。在起始时期t的位置固定的情况下，我们分析c的大小对错误率的影响，如图3的右侧部分所示。结果表明，当c=3时，误差率的改善最大。实际上，最优α的选择与数据集和训练时期的数量有关。α也可以是任何其他函数或一种概率分布。遍历所有可能性是困难的，但我们总是可以用一个简单的选择策略来击败基线，如图3所示。1332S¨nsiti我sitiStiS=L cam + Lat.ntititisiLat=¨CAMsi− CAMti ¨lStiL1siΣ eΣesisitiS和等式（10）是CAAM′代替CAM′ . 此外，方程式(10)可以如下Lccm=¨CAAM′−CAM′¨⩽¨CAAM′−CAM′¨+CAM′ −CAM′¨L1（十一）图3.消融t（左）和c（右）。我们使用ResNet-56在CIFAR-100上进行图像分类实验基线采用交叉熵损失，而我们的方法采用CAM损失。实验设置见第2节。4.23.3. CAAM-CAM匹配经典知识蒸馏（KD [15]）通过最小化他们的软目标的Kullback-Leibler散度，让弱学生模仿强教师正式描述如下所示。给定logitsz的向量作为深度模型的输出（或softmax的输入），使得zi是类别i的logit，然后输入图像属于类别i的概率pi可以通过softmax估计当量(11)说明Lcam+Lat是Lccm的上界。换句话说，CCM可以近似为在AT的基础上向学生网络添加CAM损耗[52]。由于CAM损失可以独立地提高学生网络的性能，因此可以合理地推断CCM可以获得比AT更好的性能[52]。在实际应用中，像AT [52]一样，CCM也需要结合交叉熵损失项和软目标损失项以实现最佳性能。损失函数L=βLce+（1−β）Lkd+γLccm，（12）其中β和γ表示组合比率。由于教师是一个经过良好训练的网络，可以生成良好的CAM，因此β和γ的优化可以直接通过线性搜索来完成，而无需考虑第3.2节中的α等历元的影响函数p=e（zi）. 温度因子τ在-i（zj）J控制每个软目标的重要性4. 实验pτ=e（zi/τ），其中较高的温度产生i（zj/τ）J类上更软的概率分布。蒸馏KD [15]的损失期限为Lkd=1<$τ2（pτlogpτ−pτ logpτ），（8）i=1在本节中，我们首先介绍我们实验中的数据集（Sec.4.1）。然后，我们评估了CAM损失在图像分类任务中的性能（Sec. 4.2），包括对各种网络的应用，与主流正则化方法的结合，以及与不同的损失函数我们还验证了推广其中Pτ和Pτ分别表示学生和教师的软目标Pτ。n是类的数量。AT [52]提出匹配两个不同模型之间的注意力图。仅使用由最后卷积层生成的CAM，AT[52]可以简化如下¨′ ′¨1在迁移学习和少量学习中的CAM损失能力执行任务（Sec. 4.3、4.4）。最后，我们将CAAM-CAM匹配方法应用于知识提取任务（Sec.4.5）。4.1. 数据集CIFAR-10和CIFAR-100 [21]。 CIFAR-10和CIFAR-100包括32×32像素RGB图像，其中10其中CAM′而CAM分别表示学生和教师对目标类i的归一化CAM。使用l1距离代替l2以保持一致性。与AT [52]不同，CAAM-CAM匹配（CCM）采用教师生成的目标类别的归一化CAM来约束学生生成的归一化CAAMCCM蒸馏损失项为Lccm=¨CAAM′−CAM′¨，（10）CE损失CAM损失CE损耗CAM损耗L1L1、（9）和100个类，包含50，000个训练图像和10，000个测试图像。我们遵循[17]中的标准增广。的1333××即，训练图像被填充4个像素，然后随机裁剪为32 ×32，并结合随机水平翻转。原始32 32图像用于测试。ImageNet-1K[ 五 ] 《中国日报》和Mini-ImageNet [37]第37段。的ImageNet-1 K包含120万个训练和1000个类的50，000个验证图像Mini-ImageNet由ImageNet中的100个类组成，每个类包含600个图像。我们采用与[51]相同的增强策略，并在测试中应用中心裁剪。在少数拍摄学习任务中，遵循[24]，我们随机其中CAAM′ 表示标准化CAAM将Mini-ImageNet [37]数据集拆分为64个base，16个valida-学生. 很（9）tion，和20个小说类。1334××ResNext-29，8× 64 d [46]+ CAM-损失ResNext-50，4× 32 d [46] + CAM-1DenseNet-bc-190-40 [18] 17.67 ResNext-101，8× 32d [46] 21.04DenseNet-bc-190-40 [18]+ CAM-损失16.98ResNext-101，8× 32 d [46]+ CAM-损失20.45表1.CAM损耗对不同网络结构的适用性采用前1错误率（%），CAM损失结果用黑体字表示。CIFAR-100 ImageNet基线模型top 1 top 5基线模型前1名前5名表2.结合CIFAR-100和ImageNet上的主流正则化方法采用前1和前5错误率（%），并且CAM损失的结果是粗体的。基线结果来自[51]CUB-200-2011 [38]和斯坦福犬[20]。鸟类数据集包含200个类别的5，994个训练图像和5，794个测试图像。狗数据集包含120个类的12，000个训练图像和8，580个测试图像。对于数据扩充策略，我们将输入图像重新缩放到600的分辨率600，随机裁剪一个448448区域，并在测试中应用中心裁剪。在少量学习任务中，在[24]之后，我们将鸟类数据集随机分为120个基本类，30个验证类和50个新类。4.2. 图像分类我们评估的图像分类性能的CAM损失三个基准数据集：CIFAR-10、CIFAR-100和ImageNet-1K。在CIFAR数据集上，我们运行了160个epoch，批量大小为128，初始学习率为0.1，余弦学习率衰减。在ImageNet上，我们运行了120个epoch，批量大小为1024，初始学习率为0.4（由于计算限制，ResNext-101的批量大小为512，学习率为0.2），余弦学习率衰减。特别地，我们设置c=3和t=20（事实上，由于CAM损失对超参数的鲁棒性，我们简单但自信地在随后的实验中采用相同的设置）。适用于各种网络结构。我们执行ResNet [14]，Wide-ResNet [53]，ResNext [46]和DenseNet [18]，保持所有超参数与原始论文相同。表1表明CAM损失可以广泛用于各种网络结构中，以改善基线的性能。具体来说，CAM损失在ImageNet上带来了0.51-0.70%的改进，在CIFAR-100上带来了0.69-1.46%的改进，这在这些大型网络结构下是显着为了进一步分析，我们关注epoch数和错误率之间的关系，如图4所示。结果表明，用CAM损失训练的模型实现了较高的训练误差，但较低的测试误差，这证明了CAM损失对避免过拟合具有积极的结合正则化方法。表2显示了在[51]的设置之后，在CIFAR-100和ImageNet上对不同正则化方法的评估我们观察到CAM损失可以广泛地与主流正则化方法相结合，以进一步提高其具体地，CAM损失减少了前1个CIFAR-100ImageNet模型前1模型前1ResNet-56 [14]28.80ResNet-50 [14]23.68ResNet-56 [14] + CAM-损失27.34ResNet-50 [14] + CAM-损失22.98Wide-ResNet-28-10 [53]18.37ResNet-101 [14]22.30Wide-ResNet-28-10 [53] + CAM-损失17.49ResNet-101 [14] + CAM-损失21.73ResNext-29，8× 64d [46]18.0117.24ResNext-50，4× 32d [46]22.42OSS21.91PyramidNet-200（alpha=240）[13]ResNet-50 [14]CE损失16.453.69CE损失23.687.05CAM损失15.793.28CAM损失22.986.52开孔[6]16.533.65开孔[6]22.936.66[36]第三十六话16.144.07[36]第三十六话22.506.21StochDepth [19]15.863.33StochDepth [19]22.466.27DroppBlock [9]15.733.26DroppBlock [9]21.875.98[54]第五十四话15.633.99[54]第五十四话22.586.40Shakedrop [47]15.082.72---Shakedrop [47] + CAM损失14.562.56---[51]第51话14.472.97[51]第51话21.545.92Cutmix [51] + CAM-损失14.012.93Cutmix [51] + CAM-损失 21.165.79Cutmix + Shakedrop13.812.29---Cutmix + Shakedrop + CAM损失13.492.18---1335基线（测试）我们的（测试）基线（列车）我们的（火车）×CIFAR-100 ImageNet ResNet-56 ResNet-110 ResNet-50 ResNet-101CE损失28.80 27.68 23.68 22.3040NegativeCAM [34] 27.37 26.76 23.32 22.02CAM-loss27.34 26.56 22.98 21.73表4.在CIFAR-100和ImageNet上与NegativeCAM [34]进行比较采用前1错误率（%）。CAM损失结果20、勇敢面对10080 90 100110120 130 140 150 160时代4.3. 迁移学习在迁移学习的环境下，一个ResNet-50 [14]模型在ImageNet-1 K [5]上使用CAM损失进行预训练，然后图4.错误率与具有CAM损失和交叉熵损失的时期。我们在具有ResNet-56主干的CIFAR- 100上进行图像分类实验。基线采用交叉熵损失，而我们的方法采用CAM损失。ShakeDrop [47]的错误率为0.52%，CutMix [51]的错误率为0.46%。令人惊讶的是，它还将组合ShakeDrop[47]和CutMix [51]的前1错误率降低了0.32%。这意味着CAM损失可以进一步提升现有技术的正则化方法。没有冲突，[38]第38话：“你是我的朋友，我的朋友。在[7，35]之后，我们在训练集上对预训练模型进行了90次微调，批量大小为8（CUB）和16（Stan-ford Dogs）。采用SGD优化器，初始学习率为0。001和余弦学习率衰减。我们设定重量衰减为5 10−4，动量衰减为0。9 .第九条。表5示出CAM损失将基线提高1。1%和0。7%的CUB [38]和斯坦福犬[20]。这证实了CAM-loss具有较强的分类能力新的数据集相比，交叉熵损失。CAM-loss和大多数正则化方法之间的差异，这是在实际应用中非常受欢迎。与其他损失函数比较。为了将CAM损失与流行的损失函数进行比较，我们按照[42]的设置在CIFAR-10和CIFAR-100上使用ResNet-110 [14]和Wide-ResNet-28-10[53]进行分类实验表3示出CAM损失超过所有基线损失函数。事实上，CAM损失和其他损失函数的路径是平行的，没有冲突。它们可以在适当的联合收割机比率设置中一起使用。特别地，我们将NegativeCAM [34]与CAM损失进行比较。ResNet-56 [14]和ResNet-110[14] 在 CIFAR-100 上采用， ResNet-50 [14] 和 ResNet-101 [14]在ImageNet上采用我们根据官方代码继承了Negative-CAM [34]的损失表4显示CAM-loss始终优于NegativeCAM [34]，特别是在ImageNet上，这意味着CAM-loss在复杂数据集上更有效。CIFAR-10 CIFAR-100 ResNet-110 WRN-28-10CE损失6.763.8227.6818.53中心损耗[45]6.383.7626.8818.50L-softmax [26] 6.463.6927.0318.48SM-softmax [25] 6.493.7126.9718.40CAM-loss（ours）6.293.4926.5617.87表3.与其他损失函数的比较。采用前1错误率（%）。CAM损失的结果以粗体显示。数据集CE损失CAM损失古巴[38] 85.686.7斯坦福狗队[20] 83.984.6表5.迁移学习环境下细粒度分类任务的准确率采用前1个准确度（%）CAM损失的结果以粗体显示。4.4. 少拍学习由于新类的数据有限，少镜头学习在很大程度上依赖于在基类上在[4]中对主流的少镜头为了简单起见，我们将CAM损失添加到基线++方法中，以评估三种情况下的性能改进：（1）一般对象识别，（2）细粒度图像分类，（3）跨域自适应（使用Mini-ImageNet [37]作为基类以及来自CUB [38]的50 个验证和 50 个新类）。我们采用与[4]相同的设置，除了CAM损失的超参数。表6示出了在标准5路1次激发和5次激发方案下，CAM损失平均将基线++提高7。04%和4. 75%的CUB[38]，2。78%和1。68%在Mini-ImageNet上[37]。Base-line++的跨域结果也显著提升了2. 百分之七十五据我们所知，我们在CUB上的少镜头分类结果[38]方法错误率方法301336→方法−支持集查询集归类为归类为Mini-ImageNet CUB MiniCUB1张5张1张5张5张基线++[4]52.1875.8667.0884.1965.88基线++ [4] + CAM损失54.8077.5474.1288.9368.63表6.少数镜头分类任务的准确性Mini→ CUB表示跨域。CAM损失的结果以粗体显示。设置老师学生基线KD [15]AT [52]CCM（一）WRN-28-4 [53]WRN-16-4 [53]23.1421.9321.7721.46（b）第（1）款WRN-28-4 [53]WRN-28-2 [53]25.4023.1222.8222.50（c）第（1）款WRN-28-4 [53]WRN-16-2 [53]27.9426.0525.8525.45（d）其他事项WRN-28-4 [53]Resnet-56 [14]28.8027.1126.9826.48（e）PyramidNet-200WRN-28-4 [53]20.9720.0820.2219.93表7. CIFAR-100上各种知识蒸馏装置的性能。'WRN'表示Wide-ResNet的缩写。基线表示学生网络的前1个错误率（%）。CCM方法的结果用粗体表示。在归纳推理设置方面与最先进的技术相比具有很强的竞争力为什么CAM-loss在少数拍摄图像分类任务中表现如此出色？[16，50]已经反复证实了背景特征给小镜头图像分类带来了很大的麻烦。图5中显示了一个5杆学习示例，其中黄色草地和绿色草地的特征具有误导性。在查询集中，带有黄色草的狮子样本被误分类为狗，而带有绿色草的狗CAM损失是抑制背景特征表达的有效方法。这对于减少小镜头图像分类任务中背景的负面影响，特别是在细粒度小镜头图像分类中是非常有帮助的。图5.背景在少拍图像分类中的负面影响[50个]4.5. 知识蒸馏我们在CIFAR-100 [21]上进行知识蒸馏实验，并选择KD [15]和AT [52]作为基线方法。对于KD [15]，我们将超参数温度设置为4，并将损耗项的组合比率设置为0的情况。五、对于AT [52]，我们选择设置（β）lce+（1β）lkd+ γlat作为损失函数，其中lat采用l2距离，β设定为0.5，γ设定为10。对于CCM，我们根据等式（1）将β设置为0.5，γ 设置为1（10）和（12）。一般而言1337在实验的基础上，我们采用了相同深度（WRN-28-4/WRN-28-2）、不同深度（WRN-28 - 4/WRN-16-2、WRN-28 -4/WRN- 16-4 ）、不同类型（ WRN-28 -4/ResNet-56、PyramidNet- 200/WRN-28-4）的教师/学生对。表7显示CCM始终优于两种基线方法。进一步思考，CAM-loss也可以看作是一种自升华策略，即监督信息来自网络本身而非教师网络。5. 结论在本文中，我们提出了一种新的损失函数CAM-loss来提高CNN分类模型的性能。从本质上讲，它用CAM的空间信息来约束特征图。使用CAM-loss训练的模型倾向于表达目标类别的特征并抑制非目标类别的特征，这有效地增强了类内紧致性和类间可分性。作为一个独立的损失函数，它可以很容易地与主流正则化方法相结合，以提高其在图像分类任务中的性能。较强的泛化能力使其在迁移学习和少量学习任务中表现出色。基于CAM-loss，本文还提出了一种新的CCM知识提取方法，该方法匹配了教师和学生之间的不同知识在未来，我们将研究CAM-loss的应用程序，以更一般的视觉任务。致谢这项工作得到了中国科学技术部国家科技重大专项基金2018AAA0100701，国家自然科学基金61906106和62022048以及北京人工智能研究院的部分支持。1338引用[1] Jiwoon Ahn，Sunghyun Cho，和Suha Kwak.具有像素间关系的实例分割的弱监督学习在IEEE计算机视觉和模式识别会议论文集，第2209-2218页[2] Kyungjune Baek ， Minhyun Lee ， and Hyunjung Shim.Psynet ： Self-supervised approach to object localizationusing point symmetric transformation.在AAAI人工智能会议集，第34卷，第10451-10459页[3] AdityaChattopadhay ， AnirbanSarkar ， PrantikHowlader ， and Vineeth N Balasubramanian. Grad-cam++：深度卷积网络的一般化基于梯度的视觉解释。2018年IEEE计算机视觉应用冬季会议，第839-847页[4] Weiyu Chen ， Yencheng Liu ， Zsolt KiraAuthors ， YuChiang，and Huang Jiabin.更仔细地看几个镜头分类。在 IEEEInternationalConferenceonLearning-ingRepresentations Worshops，2019的会议记录中。[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页[6] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。 arXiv 预印本 arXiv ： 1708.04552 ，2017。[7] Abhimanyu Dubey 、 Otkrist Gupta 、 Pei Guo 、 RameshRaskar、Ryan Farrell和Nikhil Naik。细粒度视觉分类的成对混淆。在欧洲计算机视觉会议论文集，第70-86页[8] HiroshiFukui，TsubasaHirakawa，TakayoshiYamashita，and Hironobu Fujiyoshi.注意分支网络：视觉解释的注意机制学习。在IEEE计算机视觉和模式识别会议论文集，第10705-10714页，2019年[9] Golnaz Ghiasi ， Tsung-Yi Lin ， and Quoc V Le.Dropblock：卷积网络的正则化方法。神经信息处理系统的进展，第10727-10737页，2018年[10] Ian Goodfellow Yoshua Bengio和Aaron Courville深度学习MIT Press，2016.[11] 郭浩，郑康，范小川，于宏凯，王松。图像变换下多标签图像分类的视觉注意一致性在IEEE计算机视觉和模式识别会议论文集，第729-739页[12] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数. 2006年IEEE计算机协会计算机视觉和模式识别会议，第2卷，第1735-1742页[13] Dongyoon Han，Jiwhan Kim和Junmo Kim深层金字塔残余网络。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第5927-5935页[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。进行中-的IEEE计算机视觉和模式识别会议，第770-778页，2016。[15] Geoffrey Hinton Oriol Vin

下载后可阅读完整内容，剩余1页未读，立即下载