ATCON：无监督注意力微调提高视觉模型性能

47 浏览量更新于2023-10-16 收藏 837KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1880ATCON：视觉模型Ali Mirzazadeh*1，2，Florian Dubost*1，Maxwell Pike1Krish Maniar1，Max Zuo2，Christopher Lee-Messer1和Daniel Rubin11斯坦福大学2佐治亚理工alimirz@gatech.edu，floriandubost1@gmail.com，{cleemess，rubin} @stanford.edu*平等贡献摘要注意力或归因图方法是设计用于突出模型输入中对其预测具有区分性的区域的方法。然而，不同的注意力地图方法可以突出输入的不同区域，有时对预测的解释相互矛盾。当训练集很小时，这种影响会加剧。这表明模型学习了不正确的表示，或者注意力地图方法没有准确地估计模型我们提出了一种无监督的微调方法，优化了注意力地图的一致性，并表明它提高了分类性能和注意力地图的质量我们提出了两个国家的最先进的注意力计算方法，梯度CAM和引导反向传播，它依赖于一个输入掩蔽技术的实现。我们还显示了消融研究中的Grad-CAM和Integrated Concentrations的结果。我们在我们自己的事件检测数据集上评估了这种方法，这些数据集是为这项工作收集和策划的医院患者的连续视频记录。作为一个健全的检查，我们还评估了PASCAL VOC和SVHN的建议方法。使用所提出的方法，使用小的训练集，我们在视频数据集上实现了F1分数比基线提高6.6分，对于PASCAL上的弱监督检测，PASCAL上的F1分数提高2.9分，并且平均交集超过并集超过Grad-CAM提高1.8分。这些改进的注意力地图可以帮助临床医生更好地理解视觉模型预测，并简化机器学习系统在临床护理中的部署。我们在以下存储库中共享本文的部分代码：https://github.com/alimirzazadeh/SemisupervisedAttention。1. 介绍在许多现实世界的问题中，如医疗保健，标记的训练数据可能是稀缺的[19，4]，这可能会驱使模型学习部分不正确的表示并过度拟合其训练集[32，3]。因此，在小数据集中，研究人员需要确保学习正确的表示这些表示应该与人类的理解相匹配，可以推广到看不见的数据，而不是关注数据集中的潜在偏差。这对于医疗机器学习系统尤其重要，因为可解释性可以证明预测和决策的合理性。注意力或归因图方法可用于通过突出显示输入信号中对模型的预测具有区分性的区域来评估模型的表示。它们已经成为分析神经网络可解释性的主要方法之一[35]，并验证了该模型没有利用数据中存在的偏差。然而，注意力地图的结果可能会因所选择的注意力计算方法而大不相同，有时甚至会出现矛盾[1]。此外，这些方法中的一些已被证明偏向于数据中不相关的模式，例如图像中的高强度梯度区域[1]。当任务变得更有挑战性和过拟合的机会增加时，注意力图也变得更不相似。例如，Dubost et al.对于弱监督检测，[9]表明在整体性能较差的数据集中，Grad-CAM注意力图[21]和Grad注意力图[22]之间的性能差异较大。因此，做模型与协调的注意力，即具有从多种方法计算的相似注意力图，导致改进的表示？我们建议使用不同方法计算的注意力地图之间的一致性，以提高代表性。1881表示由模型学习，并增加其对看不见的数据的分类性能。更具体地说，我们为两种最先进的注意力地图方法设计了一个注意力一致性损失函数：Grad-CAM [21]和引导反向传播[25]，但也显示了消融研究中Grad-CAM和集成反向传播[26]的结果。我们建议优化这个损失函数作为一个无监督的微调步骤，以改善预训练模型的表示。我们表明，所提出的方法（ATCON）可以提高视频剪辑事件分类与我们自己的数据集策划这个项目的分类性能。视频数据集由从医院患者在其房间中的连续视频记录中提取的片段组成。作为一种健全性检查，我们还显示了当训练集的大小减少时，使用PASCALVOC[10]（和第2节中的SVHN[18]）进行图像分类的改进。我们发现，注意力一致性提高了注意力地图的质量。在视频数据集上对注意力图进行了定性分析，在PASCAL上通过计算阈值化的注意力图和地面真值边界框之间的重叠来该方法的优点被证明用于多种网络架构：ResNet 50、Inception-v3和3D 18层ResNet。我们比较了该方法的基线，包括层注意力一致性[31]和少镜头学习多标签分类[2]。对于视频数据集，我们证明了所提出的方法可以利用最先进的自监督方法Simplified[6]来进一步提高性能。改进的注意力地图可以帮助临床医生更好地理解模型预测，简化机器学习系统在临床护理中的部署，并最终改善患者2. 相关作品关于注意力地图相关工作的详细描述下面我们将详细介绍注意力地图一致性和半/自监督学习的2.1. 注意力地图一致性据我们所知，多个注意力地图方法之间的一致性尚未用于评估和优化模型最接近的工作需要在输入的不同增强版本下检查相同注意力地图方法的一致性[11]，或者跨同一网络的层[31]。Li等人[17]扩展了Guo等人的思想。[11]注意图像之间的一致性具有相似的特征。Xu等人[33]结合上面引用的文章，在增强图像和网络层之间加强注意力地图的一致性然而，这些文章都没有检查多个注意力地图方法的一致性。不同注意力地图方法的核心机制可能有很大不同，并且它们在弱监督检测性能方面的排名在数据集之间可能会有很大差异[9]。在附录第1节中，我们详细介绍了主要类型的注意力映射方法，包括本文中使用的方法，即 Grad-CAM[21] 和 GuidedBackpropagation [25]。2.2. 半监督和自监督学习当训练标签稀缺时，最常用的方法是无监督和半监督学习，特别是自监督学习。在图像分类中，大多数最先进的半监督方法都是基于自我监督并使用对比学习方法[12，6]。Momentum Contrast（MoCo）[12]编码并匹配查询图像到动态字典的键Sim-2000[6]通过消除对专门架构的需求来改进MoCo。Simplified的作者强调，数据增强的组成对于实现高性能至关重要。另一个关键参数是批量大小。Simplified最适用于大批量，这在处理视频数据等高维数据时可能会成为一个很大的限制。Jing等人。[14]提出了一种用于视频分类的半监督学习方法，使用伪标签和未标记视频的归一化概率来提高分类性能。少样本学习方法也可以利用小数据集，只需少量标记样本。例如，FixMatch[24]使用当前模型的logit为未标记的数据创建伪标签，并在原型网络[23]是另一种少量学习方法，它允许网络推广到具有有限样本的新类别。很少为多标签分类问题设计少镜头学习，这阻止了它们在例如。PASCAL。在本文中我们将我们的方法与LaSO[2]进行了比较，LaSO是一种用于多标签分类的少量学习方法。然而，大多数无监督、半监督或自监督学习方法假设大量（未标记的）数据可用，以及存储和处理它们的大型计算资源。在许多现实世界的应用中，例如医疗应用，数据和计算资源往往都缺乏，特别是对于较小的机构或新兴的模态。采集成本可能很高，因为采集设备的价格，或者因为实验设置偏离临床实践并需要设置专用的研究采集环境。例如，MRI扫描仪价格昂贵，并且仅允许在医院中一次扫描有限数量的患者使用MRI设备进行的实验-1882ΣθΣΣ在临床实践中很少使用目标分辨率超过1mm各向同性的装置，并且需要特定的环境。例如，Cicek et al.[7]发表了一篇医学图像分析方面的重要文章，在他们的研究中仅使用3个稀疏标记的3D显微镜图像，并且许多医学图像分析竞赛仅为参与者提供少数扫描[16，28]，部分原因也是由于与患者同意和个人健康信息相关的管理成本。在这篇文章中，我们提出了一种正则化方法，它可以提高神经网络在非常小的数据集上的分类和可解释性，而不需要额外的参数数据3. 方法我们在文献中已经看到，当任务变得更具挑战性时，注意力地图变得更加不同，过度拟合的机会增加[9]。因此，我们建议通过在不同类型的注意力地图上实施一致的表示首先，我们详细介绍了注意力地图一致性的概念，其次，我们提出了两个最先进的注意力函数的实现：Grad-CAM [21]和引导反向传播[25]。注意，所提出的方法不引入任何附加参数。3.1. 注意力地图一致性第3.3节中的Grad-CAM和引导反向传播，并提出消融研究。相应的注意力地图一致性损失函数定义为：L A= −h（Ax，1，.， Ax，M）。（二）x∈X3.2. 培训策略：无监督微调注意一致性损失不需要任何训练标签，这意味着无监督训练是可能的。然而，为了使损失收敛到期望的最小值，分类器需要在优化注意力图之间的一致性之前已经学习因此，我们提出了优化注意力地图的一致性后验，作为一个无监督的微调步骤。在实验部分的消融研究中，我们通过计算两种损失的线性组合，将无监督微调与训练期间的标准分类损失（先验交叉熵）相加我们称这种策略为组合优化。我们还比较了陈等人提出的两种损失之间的交替分批。[5]的文件。我们把这最后一种策略称为交替优化。关于训练超参数、变换、优化器和库的更多细节在实验中给出让我们考虑一个N个样本的集合X他们的心，第4.2节。响应标签y n，以及具有参数θ的分类器f ，使得f（x）=yn。根据定义，注意力函数g允许我们计算给定输入x和分类器f的注意力映射A，使得g（f，x）=Ax。注意力图A的值为R，并突出显示x的子集，该子集对预测器提供的信息最多，或者与其预测最相关例如，如果X是图像，则注意力图A突出显示图像中对于目标预测有区别的区域。虽然A和x的维数不必相同，但我们假设至少存在一个从x到A的满射映射，使得输入x的任何元素都可以链接到A的一个元素（它对任务的区分能力）。现在让我们考虑一组M个注意力函数gm3.3. Grad-CAM与引导反向传播的一致性我们选择使用两个最先进的注意力函数来实现注意力一致性损失：[21]和反向传播[25]。我们之所以选择这些方法，是因为它们可以计算任何类型的卷积网络，而且它们的计算方法不同，足以证明训练期间注意力损失的显著变化。Grad-CAM注意力图Grad-CAM计算为：目标卷积层的k个特征图fk的线性组合N使得对于输入x，gm（f，x）=Ax，m。我们想要最大化针对输入样本的完整集合Xn的注意力图Ax，m之间的相关性h，使得我们寻求求解：AGrad−CAM =αk fkK（三）αk= 1个月Zfk、（四）max{Ex∈X[h（Ax，1，.， A x，M）]}（1）其中，每个权重αk被计算为输出yk的deriv ativ e相对于特征图的平均值，f，其中Z是特征图f的大小。我们K K当注意力图突出显示输入的相似区域时，相关性h应该被选择为高。相关函数h的选择取决于要比较的注意力图我们详细介绍了我们的选择h为选择我们网络架构的最后一个卷积层来计算Grad-CAM，因为它与输出关系最密切。事实上，早期的层往往是对象不可知的边缘检测器的变体[34]。1883←⊙←通过估计网络的输出y相对于网络的输入x的梯度来y算法1提出的Grad- CAM和引导反向传播输入：样本x，卷积神经网络f输出：注意一致性损失AGB=.（五）x1：通过f向前传播x第二章： AGrad-CAM，1←Grad-CAM（公式3）对于多类分类问题， Grad-CAM 和 GuidedBackpropagation都计算类注意力图。我们只使用顶部预测类的注意力图来计算注意力图一致性损失。如相关工作部分所述，由于架构中的池化层，引导反向传播注意力地图通常具有比Grad-CAM注意力地图更高的分辨率。因此，通常在两个注意力图之间不存在双射映射，这使得注意力图映射函数h的计算复杂化。此外，Grad-CAM和引导反向传播倾向于关注输入的语义上不同的区域，使得简单的反向传播操作仍然会错误地表示注意力图之间的相关性。为了缓解这些问题，我们建议使用掩蔽策略。首先，我们计算 Grad-CAMAGrad−CAM ， 1 和 GuidedBackpropagationAGB注意力图。然后，从引导反向传播导出掩码P以屏蔽输入。掩模是根据空间注意力掩蔽由Wang等人定义[30]：13：A GB←引导反向传播（等式5）4：从AGB计算的掩码（等式6）6：通过f向前传播x掩码7：AGrad-CAM，2Grad-CAM从x掩码计算（等式3）第八章：LA ←皮尔逊（AGrad−CAM，1，AGrad−CAM，2）同时改进分类器的表示。我们表明，性能增益随训练集的大小而变化，我们显示了该方法对三种架构的好处：ResNet 50 [13]，Inception-v3 [27]和3D 18层ResNet[29]。该方法在我们为该项目策划的真实世界数据集上进行了评估：在医院患者的连续记录中的事件识别。在PASCAL-VOC数据集上执行健全性检查[10]。SVHN[18]的其他实验见附录第2节。我们比较了该方法的基线，包括层注意力一致性[31]和少量学习多标签分类[2]。我们还提出了三个消融研究。第一，注意力的一致性P（i）=1 +exp（−（AGB、（6）（i）−µ）/σ）梯度CAM和引导反向传播计算使用四种不同的分辨率匹配策略和三个其中，µ是AGB的平均值，σ是方差，i跨越AGB。随后，使用屏蔽输入P*第二次运行X.我们使用第二次前向传播的特征图第二次计算Grad-CAMAGrad-CAM，2第最后，我们通过向量化注意图和计算Pearson相关性来计算Grad-CAM注意图的两个LA （ θ ， x ） =Pearson （ AGrad−CAM ， 1 ，AGrad−CAM，2）. 关联两个Grad-CAM映射AGrad−CAM，1 和 AGrad−CAM ， 2 间接地将原始 Grad-CAM 映射AGrad−CAM，1关联到引导反向传播映射AGB，因为AGB的掩蔽迫使AGrad−CAM，2突出显示AGB本身已经突出显示的区域这种掩蔽方法的灵感来自于用于注意力图计算的扰动方法[20]，并且可以通用于计算与任何类型的注意力图的注意力图一致性。算法1总结了注意一致性损失函数的掩蔽4. 实验我们表明，我们的方法，迫使注意力一致性单独的后验，可以提高分类性能，不同的相关性。其次，我们比较了非监督微调，组合和交替优化。第三，我们比较了Grad-CAM和Gruded-backpropagation 之间的优化一致性和 Grad-CAM 和IntegratedPropagation之间的一致性。4.1. 数据集我们汇总并策划了一个儿童和新生儿癫痫中心病房住院患者的连续视频记录数据集，这些记录是在IRB监督和批准下收集的我们确定了显示五种类型事件的视频剪辑：护理人员对新生儿进行轻拍、吸口液、摇晃新生儿、咀嚼食物、护理人员对新生儿进行护理。选择这些事件是因为它们可能错误引导自动癫痫发作检测系统。剪辑后处理为4秒长，以每秒4帧采样因此，该任务被定义为一个五类视频剪辑分类问题。策划的数据集包括59名患者和2小时18分钟的视频记录，事件剪辑长度中位数为25秒。使用子采样将帧分辨率从320x240降低到80x80。视频剪辑被分成三组平衡的1884相似的大小，每组使用不同患者的数据。第一组每班有32个4秒的剪辑，第二组49个，最后一组35个。有关数据集的更多统计信息，请参见附录第3节。PASCAL VOC[10]用于健全性检查，并重新构建为20类多标签分类数据集。边界框地面实况注释不用于训练。它们仅在推理期间用于评估所生成的注意力图的弱监督检测能力。从训练集的5717个图像中采样的500个随机图像公开发布的5823张图像的验证集在训练过程中被排除在外，并使用单独的测试集来评估这些方法。4.2. 模型和培训对于医院视频的实验，我们使用3D 18层ResNet [29]在Kinetics-400 [15]上预训练。对于PASCAL上的实验，我们使用最先进的2D网络：ResNet 50 [13]和Inception-v3 [27]（仅适用于PAS-CAL），两者都在ImageNet [8]上进行了预训练。在ImageNet或Kinetics预训练的基础上，我们使用PASCAL或视频数据集进行训练，每个类使用N个样本，分类交叉熵损失函数和Adam优化器，学习率为0。001。然后，我们使用相同的训练样本与所提出的方法进行无监督微调。PASCAL的批大小为4，视频数据集的批大小为12我们选择最大化PASCAL平均精度的模型（因为它是多标签的）和在验证集上测试完全排除在最终评估的训练循环之外。通过数据扩充对模型进行正则化。对于视频数据集，数据增强包括亮度、对比度和饱和度高达0.8的随机颜色抖动，色调高达0.4，x和y方向图像大小的90%的随机裁剪对于PASCAL，数据增强包括高达10度的随机旋转，50%的水平或垂直翻转机会，以及由于架构限制，ResNet的256 x256或Inception-v3的299 x299。我们的代码可以在 GitHub 上在线获取，并基于PyTorch 1.9.0和Torchvision构建。0.10.0. 我们使用两台NVIDIA Titan RTX进行训练。4.3. 分类结果在视频数据集上，我们将所提出的方法ATCON与训练3D 18层ResNet进行了比较，而没有注意力一致性。我们还使用相同的训练样本与Simplified pretraining[6]进行了比较，然后进行了相同的标准训练，没有注意力一致性。所有训练过程使用相同的训练样本。我们将每个类的训练样本数量从16到32不等。表1显示了F1评分。所提出的注意力一致性方法提供了平均F1的提升。当Simplified用于预训练时，此提升会为了验证这些结果可以推广到其他数据集，我们在PASCAL上重复了这些实验我们将AT-CON与没有注意力一致性的训练ResNet 50进行了比较。我们还比较了在这个训练阶段不使用数据增强最后，我们比较了ATCON的层-张力一致性方法提出的王等。[31]第30段。根据作者的建议，我们使用ResNet中最后两个块的最后卷积层来计算注意力一致性。层注意力一致性作为微调步骤实现，这比使用分类交叉熵的同时训练显示出更好的结果。我们用不同数量的训练样本重复实验，每个类从2到135（最大可能）试验的F1评分和平均精密度见表2。PASCAL上的实验证实了精选视频数据集的发现，并表明微调可以提高训练数据不足时的分类ATCON优于层注意力一致性基线[31]，并且结合这两种方法并没有显示出比单独提出的注意力一致性方法更高的结果4.4. 学习表示我们认为所生成的注意力地图是表征正确性的一个衡量标准。如果注意力地图突出显示了图像中的目标对象，我们希望模型已经学习了正确的表示。我们在图1和图2中可视化了视频数据集和PASCAL的注意力地图。我们还绘制了相对于PASCAL原始注意一致性的注意一致性增益图（附录第1节）。没有边界框注释来量化视频数据集上的注意力地图定位的改进我们在PASCAL上进行分析。使用union的交集，我们计算地面实况边界框与在[0，1]中重新缩放并以0.5为阈值的Grad-CAM注意力图的重叠。我们只计算真阳性图像分类的重叠（真阳性图像的数量随着分类性能和每个类的训练样本数量而增加）。表3显示了ResNet，Inception-v3和层注意力一致性基线的不同数量的训练样本的重叠[31]。对于所有训练样本大小和两种网络架构，所提出的方法的重叠总是更高。我们还注意到，强制层注意力一致性[31]降低了模型的局部化能力。与所提出的方法相反，具有层注意力一致性[31]，perfor-1885表1. 视频数据集上的分类结果。我们比较了基线方法，基线微调与建议的注意力一致性（B + ATCON），Simplified预训练[6]（Simplified），Simplified预训练微调与建议的注意力一致性（S + ATCON）。前四行表示每个类使用16个样本训练的模型，最后四行表示每个类使用32个样本。我们将F1分数重新调整为[0，100]。平均F1是五个类的F1平均值。 F1吸，嚼，摇，照顾和拍显示类明智的F1。括号中表示自举置信区间最高性能以粗体表示方法F1平均值F1吸引F1咀嚼F1摇摆F1关怀F1拍基线15.5 [11.6-19.4]37.9 [25.0-49.3]0.0 [0.0-0.0]0.0 [0.0-0.0]30.7 [21.7-39.7]9.3 [0.0-20.0]B + ATCON17.4 [13.3-21.9]42.1 [31.2-52.2]8.2 [0.0-16.2]16.4 [4.8-29.0]20.2 [11.6-28.6]0.0 [0.0-0.0]SimCLR23.1 [18.8-27.7]47.1 [35.1-58.3]27.6 [16.3-38.9]17.1 [6.6-29.2]23.8 [14.7-33.3]0.0 [0.0-0.0]S + ATCON29.7 [25.2-34.3]50.4 [37.5-62.2]40.7 [29.4-51.4]43.2 [32.5-53.9]14.5 [5.5-24.3]0.0 [0.0-0.0]基线26.5 [21.6-31.7]30.1 [19.7-40.4]36.4 [24.7-46.9]9.3 [0.0-20.5]44.0 [33.0-54.5]13.0 [0.0-25.0]B + ATCON27.5 [22.7-32.8]33.6 [23.5-43.0]46.7 [35.9-57.1]5.4 [0.0-15.8]29.2 [16.7-41.0]23.2 [10.9-35.7]SimCLR29.3 [23.8-34.8]21.3 [10.5-32.0]43.9 [30.2-56.5]30.9 [18.2-43.5]42.0 [31.2-51.9]7.7 [0.0-16.7]S + ATCON31.4 [25.9-37.0]31.2 [17.2-43.3]35.4 [22.9-47.5]30.5 [17.5-42.9]48.0 [38.3-57.6]12.2 [3.6-23.3]表2.P A S C A L 的分类结果。我们比较了没有数据增强的ResNet的分类结果（ResNet no Aug）、具有数据增强的ResNet（ResNet）、具有数据增强的ResNet（ResNet）和层注意力一致性（ResNet + Layer Att）以及具有数据增强的ResNet和拟议的注意力一致性微调（ResNet + ATCON）。显示了使用每个类别不同数量的训练样本训练的模型的结果。星号表示显著差异。方法F1，每个类的mAP，每类训练样本24812161352481216135[13]第十三话23.943.157.459.964.776.951.46573.276.978.685.2ResNet[13]38.346.960.264.168.377.657.467.274.477.579.485.7ResNet + Layer属性[31]37.848.860.464.168.677.657.267.074.477.679.585.7ResNet + ATCON41.2*51.6*62.5*64.868.277.358.167.974.977.279.485.7阿康图1. 医院视频数据的注意力地图示例。Simplified和Simplified之间的比较加上建议的无监督注意一致性微调（ATCON）。第一列表示地面实况（GT）标签，即Simplified和建议方法预测的标签第二列显示16个输入帧之一我们用红色圈出了事件发生的区域中间的两列显示了Simplified的Grad-CAM和引导反向传播（GB），最后两列显示了所提出方法的相同每个类用16个样本训练模型。选择了显示方法之间存在实质性差异的实例在表2中观察到的较小数据集的管理增益可能是由于与更精确的注意力图相比，网络权重的引入的较小方差。PASCAL语言中注意力图的定性检验（图2）和视频数据集（图1）也揭示了注意力一致性可以改善注意力地图，使其聚焦于目标主体，同时仍然预测不正确的标签。这种改善并没有被考虑在内，1886阿康图2. PASCAL的注意力地图示例。基线ResNet与数据增强（基线）和相同方法加上拟议的无监督注意一致性微调（ATCON）之间的比较。第一列表示地面实况（GT）标签，即通过基线和建议的方法预测的标签。第二列显示输入帧。中间的两列显示了基线的Grad-CAM和引导反向传播（GB），最后两列显示了所提出方法的相同注意力图每个类用4个样本训练模型。选择方法之间有明显差异的实例进行展示。表3. 在PASCAL上重叠。Grad-CAM注意力图和地面实况边界框之间的交集。仅对真阳性分类计算重叠结果显示为带有数据增强的Inception（Inception）、带有数据增强和建议的注意力一致性微调的Inception（Inception + ATCON）、没有数据增强的ResNet（ResNet no Aug）、带有数据增强的ResNet （ ResNet ）、没有数据增强的 ResNet （ ResNet noAug）、带有数据增强和层注意力一致性的ResNet（ResNet +Layer Att）以及带有数据增强的ResNet。增强和建议的注意力一致性微调（ResNet + ATCON）。每一列对应于一个模型训练与不同数量的样本每一类。最高性能以粗体表示。星号表示显著的统计改善。方法每个类的2 4 8 12 16 135[27]第二十七话44.544.144.543.943.3Inc + ATCON44.644.244.944.643.3[13]第十三话42.846.647.747.648.145.2ResNet[13]44.650.048.549.047.944.9ResNet + Layer属性[31]43.247.847.147.346.943.6ResNet + ATCON46.4*50.2*49.549.348.445.1我们对重叠的定量测量（表3），因为仅使用真阳性。请注意，注意力一致性在Inception-v3上的改善小于ResNet（表3）。这可能表明Inception-v3直接学习更好的表示。《盗梦空间》的设计初衷是表4. 很少有机会学习。与PASCAL上的少次学习方法LaSO[2]的比较。验证集上的mAP每个类的2481216LaSO[2]60.368.973.2--阿康65.573.378.1--高效，减少参数数量。这可能解释了为什么网络似乎学习了更多可概括的表示[27]。4.5. 与SOTA few shot学习的比较我们还将我们的方法与LaSO[2]进行了比较，LaSO是一种少次学习的多标签分类方法。在PASCAL上进行实验，并在验证集上计算平均精密度（表4，详见附录第5节）。5. 消融研究5.1. 注意一致性损失函数为了证明我们选择的注意一致性损失函数，我们提出了一个消融研究，改变了它的两个主要组成部分：分辨率匹配技术和用于估计注意地图重叠的分辨率度量我们认为，注意一致性损失函数是好的，如果较低的一致性损失相当于较低的监督分类损失，在我们的到1887量化这种关系，我们测量在完全监督训练过程中无监督一致性损失和监督分类损失之间的相关性。在这个实验中，只使用完全监督分类损失来更新网络权重。无监督的一致性损失仅被监控。我们探索三个相关性度量：结构相似性指数测度（SSIM）、互相关和皮尔逊系数;以及四种分辨率匹配技术：所提出的使用引导反向传播来创建掩模的掩模技术、所提出的使用Grad-CAM来创建掩模的掩模技术、使用线性内插的Grad-CAM的平滑和上采样、以及使用最大池化的引导反向传播的下采样。表5显示了PAS-CAL消融研究的结果。分辨率匹配策略和相关性测度的最佳组合是Pearson和引导反向传播（Guided Back Propagation）作为掩模.其次是SSIM和引导反向传播作为掩码。使用Grad-CAM上采样或引导反向传播池进行分辨率匹配比引导反向传播掩蔽更差应避免使用Grad-CAM作为分辨率匹配的掩模。5.2. 培训战略我们还比较了三种不同的培训策略：- 将一致性损失优化为无监督的微调步骤（微调），与有监督的损失一起作为线性组合（组合），以及在训练期间在两个损失之间分批交替（交替）。实验是在PASCAL上进行的，使用ResNet 50，每类4个训练样本。组合方法得到49.3%IoU的注意力地图重叠和48.9%的F1交替一个49.5%的IoU和50.6%的F1。如前所述，微调方法获得了50.2%的IoU和51.6%的F15.3. 注意力地图在文章的其余部分，我们报告了使用Grad-CAM和Guided-backpropagation之间的注意力一致性的结果。所提出的方法使用Grad-CAM和集成Gra-CAM [26]达到了相似的性能，这是另一种值得注意的方法（表6）。6. 限制所提出的方法仅在小训练集的情况下是有益的，在较大训练集的情况下没有显著的改进：分类和检测性能均无差异（更多讨论见附录第6节）。对于那些原始注意力图不重叠的样本来说，提高注意力一致性是一个挑战。在-表5. 消融研究显示了不同注意一致性损失与目标监督损失之间的Pearson相关性。高相关性表明注意一致性损失能很好地估计目标监督损失。训练在PAS-CAL上用监督ResNet实现100个epochs，并在验证集上计算监督交叉熵损失。每类135个样本，我们的分类数据集中的最大值，用于该实验。行指示分辨率匹配技术，列指示分辨率测量。Pearson互相关 SSIMGrad-CAM上采样65.467.560.3GB合并65.564.168.8GB作为掩码82.626.780.6Grad-CAM作为掩模-51.9-67.2-75.8表6. 注意力地图的类型在PASCAL上使用集成梯度[26]（而不是使用引导反向传播的Grad-CAM）的Grad-CAM的分类（mF 1和mAP）和重叠结果。m是积分梯度步数。每个类的2481216MF1M = 540.047.560.164.468.5M = 1038.946.860.364.868.4地图M = 557.267.274.377.579.5M = 1057.467.174.577.679.3重叠M = 544.847.547.247.447.0M = 1044.047.647.147.546.8在注意力一致性的计算中引入随机过程可以允许注意力图重叠并且帮助网络收敛到目标解。我们将我们的训练策略称为无监督微调，但我们仍然使用验证集的标签来在不使用任何标签的情况下知道何时停止训练可能会产生实质性的实际影响，其中可以对网络进行微调，以实现在没有标签的部署数据集上的注意力一致性我们评估了层注意力一致性基线[31]在PASCAL中，即使与ATCON结合，也没有观察到分类性能或注意力地图质量的定量改善虽然我们可能在视频数据集中观察到类似的结果，但我们尚未进行分析。7. 结论我们提出了ATCON，一种优化注意力地图一致性的方法，并提出了一种实现Grad-CAM和引导反向传播的方法我们在自己的视频数据集和PASCAL上证明了该方法可以提高分类性能和注意力地图的质量。该方法有助于网络可解释性的研究和在小数据集上的应用.1888引用[1] 朱利叶斯·阿德巴约，贾斯汀·吉尔默，迈克尔·穆利，伊恩·古德费洛，莫里茨·哈特和比恩·金。显著性图的健全性检查。神经信息处理系统的进展，第9524-9535页，2018年[2] Amit Alfassy ，Leonid Karlinsky ，Amit Aides，JosephShtok，Sivan Harary，Rogerio Feris，Raja Giryes，andAlex M Bronstein.Laso：Label-set operations networks formulti-label few-shot learning。在CVPR中，第6548-6557页[3] 娜奥米·奥特曼和马丁·科日文斯基。维度的诅咒。NatMethods，15（6）：399[4] 陈宝萱刘云彭莉莉。如何为医疗保健开发机器学习模型自然材料，18（5）：410[5] ShuaiChen，GerdaBortsova，AntonioGarc'ıa-UcedaJua'rez，Gijs van Tulder，and Marleen de Bruijne.基于多任务注意力的半监督学习医学图像分割。医学影像计算和计算机辅助干预国际会议，第 457-465页。Springer，2019年。[6] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。[7] O¨zgu¨ nC¨ic¨ek ， AhmedAbdulkadir ， SoerenSLienkamp ，Thomas Brox，and Olaf Ronneberger.3d u-net：从稀疏注释学习密集体积分割。医学图像计算和计算机辅助干预国际会议，第424-432页。施普林格，2016年。[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[9] Florian Dubost ， Hieab Adams ， Pinar Yilmaz ， GerdaBortsova ， Gijs van Tulder ， M Arfan Ikram ， WiroNiessen，Meike W Vernooij，and Marleen de Bruijne.基于二维和三维回归神经网络的弱监督目标检测。医学图像分析，65：101767，2020。[10] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I. 威廉斯，J.Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：303[11] 郭浩，郑康，范小川，于宏凯，王松。图像变换下多标签图像分类的视觉注意一致性在IEEE/CVF计算机视觉和模式识别会议论文集，第729-739页[12] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] Longlong Jing，Toufiq Parag，Zhe Wu，Yingli Tian，and Hongcheng Wang. Videossl：半监督学习视频分类。在IEEE/CVF Winter计算机视觉应用会议论文集，第1110[15] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，etal. 人体运动视频数据集

下载后可阅读完整内容，剩余1页未读，立即下载