简单有效的剩余注意力多标签识别方法

169 浏览量更新于2023-10-13 收藏 762KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

184剩余注意力：一种简单有效的多标签识别方法Ke Zhu JianxinWu南京大学软件新技术国家重点实验室网址：zhuk@lamda.nju.edu.cn，wujx2001@nju.edu.cn摘要多标签图像识别是一个具有挑战性的计算机视觉任务的实际应用。然而，这一领域的进展往往以复杂的方法、繁重的计算和缺乏直观的解释为特点为了有效地捕获不同类别的对象所占据的不同空间区域，我们提出了一个简单得令人尴尬的模块，名为类特定的剩余注意力（CSRA）。CSRA通过提出一个简单的空间注意力分数来生成每个类别的特定于类别的特征，然后将其与类别不可知的平均池特征相结合。CSRA在多标签识别方面取得了最先进的结果此外，仅用4行代码，CSRA还可以在许多不同的预训练模型和数据集上实现一致的改进，而无需任何额外的训练。CSRA既易于实现，又易于计算，还具有直观的解释和可视化。1. 介绍卷积神经网络（CNN）在许多计算机视觉任务中占据主导地位，特别是在图像分类方面。然而，尽管已经提出了用于单标签分类的许多网络架构，例如，VGG [27]，ResNet [15]，EfficientNet [29]和VIT [7]，多标签识别的进展仍然不大。在多标签任务中，对象目前多标签识别的研究主要集中在三个方面：标签、对象提议和注意机制之间的语义关系。为了探索语义关系，贝叶斯网络 [14 ， 18] ，递归神经网络（RNN）[32，30]和图卷积网络*本研究得到国家自然科学基金项目61772256和61921006的部分资助。# x：特征张量，CNN主干的输出# x的大小：（B，d，H，W）# y_raw：通过将分类器（'FC '）应用于'x'# y_raw的大小：（B，C，HxW）# C：类y_raw= FC（x）。扁平化（2）y_avg=火炬。mean（y_raw，dim= 2）y_max= torch。max（y_raw，dim= 2）图1.使用PyTorch在测试阶段进行简单修改，其中Lambda（或λ）是一个超参数，它结合了全局平均值和最大池化得分。当Lambda（λ）为0时，score等于y_avg，即基线模型的得分。(GCN)[4，3]中的方法，但它们具有高计算成本或手动定义邻接矩阵的缺点。基于提议的方法[33，31，19]在处理对象提议上花费了太多时间虽然注意力模型是端到端的并且相对简单，但是对于多标签分类，它们诉诸于复杂的空间注意力模型[26，39，11]，其难以优化，实现或解释。相反，我们提出了一个令人尴尬的简单和易于训练类特定的剩余注意（CSRA）模块，充分利用空间注意力，每个对象类分别，并实现了优越的准确性。CSRA模块也具有可忽略的计算成本。我们的动力来自于菲格。1，其中只有4行代码始终导致跨许多不同的预训练模型和数据集的多标签识别的改进，即使没有任何额外的训练，如表1中所详述。唯一的变化是在通常的全局平均池化之上添加全局最大池化，但是改进是一致的。它的优点也验证了图像-geNet，单标签识别任务。在本文中，我们表明，这种操作，最大池- ing在不同的空间区域之间的每一类，实际上是一个类特定的注意力操作，这可以进一步被视为类不可知的全球平均池的残余成分因此，我们将其推广到提出一个简单的类特定的剩余注意力模块（CSRA），并已在四个多185表1.一个令人尴尬的简单，几乎零成本，和无训练改进的一组现有模型在3个多标签识别数据集和1个单标签识别数据集。数据集分辨率模型基线mAP/accc不同λmAP访问/mAP /acc差异固定λmAP访问/mAP /acc差异[25]第二十五话71.80.273.01.2↑0.273.01.2↑[29]第二十九话75.60.176.10.5↑0.276.10.5↑MS-CocoVIT-B16-224 [7]79.00.879.70.7↑0.279.30.3↑448×448VIT-L16-224 [7]80.40.480.60.2↑0.280.60.2↑ResNet-cut [15]82.40.0582.60.2↑0.0282.50.1↑GCN [4]83.00.283.20.2↑0.283.20.2↑VOC2007448×448[25]第二十五话ResNet-cut [15]GCN [4]89.693.994.00.20.050.290.394.094.10.7↑0.1↑0.1↑0.20.020.290.394.094.10.7↑0.1↑0.1↑宽224×224[25]第二十五话VIT-B16-224 [7]VIT-L16-224 [7]72.186.387.70.10.30.272.386.487.80.2↑0.1↑0.1↑0.20.20.272.286.487.80.1↑0.1↑0.1↑ResNet-50 [5]75.60.0375.70.1↑0.0275.70.1↑ImageNetResNet-101 [15]VIT-B16-224 [7]77.180.50.020.277.280.70.1↑0.2↑0.020.277.280.70.1↑0.2↑VIT-B16-384 [7]83.50.383.60.1↑0.283.60.1↑标签数据集，即VOC 2007 [9]，VOC 2012 [10]，MS-COCO [20]和WIDER-Attribute [19]。此外，建议CSRA有一个直观的解释，空间注意是如何融入其中。我们的贡献可概括为：• 一种非常简单但有效的方法，可以在不需要任何进一步训练的情况下改进预训练模型;• 一个简单有效的CSRA模块，在四个多标签识别数据集上取得了优异的结果• 对所提出的注意力模块的直观解释（加上可视化）。2. 相关工作我们首先简要回顾了多标签图像分类的最新进展。许多方法通过使用依赖网络[14]、成对共现邻接矩阵[3，4，34]或条件图[18]来关注对象或对象类之间的语义关系。然而，由于指数标签空间，图中的推断可能非常困难，并且通常通过吉布斯采样来近似。一阶邻接矩阵构造的成对统计最近引起了广泛关注[4，3，36]，主要归因于图卷积网络（GCN）[17]的流行但是，在一个小的训练集中的共现统计是不可靠的，并且很容易导致过拟合。此外，高阶关系超出了GCN所能代表的范围。递归神经网络（RNN）也已应用于各种研究[30，32，38]以探索高阶标签依赖性[38]。但是，RNN在多标签任务还有待证明。此外，训练RNN通常需要专门的超参数调整，使其不适合实际应用。生成对象建议[33，21，19，31]是另一种方法。对象提案是通过EdgeBoxes [2]或Selective Search [16]等方法生成的，然后发送到共享的CNN。最后，类别明智的最大池是用来融合的建议的分数。然而，建议的数量大，计算成本高。注意力机制被广泛应用于各种视觉任务中，例如检测[23]和跟踪[40，22]。在多标签识别中，一个代表性范例是SRN [39]，其使用空间正则化网络来校正原始预测。Sarafianos等人[26]提出了一个类似的管道来聚集视觉注意力，和Durand等人。[8]生成多个类别热图以汇集预测得分。这些注意力方法需要去解放设计过程，并且不能直观地解释。最近，你等。[36]使用跨域模型来提取类特定的特征，但他们放弃了类不可知的平均池。Gao和Zhou [11]提出了一种用于多标签图像分类的检测类流水线，但推理过程非常昂贵。还有其他复杂的基于注意力的方法，例如知识蒸馏[21]，视觉注意力一致性[13]和抑制负面类别激活图[28]。与现有的基于注意力的方法，要么放弃类不可知的平均池或设计一个复杂的和非直观的管道，本文提出了一个残余的注意力模块，它使用一个类不可知的平均池和类特定的空间池，以获得多标签图像分类的强大我们想强调的是，我们的CSRA与之前的有着显著的不同186（）下一JK （）下一页si=KJ我我1注意力模型SRN [39]。CSRA重用分类器我们还将CSRA推广到多头注意，这与SRN的整体结构完全不同。我们的CSRA是端到端可训练的，而SRN需要三个阶段的指定模型训练和微调过程。3. 特定类别的剩余注意为了呈现所提出的CSRA模块，我们从图1中的代码开始。1中的结果和表1中的结果。3.1. 为什么全局最大池化有帮助？表1列出了在四个不同数据集上的各种骨干网络的实验结果。由于之前关于多标签识别的研究中只有极少数发布了他们的代码或预训练的模型，我们还使用MobileeNet [25]，ResNet [15]，EfficientNet [29]和VIT[7]，以及GCN [4]方法来训练我们自己的模型以获得基线结果。在我们的简单修改中，以两种方式选择λ在第一个（“变化λ”）中，λ为每个实验调谐;而在第二个（“固定λ”）中，我们总是对ResNet系列中的模型使用0.02，对所有其他模型使用0.2。对于多标签任务，我们使用 mAP 作为评估指标，对于 ImageNet （单标签），我们使用mAP作为评估指标。在表1中，特别是当存在来自许多类的对象并且具有不同的大小时。3.2. 剩余注意力图的注意力解释。1启发我们将其一般化，并设计一个可训练的注意机制。对于给定的图像I，首先将其发送到特征提取器（CNN主干）以获得特征张量x∈Rd×h×w，其中d、h、w是特征张量的维数、高度、宽度：x=θ I;θ，（1）其中θ是CNN主干的参数。为了简单起见，我们采用ResNet-101 [15]和输入图像res-101 [15]。如无特殊说明，以224×224为例因此，特征张量x的形状为2048 × 7 × 7，可以解耦为x1， x2，. . .，x49（xi∈R2048）. 接下来，全连接（1×1卷积）层是类2048筛选器（图中的FC）1），其中m∈R是第i类的分类器例如49的常数可以改变为AC-相应地当使用不同的设置时。现在，我们定义类特定的注意力分数为第i个类和第j个位置exp（TxTm）、（二）k=1K我标签），使用准确度（j∑49j=1 Jexp（TxTm）ImageNet with CutMix [37];预训练的“ResNet-50/-101”从PyTorch官方网站下载。“cientNet”和“MobileNet”分别是EfficientNet-B3 [29]和MobileNet-V2 [25]。所有VIT [7]模型都在ImageNet-21k上进行了预训练，并在ImageNet上以224×224分辨率进行了微调，除了“VIT-B16-384”（384×384分辨率）。对于VIT [7]模型，我们放弃了其中Σ49si=1，T>0是温度控制乐谱我们可以将si视为类i出现在位置j的概率。然后，我们可以将类i的类特定特征向量定义为特征张量的加权组合，其中第i个类的注意力得分si1）具有固定的温度序列T1，T2，. . .、TH.除了H=1之外，我们还使用H=2、4、6、8。具体地说，• 当H=2时，T1=1且T2= ∞（即，max pooling）;显然，最后一项在 Eq 。 (9) 恰好对应于图中的Lambda* y_max图1 中的试验时间修正; 1 不仅是CSRA的动机，而且是CSRA的特例。比较Eq (9)等式(8)CSRA依赖于来自所有位置的剩余注意力特征，而直观地说，当在• 当H=4时，T1∶3=1，2，4，T4=∞;• 当H=6时，T1∶5=1，2，3，4，5，T6=∞;• 当H=8时，T1∶7=1，2，3，4，5，6，7，T8=∞.我我1 7一DWSI49ß空间合并+1 149...49X149Gℎ……K我不x kmi.TxlmiK189也就是说，当H>1时，最终的TH总是∞，并且其他T以递增的顺序选择。不同的T值可以为分支带来多样性，从而产生190CNNBpckboµQ木1我们的分类器对单位向量的权重（即，m←）.我T T TT2HDWℎ图像Iф（I;θ）1×1转换x1×1转换核张量1CℎW核张量Hy^T1y^Tiy^TH是图3.多头CSRA整体流水线首先将图像发送到CNN主干以获得特征张量x，该特征张量用于通过不同的1×1卷积（FC）生成多个分数张量（∈RC×h×w，C为类别数剩余的注意力在Eq中定义。式（8）应用于每个得分张量以产生不同的logitsy（Ti（i∈{1，2，. . . ，H}，y（Ti∈R），然后将它们融合到C得到最后的logitsyo。温度T在不同分支中是不同的，但是它们之间共享相同的λ更好的分类结果。简而言之，不需要在CSRA中调谐T。为了更好的收敛速度，我们选择了归一化Mi我我们将通过经验证明，这种归一化在准确性上没有区别，但它可以在训练过程中导致更快的Clogitsy，y ，的。 . . ，y（y将来自不同头的（∈R）相加，以得到最终的logits，y=0，Hyo=∑yTi.（十三）h=1其中Ti是第i个头的温度。最后，使用经典的二进制交叉熵（BCE）损失来计算我们的预测yo和地面实况标签之间的损失因此，建议的CSRA（单一或多头）结构简单，易于实现。4. 实验结果现在，我们验证CSRA的有效性，并分析其组成部分经验。我们首先描述了一般的实验设置，然后提出我们的实验结果和比较CSRA与以前的国家的最先进的模型。最后，我们实证分析了组件和超参数如何影响我们的模型的性能。我们用4个多标签数据集进行了实验：VOC2007 [9]，VOC2012 [10]，MS-COCO [20]”[19]《易经》云：4.1. 实验设置如前所述，我们通过使用SGD最小化二进制交叉熵损失，以端到端的方式构建多标签识别模型对于数据扩充，我们仅执行随机水平翻转和随机调整作物的大小，遵循以前的工作[4，3]。当我们训练基线模型（没有CSRA的BCE损失）时，我们对主干和分类器都使用为了训练我们的剩余注意力模型，我们分别为CSRA模块和分类器选择0.1的学习率，为CNN主干选择0.01的学习率。我们应用预热调度器来训练基线模型和CSRA模型。CNN主干从各种预训练模型初始化，并在多标签数据集上微调30个时期。动量为0.9，重量衰减为0.0001。WIDER属性数据集的批次大小和输入图像分辨率[19]分别为64和224×224。对于MS-COCO [20]、VOC 2007[9]和VOC 2012 [10]，批次大小和输入图像分辨率分别为16和448 ×448。广泛使用的平均精度（mAP）是我们的主要评估指标。我们将阳性阈值设置为0.5，并且还采用了总体精确度（ OP ）、总体召回率（ OR ）、总体 F1 度量（OF1 ）、每类别精确度（CP ）、每类别召回率（CR）和每类别F1度量（CF1），遵循先前的多标签图像分类研究[11，4，3，13]。4.2. 与最新技术水平的VOC2007VOC2007 [9]是一个广泛使用的多标签图像分类数据集。它有9，963张图像和20个类，其中训练集有5，011张图像，测试集有4，952张图像。我们使用train-val集合进行训练，用于评估的测试集。输入分辨率为448×448。将CSRA应用于两个主链：原始ResNet-101和ResNet-cut使用CutMix在ImageNet上预训练[37]。我们还报告了在MS-COCO [20]数据集上预训练的这些主链的mAP。为了简单起见，我们仅使用一个分支，即，H=1，T=1，λ=0。1.一、如表2所示，CSRA超过了以前的状态，艺术模特VOC 2012VOC 2012 [10]包含11，540张train-val图像CℎW+剩余注意力T1 = 1…剩余注意力TK = ∞……191表 2.现有技术模型的mAP （以% 计）与我们的CSRA在VOC2007 上的比较，其中 “ResNet-101” is pretrained anddownloaded from the PyTorch official website, “ResNet-cut” isResNet-101 pretrained on ResNet的基线结果101是从[11]。“额外数据”意味着在MS-COCO上预训练。+符号表示使用更大的输入图像分辨率。方法mAP（emAPxtradata）RCP [31]92.5-SSGRL+ [3]95.0GCN [4]94.0-美国手语[1]94.6 95.8ResNet-10192.9-ResNet切割93.9-ResNet-101 + CSRA94.7 96.0ResNet-cut + CSRA95.2 96.8表3. VOC2012数据集上mAP（%）的比较。+符号表示使用更大的输入图像分辨率。方法地图额外数据HCP [33]90.5-RCP [31]92.2-Fev+Lv [35]89.4-SSGRL+ [3]93.994.8ResNet-101 + CSRA94.195.2ResNet-cut + CSRA94.696.1和10，991个测试图像。我们在train-val集上训练我们的模型，并在官方评估服务器上评估其性能设置与VOC2007相同：H=1，T=1，λ=0。1和448×448分辨率。如表3所示，当仅使用ResNet-101 ImageNet预训练模型，我们的CSRA已经超过了以前的方法。当在额外数据上进行预训练时（MS-COCO），CSRA的性能可以进一步提高，从而实现新的最先进的性能。MS-COCOMicrosoft COCO [20] 广泛用于分割、分类、检测和字幕。我们在实验中使用COCO-2014，它有82，081个训练和40，137个验证图像和80个对象类。我们在训练集上使用三个预训练的CNN 骨干（ResNet-101，ResNet-cut和VIT-L16）训练我们的模型，并在val集上对其进行评估。在[3，13]之后，我们报告了精确度，召回率和F1测量，有和没有Top- 3得分。注意，MS-COCO上的对象的形状和大小的变化具体地，当运行ResNet-101和ResNet-cut模型时，我们采用六个注意力头（H=6），并且选择λ= 0。5且λ=0。4，分别。对于VIT-L16骨架[7]，我们采用八个头（H=8，λ= 1。0）。结果在表4中示出，其中上部框列出了使用ResNet系列模型作为主干的方法的结果，并且下部框是针对其他主干的。可以看出，当我们的CSRA模块添加到ResNet-101模型中时，有显著的增益，将mAP从79.4%提高到83.5%，总共提高了4.1%。ResNet-cut（使用CutMix预训练）加上CSRA已经实现了85.6%的mAP，大大超过了之前最先进的模型。值得一提的是，以前的方法，如 MCAR [11]和KSSNet [21]，使用了复杂且耗时的管道。相比之下，我们的剩余注意力模型不仅有效，而且令人惊讶的简单。当运行非ResNet系列模型时，我们选择在ImageNet上以224×224输入预训练的VIT-L16，并在MS-COCO上以448×448分辨率对其进行微调（我们按照[7]中的建议内插位置嵌入）。在与使用TResNet [24]的ASL [1]相比，我们的剩余注意力模型VIT-L16 + CSRA通过将mAP从80.4%提高到86.5%，实现了最先进的性能，显著提高了6.1%。请注意，ASL [1]使用了多种复杂的数据增强方法，例如Cutout [6] ， GPU Augmentations [1] 或 Ran- dAugment[5]，而我们只使用了经典的简单数据增强（水平翻转和随机调整大小裁剪）。当我们使用RandAugment [5]作为我们的数据增强技术时，我们的CSRA进一步提高到86.9% mAP（de-在表4中标记为VIT-L16 + CSRA*）当我们比较更具体的指标（如CP、CR和CF1），所提出的CSRA方法也具有明显的优势。WIDER-Attribute[19]是一个行人数据集，包含每个人的14个类别（人类属性）。训练集和验证集有28，345人，测试集有29，179人。在常规设置之后，我们使用train-val集进行训练，并在测试集上评估性能。由于该数据集具有未指定的标签，我们在训练阶段将其设置为负，并在测试阶段忽略这些未指定的标签，遵循[39]中的先前设置我们采用VIT [7]作为我们的骨干，并评估其在此Pedes上的性能trian数据集与或没有建议的CSRA模块。为了简单起见，我们只使用一个注意力头部（H = 1），并选择λ=0。3，在我们的CSRA模型中T=1。输入图像分辨率为224 ×224。对于运行VIT-B16和VIT-L16，我们放弃类标记，并使用最终的补丁嵌入作为特征ten- sor。如表5中所示，主链的改善很大，在结合MS-COCO的实验结果，我们得到了192k = 1KK表4.MS-COCO上mAP（%）和多个其他指标的比较上面的块对应于基于ResNet-101的模型，下面的块对应于其他非ResNet模型。符号 * 表示使用RandAugment [5]，它在ASL [1]中使用每个区块中的最高分数以粗体显示。所有前3方法地图CPCRCF1OP或OF1CPCRCF1OP或OF1ResNet-10179.483.466.674.086.871.178.286.259.770.690.563.774.8ResNet切割82.186.268.776.488.973.180.388.761.372.592.165.276.3ML-GCN83.085.172.078.085.875.480.389.264.174.690.566.576.7MS-CMA [36]83.882.974.478.484.477.981.088.265.074.990.267.477.1KSSNet [21]83.784.673.277.287.876.281.5------MCAR [11]83.885.072.178.088.073.980.388.165.575.191.066.376.7ResNet-101 + CSRA83.584.172.577.985.675.780.388.564.274.490.466.476.5ResNet-cut + CSRA85.686.274.980.186.678.082.190.165.776.091.467.977.9美国手语[1]86.587.276.481.488.279.281.891.863.475.192.966.477.4VIT-L1680.483.867.074.586.672.078.686.860.070.190.364.775.4VIT-L16 + CSRA86.588.274.480.888.577.482.691.965.876.792.668.278.5VIT-L16 + CSRA*86.989.174.281.089.677.182.992.565.876.993.468.178.8表5.最新模型的mAP（以%计）与我们的CSRA在WIDER-属性数据集上的比较。方法地图CF1OF1DHC [19]81.3--VA [12]82.9--SRN [39]86.275.981.3VAA [26]86.4--真空[13]87.577.682.4维生素B1686.375.981.5VIT-L1687.778.182.8维生素B16 +CSRA89.079.484.3VIT-L16 + CSRA90.181.085.2结果表明，所提出的CSRA模块不仅适用于经典的ResNet骨干，而且适用于新兴的非卷积深度网络，如视觉变换器。4.3. CSRA中各组分的作用最后，我们研究了建议CSRA模块中的各个组件的效果。类不可知与类特定的为了进一步验证类无关的平均池化是否对最终性能有很大影响，我们进行了受控实验，仅修改计算第i个类的总体特征的过程。当我们只应用平均池时，总体特征fi=g，这与基线方法相同。当我们仅应用空间池化时，整体特征fi=ai= Σ49six。当两者结合时，fi=g+λai，这是所提出的CSRA。表6.在MS-COCO数据集上应用平均池化与空间池化的效果。骨干方法平均空间地图ResNet切割H=1，T=11√√82.12√√84.2385.3(a) （b）注意力图像图4.来自MS-COCO 2014的一个样本图像（在左边）和“人”类的注意力分数重叠在它上面（在右边）。将分数图调整为与输入图像相同的大小。特别注意对于多标记识别是重要的。直观地说，我们认为，建议CSRA是在parttic- ular有很多小对象时的价值。我们求助于注意力分数的可视化来验证这种直觉，如图所示。4.第一章可视化显示，即使存在多个-三个人（包括一个人只占用一个小表6示出了具有一个atten的ResNet-cut的结果。像素的数量）、CSRA的注意力分数（等式中的si）二、离子头（λ=0. 4）在MS-COCO数据集上。我们班-具体注意力（空间汇集）比与Ji对应于类不可知的平均池。通过结合两者，CSRA明显优于两者。注意力可视化表6证实了类-所有位置）有效地捕获人在哪里。通常，分数图通常准确地定位来自不同类别的对象。本文的补充材料中显示了更多的可视化。19386.886.48685.685.284.895.395.295.19594.994.894.70.2 0.4 0.6 0.8 1 1.2 1.4λ（Z）(a) MS-COCO上的VIT-L16（H=8）0.020.05 0.1 0.15 0.2 0.25λ（Z）(b) VOC 2007上的ResNet-cut（H=1表7.在MS-COCO数据集上测试CSRA中注意头的数量的影响。H=1H=2H=4H=6H=8VIT-L1685.886.186.486.486.5ResNet切割85.385.485.585.685.5表8.分类器的归一化对具有ResNet-101 CNN 主干的MS-COCO数据集这些数字是不同设置下的mAP。正常化H=2H=4ResNet-101与83.283.3没有83.183.4同样值得注意的是，由于我们的CSRA注意力模块的简单性，即使H=8也在MS-COCO上，在培训中阶段，基线方法（没有CSRA）花费3705.6秒，而具有8个头的CSRA花费3735.7秒，仅具有0.8%的开销。MS-COCO上的总测试时间从142.3秒增加到153.8秒，并且当考虑到mAP的显著改善时，该增加（8%）是可接受的为了测试分类器m ，i的归一化的效果（第二节）。3.4），我们采用ResNet-101作为我们的后台-图5.λ对使用VIL-L16作为骨架的MS-COCO数据集和使用ResNet-cut的V0 C2007的影响我们分别为它们设置分类器numH=8和H=1由于我们已经固定了温度值的序列，CSRA中唯一的超参数是λ。我们以VIT-L16和ResNet-cut作为主干网络，在MS-COCO和VOC 2007数据集上评估了不同λ如图所示5，VIL-L16的性能稳定地增加到其在λ = 1附近的峰值。0，而ResNet-cut在λ = 0处达到其最高分数。1.一、图5表明CSRA对λ相对稳健，因为所有这些λ值产生的mAP远高于基线方法。然而，不同的主链可能需要不同的λ。当λ变得太大时，平均池化分量的效果变得下降，并且空间池化将主导我们的模型。如表6所示，单独的空间合并劣于CSRA（其组合平均值和空间合并）。因此，过大的λ是可能的。会导致CSRA的性能下降。注意力头的数量然后我们测试注意力头的数量如何影响模型同样，我们使用VIT-L16和ResNet-cut作为我们的骨干，并评估不同的头数，H。如表7所示，当H增加到大的数字（6或8）时，mAP稳定地增加，证明了CSRA的多头注意力版本的有效性。骨，并评估MS-COCO上的性能，因为该数据集被假定为最具代表性的多标记图像分类数据集。表8显示了归一化的影响。由于所有mAP结果彼此接近，因此标准化的影响在mAP方面是有限的（H=2和H=4的差异均为0.1）。我们使用这个归一化步骤不是为了更高的精度，而是为了提高收敛速度在训练期间。5. 结论和未来工作在本文中，我们提出了CSRA，一个简单而有效的多标签图像分类流水线。CSRA的灵感来自于我们在测试阶段的简单修改，其中4行代码在没有训练的情况下为各种现有模型带来了一致的改进。我们将这种修改推广到捕获每个对象类的单独特征，从而产生了所提出的类特定的剩余注意力模块。CSRA的多头注意力版本不仅提高了识别精度，而且还消除了对超参数的依赖CSRA在4个基准数据集上优于现有方法，尽管更简单，更易于解释。在未来，我们将把我们的方法推广到更一般的图像表示学习，并进一步验证我们的剩余注意力是否在其他计算机视觉任务中有用，例如对象检测。VOC2OO7上的mAPMS-COCO上的mAP194引用[1] Emanuel Ben-Baruch，Tal Ridnik，Nadav Zamir，AsafNoy，Itamar Friedman，Matan Protter，and Lihi Zelnik-Manor.多标签分类的非对称损失arXiv预印本arXiv：2009.14119，2020。[2] C. 劳伦斯·齐特尼克和彼得·多尔·拉尔。边Box es：从边定位在 Proceedings of Euro- pean Conference onComputer Vision ， volume 8693 ofLec- ture Notes inComputer Science，pages 391-405中。Springer，2014.[3] 陈天水，徐慕新，惠晓璐，吴贺峰，林亮。多标签图像识别的学习语义特定图表示。在IEEE/CVF计算机视觉国际会议论文集，第522-531页[4] Zhao-Min Chen ， Xi-Shen Wei ， Peng Wang ， andYanwen Guo.用图卷积网络进行多标记图像识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第5177-5186页[5] Ekin D Cubuk，Barret Zoph，Jonathon Shlens，and QuocV Le.随机扩增：实用的自动数据扩充，减少搜索空间。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第702-703页[6] 作者声明：Dr.Taylor.改进的卷积神经网络的正则化。arXiv预印本arXiv：1708.04552，2017。[7] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器在2021年学习代表国际会议论文集[8] Thibaut Durand，Taylor Mordan，Nicolas Thome，andMatthieu Cord. WILDCAT：用于图像分类、逐点定位和分割的深度卷积神经网络的弱监督学习。在Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition，第642-651页[9] 放大图片作者： Mark Everingham ， Luc Van Gool，Christopher K. I. Williams ， John Winn ， and AndrewZisserman. PAS-CAL 视觉对象类（ VOC ）挑战.International Journal

下载后可阅读完整内容，剩余1页未读，立即下载