图像变换下的多标签图像的视觉注意一致性

114 浏览量更新于2023-10-18 收藏 16.45MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

17290图像变换下的多标签图像分类的视觉注意一致性0郭浩 ‡，郑康 ‡，范晓川 ‡，于宏凯 �，王松 †，‡，�0† 天津大学，‡ 南卡罗来纳大学，� 德克萨斯大学 - 里约格兰德谷0{ hguo，zheng37 } @emai1.sc.edu，efan3000@gmail.com，hongkai.yu@utrgv.edu，songwang@cec.sc.edu0摘要0在某些空间变换下，人类视觉感知在许多多标签图像分类任务中表现出良好的一致性，例如缩放、旋转、翻转和平移。这激发了广泛使用的CNN分类器训练的数据增强策略-通过假设变换后的图像与原始图像具有相同的类别标签，将变换后的图像包含在训练中。在本文中，我们进一步提出了在这些变换下的分类的视觉注意区域的感知一致性假设，即如果输入图像在空间上发生变换，则分类的注意区域也会发生相同的变换。虽然CNN分类器的注意区域可以在网络的中间层中作为注意力热图导出，但我们发现它们在许多变换下的一致性并未保留。为了解决这个问题，我们提出了一个两分支网络，其中一个原始图像和其变换后的图像作为输入，并引入了一个新的注意力一致性损失，用于衡量两个分支之间的注意力热图的一致性。然后，将这个新的损失与多标签图像分类损失结合起来进行网络训练。在三个数据集上的实验证实了所提出网络的卓越的分类性能。01. 引言0作为一项重要的计算机视觉任务，多标签图像分类[51,60]旨在判断一张图像是否包含某些属性、对象等，每个属性由一个标签表示。多标签图像分类的典型应用包括人类属性识别[1, 10, 18, 31, 34,61]，场景理解[45]，多目标识别[6]，面部属性识别[19]等。尽管深度神经网络的最新进展显著提高了多标签图像分类的性能，但由于外观复杂性、标签内变异性和图像质量不佳等问题，它仍然是一个非常具有挑战性的问题。0� 通讯作者。0原始0翻转0翻转原始0提出的现有的0（a）（b）0图1.使用现有的CNN（中间行）和提出的方法（底部行）对原始和水平翻转的图像进行分类标签“口罩”（a）和“牛仔裤”（b）的注意力热图的示意图。0性变换下的视觉注意的新感知一致性，即上述空间变换下的中级表示。例如，这些变换通常不会改变人类对图像中“太阳镜”的认知。这种一致性激发了数据增强策略[26]的使用，该策略在训练CNN分类器时被广泛使用-对于每个具有真实标签的原始图像，我们可以通过分配相同的真实标签来将图像转换为构建新的训练图像。数据增强减少了在空间变换下具有感知一致性的分类任务的CNN模型训练中的过拟合问题。数据增强中假设的感知一致性是一个高级表示，处于最终分类阶段。实际上，图像分类通常只与人类视觉（根据对人类认知[39,27]和神经科学[11]的研究）和CNN模型[66]的某些注意区域有关。在本文中，我们进一步假设在上述空间变换下的视觉注意的新感知一致性，即中级表示。7300在多标签图像分类中引入图像变换并将其融入CNN以增强分类器训练。在这里，我们将视觉注意一致性定义为：如果图像在空间上发生变换，则图像分类的注意区域也会遵循相同的变换。如图1的顶部行所示，当图像水平翻转时，人类的注意区域也会水平翻转，以便继续关注面部和腿部区域，以判断“面罩”和“牛仔裤”标签的存在。所提出的视觉注意一致性可以被视为“等变性”的一种视觉属性[28]。与其他等变性研究[29, 7, 50, 49, 38, 43, 57, 56,13]不同，本文在特定的CNN注意层级上强制等变性。之前的CNN分类器研究表明，注意区域可以在网络的中间层中作为注意热图导出，仅使用图像级监督[66,41]，并可用于重新加权提取的图像特征以增强基于CNN的图像分类[47, 24, 52, 58,22]。然而，我们发现当前的CNN分类器在许多上述空间变换下并不保持注意一致性，即使训练图像通过这些变换进行了增强。如图1的中间行所示，使用ResNet50进行水平翻转变换后，注意区域（红色）在水平翻转变换下是不一致的。此外，CNN的注意区域可能还涵盖与“面罩”和“牛仔裤”标签无关的区域。因此，我们期望通过考虑图像变换下的视觉注意一致性来实现更好的视觉感知合理性和更好的多标签图像分类。为此，我们提出了一个新的网络，其中包含两个相同的分支，将原始图像和变换后的图像作为两个输入。每个分支的输出是输入图像的标签预测。在每个分支的中间，我们使用类别激活映射（CAM）[66]来计算对应输入图像上每个标签的注意热图。然后，我们定义了一个新的注意一致性损失，作为原始图像的变换后注意热图与变换后图像的注意热图之间的距离。然后，将该损失与多标签图像分类损失结合起来进行网络训练，以改善图像变换下的视觉注意一致性。如图1的底部行所示，所提出网络对于“面罩”和“牛仔裤”标签的注意区域在图像翻转下变得更加一致。同时，这些注意区域更加与标签相关，关注“面罩”的面部区域和“牛仔裤”的腿部区域。我们在三个数据集上对不同的多标签图像分类任务评估了所提出的方法：WIDER Attribute[34]，MS-COCO [35]和PA-100K[36]。实验证明我们的方法在这些数据集上取得了最先进的性能。我们还进行了实验验证，以验证通过引入所提出的新的注意一致性可以获得显著的性能提升。0研究以验证通过引入所提出的新的注意一致性可以获得显著的性能提升。02. 相关工作02.1. 多标签图像分类0正如[51,60]中所述，多标签分类问题已经得到广泛探索，无论是标签分离还是标签相关方法都取得了进展。标签分离方法使用二进制相关策略[2]将多标签图像分类转化为多个二进制图像分类问题。随着使用CNNs[26, 46, 20,23]在单标签图像分类[9]中取得巨大成功，多标签图像分类得到了显著改进。此外，深度卷积排序[17]在卷积架构上优化了top-k排序损失以学习更好的特征表示。Hypotheses-CNN-Pooling[55]使用最大池化聚合对象分割假设以生成多标签预测。近年来，在标签相关的多标签图像分类方面取得了很大进展。许多方法，如矩阵补全[3]，概率标签增强[33]，RGNN[65]，SINN[21]，条件图形Lasso[32]和CNN-RNN[53]被提出来模拟多标签图像分类中标签之间的语义相关性。此外，空间正则化网络[67]捕捉标签之间的语义和空间相关性。标签平衡[19]也用于改善多标签图像分类。在本文中，我们提出了在特定图像变换下强制注意区域的一致性，以改善多标签图像分类，这为提高CNN的分类性能提供了一种新的视角。02.2. 用于分类的注意力机制0卷积神经网络的注意力已经被用于各种计算机视觉任务中[63, 58, 24, 47, 52, 22, 40, 5, 4, 54, 12, 62, 25, 44,14]。对于图像分类任务，卷积神经网络的注意力反映了卷积神经网络用作分类证据的图像区域[41, 66,59]。对于多标签图像分类任务，SRN [67]学习注意力热图来指定标签之间的空间关系。但是，SRN没有考虑注意力区域与每个标签的相关性。为了解决这个问题，一个直观的想法是学习准确的注意力区域，类似于语义分割[37]和显著性检测[64]，但这需要不可行的像素级注释。减少注释工作量的一个潜在解决方案是眼动追踪[42]，但由于标签相关区域定义不明确，它在不同观察者之间有一定的噪声和不一致性。注意力热图也可以通过驱使其集中在单个紧凑区域来进行改进[18]，但这对于图像中具有多个相关区域的标签是不适用的。在本文中，我们提出了一种间接的方法，通过在某些图像变换下强制注意力区域的一致性，来使卷积神经网络的注意力更加关注与标签相关的区域。C�k=1W (j, k)F k(m, n),(1)ℓc = − 1N−xij+(1 − yij) loge−xij1 + e−xij7310而不是许多碎片化的区域，然而这对于图像中具有多个相关区域的标签是不适用的。在本文中，我们提出了一种间接的方法，通过在某些图像变换下强制注意力区域的一致性，来使卷积神经网络的注意力更加关注与标签相关的区域。03. 提出的方法0在本节中，我们首先描述了所提出网络的背景，然后详细介绍了所提出的双分支网络。我们构建了一组在视觉注意力保持一致的空间变换，并将它们嵌入到所提出的网络中。03.1. 背景03.1.1 类激活映射0由于其简单性和能够可视化注意力区域用于分类，我们应用类激活映射（CAM）[66]来提取注意力热图。典型的卷积神经网络架构，如ResNet [20]、DenseNet [23]和Inception[48]，都以卷积层开始。然后，在最后一个卷积层的特征图F ∈ R C × H × W 上执行全局平均池化（GAP），其中C、H、W分别是特征图的通道数、高度和宽度。池化后的特征进一步输入到最终的输出层，即具有权重 W ∈ R L × C（L是标签数）的全连接（FC）层，用于分类。CAM通过对所有通道进行线性加权求和来计算注意力热图：0M j(m, n) =0其中 M j(m, n) 表示标签 j 在特征图的第 k个通道上的空间位置 (m, n) 的注意力热图，W(j, k)表示特征图的第 k 个通道上与标签 j 相对应的权重，F k(m,n) 表示来自最后一个卷积层的第 k个通道的特征图在空间位置 (m, n)处的特征图。在接下来的内容中，我们使用 M = g(I)来表示图像 I 的注意力热图。需要注意的是，公式 (1)中的注意力热图的大小为 H ×W，小于输入图像的大小。为了在图像上可视化注意力区域，我们使用双线性插值将注意力热图上采样到输入图像的大小。03.1.2 多标签图像分类损失0在以前的工作中，针对多标签图像分类使用了多种不同的损失函数，例如排名损失[8]、交叉熵损失[34, 18, 30, 36,31]等。需要注意的是，当使用交叉熵时，多标签分类被构建为多个二进制分类问题。0损失。为了简单和有效，本文采用了[30]中的加权sigmoid交叉熵损失：0N0i = 10j = 1 ω ij0− y ij log(10∑ (2)0ω ij =0∑ e^(1 − p j) if y ij = 1 e^(p j) if y ij= 0 , (3)0其中 N 是图像数量，L 是标签数量，x ij ∈ R 是图像 i中标签 j 的预测存在程度，进一步归一化为存在得分 1 / (1+ e^(-x ij)) ∈ [0, 1]，y ij ∈ {0, 1} 是图像 i 中标签 j的真实存在情况，p j 是训练集中具有标签 j的正样本比例，用于定义平衡训练样本的权重 ωij。这个损失函数是从交叉熵损失函数修改而来，在多标签图像分类的几个先前工作中使用过，例如RAP[31]和HP-Net[36]。在后续实验中，为了公平比较，我们对基线方法和提出的方法都使用这个损失函数，排除由于使用不同损失函数而导致的性能差异。03.2. 提出的网络0一般来说，注意力热图的合理性可以反映CNN分类器的性能-如果注意力热图突出显示与所考虑标签语义相关的区域，我们可以期望更好的CNN分类性能。图2中展示了两个例子。随着训练迭代次数的增加，当注意力热图突出显示正样本（负样本）的所需相关区域时，预测存在得分增加（减少）。这表明“好”的注意力区域通常会产生“好”的分类结果。改进注意力热图合理性的一种直接方法是在CNN训练中对标签相关区域进行明确监督。然而，准确地注释大量训练图像上的标签相关区域是非常费时的。此外，标签相关区域可能没有明确定义：不同的注释者可能对某些标签的相关区域没有一致意见，例如图像中的“年龄在18到60之间”。在本文中，我们提出了一种间接改进CNN关注标签相关区域能力的方法，即通过强制CNN注意力在某些图像变换下保持一致性。接下来，我们首先介绍用于视觉注意力一致性的提出的网络，并在第3.3节中详细讨论所考虑的图像变换。......CNNGAPGAPCAMCAMIT(I)g(T(I))T(g(I))g(I)+73200.004 0.016 0.085 0.204 0.223 正样本：10负样本：00训练迭代次数增加训练迭代次数增加0图2.在CNN（ResNet50）模型训练的不同迭代中，“太阳镜”标签的注意力热图，其中人脸是所需的与标签相关的区域。每个注意力热图上方的数字表示对应迭代中的预测存在得分（在[0,1]范围内）。0多标签图像分类0分类损失0共享权重共享全连接层0注意力一致性损失0图3. 提出的两分支网络的示意图。0如图3所示，提出的网络由两个相同的分支组成。每个分支从卷积层开始，以GAP-FC（全局平均池化后的全连接层）结构结束（例如ResNet，DenseNet）。两个分支的参数是共享的。两个分支分别以图像I和变换后的图像I' =T(I)作为输入。两个分支的最后一个卷积层的特征图分别为F和F' ∈R^C×H×W。通过全局平均池化后的特征图的相应空间平均值用于多标签图像分类，通过最终的全连接层（FC）和权重W ∈R^L×C实现。同时，通过CAM提取每个输入和每个标签的注意力热图。具体来说，通过将特征图F和F'扩展为形状为1×C×H×W的形式，将FC权重W扩展为形状为L×C×1×1的形式，对每个标签的特征图进行逐通道乘法线性组合，并沿着组合特征图的C维度求和，如公式（1）所示。得到的注意力热图M = g(I)和M' =g(T(I))，其中g(∙)表示使用CAM计算注意力热图的过程，都具有形状为L×H×W。根据我们对注意力一致性的定义，原始图像和变换后的图像的注意力热图g(I)和g(T(I))需要在特定的图像变换下保持等变性[28]，可以表示为：0T(g(I)) = g(T(I))，(4)0因此，为了强制实施注意力一致性，我们使用均方差差异定义了一个注意力一致性损失。0变换后的热图ˆM = T(M) =T(g(I))与变换后的图像热图M'之间的差异，即0ℓa = 10NLHW0N �0i=10j=1 ∥ˆMij - M'ij∥2，(5)0其中Mij表示图像i和标签j的注意力热图。我们将多标签图像分类损失在公式(2)中与注意力一致性损失在公式(5)中进行线性组合，以训练网络：0ℓ = ℓc + λℓa，(6)0其中λ是平衡两个损失的超参数。在测试时，我们只使用一个分支进行多标签图像分类，因为网络参数被每个分支共享。最后一个全连接层的输出表示每个标签存在的置信度值。使用sigmoid函数将这些值归一化为每个标签的存在得分，范围为[0,1]。如果存在得分大于0.5，则预测该标签存在。03.3. 图像变换0在提出的视觉注意力一致性中，可以考虑不同的空间变换，只要它们不改变图像的人类视觉感知，即类别标签的存在。我们将这样的图像变换集合表示为U，并且可以将该集合中的任何变换嵌入到提出的双分支网络中，以增强多标签图像分类。具体而言，我们关注一些常用变换的子集。̸̸7330{平移、旋转、翻转、缩放} �U，在本文中用来证明提出的网络的有效性。当输入图像经历平移、旋转、翻转和/或缩放变换时，许多类别标签的人类视觉感知保持不变是相当直观的。当然，在某些极端情况下，例如将输入图像缩小到非常小的尺寸，图像的视觉感知可能完全改变。在本文中，我们选择适当的参数来避免这些极端情况。0与数据增强的区别：我们可以注意到，U中的上述变换子集也可以用于训练CNN分类器的数据增强。然而，数据增强考虑的是这些变换下的分类一致性，这是对网络的最终输出，即高级表示，施加的，而提出的方法在网络的中间结果，即中级表示，上强制实施了相同变换下的注意力一致性。一般来说，对高级表示进行分类一致性的强制要比对中级表示进行注意力一致性的强制对网络参数的影响较小。我们将在后续的实验中展示，相比于数据增强，提出的方法可以训练出具有更好分类性能的网络。0在某些变换下的注意力一致性：任何变换T∈U都可以嵌入到提出的网络中。以水平翻转变换为例。通过T：I→I'，我们有I'(m,n)=I(WI-m,n)，其中(m,n)表示图像中的空间位置，WI表示原始图像的宽度。分别计算注意力热图M=g(I)和M'=g(I')=g(T(I))，然后将相同的变换T应用于M，使得ˆM(m,n)=M(WM-m,n)，其中(m,n)表示注意力热图中的空间位置，WM表示注意力热图的宽度。然后使用公式(5)计算注意力一致性损失。在提出的网络中考虑图像平移、旋转或缩放时，可以应用类似的步骤。此外，由于由CAM（公式(1)）计算的注意力热图是从输入图像大小缩小的，例如从224×224缩小到7×7和从192×192缩小到6×6，因此在提出的网络中嵌入缩放的时候有一个技巧。假设注意力热图M和M'的维度分别为L×H M×WM和L×H M'×WM'，其中H M≠HM'且WM≠WM'。由于H M和WM可能不能被HM'和WM'整除，直接将H M×WM重新缩放为HM'×WM'可能不合适。为了量化不一致性，我们将两个注意力热图都放大到相同的尺寸，基于最小公倍数。0宽度和高度维度，例如，将其缩放到高度42，对于HM=7和HM'=6。0在组合变换下的注意力一致性：我们还可以将多个变换嵌入到U中，以应用于所提出的网络。例如，考虑两个变换T1，T2∈U，可以通过公式（5）简单计算出注意力一致性损失0ℓa = ℓa，T1 + ℓa，T2（7）04. 实验0我们采用ResNet[20]作为我们的基础架构来实现所提出的网络，因为它在与图像相关的识别任务中具有出色的性能。所提出的网络是从在ImageNet[9]上预训练的模型中微调而来，使用随机梯度下降进行优化，初始学习率为10-3。我们在三个数据集上进行多标签图像分类的评估：WIDER Attribute [34]，PA-100K[36]和MS-COCO [35]。WIDERAttribute是用于人类属性识别的数据集。它包含13,789张图像，57,524个标注的人类边界框。每个边界框中的人类都带有14个人类属性的注释。训练验证集包括28,345个人类边界框，而测试集包括29,179个人类边界框。PA-100K是一个大规模的行人属性数据集。它包含100,000张行人图像，每张图像都带有26个人类属性的注释。训练、验证和测试集的比例为8:1:1。MS-COCO最初是为场景理解中的目标识别任务而收集的。它也经常用于多标签图像分类任务。训练集中包含82,783张图像，验证集中包含40,504张图像。每个图像都带有80个对象标签的注释。由于测试集的真实标签不可用，我们在训练集上训练网络，并在验证集上进行评估。[60]中引入了两组多标签图像分类评估指标。1）基于标签的指标包括平均精确度（mAP），平均准确率（mA），宏和微精确度/召回率/F1分数（分别表示为P-C，R-C，F1-C，P-O，R-O，F1-O）。宏指标（“*-C”）通过对每个标签的指标进行平均计算得出，而微指标（“*-O”）是整体度量，它计算所有图像上所有标签的真实预测，如[67]中所述。2）基于示例的指标[31]包括准确度（Acc），精确度（Prec），召回率和F1分数。04.1. 剥离性分析0我们首先进行实验，以验证所提出网络中特定图像变换下的注意力一致性对多标签图像分类的益处。我们在WIDER上进行了两组剥离性实验R5083.482.073.979.569.479.482.376.6R50+t83.783.474.175.672.879.580.678.4R50+r83.282.873.275.971.178.581.076.1R50+s83.983.074.477.771.779.481.377.6R50+f84.282.874.679.570.780.082.976.9R50+ACt83.984.074.274.574.279.279.778.7R50+ACr85.083.375.179.271.880.282.377.9R50+ACs85.682.775.381.970.180.684.577.1R50+ACf86.384.576.478.974.381.282.679.8R50+ACfs86.883.776.582.472.181.884.479.3R10184.883.275.580.571.580.683.677.8R101+ACt84.683.575.379.171.980.183.177.3R101+ACr86.084.276.279.573.681.283.279.4R101+ACs86.583.676.582.471.981.685.178.3R101+ACf87.184.777.480.974.582.183.880.5R101+ACfs87.585.077.681.374.882.484.180.7mAP85.186.385.47340属性数据集，使用ResNet50（R50）和ResNet101（R101）作为所提出方法的背骨。基线方法仅使用原始的ResNet50和ResNet101，并且只使用加权的Sigmoid交叉熵损失，如公式（2）所示。输入图像被调整为224×224。公式（6）中的超参数设置为1。0表1. WIDERAttribute数据集上的性能（%），以标签为基础的指标。最佳结果0模型 mAP mA F1-C P-C R-C F1-O P-O R-O0对于使用ResNet50作为骨干网络的实验，基线模型是从原始的ResNet50训练而来的，没有进行任何数据增强，表示为R50。为了比较，我们进一步使用某些图像变换对模型R50进行训练，这些变换包括32像素的平移、90°旋转、缩小到192×192和水平翻转，从中我们得到了进行数据增强的模型R50+t（平移）、R50+r（旋转）、R50+s（缩放）、R50+f（翻转）。当在这四个图像变换下使用强制注意力一致性（AC）的方法进行训练时，我们得到了训练好的模型R50+ACt、R50+ACr、R50+ACs和R50+ACf。上表1显示了上述模型在基于标签的指标方面的测试性能。将模型R50+t、R50+r、R50+s和R50+f与模型R50进行比较，可以看出，如果这些变换仅用作数据增强，性能提升很小。当在模型R50+ACr、R50+ACs和R50+ACf中考虑注意力一致性时，性能显著提高，例如，模型R50的mAP从83.5%提高到了分别为85.0%、85.6%和86.3%的模型R50+ACr、R50+ACs和R50+ACf。为了验证注意力一致性相对于相同变换的数据增强的显著改进，我们将模型R50+ACr、R50+ACs和R50+ACf与R50+r、R50+s和R50+f进行比较，mAP的增益分别为1.8%、1.7%和2.1%。注意到，仅在平移下的注意力一致性只会导致轻微的性能改进，例如，模型R50+t的mAP为83.7%，而模型R50+ACt的mAP为83.9%。这是因为大多数CNN通过使用卷积和池化操作来学习对图像平移的不变表示。0表2.在翻转和缩放下的定量化注意力不一致性。0模型翻转缩放0基线 93.23 64.340提出的 2.85 0.740表3.在R50+ACf上不同级别上强制一致性的0特征级别0注意力水平0标签级别0由于大多数CNN通过使用卷积和池化操作来学习对图像平移的不变表示，因此大多数CNN学习到了对图像平移的不变表示。此外，由于在表1中，图像缩放（模型R50+ACs）和翻转（模型R50+ACf）下的注意力一致性与基线模型R50相比取得了显著的性能提升，我们将注意力一致性同时应用于图像缩放和翻转，以训练模型R50+ACfs。mAP性能进一步提高到86.8%，比原始ResNet50高出3.4%。对于使用ResNet101作为骨干网络的实验，模型R101、R101+ACt、R101+ACr、R101+ACs、R101+ACf和R101+ACfs的训练方式与模型R50、R50+ACt、R50+ACr、R50+ACs、R50+ACf和R50+ACfs类似。评估结果在表1的下半部分报告。与上表1的结果相似，所提出的方法也取得了类似的性能提升。使用ResNet101作为骨干网络的所提出的网络最终将mAP从原始ResNet101提高了2.7%。为了深入探究所提出方法的性能提升，我们在图4中显示了模型R50+t、R50+r、R50+s、R50+f、R50+ACt、R50+ACr、R50+ACs、R50+ACf和R50+ACfs与基线模型R50相比每个标签的平均精度（AP）增益。与基线模型R50相比，模型R50+t、R50+r、R50+s和R50+f仅将每个图像变换作为数据增强，而不强制视觉注意力一致性。因此，对于每个标签，这些模型的AP增益很小。当考虑图像变换下的注意力一致性时，所提出网络的模型R50+ACr、R50+ACs、R50+ACf和R50+ACfs对大多数标签的AP增益是显著的。然而，模型R50+ACt对每个标签的AP增益很小，因为基线模型R50已经通过图像平移保持了注意力一致性。此外，对于所提出网络的模型R50+ACr、R50+ACs、R50+ACf和R50+ACfs，对于标签1、4、6和10的AP增益实际上是有限的，因为基线模型R50已经在这些标签上达到了大约95%的AP性能，性能改进的空间不大。为了进一步说明注意力一致性的效果，我们在表2中量化了基线模型（R50）和所提出方法（R50+ACfs）在WIDER测试集上在翻转和缩放下的注意力不一致性，通过CNN训练强制注意力一致性，我们可以注意到所提出方法在每个变换下的不一致性值远远低于基线模型的不一致性值。-4-202468R50+tR50+rR50+sR50+fR50+ACtR50+ACrR50+ACsR50+ACfR50+ACfs94.7 84.1 70.8 93.8 76.8 95.0 80.7 90.3 77.0 94.6 81.4 75.3 88.4 64.7 R5096.3 88.7 76.9 95.3 82.6 96.2 85.2 93.1 80.7 96.0 85.8 78.5 90.9 68.7 R50+ACfsR5083.473.979.569.479.482.376.6R50+ACs85.675.381.970.180.684.577.1R50+ACf86.376.478.974.381.282.679.8R50+ACfs86.876.582.472.181.884.479.3R10184.875.580.571.580.683.677.8R101+ACs86.576.582.471.981.685.178.3R101+ACf87.177.380.974.582.183.880.5R101+ACfs87.577.681.374.882.484.180.7R5078.1275.2388.4783.4185.86R50+ACs77.4678.2589.9683.9786.86R50+ACf79.0579.4690.2185.1087.58R50+ACfs79.1679.4488.9786.2687.5973501 2 3 4 5 6 7 8 9 10 11 12 13 14 标签0AP增益（%）0图4.与模型R50相比，WIDER上每个标签的平均精度（AP）增益。图中的图例：模型与表1中相同。每组AP增益下分别显示了模型R50和模型R50+ACfs的两组AP。标签1至14分别为：男性、长发、太阳镜、帽子、T恤、长袖、正式、短裤、牛仔裤、长裤、裙子、口罩、标志和条纹。0此外，为了说明在本文中使用注意力一致性的优势，我们进行了在不同级别上考虑一致性的比较实验，包括图像翻转。如表3所示，与在特征图（特征级别）或最终标签预测（标签级别）中提前或延迟强制一致性相比，我们在中间级别（即注意力热图）上强制一致性的方法表现最佳。04.2. 与最先进方法的比较0为了验证我们的方法能够达到最先进的结果，我们在WIDER、PA-100K和MS-COCO上将所提出的网络的多标签图像分类性能与几种最先进的方法进行比较。我们使用与第4.1节相同的训练策略，在每个数据集上使用不同的图像变换训练所提出的网络，以实现注意力一致性。在所提出的网络中，使用不同的CNN架构，ResNet50和/或ResNet101，作为不同数据集的主干。基线模型也按照第4.1节的方法进行了相应的训练。表4显示了比较方法和所提出方法在WIDER上的基于标签的评估结果。在我们的方法之前，VAA[44]在该数据集上取得了最佳性能，mAP为86.4%。请注意，VAA使用ResNet101作为主干，而我们的ResNet101实现，即模型R101，实现了84.8%的mAP。我们可以看到，即使是使用ResNet50作为主干的所提出网络的模型（R50+ACfs的mAP为86.8%），也能略微超过以前的最先进方法。使用ResNet101作为主干时，考虑到水平翻转（模型R101+ACf）时，所提出方法的mAP进一步提高到87.1%，考虑到水平翻转和图像缩放（模型R101+ACfs）时，mAP进一步提高到87.5%。表5显示了比较方法和所提出方法在PA-100K数据集上的评估结果。0表4.在WIDER上，基于标签的指标上比较方法和所提出方法的性能（%）。方法ResNet101*表示工作[67]中使用的基线，该基线是从原始ResNet101[20]实现的，并进行了多种数据增强。0方法 mAP F1-C P-C R-C F1-O P-O R-O0R-CNN [15] 80.0 - - - - - - R*CNN [16] 80.5 - - - - - - DHC [34] 81.3 - - - - - -AR [18] 82.9 - - - - - - ResNet101* [67] 85.0 74.7 - - 80.4 - - SRN [67] 86.275.9 - - 81.3 - - VAA [44] 86.4 - - - - - -0表5. PA-100K上比较方法和提出方法的性能（%）。0方法 mA 准确率精确率召回率 F1-score0DM [30] 72.7 70.39 82.24 80.42 81.32 HP-Net [36] 74.2172.19 82.97 82.09 82.530我们的0HP-Net[36]实现了先前的最先进性能。我们使用ResNet50，即表5中的模型R50，作为我们的基线模型，它已经超过了HP-Net。由于考虑了不同图像变换下的注意力一致性，我们的模型R50+ACs、R50+ACf和R50+ACfs在F1-score上的性能优于模型R50。在MS-COCO数据集上，我们在表6中展示了比较方法和提出方法的基于标签的评估结果。为了公平比较，我们同时评估这些指标，包括和不包括前3个标签约束，即具有最高出现频率的前3个标签1-OP-OR-OResNet101-ACs76.870.183.362.174.985.766.566.387.656.372.089.660.1ResNet101-ACf77.371.973.571.075.776.574.967.981.961.073.084.564.2ResNet101-ACfs77.572.277.468.376.379.873.168.085.259.473.186.663.37360表6. MS-COCO数据集上比较方法和提出方法的性能（%），使用基于标签的指标。方法ResNet101*表示在工作[67]中使用的基线，它是从原始ResNet101[20]实现的，使用了复杂的数据增强方法。0方法全部前3个0WARP [17] - - - - - - - 55.7 59.3 52.5 60.7 59.8 61.4 CNN-RNN [53] - - - - - - - 60.4 66.0 55.6 67.8 69.2 66.4 ResNet101* [67]75.2 69.5 80.8 63.4 74.4 82.1 68.0 65.9 84.3 57.4 71.7 86.5 61.3 ResNet101-SRN [67] 77.1 71.2 81.6 65.4 75.8 82.7 69.9 67.485.2 58.8 72.9 87.4 62.50基线 ResNet101 74.9 69.7 70.1 69.7 73.7 73.6 73.7 66.1 77.7 59.8 71.2 82.2 62.80我们的0即使预测分数低于0.5，也会为每个图像获得预测分数，如[53，67]所示。ResNet101-SRN [67]实现了mAP77.1%的最先进性能，其基线模型ResNet101*通过使用多种数据增强方法进行训练，包括镜像和多尺度四角和中心裁剪操作，实现了mAP75.2%。为了在不使用复杂的数据增强方法的情况下实现可比较的基线性能，我们在训练基线模型R101时，将输入图像简单调整为288×288，即使用ResNet101。我们使用与第4.1节中描述的相同策略训练提出的网络。尽管我们的基线模型R101（mAP74.9%）的性能略低于ResNet101*（mAP75.2%），但我们提出的网络的模型R101-ACs和R101-ACf的性能与ResNet101-SRN（mAP77.1%）相当。此外，我们提出的网络的模型R101-ACfs（mAP77.5%）优于先前的最先进方法。此外，与我们的基线模型R101相比，考虑注意力一致性的模型R101+ACfs在mAP上明显提高了2.6%，在F1-C上提高了2.5%，在F1-O上提高了2.6%，在F1-C（top-3）上提高了1.9%，在F1-O（top-3）上提高了1.9%。04.3. 定性比较0为了验证注意力热图是否通过注意力一致性进行了改进，我们使用基线模型和提出的网络模型，比较了从原始图像、翻转图像和缩放图像中提取的相同标签的注意力热图。图5展示了标签“T恤”的注意力热图示例。模型R50在水平翻转和图像缩放变换下的注意力区域不一致。我们的模型R50+ACf在图像翻转下产生高度一致的注意力区域，但在图像缩放下略微不一致。相反，我们的模型R50+ACs在图像缩放下产生高度一致的注意力区域，但在图像翻转下不一致。通过考虑翻转和缩放下的注意力一致性，R50+ACfs在两种变换下产生高度一致的注意力区域。将第2行的第3、4、5列的注意力热图与0在第2行第2列中，所提出的网络产生的注意区域与标签“T恤”更具语义相关性。这些定性结果表明，所提出的网络可以通过在某些图像变换下强制执行注意一致性来将注意力集中在更具标签相关性的区域上。0翻转缩放0R50 R50+ACf R50+ACs R50+ACfs0图5.使用不同模型从翻转（第1行），原始（第2行）和缩放（第3行）图像分类标签“T恤”的注意力热图。05. 结论0受到人类视觉感知在某些空间变换下对图像进行一致分类的观察的启发，本文进一步假设了CNN注意力区域在这些变换下对图像分类的一致性，即如果输入图像在空间上变换，则分类的注意区域遵循相同的变换。我们发现，对于许多CNN分类器，这种一致性通常无法很好地保持。为了解决这个问题，我们提出了一个双分支网络以及一个注意力一致性损失，用于多标签图像分类。我们在三个公共数据集上进行了实验，实验结果通过在所有三个数据集上实现了新的最先进性能来验证了所提出方法的有效性。0致谢：本工作得到NSF-1658987，NSFC61672376和NSFC-U1803264的部分支持。7370参考文献0[1] Lubomir Bourdev，Subhr

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

图像变换下的多标签图像的视觉注意一致性

【图像检测】基于计算机视觉实现遥感图像变换检测含Matlab源码.zip

计算图像变换矩阵的方法

sac-ia 采样一致性初始配准算法

图像配准中的基于特征提取

matlab程序sift ransac图像拼接

匹配度量、变换矩阵解算、ransac算法分析

具体图像风格迁移评价指标有哪些？局部图像风格迁移结果如何评价

imgaug图像数据增强处理

python opencv ransac图像拼接

基于sift和ransac的图像拼接毕设

全景图像拼接系统matlsb

opencv全景图像拼接功能说明c++

生成一篇原创的基于信息论的图像配准技术研究中第二章图像配准的基本理论章节的写作大概五千字左右

像素级小波变换红外与可见光图像融合在评估指标方面的缺点

数字水印攻击的几何变换攻击原理

matlab使用 ransac 求解仿射变换矩阵,实 现 图 像 的 拼 接

Canny边缘检测算法）来检测和识别图像中的条纹

albumentations与torch.transformer区别

霍夫变换vsRANSAC

最新资源

matlab使用 ransac 求解仿射变换矩阵,实现图像的拼接