VisionTransformers的输入混合方法TransMix总结

185 浏览量更新于2023-10-25 收藏 1.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1一收件人BB一TN在∈- -TransMix：参加Vision Transformers陈洁能酒店1*孙舒阳2*何菊1菲利普托2艾伦尤耶1宋白31约翰霍普金斯大学2牛津大学3字节跳动公司。摘要已经发现基于混合的增强对于在训练期间泛化模型是有效的，特别是对于视觉变换器（ViT），因为它们可以容易地过拟合。然而，以前的基于混合的方法有一个基本的-输入混合CutMix TransMix利用先验知识，目标的线性内插比率应与in中提出的比率保持相同区域A标签λ ∈ [0，1]λ =面积λ = ∑AttnA插入。这可能会导致一个奇怪的现象，有时没有有效的对象在混合图像由于随机过程中增强，但仍然有响应的标签空间。为了弥合输入空间和标签空间之间的差距，我们提出了 TransMix ，它基于VisionTransformers的注意力地图混合标签。如果相应的输入图像被注意力图赋予更高的权重，则标签的置信度将更大TransMix非常简单，只需几行代码就可以实现，而无需向基于ViT的模型引入任何额外实验结果表明，我们的方法可以一致地提高各种基于ViT的模型在ImageNet分类尺度上的性能。在ImageNet上使用TransMix进行预训练后，基于ViT的模型也表现出更好的可移植性，可以用于语义分割，对象检测和实例分割。在4个不同的基准测试中，TransMix也表现出更强大的性能。代码可在https://github.com/Beckschen/TransMix上公开获取。1. 介绍Transformers [42]在自然语言处理的几乎所有任务中都占主导地位最近，基于 Transformer 的架构（如Vision Transformer（ViT）[12]）已被引入计算机视觉领域，并在图像分类[12，13，30，40]、对象检测[48，30，15]和图像分割[48，30，37]等任务上显示出巨大的前景。然而，最近的研究发现，基于ViT的网络很难优化，如果训练数据不足，很容易过拟合。一个快速的解决方案-*这些作者对这项工作的贡献是相同的。联系人：Jie-Neng Chen（jienengchen01@gmail.com）和Shuyang Sun（kevinsun@robots.ox.ac.uk）图1. Mixup [54]和CutMix [53]从Beta分布中随机采样λ（标签yA的比例），而我们的TransMix使用与A相交的注意力地图内的值之和计算λ（表示为AttnA，以蓝色呈现）。解决这个问题的方法是在训练期间应用数据扩充和正则化技术。其中，Mixup [54]和CutMix [53]等基于混合的方法被证明对推广基于ViT的网络特别有帮助[39]。Mixup采用一对输入xA，xB和它们对应的标签yA，yB，然后创建一个人工训练示例λxA+（1λ）xB，其中λyA+（1λ）yB作为其基础事实。这里λ[0，1]是从Beta分布中采样这预先假定特征向量的线性内插应当导致相关联的目标的线性内插。然而，我们认为，上述前提并不总是正确的，因为不是所有的像素都是平等的。如图1所示，背景中的像素不会像显著区域中的像素那样平等地贡献于标签空间。一些现有的作品[45，41，28]也发现了这个问题，并通过只混合输入层上最具描述性的部分来解决它然而，使用上述方法对输入进行操作可能会缩小增强的空间，因为它们往往较少考虑将背景图像放入混合物中。同时，上述方法花费更多数量的参数和/或训练吞吐量来提取输入的显著区域。例如，Puzzle-Mix[28]要求模型在迭代中向前和向后两次，而Attentive-Cutmix [45]引入了24 M外部CNN来提取显著特征。在本文中，我们没有研究如何在输入层上更好地混合图像，而是更多地关注如何缓和12135A B1213610 60 110 160数量的参数图2. TransMix可以在ImageNet上稳定地改进各种最先进的基于ViT的模型，没有参数，计算开销最小。更多模型变量的结果见表1。通过标签分配的学习，在输入和标签空间之间产生间隙我们发现，视觉变形金刚中自然生成的注意力地图如图1所示，我们简单地将λ（yA的权重）设置为位于A中的注意力地图的权重之和。通过这种方式，标签通过每个像素的重要性重新加权，而不是以与混合输入相同的比率线性内插。由于注意力图是在基于ViT的模型中自然生成的，因此我们的方法可以合并到它们的训练管道中，而无需额外的参数和最小的计算开销。我们表明，这种令人沮丧的简单的想法可以导致一致的和显着的改善，为广泛的任务和模型。正如Fiugre2所示，TransMix可以稳定地提升所有列出的基于ViT的模型。值得注意的是，TransMix可以进一步将ImageNet上的前1名准确率提高0。DeiT-S和大变体XCiT-L均为9%有趣的是，在所有XCiT模型尺度中，最大模型XCiT-L获得最多。此外，我们证明，如果模型首先在ImageNet上使用TransMix进行预训练，那么优势可以进一步转移到下游任务中，包括对象检测，实例分割，语义分割和弱监督对象分割/定位。我们还观察到，在4个不同的基准点上进行评估后，TransMix可以帮助模型变得更加鲁棒。2. 相关工作Vision Transformers（ViTs）。最近，提出了视觉转换器（ViT）[12]，通过将图像标记化并将其展平为标记序列，使Transformer适应图像识别。ViT基于一系列Transformer块，这些块由多头自关注层和前馈网络组成。DeiT [39]通过引入强大的培训配方和采用知识蒸馏来加强ViT。在ViT成功的基础上，人们做出了许多努力来改进ViT，并将其应用于各种视觉任务，包括图像分类[39，40，13，50，24，30，18]，目标定位/检测，[16，48，30，15]和图像分割[48，30，37，5]。Mixup及其变体。数据增强已经被广泛研究，以防止DeepNets过度拟合训练数据。为了稳定地训练和改善视觉Transformer，Mixup和CutMix是两种最有用的增强方法[39]。Mixup [54]是一种成功的图像混合技术，通过两个全局图像的像素加权组合获得增强图像。以下Mixup变体[44，36，17，22，53，45，41，28]可以分为全局图像混合（例如Manifold- Mixup [44]，Un-Mix [36]）和区域图像混合（例如CutMix [53]，Puzzle-Mix[28] ， Attentive-CutMix[45] 和 SaliencyMix[41]）。在所有的Mixup变体中，基于显著性的方法，包括attentive-CutMix，puzzle-Mix和saliency-CutMix是与我们的方法最相似的。然而，TransMix与它们有两个根本的区别：（1）以前的基于显著性的方法，例如，[28，45，41]强制在输入图像的显著区域中裁剪的图像块我们的TransMix不是在输入空间中操作，而是专注于如何在标签空间中更(2)以前的基于显著性的方法，如[45]，可能会使用额外的参数来提取显著性区域。TransMix自然地利用跨前实验结果还表明，与这些方法相比，TransMix可以在ImageNet上产生更好的结果。数据自适应减肥分配。TransMix重新分配地面真理标签与注意力的指导，这是有关的数据自适应损失重量分配。一些现有的工作已经发现，类似注意力的信息可以帮助减轻点云分析[31]、实例分割[47]、图像去马赛克[38]等任务的长尾问题。3. TransMix3.1. 设置和背景CutMix数据扩充CutMix是一种简单的数据扩充技术，它结合了两个输入-标签对84+0.9838281+0.980XCiTTransMix-XCiTPVTTransMix-PVTDeiTTransMix-DeiT79小基地大ImageNet Top-1访问率（%）12137⊙WH∈联系我们∈ ∈∈√∈∈·∈一∈∈∈（xA，yA）和（xB，yB）来增加新的训练样本（x，y）。公式化，x=MxA+（1−M）xB，（1）y=λyA+（1−λ）yB，（2）其中，M0，1HW表示指示从两个图像中丢弃和填充的位置的二进制掩码，1是用1填充的二进制掩码，并且是逐元素乘法。λ是yA在混合标签中的比例。在增强期间，移除XB中的随机采样区域，并用从XA的A裁剪的补丁填充，其中补丁混合目标分配因子λ等于裁剪面积比rwrh。自注意自注意，如[ 43 ]所介绍的，对输入矩阵x进行操作 RN×d，其中N是令牌的数量，每个令牌的维度为d。输入x使用权重矩阵wq线性投影到查询、键和值Rd×dq ， wkRd×dkW VRd×dV，使得 q=xwq ，k=xwk，v=xwv，其中dq= dk。键和键被同时用于计算注意力地图每个头部的类注意力可以用公式表示为：q=xcls·wq，（3）k=z·wk，（4）A′=Softmax（q·k/d/g），（5）A={A′0，i，|i∈[1，p]}，（6）其中qkR1×（1+p）表示类标记为一个查询，其对应的键是所有输入标记，A[0，1]p是从类标记到图像块标记的注意力映射，总结了哪些块对最终分类器最有用。当注意力中有多个头部时，我们简单地对所有注意力头部进行平均以获得A[0，1]p。在实现中，Eqn.（6）可用作来自最后一个Transformer块的中间输出，而无需架构修改。我们遵循CutMix中提出的输入混合的过程，其在Eqn中定义。（1），然后我们重新计算λ（方程中yA的比例）（2）在注意力图A的指导下：λ=A·↓（M）。（七）A（q，k）=Softmax（qk<$/dk）∈RN×N，且自注意操作的放置被定义为v中N个表征特征的加权和，其中权重对应于注意图：Attention（q，k，v）=（q，k）v。单头自注意可以通过分别将查询、键和值g次线性投影到dk、dk和dv维度来扩展到多头自注意。3.2. TransMix我们提出了在注意力地图的指导下为混合标签分配TransMix，其中注意力地图被具体定义为多头类注意力A，它被计算为自我注意力的一部分在分类任务中，类标记是查询q，其对应的键k是所有输入标记，并且类注意力A是从类标记到输入标记的注意力映射，汇总哪些输入标记对最终分类器最有用然后，我们建议使用类注意力A来混合标签。注意力视觉转换器（ViTs）[12]分割并嵌入图像xR3×H×W 到p个补丁令牌x补丁Rp×d，并通过类令牌xcls聚合全局信息R1×d，其中d为嵌入的维度。ViTs对嵌入z= [xcls，xpatches] ∈R（1+p）×d的补丁进行操作。给定一个具有 g 个注意力头和输入块嵌入 z 的Transformer，我们用投影矩阵wq，wk∈Rd×d来参数化多个头类注意力.的12138↓·这里（）表示可以将原始M从HW变换成p个像素的最近邻插值下采样。注意，我们省略了方程中的非压缩维数。（7）为了简单。通过这种方式，网络可以学习基于每个数据点在注意力地图中的响应动态地重新分配标签的权重被注意力地图更好地聚焦的输入将在混合标签中被标记为具有更高的值。3.3. 伪代码算法1以类似pytorch的风格提供了TransMix的伪代码。干净的伪代码表明，简单的几行代码可以提高性能的即插即用的方式。4. 实验在本节中，我们主要展示了跨组合的有效性、可移植性、鲁棒性和可推广性。我们在第4.1节中验证了TransMix在ImageNet-1 k分类上的有效性，并在第4.2节中验证了其对下游任务的可移植性，包括语义分割，对象检测和实例分割。TransMix的稳健性在第4.3节中的4个基准测试中进行了检查。有趣的是，我们在4.4节中发现了TransMix和注意力的相互影响。我们在4.5节中验证了SwinTransformer的可推广性，SwinTransformer缺少类标记。最后，在第4.6节中将TransMix与最先进的Mixup增强变体进行了比较。12139±∈∈算法1类似PyTorch风格的TransMix伪代码。# H，W：输入图像的高度和宽度# p：补丁# M：0-初始化形状为（H，W）的# downsample：从长度（H* W）到（p）的下采样#（bx1，bx2，by1，by2）：边界框坐标for（x，y）in loader：#使用N对数据加载minibatch#minibatch中的CutMix图像M[bx1：bx2，by1：by2] = 1 x[：，：，M==1] = x.flip（0）[：，：，M==1]M =下采样（M.view（-1））#注意矩阵A：（N，p）logits，A =模型（x）#将标签与注意力映射lam = matmul（A，M）y =（1-lam）*y + lam* y.flip（0）CrossEntropyLoss（logits，y）.backward（）4.1. ImageNet分类我们使用ImageNet-1 k [11]来训练和评估我们的图像分类方法。ImageNet-1 k由128万张训练图像和50 k张验证图像组成，标记了1000个语义类别。该实现基于Timm [49]库。除非另有说明，否则与DeiT [39]训练配方相比，我们对超参数进行了最小的更改。我们检查了各种基线视觉Transformer模型，包括DeiT [39]，PVT [48]，CaiT [40]和XCiT [13]，训练方案将根据论文所有的变形金刚都被训练了300个纪元，期望（作者？）[13]和（作者？）[40]分别报告了XCiT和CaiT的400个epoch。在部署DeiT [39]训练方案时，所有基线都已经包含精心调整的正则化方法，包括RandAug[10]，Stochastic Depth [26]，Mixup [54]和CutMix[53]。为了简化实现，TransMix与CutMix共享相同的输入裁剪区域，而标签分配是两种方法的平均值由于[24]中检查的负面影响，我们丢弃了重复增加[25我们将预热时间设置为20，预期DeiT-B保持5。我们的基线实现的准确性波动仅为0。与DeiT [39]中报告的结果相比，1%。在Eqn中的注意力图A。6可以作为中间输出从多头自注意层的最后一个Transformer块。结果如表1所示，TransMix可以稳定地提高所有列出模型在ImageNet上的top-1准确率。无论模型有多复杂，TransMix都能请注意，这些模型具有广泛的模型复杂性，并且基线都使用各种数据增强技术进行了仔细调整，例如[10 ][12][14][15][16][17][18][19]具体来说，TransMix可以促进表1. TransMix可以稳定地提高广泛的模型变体，例如。ImageNet-1 k分类上的DeiT、PVT、CaiT和XCiT。请注意，所有基线都已经通过广泛的增强和正则化技术进行了e.G. Mixup [54] ， CutMix[53] ， RandAug[10] ， DropPath[27]等。小变体DeiT-S的top-1精度为0。9%。从更高的注意力质量中，TransMix也可以将大型模型XCiT-L的前1精度提高0。9%。我们强调，与模型的结构修改相比，例如， CrossViT-B [4] 仅将 DeiT-B 基线结果提升了0.4%，参数开销为20.9%，而TransMix在无参数样式中带来了更多改进特别是，TransMix始终将基础/大型变体提高了0.6%至0.9%，这比设计新架构（如PiT-B[24]，T2 T-24 [51]，CrossViT-B [4]）更引人注目，分别提高了0.2%，0.5%，0.4%。4.2. 转移到下游任务ImageNet预训练是许多视觉识别任务的事实标准实践[19]。在训练下游任务之前，ImageNet上预训练的权重用于初始化Transformer骨干。我们展示了我们基于transmix的预训练模型在下游任务上的可移植性，包括语义分割，对象检测和实例分割，我们观察到了vanilla预训练基线的改进。语义分割在我们的实验中，对z个补丁R p × d进行补丁编码的序列被解码为分割图sRH×W×K，其中K是语义类的数量。我们采用两个无卷积的de-模型ParamsFLOPsTop-1访问（%）+TransMix前1位的访问率（%）DeiT-T [39]PVT-T [48]XCiT-T [13]5.7M13.2M12M1.6G1.9G2.3G72.275.179.472.675.580.1[40]第四十话17.3M3.8G79.179.8DeiT-S [39]22.1M4.7G79.880.7PVT-S [48]24.5M3.8G79.880.5XCiT-S [13]26M4.8G82.082.3PVT-M [48]44.2M6.7G81.282.1PVT-L [48]61.4M9.8G81.782.4XCiT-M [13]84M16.2G82.783.4DeiT-B [39]86.6M17.6G81.882.4XCiT-L189M36.1G82.983.812140∈∈骨干解码器TransMix-mAcc mIoUmIoU[8]第八届中国国际纺织品展览会线性预训练（MS）DeiT-S[39]分段器[37]表3.TransMix对转移到表2. TransMix对转移到Pascal Context [33]数据集上的下游语义分割任务的无开销影响。(MS)表示多尺度测试。编码器：（1）线性解码器（2）分段解码器。采用线性解码器的原因是最大程度地保留预训练的信息。对于线性解码器，使用DeiT片上的逐点线性层对z片Rp×d进行编码，以产生片级logitzlinRp×K，其被整形并双线性上采样为分割图s。Segmenter [37]解码器是一种基于变换器的解码器，即[37，46]中介绍的掩码变换器。我们在Pascal Context[33]数据集和报告交集超过联合（mIoU）平均在所有类作为主要指标。训练集包含4998幅图像，其中包括59个语义类和一个背景类。验证集包含5105个图像。训练方案遵循[33]，其建立在MM-分割[9]上。作为参考，ResNet 101-Deeplabv 3 + [7，8]的结果在MM分割[9]中报告。根据表2，TransMix预训练的DeiT-S- Linear和DeiT-S-Segmenter分别比vanilla预训练的在多尺度测试方面有一致的改进。目标检测和实例分割在COCO 2017上进行了目标检测和实例分割实验。所有模型都在118K图像上训练，并评估了5K验证图像。我们研究PVT [48]作为检测骨干，因为它的金字塔特征使其有利于目标检测。在ImageNet上预训练的权重用于初始化PVT骨干。我们训练和评估Mask R-CNN检测器，其中PVT主干初始化为vanilla（CutMix）或TransMix预训练权重，用于对象检测和实例分割。在PVT [48]之后，我们采用1×训练时间表（即，12 epochs），以在mmDetection [6]框架上训练检测器。具有ResNet主干的Mask R-CNN的结果在mmDetec [6]中报告作为参考。如表3所示，我们发现，在不引入额外参数的情况下，使用TransMix预训练的主干初始化的检测器比CutMix预训练的主干提高了0.5%的框AP和0.6%的框AP。下游对象检测和实例分割使用Mask R-CNN [20]与COCO val2017上的PVT [48]主干。APbb表示用于对象检测的边界框AP，APbb表示用于实例分割的掩码AP。屏蔽AP。请注意，基于正则化的骨干预训练在提高下游对象检测方面的能力有限。例如，最近的Mixup变量SaliencyMix [41]在较小的检测数据集上仅比CutMix预训练模型提高了0.16%的框AP。4.3. 鲁棒性分析最近出现了关于可视化Transformer鲁棒性的讨论[34，32，1]。为了验证TranMix是否可以提高基于ViT的模型对闭塞的稳健性（作者？）[34]研究ViT是否在遮挡场景中表现稳健，其中部分或大部分图像内容丢失。具体地说，视觉变换器将图像划分为属于14 x14空间网格的M=196个块;即，大小为224×224×3的图像被分成196个小块，每个小块的大小为16×16×3。Patch Dropp-ping意味着用空白的0值补丁替换原始图像补丁。作为一个例子，从输入中删除100个这样的补丁相当于丢失51%的图像内容。在[34]之后，我们展示了ImageNet-1k验证集上的分类准确性，其中包含三个丢弃集。(1)随机补丁丢弃：随机选择并丢弃M个补丁的子集。(2)显著（前景）块丢弃：这研究ViT对高度显著区域的遮挡的鲁棒性（作者？）[34]对DINO的注意力图进行阈值处理，(3)非显著（背景）补丁丢弃：图像的最不显著的区域被选择并按照与上述相同的方法丢弃。如图所示。3，具有TransMix的DeiT-S在所有闭塞水平上都优于普通DeiT-S，特别是对于极端闭塞（信息丢失率>0.7）。对空间结构洗牌的敏感性我们通过洗牌来研究模型骨干对象检测实例分割APbbAP bbAP bbAP AP AP50 7550 75ResNet50 [20][20]第二十话44.2M63.2M38.040.458.661.141.444.234.436.457.157.736.738.8PVT-S [48]44.1M 40.4 62.9 43.8 37.8 60.140.3TransMix-PVT-S 44.1M 40.9 63.8 44.0 38.4 60.741.357.447.348.559.449.149.6✓60.249.750.360.449.750.5✓61.450.651.212141Nat. 对抗性示例Out-of-Dist模型Top1-Acc Calib-Error↓ AURRA AUPR DeiT-S 19.1 32.0 23.820.9表4. 模型输入图像块。具体来说，我们随机打乱具有不同网格大小的图像补丁[34]。请注意，洗牌网格大小为1意味着没有洗牌，洗牌网格大小为196意味着所有补丁令牌都被洗牌。图 4 显示了相对于基线的一致改进，TransMix-DeiT-S和DeiT-S在所有混洗网格尺寸上的平均准确度分别为62.8%和58.4%。优异的4.2%增益表明，TransMix使Transformers能够更少地依赖位置嵌入来保留最具信息量的分类上下文。ImageNet-A数据集[23]对抗性地收集了7500个未经修改的，自然但“硬”的真实世界图像，这些图像来自一些具有挑战性的场景（例如，雾场景和遮挡）。用于评估分类器对逆向过滤示例的鲁棒性的度量CalibError判断分类器如何可靠地预测其准确性。AURRA是在[23]中引入的不确定性估计度量。如表4所示，经过TransMix训练的DeiT-S在所有指标上都优于普通DeiT-S。分布外检测ImageNet-O [23]是一个对抗性分布外检测数据集，它从ImageNet-1 K之外收集了2000张图像。不可预见类的异常应导致低置信度预测。该指标是精确率-召回率曲线下面积（AUPR）[23]。表4表明，经过 TransMix 训练的 DeiT-S 的性能优于 DeiT-S 1% 的AUPR。4.4. TransMix与注意力TransMix会引起注意吗？为了评估注意力矩阵的质量，我们直接从DeiT-S中对类标记注意力A进行阈值化以获得二进制注意力掩码（与[3，34]相同），阈值为0.9，然后执行两个任务，包括（1）Pascal VOC2012基准[14]上的弱监督自动分割(2)ImageNet-1 k 验证集 [35] 上的弱监督对象定位（WOSL），其中边界框注释仅可用于评估。对于任务（1），我们在PASCAL-VOC 12验证集上计算地面实况和二进制注意力掩码之间的Jaccard相似性。对于任务（2），不同于基于CAM的方法，分割JI（%）定位mIoU（%）DeiT-S 29.2 34.9TransMix-DeiT-S29.9 44.4表5.注意力地图的定量评估。Segmenta- tion JI表示PascalVOC上弱监督分割的Jaccard索引，Localization mIoU表示ImageNet-1 k上弱监督对象定位的边界框mIoU对于CNN，我们直接从二进制注意力掩码中生成一个紧密的边界框，并将其与ImageNet-1 k上的地面实况边界框进行比较。这两个任务都是弱监督的，因为只有类级别的ImageNet标签用于训练模型（即既没有用于对象定位的边界框监督，也没有用于分割的每像素监督）。在这两个基准测试中，将从TransMix-DeiT-S或vanilla DeiT-S生成的注意力掩码与地面实况进行评估的分数可以定量地帮助我们了解TransMix是否对注意力地图的质量有积极的影响。更好的注意力可以培养TransMix吗？以上实验证明了TransMix可以促进注意力地图的发展，那么很自然地会问，更好的注意力地图是否可以反过来促进TransMix的发展？我们假设，更好的注意力地图使用，更准确的跨混合调整混合目标分配。例如，Dino[3]证实，通过自监督训练[3，2]从模型中获得的注意力地图保留了更高的质量。为了验证更好的注意力图是否有助于跨混合，我们设计了一个实验，用参数冻结的外部模型生成的注意力图替换注意力图。外部参数冻结模型可以是（1）Dino自监督预训练的DeiT-S（ 2 ）在 ImageNet-1 k 上完全监督训练的 Deit-S 。(3)Deit-S，在ImageNet-1 k上使用知识蒸馏集进行全监督训练。然而，表6所示的结果与假设相矛盾。有趣的动态属性使用预先训练的Dino作为注意力提供者，性能比自我服务略差。在外部全监督参数冻结DeiT-S的注意力指导下进行训练，TransMix的top-1准确率从80.7%显著下降到80.4%，但仍优于vanilla模型的79.8%。这种现象可以归因于TransMix的动态特性，这意味着每次迭代的参数更新将动态地使同一输入图像的自注意力多样化。相比之下，参数冻结的外部模型静态地为图像产生相同的自注意力，从而破坏正则化能力。TransMix-DeiT-S21.1 31.2 28.8 21.912142图3. 对闭塞的稳健性。研究了模型在不同信息丢失率下对遮挡的鲁棒性。3个补丁丢弃设置：随机补丁丢弃（左）、显著补丁丢弃（中）和非显著补丁丢弃（右）。模型ParamsFLOPs前1位累积（%）Swin-T [30]28.3M4.5G81.3CA-Swin-T [30，40]28.3M4.2G81.6TransMix-CA-Swin-T28.3M4.2G81.8Swin-S [30]49.6M8.8G83.0CA-Swin-S [30，40]49.6M8.5G82.8TransMix-CA-Swin-S49.6M8.5G83.2表7.推广到Swin Transformer [30]，缺少类令牌。CA表示类注意块[40]。CA-Swin将Swin的最后一个块替换图4.对洗牌的鲁棒性。研究了模型对不同大小的网格混洗的鲁棒性。（占位符）收件人提供商自我Dino DeiT-预训练DeiT-蒸馏top-1访问80.7 80.6 80.4 80.4表6. 使用外部（参数冻结）模型来生成注意力图，作为用于TransMix的原始注意力图A4.5. 概化研究人们可能想知道，TransMix是否可以通用于那些没有类标记的模型，如Swin- Transformer（Swin）[30]。这种模型直接将平均池应用于补丁令牌以获得logit，因此每个补丁令牌对最终预测的贡献是没有类注意A的黑盒过程。为了解决上述问题，我们开发了一个名为CA-Swin的Swin变体，它取代了最后一个Swin块具有没有参数开销的分类注意（CA）块，这使得将Trans- Mix推广到Swin上成为可能。受CaiT [40]的启发，分类注意力块旨在以即插即用的方式将类令牌插入到那些最初只有补丁令牌的变压器中，并使分类注意力A可访问。然后，我们将ImageNet-1 k上的Swin-T，CA-Swin-T，4.1.所有三种型号都具有相同的28.3M参数。TransMix-CA-Swin-T和CA-Swin-T的FLOP比基线Swin-T少7%。Swin-T、CA-Swin-T和TransMix-CA-Swin-T的前1位验证准确率分别为81.3%、81.6%和81.8%Swin-S上的TransMix也以更少的FLOP提高了性能。本研究初步验证了TransMix的可推广性。4.6. 与最先进的混合变量的比较在本节中，我们提供了ImageNet-1 k上许多最先进的mixup变量的全面组合。这是第一次在公平的环境中比较这些变量在视觉Transformer上。在DeiT-S之上的Mixup变体的实施细节是12143×方法主干参数速度(im/秒）前1位累积（%）基线22M32278.6[53]第五十三话22M32279.8（+1.2）[45]第四十五话DeiT-S46M23977.5（-1.1）[41]第四十一话22M31479.2（+0.6）[28]第二十八话22M13979.8（+1.2）TransMix22M32280.7（+2.1）表8. Top1-准确性，训练速度（im/sec）和参数与ImageNet-1k上最先进的Mixup变体的比较所有列出的模型都是基于DeiT训练配方构建的，以进行公平比较。训练速度（im/sec）考虑了数据混淆，模型在训练时间内向前和向后。参见补充材料。所有提到的模型都是建立在DeiT训练配方上的，以实现公平的竞争。表8中的基线被选择为训练中不包括CutMix的默认DeiT-S框架测量每秒图像（im/sec），训练速度（即，训练吞吐量）在Tesla-V100图形卡上对分辨率为224 224的图像在128批量大小下平均运行五次，并考虑了训练时间中的数据混淆、表8显示，TransMix显著优于所有其他Mixup变体。基于显著性的方法（例如， SaliencyMix 和 Puzzle-Mix ）与 vanilla CutMix 相比，没有显示出与 visionTransformer相比的优势。我们分析，这些方法是令人不安的调整和面临的困难，在转移到新的架构。例如，Attentive-CutMix不仅带来额外的时间，而且由于它引入了外部模型来提取显着图，因此也带来了参数开销。Puzzle-Mix执行最低速度，因为它在一次训练迭代中向前和向后两次。相比之下，TransMix的性能提升了2.1%，具有最高的训练吞吐量，并且没有参数开销。与PuzzleMix中令人惊讶的8个超参数不同，我们提出的TransMix非常干净，几乎没有引入超参数。尽管如此，我们还是对TransMix进行了关于补充材料中注意力地图生成的消融研究，结果表明默认是最好的。可视化我们提供了TransMix的可视化，如图5所示。例如，第一行示出了旧的基于区域的标签分配是违反直觉的，因为图像ATransMix是能够解除标签的重量，如果区分细粒度属性出现（例如，博美犬图5. 可视化包括图像A、图像B、混合图像、当输入混合图像时从XCiT-L获得的注意力图标签分配包括旧的面积比分配和新的TransMix分配。5. 结论在本文中，我们提出了TransMix，一个简单而有效的数据增强技术，分配混合标签与视觉变形金刚的注意力指导。TransMix自然地利用了Transformer在10个基准测试平台上进行了大量的实验，验证由于我们是第一个将基于混合的方法推向增强视觉变形器的工作，我们确实有如下限制(1) 由于TransMix对类的依赖性很强，所以它不能很好地处理那些没有类标记的主干。这个限制可以在4.5节中以架构修改为代价（2）TransMix要求注意力地图与输入在空间上对齐，导致与基于变形的Trans-former（例如PS-ViT [52]，DeformDETR [55]）的兼容性差。这可以通过利用变形的偏移网格将注意力地图校准到输入空间位置来潜在地解决。鸣谢我们感谢岳晓宇、王慧宇、余启航和陈伟的反馈。这项工作是在前两位作者在字节跳动公司工作时完成的。Jie-Neng Chen和Alan Yuille得到ONR N 00014-21-1-2812和Lustgarten胰腺癌研究基金会的支持。孙舒阳和菲利普 · 托尔得到图灵 AI 研究员 EP/W002981/1，ERC资助ERC-2012-AdG 321162的支持。HELIOS ， EPSRC grant Seebibyte EP/M013774/1 andEP-SRC/MURI grant EP/N019474/1.我们还要感谢皇家工程学院和FiveAI。12144引用[1] 白雨彤，梅洁如，阿兰·尤耶，谢慈航。变压器比cnn更坚固吗？在NeurIPS，2021年。5[2] 包航波，李东，魏福如。Beit：Bert预培训图像转换器 ICLR，2021年。6[3] MathildeCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。在IEEE/CVF计算机视觉国际会议（ICCV）的论文集，2021。6[4] 陈春福，范全福，和拉梅什瓦熊猫。克罗斯维特：交叉注意多尺度视觉 Transformer 用于图像分类。ICCV，2021。4[5] 陈洁能，卢永义，余启航，罗祥德，EhsanAdeli，Yan Wang，Le Lu，Alan L Yuille，and YuyinZhou. Transunet：Transformers为医学图像分割提供了强大的编码器。arXiv预印本arXiv：2102.04306，2021。2[6] 陈凯，王佳琪，庞江淼，曹宇航，余Xiong ， Xiaoxiao Li ， Shuyang Sun ， Wansen Feng ，Ziwei Liu，Jiarui Xu，et al. Mmdetection：Open mmlabdetection tool- box and benchmark.arXiv 预印本 arXiv：1906.07155，2019。5[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy和Alan L Yuille。Deeplab：使用深度卷积网络、 atrous 卷积和全连接 crfs 进行语义 IEEETransactionsonPatternAnalysisandMachineIntelligence，40（4）：834-848，2017。5[8] 陈良杰，朱宇坤，乔治·帕潘德里欧，弗洛里安Schroff和Hartwig Adam。用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。参见ECCV，第801-818页，2018年。5[9] MM分割贡献者。MM分段：语义分割工具箱和基准.https://github.com/open-mmlab/mmsegmentation，2020. 5[10] Ekin D Cubuk、Barret Zoph、Jonathon Shlens和Quoc V乐Randaugment：实用的自动数据扩充，减少搜索空间。在IEEE/CVF计算机视

下载后可阅读完整内容，剩余1页未读，立即下载