没有合适的资源?快使用搜索试试~ 我知道了~
TokenMix:提升视觉转换器性能的新数据增强技术
+v:mala2255获取更多论文TokenMix:重新思考Vision TransformersJihao Liu1,2,Boxiao Liu3,Hang Zhou1,Hongsheng Li1,Yu Liu2,1香港中文大学,MMLab2商汤科技研究3中国科学院计算技术研究所抽象的。CutMix是一种流行的增强技术,通常用于训练现代卷积和Transformer视觉网络。 它最初旨在鼓励卷积神经网络(CNN)更多地关注图像但我们发现这对于自然具有全局接收场的基于变压器的体系结构具有有限的益处。在本文中,我们提出了一种新的数据增强技术TokenMix来提高视觉转换器的性能。TokenMix通过将混合区域划分为多个独立部分来在令牌级别混合两个图像。此外,我们还证明了CutMix中的混合学习目标,一对基本事实标签,可能是不准确的,有时是违反直觉的。为了获得更合适的目标,我们建议根据基于内容的神经激活图来分配目标得分来自预先训练的教师模型的两个图像,需要有高性能。通过对各种视觉Transformer架构的大量实验,我们表明我们提出的TokenMix帮助视觉变换器专注于前景区域来推断类别,并增强其对遮挡的鲁棒性,具有一致的性能增益。值得注意的是,我们改进了DeiT-T/S/B,ImageNet top-1准确率为+1%。此外,TokenMix的训练时间更长,在ImageNet上达到了81.2%的top-1准确率,DeiT-S训练了400个epoch。代码可在https://github.com/Sense-X/TokenMix上获得。关键词:数据扩充,表示学习1介绍深度神经网络主导了视觉表示的学习,并在各种下游任务上显示出有效性,包括图像分类[10,12],对象检测[20],语义分割[41]等。为了进一步提高性能,引入了各种数据增强策略,包括手工制作[38,36]和自动搜索[7,8]。最近,基于将多个图像混合成单个图像的数据增强显示出令人印象深刻的效果*Correspondent author.arXiv:2207.08409v2 [cs.CV] 2022年9月+v:mala2255获取更多论文2Liu等人狗0.6猫0.4(a) CutMix狗0.6猫0.4输入图像狗0.8猫0.6狗0.5猫0.0(b) TokenMix图1:TokenMix和CutMix。TokenMix不仅在标记级别混合图像,以鼓励更好地学习远程依赖性,而且还根据来自(即使是不完全训练的)教师网络的基于内容的神经激活图生成更合理的目标分数在各种视觉任务上的表现。这种“混合”图像的标签第38章第一次尝试以经由样本对的线性组合来生成混合训练样本。CutMix [36]提出在区域级别上混合样本对,其用目标图像中相应区域的内容替换源图像中的随机局部矩形区域。此外,一系列的作品试图改善CutMix,在选择用于混合的矩形尺寸和位置方面采用更复杂的策略[33,18,17]。一般来说,CutMix及其变体使用区域级剪切和粘贴混合技术来强制卷积神经网络(CNN)更多地关注图像的全局上下文,而不仅仅是局部信息。虽然CutMix增强也可以用于训练视觉变换器[12,29],但区域级混合策略变得不那么有效。我们重新审视了CutMix增强的设计,并认为它是基于transformer架构的次优策略。一方面,CutMix中的区域级混合在源图像中切割矩形区域并将内容混合到目标图像中。由于CNN主要被设计为对本地图像内容进行编码,因此CutMix的区域级混合可以有效地防止CNNs过度关注本地上下文。然而,对于自然具有来自第一层的全局感受野的基于变换器的架构,区域级混合的益处较少另一方面,CutMix仅根据源图像和目标图像之间的裁剪面积比为增强图像分配混合标签,而不管它们的裁剪内容。然而,CutMix的剪切区域和位置是随机选择的,并且相同的标签无论剪切内容是前景还是背景,都被分配,这不可避免地将标签噪声引入到学习目标中并导致不稳定的训练(参见图8(b))。最近有一些工作试图通过仔细选择用于切割的突出区域[33,31]或使用交替优化来确定切割区域[18,17]来缓解这个问题。然而,标签+v:mala2255获取更多论文TokenMix 3噪声问题仍然未被充分研究,因为显著区域可能不正确地对应于前景区域。在本文中,我们提出了TokenMix,一个令牌级增强技术,可以很好地应用于训练各种基于transformer的架构。与以往的方法相比,TokenMix直接在token级别混合两幅图像,促进输入token的交互,并考虑图像的语义信息,生成更合理的目标。首先,为了训练transformer以更好地编码长距离依赖性,我们直接将并允许切割区域被分成多个隔离的零件.因此,剪切区域可以分布在整个图像上,如图所示在图8(b)中。令牌级混合鼓励Transformer更好地编码长距离依赖性,以正确地对内部具有增强令牌的混合图像进行分类。而不是依赖于替代优化或额外的网络来确定哪个区域要混合,TokenMix中的所有混合令牌被随机确定为块,这更容易用少量的超参数实现。此外,以前的方法通常分配一个混合目标的增强图像,这等于源和目标图像的地面真值标签的线性组合。标签的线性组合比率被确定为源图像的剪切区域与目标图像的总尺寸之间的面积比率我们发现,这样的目标分数可能是非常不准确的。如图8(a),即使混合区域具有显著不同的语义含义,相同的目标也被分配给两种情况遵循蒸馏的精神,我们建议根据两个混合图像的基于内容的神经激活图将目标分数分配给具体来说,我们首先使用预先训练好的神经网络获得源图像和目标图像的神经激活图,该神经网络不需要进行完美的训练。两个混合区域的分数被计算为空间归一化的神经激活图的总和,其被组合为最终目标。我们的直觉是,即使是部分训练的分类网络的神经激活图也可以比使用朴素的分数平均更好地定位对象的某个部分[40,4]在神经激活图的空间归一化之后,具有丰富语义信息的区域将被分配高分,而其他区域将被分配低分,从而产生更鲁棒的目标。神经激活图是离线生成的,因此引入的额外训练开销可以忽略不计(+0.8%)。相比之下,DeiT [29]中使用的训练方法依赖于教师网络的在线推理虽然ReLabel[37]和TokenLabeling [16]也探索了利用神经激活图来生成训练监督,他们的方法使用补丁级激活作为监督,并且容易受到基于混合增强的不准确激活图的影响。相比之下,我们提出的方法将切割区域的激活总结为图像级目标分数,并且不太可能受到单个令牌的不正确激活的影响结合实验+v:mala2255获取更多论文4 Liu et al.我们的标记切割策略和ReLabel或TokenLabeling验证了我们的评分策略。结果表明,该方法的目标更加合理,不仅提高了性能,而且稳定了我们提出的TokenMix和原始CutMix的训练。用我们的方法替换CutMix中生成目标分数的方法,我们在ImageNet上使用DeiT-S获得了+0.7%的top-1准确率增益。此外,由于生成的目标分数对学习更友好,我们表明我们的方法具有更长的训练时间。具体来说,我们在ImageNet上使用DeiT-S训练400个epochs时达到了81.2%的top-1准确率我们的贡献概括如下:– 我们提出了TokenMix,一个令牌级的增强技术,以及在各种基于transformer的架构推广。– 我们建议用基于内容的神经激活图来分配混合图像的目标分数,这可以使TokenMix和CutMix增强都受益– 实 验 结 果 表 明 , TokenMix 提 高 了 Transformer 我 们 将 DeiT-S 在ImageNet上的top-1准确率从79.8%提高到80.8%。2相关作品基于裁剪的数据扩充。基于切割的方法背后的动机[11,39,26,6]是让网络从整个图像中学习信息表示。通过从输入图像中屏蔽一些区域,它可以缓解过拟合问题并提高遮挡鲁棒性[11]。Cutout [11]是这一想法的先驱,并提出随机选择图像的一个正方形块,并将输入设置为某种一致性。手动设计掩蔽贴片的形状和大小。随机擦除[39]与Cutout的工作方式类似,但在增强中引入了更多的随机性。在每次迭代中,擦除操作都是在一定概率下执行的,并且大小和纵横比是在预定义的限制下随机选择的捉迷藏[26]与前两种方法的不同之处在于掩蔽补丁的数量。它将图像划分为网格,并随机独立地对每个网格进行遮罩。基于混合的数据增强。基于混合的数据扩充[38,32,17,14]是另一种流行的正则化方法,可以帮助优化深度神经网络。Mixup [38]建议根据混合因子混合两个随机选择的图像的RGB值,该混合因子来自beta分布。混合图像的目标也是原始图像的目标的线性组合。Manifold Mixup [32]将混合信息从输入图像扩展Co-Mixup [17]和Puzzle Mix [18]将混合过程视为优化问题,并提出最大化混合图像中的显着性。AugMix [14]从原始图像及其变换后的图像生成混合图像。切割和混合的接合处。基于切割的增强的一个问题是切割区域中的信息丢失,因此最近的研究[36,28,24,5]提出+v:mala2255获取更多论文∈TokenMix 5⨁图2:TokenMix的整体流水线。TokenMix将掩码区域划分为多个独立的部分。根据两幅输入图像的神经激活图计算混合图像的目标分数将切割和混合结合在一起以实现更好的性能。正如CutMix中介绍的那样,补丁会被另一个图像替换,而不是被删除。与Mixup类似,混合图像的目标计算为替换区域的比例。Attentive CutMix [33]指出,随机选择的补丁可能只包含背景区域,并建议替换由预先训练的网络识别的注意区域。RICAP [28]介绍了另一种将不同图像中的四个矩形块拼接成一个新图像的方法。新图像的目标也根据不同补丁的面积确定。ResizeMix [24]认为,当仅混合一个图像的背景部分时,传统的剪切和粘贴操作可能会导致不合理的目标。它通过使用调整大小和粘贴过程解决了这个问题。在本文中,我们重新审视了视觉Transformer的CutMix方法,发现CutMix未充分利用视觉Transformer对远程交互建模的能力我们进一步介绍了我们的TokenMix增强,使用新的方法来选择混合部分并生成学习目标。3方法在本节中,我们首先回顾CutMix的一般过程[36],并展示将CutMix应用于变压器的局限性。然后,我们提出了我们提出的TokenMix,它通过在标记级别混合图像来进行图像增强,并使用神经激活图分配目标分数。3.1重新审视CutMix增强为了增强CNN的定位能力,CutMix [36]提出将样本对与随机矩形二进制掩码混合。设xRH×W×C和y分别表示训练图像及其标签。给一对训练混合图像混合目标狗0.8猫0.6输入图像缩放混合掩模阿勒特⨀激活标测图输入图像编号混合掩模1 −100t⨀激活标测图#+v:mala2255获取更多论文⊙联系我们HWPPΣHW2Σ6 Liu et al.samples(xa,ya)and(xb,yb),CutMix生成一个新的训练样本(xb,yb)如下:x=Mxa+(1−M)xb,y=λya+(1−λ)yb,(一)其中M0, 1H×W表示矩形掩码,它决定退出并填充两个图像的内容,表示逐元素乘法,λ从beta分布Beta(α,α)中采样二进制掩模M是随机采样的矩形,其保证λ M = λ。类似到Mixup [38],CutMix为生成的图像分配一个混合目标作为线性目标。ya和yb的组合。我们认为CutMix中的区域级混合可能不适合基于transformer的架构。由于CNN主要用于编码局部图像内容,因此使用CutMix进行训练可以有效地防止CNN过度关注局部上下文。然而,基于transformer的架构可能从CutMix中受益较少,因为它的所有层都具有全局感受域。此外,混合图像的标签是ya和yb的线性组合,其中混合比λ仅根据掩模的大小来估计,这在许多情况下可能是不合适的,如图8(b)所示。虽然最近有一些方法试图通过选择显著区域来改进CutMix,以最大化混合图像中的显著性[17,18,33,31],但显著区域可能无法正确对应于目标类别[2],并且标签噪声问题仍然严重。3.2TokenMix在本文中,我们提出了TokenMix来混合一对图像,以生成混合图像和学习目标。我们在令牌级别生成掩码M,以鼓励更好地学习长距离依赖,并根据两个混合图像的基于内容的神经激活图分配混合图像的目标得分图2显示了我们提出的TokenMix的概述。我们首先将输入图像x划分为不重叠的块xp∈R××(P·C),即然后线性地投影到视觉标记。然后我们生成一个随机掩码Mt∈HWRP × P 在令牌级根据屏蔽比λ。混合新训练sample(x_p,y_p)的创建如下:xp=Mtxp+(1−Mt)xp,y=aBMti<$Aai+(1−Mti)<$Abi,(二更)i∈Si ∈S其中,S表示所有记号的集合,M表示逐元素乘法,Mti表示掩码Mt的第i个记号,Aai和Abi是掩码M t的第i个记号。分别是xa和xb的空间归一化神经激活图。神经激活图是在分类头之前用预训练网络的最后一层生成的+v:mala2255获取更多论文P20。3TokenMix 7而不是屏蔽整个矩形区域,我们将屏蔽区域划分为多个单独的部分。对于每个部分,我们随机选择掩码令牌的数量和纵横比[1,36]。我们将令牌的最小数量设置为14,并在[0]范围内对纵横比进行对数均匀采样。3,1]。我们重复地掩蔽图像的一部分,直到掩蔽的to- kens的总数达到预定义的比率λHW。除非另有说明,否则我们将λ设置为0.5,而不是从beta分布中采样λ。我们的直觉是,与掩蔽整个矩形区域相比,分布式掩蔽区域更容易识别。为了研究,我们还引入了一个均匀随机的版本,其中每个掩码部分只有一个令牌。虽然完全随机混合对CNN的性能有害,但我们证明了变压器仍然受益于简化版本。为了解决CutMix生成的目标分数不准确的问题,我们建议使用由预训练的教师网络生成的两个混合图像的基于内容的神经激活图来我们的直觉是,并非所有区域都对应于前景对象。具体而言,语义信息丰富的区域对目标得分的影响要大于其他区域。受蒸馏技术的启发,该技术通过教师网络设置图像的目标分数,我们将设计扩展为通过组合两个混合图像的教师网络的神经激活图来设置目标分数如图2所示,两个混合区域的目标分数被计算为xa的掩模内或xb的掩模外的空间归一化神经激活图的总和。然后,我们将这两个目标得分结合起来,作为混合图像的最终目标。与以前的技术[36,33,18,17]相比,我们提出的TokenMix具有两个主要优点:1)我们明确鼓励Transformer更好地编码长距离依赖性,以正确分类内部混合有其他图像的图像我们表明,我们的方法可以导致一致的精度增益时,用于各种视觉变换器,也提高了遮挡鲁棒性的变压器。2)基于内容的神经激活图生成的混合图像的目标标签比以前的方法更鲁棒,它利用了蒸馏技术。此外,我们表明,我们的方法促进变压器,以更好地本地化的歧视地区,注意力的权重。4实验4.1数据集我们使用ImageNet-1 K [10]数据集来证明我们方法的有效性该数据集包含120万张用于训练的图像和50K用于验证的图像。前1名的准确度被报告为评估指标。我们还使用ADE20K [41]来验证我们的TokenMix预训练模型的可转移性ADE20K是一个广泛使用的语义分割数据集,涵盖150个语义类别。该数据集共有25K张图像,其中20K用于训练,2K用于验证,另外3K用于测试。+v:mala2255获取更多论文∼8 Liu et al.表1:基于各种基于Transformer的架构的ImageNet分类性能。TokenMix持续提高DeiT的1%前1精度,几乎没有额外的训练开销。模型#FLOPS(G)#参数(百万)CutMixTokenMix[29]第二十九话1.35.772.273.2(+1.0)PVT-T [34]1.913.275.175.6(+0.5)CaiT-XXS-24 [30]2.59.577.678.0(+0.4)[29]第二十九话4.622.179.880.8(+1.0)Swin-T [21]4.52981.281.6(+0.4)[29]第二十九话17.686.681.882.9(+1.1)4.2实现细节我们在几个最近的视觉Transformer架构上评估了我们的方法,包括DeiT[29],CaiT [30],PVT [34]和Swin Transformer [34]。我们还在ResNet上测试了TokenMix [13],这是卷积模型的代表,作为com-mix。我们遵循DeiT的训练配方[29]。批量大小设置为1024。我们使用AdamW [19,22]作为优化器,并将学习率设置为0.001,有5个预热时期。学习率在余弦调度器之后衰减到10−6。在没有其他规范的情况下,我们训练了300个epoch。[8]和[38]都是默认使用的。在[29]之后,我们以0.5的概率切换TokenMix和Mixup。对于具有较小模型大小的训练架构,例如,DeiT-T [29]、PVT-T[34]或CaiT-XXS [30],我们从β分布β(1. 0,1。0)。我们使用二进制交叉熵(BCE)损失代替典型的交叉熵(CE)损失,因为混合图像更可能包含多个标签。为了生成神经激活图,我们谨慎地使用NFNet-F6 [3]以下[16]。为了传输到ADE20K数据集,我们遵循BEiT [1]中的设置,并使用Adam [19]优化器微调160K步。补充资料中描述了详细的超参数。5主要结果5.1ImageNet结果我们使用TokenMix报告了ImageNet-1 K数据集的结果如表1所示,TokenMix在各种基于transformer的架构上一致地改进了CutMixDeiT[29] 、 PVT [34] 、 CaiT [30] 和 Swin Transformer [21] 。 具 体 来 说 ,TokenMix在DeiT到DeiT-B之间的DeiT表现优于CutMix [36]+1%我们还改进了流行的分层Transformer架构Swin-T和PVT-T,分别为+0.4%和+0.5%。所有的结果都证明了所提出的TokenMix的有效性和通用性。我们提出的TokenMix由两部分组成,即,标记级混合和标签细化。我们将这两部分解耦,然后将它们与+v:mala2255获取更多论文TokenMix 9表2:与ReLabel和To的比较-表3:在ImageNet上使用DeiT-T与pre-kenLabeling的比较。GPU可见的混合方法,时间是指训练时间的增加。增强监督顶级GPUImageNet上的DeiT-T隆乳Top-1确认时间Acc.Cummix ImageNet 72.2 +0.0%TokenMix ImageNet72.7 +0.0%TokenMix ReLabel 72.7 +0.8%TokenMix代币标签72.9 +0.8%TokenMix TokenMix73.2+0.8%[36]第三十六话[17]第十七话[31]第三十一话[18]第十八话TokenMix72.7表4:将预先训练的模型转移到ADE 20K数据集上的下游语义TL和RL分别表示TokenLabeling和ReLabel。表2中的第3/4行表示RL+RL/TL。模型TokenMix mIoU(%)mAcc(%)+ms +msmIoU(%)mAcc(%)✗36.446.737.547.1+RLDeiT-T36.647.038.147.9联系我们36.947.138.348.1✓37.147.538.648.2✗DeiT-S42.352.843.753.8✓44.555.045.956.1✗DeiT-B46.356.547.757.6✓46.856.948.258.1通过固定一个部分的先前方法。在表2中,我们使用相同的数据增强方法将TokenMix与Re- Label [37]和TokenLabeling [16]进行了比较。这两种方法利用像素级监督,但我们的TokenMix总结了神经激活以创建图像级目标分数,因此对单个像素级错误更具鲁棒性。请注意,我们使用相同的教师网络,即,NFNet-F6,用于生成离线目标。如表2所示,TokenMix在相同的训练成本下优于ReLabel(+0.5%)和TokenLabeling(+0.3%)。我们在表3中进一步比较了TokenMix与先前的基于混合的增强方法。为了更公平的比较,我们只使用ImageNet中的标签。如表3所示,与其他方法相比,TokenMix具有性能优势。我们看到,引入更多前景区域的方法无法改善Vision Transformer上的CutMix。相比之下,我们提出的TokenMix将CutMix提高了+0.5%的准确度。5.2转移到下游任务在ImageNet-1 K上进行预训练,然后对下游任务进行微调,这是许多视觉识别任务的常见做法重要的是要验证使用TokenMix的更好的预训练是否可以提高下游任务的性能。为此,我们将TokenMix预训练模型转移到语义分割任务中,并将其与常规预训练进行比较。注意+v:mala2255获取更多论文10 Liu et al.图像图层:1图层:2图层:3图层:4图层:5图层:6图层:7图层:8图层:9层数:10层数:11层数:12图3:DeiT-S中类标记的注意力图的可视化,以关注不同层的补丁标记使用CutMix分散注意力到几个中间层的背景区域。相比之下,所提出的TokenMix帮助类令牌更多地关注前景对象,并导致一致的性能增益。下降0下降0.1下降0.2下降0.3下降0.4下降0.5下降0.6下降0.7下降0.8下降0.90.96/0.790.99/0.650.98/0.630.97/0.400.95/0.250.94/0.260.80/0.110.64/0.110.36/0.030.01/0.000.98/0.750.96/0.650.92/0.630.92/0.400.79/0.250.39/0.260.37/0.110.06/0.110.27/0.030.04/0.000.98/0.750.96/0.650.92/0.630.92/0.400.79/0.250.39/0.260.37/0.110.06/0.110.27/0.030.04/0.00图4:不同遮挡率下的示例图像和预测置信度图像下的红色分数由TokenMix预测,绿色分数由CutMix预测。当大量补丁被丢弃时,使用TokenMix训练的模型保持高置信度,而使用CutMix训练的模型输出低置信度。TokenMix不会在传输阶段引入额外的计算开销。如表4所示,我们发现来自TokenMix的更好的预训练一致地提高了ADE 20K数据集上的分割性能。值得注意的是,我们为+0.7% mIoU改进了DeiT-T,为+2.2%mIoU改进了DeiT-S,为+0.5% mIoU改进了DeiT-B。我们注意到,当使用多尺度测试时,性能差距变得更大(例如DeiT-T的+1.1% mIoU)。所有结果都证明了我们的TokenMix预训练模型的可移植性。5.3主要性能除了性能上的提高,我们发现我们提出的TokenMix改进了transformers对遮挡的鲁棒性,并且更专注于前景区域。所有的可视化和分析都在DeiT-S上进行。TokenMix帮助transformers专注于前景区域。如第3节所述,CutMix基于混合图像对的标签的线性组合来分配混合图像的目标,如果TokenMixCutMix代币混合CutMix+v:mala2255获取更多论文∼TokenMix 110.61/0.450.07/0.450.30/0.560.89/0.700.84/0.700.02/0.300.29/0.620.19/0.400.18/0.41图6:TokenMix和CutMix生成的目标分数。对于每个三重子图,左边是输入图像,中间是神经激活图,右边是掩蔽图像。我们的方法生成更合理的目标分数,特别是当前景区域被裁剪时。前景区域被切割。我们发现,不准确的标签,使变压器不正确的注意到输入图像。如图3所示,使用剪切-混合将Transformer的注意力分散相比之下,TokenMix帮助transformers学习更多地关注前景区域,并带来一致的性能增益。TokenMix增强了视觉转换器的遮挡鲁棒性。 在训练收敛后,我们构建了一个具有不同遮挡率的图像序列。具体来说,我们逐渐下降10%以上的补丁,并将内部像素设置为零,并使用图像进行测试。我们报告了ImageNet在不同下降率下的前1名准确率。如图5所示,使用TokenMix训练的模型超过了使用CutMix训练的模型,随着丢弃率的增加,模型的边缘越来越大,这表明它具有更好的遮挡鲁棒性。具体来说,我们注意到在80%的下降率下,每隔10%的差距。我们在图4中进一步可视化了一些示例。可以发现,当大约40%的令牌被丢弃时,预测的地面实况类807060504030201000 20 40 60 80 100脱落率(%)图5:DeiT-S在不同下降率下 的 ImageNet top-1 使 用CutMix 训 练 的 模 型 和 使 用TokenMix训练的模型之间的差距随着丢弃率的增加而增加基线模型的置信度降低到非常低的值(第一行为0.25),而使用我们的TokenMix训练的模型具有更高的置信度(第一行为0.95)。CutMixTokenMix前1位准确度(%)+v:mala2255获取更多论文12 Liu等人。表6:不同消融方式的比较表7:消融方式生成神经激活靶点的方式生成评分.我们的方法生成目标图。NFNet-F6用于获取基于内容的神经活动的分数,default.vation map(表示为细化)。模型优化Top-1 Acc.79.8美元[29]第二十九话✓80.5(+0.7)[21]第二十一话✓81.5(+0.3)ResNet50 [13]79.3✓79.8(+0.5)6项消融研究在本节中,我们进行各种消融研究来分析我们提出的TokenMix。我们使用DeiT-S作为主干,并在ImageNet上训练它300个epoch,除非另有说明。所有其他培训设置与第4节中所述相同。我们在ImageNet上报告了前1名的准确率。将TokenMix与基于混合的方法集成。表5介绍了结合令牌的结果-与其他基于混合的方法混合来训练DeiT-B。当在训练期间使用两种混合增强时,表5:使用用于训练DeiT-B的多种混合方法中的单个或随机采样的一种的性能。其中一个是随机选择的,数据扩充,概率为0。5、每次迭代。基线(表5中的第1行)不使用任何基于混合的增强。仅使用MixToken可以大幅提高基线和CutMix。具体来说,TokenMix将基线的top-1准确度提高了+5.7%。同时使 用 TokenMix 和 Mixup 将 TokenMix-only的准确率提高了+1.4%[36]第38话:我的世界,我的世界✗ ✗ ✗75.8✗✓✗78.7✓✗ ✗80.0✗ ✗✓81.5✓ ✓✗81.8✗✓ ✓82.0✓✗✓82.9相比之下,同时使用CutMix和Mixup也将top-1准确率提高到81.8%,但仍然低于TokenMix + Mixup。生成神经激活图的不同方法 表6显示了使用不同方法生成神经激活图的结果。除了我们默认选择的NFNet-F6之外,还比较了流行的ResNet和手工制作的显着性方法。如表6所示,TokenMix遵循蒸馏技术的一般如果教师模型的性能高,那么学生模型也是如此。此外,TokenMix对不同的选择都很健壮用于生成目标分数的教师网络。即使教师的性能下降了6.3%,在使用我们提出的TokenMix训练的DeiT上也只观察到0.3%的性能下降然而,使用神经网络生成神经激活图始终优于使用手工制作的分数。老师教师Top-1Acc.Top-1 Acc.NFNet-F6 [3]86.180.8[13]第十三话82.380.7ResNet26 [13]79.880.5显著性[23]N/A80.1+v:mala2255获取更多论文TokenMix 13表8:面罩取样的消融图7:不同面罩策略的图示。基于区域的抽样策略。在ResNet 50上效果最好,但在DeiT-S上降级。模型区域随机块非屏蔽区域块随机方法[23],因为教师模型生成的目标通常比手工制作的目标更好学习。我们在图6中进一步可视化了混合图像的目标分数。对于每个三重子图,左边是输入图像,中间是神经激活图,右边是掩蔽图像。CutMix生成的分数显示为绿色,而红色分数是由我们的方法生成的。如图6所示,我们的方法生成的目标分数更合理,特别是当前景被剪切时。我们的神经激活目标分数与CutMix兼容 为了测试我们提出的目标分数是否与CutMix兼容,我们管道实验使用CutMix混合图像对,但用我们的方法生成目标(在表7中表示为细化),并用不同的我们的主链,例如,DeiT-S、Swin-T和ResNet50。如表7所示,我们在这些主干上实现了一致的性能提升。具体来说,我们改进了DeiT-S为+0.7%,Swin-T为+0.3%,ResNet 50为+0.5%,在训练过程中几乎没有额外的计算成本。所有结果验证我们提出的目标分数分配与CutMix的兼容性掩码采样策略。表8显示了不同采样策略对变压器和卷积神经网络的影响,如图7所示。基于区域的抽样,广泛用于[36,23,33],削减表9:面罩取样策略的消融。基于块的策略通过标签细化获得了更高的准确性。一个大的矩形区域,图像.我们提出的TokenMix直接在token级别进行切割。我们比较了我们的方法的两个设置,根据我们在第3.2节中的描述屏蔽多个块(基于块)或单独屏蔽单个令牌(随机)。为了更好地检验单独抽样策略的影响,在所有实验中在表8中,我们直接使用CutMix生成目标分数,而不是我们的。所示模型掩模优化Top-1 Acc.表8,基于区域的策略在ResNet50上实现了不错的性能,但在变压器上性能下降,这验证了我们关于使用基于区域的切割训练变压器的次优性的论点。与随机相比,[29]第二十九话72.272.772.7[29]第二十九话79.880.680.6DeiT-T72.7美元随机数72.9(+0.2)区块72.7✓73.2(+0.5)DeiT-S80.6元随机数80.680.6元区块80.8(+0.2)+v:mala2255获取更多论文14 Liu等人。表10:训练的消融表11:损失函数的消融-时期。TokenMix享有更长的作用。二进制交叉熵(BCE)训练。额外的100个epoch改进了TokenMix,相比之下,训练提高了+0.4%的准确率。混合方法Epoch Top-1 Acc.[36]第300话40079.9(+0.1)TokenMix300 80.840081.2(+0.4)多类交叉熵(CE)。混合方法损耗类型Top-1 Acc.[36]第三十六话公元前79.8年TokenMixCE 80.3公元前80.8(+0.5)策略,基于块的策略在transformer上实现了类似的性能,但在ResNet50上表现得更好。当使用我们提出的目标分数分配方法时,我们进一步比较了随机和基于块的采样策略。如表9所示,我们最终解决方案中使用的基于块的策略始终具有更高的准确性。实验结果进一步验证了所提出的TokenMix算法的有效性。训练时间。 表10列出了较长时间培训的结果。由于教师网络的神经激活映射生成的目标可以为训练变压器提供更合适的分数和更具挑战性的样本,这减轻了过度拟合方案的风险,因此我们提出的TokenMix可以享受更长的如表10所示,我们的TokenMix改进了DeiT-S,+0.4%,额外100个训练时期,而使用CutMix进行长时间训练则没有那么有利。损失函数。 由于混合图像可能包含不同类别的多个对象,因此我们采用二进制交叉熵(BCE)损失而不是典型的交叉熵(CE)损失[35,2]。当使用我们提出的TokenMix进行训练时,使用BCE损失可以提高DeiT-S的准确率+0.5%(表11),因为剪切和粘贴操作可能会生成具有不同类别的多个对象的混合图像这可能是因为CutMix生成的目标是次优的,我们没有注意到在使用CutMix增强训练DeiT-S时用BCE替换CE的性能改进。7结论在本文中,我们提出了TokenMix,一个令牌级的增强策略,可以很好地推广到各种基于transformer的架构。TokenMix受到两个关键观察结果的激励:1)区域级混合对于基于transformer的架构来说不太有益,2)用线性组合分配混合图像的目标可能不准确,甚至违反直觉。我们提出的TokenMix直接在令牌级别进行切割,并使用基于内容的神经激活图获得混合图像的目标实验结果表明,令牌混合具有增强遮挡鲁棒性和帮助视觉变换器专注于输入图像的前景区域的属性。此外,TokenMix+v:mala2255获取更多论文TokenMix 15不 断 改 进 各 种 基 于 变 压 器 的 架 构 , 包 括 DeiT 、 PVT 和 SwinTransformer。致谢李洪生亦是感知与互动智能研究中心(CPII)的首席研究员。这项工作部分由香港专业进修学院资助,部分则由香港研究资助局的“香港研究资助基金”拨款资助。14204021,14207319),部分由中大策略基金资助。8附录8.1培训详情ImageNet-1 K我们的培训收据遵循监督ViT培训的常见做法默认设置见表12。表12:ImageNet-1 K上的训练设置。 安装可选配置。配置值[22]第二十二话学习率0.001重量衰减0.05批量1024学习率时间表余弦衰减预热时期5训练时期300增强RandAug(9,0.5)[9]标签平滑[27] 0.1[15]第十五话[38]第38话[36]第36话TokenMix 10.5ADE 20 K为了转换到ADE 20 K,我们直接遵循任务层和SETR-PUP[25]中描述的大多数超参数。详细的超参数见表13。8.2ImageNet示例我们在ImageNet-1 K中可视化了一些示例(图8),以显示目标类的突出区域和前景区域之间的+v:mala2255获取更多论文16 Liu et al.表13:ADE 20K上的训练设置。配置值[19]第十九话学习率0.001重量衰减0.05批量16学习速率调度线性预热步骤1500训练步骤160K输入分辨率512× 512图图8:ImageNet-1 K的示例橙色框表示目标类的前景红框表示最突出的区域。+v:mala2255获取更多论文TokenMix 17引用1. Bao,H.,东湖,Wei,F.:Beit:Bert图像转换器的预训练。arXiv预印本arXiv:2106.08254(2021)2. 请,L., H'enaff,O.J., Kolesni kov,A.,Zhai ,X.,奥 德 ,A.v.d.:imagenet用完了吗?arXiv预印本arXiv:2006.07159(2020)3. Brock,A.,De,S.,史密斯,S.L.,Simonyan,K.:无需归一化的高性能大规模图像识别。arXiv预印本arXiv:2102.06171(2021)4. Chefer,H.,Gur,S.,沃尔夫,L.:Transformer的可解释性超出了注意力可视化。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 7825. 陈杰,Sun,S.,他,J.,托,P.H.S.,Yuille,A.L.,Bai,S.:Transmix:参与视觉转换器的混合。ArXivabs/2111.09833(2021)6. 陈佩,Liu,S.,赵,H.,Jia,J.:网格掩码数据增强。arXivabs/2001.04086(2020)7. Cubuk , E.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功