ViTs在分布偏移下的泛化能力：DS分类法与GE-ViTs方法的研究

180 浏览量更新于2023-10-25 收藏 1001KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7277分布移位张崇智1，*，张明远2，*，张上杭3，*，靳岱生1，周强4，蔡忠昂2，5，赵海宇2，5，刘祥龙1，刘紫薇2，R1北京航空航天大学2南洋理工大学3北京大学4AIR、清华大学5上海人工智能实验室摘要视觉转换器（ViTs）在各种视觉任务上取得了令人印象深刻的性能，但它们在分布偏移（DS）下的泛化却很少被理解。在这项工作中，我们全面研究了ViTs的分布外（OOD）推广。为了系统地说明，我们首先提出了DS的分类法。然后，我们在不同DS下对ViT变体进行了广泛的评估，并将其推广与卷积神经网络（CNN）模型进行了比较。获得了重要的观察结果：1）ViTs对背景和纹理的学习偏向较弱，而对形状和结构的归纳偏向较强，更符合人类的认知特点。因此，ViT在DS下比CNN更好地生成。在相同或更少数量的参数下，在大多数类型的DS下，ViT在前1精度方面领先于相应的CNN超过5%。2）随着模型规模的增加，ViTs加强了这些偏差，从而逐渐缩小了分布和OOD性能差距。为了进一步提高ViTs的泛化能力，本文从对抗学习、信息论和自监督学习的角度设计了泛化增强ViTs（Generalization-Enhanced ViTs，GE-ViTs）。通过全面研究这些GE-ViT并与相应的CNN模型进行比较，我们观察到：1）对于增强模型，较大的ViT仍然更有利于OOD泛化。2）GE-ViT比其相应的CNN模型对超参数更敏感。我们设计了一个更平滑的学习策略，以实现稳定的训练过程，并从vanilla ViTs中获得4%的OOD数据性能改进我们希望我们的综合研究可以揭示更普遍的学习架构的设计。代码和数据集在https://github.com/Phoenix1153/ViT OOD泛化中发布。*这些作者对这项工作的贡献是相同的。R通讯作者。1. 介绍最近，Transformer在视觉任务中取得了显著的成就，例如，图像分类[7，8，27]、对象检测[4，36]和图像处理[6]。尽管在标准基准测试中取得了令人鼓舞的性能，并且在最近的工作中揭示了几个属性[1，5，20，21]，但视觉变换器（ViTs）的泛化能力仍然不太了解。虽然传统的训练测试场景假设用于模型评估的测试数据与采样的训练数据是独立同分布的（IID），但这种假设并不总是适用于现实世界的场景。因此，分布外（OOD）泛化是机器学习模型的一种非常理想的能力。最近的研究表明，当前的CNN架构在各种分布偏移（DS）上的推广效果很差[11，13，14]，而对ViTs的研究仍然很少。因此，在本文中，我们主要致力于深入研究在DS下ViTs的 OOD为了全面研究面向对象的推广能力的ViTs，我们首先定义了一个分类的经常出现的DS的基础上修改的语义概念的图像。通常，用于分类的图像包含前景对象和背景信息。前景对象由分层语义概念组成，包括像素级元素、对象纹理和形状、对象部分和对象本身[35]。分布的变化通常会导致一个或多个语义的变化，因此我们将DS分为四个概念组：背景变换、破坏变换、纹理变换和风格变换。在DS分类的基础上，我们通过与CNN的比较，研究了每种情况下ViTs的OOD generalization。虽然模型希望推广到任意OOD场景，但机器学习的无免费午餐定理[3，12，32]表明，不存在完全通用的学习算法，并且任何学习算法都会隐式或显式地在某些分布上推广得更好，而在其他分布上推广得更差。因此，需要一些归纳偏差集来获得泛化。因此，我们认为，7278为了实现人类水平的泛化能力，机器学习模型应该具有与世界上的人类先验最相关的归纳偏差。已经有许多尝试将归纳偏差注入深度学习模型，人类可以利用这些模型在意识处理水平上进行认知操作，例如卷积[16]和自我注意机制[29]。因此，我们研究变压器是否配备了诱导偏差，更相关的人类认知特征，以更好地调查下DS ViTs的泛化性能。广泛的评估揭示了以下关于ViTs的OOD概括的观察结果：1）ViTs对背景和纹理的学习偏好较弱，而对形状和结构的归纳偏好较强，这与人类的认知特征更一致。因此，在大多数情况下，ViTs比CNN更好地推广。具体而言，ViT不仅在OOD数据上实现了更好的性能，而且在IID和OOD数据集之间具有更小的泛化间隙。2）随着模型规模的增加，ViTs会强化这些偏差，从而逐渐缩小IID和OOD的泛化差距，特别是在腐败转移和背景转移的情况下。换句话说，越大的ViT越能减少局部变化的影响。3）用较大的补丁大小训练的ViT更好地处理纹理移位，但在其他情况下较差。在验证了ViTs在处理面向对象数据方面的优越性后，我们着重于进一步提高其泛化能力。具体来说，我们从对抗训练[10]、信息论[24]和自我监督学习[34]的角度设计了泛化增强型ViTs（GE-ViTs）配备GE-ViT后，我们实现了显著的性能提升，OOD数据比普通ViT提高了4%。通过对不同模型的深入研究，我们得出以下结论：1）对于增强的Transformer模型，越大的ViT越有利于OOD的推广。2）GE-ViT比其相应的CNN模型对超参数更敏感。2. 相关工作视觉变形金刚。最近，变形金刚已被应用于各种视觉任务，包括图像分类[7，8，27]，对象检测[4，36]，分割[31]和图像处理 [6]。其中，Vision Transformer（ViT）[8]是第一个应用于图像分类的完全Transformer模型，与最先进的CNN竞争。它严重依赖大规模数据集进行模型预训练，需要大量的计算资源。稍后[27]提出了数据高效的图像Transformer（DeiT），它通过简单地改变ViT的训练策略，在由于它的效率，我们使用这一系列的模型来研究推广表1. 我们的分类DS的插图。我们根据从原始图像修改的语义概念的种类来建立税收制度，并将DS分为四种情况：背景变换、腐败变换、纹理变换和风格变换。表示在某些类型的DS下未修改的视觉线索。前景像素纹理形状结构背景移动腐败的转变纹理转换风格转换《变形金刚》在本文中分布外泛化。近年来，面向对象的广义化研究受到了广泛的关注. 大多数领域自适应文献旨在通过访问未标记的目标数据来提高模型OOD泛化的另一种设置集中在学习表示而不访问目标数据，通常称为域泛化[9，17，30]。此外，最近的一些作品在他们新构建的基准上对OOD泛化进行了建模[11，13，14]。尽管最近的文献[1，5，20，21]已经研究了ViTs的一些性质，但ViTs的推广仍在探索中。3. 分布偏移和评价方案3.1. 分布转移为了更广泛地研究面向对象的泛化，我们根据从原始图像修改的语义概念的种类建立了DS的分类因此，我们将DS分为四种情况：背景移动，腐败移动，纹理移动和风格移动，如Tab所示1.一、精心划分的DS允许我们分别研究模型对每个视觉线索的偏差• 背景变化。在图像分类任务中，图像背景通常被视为将图像分配到相应标签的辅助线索然而，先前的工作已经表明背景可能在预测中占主导地位[2，23]，这对我们来说是不希望的。我们专注于该模型的不变性对背景变化，从而定义的背景变化。ImageNet-9[33]用于背景偏移。• 腐败的转变。[14]中提出了腐败的概念，它代表那些自然发生的邻近杂质混合在图像中。这些损坏要么来自拍摄阶段的环境影响，我们将这些情况定义为腐败转移，它只影响对象像素级元素，但仍然会导致模型的性能明显下降。ImageNet-C[14]用于检查腐败移位下的泛化能力。轮班类型背景7279×−LLΣLLH ··=1·--Lˆ• 纹理转换。一般来说，纹理给我们提供了关于图像中颜色或强度的空间排列的信息，这对于分类器获得正确的预测至关重要。因此，对象纹理的替换可以影响模型预测。我们将这些变化定义为纹理移位。线索冲突刺激和风格化的ImageNet[11]用于研究纹理移位下的泛化• 风格转变。通常，风格是一个复杂的概念，由描述艺术品的特征决定，如形式，颜色，构图等。风格的变异往往体现在多个概念层面上，包括质地、形状和对象部分等。ImageNet-R [13]和DomainNet [22]用于风格转换的情况。3.2. Model Zoo• 视觉Transformer。我们遵循DeiT [ 27 ]中的实现，并选择一系列具有不同尺度的模型进行实验。ViT架构将分辨率为N N的非重叠连续图像块的网格作为输入。在本文中，我们通常使用N=16（除了官方的DeiT模型外，我们还利用数据高效训练方案来训练ViT-L/16和ViT-B/32，并将它们重命名为DeiT-L/16和DeiT-B/32。• 大转移。Big Transfer模型[15]是基于ResNet-V2模型构建的。我们选择BiT-S-R50 X1是基于ResNet-50主干。除了正式实现之外，我们还使用相同的数据训练了一个版本IID/OOD泛化差距，用于衡量分布偏移引起的性能差异：间隙（F，C; D iid，D ood）= Acc（F，C; D iid）Acc（F，C; D ood）。（二）4. 泛化增强ViTs在研究了ViTs的OOD泛化属性之后，很自然地会找出进一步改进它们的策略。因此，我们进一步从对抗训练[10]，信息论[24]和自监督学习[34]的角度设计了广义增强ViTs（GE-ViTs）通过对这三种设计方案的比较，我们得出了最适合GE-ViTs的设计方案。4.1. 对抗性学习为了学习域不变表示，我们引入了一个域映射[10]，以促进主干通过对抗训练产生域混淆特征。具体地，如图1（a）所示，网络由共享特征编码器F、标签预测器C和域分类器D组成。特征编码器的目标是最小化所有样本的域混淆损失ADV和标记源样本的标记预测损失 CLS ，而域分类器的重点是最大化域混淆损失LADV。总体目标是：DeiTs的增强策略进行比较。我们分别将它们命名为BiT和BiTda。3.3.评估协议在图像分类任务中，模型通常包括LCLS=（x，y）∈DsLADV=100H（σ（C（F（x），y），（3）H（σ（D（F（x），yd），（4）特征编码器F和分类器C。假设模型在训练集Dtrain={（xi，yi）}Ntrain上训练。（x，yd）∈Ds，DTˆ ˆi=1我们分别引入一组独立同分布式（IID）验证数据Diid={（xi，yi）}Niid和a（θF，θC）= arg minCLS+λadvADV，（5）θF，θCi=1N分布外（OOD）数据集Dood=（xi，yi）iood在同一个语义空间中。Ntrain、Niid、Nood分别表示Dtrain、Diid、Dood中的数据数量然后我们使用以下评估。• OOD数据的准确性。直接测量是计算OOD数据集的准确度：θD=arg maxADV，（6）θD其中y和yd表示类标签和二进制域标签分别。σ（）代表Softmax函数，（，）返回两个输入分布的交叉熵。λadv是通过[10]中提出的调度从0逐渐改变到1的自适应系数此外，为了便于训练，应用梯度反转层（GRLAcc（女、中、女）1好）=1（C（F（x））=y），实现两个部分的相反目标。|（x，y）∈ Dood|(x, y)∈Dood其中1是指示器函数。（一）4.2. 极小极大熵我们利用条件上的极大极小过程7280• IID/OOD泛化差距。本文还专注于一个模型如何表现出OOD数据与IID数据的比较因此，我们使用目标数据的熵[24]，以减少分配差距同时学习任务的区别特征。为管道如图所示1（b），基于余弦相似性的7281LΣ|H··|H ····LLθCH·H ··J j=1J j=1形成了域内典型的自我监督缺失R 我SI班级之间联系我们我我6LCLS6 个6LCLS6摄源域标签预测器LCLSCTransformer类编码器令牌目标域F域分类器DLADV6LADV−adv 6��F6LADV6 天源域6LCLS6 个6LCLS6摄氏度Transformer编码器F类令牌l2归一化余弦LCLS分类器C目标域LE梯度反转层−e6LE6LE6摄氏度e6F(a) （b）T-MMELCLSLMIM(c)T-SSL图1. 三个设计的概括增强ViT的框架概述。所有网络都使用ViT F作为特征编码器和标签预测头C。在此设置下，模型的输入具有标记的源示例和未标记的目标示例。a）T-ADV通过引入用于领域对抗训练的领域分类器D来促进网络学习领域不变表示。b）T-MME利用目标数据的条件熵的最小最大过程来减少分布间隙，同时学习任务的区分特征。该网络使用基于余弦相似性的分类器架构C来产生类原型。T-SSL是一个端到端的基于原型的自监督学习框架。该体系结构使用两个存储体Vs和Vt来计算簇的质心。余弦分类器C用于该框架中的分类。分类器体系结构C被用来产生类原型。余弦分类器C由权重向量W =[w1，.， wnc]，其中n c表示类别的总数，以及温度T。 C取F（x）的2次方正规化F（x）作为输入和输出1WTF（x）。其关键思想是最小化距离T <$F（x）<$原型和邻居，未标记的目标样本，从而提取有区别的目标特征为了克服标记源数据对原型的主导影响，通过最大化未标记目标示例的熵E同时，特征提取器的目标是最小化未标记样本的熵，使它们更好地聚集在原型周围因此，minimax4.3. 自我监督学习我们将端到端的原型自我监督学习框架[34]集成到ViT中。如图 1（c）中，该框架还使用如在Sec.1（c）中介绍的余弦分类器C。四点二。它首先将数据的语义结构编码到嵌入空间中。 ProtoNCE [18]分别应用于源域和目标域。具体地，维持两个存储体Vs和Vt以存储来自源和目标的每个样本的特征向量。这些向量在每批处理后用动量更新k-means聚类是在内存组上执行的，以生成标准化的原型µ sk和µ tk。然后计算出归一化源特征向量之间的相似性分布向量过程在权重向量和FEA之间被公式化真提取器此外，标签预测损失为F（xs）fi=F（xs）我从当前批处理和规范化源LCLS原型{µs}k作为Ps =[P s，.，P s]，其中P s=也用于源样本。总体目标是：j j=1iSSi，1i，ki、jexp（µj·fi/µ）克什蒂尔克LCLS=exp（µs·fs/Ω），其中Ω为温度值。然后（x，y）∈Ds如：LIS=0|Ds|H（P s，c s（i））+H（P s，c s（i））|Dt|H（Pt，Ct（i）），其中LE=H（σ（C（F（x），（8）x∈DtθF=argminCLS+λeE，（9）θFθC=argminLCLS−λeLE，（10）其中（，）返回两个输入分布的交叉熵，（）返回熵。λe是平衡两个损失项的系数。6LCLS6 个月埃里西源域6L是6 个更新6LCLS6摄氏度规范化源原型k-均值源存储体Transformer编码器F类令牌L 2 正常化L是余弦分类器C目标域标准化目标原型k-均值目标存储体更新6 LMIMMIM 6C6LMIMMIM 6F源数据转发目标数据转发所有数据转发6L6源数据向后6L6目标数据向后6L6所有数据向后H（σ（C（F（x），y），（7）r=1i=1i=17282cs（）和ct（）返回样本的聚类索引，返回集合的基数。（，）返回两个输入分布的交叉熵。此外，由于期望网络具有高置信度和多样化的预测，因此设定目标以使输入图像和网络预测之间的互信息最大化该目标分为两个方面：期望网络预测的熵最大化和网络输出的熵最小化因此，对象iv e被公式化为：|x;θ）]−7283IID/OOD泛化差距OOD准确度LH∈H|L LL1009590858020.0805017.5704015.012.5603010.0507.5207570仅原始-FG混合-相同混合随机数混合-下一个5.02.50.0仅FG混合-相同混合随机数混合-下一个4030ImageNet clean噪声模糊天气数字100噪声模糊天气数字BG移位类型（一）BG移位类型（b）第（1）款损坏类型（c）第（1）款损坏类型（d）其他事项图2.ImageNet-9和ImageNet-C上的结果。（a）-（b）和（c）-（d）分别说明了ImageNet-9和ImageNet-C数据集上不同模型的OOD准确性和IID/OOD泛化差距。从（a）和（b）中，我们得出结论：1）ViT的背景偏差比CNN弱，2）更大的ViT提取的是与背景无关的表示。从（c）和（d）中，我们得出结论：1）ViT比CNN更好地处理腐败移位，并且随着模型大小的扩大而更好地泛化，2）ViT确实受益于多样化增强，以增强对邻近杂质的泛化，但它们的架构优势也不容忽视3）训练样本的大小对ViTs的泛化能力影响不大（Ex∈Ds<$Dt [p（y x; θ]）. 训练目标的最后一项是用交叉熵度量的信源域上的监督损失：CLS=（x，y）Ds（σ（C（F（x），y）.最后，总体学习目标如下：（θF，θC）=argmin CLS+λisIS+λmimMIM，（11）θF，θC其中λ是，λmim表示相应损失项的系数5. ViTs泛化分销推广。我们首先在Ima-geNet基准测试上检查不同模型的分布泛化。结果如图所示。2（c）列1，我们有以下意见。1）使用数据有效的训练方案，DeiT模型的表现往往更好，因为规模从小到大，但规模增长的增益逐渐减少。2）具有几乎相同的参数并且都在没有外部数据的情况下训练， DeiT-S/16 可以击败 BiT 和BiTda。5.1. 背景变化概括分析我们利用ImageNet-9，各种前景-背景重组计划，来研究模型对背景信号的偏差。这些数据集使我们能够调查模型决策在多大程度上依赖于背景信号。四种背景位移的OOD精度和IID/OOD间隙结果如图所示2(a)和（b）。- ViT的背景偏差比CNN弱。通过计算具有类相关背景的Mixed-Same和具有中性背景信号的Mixed-Rand之间的准确性差距，我们可以衡量分类器根据图2（a），由ViT实现的较低间隙指示当存在正确前景时ViT较少依赖于相应的背景信号。同样，可以得出结论，基于准确性，ViTs较少被冲突背景Mixed-Same和Mixed-Next之间的间隙。此外，比较两个BiT模型，BiTda在OOD准确性方面优于正常BiT，并实现了更低的IID/OOD差距，表明训练期间的多样化增强发挥了对模型在背景移动数据上的推广有有益的影响。然而，值得注意的是，BiTda获得了更大的Same-Randgap和Same-Nextgap，这表明增强训练方案不能减轻模型因此，ViT的背景偏置比CNN弱，这种特性是由它们的架构带来的。- 更大的ViT提取更背景无关的表示。通过比较不同大小的ViT，我们可以观察到较大的ViT架构有助于更好的OOD性能以及更小的IID/OOD间隙。即使DeiT-L/16也可以将DeiT-B/16的差距进一步缩小同时，较大的ViT也实现了较低的Same-Randgap和Same-Nextgap，表明ViT量表与他们排除无关或冲突背景提供的分心的能力因此，很明显，更大的ViT倾向于将更多的注意力集中在前景上，并学习与背景无关的表示。5.2. 腐败转移泛化分析腐败结果的4个类别平均超过所有子类和所有严重性，如图所示2（c）和（d）段。- ViT比CNN更好地处理腐败变化，并且随着模型大小的扩大而更好地在背景变化的情况下也存在类似的现象，即大多数ViT在所有情况下都在很大程度上领先于BiT模型，并且较大的ViT架构实现了更好的OOD性能并缩小了IID/OOD泛化差距。- ViTs受益于不同的增强，以提高对邻近杂质的推广，但它们的AR-DeiT-B/32DeiT-B/16 BiTDeiT-S/16BiTDeiT-Ti/16OOD准确度IID/OOD泛化差距7284DeiT-L/16DeiT-B/16DeiT-S/16DeiT-Ti/16DeiT-B/32BiTBiTda×8060807050606050 404030 403020202010100IID精度OOD精度IID/OOD 泛化差距评价(a) 风格化的ImageNet0形状精度纹理精度评价(b) 提示冲突刺激0IID精度OOD精度IID/OOD泛化差距评价(c) ImageNet-R图3.Stylized-ImageNet、Cue Conflict Stimuli和ImageNet-R的结果。（a），（b）和（c）分别说明了Stylized-ImageNet，CueConflict Stimuli和ImageNet-R数据集上不同模型的OOD准确性和IID/OOD泛化差距。从（a）和(b) 我们可以得出以下结论：1）ViTs对形状的更强的偏好使得它们在纹理移位下能够更好地泛化，并且它们的形状偏好与它们的大小呈正相关，3）具有较大斑块大小的ViTs表现出更强的从（c）我们观察到，大多数ViT在OOD准确性方面击败了BiT，而在IID/OOD泛化差距方面几乎没有差异不clp pnt relskt平均差距不clp pnt relskt平均差距不clp pnt relskt平均差距不clp pnt relskt平均差距SKTSKTSKTSKT0 20 40 60 80100%(a) DeiT-B/160 20 40 60 80100%(b) DeiT-S/160 20 40 60 80100%(c) 位0 20 40 60 80 100%(d) BiTda图4. DomainNet上的结果。结果表明：1）DeiT-S/16算法在小规模数据集上具有较好的性能。因此，该模型在OOD准确性方面容易优于BiTs。2）当检查IID/OOD泛化差距时，结果差异很大。当模型在剪贴画和绘画上训练时，DeiT-S/16和BiTs之间的差距没有明显差异建筑优势不容忽视。与BiT相比，BiTda在OOD性能和IID/OOD差距方面不断提高约4%，强调了不同增强对模型对像素级偏移不敏感的贡献。然而，大多数ViT模型在两个评估中仍然领先于BiTda- 训练斑块的大小对ViTs的生成能力影响不大虽然DeiT-B/16实现了比DeiT-B/32更高的OOD准确度，但其对应物用更大的补丁大小 32 32 训练，它们的IID/OOD间隙之间几乎没有差异。因此，训练样本的大小对分布内数据到分布外数据的泛化能力有一定的影响，但只对模型分布内的泛化能力有影响。5.3. 纹理平移综合分析Stylized-ImageNet和Cue Conflict Stim的结果如图所示。第3条（a）和（b）款。- ViTs从Stylized-ImageNet上的结果可以观察到，ViT在两种评估下都领先于BiT模型，并且较大的ViT架构实现了更好的OOD性能，这表明ViT更好地处理纹理偏移，并且较大的ViT有助于更好地利用全局语义特征（例如形状和对象部分），并且受局部变化的影响较小。这些现象再次出现在提示条件的结果中，flict Stimuli表明，大多数ViT比BiT实现更高的形状准确度和更低的纹理准确度，这表明ViT对纹理偏移的不敏感性是由于它们比CNN对形状的更强的偏差。同时，随着ViT尺寸的增大，板形精度呈上升趋势，而织构精度呈下降趋势因此，ViTs- 斑块大小越大的 ViTs 越倾向于形状。在 Stylized-ImageNet上，DeiT-B/32在OOD准确率和IID/OOD泛化间隙方面优于DeiT-B/16同时，在提示冲突刺激下，DeiT-B/32受误导纹理的影响小于DeiT-B/16，从而导致更高的形状准确性。因此，具有较大斑块尺寸的ViT对局部纹理特征的依赖较小，并且更多地关注全局高级特征，即它们对形状的偏好较强，对纹理的偏好较低。5.4. 风格转换泛化分析- 在风格转换下，虚拟技术在IID/OOD一般化差距上的表现存在差异。ImageNet-R上的结果如图所示。3（c）款。由于ImageNet-R只包含200个ImageNet类，我们按照[13]记录ImageNet子集（ImageNet-200）的准确性，并将其视为IID结果。当专注于ImageNet-R的准确性时，我们观察到大多数ViTs在OOD准确性方面击败了BiTs，而在IID/OOD泛化差距方面具有相似的性能因此，ViT在从真实图像到艺术再现的一般化方面不具有竞争优势。对于域-56.6436.7552.1274.6926.1944.9529.1944.0267.9628.5752.1535.2448.1571.9026.72%44.7328.2341.5169.1931.03%%CLP81.3935.6759.0745.6934.58CLP80.2133.7255.2543.3936.09CLP75.0328.4849.7836.6136.74CLP75.7927.8548.7337.0137.93PNTS40.3777.2755.3333.2834.28PNTS36.0975.3052.0831.1035.54PNTS30.6370.5849.2925.6735.38PNTS30.7271.2848.5426.3036.09rel54.6448.4086.8341.3138.71rel50.6045.8284.7639.2939.52rel42.8341.0683.3731.4344.93rel42.1841.1482.4632.6443.817285真实绘画素描（一）100806040200真实绘画素描域（b）第（1）款图5. 结构偏差调查。（a）说明了四个域的类降落伞和BiT和DeiT-S的Grad-CAM [25]注意力图的示例。我们将观察到，随着颜色，纹理和形状线索从真实到快速绘制变得越来越少，甚至只有抽象的结构保留在快速绘制中，DeiT-S不断专注于降落伞的关键结构信息，而BiT未能捕捉到这样的基本特征。(b)显示了在不同域上使用real训练的模型的准确性。从结果中，我们可以看到，当测试域包含更少的视觉线索（即从real到quickdraw）时，ViTs和CNN之间的差距因此，我们可以得出结论，ViTs受颜色，纹理和形状特征变化的影响较小，表明ViTs更关注结构。房绘画60402002040房草图60402002040080房Quickdraw6040200204060Net的模型进行比较，主要是对同尺度的模型进行即DeiT-S/16和BiTs，其结果示于图2中。4.第一章我们观察到DeiT-S/16在IID下的小规模数据集上表现更好，因此该模型在OOD准确性方面轻松优于BiTs。当检查IID/OOD通用化差距时，结果差异很大。当模型接受剪贴画和绘画训练时，DeiT-S/16和BiTs之间没有明显的差异。但实际上，DeiT-S/16领先BiT超过4%，这可以解释为，如果预训练数据和下游数据来自相似的分布，ViT可以更好地利用来自预训练数据的知识- ViTs对客体结构有较强的偏向性。我们进一步研究了当其他可用的视觉线索逐渐退化，直到只剩下结构信息时，模型将如何表现。我们在图中展示了四个领域的类降落伞和BiT和DeiT-S的Grad-CAM [25]注意力图的示例。第五条（a）款。我们将观察到，随着颜色、纹理和形状线索从真实到快速绘制的信息越来越少，甚至只有抽象的结构保留在快速绘制中，DeiT-S不断地集中在降落伞的关键结构信息此外，我们还测试了在不同领域使用real训练的模型的准确性。由于quickdraw中有相当数量的无法识别的数据，我们排除了ViT和CNN的准确率低于10%的类别。我们将结果显示在Fig.5（b），从中我们可以看到，当测试域包含较少的视觉线索（即从真实到快速绘制）时，ViTs和CNN之间的差距越来越大。基于上述观察和分析，我们可以得出结论，ViTs受颜色，纹理和形状特征变化的影响较小，表明ViTs更关注结构。- ViTs将消除不同层中不同级别的DS。我们在图中所示的Do- mainNet中选择了一组四个域的类。5（a）和类别清单见补充材料。通过提取中间类标记并进行降维4020020404020204040200204060通过T-SNE技术[28]，我们生成了(a) 相对于pnt，L8(b) 相对于skt，L8(c) 相对于qcd，L8房Quickdraw第8层和第12层的类令牌数据来自四个域，分别显示了真实与真实的对比。绘画，604020020406040202040604020020406060402002040真实与草图和真实与快速绘制。如图在图6中，我们可以首先从第一行中的图片观察到，来自不同域的数据仅在第8层的真实与绘画条件下在一定程度上聚集在一起。至于真实与草图，数据变得很好地聚类，直到(d) 相对于pnt，L12(e) 相对于skt，L12(f) 相对于qcd，L12层12（图6（e）），而真实vs. quickdrawcon--图6. T-SNE可视化结果。（a）-（c）和（d）-（e）分别示出了来自四个域的层8和层12的真实与绘画、真实与草图以及真实与快速绘制的可视化类令牌数据的比较请放大以获得更好的视图。版本无法将来自不同域的数据混合在一起，但存在决策边界，可以在第12层很好地划分两个域的不同类别的数据（图2）。（见第6（f）段）。从上述分析，我们得出结论，ViTs将消除不同层次的DS的不同水平。DeiT-B/16DeiT-S/16BiTBiTda房草图402002040600房绘画40200204060DeiT-S位原始精度7286不含AA，adv：0 0.1含AA，adv：0 0.1含AA，adv：0 1不含AA，e：00的情况。1含AA，e：00的情况。1含AA，e：1确认准确度确认准确度10010010080 80 8060 60 6040 40 4020 20 2000 2000 4000 6000 800010000训练步骤(a) T-ADV00 2000 4000 6000 800010000训练步骤(b) t-Mme00 2000 4000 6000 8000 10000训练步骤(c) T-SSL图7. 不同训练策略下的泛化强化方法研究。（a）-（c）示出了源域和目标域上的训练曲线。从结果中，我们可以得出结论，CNN上的经典训练策略（绿线）不适合ViT，ViT需要更平滑的策略（红线）来对齐两个域中的特征。表2. 泛化增强方法的结果。具体来说，我们比较了三种类型的GE-ViT与其相应的CNN。从结果中，我们可以得出结论：1）配备了GE-ViT，我们实现了显著的性能提升，从vanillaViT到分布外数据提高了4%。2)三个GE-ViT在OOD准确性上与 vanilla 模型具有几乎相同的改进。 3 ）对于增强的Transformer模型，较大的ViT仍然更有利于分布外泛化。模型法R到CR与PP到CC至SS至PR与SP至RAvg.-54.6448.4040.3745.6936.7541.3155.3346.07DeiT-B/16T-ADV58.1950.8541.9151.1846.1247.4755.6550.20t-Mme60.5951.9842.3050.3245.7947.9254.8750.54T-SSL56.8049.0645.9651.7946.9545.9560.9851.07-50.6045.8236.0943.3935.2439.2952.0843.22DeiT-S/16T-ADV53.6047.8437.9947.1041.6141.9452.8246.13t-Mme56.8649.1538.9746.4842.9542.0752.4947.00T-SSL53.8646.7142.7947.2543.0140.9457.0747.37-42.1841.1430.7237.0128.2332.6448.5436.78[10]第十话45.2042.8632.9640.4436.6335.2649.2540.37[第24话]50.2144.6134.7540.2738.4137.8347.5841.95SSL [34]52.5542.8039.0345.7239.0839.6556.0744.98-39.3937.3226.3632.9625.5527.7945.7033.58VGG-16DANN [10]43.2640.0928.6836.2231.6335.4544.7337.15[第24话]42.6542.4627.4136.9333.9432.5845.8737.41SSL [34]43.7941.8832.1935.7336.9931.0555.1839.546. 广义增强ViTs设置. 我们使用DomainNet [22]进行以下实验。在[24]之后，我们关注Tab中列出的7种场景。二、为了进行充分的比较，我们在两个代表性的CNN VGG-16和BiT以及两个ViT（包括DeiT-S/16和DeiT-B/16）上实现了这些增强技术我们探索他们的表现上的香草版本和泛化增强版本。实施细节见补充材料。性能分析。与CNN比较的三种GE-ViT的结果二、从结果中，我们得到以下观察结果：1）配备了GE-ViT，我们实现了显著的性能提升，从普通ViT到分发外数据提高了4%。2）三个GE-ViT模型在面向对象设计精度上与普通模型几乎相同。相比之下，CNN从自监督学习方法中受益更多。3）DeiT-B/16在这些增强方法上比DeiT-S/16具有更大的增益。因此，我们得出结论：1）ViTs和CNN具有许多共同的特征，两者都可以从泛化增强方法中受益。（2）对于增强的Transformer模型，更大的ViT仍然更有利于分布外泛化。平滑特征对齐。图图7示出了具有不同训练策略的GE-ViT的性能绿线代表CNN中使用的相同训练策略。其他两条线使用更平滑的策略。通过对这些策略的比较，我们观察到：1）通常使用的自动增强方案会导致T-ADV的性能下降，而对T-MME和T-SSL的影响很小。（2）更平滑的学习策略对ViT收敛有对于T-MME和T-SSL，辅助损耗的平滑性也显著提高了性能。基于这些观察结果，我们得出结论，GE-ViTs比其对应的CNN模型对超参数更敏感7. 讨论和结论我们对ViTs的OOD生成进行了全面研究，贡献如下：1）根据图像中修改的语义概念定义了数据分布变化的分类法。2）对ViTs在五类分布变换下的OOD推广和归纳偏差性质进行获得了几个有价值的意见。3）通过对抗学习、信息论和自监督学习设计GE-ViTs，进一步提高ViTs的OOD泛化能力，并我们的工作是一个早期的尝试，因此有足够的空间来开发更强大的GE-ViTs。更广泛的影响。本文中使用的一些模型需要大量的计算资源用于训练过程。电力消耗可能对环境造成影响。确认这项工作得到了NTU NAP的支持，并在RIE 2020产业联盟基金-产业合作项目（IAF-ICP）资助计划下不含AA，IS：0 0.1含AA，IS：0 0.1含AA，IS：1确认准确度7287引用[1] 白雨彤，梅洁如，阿兰·尤耶，谢慈航。变压器比cnn更坚固吗？arXiv预印本arXiv：2111.05464，2021。一、二[2] Andrei Barbu 、 David Mayo 、 Julian Alverio 、 WilliamLuo 、 ChristopherWang 、 DanGutfreund 、 JoshTenenbaum和Boris Katz。Objectnet：一个大规模的偏差控制数据集，用于推动对象识别模型的极限。神经信息处理系统的进展，32：9453- 9463，2019。2[3] 乔纳森·巴克斯特。归纳偏差学习模型人工智能研究杂志，12：149-198，2000。1[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。计算机视觉中- ECCV 2020 -第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议记

下载后可阅读完整内容，剩余1页未读，立即下载