引导ViT：利用归纳偏差解放视觉变形者

144 浏览量更新于2023-10-25 收藏 944KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8944引导ViT：将视觉变形者从预训练中解放出来张浩飞1，张伟，段佳瑞1，段伟，薛梦琪1，宋杰1，†，孙立1，宋明丽1，21浙江大学2浙江大学摘要近年来，视觉变换器（ViTs）发展迅速，并开始挑战卷积神经网络（CNN）在计算机视觉领域的统治地位。随着通用Transformer架构取代卷积的硬编码感应偏置，ViT已经超过CNN，特别是在数据充足的情况下。然而，ViT容易在小数据集上过拟合，因此依赖于大规模的预训练，这花费了大量的时间。在本文中，我们努力将ViT从预训练中解放出来，将CNN的诱导偏差引入ViT，同时保留其网络架构以获得更高的上限并设置更合适的优化目标。首先，基于给定的ViT，设计了一个具有归纳偏差的智能体CNN。然后提出了一种Bootstrapping训练算法，通过权值共享的方式对Agent和ViT进行联合优化，ViT从Agent的中间特征中学习归纳偏差. 在CIFAR-10/100和ImageNet-1 k上使用有限的训练数据进行的大量实验显示了令人鼓舞的结果，即归纳偏差有助于ViT以更少的参数显著更快地收敛，并优于传统的 CNN 。我们的代码可在https://github.com/zhfeing/Bootstrapping-ViTs-pytorch上公开获取。1. 介绍卷积神经网络（CNN）[21，23，29，42]的巨大成功使研究人员从手工制作视觉特征中解放出来[14，33]。通过感应偏置[10]，即，CNN专注于局部特征和权重共享，是解决视觉识别任务的有力工具[5，21，36]。然而，这种偏见限制了他们建立更深更大模型的能力，因为他们忽略了长期依赖性[15，18]。近年来，变压器[46]被提议用一般的-*同等贡献†通讯作者，电子邮件：sjie@zju.edu.cn图像CNN特工权重共享归纳偏差视觉Transformer图1.说明我们提出的方法，优化视觉变压器有效地没有预先训练。根据具有共享权重的ViT的网络架构构建代理CNN，并且ViT从代理的中间特征和预测中学习归纳偏差。目的网络架构在自然语言处理（NLP）。完全依赖于多头注意力机制（MHA），Transformers具有天生的能力来捕获语言令牌内的全局依赖关系，并已成为NLP中事实上首选的数据驱动模型[2，17，35]。受此启发，越来越多的研究人员将Transformer架构引入计算机视觉（CV）领域[4，18，45，56]。事实证明，一个令人鼓舞的发现是，视觉变换器（ViT）在具有类似数量的参数的情况下大幅优于最先进的（SOTA）CNN。尽管取得了令人瞩目的成就，但ViTs的性能不佳，特别是没有足够的注释或强大的数据增强策略[8，18，45]。造成这种情况的原因有两方面：一方面，ViTs中广泛采用的多头自注意机制（MHSA）具有针对卷积的密集连接[11]，这在没有先验知识的情况下难以优化;另一方面，Chen等人，[8]已经说明ViTs倾向于收敛到具有尖锐区域的最小值，通常与有限的泛化能力和过拟合问题有关 [7 ， 25] 。因此， NLP 中Transformers的典型训练方案[2，17]依赖于大规模的预训练，然后对下游任务进行微调，这会消耗大量的GPU （ TPU ）时间和能量 [4 ， 18 ， 45] 。例如，Dosovitskiyet al. [18]花费数千个TPU天来预训练具有3.03亿张图像的ViT自然，它提出了以下问题：我们如何在没有预先训练的情况下有效地优化ViT。8945据我们所知，现有的研究方法主要可以分为两部分。第一种方法试图将感应偏差带回到Transformers中，例如稀疏注意力[6，12，27]和令牌聚合[52]。这种对ViTs的启发式修改将不可避免地导致对大量超参数的复杂调整。第二种方法[8，24，45]旨在为变压器构建合适的具体地，Chenet al. [8]利用锐度感知最小化器（SAM）[20]找到平滑的最小值，而[24，45]通过从预先训练的教师中提取知识来优化trans-former。尽管如此，这些方法仍然需要在中等规模的数据集上进行预训练，例如ImageNet-1 k [29]，如何从零开始有效地训练相对较小的数据集的ViT仍然是一个悬而未决的问题。受利用教师模型指导学生优化方向的蒸馏方法[22，24，45]的启发，在本文中，我们努力在代理CNN的帮助下进一步优化ViT，它也与ViT一起从头开始学习。我们的目标是在不修改其架构的情况下将代理CNN的归纳偏差注入ViT，并设计一个更友好的优化过程，以便ViT可以在小规模数据集上进行自定义，而无需预先训练。为此，我们提出了一种新的优化策略，用于以自举形式训练视觉变换器，以便即使没有在中等规模的数据集上进行预训练或强大的数据增强，当缺乏训练数据时，ViTs仍然具有竞争力。具体地说，如图1，我们首先提出了一个代理CNN设计对应于给定的ViT，并与归纳偏见，代理将收敛速度比ViT。然后，我们在相互学习框架[55]中联合优化ViT和智能体，其中智能体的中间特征支持ViT与归纳偏差，以实现快速收敛。为了减少训练负担，我们进一步将ViT的参数共享给Agent，并提出了一种自举学习算法来更新共享的参数。我们在缺乏数据的设置下对CIFAR-10/100数据集[28]和ImageNet-1 k [29]进行了广泛的实验。实验结果表明：（1）我们的方法成功地将诱导偏差注入ViT，因为它们比从头开始训练的速度快得多，最终超过了智能体和SOTA CNN;（2）自举学习方法可以有效地优化共享权值，而不需要额外的参数集。我们的贡献可归纳为三个方面：1. 我们提出了基于标准ViTs构建的代理CNN，用于使用共享权重和归纳偏差有效地训练ViTs。2. 我们提出了一种新的自举优化算法来优化共享参数。3. 我们的实验表明，通过采用归纳偏差和适当的优化目标，即使没有预训练，ViTs也可以优于SOTACNN。2. 相关工作2.1. 视觉变形金刚凭借强大的自我注意机制，反式前体[46]一直是SOTA和NLP [2，3，17]中的首选模型。受自然语言处理中的反式转换器的巨大成功的启发，研究人员开始引入反式转换器来处理简历任务。ViT [18]是一项开创性的工作，它利用纯Transformer架构进行图像分类，并取得了很大的成功。ViT [9，31，45，48，52，57]的变体进一步用于更复杂的CV任务，例如，语义分割[40，56]和对象检测[4，13]。然而，ViTs依赖于大规模的预训练，并且在有限的训练数据下表现出很差的性能。为了解决这个问题，一些方法试图通过启发式修改将归纳偏差引入ViT，例如，稀疏注意力[6，12，27]，令牌聚合[52]。其他人的目标是提出新的训练计划，为变换器量身定制[8，24，45]。尽管如此，这些方法仍然需要在中等规模的数据集上进行预训练，例如ImageNet-1 k。如何在没有预训练的情况下有效地优化ViTs仍然是一个悬而未决的问题，特别是在小规模数据集上。为了解决这个问题，我们努力在不修改网络架构的情况下将CNN2.2. 知识蒸馏知识蒸馏（KD）[22]是一种有效的模型压缩技术，通过软标签监督将教师的隐藏知识转移给学生为了充分传递知识，FitNets [37]还使用中间特征进行监督，以下工作[39，44，53]从不同方面提取更深层次的信息。最近，相互学习[55]，KD的一个变体，吸引了许多兴趣，因为所有的模型（学生）都在同时相互学习。这种实用的学习策略已被应用于人员重新识别[19，47]，对象检测[49]和面部识别[1，16]。除了相互学习的应用外，一些研究人员还专注于通过引入更多的监督（如中间特征[50]或特征融合[26]）来改善相互学习。受此启发，我们建议利用与ViT联合硬编码的归纳偏差被转移到ViT下的相互学习框架工作与自适应中间特征监督。8946壮举LLY=H∈ΣH ∈∈h=1Σ∈××块权重共享剂输入投影CONVMLPD头变平输入ViT编码器贴片嵌入MHSAFFN头反向传播图2.我们提出的从头开始优化视觉Transformer和代理CNN的方法的说明。代理CNN是根据具有归纳偏差的ViT结构通过广义卷积（CONV）和可配置的向下卷积构造的取样. ViT从自适应中间监督（adaptive intermediate supervision，EMT）和软标签交互中学习智能体的归纳偏差。此外，MHSA和FFN的权重被共享给代理CNN，并通过我们提出的自举学习算法进行训练。3. 方法在本节中，我们首先介绍CNN和ViT的分类。然后，基于卷积层和MHSA层的关系，提出了代理CNN来帮助训练ViT。最后，我们描述了引导优化算法，其中代理和ViT在没有预训练的情况下进行联合优化的工作流程3.1.2 MHSAViTs中的多头自注意机制（MHSA）将视觉令牌序列作为其输入，并且也可以类似于Eq. （一）：HV OH我们的方法在图1中示出。二、3.1. 预赛h=1其中H是磁头的数量，WVO=WVWO是h h h3.1.1卷积两个投影矩阵的组合（WV∈Rd×dk，卷积是CNN的核心部分，它接受二维特征图。为了便于以后的讨论，我们用一系列视觉标记 X=（x1，. . .，xn）Rn×din作为其输入，其中每个都是d维嵌入向量。因此，具有核大小（kh，kw）的卷积的输出序列是X的线性投影之和：NYC=ΦiXWi，（1）i=1其中Φi是表示局部依赖性的硬编码归纳偏差的恒定稀疏矩阵，感受野的大小 N=khkw ，并且投影矩阵WiRdin×dout是可训练的1。值得注意的是，11卷积具有Y=XW的形式，其等效于具有相同投影矩阵W的全连接（FC）层。WORdk×d，d=Hdk），并且RdhRn×n是基于成对相似性计算的密集注意力矩阵线性投影的代币。3.2. CNN特工受Eq的相似性启发。（1）和方程（2）卷积层可以被视为具有稀疏关系矩阵的MHSA层的特殊情况，因此，我们建议基于给定的ViT构建代理CNN，该代理CNN在从头开始训练时将3.2.1广义卷积首先，我们提出了一个广义卷积层，其中其感受野N的大小等于头部MHSA层的编号H，命名为CONV，具有硬编码的感应偏置{Φh}H：H1为简单起见，偏置项被省略。详细推导见附录A。YCONV=Φ hXWh，（3）h=18947HΦY=ΦXW。（4）CONVhy=（×L=“”×一L =L。（7）V一√√¨√MHSA的WVO（2）CONV具有以下形式：(a) ViT的网络架构(b) 基本Agent CNNH乌斯季沃Hh=1令yc和y_c是MHSA和相应共享CONV的输出的第c个到第k个假设输入序列相同（用X表示），则差值yerr=yc−yc可以写为H乌斯季沃H(c) 类res-like agent CNN图3. ViT和我们提议的代理CNN的架构的图示，具有基础和类似res-like的配置。通用卷积（CONV）替代了MHSA，全局平均池化特征替代了ViT中的CLS令牌。此外，在res-like代理中，特征金字塔通过每个块后面的可配置下采样层来实现其中Φ= 1，. -是的-是的，Φ∈ H∈Rn×n是由硬编码的感应偏置{Φ1，. -是的-是的，ΦN′}的最大值在等式2中定义的N ′ = N′ = N ′=N ′ =H′ =2。（一）.3.2.2构造Agent CNN我们从一个标准的ViT模型开始（图1）。3a）具有m个编码器层，并最终构建用于引入CNN的归纳偏差的代理CNN。图3b示出了通过简单地用CONV层替换ViT的MHSA层的基本代理CNN，其引入了稀疏性和局部化偏差。此外，代理中的MLP由两个1 - 1卷积层组成，这相当于Transformer的FFN中的全连接层。h=1其中，Φ_h和Φ_h是矩阵Φ_ h和Φ_h的c次r_ w。由于在矩阵矩阵中不存在多于一个非零元素（在附录A中提供），我们可以通过学习矩阵矩阵的稀疏和局部依赖性来最小化yerr的大小。3.3. 自举优化在本节中，我们将通过引入优化目标和建议的训练策略来描述如何联合优化ViT和Agent3.3.1适应性中间监督为了在不修改ViT架构的情况下将代理的诱导偏差注入ViT 设F（）和F（）表示平坦化的特征映射和代理的第12个编码器层的视觉序列和ViT分别。自适应中间损耗ViT和代理的第三层定义为：此外，由于许多优选的CNN共享特征金字塔架构[21，30，38，54]，（）壮举（（） −一（）V（）2、（6）随着深度的增加，我们构建了最终的res-样代理CNN（在图中）。3c）通过：（1）引入2012 年2月2日第五章∥2¨2一个ResNet风格的输入投影块，包含两个卷积层和一个最大池化层，（2）在每个编码器层之后采用可配置的下采样。通过硬编码的归纳偏差，智能体可以比从头开始训练相应的ViT更快地进行转换，并且具有更高的性能，如图所示。5c.第二个问题。重量分担利用同源网络体系结构，我们提出的代理接受共享的权重从ViT模型，以减少训练负担。由于相当于11卷积和FC层，ViT的每个编码器块中的FFN可以直接由代理共享。此外，当与输出投影共享时，其中，F：=Adapt（F）是自适应特征，从序列插值或二维平均池。我们已经比较了不同的自适应方法。四点三。最后，自适应中间监督是所有分配的层Λ的总和：（）壮举ℓ∈Λ3.3.2优化目标除了中间监督，我们引入了互学习框架[55]，预测概率贴片嵌入Conv1616、位置编码编码器MHSAFFN头CLSFC输入投影Conv1616、位置编码块CONV MLP头GAPFC输入投影转换最大转换77、S2池化33、S2块头CONV MLPDGAP FCFF8948V一L∥∥×V××一SPS（）SSP∇∇∇|∇7：ΘV<$ΘV−λ，ΘA<$ΘA−λ#更新S ss←−∇∇|∇算法1用于在ViT中训练FFN和MHSA层中的共享权重的自举优化器。输入：ΘS：共享权重集合; ΘV，ΘA：分别在ViT和智能体中的私有权重集合;E （ S ）（ ·;ΘS ，ΘV），E（S）（·;ΘS，ΘA）：第1个编码器(a) 自举学习(b) 多任务学习layer of the ViT and agent respectively; λ: learning rate.1：不收敛时做2：计算输入特征图（序列）XV，XA从输入图像到第11个图4.我们提出的自举学习和多任务学习的关系。这里，T1和T2是两个不同的任务（优化目标）。3：YV←E（XV; ΘS，ΘV）4：YA←E（XA; ΘS，ΘA）5：计算梯度ΔV、ΔVw.r.t. ΘS和ΘV（注：指pV）和代理（表示为pA）（ΘA保持为恒定变量）。6：计算梯度A、A相对于ΘS和ΘA分别为（Θ互相学习，L相互=LKD（pV，p<$A，y;T）+LKD（pA，p<$V，y;T），（8）其中p′表示变量p被视为常数向量，即，没有关于前向传播路径中的变量计算梯度，KD是在[22]中定义的具有温度T的知识蒸馏损失，并且y表示输入图像的地面真值标签。首先，优化目标概括为L=αLfeat+βLmutual，（9）α和β是用于平衡这两项的加权超参数。3.3.3自举训练算法自举训练算法在算法1中给出，其中从每个网络计算的梯度被对齐并联合更新共享权重。梯度对齐函数Align（AV）修改来自代理的负梯度方向，如[51]所示。与多任务学习的关系。需要指出的是，自举学习不同于多任务学习.如图4，多任务模型E只接受一个输入X，而对于自举学习，E和E′的输入是不同的。此外，图1中的层E和E′也是相同的 4a共享相同的权重Θ。在我们的情况下，由于我们通过等式1约束每个编码器层的输入之间的差，（7）当yerr足够小时，引导学习将退化为多任务学习。4. 实验4.1. 执行数据集。采用三个广泛使用的图像分类数据集来评估我们提出的方法作为基准，包括 CIFAR-10 [28] ，CIFAR-100 [28]和V保持为常数变量）。V AP P专用权8：ΘSΘS2016年02月01日02：00 - 02：00（V+Align（A V））#以自举方式更新第九章： end whileImageNet-1k [29].特别是，为了模拟缺乏数据的情况，从ImageNet数据集的训练分区中随机提取尽管ViT在以前的方法中需要强大的数据增强[18，45，48，52]，但在我们的实现中，CNN和ViT都只使用几种简单的增强方法进行优化，包括随机重新调整大小的裁剪和随机水平翻转。视觉变形金刚。我们遵循[18]和[45]中介绍的网络架构，对头数和嵌入维数进行了轻微修改ViT的详细设置见选项卡。2，其中ViT-S是一个相对较小的模型，有6层，ViT-B与DeiT [45]相同，有12层。CNN 特工 The agents are constructed according to thegiven ViTs and thus share the same network settings asViTs.此外，在附录B中描述了基础和类似药物的详细配置。训练细节和超参数的选择。我们使用Pytorch [34]框架实现我们的方法。AdamW [32]用于在独立和联合训练方案中优化ViT和代理CNN，学习率为10−3，权重衰减为5 10−2。然而，传统的CNN，如ResNet [21]和Effi-cientNet [43]，通过SGD [41]优化，学习率为510−2和5的重量衰减 10- 4。我们训练240个epoch的所有设置，批量大小为权重共享8949†表1.CIFAR-10和CIFAR-100的比较结果top-1精度、参数数量和FLOP分别报告' '表示预训练的ViT-B的初始权重是从DeiT的官方存储库中获取的。比较设置在“模型”列中分类。蓝色的值表示与从头开始训练的相应ViT相比，前1名的准确性提高。模型方法CIFAR-10 CIFAR-100我们的共享ViT-S 93.72（+6.40）6.28 M 1.37 G 75.50（+14.25）6.30 M 1.37 G表2.ViT和代理CNN的详细配置ViT-S维生素BAgent-S药剂B层数（m）612612隐藏大小（d）288384288384头部（H）9696两个Nvidia Tesla A100 GPU。采用余弦退火作为学习速率的衰减时间表。在我们的方法中涉及几个超参数，包括等式中的α和β（9）和方程中知识蒸馏损失的温度T（八）、我们将α=1、β=10和T=4设置为默认值，敏感性分析在第2节中描述。四点五分。最后，为了保持ViT的容量，我们将中间特征监督设置为线性衰减，并在第二节中比较了不同的衰减策略。四点三。4.2. 实验结果我们使用以下比较设置来评估我们提出的方法：• CNN：独立代理和传统CNN，例如，EfficientNet-B2和ResNet 50。• ViTs：原始ViTs和变体，用于高效训练，例如[12]和[8]。他们都是从零开始训练的。• 预训练的ViTs：在ImageNet-1 k上预训练的视觉变形器，然后根据评估数据集进行微调。• 我们的联合：视觉变形金刚和智能体联合优化，没有权重共享。• 我们的分享：视觉变换器和智能体通过权重共享进行联合优化。CIFAR数据集上的性能。CIFAR-10/100的比较结果见表1。1，其中列出了每个设置的前1个精度、参数数量和FLOP。现将这些发现分列如下。(1)当代理CNN单独训练时，性能很难超过传统CNN，即使ACC#param.FLOPsACC#param.FLOPsEfficientNet-B294.147.71M0.70G75.557.84M0.70GCNNResNet5094.9223.53M4.14G77.5723.71M4.14GAgent-S94.188.66M3.37G74.628.73M3.37G药剂B94.8325.05M9.46G74.7825.91M9.46GViT-S87.326.28M1.37G61.256.30M1.37GViT-S-SAM87.776.28M1.37G62.606.30M1.37GViTsViT-S-稀疏87.436.28M1.37G62.296.30M1.37G维生素B79.2421.67M4.62G53.0721.70M4.62G维生素B-SAM86.5721.67M4.62G58.1821.70M4.62GViT-B-稀疏83.8721.67M4.62G57.2221.70M4.62G预训练的ViT-S95.706.28M1.37G80.916.30M1.37GViT-B†97.1721.67M4.62G84.9521.70M4.62GAgent-S94.908.66M3.37G74.068.73M3.37G我们的联合ViT-S95.14（+7.82）6.28M1.37G76.19（+14.94）6.30M1.37G药剂B95.0625.05M9.46G76.5725.91M9.46G维生素B95.00（+15.76）21.67M4.62G77.83（+24.76）21.70M4.62G药剂B92.66--74.11--维生素B93.34（+14.10）21.67M4.62G75.71（+22.64）21.70M4.62G8950ACCL95759070856580ViT60ViT-Joint55代理-联合VIT共享50代理共享75706560ViTViT-Joint55代理-联合VIT共享50代理共享ViTAgentMutualFeatBoth700 30 60 90 120 150 180 210 240历元(a) CIFAR-10上的精度学习曲线45030 60 90 120 150 180 210 240历元(b) CIFAR-100上的精度学习曲线45030 60 90 120 150 180 210 240历元(c) CIFAR-100的消融研究图5.我们提出的方法的准确性学习曲线和CIFAR-10和CIFAR-100数据集的基线设置具体来说，我们比较了从头开始训练ViT和与代理CNN联合训练的准确性。这里，“共享”和“联合”分别表示在有和没有权重共享的情况下联合训练两个模型。此外，我们比较了（c）中损失项的消融研究的结果，其中“Mutual”表示仅使用互知识蒸馏项L mutual进行训练，而“Feat”表示仅使用自适应中间监督L feat进行训练。此外，单独训练代理模型的曲线被绘制为大多数的归纳偏见都被硬编码到代理中。节中4.4，我们讨论了更多关于代理人的选择（2）在没有预训练或强数据增强的情况下，由于MHSA层的密集连接，ViT表现得很糟糕虽然Chenet al. [8]已经表明，可以使用SAM 优化器优化 ViT ，从中等规模数据集（如ImageNet-1 k）的预训练中解放出来，但它可能不是CIFAR等小型数据集的最佳选择（3）我们提出的方法显著优于基线设置，包括原始ViT和变体。特别是，ViT-S在CIFAR-10上超过原始基线7.82%，在CIFAR-100上超过原始基线14.49%，这超过了具有更少参数的代理和EfficientNet-B2此外，无论是ViTs和代理人都受益于我们提出的方法;但是，在全球接收场的帮助下，ViTs表现得更好。(4)在这样的结果是令人鼓舞的，ViT的权重可以直接转移到硬编码的感应偏置的框架，使得ViT可以利用感应偏置而无需额外的参数集或复杂的修改。此外，我们绘制了我们的准确性学习曲线，表3.在ImageNet-1 k上使用5%、10%和50%注释样本的比较结果。方法5%图像10%图像50%图像ResNet5035.4350.8670.05药剂B35.2847.4668.13维生素B16.6028.1163.40维生素B-SAM16.6728.6664.37ViT-B-稀疏10.3928.9266.01Ours-Joint36.01（+19.41）49.73（+21.62）71.36（+7.96）我们的共享33.06（+16.46）45.75（+17.64）66.48（+3.08）表4. CIFAR-100上联合学习ViT-S方法的消融研究。在“0”列中，“0”表示使用默认设置，“无衰减”表示在整个训练过程中保持恒定的专长的权重β，并且“AP-2D”表示使用2D平均池化作为等式中的自适应函数。（六）、设置相互专长获取训练时间基线平均值61.25 3.3h仅KD 67.16 3.6小时无衰减73.59 3.8h方法以及图中的基线设置。五、它清楚地表明，ViTs可以像CNN和fi一样快速收敛Feat Only价格74.94 3.8hECAP -2D 71.06 6.6小时最终达到比CNN更高的上界两个均无衰减75.15 3.8hImageNet上的性能。在ImageNet-1 k上使用不同数量的标记图像的比较结果显示在Tab中。3，其中随机选择5%、10%和50%的训练图像。CIFAR-10/100数据集的结论仍然适用于ImageNet。特别地，当澳门76.19 3.8小时数据极其缺乏，而其他人则表现出不明显的改善甚至损害。ACCACC758951LLL表5.当使用具有不同网络架构的代理时，在CIFAR-100上的联合训练结果ACCAgent-SViT-S-关节代理-S-关节基地72.7373.1873.79类RES74.7876.1974.064.3. 消融研究1.00.8的0.60.40.20.010208166T12b482400在本节中，我们将深入研究我们提出的方法，以计算损失项的函数（介绍节中3.3.2），不同衰减策略的影响（第3.3.2节）。4.1），和自适应功能（在第3.3.1）。ViT-S的结果在CIFAR-100数据集上报告4.3.1损失条款如图所示，3.3.2，最终优化目标有两项：自适应中间监督专长和相互学习术语相互。我们在Tab中分别使用这两个术语进行监督时，对联合学习设置进行了4，表明两个损失项都对最终结果有贡献。特别是，feat将准确率提高了13.69个百分点。Additionally, learn- ing curvesare plotted in Fig. 5c for better illustration.我们可以观察到，因此，通过中间特征的监督成功地将归纳偏差注入ViT。4.3.2消融衰变策略特性监督衰减策略的影响如表1所示。4.第一章在没有衰减策略的情况下，性能下降了1.35%。这可以解释为，具有归纳偏差的持续监督限制了ViTs学习长程依赖性，从而损害了ViTs的上界。4.3.3适应功能我们用两个中间特征自适应函数来评估我们的方法：1D序列插值（默认）和2D平均池化。比较结果如下所示在选项卡中。4，其中序列插值优于平均池化。4.4. 代理CNN节中在3.2.2中，我们介绍了具有两种不同网络架构（base和res-like）的代理CNN。选项卡. 5表明具有类res-like构型的性能均匀地优于基础剂。62 64 66 68 70 72 74 76 78 80ACC图6.超参数的灵敏度分析。在CIFAR-100上报告了自举学习ViT-S4.5. 超参数的灵敏度分析我们的方法中的超参数的灵敏度分析如图所示。6，包括方程中的α，β。（9）和T在方程。（八）、结果表明，该方法对α和T的变化具有较强的鲁棒性。然而，β具有更显著的影响，因为当使用更多的归纳偏差来监督ViTs时，ViTs表现得更好。5. 结论和未来工作在本文中，我们建议有效地溶解优化的视觉变换器（ViTs），而无需预训练或强数据增强。我们的目标是从卷积神经网络（CNN）到ViT引入诱导偏差，同时保留ViT的网络架构以获得更高的上限，并进一步设置更合适的优化目标。为此，我们建议优化ViT与代理CNN构建对应的ViT的网络架构。ViT通过自适应中间监督和预测概率来学习归纳偏差。此外，本文还提出了一种自举训练算法，通过权值共享的方式对ViT和Agent进行优化.大量的实验已经显示出令人鼓舞的结果，即感应偏置帮助ViTs收敛得更快，并且在参数较少的情况下优于传统的CNN。在未来的工作中，我们将扩展我们的方法超越CNN风格的归纳偏见，并引入更多的解释功能的ViTs。鸣谢。这工作是支持通过浙江省重点研发计划（ 2020 C 01024 ）、 CCF- 百度开放基金（ NO.2021PP15002000 ）、国家自然科学基金（62106220，U20 B2066）、宁波市自然科学基金（2021 J189）、浙江大学上海高等研究院星空科学基金（批准号：SN-ZJU-SIAS-001）和中央大学基础研究基金。的TB8952引用[1] Samik Banerjee和Sukhendu Das。用于退化探针样本人脸识别的transfer-cnn信息互变神经计算，310：299-315，2018。2[2] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan tan ，Pranav Shyam ，Girish Sastry ，AmandaAskell，et al.语言模型是很少机会的学习者。arXiv预印本arXiv：2005.14165，2020。一、二[3] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan tan ，Pranav Shyam ，Girish Sastry ，AmandaAskell，et al.语言模型是很少机会的学习者。arXiv预印本arXiv：2005.14165，2020。2[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在ECCV，第213-229页，Cham，2020中。施普林格国际出版社. 一、二[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 1[6] 陈天龙、程昱、甘哲、陆远、张磊、王张扬。在视觉变换器中追逐稀疏：一个端到端的探索。arXiv预印本arXiv：2106.04533，2021。2[7] Xiangning Chen和Cho-Jui Hsieh。通过基于扰动的正则化稳定可微分体系结构搜索。ICML，第1554-1565页。PMLR，2020年。1[8] Xiangning Chen，Cho-Jui Hsieh，and Boqing Gong. 当视觉转换器在没有预训练或强大的数据增强的情况下优于resnet时。arXiv预印本arXiv：2106.01548，2021。一、二、六、七[9] Zhengsu Chen，Lingxi Xie，Jianwei Niu，Xuefeng Liu，Longhui Wei ， and Qi Tian. Visformer ：视觉友好型Transformer。arXiv预印本arXiv：2104.12533，2021。2[10] Nadav Cohen和Amnon Shashua。通过池化几何结构对深度卷积网络的归纳偏差。 arXiv 预印本 arXiv ：1605.06743，2016年。1[11] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi。自我注意与卷积层的关系。arXiv预印本arXiv：1911.03584，2019。1[12] Gon c a l o M Correia，Vlad Niculae，and And r e 'FT Mar-tins. 自适应稀疏变压器。 arXiv 预印本 arXiv ：1909.00015，2019。二、六[13] Zhigang Dai ， Bolun Cai ， Yugeng Lin ， and JunyingChen. Up-detr：使用变压器进行对象检测的无监督预训练在CVPR中，第1601-1610页，2021年。2[14] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在CVPR，第1卷，第8861[15] 阿斯科利Convit：用软卷积电感偏置改进视觉变换器arXiv预印本arXiv：2103.10697，2021。1[16] Zhongying Deng，Xiaojiang Peng，Zhifeng Li，and YuQiao.互分量卷积神经网络用于异质人脸识别。TIP，28（6）：3102-3114，2019。2[17] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。一、二[18] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器ICLR，2021年。一、二、五[19] 樊心悦，张佳，杨林。基于嵌入噪声块互学习的人物再识别IEEE Access，9：129229-129239，2021。2[20] Pierre Foret、Ariel Kleiner、Hossein Mobahi和BehnamNeyshabur。清晰度感知的最小化，有效地提高泛化。arXiv预印本arXiv：2010.01412，2020。2[21] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。一、四、五[22] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。二、五[23] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger. 密集连接的卷积网络。在CVPR中，第4700-4708页，2017年。1[24] Xiaoqi Jiao ，Yichun Yin，Lifeng Shang，Xin Jiang，Xiao Chen ， Linlin Li ， Fang Wang ， and QunLiu.Tinybert：提取自然语言理解的bert。arXiv预印本arXiv：1909.10351，2019。2[25] Nitish Shirish Keskar ， Dheevatsa Mudigere ， JorgeNocedal，Mikhail Smelyanskiy，and Ping Tak Peter Tang.关于深度学习的大批量训练：泛化差距和尖锐的最小值。arXiv预印本arXiv：1609.04836，2016。1[26] Jangho Kim，Minsung Hyun，Inseop Chung，and NojunKwak.在线互知识检索的特征融合。载于ICPR，第4619-4625页

下载后可阅读完整内容，剩余1页未读，立即下载