没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文用于视觉BERT预训练的自举掩蔽自编码器Xiaoyi Dong1张,Jianmin Bao2,Ting Zhang2,Dongdong Chen3†,Weiming Zhang1,Lu Yuan3,Dong Chen2,Fang Wen2,NenghaiYu11中国科学技术大学2微软亚洲研究院3微软云+人工智能{dlight@mail.,ustc.edu.cncddlyf@gmail.com{jianbao,Ting.Zhang,luyuan,doch,fangwen} @ microsoft.com抽象的。我们提出了自举掩码自编码器(BootMAE),一种新的方法,视觉BERT预训练。BootMAE通过两个核心设计改进了原始的掩码自编码器(MAE):1)动量编码器,提供在线功能作为额外的BERT预测目标; 2)目标感知解码器,试图减少编码器在BERT预训练中记忆目标特定信息的压力。第一个设计的动机是观察到使用预训练的MAE提取特征作为BERT预测目标的掩码令牌可以实现更好的预训练性能。因此,我们添加了一个与原始MAE编码器并行的动量编码器,它通过使用自己的表示作为BERT预测目标来提升预训练性能。在第二种设计中,我们引入目标特定信息(例如,未掩蔽的块的像素值)直接从编码器传送到解码器,以减少存储目标特定信息的编码器上的压力因此,编码器专注于语义建模,这是BERT预训练的目标,并且不需要浪费其容量来记忆与预测目标相关的未掩蔽的tokens的信息 通过大量的实验,我们的BootMAE达到84。在ImageNet-1 K上使用ViT-B主干的Top-1准确率为2%,优于MAE +0。在相同的预训练时期下,8%。Bootmae也得到+1。在ADE 20K和+1上的语义分割方面改进了0mIoU。3箱AP,+1。COCO数据集上目标检测和分割的4掩模AP改进代码发布于https://github.com/LightDXY/BootMAE。关键词:视觉Transformer,BERT预训练,Bootstrap,掩蔽自动编码器1介绍自监督表示学习[56,46,58,63,27,33,12],旨在从未标记数据中学习可转移表示,一直是一个长期存在的问题。在微软亚洲研究院实习期间完成的工作。†陈东东是通信作者。arXiv:2207.07116v1 [cs.CV] 2022年7+v:mala2255获取更多论文2X Dong等.在计算机视觉领域的应用。最近的进展表明,大规模自监督表示学习在具有挑战性的数据集上比监督学习有显着的改进。特别是,视觉变换器的自监督预训练中的掩蔽图像建模(MIM)在各种计算机视觉任务中显示出令人印象深刻的下游性能[24,4],引起了越来越多的关注。MIM的目标是恢复基于剩余的可见补丁的掩蔽区域。本质上,它通过内容预测对图像结构本身进行建模来学习可传递表示。最近的一项工作,掩码自动编码器(MAE)[30],引入了一种非对称的编码器-解码器结构,其中编码器仅对可见补丁进行操作,并且编码器的输出表示与掩码令牌一起被馈送到轻量级解码器中。移位掩码令牌进入小解码器导致计算的大幅减少。除了效率之外,它还实现了具有竞争力的准确性(87.8%),配备了ViT-Huge主干,与仅使用ImageNet-1 K数据的方法在本文中,我们介绍了自举掩码自编码器(BootMAE),一个新的框架,自监督表示学习的两个核心设计。首先,我们观察到,使用与MAE相同的结构设计,只需将MIM预测目标从像素更改为预训练的MAE编码器的表示,就可以将ImageNet分类准确率从83. 4%至83。8%,使用ViT-Base骨架。受此观察的启发,我们建议使用动量编码器来提供额外的预测目标。动量编码器是MAE编码器的时间系综,即,,权重由MAE编码器参数的指数移动平均(EMA)参数化[31,29]。对于每次迭代,我们将完整的图像传递给动量编码器,以提供掩码补丁的地面真实表示,并将掩码图像传递给编码器,然后通过预测器生成掩码补丁的预测。我们假设,随着训练的进行,动量编码器通过引导提供比固定目标动态更深的语义我们保留了MAE中的像素回归分支,作为区分图像的良好此外,它还为模型学习推理低级纹理提供了指导。这种多重监督有助于学习有利于更广泛任务的表示,包括需要低级别信息的高级识别和准确的像素预测。其次,我们提出了目标感知的解码器,试图减少对编码器的压力,以记忆特定的目标信息,并鼓励编码器专注于语义建模,有利于预训练。回想一下,MIM的目标是在给定可见补丁的情况下恢复丢失的区域它基于这样一个事实,即自然图像,无论其多样性如何,都是高度结构化的(例如,建筑物的规则图案,汽车的结构形状MIM的目标是使模型能够理解这种结构,或所谓的语义,或等同于预测目标空间(像素空间或特征空间)中不同块的关系。之后,预测由两个不可或缺的成分:该结构的知识和目标特定的信息(例如,像素值)。然而+v:mala2255获取更多论文BootMAE for Vision BERTPretraining 3先前的MIM方法将两种成分耦合在单个模块中,浪费了模型在“记忆”可见块的目标特定信息方面的能力。相比之下,我们尝试将它们解耦,以便编码器利用它的结构学习的整体模型能力。更具体地说,特定于目标的信息被明确地、连续地给予解码器,就像我们人类在进行视觉预测时总是看到可见的补丁一样总之,如图1所示,我们的框架包含四个组件:(1)旨在捕获结构知识的编码器;(2)从编码器获取结构知识以及用于像素级回归的低级上下文信息的回归器;(3)从编码器获取结构知识和用于潜在表示预测的高级上下文信息的预测器;(4)回归器解码器和预测器解码器中的特征注入模块,负责合并各自必要的目标特定信息。此外,我们发现掩蔽策略对于这两个不同的预测目标至关重要。他们喜欢不同的伪装策略。特别地,像素回归依赖于随机掩蔽,而逐块掩蔽对于特征预测更好原因可能是逐块掩蔽倾向于去除大块,这对于像素回归来说是一项艰巨的任务,因为像素回归严重依赖于来自本地邻居的提示进行预测。而对于不受精确像素对齐约束的特征预测,大的掩码块更有助于模型推理语义结构。在实验中,我们证明了我们的框架在各种下游任务,包括图像分类,目标检测和语义分割的有效性。我们的方法比以前的监督方法以及自监督方法具有更好的性能。我们还提供了广泛的消融研究,以验证我们模型中的两种核心设计是否有效。我们进一步提供了与MAE在不同时代和不同模型中的全面比较,并表明我们的框架始终具有更好的性能。2相关作品在过去的十年中,计算机视觉在图像内容理解方面取得了巨大的进步。在ImageNet上训练的神经网络使用超过100万张与标签相关的图像学习的特征通常在任务中具有很好的泛化能力[21,49,36,9]。图像内容理解的另一条线探索了是否可以单独通过原始图像来学习这种语义信息特征[25,20,56,46,58,63,27,33,12,31]。沿着这条线的代表性方法包括自动编码,基于聚类,对比学习和掩蔽图像建模。自动编码。自动编码(AE)[34,5]是一种用于学习未标记数据的表示(嵌入)的神经网络。它由一个将数据映射到低维潜在嵌入的编码器和一个从潜在嵌入重新覆盖数据的解码器组成,目标是学习数据的紧凑特征表示。AE通常用于特征选择+v:mala2255获取更多论文4 X Dong等人。特征提取。去噪自动编码器(DAE)[51]学习对噪声鲁棒的表示,因为编码器中的观测数据是原始数据和噪声的相加。解码器的目标是消除噪声并恢复原始数据。许多努力使用不同的噪声建模来推广DAE,例如掩蔽像素[52,48,11],去除颜色通道[59,37]和洗牌图像补丁[45]等。基于聚类的方法。 聚类是一类在计算机视觉领域得到广泛研究的无监督学习方法。大多数事务都是在假设特征表示是固定的情况下设计的。随着深度学习领域的出现,许多努力[58,56]探索将聚类适应于端到端训练,以联合学习特征表示和聚类。代表性工作DeepCluster [6]使用k均值生成伪标签,以交替更新convnets的权重和图像描述符的聚类分配最近,一些尝试[1,7]旨在最大化伪标签和输入数据之间的互信息,扩展到大型数据集。对比学习。 对比学习的目的是学习一个嵌入空间,在这个空间中,相似的数据对彼此靠近,而不相似的数据对彼此远离。在自我监督场景中,它可以被解释为聚类的特殊情况,其中每个实例本身形成一个类。因此,正对由相同图像的两个增强视图形成,负对是来自不同图像的视图。典型的方法包括MOCO [31,15,16]、Sim-12 [12,13]、BYOL [29]等[47,38,2]。然而,基于对比的方法严重依赖于需要引入非本质变化而不修改语义含义的数据增强策略。重要的增强功能包括随机裁剪和随机颜色失真。同时,通常需要大量的负样本,以避免平凡的解决方案,其中模型输出的所有数据的常数表示面具形象建模。用于自监督预训练的掩蔽图像建模最近受到NLP中BERT预训练的成功的推动而变得越来越流行[19]。ViT [24]和BEiT [4]是沿着这个方向的两个倡议。从某种意义上说,MIM可以从可见的补丁中预测出隐藏的补丁,被视为上下文预测。通过这种图像内上下文预测学习的特征表示在下游任务中显示出令人惊讶的强大性能。最近,从不同的角度同时开发了许多探索MIM的作品[30,28]。这些努力包括(i)框架设计,如MAE [30],SplitMask [26],SimMIM [57],CAE [14];(ii)预测目标,如PeCo [23],MaskFeat [54],data 2 vec [3],iBOT [62];(iii)视频扩展BEVT [53];(iv)与视觉语言对比学习FaRL的集成[60]。我们的工作属于第一组,并介绍了一个新的框架,称为Bootstrapped MAE。我们逐步引导潜在表征在MAE中动态地学习更深层次的语义。此外,在与以前的方法耦合的上下文信息与语义建模在一个单一的模型相比,我们分开,明确地通过上下文信息的解码器,使编码器利用整个模型的结构学习。+v:mala2255获取更多论文Q输入要素多头KSelf-AttentionVFFN∈×∪ ∩∅2可见代币用于像素回归的掩码标记用于特征预测的掩码标记低级别���特征注入编码器像素回归掩模…特征预测器输入线屏蔽输入���可视补丁可见代币EMA更新动量编码器高级特征复方甘草酸苷注射液…(a)BootMAE的培训管道图像编码器特征预测器像素回归块(b)图像编码器块(c)特征预测块像素回归块QQ多头多头多头KSelf-AttentionVK 交叉注意VFFN交叉特征输入要素像素回归损失特征预测损失BootMAE for Vision BERTPretraining 5图图1:在(a)总体框架和训练管道,(b)图像编码器块,(c)特征预测器块像素回归器块中说明我们的BootMAE的细节3方法在本节中,我们将详细介绍我们的Bootstrapped MAE框架。如图1所示,我们的框架包含四个组件:1)编码器网络,专注于学习结构知识; 2)像素回归器解码器网络,旨在根据来自编码器的结构知识和来自可见补丁的上下文信息预测掩蔽区域的丢失像素,即,在这种情况下是像素值或低级特征; 3)特征预测器解码器网络尝试在给定来自编码器的相同结构知识和可见块的上下文信息的情况下对掩蔽区域进行特征预测,即,在这种情况下是高级特征信息;以及4)特征注入模块,其在每个解码器层中将每个自己的上下文信息显式地和连续地馈送到回归器和预测器中。在使用我们的BootMAE进行自我监督预训练后,我们采用编码器网络进行各种下游任务。形式上,假设输入图像为XRH×W×C,其中H和W表示图像高度和图像宽度,C表示通道数,我们首先将其分割为不重叠的块。这导致N=H W/P2块,其中P表示每个块的分辨率。 以这种方式,图像由多个补丁X ={x1,x2,···,xN}表示,其中xn∈ RP C表示从图像补丁整形的向量。此后,大部分,比如说Nm块被随机采样以被掩蔽,并且留下剩余的Nv块可见,N=Nm+Nv。 设M是屏蔽图的指数集,Xv={xk|k∈/M}表示可解集,Xm={xk|k∈M}表示掩码面片的集合,我们有X=XvXm和XvXm=.通常,每个片与指示每个片+v:mala2255获取更多论文6 X Dong等.补丁.因此,类似地,我们有Pv,可见斑块的位置嵌入,以及Pm,掩蔽斑块的位置嵌入。3.1编码器编码器的目的是利用整个能力,输出一个潜在的representation,灰模型的图像结构。受MAE [30]的启发,编码器仅处理可见补丁Xv以提高训练效率,并输出潜在表示Zv。具体地说,我们首先将每个可见的补丁投影到一个嵌入中,并在每个嵌入上添加一个位置嵌入,以确保每个补丁的位置意识。在此之后,组合嵌入被馈送到由基于自注意力的标准视觉Transformer块堆栈组成的ViT [24]。也就是说,Zv= Enc(Xv,Pv)。(一)即使对于大规模模型,计算和存储器也是非常有效的,因为只有一个小的子集(例如,25%)的图像块需要由编码器处理。此外,特殊掩码标记的消除弥合了预训练和微调之间的差距,因为微调阶段看到了没有任何掩码标记的真实可见补丁[30,28]。掩模区域(例如,75%)是从图像中随机采样的。我们发现,掩蔽策略是至关重要的,因为不同的预测目标有利于不同的掩蔽策略。我们研究了这种掩蔽策略,并在实验中提供了更多的分析。我们解释了哪种掩蔽策略适合于哪种预测目标,并得出结论,为掩蔽策略的选择提供指导。在我们的实现中,我们采用了分块掩蔽策略。输出进一步归一化为Z_v=norm(Z_v),它捕获图像结构并馈送到图像处理器。解码器3.2特征注入模块正如导言中所提到的,有两个不可或缺的成分,解码器进行预测:结构知识和来自可见补丁的对应上下文信息。我们的特征注入模块被设计成直接将上下文信息馈送到解码器的每一层。我们认为,以这种方式,编码器利用整个模型的能力来学习结构知识,而不考虑具体地,不同的预测目标需要不同的上下文信息。具体地说,像素级预测集中在低级别的细节可能有利于低级别的上下文信息的可见补丁,而试图预测语义特征表示的特征级预测可能需要高级别的上下文信息的可见补丁。因此,我们将来自编码器的浅层的特征馈送到回归器解码器,并将来自编码器的深层的特征馈送到预测器解码器。我们使用+v:mala2255获取更多论文vvvvBootMAE for Vision BERTPretraining 7Z浅表示浅特征,Z深表示深特征。V V编码器的结构我们采用了一个非常优雅的操作符交叉注意,而不是使用加法或串联。具体来说,我们利用来自编码器的特征作为键和值,以及来自回归器/预测器的特征作为查询来执行交叉注意。该运算符有助于利用低级信息进行更好的像素重建,并利用高级语义进行特征预测。我们在回归器和预测器的每个Transformer块中的自关注之后立即应用此交叉关注3.3回归器回归器旨在恢复丢失的像素,如[30]中所示像素级回归不仅有助于防止模型崩溃,而且还指导模型学习对低级别纹理的推理回归器的输入包括(1)从编码器输出的归一化潜在表示和(2)提供上下文信息的浅特征我们添加掩模令牌Rm包含Nm个可学习的向量,表示要预测的掩模补丁。为了确保每个掩码标记都知道它在图像中的位置,我们将位置嵌入添加我们采用轻量级架构来重新-gressor,由两个视觉Transformer块和一个全连接层组成,用于预测丢失的像素。令回归器的输出为X′,公式可写为:X<$=Reg(Zv,Zshallo w,Rm,Pm).(二更)该回归器基于Zshallow中的上下文信息和Zshallow中的结构k_n进行预测。3.4预测器预测器的目的是预测被掩蔽的补丁的特征表示。这个高级特征预测目标引导模型学习关于高级语义的推理。此外,预测基础事实是随着训练而发展的表示本身,提供比固定目标更丰富和预测器的输入包括(1)与回归量相同的归一化潜在表示和(2)提供与回归量不同的上下文信息我们还添加了另一组掩码令牌Sm表示要预测的掩码补丁,并将它们与位置嵌入相关联。预测解码器网络控制器具有用于预测的MLP层的两个Transformer块的组。假设预测器的输出是F',则公式可以写为:F<$=Pre ( Zv , Zdeep , Sm, Pm ) .(3)类似地,预测器基于图1中的结构知识进行预测。Zdev和Z dep中的文本信息。+v:mala2255获取更多论文K 2MMM×R×M2P#dimMM28 X Dong等.3.5目标函数回归器和预测器输出可见补丁以及掩蔽补丁的所有预测,但只有掩蔽补丁的预测参与损失计算。对于回归量,输出中的每个元素都是表示一个补丁的像素值向量我们使用归一化像素作为地面实况的重建目标作为MAE [30]。回归变量的目标函数是,L=0 1K||g-x'||、(四)k∈M其中gk是xk使用平均值和标准差从该pat_c_h中的所有像素计算。x′k是重建的掩蔽块在X'中对于预测器,预测特征地面实况是通过将完整图像传递到动量编码器中的潜在表示本身,其中权重由MAE编码器的指数移动平均值参数化。设F= Encema(X,P)为地面实况,用于预测器的掩蔽块上的目标函数为,L=0 1||fk−f<$k||第二条,(五)k∈M其中,#dim表示标记的特征维度,f,f′是F,F′中的标记之一。总的损失是一笔很小的数目,L=LR+λLP,(6)其中λ是调整损失权重的超参数,默认设置为1。4实验4.1实施方式我们使用标准ViT1基础架构和大型架构进行实验,ViT-B(尺寸为768的12个Transformer块)和ViT-L(尺寸为1024的24个Transformer块回归器和预测器由如上所述的2个Transformer块回归量的维度被设置为512,而预测器的维度被设置为与用于特征预测的编码器相同对输入进行分区1414个补丁从图像的224 224,并且每个贴片的大小为16 × 16。根据MAE中的设置,我们只使用标准的随机裁剪和水平翻转来进行数据增强。我们发现,不同的预测任务有利于不同的掩蔽策略。我们选择分块掩蔽策略以利于特征预测。总掩蔽率为75%,与MAE相同[30]。ViT-B和ViT-L模型都训练了800个epoch,批量大小设置为4096。我们使用亚当[35]1.我们P2CM+v:mala2255获取更多论文BootMAE for Vision BERTPretraining 9表1:自举特征预测的效果。预训练300个epoch的性能从83.2%提高到83.6%,与预训练1600个epoch的vanilla MAE实现了相同的性能。模型预训练时期微调Mae160083.6Mae80083.4Mae30083.2自举特征预测30083.6表2:消融研究显示了我们框架中特征注入模块的效果。为回归器和预测器提供上下文实现了最佳性能,这表明在这种目标感知解码器设计中,编码器确实学习了更强的语义建模。模型回归变量的上下文预测因子的上下文微调BootMAEBootMAE✓×××83.683.9BootMAE✓✓84.0以及具有单个周期的余弦时间表[43],其中我们将40e pochs的学习速率预热到2。4e−3。学习速率按照余弦时间表进一步退火。我们提出的方法在ImageNet上进行了预训练回归量和预测量仅在预训练期间使用。在预训练之后,仅使用编码器来生成图像表示。对于ImageNet实验,我们对编码器的最后一个Transformer的输出进行平均,我们使用端到端微调以及骨干模型来评估预训练的特征表示。我们为ViT-B微调了100个epoch,为ViT-L微调了50个epoch。对于ViT-B,学习率被预热到0.005达20个时期,对于ViT-L,学习率被预热到0.0015达5个时期,之后是余弦调度。评估指标是单个224× 224作物的前1验证精度。4.2BootMAE分析自举特征预测。我们框架的一个核心设计是自举特征预测,它预测图像的迭代进化的潜在表示,使模型能够从动态的更丰富的语义信息中学习。在这里,我们调查的影响,增加这个建议的自举功能预测分支。比较的模型是香草MAE和MAE与一个额外的自举功能预测没有功能注入模块。比较结果见表1。我们观察到,预训练300个epoch的性能从83.2%提高到83.6%,达到了与预训练1600个epoch的vanilla MAE相同的性能。这证明了所提出的自举特征预测的有效性。基于这个结果,我们在下面的300 epoch预训练设置下进一步分析BootMAE。+v:mala2255获取更多论文10 X Dong等.表3:两种不同掩蔽策略(随机掩蔽和块式掩蔽)与两种不同预测目标(像素级目标和特征级目标)的结果比较这验证了我们的假设,像素级目标有利于随机掩蔽,而特征级目标有利于块式掩蔽。预测对象掩模随机战略块微调精度像素级✓✓✓✓83.2像素级82.8特征级83.1特征级83.6输入图像随机掩码块掩码输入图像随机掩码块掩码图2:两种不同掩蔽策略的可视化在随机掩蔽中,掩蔽区域接近可见区域对于逐块掩蔽,大的连续块被掩蔽,并且大多数中心块被掩蔽。特征注入。在我们的框架中的另一个重要的设计是特征注入模块,它提供了不同的功能,代表不同层次的上下文信息的回归和预测。具体来说,我们显式地将从编码器的第一层输出的特征馈送到回归器的每一层,以减轻编码器在“记忆”低级细节方面的负担,类似地,我们直接将来自编码器最后一层的特征馈送到预测器的每一层。这里我们研究了所提出的特征注入的效果,并且烧蚀结果示于表2中。我们可以看到,为回归器和预测器提供各自必要的上下文可以实现最佳性能,由于目标感知的解码器设计,编码器确实学习了更强的语义建模伪装策略。然后,我们研究了两种广泛使用的掩蔽图像建模中的掩蔽策略:[4]中的随机块式掩蔽和[30]中的随机我们在图2中展示了两种掩蔽策略的几个示例。掩蔽比是相同的,并且被设置为75%。在MAE[30]中已经观察到,对于他们的模型,块式掩蔽以如此大的比率退化而在其他情况下,我们发现分块掩蔽比随机掩蔽更好在这里,我们解释为什么会出现这种情况。+v:mala2255获取更多论文BootMAE for Vision BERTPretraining 11表4:我们研究了回归量和预测量设计,并在(a)回归量和预测量深度以及(b)回归量的特征维度方面消除了性能。(a) 回归量和预测深度(b)回归量的特征维数深度微调183.4284.04883.984.0#暗淡微调25638483.884.051284.076884.0表5:我们研究了动量编码器的预训练效率,并报告了将图像的不同部分馈送到动量编码器时的性能和迭代时间成本。模型图像分数用于MomentumEncoder微调培训Iter Time(s)加快Mae-83.283.883.883.90.4730.4070.4790.5881×1 .一、16×0。98×0。80×BootMAE百分之二十五BootMAE百分之五十BootMAE百分之七十五BootMAE100%(默认)84.00.6600。72×我们怀疑原因可能来自预测目标。追求精确逐像素对齐的像素级预测目标需要可见相邻块来提供纹理信息,从而有利于被掩蔽的区域应该靠近可见区域。而在分块掩模算法中,由于图像中存在较大的连续掩模块,且图像中心附近的掩模块较多,使得像素级预测变得困难。至于不太关心纹理/细节的特征级预测,分块掩蔽大大减少了冗余,并且大多数中心块被掩蔽,迫使模型学习关于语义的推理。当使用两个不同的预测目标时,我们实验了两种掩蔽策略,结果在表3中给出。在这里,我们使用不同的预测目标训练300个epoch的MAE:像素(MAE默认设置)或800 epoch预训练MAE模型的输出特征。该比较验证了我们的假设,即像素级(特征级)目标倾向于随机掩蔽(块式掩蔽)。我们采用块式掩蔽,因为自举特征预测是我们框架中的关键。回归和预测设计。 我们的回归器和预测器是非常轻量级的,由两个Transformer层组成。在本节中,我们改变网络深度(Transformer块的数量),并在将深度设置为1、2、4和8时实验性能结果报告于表4(a)中。我们可以看到,使用深度2或8可以实现最佳的微调性能,而深度2则具有更高的效率。此外,还研究了回归量的特征维数.请注意,预测器中的特征维度设置为+v:mala2255获取更多论文12 X Dong等.表6:使用各种主干的不同方法在ImageNet-1 K上的图像分类准确度(%)比较。-B、-L分别代表使用ViT-B、ViT-L模型。我们报告的微调和线性探测精度和我们的方法BootMAE优于以前的自我监督的方法。方法预训练预训练ViT-B ViT-L数据集epochs微调线性微调线性从零开始的培训(即,随机初始化)[24]第二十四话- -77.9-76.5-DeiT [50]- -81.8--ViT [30]- -82.3-82.6-ImageNet-1 K上的自我监督预训练DINO [8]IN-1K30082.878.2––[16]第十六话IN-1K30083.276.784.177.6BEiT [4]IN-1K + DALLE80083.256.785.273.5MAE [30]IN-1K80083.464.485.473.9[30]第三十话IN-1K160083.668.085.976.6BootMAEIN-1K30084.064.185.474.8BootMAEIN-1K80084.266.185.977.1与编码器宽度相同。如表4(b)所示。不同尺寸的微调精度相似,除了dim= 256太小。使用动量编码器的预训练效率。在我们的框架中,我们将完整的图像馈送到动量编码器以提供特征预测地面实况。我们观察到,这种额外的推理引起额外的计算成本相比,MAE。这里我们在表5中给出了具体的训练迭代时间。根据,使用A100 GPU和批量256进行验证所有型号的GPU。我们进一步研究了几种变体,只有一个子集的掩码补丁被送入动量编码器和预测损失只评估这个子集的掩码补丁。当掩蔽率为75%时,我们研究了三个部分:75%(所有掩蔽块),50%(从掩蔽块采样),25%(也从掩蔽块采样)。我们在表5中报告了迭代时间和性能。我们可以看到,随着动量编码器的补丁比例变小,迭代时间成本变少,由于模型只从一小部分中学习,带面具的代币值得注意的是,我们的方法在将25%的图像块馈送到动量编码器时实现了比MAE更好的性能,同时更高效。这是因为MAE采用8层解码器,而我们的回归器和预测器仅由2层组成。4.3ImageNet分类比较我们将我们的方法与ImageNet-1 K分类任务上以前最先进的作品进行了比较。我们在表6中报告了微调和线性探测结果的顶级验证准确度。与监督模型相比,+v:mala2255获取更多论文BootMAE for Vision BERTPretraining 1386.085.585.084.584.083.583.082.5MAE-基础MAE-大号BootMAE-BaseBootMAE-大号100 200 300 400 500 600 700 800预训练时期图3:使用ViT-B和ViT-L在不同预训练时期与MAE的性能比较,表明我们的BootMAE始终优于MAE。从零开始训练,自我监督的预训练方法取得了显著的提高,提示了预训练的有效性.我们进一步将我们的框架与之前的自监督预训练模型进行了比较。可以看出,无论是基于ViT Base网络还是基于ViT Large网络,所提出的BootMAE都实现了最佳的微调性能。例如,与最近的工作MAE[30]相比,我们使用ViT-B的bootMAE实现了84.2%的top-1准确度,增益为0.8%,使用ViT-L实现了85.9%,提高了0.5%我们还报告了线性探测精度。我们的方法比基于MIM的自监督方法性能更好,但不如基于对比的方法。我们怀疑对比学习方法通过比较图像来追求线性特征,而基于MIM的方法在图像结构内进行开发。此外,我们提出了全面的比较与MAE在不同的预训练时期的ViT-B和ViT-L。我们将结果绘制在图3中。 我们可以看到,我们的方法始终优于MAE。值得一提的是,所提出的bootMAE在200个epoch时达到了83.7%的准确率,这比在800个epoch时预训练的MAE要好得多。这表明我们的方法是更有效地实现类似的性能,虽然与动量编码器的额外的推理。具体来说,在使用16个V100 GPU的相同设置下,MAE需要51小时才能获得83.4%的准确率,而我们的BootMAE只需要18小时就可以获得200个epoch。较好的结果为83.7%。4.4下游任务为了进一步验证我们的BootMAE的学习视觉表示,我们提出了两个流行的下游任务的迁移学习实验。语义分割 我们在广泛使用的语义分割数据集ADE 20K上比较了我们的模型[61]。我们在实验中采用了UperNet框架[55]。我们训练Upernet160K迭代,批量大小设置为16。我们+v:mala2255获取更多论文14X Dong等.表7:(a)ADE 20K上的语义分割mIoU(%)比较。(b)COCO上的框AP(APbb)和掩模AP(APbb)的对象检测和实例分割比较。使用相同的ViT-B骨架模型预训练历元ADE-20KMiou模型预训练历元APbb CocoAP监督30047.4监督30044.139.8MOCO [17]30047.3MOCO [17]30044.940.4BEiT [4]80047.1BEiT [4]80046.341.1MAE [30]80047.6MAE [30]80046.841.9[30]第三十话160048.1[30]第三十话160047.242.0BootMAE80049.1BootMAE80048.543.4结果见表7(a)。评价指标为平均相交的联盟(mIoU)平均在所有语义类别,我们报告单尺度测试结果在这里。我们将我们的方法与ImageNet-1 K上的监督预训练以及最先进的自监督模型进行了比较。我们可以看到,所提出的BootMAE获得了优于所有其他基线的性能,进一步验证了我们的框架的有效性。目标检测和分割。我们对COCO对象检测和分割进行微调[41]。我们选择Mask R-CNN [32]框架。具体地说,我们采用FPN [40]来将特征图缩放为[39]中介绍的不同大小。在COCO训练集上使用“1x”(12个训练时期)时间表和单尺度输入进行微调。 性能在COCO验证集上进行测试,遵循先前工作中使用的策略[42,22]。表7(b)中报告了用于检测的框AP和用于分割的掩模AP方面的结果。我们观察到,我们的模型实现了48.5%的目标检测和43.4%的分割,分别超过MAE 1.3%和1.4%。5讨论和结论视觉BERT预训练的掩蔽图像建模最近获得了巨大的流行,因为它的对手,掩蔽语言建模,在自然语言处理领域的成功。近年来MIM的巨大发展表明,掩蔽信号建模(包括MIM和MLM)可能会潜在地统一视觉和语言的自监督预训练。然而,与已经确定了一个公认框架的语言不同,视觉中关于MIM的研究是远不是决定性的。鉴于语言和视觉之间明显的差异,在本文中,我们介绍了一个新的框架BootMAE有两个核心设计。(1)我们建议在MAE中引导潜在特征表示以获得更好的性能,因为预测目标随着训练而演变,从而提供更丰富的信息。(2)我们建议将目标特定的上下文与编码器解耦,使得编码器专注于对图像结构进行建模(a)语义分割(b)目标检测和实例分割+v:mala2255获取更多论文BootMAE for Vision BERTPretraining 15我们提出了广泛的实验上的各种下游任务和自主消融研究,以验证所提出的框架的有效性此外,我们发现,不同的预测目标可能有利于不同的掩蔽策略。以前的MIM方法将目标特定信息与结构学习耦合在单个模型中。我们认为,由于MIM通过修复的目标本质上是建模的内部图像结构,这是有利的,使整个编码器专注于语义建模,我们在实验中经验证明其优势。在未来的研究中,我们希望能够在语义建模和表征学习之间寻求理论上的联系。6致谢。本课题得到了国家自然科学基金U20B2047、62072421、62002334、62121002、中国科学技术大学探索基金项目YD3480002001和中央高校基础研究基金WK2100000011的资助。+v:mala2255获取更多论文16X Dong等.引用1. 浅野,Y.M.,Rupprecht,C.,Vedaldi,A.:通过同时聚类和表示学习的自标记arXiv预印本arXiv:1911.05371(2019)42. Bachman,P.,Hjelm,R.D.,Buchwalter,W.:通过最大化跨视图的互信息来arXiv预印本arXiv:1906.00910(2019)43. Baevski,A.,许文南,徐,Q,巴布,A.,顾,J.,Auli,M.:Data2vec:A gen-用于语音、视觉和语言的自我监督学习的框架。arXiv预印本arXiv:2202.03555(2022)44. Bao,H.,东湖,Wei,F.:Beit:Bert图像转换器的预训练。arXiv预印本arXiv:2106.08254(2021)2,4,10,12,14,225. Bengio,Y.:学习AI的深度架构。03The Dog(2009)6. Caron,M.,Bojanowski,P.,Joulin,A.,Douze,M.:深度聚类用于视觉特征的无监督学习在:欧洲计算机视觉会议(ECCV)的会议记录pp. 1327. Caron,M.,米斯拉岛,Mairal,J.,Goyal,P.,Bojanowski,P.,Joulin,A.:通过对比聚类分配的视觉特征的无监督学习。神经信息处理系统进展33,99128. Caro n,M., Touvron,H.,米斯拉岛, J'egou,H.,Mairal,J., Bo janowski,P.,Joulin,A.:自我监督视觉转换器的新兴特性。arXiv预印本arXiv:2104.14294(2021)129. Carreira,J.,Zisserman,A.:你好,动作识别?新模型和动力学数据集。IEEE计算机视觉与模式识别会议论文集。pp. 629910. 陈凯,王杰,Pang,J.,曹玉,熊,Y.,Li,X.,Sun,S.,Feng,W.,刘志,徐,J,张志,郑,D.,Zhu,C.,中国科学院,Cheng,T.,赵,Q.,李,B.,卢,X.,Zhu,R.,(美国)吴,Y.,Dai,J.,王杰,施,J.,Ouyang,W.,Loy,C.C.,Lin,D.:MMDetection:打开mmlab检测工具箱和基准测试。arXiv预印本arXiv:1906.07155(2019)2211. 陈 美 , Radford , A. , 查 尔 德 河 , 吴 , J. , Jun , H. , Luan , D. ,Sutskever,I.:从像素生成预训练。上一篇:机器学习pp. 1691-1703.PMLR(2020)412. 陈,T.,Kornblith,S.,Norouzi,M.,Hinton,G.:视觉表征对比学习的一个上一篇:机器学习国际会议pp. 1597-1607. PMLR(2020)1,3,413. 陈,T.,Kornblith,S.,Swersky,K.,Norouzi,M.,Hinton,G.:大型自监督模型是强大的半监督学习器。arXiv预印本arXiv:2006.10029(2020)414. 陈旭,丁,M.,王,X.,Xin,Y.,Mo,S.,王玉,汉,S.,Luo,P.,Zeng,G.,中国农业科学院,王杰:用于自监督表示学习的上下文自动编码器。arXiv预印本arXiv:2202.03026(2022)415. 陈旭,Fan,H.,吉希克河,他,K.:通过动量对比学习改进基线。arXiv预印本arXiv:2003.04
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功