多级对比学习下的自监督视觉变换器

34 浏览量更新于2023-10-16 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2778自监督视觉变换器的多级对比学习莫神通1，孙准2，*，赵黎31卡内基梅隆大学，2东北大学3日本理化学研究所高级情报研究中心（AIP）shentonm@andrew.cmu.edu zhunsun@gmail.com chao.li @ riken.jp摘要最近的研究旨在建立专门用于视觉变换器（ViT）家族的对比自监督学习（CSL）算法，以使它们在训练过程中像普通的基于卷积的骨干一样正常工作尽管在相关下游任务上获得了有希望的性能，但这些方法忽略了ViTs的一个引人注目的正如先前的研究所证明的，视觉转换器受益于早期阶段的全局注意力机制，获得包含来自遥远补丁的信息的特征表示，即使在它们的浅层中。基于此，我们提出了一个简单而有效的框架，以促进基于Transformer的视觉体系结构的自监督特征学习，即，多层次 C 对比学习的视觉Ttransformers（MCVT）。具体来说，我们配备的视觉变压器与基于个体（ InfoNCE ）和基于原型（ProtoNCE）的对比损失在不同阶段的架构，以捕捉低级别的不变性和高级别的样本视图之间的不变性，分别。我们进行了广泛的实验，以证明所提出的方法的有效性，使用两个著名的视觉Transformer骨干，在几个视觉下游任务，包括线性分类，检测和语义分割。1. 介绍最近，Transformer [29]已成为设计视觉任务骨干架构的新标准模块视觉变换器（ViT）[13，28，21，35]系列在图像分类[13，28，21，35]、对象检测[3，11]、语义分割[36]等方面与卷积神经网络（CNN）相比具有更好的性能。在同一时期，自监督学习框架[6，9，16，15]在利用大量未标记数据方面取得了成功它*通讯作者。是一个自然的想法，将它们结合在一起，[10，33，5]提供了几个初步的尝试。通过引入临时技巧或专门研究骨干，他们用ViT家族取代卷积骨干，但在下游任务中产生了性能下降。全局注意力机制被认为是视觉变换器中最重要的属性[5]，它们鼓励“局部到全局”的对应，从而导致视觉变换器的与此同时，最近的一项研究[25]表明，在浅层中使用的早期全局注意力也可以帮助视觉转换器获得包含来自遥远补丁的信息的特征表示受这些结果的启发，我们探索了在具有低级特征表示的自监督方法中学习视觉Transformer的潜力。为了实现这一点，我们首先将辅助InfoNCE损失[26，31，24]附加到视觉转换器的早期阶段。因此，我们在下游分类任务中观察到持续改进的性能，这证实了在视觉转换器的早期阶段捕获实例级低级特征不变性的能力。然后，我们进一步检查了使用原型对比损失（ProtoNCE）[19]来施加高级（语义）特征不变性的可能性。具体来说，我们介绍了三种类型的多级对比视觉转换器，InfoNCE和ProtoNCE连接到主干的不同阶段（详细信息请参见第3.4节）。我们根据经验发现，使用后期特征捕获原型不变性，同时使用早期特征保留实例不变性的变体获得了优异的性能。我们提出了我们的研究结果作为一个简单而有效的框架，训练家庭的视觉变压器在自我监督的风格。即，用于自监督视觉变换器（MCVT）的多级C总体框架如图1和图2所示。具体来说，我们通过多层感知器（MLP）将视觉Transformer早期/后期阶段的类令牌投影到嵌入空间上。我们只是简单地使用全球2779×正负特征图图像块高级别基于计算机的对比+基于信息的对比损失图1.我们的多级对比度V变换器（MCVT）方案的图示，其中基于信息和基于簇的对比度损耗分别针对低级和高级特征定制。以这种方式，在预训练期间迭代地捕获低级和高级特征不变性。不使用类标记的主干的特征表示的平均池化我们将嵌入式特征表示分别称为低级特征和高级特征。然后，我们将InfoNCE损失应用于低级特征，将ProtoNCE损失应用于高级特征，我们分别将其称为低级对比损失和高级对比损失。我们在ImageNet 100，ImageNet-1 K [12]上使用两个广泛使用的视觉Transformer 主干（ ViT [13]和 Swin[21]）预训练我们的MCVT框架，在那里我们评估两个基准点上的预训练模型用于图像分类。我们还将在ImageNet-1 K上预训练的模型转移到下游视觉任务中，使用MS-COCO和ADE 20 K基准数据集来评估它们在对象检测、实例分割和语义分割方面的性能。在消融研究中，我们首先使用[25]中提出的CKA热图绘制低级和高级表示之间的相似性。然后，我们揭示了用我们提出的 MCVT 方法预训练的 Swin [21]Transformer比MoBY [33]方法表现得更类似于全监督优化。我们进一步研究了几个变种的 MCVT 通过manipulating附加损失项在每个阶段。最后，我们改变了关键的超参数，如批量大小和集群的数量，并表明性能是un-degraded在很大范围内。总之，在这项研究中，我们的主要贡献概括如下：• 我们研究了对比自监督学习算法中视觉Transformer早期阶段我们利用低级别的功能，在两个实例明智的和原型的方式进行调查。• 基于观察，我们提出了一个简单而有效的框架，具有多层次的对比学习的自监督视觉转换器，我们术语MCVT。• 在实验分析中，我们表明所提出的MCVT框架有利于不同架构的视觉转换器在不同的下游视觉任务。• 我们还表明，通过MCVT框架学习的表示更接近于用全监督风格学习的表示，进一步揭示了利用低级特征带来的有效性。2. 相关工作2.1. 视觉Transformer近年来，视觉变换器[13，28，21，35，14]在各种下游任务中获得了许多研究人员的兴趣，例如图像分类，对象检测和分割。通常，Dosovitskiy等人。 [13]首先将纯Transformer直接应用于维度为16 16的输入图像块序列。DeiT [28]进一步提出了教师-学生策略，以减少训练参数和成本，其中利用蒸馏令牌使学生通过注意力向教师学习。最近，Swin Transformer [21]介绍了一种分层架构，其在注意力模块中具有移位窗口，以学习非重叠的局部信息和跨窗口连接，其在各种基准上实现在这项工作中，我们主要关注具有多级对比学习的自监督视觉变换器，以提高预训练表示的质量。我们的方法与这些视觉转换器正交，并且可以很容易地应用于这些骨干，以学习更好的预训练模型。2.2. 自我监督学习自我监督方法[31，6，7，15，16，8，9，37，4，19，30，22，23]经常应用托辞任务通过挖掘数据的内部特征来训练模型，而不需要任何前向梯度2780·联系我们·V联系我们X不·我我我H{···}我我label.早期，NIPD [31]提出了实例级噪声对比估计来处理非参数分类问题。在此之后，实例对比学习被广泛应用于许多工作中[6，7，15，16，8，9，37]。通常，MoCo [16]与动量编码器一起引入，以在运行中保持来自大型一致字典的负样本在SimSiam [9]中使用了Siamese网络和停止梯度算子，以在不使用动量编码器和大批量的情况下获得令人满意的结果。在实例级对比学习的基础上，一些工作[19，4，30]采用基于聚类的对比学习来将表示拉近其指定的原型，远离其他原型。然而，在这项工作中，我们利用视觉变换器的低级和高级特征进行自监督学习。提出了多层次对比学习，以捕获来自视觉变换器的各个阶段的视图之间的2.3. 自监督视觉Transformer最近，自我监督的视觉转换器[10，33，5]由于其对各种下游任务的强大性能而引起了人们具体来说，Mo-Cov 3 [10]将MoCo [16]方法扩展到ViT [13]，以最小化两个增强视图的表示之间的距离在MOBY [33]中同时应用MoCo v2和BYOL，在DINO [5]中，3. 方法在本节中，我们提出了一个简单而有效的框架，用于自监督视觉变换器的多级对比学习，即MCVT，如图2所示。首先，我们从预训练自监督视觉Transformer的正式问题设置开始，并列出所有符号以便于阅读。然后，我们详细介绍了从基于MLP的投影头的视觉变换器最后，我们介绍了用于自监督视觉转换器的MCVT的技术细节，其中介绍了三种类型的MCVT变体。3.1. 问题设置我们密切关注以前的自我监督视觉转换器中的问题设置[10，33，5]。因此，我们的工作旨在预训练具有更有意义的表示的视觉Transformer骨干，以在下游任务上实现良好的为了以统一的方式解释这个问题，我们定义如下符号。符号。给出一组训练实例 =x1，x2，，xn，我们应用视觉Transformer骨干f（）来生成全局视图表示=v1，v2，vn，即，vi=f（xi）.假设视觉Transformer主干f（）由s个Transformer块组成，即阶段。例如，Swin [21] Transformer中有四个变压器块在这种情况下，s=4。F或每个训练e示例xi，我们使用f（·）来生成r。将低级表示Ui={u1，u2，· · ·，us}从知识蒸馏与动量增强相结合，每个阶段我我我s，其中i∈[1，n]。请注意，编码器和多作物训练，用于学习本地到最后一个阶段是全球尺度，即us=vi。一组视觉Transformer中的全局对应。怎么-投影头G我={g1，g2，···，gs}应用于Ui以往，它们仅从全局视图捕获单尺度特征表示用于预训练。正如在先前的研究中证明的那样[25]，视觉变换器可以从浅层获得全局表示。因此，需要从浅层阶段考虑到低级特征，以学习更细粒度的不变性。一项并行工作MST [20]将掩蔽令牌策略应用于学生和教师网络中的多头自注意力图，以捕获图像的局部上下文，同时捕获全局语义信息。另一个并行工作BEiT [1]提出了一个掩码图像建模任务，以根据损坏为了生成低维特征i=h1，h2，.，hs，对比学习。3.2. 高级特征不变性类似于基于非变换器的预训练框架[16，8，6，7]，我们从视觉变换器的最后阶段提取高级特征。给定一个训练样本xi，我们在一组随机数据扩充下为每个图像xi取两个扩充视图xi和x′i。然后，将两个视图馈送到两个视觉Transformer主干f（）中以生成高级特征vi和vi′，即，us和（us）′，其中s表示在视觉变换器中的级数。我我图像补丁。在这项工作中，我们利用低级别的功能，从浅层和高层次的特征不变性-变压器. 最后，我们应用基于MLP的投影头GS将US和（US）′投影到低维EM中，我我从深层的差异。我们也是第一个模拟hs和（hs）′的。为了抓住高层次的-我我- 利用来自最后阶段的特征hs和（hs）′之间的基于信息和基于聚类的对比方差我我在自我监督的视觉转换器中学习，以预训练更好的表示。在这种情况下，我们认为hs和（hs）′2781U UUHUGHSn∈{···}H我我我我我我我M图2.我们的多级对比视觉变压器（MCVT）方案的插图具体来说，我们从浅层生成图像补丁的早期特征然后，利用由多层感知器（MLP）组成的早期和高级投影头，将特征投影到低维嵌入中，进行低层和高层视图的多层对比学习.根据低级特征的互信息计算低级对比损失以捕获视图之间的实例不变性，而高级对比损失用于高级特征的互信息以学习全局视图之间的原型不变性。3.3. 低层特征不变性受先前研究[25]的启发，该研究表明视觉变换器可以从浅层学习全局表示，我们考虑了浅层阶段的低级特征具体来说，我们应用一组投影头G={g1，g2，· · ·，gs}的低级别特征Ui={u1，u2，···，us}和U′={（u1）′，（u2）′，···，（us）′}，高级特征的互信息来区分全局视图之间的原型不变性。这种类型的MCVT被表示为MCVT混合物。MCVT信息。遵循之前的基于动量的对比学习框架[16，8]，我们在一组随机数据扩充T.然后两个视图被输入我们看到Transformer主干f（·）、f′（·）和两个增强视图x和x′的浅级。为了从浅层阶段学习特征i和i ′之间的低级不变性，在这种情况下，我们将i和i′视为低级特征。值得一提的是，来自最后阶段的低级特征us和（us）′-投影头，以生成查询特征集i和i ′的关键特征集，用于对比学习。基于信息的MCVT损失公式化为：我我deed表示高级特征。λmax（ht·（ht）′/τ）t=1i=1j=1我J（一）3.4. 多层次对比视觉Transformer在这一部分中，我们受到了以前非变压器的启发LMCVT信息=-原木exp（hk·ht/τ）对比学习研究[16，8，15]，并介绍三个其中ht，（ht）′，ht表示锚点，正和负。i i j多层次对比视觉变换器的类型首先，我们将基于信息的归一化交叉熵损失应用于低级和高级特征，以共同捕获实例不变性，我们称之为MCVT-info。然后，我们在低级和高级特征上使用基于聚类的归一化交叉熵损失来同时学习原型不变性，我们称之为MCVT-proto。最后，我们定义了低级别的对比损失与低级别功能的互信息，以捕获视图之间的实例不变性对于每个训练样本xi，从阶段索引t进行有效嵌入，并且τ是温度超参数。r表示阴性样本的数量。MCVT原型。受以前基于非变换器的对比学习框架的启发[19，4]，我们在预训练期间对表示i应用M次聚类，原型的数量为km，m1，2，M。因此，我们有一组不同数量的原型K ={k1，k2，···，kM}。我们的样品原型-将km个簇标记为Cm ={c1，c2，···，ck}。在同时，我们采用这种方式的高层次对比损失，我们定义我们的MCVT-proto的目标为：阶段1阶段2Transformer模块Transformer模块…低位投影头低位投影头…信息化信息化…图像��第1阶段舞台设Transformer模块Transformer模块低位投影头高级投影头聚类信息化基于原型的面片分区线性嵌入线性嵌入线性嵌入线性嵌入我我2782←−←我SnLΣΣ高2：对于每个RM实验（hs·cm/μm）我我我Snj=1不t=1i=1M我MM初始学习率设置为5e-4，我们使用余弦我我我联系我们{···}L灰度我们训练了300个epoch，并应用了前20个epoch。算法1MCVT-混合主学习算法输入：数据X，f（·），G，增广集合T。n Ms m m1：初始化f（·），G的参数L=−1logexp（hi·cp/p）（四）3：获得两个视图xi，x′i，其中Ti=1m=1j=1i j j4：使用f（·）对特征Ui、Ui′进行编码5：将特征投影到Hi，Hi′与GLMCVT混合物=L低 +λ·L 高（五）6：对于t1到s1，7：计算公式中的低水平损失3 w.r.th1，h2，，hs−18：结束9：对于m1到M，10：获得原型ckm K-均值11：计算方程中的高水平损失4 w.r.ths12：结束13：计算公式中的总损失。514：结束输出：f（·）λmax（ht·（ht）′/τ）J（二）以这种方式，应用低级对比损失来捕获增强视图之间的细粒度实例不变性，而采用高级对比损失来学习全局视图之间的聚类不变性。总体算法如算法1中所概述。4. 实验4.1. 数据集根据之前的方法[10，33，5]，我们使用四个基准进行比较，包括ImageNet-100 [27]和ImageNet-1 K [12]用于图像分类，MS- COCO [34]用于对象检测，以及ADE 20 K [38，39]用于语义分割。在预训练过程中，我们使用数据增强方法，随机调整大小裁剪，运行-LMCVT-原型=-原木exp（hk·ht/τ）+dom颜色抖动、随机水平翻转和随机Σ Σ−1ΣlogΣexp(hi·cp/ϕp)t=1i=1Repoch作为热身步骤，只使用InfoNCE损失。调度器将其乘以每30的衰减率0.1其中ht表示来自阶段时代 AdamW优化器用于权重衰减我指数m m 0.05，动量0.9，批量大小512。我们采用对于每个训练样本i. c，s，c，j是正数样本i所属的原型p和阴性原型j在m步。m、faiss-GPU [17]库用于预训练期间的k均值聚类pjImageNet-100. 对于预训练，我们设置聚类数在步骤m处表示在原型p，j周围的分布的tion指示符。MCVT混合液。为了在预训练过程中区分低层和高层特征，本文提出了一种基于多层对比视觉Transformer（MCVT）的自监督方法，通过基于信息的浅层特征对比学习和深层特征聚类对比学习来具体来说，我们计算低-K= 2500，5000，10000，r= 1024.对于线性分类，我们在冻结的骨干权重上训练线性分类器。我们训练了100个epoch，并将前5个epoch用作热身阶段。我们应用SGD作为我们的优化器，基本学习率为1.0，动量为0.9，权重衰减为0。ImageNet-1K。对于预训练，我们设置聚类电平对比损耗L低基于信息的规范化K= 25000，50000，100000，r = 16000.对于线性分类-阳离子，我们遵循与ImageNet-100相同的设置为相对于低级特征H1，H2，，hs−1. 高级对比损失高是用基于聚类的归一化交叉熵在高级特征方面的损失低，低。端到端微调，我们用预先训练好的权重初始化网络，并调整它们进行微调。MS-COCO。我们密切关注以前的工作[10，33，5]，电平对比损耗L我低、高层次对比损失并采用Cascade Mask R-CNN [2]作为检测器。托尔 Swin-T [21]骨干权重是预先训练的，高，我们的MCVT组合的总体目标如下所示：ImageNet-1 K使用我们的MCVT其他设置与本工作中的实现相同[21]，除了我们使用1×时间表。s−1nexp（ht·（ht）′/τ）（三）ADE20K。根据[33，21]中的设置，我们使用UPerNet方法[32]基于我们的ImageNet-1 K预处理，我我我我M实验（ht·cm/μm）m=1j=1我 JJ2783我JL低=-原木t=1i=1exp（hk·ht/τ）训练Swin-T进行评估。我们微调探测器j=12784表1.在ImageNet-100数据集的线性分类评估下，比较MoBY和具有各种Transformer架构（ViT-S和Swin-T）的三种MCVT变体方法Arch.参数（男）批历元前1名（%）前5名（%）摩拜ViT-S2251230086.2897.08MCVT-infoViT-S2251230087.7997.69MCVT原型ViT-S2251230081.0595.27MCVT混合物ViT-S2251230089.3198.72摩拜Swin-T2951230087.9297.84MCVT-infoSwin-T2951230089.4598.78MCVT原型Swin-T2951230082.5395.82MCVT混合物Swin-T2951230091.2699.12在[33，21]中具有相同的学习率进行公平比较。表2.在端到端微调和线性分类下，我们的MCVT-mix与其他具有各种Transformer架构（ViT和Swin）的方法之间的比较，表示没有多作物方案使用。方法Arch.参数(M)批次时期前1（%）端到端微调：在基于信息的低级对比损失中使用早期特征。此外，在相同的模型大小和预训练时期设置下，将我们的MCVT混合应用于ViT-S，在前1和前5的准确性方面优于基线3.03%和1.64%特别是，我们的MCVT-与Swin-T混合实现了最佳结果，在前1和前5准确度方面优于MoBY [33] 3.34%和1.28%。这进一步显示了我们的MCVT混合框架在自我监督DINO ViT-B 85 1024300八十二点八MCVT混合物ViT-B 85 512 30083.4线性分类：MoCo v3ViT-S21102430072.5DINO系列ViT-S21102430072.5摩拜ViT-S2151230072.8MCVT混合物ViT-S2151230073.1摩拜Swin-T2951210070.9MCVT混合物Swin-T2951210071.6摩拜Swin-T2951230075.0MCVT混合物Swin-T2951230075.34.2. 实验结果在这一部分中，我们进行了大量的实验，将我们的MCVT预训练的骨干转移到各种下游任务中，包括图像分类、对象检测、实例分割和语义分割，以进行综合分析。为了证明我们方法的优势，我们将其与现有的自监督视觉转换器进行了比较，例如 MoCo v3[10]，MoBY [33]和DINO [5]。ImageNet-100. 表1报告了MoBY [33]与使用ViT-S [13]和Swin-T [21]的三种MCVT变体之间在线性分类方面的比较结果。可以看出，我们所有采用ViT-S和Swin-T架构的MCVT-info框架都比MoBY实现了更好的性能，这证明了端到端的微调和线性分类的综合评估。我们可以观察到，我们的MCVT混合框架在具有各种模型大小的所有体系结构方面优于以前的方法我们的MCVT混合在线性分类下实现的性能增益（+0.6%）比端到端微调设置这证明了我们的方法在预训练期间学习更好的表示的有效性。同时，与MoBY [33]相比，100个epoch的预训练实现了比300个epoch的预训练增益（+0.3%）更好的性能增益（+0.7%）。这是因为通过在我们的方法中学习到的低级和高级不变性，我们实现了更快的收敛速度，并且在线性探测评估的前100个历元中表现更好MS-COCO。在表3中，我们报告了通过微调CascadeMask R-CNN [2]进行对象检测和实例分割的比较结果，该方法基于由三种类型的MCVT框架预训练的Swin-T。在目标检测方面，由于在视觉变换的早期阶段涉及的低级别不变性的自我监督，我们的MCVT-info方法始终比基线此外，我们的MCVT-mix框架实现了比监督基线更此外，当转移到实例分割时，我们的MCVT-mix框架实现了更好的重构，MoCo-v3ViT-S21102430081.4视觉转换器迪诺ViT-S21102430081.5ImageNet-1K。我们比较我们的MCVT混合框架MCVT混合物ViT-S2151230081.7与以前的自我监督的视觉变换器[10，5，MoCo-v3维生素B85409630083.233]在表2中通过使用ViT和Swin架构，2785505075结果比监督基线和MoBY [33]。这进一步验证了我们的MCVT方法在自监督视觉变换器中的优越性。表3.在COCO上微调的对象检测和实例分割与基于Swin-T的Cascade Mask R-CNN的比较结果。AP b和AP m分别表示边界框和掩码的度量。粗体数字表示第一位。5. 消融研究在本节中，我们将探讨每个阶段、批量大小和聚类对我们方法的最终性能的影响。除非另有说明，否则消融研究的所有实验均在具有Swin-T架构的ImageNet-100数据集上进行。我们使用我们的MCVT预训练Swin-T框架评估线性分类，方法APbbImageNet-100 benchmark.75监督48.1 67.1 52.2 41.7 64.4 45.0移动电话48.1 67.1 52.1 41.5 64.0 44.7MCVT-info 48.2 67.1 52.3 41.7 64.1 44.9MCVT-proto 47.3 66.3 51.2 40.7 63.1 43.9MCVT混合液48.6 67.6 52.5 42.1 64.5 45.3ADE20K。表4通过在ADE 20 K基准测试中微调预训练的Swin-T，在相同设置下比较了我们的MCVT变体与MoBY [33]，其中报告了mIoU指标。可以看出，我们的MCVT-mix框架实现了比自监督基线更好的性能，这显示了我们的自监督视觉转换器方法的优势。此外，我们与监督基线之间的差距比MoBY小。这也验证了用低级和高级不变性作为自我监督的有效性。表4.在ADE 20K上微调的语义分割的比较结果。mIoU表示ADE 20K验证集的类间平均交并均值。粗体和下划线表示第一和第二位。方法主干附表 Miou监督Swin-T160K45.81摩拜Swin-T160K45.58MCVT-infoSwin-T160K45.62MCVT原型Swin-T160K45.01MCVT混合物Swin-T160K45.76表示相似性的可视化为了验证我们的MCVT预训练模型的有效性，我们对不同阶段内和跨不同阶段的表示结构进行了量化评估，其中中心内核对齐（CKA）[18]用于计算相似度所有层表示的对。图3显示了通过自监督学习预训练的模型结构中所有层之间的热图，该自监督学习仅限于最终阶段输出和我们的MCVT预训练模型架构。我们可以观察到，MCVT预训练模型中所有层之间的CKA热图与全监督模型相似。这进一步证明了我们的多层次对比学习对自监督视觉变换器的有效性。表5.通过在ImageNet-100上烧蚀每个阶段来比较top-1，top-5准确度的性能。x2、x3和x4表示基于聚类的归一化交叉熵、基于信息的归一化交叉熵和无损失。阶段4阶段3阶段2阶段1前1名（%）前5名（%）✓✗✗✗87.5397.64✓✓✗✗88.1698.05✓✓✓✗88.6398.26✓✓✓✓89.4598.78⋆✓✓✓91.3699.12⋆✗✗✗89.1798.58每个阶段的效果。我们在表5中分析了每个阶段对MCVT框架最终性能的影响。具体来说，我们将基于信息的归一化交叉熵损失从阶段4应用到阶段1。可以看出，我们的MCVT框架的前1和前5准确度将基于聚类的归一化交叉熵损失添加到最后阶段提高了性能。这也表明了在我们的MCVT框架中结合低级基于信息的不变性和高级聚类不变性的有效性。同时，从早期阶段去除基于信息的交叉熵损失使我们的方法的性能变差，这验证了早期监督对于自监督视觉变换器的重要性。批量的影响。表6探讨了批量大小对使用我们的MCVT混合框架进行线性分类的性能的影响。具体而言，我们将批量大小从32、64、128、256、512和1024变化随着批量大小增加到512，我们的MCVT组合框架在前1和前5的准确性方面始终实现了向上的性能。然而，当将批量设置为1024时，我们没有观察到上升趋势。因此，我们在所有实验中将512设置为最佳性能。集群效应。为了探索聚类对MCVT-mix框架最终性能的影响，我们改变K，即使用的原型的数量，从（1250，2500，5000），（2500，5000，10000），(5000，10000，20000），和（10000，20000，40000）给定负-固定尺寸的原型，1024。实验结果-APAP2786监控MOBYMCVT图3.跨模型结构的所有层之间的CKA热图都是通过自监督学习进行预训练的，仅限于最后阶段的输出和我们的MCVT预训练模型架构。表6.在ImageNet-100上通过消融批量大小比较top-1，top-5准确度的性能。批量前1名（%）前5名（%）3289.4998.716489.7698.8312889.9698.9325691.1299.0351291.3699.12102491.3299.12表7.通过在ImageNet-100上消除K和r来比较top-1，top-5准确度的性能。K rTop-1（%）Top-5（%）一万，两万，四万102488.9698.425000、 10000、20000102491.2299.082500， 5000，10000102491.3699.121250、2500、5000 102489.88 98.912500， 5000，10000204891.2599.092500， 5000，1000051291.1799.062500， 5000，1000025690.2598.97结果见表7。当使用的原型数量设置为（2500，5000，10000）时，我们的MCVT组合在top-1和top-1方面实现了最佳性能。5准确度。这证明了在我们的MCVT混合方法中聚类的重要性，以学习更有意义的表示。此外，我们在给定原型为（2500，5000，10000）的情况下，将负原型的数量从256，512，1024和2048改变，以探索使用聚类不变性的效果从表7中可以看出，我们的MCVT混合框架的性能随着负原型的减少而下降，这显示了从最后阶段的特征学习聚类不变性的有效性然而，引入更多的负面原型会降低我们的MCVT混合框架的性能。这是因为在预训练期间引入了一些假阴性聚类，以破坏基于聚类的归一化交叉熵损失。6. 结论总结在这项工作中，我们提出了MCVT，一个简单而有效的自我监督框架，具有多层次的控制，视觉转换器的trasive学习。具体地说，低级别的基于信息的对比损失被用来捕获局部视图之间的细粒度的不变性，并且高级别的基于聚类的对比损失被应用于区分全局视图之间的粗粒度的不变性。此外，我们全面分析了三种不同的多层次对比学习框架，以显示我们的MCVT的优势，自我监督的变压器。广泛的实验和消融研究也证明了我们的方法对基线的最先进的优势。限制首先，有很多超参数需要调整以实现最佳性能。特别是，原型对比头部中采用的最佳超参数可能会随着不同的数据集和下游任务而显著变化，这也在原始原型对比学习论文中进行了讨论[19]我们考虑修改这个损失项，使其更适合在未来的工作中的视觉变压器。第二，我们注意到[25]中讨论的现象：当使用比ImageNet-1 K大得多的数据集进行自监督学习时，较低层的表示往往是局部和全局的。由于计算资源的限制，我们没有在更大的数据集上进行因此，我们不确定我们的方法是否有效。更大的数据集广泛的影响这项工作提供了一个有前途的方向，应用多层次的对比学习的自我监督的视觉变压器与基于信息和基于集群的对比损失。此外，在自监督视觉变换器的早期预训练过程中引入更多的监督信号确实提高了下游任务的性能，例如图像分类和语义分割。确认这项工作得到了JSPS KAKENHI的部分支持（批准号：20H04249、20H04208）和国家自然科学基金（批准号：62006045）。2787引用[1] 包航波，李东，魏福如。Beit：BERT图像转换器的预训练。arXiv预印本arXiv：2106.08254，2021。[2] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn：深入研究高质量的目标检测。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第6154-6162页[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在Andrea Vedaldi ， Horst Bischof ， Thomas Brox 和 Jan-Michael Frahm，编辑，欧洲计算机可视化会议论文集（ECCV），第213-229页[4] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。神经信息处理系统进展（NeurIPS），2020年。[5] MathildeCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性在2021年国际计算机视觉会议（ICCV）的开幕式上[6] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在2020年国际机器学习会议（ICML）上[7] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey Hinton.大型自监督模型是强半监督学习器。在神经信息处理系统（NeurIPS）的进展，2020年。[8] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。[9] Xinlei Chen，Kaiming He.探索简单的连体表示学习。在IEEE/CVF计算机视觉和模式识别会议，2021年。[10] Xinlei Chen，Saining Xie，and Kaiming He.训练自我监督视觉转换器之实证研究在2021年国际计算机视觉会议（ICCV）的开幕式上[11] Xiyang Dai，Yinpeng Chen，Jianwei Yang，PengchuanZhang，Lu Yuan，and Lei Zhang.动态检测：具有动态注意力的端到端对象检测。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第2988-2997页[12] 邓佳，魏东，理查德·索赫尔，李佳。李，李凯，李飞飞。ImageNet：一个大规模的分层图像数据库。在IEEE/CVF计算机视觉和模式识别会议（CVPR）论文集，第248- 255页[13] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。图像16x16字：用于大规模图像识别的变压器在2021年国际学术代表会议论文集[14] Alaaeldin El-Nouby、Hugo Touvron、Mathilde Caron、Piotr Bojanowski、Matthijs Douze、Armand Joulin、IvanLaptev 、 Natalia Neverova 、 Gabriel Synnaeve 、 JakobVerbeek和Herve'Je'gou。Xcit：交叉变异图像变换器。arXiv预印本arXiv：2106.09681，2021。[15] Jean-BastienGrill ， FlorianStrub ， FlorentAltche´ ，CorentinTallec，Pierre Richemond，Elena Buchatskaya，Carl Doersch ， Bernardo Avila Pires ， Zhaohan Guo ，Mohammad Ghesh- laghi Azar ， Bilal Piot ， koraykavukcuoglu，Remi Munos，and Michal Valko.BootstrapYour Own Latent --自我监督学习的新方法神经信息处理系统进展（NeurIPS），2020年。[16] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第9729-9738页[17] Je f fJohnson，MatthijsDouze，andHer ve'Je'gou. 用gpu进行十亿级相似性搜索。 arXiv 预印本 arXiv ：1702.08734，2017。[18] Simon Kornblith，Mohammad Norouzi，Honglak Lee，and Geoffrey Hinton.神经网络表示的相似性再访。国际机器学习会议，第3519-3529页。PMLR，201

下载后可阅读完整内容，剩余1页未读，立即下载