自监督视觉Transformer：新属性、语义分割和无监督对象分割

179 浏览量更新于2023-10-15 收藏 25.05MB PDF 举报

无监督学习

DINO

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

196500自监督视觉Transformer中的新属性0Mathilde Caron 1, 2 Hugo Touvron 1, 3 Ishan Misra 1 Hervé Jegou 10Julien Mairal 2 Piotr Bojanowski 1 Armand Joulin 101 Facebook AI Research 2 Inria � 3 Sorbonne University0图1：没有监督训练的VisionTransformer的自注意力。我们观察最后一层的[CLS]令牌在各个头部的自注意力。该令牌没有与任何标签或监督相关联。这些图表显示模型自动学习到了类别特定的特征，从而实现了无监督的对象分割。0摘要0在本文中，我们质疑自监督学习是否为VisionTransformer（ViT）[16]提供了与卷积网络（convnets）相比突出的新属性。除了将自监督方法应用于这种架构特别有效之外，我们还得出以下观察结果：首先，自监督的ViT特征包含了关于图像的语义分割的明确信息，这在受监督的ViT和卷积神经网络中并不明显。其次，这些特征也是优秀的k-NN分类器，在ImageNet上使用小型ViT达到了78.3%的top-1准确率。我们的研究还强调了动量编码器[26]、多裁剪训练[9]以及在ViT中使用小块的重要性。我们将我们的发现实现为一种简单的自监督方法，称为DINO，我们将其解释为一种无标签的自蒸馏形式。我们通过在ViT-Base上进行线性评估，在ImageNet上实现了80.1%的top-1准确率，展示了DINO和ViT之间的协同作用。0� Univ. Grenoble Alpes, Inria, CNRS, Grenoble INP, LJK, 38000 Grenoble,France. Correspondence: mathilde@fb.com Code:https://github.com/facebookresearch/dino01. 引言0Transformer[57]最近作为卷积神经网络（convnets）在视觉识别[16,56,68]中的一种替代方案出现。它们的采用与一种受自然语言处理（NLP）启发的训练策略相结合，即在大量数据上进行预训练，然后在目标数据集上进行微调[15,45]。由此产生的VisionTransformer（ViT）[16]在与卷积神经网络竞争时表现出色，但它们尚未在其上取得明显的优势：它们在计算上更加复杂，需要更多的训练数据，并且它们的特征没有展现出独特的属性。在本文中，我们质疑Transformers在视觉领域的成功是否可以通过其预训练中使用监督来解释。我们的动机是Transformers在NLP中取得成功的主要因素之一是使用自监督预训练，例如BERT中的闭合过程[15]或GPT中的语言建模[45]。这些自监督预训练目标使用句子中的单词创建假设任务，提供了比每个句子预测单个标签的监督目标更丰富的学习信号。类似地，在图像中，图像级别的监督通常将包含在图像中的丰富视觉信息减少为从少量预定义对象类别中选择的单个概念[49]。虽然NLP中使用的自监督假设任务是96510具体来说，许多现有的自监督方法已经在使用卷积神经网络的图像上展示了它们的潜力[9, 11, 23,26]。它们通常具有相似的结构，但设计了不同的组件以避免平凡解（崩溃）或提高性能[14]。在这项工作中，受到这些方法的启发，我们研究了自监督预训练对ViT特征的影响。特别值得注意的是，我们已经发现了一些有趣的属性，这些属性在受监督的ViT和卷积神经网络中都没有出现：0•自监督的ViT特征明确包含场景布局，特别是物体边界，如图1所示。这些信息可以直接在最后一个块的自注意力模块中访问。0•无监督的ViT特征在没有任何微调、线性分类器或数据增强的情况下，通过基本的最近邻分类器（k-NN）在ImageNet上实现了78.3%的top-1准确率。0分割掩码的出现似乎是自监督方法共有的一个特性。然而，只有当结合动量编码器[26]和多裁剪增强[9]等特定组件时，k-NN才能表现出良好的性能。我们的研究还发现，使用较小的补丁对于提高ViT的特征质量非常重要。总体而言，我们对这些组件的重要性的发现使我们设计了一种简单的自监督方法，可以被解释为一种无标签的知识蒸馏形式[28]。由此产生的框架DINO通过使用标准的交叉熵损失直接预测由动量编码器构建的教师网络的输出。有趣的是，我们的方法可以通过对教师输出进行中心化和锐化来避免崩溃，而其他流行的组件，如预测器[23]、高级归一化[9]或对比损失[26]在稳定性或性能方面几乎没有带来好处。特别重要的是，我们的框架灵活，并且适用于卷积网络和ViT，无需修改架构，也无需调整内部归一化[47]。我们通过在ImageNet线性分类基准测试中使用小补丁的ViT-Base超过了以前的自监督特征，达到了80.1%的top-1准确率。我们还通过使用ResNet-50架构与最先进的方法进行匹配，证实了DINO与卷积网络的兼容性。最后，我们讨论了在计算和内存容量有限的情况下如何使用ViT的DINO的不同场景。特别是，使用ViT训练DINO只需要两台8-GPU服务器，耗时3天，在ImageNet线性基准测试中达到76.1%，这超过了基于相似大小的卷积网络的自监督系统，且计算需求显著降低[9, 23]。0学生 gθs0x0x2 x10教师 gθt0中心化0sg0softmax0p1 p20softmax0损失：0- p2 log p10ema0图2：无标签的自蒸馏。为了简单起见，我们以一个视图对（x1，x2）的情况下说明DINO。模型将输入图像的两个不同的随机变换传递给学生和教师网络。两个网络具有相同的架构但具有不同的参数。教师网络的输出是在批次上计算的均值中心化的。每个网络输出一个K维特征，通过特征维度上的温度softmax进行归一化。然后使用交叉熵损失来测量它们的相似性。我们在教师上应用了一个停梯度（sg）运算符，只通过学生传播梯度。教师参数使用学生参数的指数移动平均（ema）进行更新。02. 相关工作0自监督学习。关于自监督学习的大量工作集中在被称为实例分类的区分性方法上[11, 17, 26,60]，该方法将每个图像视为不同的类别，并通过区分它们来训练模型，直到数据增强。然而，明确地学习一个分类器来区分所有图像[17]在图像数量上不具有良好的可扩展性。吴等人[60]提出使用噪声对比估计器（NCE）[25]来比较实例，而不是对它们进行分类。这种方法的一个缺点是它需要同时比较大量图像的特征。在实践中，这需要大批量[11]或者内存库[26, 60]。几种变体允许以聚类的形式自动分组实例[2, 7, 8,21, 29, 35, 61, 65,69]。最近的研究表明，我们可以在不区分图像的情况下学习无监督特征。特别值得注意的是，Grill等人[23]提出了一种称为BYOL的度量学习方法，其中特征通过与动量编码器获得的表示进行匹配来进行训练。已经证明像BYOL这样的方法即使没有动量编码器也可以工作，但性能会下降[14,23]。其他几项研究也呼应了这个方向，表明可以通过将特征与ℓ2超球面上的均匀分布匹配[5]或使用白化[19,66]来训练特征。我们的方法受到BYOL的启发，但是使用了不同的相似性匹配方法。Ps(x)(i) =exp(gθs(x)(i)/τs)Kk=1 exp(gθs(x)(k)/τs),(1)minθs̸96520损失并且对学生和教师使用完全相同的架构。这样，我们的工作完成了BYOL中自监督学习被解释为无标签的MeanTeacher自蒸馏的解释。0自训练和知识蒸馏。自训练旨在通过将一小部分初始注释传播到大量未标记实例来提高特征的质量。这种传播可以通过硬标签分配[34, 63,64]或软分配[62]来完成。当使用软标签时，该方法通常被称为知识蒸馏[6,28]，并且主要用于训练一个小型网络来模仿较大网络的输出以压缩模型。谢等人[62]最近表明，蒸馏可以用于将软伪标签传播到无标签数据中的自训练流程中，从而在自训练和知识蒸馏之间建立了重要的联系。我们的工作基于这种关系，并将知识蒸馏扩展到没有标签可用的情况。先前的工作还将自监督学习和知识蒸馏相结合，实现了自监督模型压缩[20]和性能提升[12,38]。然而，这些工作依赖于预训练的固定教师，而我们的教师在训练过程中是动态构建的。因此，知识蒸馏不是作为自监督预训练的后处理步骤，而是直接作为自监督目标。最后，我们的工作还与共同蒸馏[1]相关，其中学生和教师具有相同的架构，并在训练过程中使用蒸馏。然而，共同蒸馏中的教师也会从学生那里蒸馏，而我们的工作中的教师是使用学生的动量平均值进行更新的。03. 方法03.1. 带有知识蒸馏的自监督学习0本工作使用的框架DINO与最近的自监督方法[9, 14, 11, 23,26]具有相同的整体结构。然而，我们的方法也与知识蒸馏[28]相似，并以此角度进行介绍。我们在图2中说明了DINO，并在算法1中提供了伪代码实现。知识蒸馏是一种学习范式，其中我们训练一个学生网络gθs来匹配给定教师网络gθt的输出，分别由θs和θt参数化。给定输入图像x，两个网络都输出K维的概率分布，分别表示为Ps和Pt。概率P通过使用softmax函数对网络g的输出进行归一化得到。更具体地说，0其中τs > 0是控制输出分布的锐化程度的温度参数。0算法1 DINO PyTorch伪代码，无多裁剪。0# gs, gt: 学生和教师网络 # C: 中心 (K) # tps, tpt: 学生和教师温度 # l, m:网络和中心的动量率 gt.params = gs.params for x in loader: #加载一个小批量x，其中包含n个样本0x1, x2 = augment(x), augment(x) # 随机视图0s1, s2 = gs(x1), gs(x2) # 学生输出 n-by-K t1, t2 = gt(x1), gt(x2) #教师输出 n-by-K0loss = H(t1, s2)/2 + H(t2, s1)/2 loss.backward() # 反向传播0# 更新学生、教师和中心 update(gs) # SGD gt.params =l*gt.params + (1-l)*gs.params C = m*C + (1-m)*cat([t1,t2]).mean(dim=0)0def H(t, s): t = t.detach() # 停止梯度传播 s = softmax(s / tps, dim=1) t =softmax((t - C) / tpt, dim=1) # 中心化 + 锐化 return - (t *log(s)).sum(dim=1).mean()0输出分布的锐化程度，Pt的温度τt也有类似的公式。给定一个固定的教师网络gθt，我们通过最小化相对于学生网络θs的参数的交叉熵损失来学习匹配这些分布：0min θs H（Pt（x），Ps（x）），（2）0其中H（a，b）= - a logb。接下来，我们详细介绍如何将问题（2）调整为自监督学习问题。首先，我们使用多裁剪策略[9]构建不同的扭曲视图或裁剪图像。更具体地说，从给定的图像中，我们生成一组不同的视图V。该集合包含两个全局视图xg1和xg2以及几个较小分辨率的局部视图。所有裁剪图像都通过学生网络，而只有全局视图通过教师网络，从而鼓励“局部到全局”的对应关系。我们最小化损失：0�0x ∈{ xg1，xg2}0�0x' ∈ Vx' ≠ x0H（Pt（x），Ps（x'））。（3）0该损失是通用的，可以在任意数量的视图上使用，甚至只有2个。然而，我们遵循多裁剪的标准设置，使用2个分辨率为2242的全局视图0覆盖原始图像的大面积（例如大于50%），以及分辨率为962的多个局部视图0仅覆盖原始图像的小区域（例如小于50%）。除非另有说明，否则我们将此设置称为DINO的基本参数化。两个网络共享相同的架构g，但具有不同的参数集θs和θt。我们通过随机梯度下降来学习参数θs，最小化方程（3）。B�i=1gθt(xi),(4)96530表1：网络配置。“Blocks”是Transformer块的数量，“dim”是通道维度，“heads”是多头注意力的数量。“#tokens”是在考虑2242分辨率输入时的令牌序列长度，“#params”是参数的总数（不包括投影头），“im/s”是在NVIDIAV100 GPU上每次前向传播的推理时间，每次使用128个样本。0模型块维度头数 #令牌 #参数 im/s0ResNet-50 - 2048 - - 23M 1237 ViT-S/16 12 384 6197 21M 1007 ViT-S/8 12 384 6 785 21M 180ViT-B/16 12 768 12 197 85M 312 ViT-B/8 12 76812 785 85M 630教师网络。与知识蒸馏不同，我们没有预先给定教师gθt，因此我们从学生网络的过去迭代中构建教师网络。我们在附录中研究了教师的不同更新规则，并显示在我们的框架中，将教师网络冻结一个时期的效果出奇的好，而将学生权重复制给教师则无法收敛。特别值得注意的是，在学生权重上使用指数移动平均（EMA），即动量编码器[26]，非常适合我们的框架。更新规则为θt ← λθt+（1-λ）θs，其中λ在训练期间按照余弦计划从0.996到1变化[23]。最初，动量编码器被引入作为对比学习中队列的替代品[26]。然而，在我们的框架中，它的作用不同，因为我们没有队列也没有对比损失，可能更接近于自训练中使用的均值教师的作用[52]。事实上，我们观察到，这个教师执行了一种类似于Polyak-Ruppert平均的模型集成形式，具有指数衰减[41,48]。使用Polyak-Ruppert平均进行模型集成是提高模型性能的标准做法[31]。我们观察到，这个教师在整个训练过程中的性能优于学生，并通过提供更高质量的目标特征来引导学生的训练。以前的研究中没有观察到这种动态[23, 47]。0网络架构。神经网络g由骨干f（ViT [16]或ResNet[27]）和投影头h：g = h ◦f组成。下游任务中使用的特征是骨干f的输出。投影头由一个具有隐藏维度2048的3层多层感知机（MLP）组成，后跟ℓ2归一化和具有K维的权重归一化全连接层[50]，类似于SwAV[9]的设计。我们已经测试了其他投影头，这种特定的设计似乎对DINO效果最好（请参阅附录）。我们不使用预测器[23,14]，因此得到的架构与之前完全相同。0对于学生和教师网络，我们特别注意到，与标准的卷积神经网络不同，ViT架构默认不使用批量归一化（BN）。因此，当将DINO应用于ViT时，我们在投影头中也不使用任何BN，使系统完全无BN。0避免崩溃。几种自监督方法通过不同的操作来避免崩溃，包括对比损失[60]、聚类约束[7,9]、预测器[23]或批量归一化[23,47]。虽然我们的框架可以通过多个归一化来稳定[9]，但也可以只使用中心化和锐化动量教师输出来避免模型崩溃。如附录中实验证明，中心化可以防止某个维度占主导地位，但会导致坍缩到均匀分布，而锐化则产生相反的效果。应用这两种操作可以平衡它们的效果，足以在存在动量教师的情况下避免崩溃。选择这种避免崩溃的方法会以稳定性为代价，减少对批次的依赖性：中心化操作仅依赖于一阶批次统计，并且可以解释为向教师添加一个偏置项c：g t ( x ) ← g t ( x) +c。中心c使用指数移动平均法进行更新，这使得该方法在不同的批次大小下表现良好，如附录中所示。0c ← mc + (1 − m ) 10其中m >0是一个速率参数，B是批量大小。通过在教师softmax归一化中使用较低的温度τt来获得输出锐化。03.2. 实现和评估协议0在本节中，我们提供了使用DINO进行训练的实现细节，并介绍了我们实验中使用的评估协议。0视觉Transformer。我们简要描述了视觉Transformer（ViT）[16,57]的机制，并参考Vaswani等人的论文[57]了解Transformer的详细信息，参考Dosovitskiy等人的论文[16]了解其在图像上的应用。我们遵循DeiT[56]中使用的实现。我们在表1中总结了本文中使用的不同网络的配置。ViT架构的输入是一个非重叠连续图像块的网格，分辨率为N×N。在本文中，我们通常使用N=16（“/16”）或N=8（“/8”）。然后，将这些块通过线性层传递，形成一组嵌入。我们在序列中添加一个额外的可学习令牌[15,16]。这个令牌的作用是从整个序列中聚合信息，并在其输出处附加投影头h。为了保持一致性，我们将这个令牌称为类令牌[CLS]。DINORN5023123775.367.5DINOViT-S21100777.074.5DINOViT-B/8856380.177.496540与之前的工作[15, 16,56]类似，尽管在我们的情况下它没有与任何标签或监督相关联。补丁令牌集和[CLS]令牌被输入到具有“预-规范”层归一化[10,32]的标准Transformer网络中。Transformer是一系列自注意力和前馈层，与跳跃连接并行。自注意力层通过注意机制[3]查看其他令牌表示来更新令牌表示。0实现细节。我们在没有标签的情况下，使用ImageNet数据集[49]对模型进行预训练。当使用ViT-S/16时，我们使用adamw优化器[37]和批量大小为1024，在16个GPU上进行训练。学习率在前10个epoch期间线性增加到基准值，基准值通过以下线性缩放规则确定[22]：lr = 0.0005 *batchsize/256。热身结束后，我们使用余弦调度[36]来衰减学习率。权重衰减也遵循从0.04到0.4的余弦调度。温度τs设置为0.1，而我们在前30个epoch期间使用线性热身将τt从0.04增加到0.07。我们遵循BYOL[23]的数据增强方法（颜色抖动、高斯模糊和日照）和多裁剪[9]，使用双三次插值来适应位置嵌入到尺度[16,56]。可以在https://github.com/facebookresearch/dino上公开获取用于重现我们的结果的代码和模型。0评估协议。自监督学习的标准协议要么是在冻结特征上学习线性分类器[67，26]，要么是在下游任务中微调特征。对于线性评估，我们在训练过程中应用随机调整裁剪和水平翻转增强，并在中心裁剪上报告准确率。对于微调评估，我们使用预训练权重初始化网络，并在训练过程中对其进行调整。然而，这两种评估对超参数非常敏感，当例如学习率变化时，我们观察到准确率在运行之间存在很大的变化。因此，我们还使用简单的加权最近邻分类器（k-NN）评估特征的质量，就像[60]中一样。我们冻结预训练模型来计算并存储下游任务的训练数据的特征。然后，最近邻分类器将图像的特征与投票为标签的k个最近存储特征进行匹配。我们对不同数量的最近邻进行扫描，发现20个最近邻对于我们大多数运行效果最好。这种评估协议不需要任何其他超参数调整，也不需要数据增强，可以在下游数据集上只进行一次遍历，极大地简化了特征评估。0表2：ImageNet上的线性和k-NN分类。我们报告不同自监督方法在ImageNet验证集上进行线性和k-NN评估的top-1准确率。我们关注ResNet-50和ViT-small架构，但也报告了在不同架构上获得的最佳结果。�由我们运行。我们对具有官方发布权重的模型进行k-NN评估。吞吐量（im/s）是在具有128个样本的NVIDIA V100GPU上计算的每次前向传播。参数（M）是特征提取器的参数。0方法架构参数 im/s 线性 k-NN0有监督 RN50 23 1237 79.3 79.30SCLR [11] RN50 23 1237 69.1 60.7 MoCov2 [13] RN50 231237 71.1 61.9 InfoMin [54] RN50 23 1237 73.0 65.3 BarlowT[66] RN50 23 1237 73.2 66.0 OBoW [21] RN50 23 1237 73.861.9 BYOL [23] RN50 23 1237 74.4 64.8 DCv2 [9] RN50 231237 75.2 67.1 SwAV [9] RN50 23 1237 75.3 65.70BYOL � [23] ViT-S 21 1007 71.4 66.6 MoCov2 � [13] ViT-S 211007 72.7 64.4 SwAV � [9] ViT-S 21 1007 73.5 66.30跨架构比较 SCLR [11] RN50w4 375 117 76.8 69.3 SwAV [9]RN50w2 93 384 77.3 67.3 BYOL [23] RN50w2 93 384 77.4 –0DINO ViT-B/16 85 312 78.2 76.1 SwAV [9] RN50w5 586 7678.5 67.1 BYOL [23] RN50w4 375 117 78.6 – BYOL [23]RN200w2 250 123 79.6 73.90DINO ViT-S/8 21 180 79.7 78.3 SCLRv2 [12] RN152w3+SK794 46 79.8 73.104. 主要结果0我们首先使用ImageNet上的标准自监督基准验证了本研究中使用的DINO框架。然后，我们研究了所得特征的检索、目标发现和迁移学习属性。04.1. 与ImageNet上的SSL框架进行比较0我们考虑了两种不同的设置：与相同架构进行比较和跨架构比较。0与相同架构进行比较。在表2的顶部面板中，我们将DINO与其他具有相同架构的自监督方法进行比较，这些方法要么是ResNet-50[27]，要么是ViT-small（ViT-S）[56]。选择ViT-S的原因是它在几个方面与ResNet-50相似：参数数量（21M vs 23M），吞吐量（1237/sec VSROxRParSup. [46]RN101+R-MACImNet49.818.574.052.1Sup.ViT-S/16ImNet33.58.963.037.2DINOResNet-50ImNet35.411.155.927.5DINOViT-S/16ImNet41.813.763.134.4DINOViT-S/16GLDv251.524.375.351.6Multigrain [4]ResNet-502048224275.1Multigrain [4]ResNet-502048largest side 80082.5Supervised [56]ViT-B/161536224276.4DINOViT-B/161536224281.7DINOViT-B/81536320285.596550表3：图像检索。我们比较在ImageNet和Google Landmarksv2（GLDv2）数据集上使用监督或DINO预训练的现成特征进行检索的性能。我们在重新访问的Oxford和Paris上报告mAP。使用DINO在地标数据集上进行预训练的效果特别好。作为参考，我们还报告了使用现成特征的最佳检索方法[46]。0预训练架构预训练 M H M H01007im/sec)和在ImageNet上使用[56]的训练过程进行的监督性能（79.3%对比79.8%）。我们在附录中探索了ViT-S的变体。首先，我们观察到DINO在ResNet-50上的性能与最先进方法相当，验证了DINO在标准设置下的有效性。当我们切换到ViT架构时，DINO在线性分类中的性能优于BYOL、MoCov2和SwAV约3.5%，在k-NN评估中优于它们约7.9%。更令人惊讶的是，使用简单的k-NN分类器的性能几乎与线性分类器相当（74.5%对比77.0%）。这种性质只在使用DINO与ViT架构时出现，而不是其他现有的自监督方法或ResNet-50。0跨架构比较。在表2的底部面板中，我们比较了不同架构获得的最佳性能。这种设置的目的不是直接比较方法，而是评估DINO训练的ViT在转移到更大架构时的限制。尽管使用DINO训练更大的ViT可以提高性能，但是减小补丁的大小（“/8”变体）对性能影响更大。尽管减小补丁大小不会增加参数，但它仍然会显著减少运行时间并增加内存使用量。然而，使用DINO训练的8×8补丁的基础ViT在线性分类中达到80.1%的top-1准确率，在k-NN分类器中达到77.4%，参数量比之前的最先进方法少10倍，运行时间快1.4倍[12]。04.2. 使用自监督学习训练的ViT的性质0我们评估了DINO特征在最近邻搜索、保留物体位置信息和在下游任务中的可迁移性方面的性质。0表4：复制检测。我们报告了在Copydays“strong”子集[18]上进行的复制检测的mAP性能。作为参考，我们还报告了专门用于特定对象检索的multigrain模型[4]的性能。0方法架构维度分辨率 mAP04.2.1 使用DINO ViT进行最近邻检索0在ImageNet分类任务中的结果已经展示了我们的特征在依赖最近邻检索的任务中的潜力。在这组实验中，我们进一步巩固了这一发现，应用于地标检索和复制检测任务。0图像检索。我们考虑了[43]重新评估的Oxford和Paris图像检索数据集[40]。它们包含了逐渐增加难度的3个不同的划分，每个划分都有查询/数据库对。我们报告了中等（M）和困难（H）划分的平均准确率（mAP）。在表3中，我们比较了使用有监督或DINO训练获得的不同现成特征的性能。我们冻结这些特征并直接应用k-NN进行检索。我们观察到，DINO特征的性能优于使用带标签的ImageNet训练的特征。自监督学习方法的一个优点是它们可以在任何数据集上进行训练，而不需要任何形式的注释。我们在Google Landmarksv2（GLDv2）[59]的120万个干净样本上训练了DINO，这是一个专门用于检索目的的地标数据集。在GLDv2上训练的DINO ViT特征非常出色，优于以前基于现成描述符[55,46]的方法。0复制检测。我们还评估了使用DINO训练的ViT在复制检测任务上的性能。我们报告了INRIACopydays数据集“strong”子集上的平均精度。任务是识别被模糊、插入、打印和扫描等方式扭曲的图像。我们按照之前的工作[4]，从YFCC100M数据集[53]中随机选择了10k个干扰图像。我们直接使用余弦相似度对从预训练网络获得的特征进行复制检测。这些特征由输出的[CLS]令牌和GeM池化[44]的输出补丁令牌的串联组成。对于ViT-B，这将得到一个1536维的描述符。按照[4]的做法，我们对特征进行白化处理。我们在YFCC100M的额外20K个随机图像上学习这个转换，这些图像与干扰图像不同。表4显示，使用DINO训练的ViT在复制检测上非常有竞争力。96560表5：DAVIS2017视频对象分割。我们评估冻结特征在视频实例跟踪上的质量。我们报告平均区域相似度Jm和基于轮廓的平均准确率Fm。我们与现有的自监督方法和在ImageNet上训练的监督式ViT-S/8进行比较。图像分辨率为480p。0方法数据架构 ( J & F ) m J m F m0监督式 ImageNet INet ViT-S/8 66.0 63.9 68.1 STM [39] I/D/YRN50 81.8 79.2 84.30自监督CT [58] VLOG RN50 48.7 46.4 50.0 MAST [33] YT-VOSRN18 65.5 63.3 67.6 STC [30] Kinetics RN18 67.6 64.8 70.20DINO INet ViT-S/16 61.8 60.2 63.40DINO INet ViT-B/16 62.3 60.7 63.90DINO INet ViT-S/8 69.9 66.6 73.10DINO INet ViT-B/8 71.4 67.9 74.90图3：多个头部的注意力图。我们考虑使用DINO训练的ViT-S/8的最后一层的头部，并显示[CLS]令牌查询的自注意力。不同的头部用不同的颜色表示，它们关注表示不同对象或部分的不同位置（附录中有更多示例）。04.2.2 发现场景的语义布局0如图1定性地展示的那样，我们的自注意力图包含有关图像分割的信息。在这项研究中，我们在一个标准基准上以及通过直接探测从这些注意力图生成的掩码的质量来衡量这个属性。0视频实例分割。在表5中，我们在DAVIS-2017视频实例分割基准[42]上评估输出的补丁令牌。我们遵循Jabri等人[30]的实验协议，并使用最近邻方法对场景进行分割。0监督式0DINO0随机监督式 DINO0ViT-S/16 22.0 27.3 45.90ViT-S/8 21.8 23.7 44.70图4：监督式与DINO的分割。我们通过将自注意力图阈值化以保留60%的质量来可视化获得的分割掩码。在顶部，我们展示了使用监督和DINO训练的ViT-S/8的结果掩码。我们展示了两个模型的最佳头部。底部的表格比较了PASCALVOC12数据集验证图像上真实标签和这些掩码之间的Jaccard相似度。0在连续帧之间的邻居之间进行复制检测；因此，我们没有在特征上训练任何模型，也没有为任务微调任何权重。我们观察到，即使我们的训练目标和架构都不是为密集任务设计的，性能在这个基准上也是有竞争力的。由于网络没有进行微调，模型的输出必须保留了一些空间信息。最后，对于这个密集识别任务，小补丁（“/8”）的变体表现得更好（ViT-B的(J & F) m增加了9.1%）。0探索自注意力图。在图3中，我们展示了不同的头部可以关注图像的不同语义区域，即使它们被遮挡（第三行的灌木丛）或很小（第二行的旗帜）。我们使用480p图像获得可视化结果，对于ViT-S/8，结果为3601个令牌的序列。在图4中，我们展示了在杂乱环境中，监督式ViT对对象的关注效果不好，无论是从定性还是定量的角度来看。我们报告了基于Jaccard相似度的真实标签和通过将自注意力图阈值化以保留60%的质量得到的分割掩码之间的差异。注意，自注意力图是平滑的，不是为了生成掩码而进行优化。尽管如此，我们可以清楚地看到监督式或DINO模型之间存在明显的差异，Jaccard相似度方面存在显著差距。注意，自监督卷积网络也包含有关分割的信息，但需要专门的方法从它们的权重中提取出来[24]。Cifar10 Cifar100 INat18 INat19 Flwrs Cars INetViT-S/16Sup. [56]99.089.570.776.698.292.1 79.9DINO99.090.572.078.298.593.0 81.5ViT-B/16Sup. [56]99.090.873.277.798.492.1 81.8DINO99.191.772.678.698.893.0 82.8MethodMom.SKMCLossPred.k-NNLin.1 DINO✓✓CE72.876.12✓CE0.10.13✓✓✓CE72.276.04✓CE67.972.55✓✓MSE52.662.46✓✓CE✓71.875.67 BYOL✓MSE✓66.671.48 MoCov2✓INCE62.071.69 SwAV✓✓CE64.771.8SK: Sinkhorn-Knopp, MC: Multi-Crop, Pred.: PredictorCE: Cross-Entropy, MSE: Mean Square Error, INCE: InfoNCE10372747678ImageNet top-196570表6：在不同数据集上微调预训练模型的迁移学习。我们报告top-1准确率。使用DINO进行自监督预训练的转移效果优于监督预训练。04.2.3 下游任务上的迁移学习0在表6中，我们评估了使用DINO预训练的特征在不同下游任务上的质量。我们将其与在ImageNet上使用监督训练得到的相同架构的特征进行比较。我们遵循Touvron等人[56]使用的协议，在每个下游任务上微调这些特征。我们观察到对于ViT架构，自监督预训练比监督训练的特征转移效果更好，这与对卷积网络[9, 26,51]的观察结果一致。最后，自监督预训练极大地提高了在ImageNet上的结果（+1-2%）。05. DINO的消融研究0在本节中，我们通过实验证明了DINO应用于ViT的效果。整个研究中考虑的模型是ViT-S。我们还将读者引导到附录中进行额外的研究。0不同组件的重要性。我们展示了自监督学习中不同组件对我们的框架训练的ViT的影响。在表7中，我们报告了添加或删除组件时的不同模型变体。首先，我们观察到在没有动量的情况下，我们的框架无法工作（第2行），需要更高级的操作，例如SK，以避免崩溃（第9行）。然而，使用动量后，使用SK的影响很小（第3行）。此外，将第3行和第9行进行比较突出了动量编码器对性能的重要性。其次，在第4行和第5行中，我们观察到多裁剪训练和DINO中的交叉熵损失是获得良好特征的重要组件。我们还观察到在学生网络中添加一个预测器的影响很小（第6行），而在BYOL中它是防止崩溃的关键[14,23]。为了完整起见，我们在附录中提供了这个消融研究的扩展版本。0补丁尺寸的重要性。在图5中，我们比较了使用不同补丁尺寸（16×16、8×8和5×5）训练的ViT-S模型的k-NN分类性能，同时还与使用16×16和8×8补丁的ViT-B进行了比较。所有0表7：自监督ViT预训练的重要组件。使用ViT-S/16进行300个时期的训练。我们研究了对k-NN和线性评估有影响的不同组件。对于不同的变体，我们突出显示与默认DINO设置的差异。动量编码器与多裁剪增强和交叉熵损失的最佳组合。我们还报告了BYOL[23]、MoCo-v2 [13]和SwAV [9]的结果。0吞吐量（im/s）05x0ViT-B DeiT-S图5：补丁大小的影响。k-NN评估作为不同输入补丁大小的吞吐量函数，使用ViT-B和ViT-S。模型训练了300个epochs。0模型训练了300个epochs。我们观察到随着补丁大小的减小，性能大大提高。有趣的是，可以在不增加额外参数的情况下大大提高性能。然而，使用较小的补丁的性能提升是以吞吐量为代价的：使用5×5的补丁，吞吐量下降到44im/s，而使用8×8的补丁，吞吐量为180 im/s。06. 结论0我们已经展示了自监督预训练标准ViT模型的潜力，实现了与专门为此设置设计的最佳卷积网络相当的性能。我们还发现了两个可以在未来应用中利用的特性：k-NN分类中特征的质量对于图像检索具有潜力。特征中关于场景布局的信息也可以有助于弱监督图像分割。96580参考文献0[1] Rohan Anil，Gabriel Pereyra，Alexandre Passos，RobertOrmandi，George E Dahl和Geoffrey EHinton。通过在线蒸馏进行大规模分布式神经网络训练。arXiv预印本arXiv:1804.03235，2018年3月。0[2] Yuki Markus Asano，Christian Rupprecht和AndreaVedaldi。通过同时聚类和表示学习进行自标记。在ICLR，2020年2月。0[3] Dzmitry Bahdanau，Kyunghyun Cho和YoshuaBengio。通过联合学习对齐和翻译进行神经机器翻译。预印本arXiv:1409.0473，2014年5月。0[4] Maxim Berman，Herv ´ e J ´ egou，VedaldiAndrea，Iasonas Kokkinos和MatthijsDouz

下载后可阅读完整内容，剩余1页未读，立即下载