SimMIM：一种简单的遮罩图像建模框架

68 浏览量更新于2023-10-25 收藏 23.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Zhenda Xie1*Zheng Zhang2*Yue Cao2*Yutong Lin3Jianmin Bao2Zhuliang Yao1Qi Dai2Han Hu2*{t-zhxie,zhez,yuecao,t-yutonglin,jianmin.bao,t-zhuyao,qid,hanhu}@microsoft.com96530SimMIM：一种用于遮罩图像建模的简单框架01清华大学2微软亚洲研究院3西安交通大学0摘要0本文介绍了SimMIM，一种用于遮罩图像建模的简单框架。我们简化了最近提出的相关方法，无需特殊设计，如分块遮罩和通过离散VAE或聚类进行标记化。为了研究遮罩图像建模任务学习良好表示的因素，我们系统地研究了我们框架中的主要组件，并发现每个组件的简单设计都揭示了非常强大的表示学习性能：1）对输入图像进行随机遮罩，使用适度大的遮罩补丁尺寸（例如32）进行强大的预训练任务；2）通过直接回归预测原始像素的RGB值，与采用复杂设计的补丁分类方法相比，性能不差；3）预测头部可以像线性层一样轻量级，性能不差。使用ViT-B，我们的方法在ImageNet-1K上通过预训练也达到了83.8%的top-1微调准确率，超过了之前最好的方法+0.6%。当应用于一个大约有6.5亿参数的更大模型SwinV2-H时，仅使用ImageNet-1K数据，我们的方法在ImageNet-1K上达到了87.1%的top-1准确率。我们还利用这种方法解决了大规模模型训练面临的数据需求问题，成功地使用比以前的实践（JFT-3B）少40倍的标记数据训练了一个3B模型（SwinV2-G），在四个代表性视觉基准上实现了最先进的准确性。代码可在https://github.com/microsoft/SimMIM找到。01. 引言0“我无法创造的东西，我就无法理解。” -理查德∙费曼“遮罩信号建模”就是这样一项任务，它学习创造：遮罩输入信号的一部分，并尝试预测这些遮罩信号。在自然语言处理中，遵循这个原理-0*相等。Zhenda，Yutong，Zhuliang是MSRA的长期实习生。0图1.我们的简单遮罩语言建模框架SimMIM的示意图。它通过一个轻量级的单层头部来预测随机遮罩补丁的原始像素值，并使用简单的ℓ1损失进行学习。0自去年以来，基于遮罩语言建模任务的自监督学习方法已经在该领域中占据主导地位[2,12,30]，即通过使用大量未标记的数据来学习非常大规模的语言模型已经被证明可以很好地推广到广泛的自然语言处理应用中。在计算机视觉领域，尽管有先驱者利用这一理念进行自监督表示学习[13,57,58]，但在过去的几年中，这一工作几乎被对比学习方法所淹没[8,20,48]。将这个任务应用于语言和视觉领域的不同困难可以通过两种模态之间的差异来解释。其中一个差异是图像具有更强的局部性：彼此接近的像素往往高度相关[25]，因此可以通过复制接近的像素来完成任务，而不是通过语义推理。另一个差异是视觉信号是原始和低级的，而文本标记是人类生成的高级概念。这引发了一个问题，即低级信号的预测对于高级视觉识别任务是否有用。第三个差异是视觉信号是连续的，而文本标记是离散的。目前还不清楚基于分类的遮罩语言建模方法如何适应处理连续的视觉信号。直到最近，有一些尝试试图弥合模态差距并解决这些障碍，通过引入-96540通过几个特殊设计，例如将连续信号转换为颜色聚类[7]，使用额外的网络进行补丁标记[1]，或通过分块屏蔽策略打破短程连接[1]等等，以此来学习表示在几个视觉识别任务中被证明是可转移的。与需要特殊复杂设计相反，在本文中，我们提出了一个与视觉信号的性质相吻合的简单框架，如图1所示，并且能够学习与之前更复杂方法相似甚至更好的表示：对输入图像补丁进行随机屏蔽，使用线性层对屏蔽区域的原始像素值进行回归，使用ℓ1损失。这个简单框架背后的关键设计和见解包括：0•在图像补丁上应用随机屏蔽，这对于视觉Transformer来说是简单和方便的。对于被屏蔽的像素，较大的补丁大小或更高的屏蔽比例可以减小找到接近的可见像素的机会。对于补丁大小为32的情况，该方法在广泛的屏蔽比例范围（10%-70%）内可以取得竞争性的性能。对于补丁大小为8的情况，屏蔽比例需要高达80%才能表现良好。需要注意的是，首选的屏蔽比例与语言领域中的情况非常不同，语言领域中默认采用较小的屏蔽比例0.15。我们假设两种模态中信息冗余程度的不同可能导致了这种不同的行为。0•使用原始像素回归任务。回归任务与视觉信号的连续性质相吻合，具有排序属性。这个简单的任务的表现不比使用通过标记、聚类或离散化特别定义的类别的分类方法差。0•采用极轻量级的预测头（例如线性层），其在传递性能方面与更重的预测头（例如逆Swin-B）相当或略好。使用极轻量级的预测头可以显著加快预训练速度。此外，我们注意到一系列目标分辨率（例如12^2-96^2）与最高分辨率192^2具有竞争力。虽然更重的预测头或更高的分辨率通常会产生更大的生成能力，但这种更大的能力不一定有助于下游微调任务。0虽然简单，但提出的SimMIM方法对于表示学习非常有效。使用ViT-B，在ImageNet-1K上实现了83.8%的top-1微调准确率，超过了之前最好的方法（[1]）0.6%。SimMIM还显示出可扩展到更大的模型：使用SwinV2-H模型（658M参数）[31]，它0在仅使用ImageNet-1K数据的方法中，SimMIM实现了87.1%的top-1准确率，这是最高的。这个结果鼓励使用自监督学习来解决由于模型容量迅速增加而导致的数据需求问题。事实上，借助SimMIM，我们成功地使用比Google的JFT-3B数据集小约40倍的数据训练了一个具有30亿参数的SwinV2-G模型[31]，并在几个代表性基准上取得了新的记录：ImageNet-V2分类上84.0%的top-1准确率[40]，COCO目标检测上63.1/54.4的box/maskmAP[6,29]，ADE20K语义分割上59.9的mIoU[49,60]，以及Kinetics-400动作识别上86.8%的top-1准确率[26,33]。近年来，我们在基本建模、学习算法以及多模态应用方面观察到了自然语言处理和计算机视觉之间的重叠越来越多，这与人类大脑实现通用智能能力的方式相吻合，我们希望我们在计算机视觉中展示的“信号屏蔽建模”能够进一步推动这一趋势，并鼓励不同AI领域的更深入交流。02. 相关工作0遮挡语言建模（MLM）遮挡语言建模[12,30]及其自回归变体[2]是自然语言处理（NLP）领域中主导的自监督学习方法。给定句子或句子对/三元组中的可见标记，这些方法通过预测输入的不可见标记来学习表示。这一系列方法自大约3年前[12]以来改变了该领域，使得能够学习非常大的语言模型，并通过利用大量数据在广泛的语言理解和生成任务上具有良好的泛化能力。0遮挡图像建模（MIM）遮挡图像建模[7, 13, 21, 36,45]与NLP中的MLM任务并行发展，但长期以来一直处于非主流位置。上下文编码器方法[36]是这个方向上的先驱工作，它遮挡了原始图像的一个矩形区域，并预测缺失的像素。CPC[21,45]通过每个批次中的验证任务预测补丁，并使用对比预测编码损失。最近，iGPT[7]、ViT[15]和BEiT[1]在现代视觉Transformer上回顾了这种学习方法，并通过在一些组件上引入特殊设计展示了强大的表示学习潜力，例如像素聚类[7]，平均颜色的预测[15]，以及通过一个附加的dVAE网络进行分块遮挡策略的标记化[1]。与这些复杂的设计相反，我们提出了一个极其简单的框架，SimMIM，它显示出类似或甚至稍微更好的效果。96550基于重建的方法也与我们的方法相关，特别是自编码器方法[22, 28, 35, 39, 46,47]。与我们的方法类似，它们采用重建任务来恢复原始信号。然而，它们基于的是可见信号重建的不同哲学，而不是我们的方法中的不可见信号的创建或预测。因此，它们在非常不同的路径上取得进展，通过研究如何通过适当的正则化或架构瓶颈有效地规范化任务学习。0图像修复方法除了表示学习之外，遮挡图像建模是一个经典的计算机视觉问题，称为图像修复。这个问题在计算机视觉领域已经被广泛研究了很长时间[37, 52,53]，旨在提高修复质量，而不涉及自监督表示学习。虽然我们提倡将图像修复作为一个强大的自监督预训练任务，但我们也发现更强的修复能力不一定导致在下游任务上更强的微调性能。0压缩感知本文中的方法也与压缩感知[14]相关，压缩感知认为我们获取的大部分数据，包括图像信号，几乎可以丢弃而几乎没有感知损失。这种观点也在稀疏推断的最近工作[19]中得到了部分支持，该工作表明，在丢弃大部分图像特征[23, 41,51]后，识别准确率几乎没有下降。本文中的观察进一步针对输入信号，即使用极小部分的随机选择的输入图像补丁作为输入，即10%，仍然可以学习到良好的视觉表示。0其他自监督学习方法在过去的二十年中，已经有许多预训练任务以自监督的方式学习视觉表示：灰度图像上色[57]，拼图问题解决[34]，分裂脑自编码[58]，旋转预测[17]，学习聚类[4]。虽然与遮挡图像建模非常不同，但其中一些有趣地也遵循了预测信号不可见部分的哲学，例如[57,58]使用一个或两个颜色通道作为输入来预测其他通道的值。另一部分工作主要集中在对比学习方法上[3, 8, 16, 18,20, 48,50]，这是以前的主流。我们希望我们的工作能够鼓励将遮挡语言建模作为自监督视觉表示学习的预训练任务。03. 方法03.1. 掩蔽图像建模框架0我们的方法SimMIM通过掩蔽图像建模来学习表示，该方法掩蔽了输入的一部分0图像信号并预测掩蔽区域的原始信号。该框架由4个主要组件组成：01）掩蔽策略。给定一个输入图像，该组件设计如何选择要掩蔽的区域，以及如何实现所选区域的掩蔽。掩蔽后的转换图像将被用作输入。02）编码器架构。它提取掩蔽图像的潜在特征表示，然后用于预测掩蔽区域的原始信号。学到的编码器应该能够迁移到各种视觉任务中。在本文中，我们主要考虑两种典型的视觉Transformer架构：一个是基本的ViT[15]，另一个是Swin Transformer [32]。03）预测头。预测头将应用于潜在特征表示，以产生掩蔽区域的原始信号的一种形式。04）预测目标。该组件定义了要预测的原始信号的形式。它可以是原始像素值或原始像素的变换。该组件还定义了损失类型，典型选项包括交叉熵分类损失和ℓ1或ℓ2回归损失。在接下来的小节中，我们将介绍每个组件的典型选项。通过组合每个组件的简单设计，我们已经能够实现强大的表示学习性能。03.2. 掩蔽策略0对于掩蔽区域的输入转换，我们遵循NLP社区[12，30]和BEiT[1]的做法，使用可学习的掩蔽令牌向量来替换每个掩蔽的补丁。令牌向量的维度设置与补丁嵌入后的其他可见补丁表示相同。对于掩蔽区域的选择，我们研究了以下掩蔽策略（如图2所示）：0基于补丁对齐的随机掩蔽首先介绍一种基于补丁对齐的随机掩蔽策略。图像补丁是视觉Transformer的基本处理单元，以补丁级别进行掩蔽操作非常方便，一个补丁要么完全可见，要么完全掩蔽。对于SwinTransformer，我们考虑不同分辨率阶段的等效补丁尺寸，4×4�32×32，默认采用32×32，即最后一个阶段的补丁尺寸。对于ViT，我们采用32×32作为默认的掩蔽补丁尺寸。0其他掩蔽策略我们在之前的工作中也尝试了其他掩蔽策略：1）[36]引入了一种中心区域掩蔽策略。我们将其放松为在图像上可以随机移动的区域。2）[1]引入了一种复杂的块状掩蔽策略。我们在两个掩蔽的补丁尺寸16×16和32×32上尝试了这种掩蔽策略。96560图2. 使用相同的掩蔽比例0.6生成的不同掩蔽策略的掩蔽区域示例：方形掩蔽[36]，块状掩蔽[1]应用于16大小的补丁，以及我们的简单随机掩蔽策略应用于不同的补丁尺寸（例如4、8、16和32）。03.3. 预测头0预测头可以是任意形式和容量的，只要其输入符合编码器输出，其输出完成预测目标。一些早期的工作遵循自编码器来使用重型预测头（解码器）[36]。在本文中，我们展示了预测头可以非常轻量化，如线性层一样轻巧。我们还尝试了更重的头部，如2层MLP、逆Swin-T和逆Swin-B。03.4. 预测目标0原始像素值回归像素值在颜色空间中是连续的。一个直接的选择是通过回归来预测掩蔽区域的原始像素。一般来说，视觉架构通常会产生降采样分辨率的特征图，例如ViT中的16×和大多数其他架构中的32×。为了预测输入图像的全分辨率的所有像素值，我们将特征图中的每个特征向量映射回原始分辨率，并让该向量负责预测相应的原始像素。例如，在SwinTransformer编码器产生的32×32降采样特征图上，我们应用一个输出维度为3072 =32×32×3的1×1卷积（线性）层，表示32×32像素的RGB值。我们还通过将原始图像按{32×，16×，8×，4×，2×}的比例进行降采样，考虑了更低分辨率的目标。掩蔽像素上采用ℓ1损失：0L = 10Ω(xM)∥yM−xM∥1，(1)0其中x，y∈R3HW×1分别表示输入的RGB值和预测值；M表示遮挡像素的集合；Ω(∙)表示元素的数量。我们还在实验中考虑了ℓ2和平滑-ℓ1损失，它们的表现相似，但默认采用ℓ1损失。0其他预测目标之前的方法大多将遮挡信号转换为簇或类别，然后对遮挡图像进行分类任务。0• 颜色聚类。在iGPT[7]中，使用大量自然图像将RGB值通过k-means聚类成512个簇。然后将每个像素分配给最近的簇中心。这种方法需要0需要额外的聚类步骤来生成9位颜色调色板。在我们的实验中，我们使用在iGPT中学到的512个聚类中心。0• 视觉分词化。在BEiT[1]中，使用离散VAE（dVAE）网络[38]将图像块转换为dVAE标记。标记身份用作分类目标。在这种方法中，需要预先训练额外的dVAE网络。0•逐通道的二进制颜色离散化。分别对R、G、B通道进行分类，每个通道分为相等的区间，例如实验中使用的是8和256个区间。03.5. 评估协议0我们遵循[1]的做法，主要通过在ImageNet-1K图像分类上进行微调来评估学到的表示质量，这是实际中更可用的场景。我们将主要考虑这个指标在我们的消融实验中。在系统级比较中，我们还遵循之前的工作[1，3，7，8，18，20]，报告线性探测的主要性能指标。然而，我们不会考虑这个线性探测指标，因为我们的主要目标是学习能够很好地补充后续下游任务的表示。04. 实验04.1. 消融实验04.1.1 设置0我们在消融实验中采用Swin-B[32]作为默认的骨干网络，这使我们能够在目标检测和语义分割等下游任务上评估学到的表示（见附录）。为了减少实验开销，我们使用默认的输入图像大小为192×192，并将窗口大小调整为6以适应改变的输入图像大小。ImageNet-1K图像分类数据集用于预训练和微调。在自监督预训练中，我们使用AdamW优化器[27]和余弦学习率调度器，训练100个周期。训练超参数为：批量大小为2048，基础学习率为8e-4，权重衰减为0.05，β1=0.9，β2=0.999，热身训练10个周期。1.716/320.682.6/82.616/320.882.4/82.54/8/16/320.481.9/82.0/82.4/82.94/8/16/320.682.0/82.1/82.7/82.84/8/16/320.882.1/82.4/82.8/82.4640.182.6640.282.6320.182.7320.282.8320.382.8320.482.9320.583.0320.682.8320.782.7320.882.4320.982.496570遮挡遮挡块遮挡比例 Top-1 类型大小准确率（%）0方形032 0.11（2×2）82.6032 0.25（3×3）82.5032 0.44（4×4）82.50块状0随机0随机0表1.使用不同的遮挡策略（即方形、块状和随机）和不同的遮挡块大小（即4、8、16、32和64）进行消融实验。0个周期。使用轻量级的数据增强策略：随机调整裁剪，尺度范围为[0.67，1]，宽高比范围为[3/4，4/3]，然后进行随机翻转和颜色归一化。SimMIM的默认选项为：随机遮挡策略，遮挡块大小为32×32，遮挡比例为0.6；线性预测头，目标图像大小为192×192；遮挡像素预测使用ℓ1损失。我们通过改变一个选项并保持其他设置与默认设置相同来进行消融实验。在微调中，我们还使用了AdamW优化器、100个周期的训练和余弦学习率调度器，热身训练10个周期。微调的超参数为：批量大小为2048，基础学习率为5e-3，权重衰减为0.05，β1=0.9，β2=0.999，随机深度[24]比例为0.1，层级学习率衰减为0.9。我们采用了与[1]相同的数据增强方法，包括RandAug [10]，Mixup [56]，Cutmix[54]，标签平滑 [43]和随机擦除 [59]。04.1.2 掩码策略0我们首先研究不同掩码策略对表示学习的有效性的影响。不同方法在多个掩码比例下的微调准确性总结如表1所示。我们首先注意到，我们简单的随机掩码策略的最佳准确性达到了83.0%，比其他方法高0.3%。0图3. (a)AvgDist（掩码像素到最近可见像素的平均距离）与不同掩码比例下使用不同掩码策略和不同掩码补丁尺寸的微调性能（top-1准确性）的关系；(b) AvgDist与微调性能的关系。0头部 #参数训练成本 Top-1准确性 (%)0线性89.9M 1 × 82.8 2层MLP 90.9M 1.2 × 82.8逆Swin-T 115.2M 1.7 × 82.4 逆Swin-B 174.8M 2.3 ×82.50表2.不同预测头部的消融实验。简单的线性层具有更低的训练成本，表现最佳。0相较于其他更特殊设计的策略（如[1]中的块掩码），这种简单策略的性能更高。此外，当采用32的大掩码尺寸时，这种简单策略在广泛的掩码比例范围（10%-70%）内表现稳定良好。我们假设大掩码补丁的中心像素可能与可见像素足够远。因此，即使使用低掩码比例（例如10%）或周围的所有补丁都未被掩码，它也会强制网络学习相对较长的连接。增加预测距离的另一种方法是使用更大的掩码比例，这也有助于相对较小的补丁尺寸的微调性能。通过将掩码比例从0.4增加到0.8，补丁尺寸分别为4、8和16，准确性平稳提高了+0.2%（从81.9%提高到82.1%）、+0.4%（从82.0%提高到82.4%）和+0.4%（从82.4%提高到82.8%）。然而，这些较小补丁的整体准确性不如32的较大补丁尺寸高。将补丁尺寸进一步增加到64会导致准确性下降，可能是由于预测距离过大。上述观察和分析也可以通过一个新提出的AvgDist指标很好地反映出来，该指标衡量了掩码像素到最近可见像素的平均欧氏距离。不同掩码比例下不同掩码策略的AvgDist如图3（a）所示。从该图中，我们观察到所有掩码策略的AvgDist随着掩码比例的增加而平稳增加。对于随机掩码策略，当掩码补丁尺寸较小时，例如4或8，AvgDist相对较低，并且随着掩码比例的增加增长缓慢。另一方面，当补丁尺寸较大，例如64时，非常小的掩码比例（例如10%）仍然会产生相对较大的AvgDist。方形和块掩码方法产生了类似于64补丁尺寸的非常高的AvgDist值。62(1/32)122(1/16)242(1/8)482(1/4)962(1/2)1922(1/1)96580与64补丁尺寸相似的高AvgDist值。图3（b）绘制了微调准确性与AvgDist度量之间的关系，呈现出一个脊形。高微调准确性的条目大致分布在AvgDist的[10,20]范围内，而具有较小或较大AvgDist的条目表现较差。这表明在掩码图像建模中，鼓励预测距离适度，既不要太大也不要太小。可能，掩码预测中的小距离可能使网络学习过多的短连接，而大距离可能太难学习。这些结果还表明，AvgDist可能是衡量掩码图像建模有效性的一个良好指标。在我们的实验中，我们默认采用32补丁尺寸上的0.6的掩码比例，因为它具有稳定的性能。还要注意的是，语言领域中的掩码策略和比例与我们的工作中探索的不同，通常采用较小的掩码比例15%。我们假设两种模态的不同信息冗余程度可能导致不同的行为。04.1.3 预测头0表2消融了不同预测头的效果，包括线性层、2层MLP、逆Swin-T和逆Swin-B。虽然通常较重的预测头产生稍低的损失，例如0.3722（逆Swin-B）与0.3743（线性层），但在下游ImageNet-1K任务上的转移性能较低。这表明更强的修复能力并不一定会导致更好的下游性能。这可能是因为容量在预测头中被大量浪费，而在下游任务中不会被使用。还有一个实际的缺点，较重的预测头会带来更高的训练成本，例如使用逆Swin-B的训练成本是使用线性层的2.3倍。还要注意，在先前的对比学习方法中，通常在预文本任务中使用多层MLP头，而不是线性层，这使得编码器产生的潜在特征与预文本目标适度远离，并对线性探测评估指标有益。在我们的工作中，我们展示了我们的方法中的单个线性层头，在微调度量下，已经显示出具有竞争力甚至是最佳的转移性能。这表明，如果我们的目标是为微调学习良好的特征，那么在对比学习方法中对头部设计的重要探索可能对于遮挡图像建模的头部设计并不是必要的。04.1.4 预测分辨率0表3消融了不同目标分辨率的效果。结果显示，大范围的分辨率（例如12^2-192^2）性能相当。0图像尺寸（输入比例）0Top-1准确率（%）82.3 82.7 82.8 82.7 82.8 82.80表3.不同预测分辨率的消融实验。适度大的分辨率（不低于1/16）都表现良好。0预测范围 Top-1准确率（%）0遮挡区域82.8完整图像81.70表4消融了不同预测损失区域的效果。如果损失在遮挡区域计算，则执行纯预测任务。如果在整个图像（包括遮挡和非遮挡区域）上计算损失，则执行联合预测和重建任务。0表明在不同的预测分辨率下，性能相当。只有在分辨率为62的低分辨率下，转移性能才会下降，可能是因为该选项丢失了太多信息。这些结果暗示了下游图像分类任务所需的信息粒度。对于其他更细粒度的下游任务，如目标检测或语义分割，我们将在未来的研究中进行探索。请注意，在我们的实验中，我们采用了默认的目标分辨率1922，因为它既具有最佳的转移准确性，又具有可忽略的计算开销。04.1.5 预测目标0表5比较了不同预测目标的效果。可以得出以下几点观察结果：0• ℓ1、平滑-ℓ1和ℓ2这三种损失表现相似；0• 通过颜色聚类[7]或分词[1]来精确定义类别的方法略逊于我们的方法；0•通过通道等大小的简单颜色离散化方法（作为替代选项提出）与ℓ1损失相当，但需要仔细调整箱子数量（例如8箱）。这表明，将遮挡图像建模的目标与基于遮挡语言建模的分类对齐并不是必要的。将方法与视觉信号的本质对齐是有益的。0预测还是重建？虽然自编码器和遮挡图像建模方法都是通过恢复原始信号来学习网络，但它们建立在可见信号重建和不可见信号预测的不同理念上。在我们的框架中，我们可以通过在输入中回归可见补丁的原始像素值来实例化重建任务。表4比较了仅预测遮挡区域的方法（即我们的默认设置）和同时恢复遮挡和非遮挡区域的替代方法。预测遮挡区域的方法表现明显优于其他方法。96590损失预测分辨率 Top-1准确率 (%)0分类08-bin 192^2 82.7 8-bin 48^2 82.70256-bin 192^2 N/A 256-bin 48^2 82.30iGPT集群 192^2 N/A iGPT集群 48^2 82.40BEiT - 82.70回归0ℓ2 192^2 82.7 平滑-ℓ1 192^2 82.7 ℓ1192^2 82.8 ℓ1 48^2 82.7 ℓ1 6^2 82.30表5. 对不同预测目标的消融实验。0方法输入微调线性评估预训练0尺寸 Top-1准确率 (%)Top-1准确率 (%) 成本0监督基准[44] 224^2 81.8 - -0DINO [5] 224^2 82.8 78.2 2.0 × MoCo v3 [9] 224^2 83.2 76.7 1.8 × ViT [15] 384^2 79.9 - �4.0 × BEiT [1] 224^2 83.2 56.7 1.5 × †0我们的 224^2 83.8 56.7 1.0 ×0表6.使用ViT-B作为编码器的系统级比较。训练成本相对于我们的方法进行计算。† BEiT需要额外的阶段来预训练dVAE，这不计算在内。0将所有图像像素恢复的准确率为82.8%，而预测任务的准确率为81.7%。这意味着这两个任务在其内部机制上根本不同，而预测任务可能是一种更有前景的表示学习方法。04.2. 在ViT-B上与之前方法的比较0与之前的工作[1,5]在ViT架构上进行实验，为了公平比较，我们也使用ViT-B架构进行实验。在预训练中，采用余弦学习率调度器和20个epoch的线性预热过程，共进行800个epoch的训练。除了使用224^2的输入之外，所有其他超参数严格遵循消融研究中的设置。0将输入分辨率设置为与之前方法相同。在微调中，我们采用了[1]中的逐层学习率衰减0.65，并且严格遵循我们消融研究中的所有其他设置。在线性探测中，我们按照[1]选择了ViT-B的一个中间层，该层产生了最佳的线性探测准确率。采用100个epoch的训练，其中包括5个epoch的线性预热步骤。表6比较了我们的方法与之前的方法在微调和线性探测两个指标上的表现，使用的是ViT-B。我们的方法通过微调实现了83.8%的Top-1准确率，比之前最好的方法[1]高出0.6%。同时注意，我们的方法具有比其他方法更高的训练效率，这要归功于其简单性，相对于DINO [5]、MoCo v3 [9]、ViT[15]和BEiT[1]（不计算dVAE预训练时间），我们的方法分别更高效2.0倍、1.8倍、�4.0倍和1.5倍。虽然我们的主要关注点是学习更适合微调的表示，但我们也报告了不同方法的线性探测准确率供参考。0方法预训练微调主干架构 Top-1准确率 (%) 参数0监督 192^2 224^2 Swin-B 83.3 88M 监督 192^2 224^2Swin-L 83.5 197M 监督 192^2 224^2 SwinV2-H 83.3658M0我们的 192^2 224^2 Swin-B 84.0 88M 我们的 192^2224^2 Swin-L 85.4 197M 我们的 192^2 224^2 SwinV2-H85.7 658M 我们的 192^2 512^2 SwinV2-H 87.1 658M0我们的 192^2 640^2 SwinV2-G 90.2 3.0B0表7. 使用SwinTransformer作为主干架构的扩展实验。我们所有的模型都是在输入为192^2的情况下进行预训练的。与其他模型不同，Swin-G是在私人收集的ImageNet-22K-ext数据集上进行训练的，详细描述见[31]。0相比其他方法，我们的方法在训练效率上更高，这要归功于其简单性，相对于DINO [5]、MoCo v3 [9]、ViT[15]和BEiT[1]（不计算dVAE预训练时间），我们的方法分别更高效2.0倍、1.8倍、�4.0倍和1.5倍。虽然我们的主要关注点是学习更适合微调的表示，但我们也报告了不同方法的线性探测准确率供参考。04.3. 使用Swin Transformer进行扩展实验0我们采用不同模型大小的SwinTransformer进行实验，包括Swin-B、Swin-L、SwinV2-H和SwinV2-G[31]。为了减少实验开销，我们在预训练中采用了较小的图像尺寸192^2，并使用了一个步长学习率调度器，使得不同训练长度的实验可以重用第一步的模型训练。第一步学习率的基准值设置为4e-4，并持续训练总训练epoch的7/8。剩余epoch的学习率除以10。对于H和G的模型大小，我们使用了[31]中介绍的变种，其稳定性比原始版本更强。所有模型都使用ImageNet-1K数据集进行训练，除了SwinV2-G使用了更大且私人收集的ImageNet-22K-ext数据集，详见[31]。当使用ImageNet-1K进行预训练时，所有模型都进行了800个epoch的训练，大多数其他超参数遵循消融研究中的设置。在微调中，采用了更大的图像尺寸224^2。对于SwinV2-H，我们还考虑了更大的分辨率512^2。微调的训练长度设置为100个epoch，SwinV2-H使用50个epoch。Swin-B、Swin-L和SwinV2-H的逐层学习率衰减分别设置为0.8、0.75和0.7。其他微调超参数遵循消融研究中的设置。表7列出了我们的方法在不同模型大小下的结果，与监督对照组进行了比较。通过SimMIM预训练，Swin-B、Swin-L和SwinV2-H的准确率都显著高于它们的监督对照组。此外，分辨率更大的SwinV2-H模型（512^2）在Effects of masked patch sizeFigure 6 shows the recov-ery of an image with different masked patch size under afixed masking ratio of 0.6. It can be seen that the details canbe much better recovered when the masked patch size issmaller, however, the learnt representations transfer worse.Probably, with smaller patch size, the prediction task can beeasily accomplished by close-by pixels or textures.96600图4.使用三种不同的遮罩类型（从左到右）恢复的图像：随机遮罩、遮罩大部分主要对象的部分和遮罩整个主要对象。0图5.通过仅预测遮罩区域或重建整个图像区域的两种不同损失恢复的图像。对于每个批次，从左到右的图像依次为原始图像、遮罩图像、仅预测遮罩补丁和重建所有补丁。0ImageNet-1K是仅使用ImageNet-1K数据的方法中最高的数字。尽管之前的所有十亿级视觉模型都依赖于Google的JFT-3B数据集进行模型训练[11, 42,55]，但所提出的SimMIM方法使用的数据比JFT-3B少约40倍。它在四个代表性的视觉基准测试中取得了强大的性能：ImageNet-V2分类任务的84.0%top-1准确率[40]，COCO目标检测任务的63.1/54.4框/掩码mAP[6, 29]，ADE20K语义分割任务的59.9 mIoU[49,60]，以及Kinetics-400动作识别任务的86.8%top-1准确率[26, 33]。更多细节请参阅[31]。04.4. 可视化0在本节中，我们试图通过可视化来理解所提出的方法以及一些关键设计。所有示例图像均来自ImageNet-1K验证集。0学到了什么能力？图4展示了使用几种人为设计的遮罩恢复的图像，以了解通过遮罩图像建模学到了什么能力。人为设计的遮罩（从左到右）包括随机遮罩、遮除大部分主要对象的遮罩和遮除整个主要对象的遮罩。我们可以得出以下观察结果：1）通过随机遮罩主要对象的适度部分，遮罩部分的形状和纹理都可以很好地恢复，如企鹅、山脉、帆船和人物所示。在未遮罩的区域，由于在训练过程中未学习到未遮罩区域的恢复，会出现严重的棋盘状伪影；2）通过遮罩大部分主要对象（大于90%），模型仍然可以通过微小的线索预测对象的存在；3）当对象完全被遮罩时，遮罩区域将被背景纹理修复。这些观察结果表明，该方法已经学到了强大的对象推理能力，并且这种能力不是由于对图像身份的记忆或附近像素的简单复制。0图6.使用遮挡补丁尺寸为4、8、16、32和64以及固定的遮挡比例0.6恢复图像的示例。0遮罩补丁尺寸的影响图6展示了在固定的遮罩比例0.6下，使用不同的遮罩补丁尺寸恢复图像的效果。可以看出，当遮罩补丁尺寸较小时，细节恢复得更好，然而学到的表示转移效果较差。可能是因为较小的补丁尺寸使得预测任务可以通过附近的像素或纹理轻松完成。0预测与重建我们在表4中展示了通过遮挡预测任务（我们的方法）和联合遮挡预测与可见信号重建任务学习到的表示的比较，结果显示纯遮挡预测任务的性能明显更好。图5比较了两种方法的恢复效果。可以看出后一种方法的效果更好，然而，可能模型的容量在恢复未遮挡区域上被浪费了，这对于微调可能并不那么有用。05. 结论0本文提出了一种简单而有效的自监督学习框架SimMIM，用于利用遮罩图像建模进行表示学习。该框架尽可能简单：1）使用随机遮罩策略和适度大的遮罩补丁尺寸；2）通过直接回归任务预测RGB值的原始像素；3）预测头可以是一个轻量级的线性层。我们希望我们的强大结果以及简单的框架能够促进对这一领域的未来研究，并鼓励人工智能领域的深入交流。96610参考文献0[1] Hangbo Bao, Li Dong, 和 Furu Wei. Beit:图像Transformer的Bert预训练. arXiv预印本arXiv:2106.08254 ,2021. 2 , 3 , 4 , 5 , 6 , 70[2] Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Sub-biah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakan- tan,Pranav Shyam, Girish Sastry, Amanda Askell, 等.语言模型是少样本学习器. arXiv预印本arXiv:2005.14165 , 2020.1 , 20[3] Yue Cao, Zhenda Xie, Bin Liu, Yutong Lin, Zheng Zhang,和 Han Hu. 参数化实例分类用于无监督视觉特征学习.神经信息处理系统进展 , 33, 2020. 3 , 40[4] Mathilde Caron, Piotr Bojanowski, Armand Joulin, 和Matthijs Douze. 用于无监督学习视觉特征的深度聚类.在欧洲计算机视觉会议(ECCV)论文集中, 2018. 30[5] Mathilde Caron, Hugo Touvron, Ishan Misra, Herv´eJ´egou, Julien Mairal, Piotr Bojanowski, 和 Armand Joulin.自监督视觉Transformer中的新特性.arXiv预印本arXiv:2104.14294 , 2021. 70[6] Kai Chen, Jiangmiao Pang, Jiaqi Wang, Yu Xiong, Xiaox-iao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jianping Shi,Wanli Ouyang, 等. 用于实例分割的混合任务级联.在IEEE/CVF计算机视觉和模式识别会议中, 2019. 2 , 80[7] Mark Chen, Alec Radford, Rewon Child, Jeff Wu, 和 Hee-woo Jun. 从像素开始的生成预训练. 神经信息处理系统进展 ,2020. 2 , 4 , 60[8] Ting Chen, Simon Kornblith, Mohammad Norouzi, 和Geoffrey Hinton. 对视觉表示进行对比学习的简单框架. IC

下载后可阅读完整内容，剩余1页未读，立即下载