缩放视觉变换器：ViT模型的规模对预训练图像分类性能的影响

88 浏览量更新于2023-10-25 收藏 802KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12104缩放视觉变换器翟晓华，AlexanderKolesnikov，Neil Houlsby，Lucas Beyer， GoogleResearch，Brain Team，苏黎世{xzhai，akolesnikov，neilhoulsby，lbeyer}@google.com摘要85基于注意力的神经网络，如视觉转换器（ViT），最近在许多计算机视觉基准测试中获得了最先进的结果。规模是获得优秀结果的主要因素，因此，了解模型的规模属性是有效设计未来几代模型的关键。虽然已经研究了缩放Transformer语言模型的规则，但不知道Vision Transformers如何缩放。为了解决这个问题，我们缩放ViT模型和数据，向上和向下，并表征错误率，数据和计算之间的关系在此过程中，我们改进了ViT的架构和训练因此，我们成功地训练了一个具有20亿个参数的ViT模型，在ImageNet上达到了90的最新水平。45%top-1准确率。该模型也表现良好的少数拍摄转移，例如，达到84。ImageNet上的top-1准确率为86%，每个类只有10个示例。1. 介绍基于注意力的Transformer架构[44]已经席卷计算机视觉领域[7，15]，并且正在成为研究和实践中越来越受欢迎的选择此前，Transformer已被广泛应用于自然语言处理（NLP）领域[6，14]。在[21]中仔细研究了NLP中变压器的最佳缩放，主要结论是大型模型不仅性能更好，而且更有效地使用大型计算预算然而，目前尚不清楚这些发现在多大程度上例如，视觉中最成功的预训练方案是有监督的，而不是NLP域中的无监督预训练。在本文中，我们专注于缩放律的传输性能的ViT模型预训练图像分类平等贡献8075706560151025每个类的图1.少量注射转移结果。我们的ViT-G模型在ImageNet上达到了84.86%的top-1准确率，具有10次线性评估。任务。特别是，我们实验了从500万到20亿个参数的模型，从100万到30亿个训练图像的数据集，以及从低于一个TPUv3核心日到超过10000个核心日的计算预算。我们的主要贡献是在两个数据集上对ViT模型的性能计算前沿进行了表征。在此过程中，我们创建了一个改进的大规模训练配方。我们研究了训练超参数，并发现了一些微妙的选择，这些选择使少数镜头传输性能得到了大幅改善。少数镜头转移评估协议也已被NLP领域中以前的大规模预训练工作所采用[5]。具体来说，我们发现非常强的L2正则化，仅应用于最终的线性预测层，导致学习的视觉表示具有非常强的少数镜头传输能力。例如，在ImageNet数据集（有1000个类）上，每个类只有一个例子，我们的最佳模型达到了69.52%的准确率;每个类有10个例子，它达到了84.86%。此外，我们大大减少了[15]中提出的原始ViT模型的内存占用我们通过特定于硬件的架构更改和不同的优化器来实现这一点。因此，我们训练了一个具有20亿个参数的模型，并在ImageNet达到了最先进的90.45%的准确率。我们的ViT-GViT-HSimplov2BYOL迪诺ImageNet top-1精度12105s/28S/32s/16Ti/16S/16B/32B/28B/16L/16g/14G/14908070605040101 103模型大小（Gflops）3020100 101 102 103 104计算（TPUv3核心天数）100 101 102 103104计算（TPUv3核心天数）102 103数据集大小（M）图2. 左/中：表示质量，测量为ImageNet微调和线性10次错误率，作为总训练计算的函数。饱和幂律近似帕累托边界相当准确。请注意，较小的模型（蓝色阴影）或在较少的图像（较小的标记）上训练的模型在训练时间较长时会饱和并脱离边界右上角：模型大小瓶颈时的表示质量对于每个模型大小，都使用了大量的数据集和计算量，因此模型容量是主要的瓶颈。模糊阴影标记表示每个模型的次优运行。右下角：按数据集大小划分的表示质量。对于每个数据集大小，突出显示具有最佳大小和计算量的模型，因此数据集大小是主要瓶颈。2. 核心成果在第3节中介绍详细的架构和训练协议改进之前，我们首先介绍了关于扩展趋势的主要结果。在下面的实验中，我们在公共ImageNet-21 k [13]数据集和私人收集的图像上训练了几个ViT模型，这些图像多达30亿张弱标记图像。我们改变架构大小、训练图像的数量和训练持续时间。所有模型都在TPUv3上训练，因此总计算量以TPUv3核心日为单位。为了评估模型学习到的表示的质量，我们测量了（i）通过在冻结权重上训练线性分类器的少量转移，（ii）通过在所有数据上微调整个模型的转移，两者都是多个基准任务。2.1. 同时扩展计算、模型和数据图2显示了ImageNet上的10次线性评估和微调评估[13]。其他数据集，牛津IIIT宠物[27]，CIFAR-100 [23]和Caltech-UCSD鸟类[46]的类似趋势见附录，图9。对于模型大小和数据大小的每个组合，我们预先训练不同数量的步骤。在图2中，连接点表示针对不同步骤数训练的相同模型我们提出以下意见。首先，将计算、模型和数据一起放大，提高了表示质量。在左侧图和中间图中，右下点显示了具有最大大小的模型、数据集大小和实现最低错误率的计算。然而，似乎在最大尺寸时，模型开始饱和，并且落在幂律边界（线性）之后图2中的双对数图上的关系）。第二，模型大小。右上角的图显示了每个型号尺寸的最佳由于容量有限，小型模型无法从最大的数据集或计算资源中获益图2左侧和中间显示了Ti/16模型趋向于高错误率，即使在大量图像上训练时也是如此。第三，大型模型受益于额外的数据，甚至超过1B图像。当放大模型大小时，表示质量可能会受到较小数据集的限制;即使是30- 300 M图像也不足以饱和最大的在图2中，30 M数据集上的L/16模型的错误率没有改善超过27%。在较大的数据集上，该模型达到了19%。此外，当增加数据集大小时，我们观察到大模型的性能最大的模型甚至获得了性能改进，训练集大小从1B增长到3B图像（图2，右下角）。然而，对于小型模型，如Ti/16或B/32，增加数据集大小并没有帮助。例如，在图2中，左侧和中间，Ti/16的所有曲线重叠，表明该模型实现了相同的性能，而与数据集大小无关。2.2. 双饱和幂律图2的左和中显示了表示质量与训练计算的帕累托边界。前沿包含具有计算到模型形状和训练持续时间的最佳分配的模型。对于超过两个数量级的计算，关系-50403020E= 0.09 + 0.26（C+0.01）0.351030M 300M 1B 3BE= 0.12 + 0.63（ C+ 0.52）0.32ImageNet微调错误率[%]ImageNet 10次错误率[%]12106Ti/16B/32L/16Ti/16B/32L/16ImageNet 10次错误率[%]807060504030ImageNet微调错误率[%]403020ImageNet finetune V2错误率[%]504030202010图3.ImageNet上的错误率，相对于预训练期间看到的图像大模型的样本效率更高，这在不同的设置中是一致的：在冻结表示上进行少量传输，在ImageNet上微调网络，并在v2测试集上评估微调后的计算和性能之间关系遵循幂律（E=aCb），从而在双对数图上形成一条直线。然而，我们在计算频谱的两端观察到"饱和"。在计算的高端，最大的模型不倾向于零错误率。如果我们从我们的观察中推断，无限容量模型将获得非零误差。在生成模型中也观察到了这种效应[18]。[18]的作者将这种残余误差称为任务的由于我们绘制了错误率，因此信息论解释不适用，但我们的观察结果支持ImageNet的基本性能上限概念[4]。根据该定律，这种饱和对应于误差率的一个附加常数：E=aC-b+c中的c。在计算谱的低端，我们看到较小模型的饱和;最小模型的性能优于幂律预测的性能出现这种饱和是因为即使是微不足道的解决方案也可以实现非零误差。例如，预测多数类（几乎零计算）将实现与其在测试集中的出现频率相关的准确度在[18]中没有观察到这个下限，要么是因为他们的最小模型足够大以避免这个区域，要么是因为对数损失在比准确度更差的性能下饱和（它最终会饱和）。这种饱和对应于x-轴：E中的d=a（C+d）−b+c。此常数指示零计算模型仍将获得非零精度。在该图中呈现图像。我们观察到，更大的模型更有效的样本，达到相同的错误率水平，看到的图像更少。对于10次拍摄，Ti/16模型需要看到近100倍的图像才能与L/16模型的表示质量相匹配。当微调时，该因子从100减小到约20。我们的研究结果表明，有了足够的数据，训练一个更大的模型，更少的步骤是可取的。这种观察反映了语言建模和机器翻译的结果[21，25]。2.4.缩放定律是否仍然适用于较少的图像？我们将研究扩展到更少的图像，从公共ImageNet-21k上的100万到1300万不等8070605040302.3.大模型的采样效率图3显示了相对于“看到”的图像总数（批量大小乘以数量）的表示质量100 101 102计算（TPUv3核心天数）101数据集大小（M）在训练前的步骤。除了公共验证集上的ImageNet微调和线性10次测试结果外，我们还报告了ImageNet微调模型在ImageNet-v2测试集[32]上的结果三个ViT模型在30亿上进行了预训练图4. ImageNet-21 k数据集上的结果。左：表示质量，以ImageNet线性10次错误率衡量，作为总训练计算的函数。双饱和幂律仍然适用。右：模型大小和数据集大小的表示质量Ti/16B/32L/161.3M2.6M5.1M10.2M13M101模型大小E= 0.24 + 0.96（C+1.57）0.61B/16B/32S/16Ti/16ImageNet 10次错误率[%]102103104102103104102103104所见图像（M）所见图像（M）所见图像（M）12107表1.ViT-G/14的结果与先前的最先进模型相比基准ImageNetINet V2INet真实ObjectNetVTAB（轻型）NS（有效- L2）[48]88.380.2-68.5-MPL（有效- L2）[28]90.2-91.02--夹子（ViT-L/14）[30]85.475.9-72.3-对准（有效）L2）[20]88.670.1---BiT-L（ResNet）87.54-90.5458.776.29ViT-H/14 [15]88.55-90.72-77.63ViT-G/1490.45± 0.0383.33±0.0390.81±0.0170.53±0.5278.29± 0.53数据集。在图4中，我们发现双饱和幂律仍然适用，当改变模型大小，数据集大小和计算资源时。这表明研究的结论具有很好的推广性，可以指导未来视觉Transformer架构的设计选择。在图4中，我们观察到类似的行为，即模型性能受到数据集大小的影响。当一起扩展计算、模型和数据时，可以获得最佳的表示质量。2.5. ViT-G/14结果我们训练了一个大型的Vision Transformer，ViT-G/14，它包含近20亿个参数。第3.6节详细介绍了建筑我们在一系列下游任务上评估了ViT-G/14模型，并将其与最近的最新结果进行了比较。我们在ImaegNet上进行微调，并报告ImageNet [33]，ImageNet-v2 [32]，ReaL [4]和ObjectNet [2]的准确性。此外，我们还报告了由19个任务组成的VTAB-1 k基准测试的迁移学习结果[52]。图1显示了Ima-geNet上的少量传输结果。ViT-G/14比之前最好的 ViT-H/14 模型 [15] 表现更好（超过5%），每个类10个样本的准确率达到84.86%。每类10张图像不到ImageNet数据的1%（每类13个示例），这通常用于自监督和半监督学习[51]。作为参考，图1显示了三个最先进的自监督学习模型，Sim-Simv 2 [9]和BYOL [16]，使用1%的ImageNet数据，DINO [8]使用每个类20个示例。然而，请注意，这些方法是完全不同的：ViT-G/14使用大量弱监督数据源，并且只预训练一次并转移到不同的任务。同时，自监督学习模型使用未标记但在域内的数据进行预训练，并针对单个任务。表 1 显示了其余基准测试的结果。 ViT-G/14 在ImageNet实现了90.45%的top-1准确率，设定了最新的技术水平。在ImageNet v2上，ViT-G/14比基于NoisyStudent模型的提高了3%[48]关于EfficientNet-L2对于ReaL，ViT-G/14仅以较小的幅度优于ViT-H[15]和BiT-L [22]，再次表明ImageNet分类任务可能达到饱和点。对于ObjectNet，ViT-G/14的性能大大优于BiT-L [22]，比Noisy Student好2%，但比CLIP落后约2%[30]。请注意，与其他方法不同，CLIP不会在ImageNet上进行微调，而是直接在ObjectNet上进行评估，这可能会提高其鲁棒性。最后，当将ViT-G/14模型转移到VTAB时，它在所有任务中只使用一个超参数就可以获得更好的结果VTAB上使用每任务重超参数扫描的最新技术水平为79.99 [20]，我们将使用ViT-G/14运行重扫描留到将来工作。3. 方法详情我们提出了一些改进的ViT模型和训练。这些改进大多易于实现，并能显著提高内存利用率和模型质量。它们允许我们单独使用数据并行来训练ViT-G/14，整个模型适合单个TPUv 3内核。3.1. “头部”的解耦权重衰减在低数据状态下，权重衰减对模型自适应有显著影响我们在中等规模上对这种现象进行了研究我们发现，一个可以受益于解耦的权重decay强度的最终线性层（图5演示了这一效果：我们在JFT-300 M上训练了一个集合ViT-B/32模型，每个单元格对应不同的头/体重衰减值的表现。对角线对应于对两种衰减使用相同的值。可以观察到，最佳性能出现在非对角线上（即，头部和身体的解耦重量衰减）。有趣的是，我们观察到头部的高权重衰减降低了预训练（上游）任务（未示出）的性能，尽管提高了转移性能。我们对这种现象没有一个完整的解释然而，我们假设，更强的重量衰减在1210858596160564937185960616056483720596061605548361959595958544734185657575753453216545455535043301853535453504430175354545450433117××10.03.0线性5次ImageNet准确度[%]10.03.0上游性能百分之六十1.0 1.00.3 0.30.10.010.10.01百分之五十零点零一零点零一000.001 0.010.10.31.03.010.0000.001 0.010.10.31.03.010.0百分之四十0 20万40万“身体”重量衰减“身体”重量衰减步骤图5.左图和中图：5次ImageNet精度和上游性能的依赖性取决于权重衰减强度。通常，单个权重衰减值被应用于所有权重（对应于热图上的对角线）。我们表明，通过使用重量衰减值的“头”和其余的重量显着提高了几杆传输性能。右图：ImageNet上不同类型头部的少镜头性能。头部的高重量衰减对所有人都同样有效。头部导致表示在类之间具有更大的余量，并且因此具有更好的少数镜头适应。这类似于SVM背后的主要思想[11]。这种大的衰减使得在上游预训练期间更难获得高精度，但我们的主要目标是高质量的传输。3.2. 通过删除[class]标记节省内存来自[15]的最大VIT模型使用14 14个补丁，具有224224个图像。这导致256个视觉“标记”，其中每个标记对应于图像块。除此之外，ViT模型还有一个额外的[class]token，用于生成最终表示，使token总数达到257个。对于ViT模型，当前TPU硬件将令牌尺寸填充到128的倍数，这可能导致50%的内存开销。为了克服这个问题，我们研究了使用额外[class]标记的替代方案。特别是，我们评估了全球平均池（GAP）和多头注意力池（MAP）[24]来聚合来自所有补丁令牌的表示。我们将MAP中的头数设置为等于模型其余部分中的注意力头数为了进一步简化头部设计，我们在最终预测层之前删除了最终非线性投影，这在原始ViT论文中存在。为了选择最好的头部，我们执行[class]token和GAP/MAP头部的并排比较结果总结于图5（右）中。我们发现，所有的头执行类似，而GAP和MAP是更有效的内存由于上述填充consider- erations。我们还观察到，非线性投影可以安全地删除。因此，我们选择了MAP头，因为它是最具表现力的，并导致最统一的架构。在[41]中也探索了MAP头，在不同的上下文中，为了更好的质量而不是节省内存。3.3. 按比例放大数据在这项研究中，我们使用了专有的JFT-3B数据集，这是JFT-300 M数据集的更大版本，用于大规模计算机视觉模型的许多重要工作[15，22，36]。该数据集由近30亿张图像组成，通过半自动管道用大约30k个标签的类层次结构进行注释。因此，数据和相关联的标签是有噪声的。我们忽略标签的层次方面，仅使用分配的标签作为通过S形交叉熵损失进行多标签分类的目标，遵循[15，22]。我们进行了敏感的类别关联分析，如[1]所述我们测量了（每个标签）敏感类别在原始数据、清理数据、在此数据上训练的模型以及由人类评分员验证的标签中的此外，人类评分员还协助从数据集中删除攻击性内容。图6显示了从JFT-300 M到JFT-3B的变化对模型性能的影响的消融，即使在比例没有增加的情况下。图6，左显示了整个过程中评估的线性10次ImageNet性能我们观察到，JFT-3B导致更好的模型，甚至在模型完全具有JFT-300 M的一个时期之前。因此，过装配JFT-300 M不是改进的唯一原因即使对于小型B/32模型以及较大的L/16模型，也可以看到这种差异我们将模型微调到完整的ImageNet数据集（右），并确认这些改进转移到完整的微调设置中。总体而言，数据集的变化将小型和大型模型向ImageNet的传输提高了约1%。除了性能改善之外，JFT-300 M和JFT-3B的训练行为相似最重要的是，JFT-3B允许我们进一步扩大规模，更少地担心过拟合和正则化。重复数据删除。我们从JFT-3B令牌（ICLR'21）令牌（线性）令牌+head-wd GAP+ head-wd MAP+ head-wd“头”重衰减线性5次ImageNet精度12109百分之九十百分之七十五百分之八十五百分之八十百分之五十百分之七十五百分之二十五0 1 2 3 4 5 67JFT-300米时代百分之七十0 2.5k 5k 7.5k 10k12.5k15k17.5k20k微调步骤图6.从JFT-300 M切换到JFT-3B的效果，没有任何进一步的缩放。小型和大型模型都从这种变化中受益，通过近似恒定的因子，无论是对于线性少数拍摄评估（左）还是使用完整数据集（右）的传输这些数据集是来自我们评估的数据集的训练集和测试集的图像的近似副本总的来说，我们从JFT-3B中识别并删除了927 k重复图像。3.4. 内存有效优化器当训练大型模型时，模型参数所需的存储成为瓶颈。我们最大的模型ViT-G大约有20亿个参数，占用8GiB 的设备内存。更糟糕的是，通常用于训练Transformer的Adam优化器为每个参数存储了两个额外的浮点标量为了解决Adam优化器引入的开销，我们探索两个修改。亚当以半精确的势头。我们经验地观察到，以半精度（bfloat16类型）存储动量不会影响训练动态，对结果也没有影响。这使得优化器开销从2倍减少到1.5倍。值得注意的是，使用半精度存储第二动量导致显著的性能恶化。Adafactor优化器。上面的优化器仍然会导致很大的内存开销。因此，我们将注意力转向Adafactor优化器[34]，它使用秩1因子分解存储第二动量。从实际的角度来看，这导致了可以忽略的内存开销。然而，Adafactor优化器并不能开箱即用，所以我们做了以下修改：• 我们以半精度重新引入第一个动量，而建议的设置根本不使用第一个动量。• 我们禁用了学习率相对于权重标准的缩放，这是Adafactor的一部分。• Adafactor从0开始逐渐增加第二动量。0比1。在整个培训过程中在我们的初步实验，我们发现，削减第二动量为0。999（Adam结果优化器只引入了50%的内存开销-头上的空间需要存储模型我们观察到，这两个建议的优化执行与原亚当优化或略好。我们知道其他内存高效的优化器[31，39]，我们将探索留给未来的工作。3.5. 学习率表在我们的研究中，我们希望为每个模型训练几个不同的持续时间，以衡量模型大小和训练持续时间之间的权衡。当使用线性衰减时，如在[15]中，每个训练持续时间需要从头开始自己的训练运行，这将是一个低效的协议。受[26]的启发，我们通过探索学习率计划来解决这个问题，类似于开始时的热身阶段，包括训练结束时的冷却阶段，其中学习率线性退火为零。在预热和冷却阶段之间，学习速率不应过快地衰减到零。这可以通过对训练的主要部分使用常数或倒数平方根时间表来实现图7（底部）描述了这些选项中的几个，在大约200 k、400 k和500 k步之后有冷却时间。图7的上半部分显示了每个选项的验证分数（越高越好）及其冷却时间，以及两个线性时间表供参考。虽然当人们提前知道训练持续时间并且不打算再训练时，线性时间表仍然是优选的，但是所有三种替代方案都相当接近，具有允许不确定训练和仅从一次运行评估多个训练持续时间的优点。对于每个时间表，我们优化了学习率和确切的形状。我们还简要介绍了B/32，JFT-300mL/16，JFT-300mB/32，JFT-3b L/16，JFT-3b线性10次ImageNet精度ImageNet top-1精度12110表2.模型体系结构详细信息。0 100k 200k 300k 400k 500k步骤图7.各种尝试了循环学习率计划，但它们似乎表现得更差，我们没有进一步研究。因此，我们选择倒数平方根时间表。3.6. 选择模型尺寸ViT模型有许多控制模型形状的参数，我们参考原始出版物以获得完整的细节。简而言之，这些包括补丁大小、编码器块的数量（深度）、补丁嵌入和自注意的维度（宽度）、注意头的数量以及MLP块的隐藏维度（MLP宽度）。除此之外，我们还依赖XLA编译器来优化模型的运行速度和内存占用。在幕后，XLA使用复杂的编译器将模型编译成特定硬件的代码，以最佳方式权衡内存和速度。因此，很难预测哪些型号配置将适合单个设备上的内存。因此，我们运行了一个广泛的模拟，在那里我们演示了大量的各种形状的ViT，并尝试训练它们几步，而不考虑质量。我们改变深度，宽度，头部和MLP宽度，但保持补丁大小为14 px。通过这种方式，我们可以测量它们的速度以及给定模型是否适合设备的内存。图8总结了该模拟的结果。每个块对应一个模型配置，块的阴影对应其训练速度（越亮越快）。橙色块显示哪些原始的ViT模型，没有我们的任何修改，适合。然后，绿色块进一步包括第3.2节中描述的存储器节省以及第3.4节中描述的半精度Adam。最后，蓝色块是我们修改后的AdaFactor优化器。白色区域中的形状在任何设置中都无法融入记忆。由于篇幅原因，我们在此仅展示与实验相关的模型GFLOPSNam宽深度MLHea22423842s/282566102485.40.72.0s/162566102485.02.27.8S/323841215366222.36.9Ti/161921276835.52.59.5B/3276812307212878.726.0S/163841215366229.231.2B/28768123072128711.330.5B/16768123072128635.1111.3L/16102424409616303122.9382.8g/141408406144161011533.11596.4G/141664488192161843965.32859.9但是请注意，通过我们的修改，我们能够适应深度高达100个编码器块的薄ViT模型原始Vision Transformer出版物在附录D2中包含了一项关于缩放不同组件之间的权衡的研究，得出的结论是同时缩放所有方面（深度、宽度、MLP宽度和贴片大小）并以相似的量缩放是最我们遵循此建议，并相应地在内存中适合的极限处为ViT-g和ViT-G选择形状，如图8所示，并在表2中进行了总结。4. 相关工作较小的视觉转换器早期的视觉转换器工作集中在CIFAR- 10 的小型网络上 [10] 。然而， VisionTransformer [15]是在最先进的中型和大型图像识别背景下提出的;最小模型（ViT-B）包含86 M参数。[40]提出了更小的ViT大小，用于从头开始训练，直到ViT-Ti，具有5 M参数。ViT的新变体引入了更小更便宜的架构。例如，T2 T-ViT [50]减少了参数的数量，并使用新的令牌化和更窄的网络进行计算。Pyramidal ViTs[45]，专为密集预测任务设计，遵循类似CNN的金字塔结构，这也降低了模型的大小。CNN和Transformer的混合通常允许较小的模型表现良好，例如[15]，BoTNet[35]和HaloNet [43]中的ViT-CNN混合然而，另一个方向，增加ViT的规模，探索较少虽然语言转换器仍然比视觉转换器大得多，但理解本文中介绍的缩放属性和改进代表了朝着这个方向迈出的一步。标度律[21]对神经语言模型的经验标度律作者0100k200k300k互惠-梯形400Ckonstant500k线性验证分数学习率e日日PDSO.M121111024//161024//81280//201280//161280//101408//221408//161408//111536//241536//161536//121664//261664//161664//131792//281792//161792//141920//301920//241920//161920//152048//322048//1624层32层40层48层56层MLP宽度图8.结合橙色原始ViT的“Shapefinder”模拟结果，我们的ViT-g），最后用我们的修饰的AdaFactor（蓝色）。白色区域内存不足。点的亮度对应于其相对训练速度。拟合描述计算、数据大小、模型大小和性能之间关系的幂律。遵循这些定律，GPT-3，一个175 B参数语言模型被成功训练[6]。[18]提出了其他形式的自回归生成建模的规律，包括图像的生成。我们的论文包含了第一次研究的比例法则的歧视性建模的图像。许多论文通过放大CNN来提高性能。EfficientNets[37，38]提出了一种缩放策略，可以在深度，宽度和分辨率之间平衡计算，并将其应用于MobileNets。在[3，47]中重新审视了该策略，以进一步提高ResNets的性能[17]。大型CNN在视觉识别方面取得了出色的性能，例如使用GPipe管道并行性训练的AmoebaNet-B（18，512）（557 M参数）[19]，在弱标记的Instagram图像上预训练的ResNeXt-101 32× 48 d（829 M参数）[26]，在JFT-300 M上使用ImageNet伪标签训练的EfficientNet-L2（480 M参数）[49]，以及在JFT-300 M上预训练的BiT-L-ResNet 152 x4（928 M参数）[22]。最近，[41，53]探索了扩展ViTs深度的策略我们是第一个将VisionTransformers扩展到更大尺寸并达到最先进成果的公司。并行工作[12]集中在CNN和ViT混合架构上。5. 讨论局限性。这项工作使用专有的JFT-3B数据集进行标度律研究。为了使我们的见解更加可靠和可推广，我们验证了缩放定律也适用于公共ImageNet-21 k数据集。社会影响。这项工作的一个潜在的更广泛的成本是在我们的缩放研究中执行实验所需的能量，特别是在训练最大的ViT-G模型时。怎么-这种成本可以通过两种方式摊销。首先，这种研究的比例律只需要执行一次，我们希望未来的开发人员的ViT模型可以使用我们的研究结果来设计模型，可以用更少的计算资源来训练其次，训练的模型主要是为迁移学习而设计的。预先训练的权重的传输比在下游任务上从头开始训练要便宜得多，并且通常可以达到更高的准确性。因此，通过将我们的模型转移到许多任务中，预训练计算得到了进一步的摊销。6. 结论我们证明了具有足够训练数据的ViT模型的性能计算边界大致遵循（饱和）幂律。至关重要的是，为了保持在这一前沿，必须同时扩展计算和模型大小;也就是说，当额外的计算变得可用时，不增加模型我们还证明了更大的模型是更有效的样本，是伟大的少杆学习。最后，我们提出了一个新的训练配方，它允许人们有效地训练大型和高性能的ViT模型。请注意，我们的结论可能不一定推广到我们所研究的规模之外，也可能不推广到ViT模型家族致谢我们感谢James Bradbury和Vivek Sharma在使用大规模基础设施方面提供的帮助 ; 感谢 AlexeyDosovitskiy 、 Joan Puigcerver 、 Basil Mustafa 和 CarlosRiquelme进行的富有洞察力的讨论;感谢Tom Duerig、Austin Tarango 、 Daniel Keysers 、 Howard Zhou 、Wenlei Zhou和Yanan Bao就JFT进行的讨论;感谢GoogleBrain团队提供的支持性研究环境。ViT-LViT-HViT-gViT-G原始ViT节省+Adam-HP节省+AdaFactorSA-width//num heads409646085120563261446656716876808192870492169728102404096460851205632614466567168768081928704921697281024040964608512056326144665671687680819287049216972810240409646085120563261446656716876808192870492169728102404096460851205632614466567168768081928704921697281024012112引用[1] Osman Aka ， Ken Burke ， Alex Bäuerle ， ChristinaGreer，and Margaret Mitchell.在缺乏真实数据的情况下测量模型偏差arXiv预印本arXiv：2103.03417，2021。5[2] Andrei Barbu，D.Mayo，Julian Alverio，William Luo，Christo-pher Wang，Dan Gutfreund，J. Tenenbaum，andBoris Katz.Objectnet：一个大规模的偏差控制数据集，用于推动对象识别模型的极限。NeurIPS，2019。4[3] Irwan Bello ， William Fedus ， Xianzhi Du ， Ekin DCubuk ， Aravind Srinivas ， Tsung-Yi Lin ， JonatheShlens，and Barret Zoph.重新审视重新设置：改进的培训和扩展策略。arXiv预印本arXiv：2103.07579，2021。8[4] Lucas Beyer，Olivier J. Hénaff，Alexander Kolesnikov，Xi- aohua Zhai， and Aäron van den Oord. 我们完成了imagenet吗？arXiv预印本arXiv：2006.07159，2020。三、四[5] Tom Brown ， Benjamin Mann ， Nick Ryder ， MelanieSub- biah，Jared D Kaplan，Prafulla Dhariwal，ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh，Daniel Ziegler，Jef- frey Wu，ClemensWinter，Chris Hesse，Mark Chen，Eric Sigler，MateuszLitwin ， Scott Gray ， Benjamin Chess ， Jack Clark ，Christopher Berner， Sam McCandlish ，Alec Radford ，Ilya Sutskever和Dario Amodei语言模型是很少机会的学习者。在NeurIPS，2020年。1[6] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub- biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， et al. Language models are few-shot learners.arXiv预印本arXiv：2005.14165，2020。1、8[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。arXiv预印本arXiv：2005.12872，2020。1[8] Mathilde Caron ， Hugo Touvron ， Ishan Misra ， HervéJégou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。CoRR，abs/2104.14294，2021。4[9] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey Hinton.大的自监督模型是强半监督学习器。arXiv预印本arXiv：2006.10029，2020。4[10] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi。自我注意力和卷积层之间的关系。在ICLR，2020年。7[11] 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克支持向量网络。机器学习，1995年。5[12] Zihang Dai，Hanxiao Liu，Quoc V. Le，and MingxingTan. Coatnet：将卷积和注意力结合起来，适用于所有数据大小。CoRR，abs/2106.04803，2021。8[13] J. Deng，W.东河，巴西-地索赫尔湖李，李凯，李飞飞。Imagenet：一个大规模的分层图像数据库。CVPR，2009。2[14] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.0480

下载后可阅读完整内容，剩余1页未读，立即下载