没有合适的资源?快使用搜索试试~ 我知道了~
12360实现高效且可扩展的清晰度感知最小化刘勇1、麦思奇1、陈香宁2、谢朝瑞2、杨友11新加坡国立大学计算机科学系2加州大学洛杉矶分校计算机科学系{liuyong,siqimai,youy}@ comp.nus.edu.sg,{xiangning,chohsieh}@ cs.ucla.edu摘要最 近 , 连 接 损 失 景 观 的 几 何 形 状 和 一 般 化 的Sharpness-Aware Minimization(SAM)已经证明了训练大规模模型(例如视觉变换器)的显著性能提升。然而,SAM的更新规则在每一步需要两个顺序(不可并行)梯度计算本文提出了一种新的算法LookSAM --只周期性地计算内部梯度上升,以显著降低SAM的额外训练成本。实验结果表明,LookSAM实现了与SAM相似的精度增益,同时速度更快-它具有与SGD或Adam等一阶优化器相当的计算复杂度。为了进一步评估LookSAM的性能和可扩展性,我们结合了逐层修改,并在大批量训练场景中进行实验,这更容易收敛到尖锐的局部极小值。配备了所提出的算法,我们是第一个在训练Vision Transformers(ViTs)时成功扩大批量的人凭借64k的批量规模,我们能够在几分钟内从头开始培训ViT,同时保持竞争力。代码可以在这里找到:https://github.com/yong-6/LookSAM1. 介绍据观察,尖锐的局部极小值通常会导致深度网络的泛化性能显着下降,并且已经提出了许多方法来缓解这个问题[3,12,19,23,26,38]。特别是,Foret等人 。 [13] 最 近 提 出 了 一 种 名 为 SharpingAwareMinimization(SAM)的算法,该算法明确惩罚尖锐的最小值并将收敛偏向平坦区域。SAM已被用于在许多应用中实现最先进的性能例如,Chen et al.[4] 表 明 SAM 优 化 器 可 以 显 著 提 高 ImageNet-1 k 上Vision Transformer模型(ViTs)[10]的验证准确性(训练时为从头开始)。然而,SAM的更新规则在每一步涉及两个顺序的(不可并行的)梯度计算,这将使训练时间加倍。在本文中,我们的目标是提高SAM的效率,并将其应用于大规模的培训问题。SAM的每一步由两个梯度计算组成-加速SAM的一个简单的想法是只周期性地计算第一个梯度(对权重的对抗性扰动),并在其间使用标准的SGD/Adam不幸的是,这会导致性能显著下降,如我们的实验所示。为了解决这个问题,我们将SAM的更新方向分解为两个分量-一个与原始SGD方向平行,另一个正交分量。由于第二个方向捕捉SAM的更新和SGD的更新之间的差异有趣的是,我们发现第二个方向在附近的迭代中往往基于这一发现,我们开发了一种新的Look-SAM优化器,在附近的迭代中重用这个方向。所得LookSAM只需要周期性地计算内部梯度上升,并显着降低SAM的计算复杂度,同时保持类似的泛化性能。由于SAM已成为训练大规模Vision Transformer模型(ViTs)的关键组件[4],为了进一步评估所提出算法的性能和可扩展性,我们考虑了一项具有挑战性的任务-应用Looking SAM进行ViTs的大批量训练。正如[45,48]所指出的,大批量训练通常会在不同层之间引入非均匀不稳定性问题。因此,我们还采用了分层缩放规则的权重扰动,即Look-LayerSAM优化器。提出的优化器可以在一个小时内成功地训练具有64K批量大小的ViT我们的贡献可以归纳为三个方面。• 我们开发了一种新的算法,称为LookSAM,12361⇥⇠ ⇥D22L≥ni=1加快对地对空导弹的训练我们的方法不是在每一步都计算内部梯度上升,而是周期性地计算它,同时能够对每一个最新数据逼近原始SAM的方向。实证结果表明,LookSAM实现了类似的精度增益SAM,同时享受,ING可比的计算复杂性与一阶优化器,如SGD或亚当。• 受大批量训练中提出的逐层缩放的成功启发[46,48],我们开发了一种通过采用逐层缩放规则进行权重扰动来扩展Look- SAM的批量大小的算法(Look-LayerSAM)。提出的Look-LayerSAM可以将批量大小扩展到64 k,是ViT培训的新记录,与以前的培训设置相比为16• 我们提出的Look-LayerSAM可以在[10]中的训练设置上实现8倍的加速,批量大小为4k,并且我们可以在0.7小时据我们所知,这是ViT培训的新速度记录。2. 相关工作局部最小值。尖锐的局部极小值可以在很大程度上影响深度网络的泛化性能[3,12,19,23,26,38]。最近,许多研究仔细分析了尖锐的局部极小问题,并开发了解决此类挑战的算法[3,9,13,15,21、26、28、40、43]。例如,Jastrzebski等人。[20]指出三个因素-学习率,批量大小和梯度协方差,可以影响SGD找到的最小值。此外,Chaudhari等人。[3]提出了一种基于局部熵的目标函数,该目标函数在训练过程中倾向于平坦区域,以避免接近尖锐的山谷和不良的概括。Wen等人。[41]引入了SmoothOut框架来平滑尖锐的最小值,从而提高泛化能力。最近,清晰度感知最小化大批量培训。大批量训练是分布式机器学习的一个重要发展方向,它可以提高大规模集群的利用率,加快训练过程。然而,大批量的训练会带来额外的挑战[17,24]。Keskar等人[24]说明了大批量训练容易收敛到尖锐的局部极小值,并导致巨大的泛化差距。主要原因是,如果我们固定epoch的数量,当按比例增加批量大小传统方法试图仔细调整超参数以缩小泛化差距,例如学习率,动量和标签平滑[14,29,37,47]。然而,这些启发式方法不能被视为大批量训练的原则解决方案[37]。最近,为了避免这些手动调整的方法,大批量训练的自适应学习率得到了研究人员的极大关注[35,36,51]。许多最近的作品尝试使用自适应学习率来缩放ImageNet上ResNet-50的批量大小 [1,5,8,18,22,32,34,39,42、47、48]。特别是,You等人。[46]提出了逐层自适应学习率算法LARS [46],以将ResNet-50的批量大小扩展到32 k。基于LARS优化器,Ying等人。[44]可以在2.2通过TPU v3 Pod的时间[44]。Liu等人[30]使用对抗学习将批量大小进一步扩展到96k。此外,你等。[48]建议LAMB优化器在训练BERT时扩大批量大小,导致训练时间为76分钟。3. 方法在本节中,我们将首先概述SAM优化器,并讨论SAM引入的计算开销。然后将详细介绍所提出的算法,包括Look-SAM和Layer-wise LookSAM。3.1. SAM概述设S={(x,y)}n为训练数据集,其中(SAM)[13]一种新的方法,可以同时每个样品我我i=1新的最小化损失值和损失锐度,以缩小泛化差距。它提出了严格的经验结果,在各种基准实验,并实现国家的最先进的性能。Kwon等人。[26]提出了自适应锐度感知最小化,它可以自适应地(xi,yi)服从分布。设f(x;w)为具有可训练参数wRp的神经网络模型。对应于输入x i的损失函数由l(f(xi; w),yi)R+给出,对于con,缩短为l(xi)。礼貌。 经验训练损失可以定义为LS= 1Pnl(f(xi; w),yi). 在SAM算法中[13],Zhuang等人[52]引入了一种新的优化对象,同时最小化扰动损耗和它们的定义的代理间隙。Du等人[11]通过选择一组权重降低了SAM的计算成本我们需要找到参数,p球具有低训练损失S(w),通过以下修改的目标函数:山姆以及执行用于更新的清晰度感知数据选择。这些方法仍然需要计算两个连续的S(w)=最大值克鲁普⇢LS(w+n),(1)每一步的梯度。因此,本文的主要重点是提高SAM的效率和可扩展性其中p0是p球的半径。为了简单起见,我们在使用2-范数时忽略p当计算L相对于权重标度调整最大化区域12362山姆K⇥RL|wSkr LkRLSS|| - -一种 ||内部极大化的最优解是不可行的,SAM使用一步梯度上升来近似它:k(w)=krwLS(w)/krwLS(w)k =gmaxLS(w+k)。kk(二)最后,SAM针对更新计算相对于扰动模型w+θrwLS(w)rwLS(w)|w+100%。(三)然而,该更新规则在每一步涉及两个连续的梯度计算,这将使计算成本加倍。3.2. LookSAMSAM的主要缺点在于其计算开销。更新规则(公式3)表明,SAM的每次迭代都需要两次连续的梯度计算,一次用于获得梯度,另一次用于计算梯度下降更新(见图3)。与SGD或Adam优化器相比,这将使计算复杂度加倍此外,这两个梯度评估是不可并行的,这将是大批量训练中的瓶颈。然而,最近的工作已经证明,SAM在训练视觉变换器模型时产生显著的准确性增益[4](例如,当从头开始训练ImageNet时,准确率提高了5%以上),此外,SAM特别地,Keskaret al.[24]表明,大批量训练中的主要挑战是由于一阶随机更新中的噪声不足而导致的收敛到尖锐的局部极小值,如果SAM可以有效地进行,则SAM是这个问题的自然这些都激发了我们提高SAM计算效率的工作。图2. g s、g h和g v的每5步之间的梯度差(即,gtgt+k)。导致更平滑区域的gv比gs和gh变化得慢得多。为了减少SAM中两个连续梯度的计算,一种简单的方法是仅在每k步使用SAM更新,导致平均1次额外计算。我们将这种方法命名为SAM-k,其中k表示使用SAM的频率。不幸的是,这种天真的方法并不奏效。如图1所示,我们使用ViT作为基础模型,实验结果表明,使用SAM-5时,精度下降很大,尽管效率得到了显着提高。例如,SAM可以将ViT-B-16的准确度从74.7%提高到79.4%。然而,当使用SAM-5时,准确度下降到75.7%,这显著降低了SAM的性能。这促使我们探索如何有效地提高SAM的效率,同时保持类似的一般化性能。在下文中,我们提出了一种新颖的LookSAM算法来解决这一挑战。其主要思想是研究如何重用信息,避免每次计算SAM如图3所示,SAMgs=与SGD梯度(黄色箭头)相比,w S(w)w + S(w)+S(w + S)w + S为了更直观地了解这个平坦区域,我们基于泰勒展开重写rwLS(w)|w+=rwLS(w+)rw[LS(w) +=rw[法、西⇢(w)+kr L(w)krwLS(w)TrwLS(w)]图1. SAM-5、SAM 和vanilla ViT在ImageNet-1 k上的准确性。SAM-5表示每5步计算SAM梯度的方法。=rw[LS(w) +krwLS(w)k]。(四)我们发现SAMS(w)与L2-范数的梯度原始梯度wS(w)。我们认为优化梯度的L2范数可以使模型收敛到平坦区域,因为平坦区域通常意味着低梯度范数12363B{···}rLB··--- RLrLBK K⇥GJ值因此,SAM的更新可以分为两个部分:第一部分(表示为gh)是为了减小损失值,第二部分(表示为gv)是为了将更新偏置到平坦区域。更具体地说,gh是在香草SGD的梯度方向上,即使没有SAM,也需要在每一步计算。因此,SAM的额外计算成本主要由第二部分gv引起。给定SAM算法1LookSAM输入:x2Rd,学习率t,更新频率yk.fort←1 toT do样本Minibatch=(xi,yi),,(x|B|,y| B|)从X。在minibatch上计算梯度g =wB(w)。如果t%k = 0,则计算k(w)=k·rwLS(w)/krwLS(w)k计算SAM梯度:gs=rwLB(w)|w+(w)gv=gs-kgskcos(n)·g,其中cos(n)=g·gs哪里gv=rwLS(w)|w+θsin(θ),(5)是SGD的梯度和SAM的梯度之间的角度其他Gs=g+kgggvkgvkkgkKG||gsk✓梯度离心一个重要的观察是,gv的变化比gh和gs的变化慢得多。在图2中,我们绘制了在SAM的整个训练过程中迭代t和迭代t+ 5之间这三个分量的变化,结果表明gv(绿线)的差异显示出比gh(橙色线)和gs(蓝色线)更稳定的模式直观地说,这意味着指向平坦区域的方向在几次end if更新权重:wt+1=wttgs端SAM过程,通过每k步从SAM梯度充分提取信息。这有助于计算成本的显著降低,与可能使学习偏向平坦区域的平滑收敛一致。为了在中间步骤中重复使用gv来模拟SAM图3. LookSAM的可视化。蓝色箭头gs是SAM的梯度瞄准平坦区域。黄色箭头S(w)表示SGD梯度。gh(棕色箭头)和gv(红色箭头)分别是g s的正交梯度分量,平行于SGD梯度和垂直于SGD梯度。因此,我们建议每k步仅计算SAM的精确 伪代码在算法1中示出。 我们计算原始SGD梯度 g=wB(w),基于每一步的样品小批量。对于每k步,我们计算SAM更新,我们将gv添加到当前梯度g(计算在净损失)。由于图2中的实证分析表明gs和gh不是非常稳定,因此我们提出了一个自适应比率来组合它们。更具体地说,我们定义-罚款kgk作为自适应比例缩放。这样我们v可以保证g和gv的范数在同一尺度上。3.3. 分层LookSAM当在大批量训练中扩大SAM或LookSAM的批量大小时,我们观察到性能下降,如实验中所示(见表4)。You et al. [46,48]表明,大批量训练的训练稳定性在每个层都有所不同,并应用逐层自适应学习率缩放方法来改进AdamW(也称为LAMB)以解决这个问题。我们推测这也影响了SAM过程,这激发了分层SAM(LayerSAM)优化器的后续开发。当我们试图将逐层缩放引入SAM的内部最大化时,它与[48]不同,[ 48 ]将缩放应用于最终更新di。亚当的复活设d表示对角线d_d_m=diag(concat(n11n(1),n21n(2),., 其中d,l表示参数和层的数量,n(l)是层 l 中 的 参 数 的数量。 j(j=1,2,.,l)是逐层自适应速率,可通过下式计算:将被重复用于后续步骤。在接下来的k步中,我们只计算SGD梯度,kwkk5wLS(w)jk对于每个层,其中wj是指投影分量以得到近似的SAM梯度。换句话说,我们训练模型,层j的权重。然后,我们将这种缩放引入内部最大化12364pQS表1. CIFAR100上不同模型的准确性。我们使用ResNet-18、ResNet-50和WideResNet来评估LookSAM的性能,并使用SGD-Momentum(SGD-M)作为基础优化器。我们将训练epoch设置为200,batch size设置为128。模型SGD-MSAM-5导弹Look SAM-5萨姆-10导弹Look SAM-10萨姆-20导弹Look SAM-20山姆ResNet-1878.980.480.780.080.479.780.080.7ResNet-5081.482.583.382.382.882.182.483.3WRN-28-1081.783.884.483.384.382.983.684.4SAM为:n(w)= maxkkp⇢LS(w+m)。(六)1k [7]数据集。此外,ImageNet训练是当前评估大批量训 练 性 能 的 基 准 [33] 。 在 本 文 中 , 我 们 还 使 用ImageNet-1 k来训练ViT模型。这里的主要思想是规模的每一个维度扰动矢量根据与SAM类似,LayerSAM中的权重扰动是(6)的一阶近似的解。通过增加的k,近似内部解可以写为:| 5wL S(w)|Q-1模 型 我 们 首 先 使 用 ResNet-18 、 ResNet-50 [16] 和WideResNet [49]来评估Look-SAM在CIFAR-100上的性能。为了探索Look-SAM的可扩展性,我们使用ViT[10] 模 型 来 基 于 所 提 出 的 LookSAM 优 化 器 训 练ImageNet-1 k。最后,我们测试了我们提出的Look-LayerSAM的性能,✏˜=⇢sign(5wLS(w)) ⇤(k 5第1条,第(7)项L(w)kq)批量训练 更特别的是,我们选择ViT模型WSQ其中1+1=1。公式7给出了使用LookSAM时按比例放大批量大小的逐层计算方法。算法2(在附录A.1中)提供 了 完 整 LayerSAM 算 法 的 伪 代 码 。 此 外 , 结 合LookSAM和LayerSAM在大批量训练中的优势,进一步提出Look-LayerSAM算法。算法3中给出了伪代码。从经验上讲,我们证明了Look-LayerSAM在大批量训练中的表现明显优于LookSAM,这将在第4节中展示。4. 实验结果在本节中,我们将评估我们提出的LookSAM、LayerSAM和Look-LayerSAM的性能。首先,我们实证说明LookSAM可以获得与vanilla SAM相似的准确性,同时加速训练过程。接下来,我们展示了LayerSAM在ImageNet-1 k com-batch上使用vanilla SAM进行大批量训练时具有更好的通用性。此外,我们观察到Look-LayerSAM不仅可以扩展到更大的批量大小,还可以显着加快训练速度。由于视觉转换器(ViT)训练已经成为SAM [4]最重要的应用之一,我们的实验将主要集中在ViT训练上,同时我们还包括ResNet和WideResNet在CIFAR100上的一些实验,以进一步评估所提出方法的通用性。4.1. 设置数据集。为了评估Look-SAM的效率,我们在CIFAR-100 [25]和ImageNet上进行了实验有各种各样的规模,以扩大批量大小,如ViT-Base和ViT-Small可支持300个epoch。基线。我们的主要基线是SAM [13]。为了更好地评估LookSAM的性能,我们提出了算法SAM-k作为比较的基线。更具体地,SAM-k可以被视为每k步直接使用SAM的方法。实施详情。我们在JAX [2]中实现我们的算法,并遵循SAM [13]的原始设置。为了比较LookSAM与vanillaSAM的性能,我们采用AdamW [31]作为基础优化器。请注意,输入分辨率为224,这是官方设置,丁为ViT。为了扩大批量大小,我们使用LAMB [48]作为大批量训练的基础优化器,并将我们的方法与SAM进行比较。我们应用学习率预热方案[14]来避免由于大学习率而导致的发散,其中训练从较小的学习率开始,并逐渐增加到300个epoch的大学习率。此外,为了进一步提高大批量训练的性能,我们使用RandAug [6]和Mixup [50]将批量大小扩展到64k。实施细节见附录A.2。4.2. 关于ResNet和WideResNet的CIFAR培训在本节中,我们在CIFAR-100上进行了训练ResNet和WideResNet的实验,以评估我们提出的算法的性能实验结果如表1所示。 我们可以发现LookSAM- k可以达到与SAM相似的精度,但要比SAM-k好得多。见表1、LookSAM-5实现了与SAM相同的精度Lp12365””表2.在ImageNet-1 k上从头开始训练的ViT的每个时期(准确度/时间)的前1准确度和训练时间。我们使用预热计划加上余弦缩放规则为300历元。根据ViT的原始设置,我们将批量大小设置为4,096。模型AdamWSAM-5导弹Look SAM-5萨姆-10导弹Look SAM-10山姆ViT-B-1674.7/59.7秒75.7/68.6秒79.8/70.5秒75.1/63.7秒78.7/67.1秒79.8/103.1秒ViT-B-3268.7/21.8秒69.8/24.7秒72.6/26.3秒69.0/23.4秒71.5/24.4秒72.8/38.5秒ViT-S-1674.9/24.1秒75.5/28.3秒77.6/30.1秒74.9/25.4秒77.1/27.6秒77.6/44.9秒ViT-S-3268.1/18.2秒68.7/18.5秒68.8/19.8秒68.1/18.5秒68.7/19.5秒68.9/25.7秒(80.7%,83.3%,84.4%),但根据所有三个模型的性能,此外,LookSAM-k显示了对SAM-k的性能的显着改 善 , 同 样 需 要 可 比 的 训 练 时 间 。 具 体 而 言 ,LookSAM-5可以获得明显更高的准确率(80.7%,83.3%,84.4%)com-SAM-5在ResNet-18、ResNet-50和WRN-28-10上的平均回收率分别为80.4%、82.5%和83.8%。当增加k时,虽然LookSAM-k的性能下降,但它仍然优于具有相同k的SAM-k。例如,根据WRN-28-10上的实验,LookSAM-k相对于SAM-k的改进是期望的,对于k=5、10、20,具有0.6%、1.0%和0.7%的增量。表1中的经验结果还表明,LookSAM和SAM之间的性能差距随着模型大小的增加而扩大。例如,当将ResNet- 18的实验与ResNet-50和WRN-28-10 的 实 验 进 行 比 较 时 , 我 们 可 以 观 察 到LookSAM-k相对于SAM-k的平均改进的明显增加,从0.37%增加因此,为了进一步评估LookSAM的性能和可扩展性,我们在第4.3节中使用LookSAM在ViT上从头开始ImageNet训练的实验。4.3. 在Vision Transformer上从头开始ImageNet训练遵 循 ViT 的 原 始 设 置 , 我 们 使 用 LookSAM 训 练ViT,并将其与vanilla ViT和SAM-k进行比较。实验结果在表2中给出。结果表明,LookSAM与vanilla SAM具有相似的准确性,但性能要优于SAM-k.具体地说,与SAM- k相比,LookSAM-5的top-1精度从74.7%提高到79.8%(5.1%),而SAM-5只能达到75.7%。有一个显 着 的 改 善 - ment (LookSAM-5 的 测 试 准 确 度(79.8%)与SAM-5(75.7%)相比。此外,通过仅周期性地计算SAM例如,LookSAM-5支持ViT-B- 16的训练时间竞争性地减少了2/3(从103.1s减少 到 68.6s ) , 而 测 试 准 确 性 没 有 任 何 损 失(79.8%)。此外,这种优势广泛反映在不同的设置(如表2所示),因此我们提出的方法可以在各种ViT模型中采用4.4. Vision Transformer大批量培训除了标准的训练任务,我们进一步将所提出的方法应用于具有挑战性的大批量分布式训练。据观察,大批量训练通常会收敛到局部极小值,泛化性能下降[14,24]。这是由于梯度估计中的噪声不足和更新次数减少因此,将算法扩展到大批量训练是一项具有挑战性的任务。如 第 3.3 节 所 述 , 我 们 将 LookSAM 扩 展 为 Look-LayerSAM,以克服大批量训练中的训练不稳定问题。为了评估我们提出的大批量训练算法的性能,我们使用Look-LayerSAM来缩放ImageNet-1 k上ViT训练的批量大小。如表4所示,基于Look-LayerSAM,我们可以将批量大小从4,096扩展到32,768,同时保持精度在77%以上。请注意,尽管vanilla SAM可以在扩展时提高ViT的性能例如,与LAMB(大批量训练的标准优化器)相比,从批量大小4,096到32,768的改进分别为4%,4%,3.2%,2.7%。相比之下,我们提出的Look-LayerSAM即使将批量大小扩展到32,768,也可以始终实现更高的改进。特别是,在LAMB优化器上,从4,096到32,768的精度增量此外,LookSAM能够实现与vanilla SAM相当的性能,同时享受与LAMB相似的计算成本。例如,当批量大小为4,096时,SAM和LookSAM的top-1准确率分别我们继续观察到,Look-LayerSAM在大批量训练方面提供了更多值得考虑的优势,包括在4,096上的80.3%准确率,以及在批量大小32,768上的77.1%准确率,其中SAM和LookSAM分别达到75.1%和75.3%。12366⇥⇥表3.使用RandAug和Mixup时,ImageNet-1 k上ViT-B-16的300 epoch精度Look-LayerSAM可以在将批量大小扩展到64 k时获得75%以上的模型算法RandAugMixup优化器32k64kViT-B-16香草ViT羔羊72.468.1ViT-B-16Look-LayerSAM羔羊77.172.0ViT-B-16Look-LayerSAMX羔羊79.274.9ViT-B-16Look-LayerSAMXX羔羊79.775.6表4.ImageNet-1 k上ViT-B-16的大批量训练精度我们使用预热方案与线性规则相结合来缩放300个epoch的学习率Look-LayerSAM在4k到32 k之间实现表5. ViT-B-16在ImageNet-1 k上的训练时间。我们将LAMB设置为基本优化器,并将300设置为训练时期。我们可以在1小时内完成VIT培训。算法4k 8k 16k 32k羔羊74.674.374.472.4LAMB + SAM78.678.377.675.1LAMB + Look-SAM78.978.477.175.3LAMB + Look-LayerSAM80.379.578.477.1此外,相关工作表明,数据扩充可以提高大批量训练的性能。因此,我们尝试基于RandAug和Mixup将批量大小进一步扩展到64k。实验结果如表3所示,这表明我们提出的Layer-LookSAM可以与数据增强一起工作 , 并 提 高 大 批 量 训 练 的 性 能 。 例 如 , Look-LayerSAM在64 k下应用RandAug和Mixup时也可以达到74.9%。使用Mixup后,准确率提高到75.6%。为了进一步评估LookSAM在加速SAM训练方面的性能请注意,我们使用128,256,512和1024 TPU-v3芯片来报告批量大小为4,096,8,192,16,384和32,768的ViT-B-16的速度。此外,我们使用预热时间表加上线性学习率衰减为300 epoch。实验结果示于表5中,其说明LayerSAM将导致约1. 7训练时间与香草LAMB相比。而Look-LayerSAM可以显著减少训练时间,达到1. 5速度与k=5时的LayerSAM相比。特别是,ViT-B-16在ImageNet-1 k上的训练时间可以减少到0.7小时。综上所述,使用Look-LayerSAM,我们能够在0.7小时内训练VisionTransformer,并实现77.1%的top-1 ac-算法4k 8k 16k 32k羔羊4.8h2.4h1.2h/LAMB + LayerSAM8.4h4.3h2.2h1.1hLAMB + Look-LayerSAM5.6h2.8h1.4h0.7h在ImageNet-1 k上,批量大小为32 K,优于现有的优化器,如LAMB和SAM。4.5. 准确性和效率的权衡重用频率k控制精度和速度之间的权衡在本节中,我们尝试对LookSAM在不同k值下的性能进行分析。图4中的实验结果表明,LookSAM在k5时可以达到与vanilla SAM相似的精度。随着重用频率k的增大,训练速度加快,但精度开始下降。例如,如图4所示,LookSAM-5在ViT-B-16上的准确率为79.8%,与原始SAM相同。同时,吞吐量从12,800(SAM)增加到19,051(LookSAM-5)。此外,当k值增加到10时,精度下降到78.7%(与AdamW相比提高了4%),但吞吐量增加到20,480。当k大于10时,我们注意到速度收敛(几乎与普通的AdamW相同因此,在实践中,我们可以根据所需的权衡来确定k值,并且我们建议k=5用于一般应用,因为它将显著提高效率,同时仍然实现与SAM几乎相同的测试精度。此外,我们提出的LookSAM也为深度学习研究人员提供了更多的如果应用sce- nario需要更高的训练速度,我们可以尝试增加频率k。否则,可以减小频率k12367⇥图4. LookSAM-k在ImageNet-1 k上的不同模型的准确性-训练时间。随着k值的增加,吞吐量增加,但精度开始下降。在准确性和训练速度之间存在权衡请注意,LookSAM-1与原始SAM相同。4.6. 超参数的灵敏度分析4.6.1灵敏度分析我们研究了梯度重用权重对ImageNet-1 k训练性能的影响。我们使用批量16,384和32,768进行了该实验,因为批量较大-表7.敏感性分析。我们选择ViT-B-16作为我们的基础模型,优化器是Look-LayerSAM(基于LAMB)。批量大小= 0.5 =0.8=1.0=1.21638477.0 77.878.477.93276875.2 76.477.176.7批量训练通常对hyperparame更敏感特斯实验在ViT-B-16上进行,Look-LayerSAM,使用LAMB 作为优化器,我们将MySQL设置为1.0。我们在表6中报告了不同重复系数(0.5、0.7、1.0)的验证准确度。当λ=0时。Look-LayerSAM在批量大小为16,384和32,768时分别达到最佳准确率78.4%和77.1%。此外,即使没有很好地调整,Look-LayerSAM也能够获得良好的性能,mance,包括在16,384批量上的77%以上的准确度和在32,768批量上的76%以上的表6.敏感性分析。我们选择ViT-B-16作为我们的基础模型,优化器是Look-LayerSAM(基于LAMB)。批量:0.5×0.7× 1.01638477.778.478.23276876.577.175.94.6.2灵敏度分析最后,我们对SAM和Look-SAM中的不同扰动强度、扰动强度和扰动值进行了灵敏度分析。我们评价了批量为16,384和32,768的ViT-B-16的准确度。我们设置=0。7,我们在4.6.1节中分析的最佳值。表7中示出了关于λ(0.5、0.8、1.0、1.2)的实验结果。我们报告当=1。0时,Look-LayerSAM在批量大小16,384(78.4%)和32,768(77.1%)上均实现了最高的准确性。此外,我们还观察到了从分析中获得的整体稳健性,在没有微调的情况下,16,384批次的准确率为77%,32,768批次的准确率超过75%。5. 结论我们提出了一种新的算法LookSAM,它能够获得类似的泛化性能SAM的解决方案,同时具有几乎相同的时 间 复 杂 度 标 准 的 随 机 优 化 , 如 SGD 和 亚 当 。LookSAM的有效性和效率在多个数据集和架构(ViT和ResNet)上得到了验证。为了进一步评估大批量训练的性能,我们提出了Look-LayerSAM,它使用逐层的计划来缩放LookSAM的权重扰动。通过使用Look-LayerSAM,我们能够将ViT的批量大小扩展到32 k,并在0.7小时内完成ViT训练,比[10]中的原始训练设置快8倍,批量大小为4k。据我们所知,这是ViT培训的新6. 确认我们感谢Google TFRC支持我们访问云TPU。我们感谢CSCS(瑞士国家超级计算中心)支持我们访问Piz Daint超级计算机。我们感谢TACC(德州先进计算中心)支持我们使用Longhorn超级计算机和Frontera超级计算机。我们感谢LuxProvide(卢森堡国家超级计算机HPC组织)支持我们访问MeluXina超级计算机。CJH和XC在IIS-2008173和IIS-2048280下得到NSF的部分支持。12368引用[1] Akiba Takuya , Suzuki , 和 Keisuke Fukuda 。 超 大 型minibatch sgd : 15 分 钟 内 在 imagenet 上 训 练 resnet-50arXiv预印本arXiv:1711.04325,2017。2[2] 詹姆斯·布拉德伯里冰霜斯蒂格彼得Hawkins、Matthew James Johnson、Chris Leary、Dougal Maclau-rin、George Necula、Adam Paszke、Jake VanderPlas、SkyeWanderman-Milne 和 QiaoZhang 。 JAX :Python+NumPy 程 序 的 可 组 合 转 换 , 2018 。 网 址http://github.com/google/jax。 5[3] Pratik Chaudhari,Anna Choromanska,Stefano Soatto,Yann LeCun,Carlo Baldassi,Christian Borgs,JenniferChayes,Levent Sagun,and Riccardo Zecchina.Entropy-sgd : 偏 置 梯 度 下 降 到 宽 谷 。 Journal of StatisticalMechanics : Theory and Experiment , 2019 ( 12 ) :124018,2019.一、二[4] Xiangning Chen,Cho-Jui Hsieh,and Boqing Gong. 当视觉转换器在没有预训练或强大的数据增强的情况下优于resnet时。arXiv预印本arXiv:2106.01548,2021。一、三、五[5] Valeriu Codreanu , Damian Podareanu , and VikramSaletore.面向大型小批量sgd的横向扩展:imagenet-1 k上的残差网络训练,提高了准确性,缩短了训练时间arXiv预印本arXiv:1711.04291,2017。2[6] Ekin D Cubuk,Barret Zoph,Jonathon Shlens,and QuocV Le. Randaugment:实用的自动数据扩充,减少搜索空间。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中,第702-703页,2020年。5[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。5[8] AdityaDevarakonda , MaximNaumov 和 MichaelGarland。Adabatch:用于训练深度神经网络的自适应批量大小。arXiv预印本arXiv:1712.02029,2017。2[9] Laurent Dinh、Razvan Pascanu、Samy Bengio和YoshuaBengio。尖锐极小值可以推广到深度网络。国际机器学习会议,第1019- 1028页。PMLR,2017年。2[10] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Syl- vain Gelly,et al. An image is worth16x16 words : Trans- formers for image recognition atscale. arXiv预印本arXiv:2010.11929,2020。一、二、五、八[11] 杜家伟、严汉舒、冯佳诗、周天一、郑连丽、吴晓梦、陈文生.用于改进神经网络训练的有效锐度感知最小化在 国 际 会 议 上 学 习 代
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功