增强SGD：深度学习网络可解释性的提升

35 浏览量更新于2023-10-26 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10296为增强SGD开发可解释的可解释性马赫迪·S2* Nh酒店，伊斯坦布尔：土耳其;Plataniotis21新不伦瑞克大学2多伦多大学代码：https://github.com/mahdihosseini/RMSGD摘要解释深度学习的泛化特性是高级机器学习中的一个新兴课题关于随机优化下的学习如何真正起作用以及为什么某些策略比其他策略更好，有几个问题没有得到解答在本文中，我们解决了以下问题：我们能否探测深度神经网络的中间层考虑到这个问题，我们提出了新的可解释性指标，使用低秩因子化框架测量网络层中的随后，我们利用这些指标来增强随机梯度下降（SGD）优化器，通过自适应地调整每一层的学习率，以提高泛化性能。我们的增强SGD -被1. 介绍基于训练数据使用某种复杂性度量来预测网络泛化性能的任务为了理解和更好地解释给定优化器、网络和数据集的训练中涉及的学习机制，开发这种“可解释性”指标至关重要。识别某些度量和泛化差距之间的因果关系（甚至直接测试精度），以选择最佳网络拓扑或调整超参数是一个重要的问题，目前正在积极研究[10，22，23，29，36]。虽然用于预测通用化性能的指标开发领域正在增长（参见*同样重要的贡献第2节），我们对这项工作的兴趣是利用这种可解释性度量来增强深度神经网络（DNNS）的训练。我们通过定义新的指标来实现这一目标-使用这些指标，我们利用它们量化学习的能力，通过动态调整学习率来增强随机梯度下降（SGD）。从不同的角度来看，这项工作还揭示了常用超参数调整技术的可行性，如通过衰减方法[12，14，17，32，33，57]或函数方法[16，32，41，42]进行学习速率调度。人们对这些方法知之甚少，也不知道它们为什么真正有效，它们的使用更像是炼金术，而不是分析/经验推理。我们强调我们的met-rics如何提供合理的解释，这些策略，以及如何将它们用于一个简单的优化框架，以增加SGD和增益性能。我们的主要贡献如下：[C1]我们引入了使用训练数据导出的新的可解释性度量，这些数据量化了神经网络的层级学习[C2]我们使用这些指标来解释神经网络对各种优化器和数据集的训练机制，并预测深度学习中的泛化特征。[C3]我们利用这些指标来增强SGD并引入我们新的RMSGD优化器，该优化器以最小的计算成本获得了相当大的性能改进，并在实验配置中得到了很好的推广。2. 相关作品最近已经引入了各种复杂性度量来预测网络泛化，例如[36]中的来自网络权重的RNP-范数签名，通过测量网络训练和决策边界之间的距离来测量边缘分布[22]，以及来自训练权重演变的梯度信噪比（GSNR）度量[29]。更全面的分析相关10297∈∈ℓ-−→联系我们展开∈∈^^测量和探索它们对各种拓扑结构和数据集的依赖性可以在[10，23]中找到。其他一些工作也采取了进一步的措施，使用回归模型或全连接层对签名和测试准确度对估计器进行训练，以实现泛化差距[5，52]和测试准确度的高准确度预测[47]。这种研究的一个变体还利用神经复杂性度量作为损失函数的额外正则化器，以加速（W）我不知道。在第二种形式中，如果层是简单的线性层，则我们可以直接利用线性层权重（例如，全连接层，Transformer权重等）的2D张量W Rm × n。注意，在线性层的情况下在这两种形式中，我们假设n ≤ m。然后，我们通过分解得到低秩结构ate训练和尝试提高泛化能力gap [28].虽然上述指标显示出实力W[重量]−f→ac。W^W 【低阶】+E【噪音】（1）在预测网络泛化时，它们或者（a）被定义为不能在深度网络的中间层中探测以用于性能测量的整体网络性能的函数;或者（b）对权重结构的噪声扰动敏感，这可能潜在地导致不一致的行为以及低相关准确度测量。我们提出的方法不受这些缺点。随机优化领域已经发展成为训练DNNS的重要领域。随机梯度函数族在[2，3，31，37，45，55]中已经引入了基于entdescent（SGD）的优化器。在[12，17]中还研究了更先进的方法尽管基于SGD的优化器具有良好的泛化特性，但调整其相关的超参数（如学习率）是其在实践中使用的主要瓶颈。还引入了各种自适应优化算法，以利用自适应随机最小化框架，例如Adam [25]，AdaBound [33]和AdamP [17]。虽然基于自适应的优化器在不同的应用程序中工作良好，例如计算机视觉（CV）和自然语言处理，但它们在CV应用程序中的测试数据推广效果较差[50]。在[1，8，30，33，48]中进行了改进以克服这个问题，然而，与基于SGD的方法相比，它们仍然缺乏性能我们提出的工作建立在SGD之上，并继承了它的性能。3. 论可解释性3.1. 矩阵权的低秩分解我们认为，它是有用的分解的权重矩阵的网络被研究的低秩分解。这将使我们能够分析在训练过程中学到的潜在信息我们首先注意到，要分解的权重矩阵可以以两种形式之一获得：在第一种形式中，如果权重矩阵是卷积层的一部分（即它是4维的），类似于[27]，它可以展开为W4DRh×w×ni×no WRm×n，其中w，h是卷积核的宽度和高度，ni，no分别对应于输入和输出通道的数量。我们将张量展开到模式3（输入通道）作为W∈Rwhno×ni或模式4（输出通道），其中，W 是包含有限个非零奇异值的低秩矩阵，即W=UΛV，其中Λ =diagσ1，σ2，. -是的-是的σn′且n′=秩W′。这里，n′min（m，n）由于低秩性质。<对于我们的实验，我们采用变分贝叶斯矩阵分解（VBMF）方法[35]来执行低秩因子化。该方法提供了全局解析解，并通过求解二次最小化问题来避免迭代算法，这意味着它在计算上是高效的，并且可以以最小的开销容易地应用于任意大小的多个层（例如，参见图4(a) ResNet34的第25层上的低秩分解应用于CIFAR10(b) 质量（Q）测量图1.（a）从ResNet 34的特定层获取的权重矩阵上的低秩因子分解的含义;（b）使用不同优化器训练的ResNet 50上的质量度量（Q10298^^^^^→^^“”非零（即σ（W）>0∈[1，. - 是的- 是的，n]，其中n → n。ℓ→^^^−^∈∥· ∥^≤∈^^^^^→^ ^您的位置：使用VBMF低秩因子分解使我们的分析对训练中采用的不同初始化方法引入的随机性具有鲁棒性。这种分解是必不可少的，直接使用SVD等技术会受到噪声的严重影响，并妨碍正确的分析。在我们应用于增强SGD的上下文中，性能将严重降低。最初，权重矩阵的低秩分量具有空结构（即，W=），因为初始化权重的随机性在噪声扰动分量E中被完全捕获。随着训练的进行，低秩组件变得非空，并开始学习开发有意义的映射结构。图1a展示了从ResNet34层开发的直观示例请注意，在epoch训练过程中，低秩结构是如何被保留这突出了训练如何减少神经网络层内的干扰噪声，并加强嵌入低秩结构中的有用信息。我们指出，这导致稳定的编码层。3.2. 探测指标鉴于这种低秩因子分解的概念，我们现在希望量化网络层编码和传播信息的程度。为此，我们从线性代数矩阵分析中借用了两个度量：稳定秩[4，38]和条件数[19]。我们将这些概念应用于前面讨论的低秩分解权重矩阵。稳定秩是给定矩阵奇异值的范数能量我们提出了低秩结构W∈Rm×n上稳定秩的一个修正定义：n′对噪声的鲁棒性和更好的输入-输出映射。图3中显示了一个概念示例，用于在ResNet18中的一个层的训练时期中这些指标的演变还请注意，我们的指标开发不考虑组件，如跳过连接。我们直观地认为，当它学习时，诸如跳过连接之类的组件的影响被捕获在附近层的权重矩阵中，因此分析矩阵本身是一项足够的任务，我们在实验中证明了这一点。3.3. 论探究的意义给定等式2中的稳定秩和等式3中的条件数的定义，我们认为稳定秩为1和条件数为0表示完美学习的网络。具体而言，对于稳定秩，更高的值s（W）1表示大多数奇异值是2我这就产生了一个由一组独立向量构成的子空间对应于上述非零奇异值的tors换句话说，s（W）1对应于多对多映射，而不是多对低映射（即，秩亏）映射。此外，请注意，稳定秩是在低秩上测量的，而不是权重的原始测量。因此，较高的值表明学习的权重矩阵包含更多的非空结构，这可以被解释为有意义学习的标志。对于条件数，我们注意到，该度量还定义了逆矩阵W的数值灵敏度对较小的输入扰动。注意，在线性系统y=Wx下的误差残差重构将由下式限定：Xx//下一页xc<σ1（W）/σn′（W），其中，x和x是基础信号和接收信号，s（W^）=1W=12σ2（W^（2）c是线性的常数，n<$W<$$>2 nσ1（W<$）i=1其中，σ1≥σ2≥···≥σn′是降序的低秩奇异值，σn表示核范数（也称为Schatten范数）. 此度量对输出（特征）映射空间中低秩跨度的显著性更高的度量表示更好的编码器和通过层的权重矩阵的更强的信息承载。请注意，我们通过输入矩阵的较小输入维度n来规范化稳定秩 n m）到界s（W_n）[0，1].条件数也被定义为一个相对比率最高和最低的奇异值。我们在低秩结构W∈Rm×n上修改这个定义为κ（W）=1−σn′（W）/σ1（W）。（三）注意，κ（W）[0，1]。该度量指示权重矩阵的映射相对于输入噪声扰动的数值灵敏度较低的条件表明较高系统[19]我们将进一步了解更多信息。因此，映射条件对残差重构具有直接影响这在DNN训练期间特别重要，其中梯度被反向传播，并且矩阵权重以伴随形式参与参数更新。如果条件数较低（即，κ（W）0），则来自梯度的噪声扰动将在迭代训练阶段期间累积，并且因此其产生用于空间映射的较差的学习权重矩阵（即，编码）。鉴于这种理解，我们希望将这两个指标合并到一个单一的探测测量中，以量化学习我们将在下一节讨论这个问题。3.4. 学习网络我们现在的目标是结合稳定秩和条件数来开发一种新的质量度量，可以帮助我们量化学习网络的质量并描述其一般化特征。我们从3.3小节中知道，稳定秩为1，条件数为0表示我ℓ102992→→^^^·2^ ^您的位置：网络CIFAR10CIFAR100PLCC （%）Rocc（%）PLCC （%）Rocc（%）将军间隙测试Acc.将军间隙测试Acc.将军间隙测试Acc.将军间隙测试Acc.ResNet1888岁1888岁1874岁5474岁5469岁。09四十七2752岁73三十四55ResNet3483岁6381. 82七十9067岁2791. 82九十0078岁1874岁54ResNet50九十七90九十七90九十90九十90七十二0379岁。02五十七5766岁。66ResNet10188岁8188岁8178岁7978岁7967岁1374岁1351岁52五十七58(a) ResNets上的Q度量（b）NATS基准上的Q度量图2.我们提出的Q测量对推广差距和测试精度。（a）应用于ResNets上的许多优化器和超参数设置（见表1a）（点代表不同的实验设置），以及我们的Q测量和泛化差距（Gen. Gap）和测试准确性（Test Acc.）的相关PLCC和ROCC相关性我们在训练的最后一个时期考虑Q。(b)应用于CIFAR10上的NATS基准测试[7]，其中顶部的图显示了训练的第12个时期，底部显示了第90个完美的学习网络我们提出以下质量度量来捕获这些属性：q（W）= arctans（W）/κ（W），其中κ∈[L]（4）其中arctan（）是逐元素的反正切，q由[0，π]约束。此外，当s1和k0。图1b可视化了这个质量度量在不同优化器训练的ResNet34的不同conv层上的演变。该图突出显示了该度量在响应较差和较强的泛化性能时的行为。例如，已知Adam优化器在CV应用中提供较差的泛化性能，而已知基于SGD的优化器家族产生更好的性能[12，17，50]。我们认为，自适应优化器的这种性能不足是由ResNet 34模型后面几层的低质量度量实现的;这在图1b中通过图底部的黑暗来可视化相比之下，性能良好的基于SGD的优化器在整个网络中更一致地产生更高的质量度量，这表明在网络的所有阶段都有更好的学习权重我们可以定义网络的整体质量度量通过使用L2范数其中q= [q（W1），···，q（WL）]。（五）通过层数的平方根进行归一化，可以解释在N2范数空间内的层的总和。我们发现这种归一化方法比简单的平均值表现我们对CIFAR10上流行的NATS基准[7]以及CIFAR10和CIFAR100上的ResNet集合。我们在图2a和图2b中可视化了我们的度量和相关的相关系数。NATSBenchmark是一个神经架构搜索基准，它在训练中的第12和第90个时期提供模型检查点，其目标是预测性能/表征泛化。这些模型检查点是基准测试中生成的32，768个不同拓扑模型中的一个，每个模型检查点都涉及一系列模型大小/复杂性。至于ResNets研究，我们采用了与Google使用边缘分布的泛化预测类似的技术图和表突出显示了该指标是泛化性能和测试性能的强指标，并且大多数网络具有非常强的相关性得分。最后，我们强调这个可解释性度量是（a）仅使用训练数据导出的，这意味着它可以用于预测网络注意，这些点也适用于稳定秩和条件数。这可能会揭示新的基于层的优化方法，我们将在第4中探讨其中之一。4. 通过探测网络我们在本节中的目标是利用在3.2小节中开发的探测指标，并开发一种增强的SGD优化算法，以提高模型性能。10300{−···}ℓℓℓℓKℓk=（t−1）K+1ℓKℓv<$αv−−η（t）g，ℓ ℓℓ4.1. 一种新的Vanilla SGD回想SGD训练目标，以最小化给定训练数据集f（W;（X）train）的相关损失函数[2，3，31，37，55]。更新规则由下式给出：4.2. RMSGD：增强SGD算法第4.1小节中为Vanilla SGD定义的步长仅针对两个连续时期进行测量。由于梯度的随机性质，实际步长可以Wk<$−Wk−1−ηk<$f（Wk−1）（6）波动。为了减少步长振荡，我们采用动量算法的历史积累的步骤-对于k（t1）K+ 1，，tK其中t和K对应为了分别获得小批量的数量和数量大小和稳定的排名在历元更新。我们通过执行以下操作来增强SGD的更新规则：克拉夫k（Wk−1）=1/|Ωk|Σi∈k fi（Wk−1）是平均值(i) 用平均动量修正学习率：第k个小批量上的随机梯度，从一批n个样本中选择，η（t）←βη（t−1）+ε[s（Wt）−s（Wt−1）]，η定义了向相反方向ℓ ℓ^ℓ^ℓK平均梯度（即学习率）。我们的目标是在每个epoch之后独立地更新每个网络层的学习率，因此步长将是epoch索引和层的函数，即ηk<$η<$（t）。(ii) 通过平均动量kk1kℓ ℓ ℓ(iii) 更新网络权重：wk←wk−1+vk，我们现在通过累积所有观察到的在一个时期内的K个小批量更新中的梯度，Wt=Wt−1−η（t−1）其中k、t和k分别对应于当前小批量、v是速度项，w是可学习参数。不-其中，如果tℓ ℓ=0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000中国（7）f（Wk−1）对应于不10301联系我们^W不=1ℓℓℓℓℓℓ因此，有两个相关的动量参数：（1）SGD动量固定在α = 0。9;（2）学习方法。固定在β= 0处。九十八我们选择<$1，学习到一个训练时期中的总累积梯度这里的想法是选择一个学习率η（t），使得稳定秩在每一个历元上增加，即：n=η（t）：s（Wt）s（Wt−1）为了更好地学习，编码层。定理1（增加VanillaSGD的稳定秩）。假设稳定秩由等式2定义。从初始学习率η（0）> 0开始，并将随机梯度下降（SGD）的步长设置为与η（t）s（W^t）−s（W^t−1）（8）成比例。将保证稳定秩的单调增加，动量β1保持在收敛范围与更新规则（i）相关联的单位圆。设置β在更快的收敛和更高的稳定秩之间进行权衡，最终导致更高的性能。该参数的消融研究如图3所示。我们提供了进一步的研究，该参数在Escheridix-B。我们将此优化器命名为RankM omentumSGD：RMSGD1，并在算法1中显示伪代码。条件数在该算法中没有作用，但我们之前引入了它作为评估/量化学习的额外指标我们表明在这里，我们的一个指标就足以开发我们的下一个时期更新S（电话+1）0.00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000W^W）对于一些现有的算法，未来的工作可能包括将两者结合起来。10302^W^W网络中的每一层都被分配了一个索引{n}L下界η（t）≥η0且η≥ 0。定理1的证明在补充材料（附录A）中提供。随着正初始学习率ηω（0）>0的开始并且遵循等式8中的更新规则，定理1保证了Vanilla SGD的下一个历元更新的稳定秩的增加因此，使用等式8的学习率将在连续时期内保持为正。有关演示证据，请参见图3。我们在图3中注意到，随着网络学习更多，SGD类型的训练随着时间的推移在稳定排名上会下降，而相比之下，我们的方法RMSGD这个想法是在训练完成后具有高稳定等级，我们可以看到SGD此外，SGD具有更高的稳定排名，但更差（即，更高）条件数。相比之下，RMSGD具有良好的稳定秩，以及更好的条件数（即更低）。其中所有可学习的参数（例如，conv、线性变换、偏差、批量范数等）都使用该索引来调用。RMSGD的目标是首先回调不每个层，然后计算每个层的稳定秩s（k），第三，使用等式2计算差分增益使用等式8，并最终以衰减动量的方式累积该差值。这被执行以针对当前时期t独立地计算每个层的学习率，以增强SGD优化框架。这里我们注意到初始稳定秩为零0S（对于所有层，由于随机初始化权重图3展示了学习率由RMSGD调整。有趣的是，学习率的下降与[41，42]中使用循环学习的调度技术和[16]中的预热/余弦我们相信我们的方法可以解释1代码来自https://github.com/mahdihosseini/RMSGD10303Lk=1−不^^← − −∈{∼ ×→ →→→=1ℓℓ=1t−1{}，00，L{{··}}ℓℓℓ2次向前传递和两倍长的历元时间。图3. ResNet50上的优化器的（左）可解释性指标、（左中）质量指标和（右中）学习率在140个时期内应用于CIFAR10的（右）改变学习动量因子β对ResNet34在CIFAR10上测试准确性的影响算法1：增强SGD（RMSGD）要求：批量|Ωk|，# epochs T，# layers L，初始步长η k（0）= 0。03，初始向量v，w，SGD动量α=0。9、学习动量β= 0。98，=1对于t=1：Tdo第一阶段：通过自适应学习率- 生成K个小批量：对于k=（t 1）K+ 1：tK做1. 计算梯度：速率调谐有关数据扩充、超参数调优和其他结果的完整详细信息，请参见EPDix-B。硬件. 每个实验使用单GPU（RTX 2080 Ti），具体信息请参见Rendix-B。注. 对于所有表格，绿色表示最佳结果，橙色表示在最佳结果的标准差范围内。5.1.图像分类gk← 1/|Ωk|Σi∈kfi（wk−1）;2. 计算速度项：vk←αvk−1−η（t）gk3. 应用更新：wk←wk−1+vk关于CIFAR实验的说明由于不同的优化器展示了广泛不同的纪元时间（见图4），端ℓ ℓ ℓ相比之下，我们将训练限制在总的挂钟时间内，第二阶段：学习率对于λ=1：L，1. 通过使用EVBMF的等式1来因子化矩阵权重2.通过等式2计算稳定秩s（W）不使用SGD消耗250个epochs。就历元而言，这相当于所有优化器的250个历元，^SAM，由于其3.更新LR：η（t）βη（t1）+[s（W） s（W）]端端这种调度技术以及为什么建议学习速率从小值开始并随着进行的时期（即，预热）而增加，然后衰减以完成训练。命题1（RMSGD的收敛保证）。给定RMSGD仅演化学习速率，并确保η（t）>0t 1，. . .，T，其收敛保证遵循SGD [31，56]。我们进一步详细阐述了Escherdix-A中的证明。5. 实证评价Setup. 我们针对最先进的自适应和非自适应优化器评估了RMSGD，并进行了不同的研究，包括（a）CI-FAR 10/CIFAR 100 [26]，ImageNet [39]以及两个计算病理学数据集（MHIST [49]和ADP [20]）上的图像分类。使用ResNet 18在CI-FAR 10上调整超参数;（b）使用Cutout [6]进行图像分类;以及（c）批量大小鲁棒性。网格搜索用于学习计算机视觉：CIFAR。我们报告所有结果表1a和图4中的一些，其他图在图1a-B中。RMSGD始终保持最佳性能，并随着数据集复杂性（CI-FAR 10CIFAR 100）和网络复杂性（ResNet 18）的增加而显示出优势ResNet34ResNet50ResNet101）。我们注意到，在许多情况下，SGDP和SAM确实保持在性能的标准偏差范围内，这突出了这些优化器的竞争力。注意，对于其他自适应优化器，竞争性是不存在的。我们进一步强调了图4所示的性能与时间的关系。尽管SAM我们强调如何RMSGD是能够跑赢，而招致环非常低的计算开销。SAM通过其较低的训练测试间隙表现出更好的泛化能力请注意，对于有额外资源或时间可用的场景，我们还报告了所有优化器在Epoch-250的最终性能计算机视觉：CIFAR with Cutout。我们还使用cutout来计算RMSGD，因为有人可能会认为cutout可以用来增强SGD，并否定自适应优化器的需要然而，我们可以从表1b中看到，带断路器的RMSGD仍然能够始终优于SAM，ℓℓℓ10304∼∼网络SAMSGD AdamP RMSGD63 .第六十三章38 64. 61 69岁。4071. 24ResNet5075. 5176 1275 8576. 42表1. CIFAR10和CIFAR100上各种网络和优化器的性能（a）无Cutout和（b）有Cutout。报告使用壁钟时间250SGD训练epoch作为截止值。注意ResNet{18，34，50，101} =R{18，34，50，101}和ResNeXt=RNeXt。(a) 无切口网络[57]第五十七话AdaBound[33] AdaGrad[9]亚当[25]AdamP[17]SLS[48]萨姆[12]新加坡元[14]SGDP[17]RMSGDR18[15]九十三340 10九十三55005九十三70018九十三八六零。20九十三55005九十三840 09九十三790。1994 00 0. 1594 1701392. 83 0.1492. 4502492. 59 03092. 1202392. 5102291. 09 0.19九十三27010九十三4701892. 67012九十三十三零0891. 78 0.1694 82 010九十五1402594 69 0。1094 92024九十三82 0 10九十三六二零10九十三4501692. 70018六十四202098九十三67009九十五580 07九十五81016九十五20018九十五4001294 38 0.09九十五32007九十五56010九十五05028九十五3001394 六二零09九十五390. 16九十五750。14九十五19015九十五3600494 79 0。24九十五660。17九十五71007九十五63005九十五530 14九十五490. 05R34[15]R50[15]R101[15]RNeXt[51]R18七十三。1102174岁09 0.27七十92031七十二45034七十六。81031七十三。59 0 04七十七。16025七十七。8000778岁十三零1678岁63034R34七十三。43 0. 1474岁84 0 18 七十39 0.57七十二09 0. 50七十六。93040七十三。22011七十七。98039七十七。88 0。3978岁七四零。1279岁。32010R5075. 1504575. 52037七十60091 七十53 036七十七。4701675. 80023七十七。39 0. 6678岁1204278岁四四零。2479岁。590 54R10175. 63010七十六。31041七十二390. 84七十二20068七十七。71016七十三。3108478岁380. 4878岁48045 78岁6005579岁。36026RNeXt七十二六四0 49七十二97038 68岁830. 43七十一54 0 4174岁54 040七十二3504275. 83 0.3075. 36033七十六。56033七十七。14031(b) 带有剪切网络CIFAR10CIFAR100SamC新加坡元CSGDPCRMSGDCSamC新加坡元CSGDPCRMSGDCResNet18九十五960。13九十六。12013九十六。十三零13九十六。十三零08七十七。58 0 1178岁16021 78岁8203778岁53022ResNet34九十六。六四0 09九十六。530 13九十六。70010九十六。4200878岁57 01978岁6305579岁。6702479岁。70019ResNet50九十五790。10九十五780. 27九十六。03 0. 16九十六。28007七十七。73 0. 2878岁3606779岁。52031八十060 45ResNet101九十六。17008九十六。04 0. 16九十六。12005九十六。330 0879岁。4106679岁。35062八十03 0.67八十36035ResNeXt九十五010.18九十五040. 18九十五24015九十五六二零08七十六。34 0 0675. 91019 七十七。1402178岁06028[40]第四十话94 65 0。1294 53 0 1694 07007九十五4801175. 43 0.18七十三。94021七十三。40007七十六。36027SENet18[21]九十五92016九十五990. 10九十六。04 0. 08九十五80006七十七。六四0 32七十七。80023七十七。70005七十七。77 0。15[46]第四十六话九十四四零。2391. 7002492. 09 0.2192. 83 0.1469岁。1005068岁4202468岁9804469岁。870。49ShuffleNetV2[34]94 7101594 4002194 37 0.12九十五010. 2974岁7001974岁十三零3574岁四四零。2974岁38 0.36表2.在ImageNet上测试MobileNetV2的准确性结果，使用128个批量大小，训练了一台GPU机器。时代山姆SGDRMSGDTop-1 Top-5 Top-1 Top-5Top-1Top-515025061岁4163岁4383岁86八十五24五十九8062.1682岁5684. 2167岁84七十2588岁3289岁。66表3.在ImageNet上测试MobileNetV2和ResNet50的准确性结果，使用批量大小为256，训练了一台GPU机器。表4.测试计算病理学数据集的准确性结果。请注意，ResNet18 =R18，ResNet 34 =R34，并且Mo-bileNetV 2 = MV 2R18R34MV279岁。9208081. 02 0.9579岁。90095八十571.43八十57 088八十59 052八十781.61八十72 1.1282岁89093八十76 1.3279岁。六五一。9881. 41081八十53 065八十16085八十80 1.5881. 80 1.20八十9408582岁58 064R18R34MV292. 75 0。2092. 8000692. 8901794 04 0.12九十三95 008九十三78九十三28012九十三2401189岁。431. 46九十三22017九十三380. 1488岁81132九十三48043九十三650。1291. 4205394 2701094 19021九十三83 0.280. 09SGD和SGDP，并且比其非切断性能有很大的改进（1%）。计算机视觉：ImageNet。我们在表2、表3和图4中报告了ImageNet结果。7%的top-1测试精度性能差距突出了RMSGD这突出了如何使用RMSGD以较小的计算资源处理较大的数据集。SGD和RMSGD需要1周的时间进行培训，而SAM需要2周。与原始MobileNetV2 [40]的性能差异与较小的批量大小128有关。网亚当AdamP山姆SGDSGDPRMSGDCIFAR100ADPMHISTCIFAR1010305计算病理学：MHIST ADP我们在表4中报告了我们的计算病理学结果，一些结果在图4中显示。我们证明了RMSGD在ADP上的性能优于所有的优化器所有优化器在MHIST上的表现都是相似的，可能是因为它的尺寸较小计算病理学数据集被包括在实验中作为额外的（不太常规的）数据集，其提出额外的挑战（例如，标签的难度和稀缺性，图像大小）。批量。我们在图4中报告了消融批量研究。我们强调 RMSGDSGD 具有鲁棒性，但性能较差。6. 总结发言在这项工作中，我们介绍了探测指标（即稳定秩、条件数和质量度量），并演示了它们如何用于量化神经网络的学习，以及如何用作泛化性能的指标我们演示了如何非常简单地利用这些指标来增强 vanillaSGD，并以极低的计算开销（每个训练历元1<计算成本与性能优势。我们强调，RMSGD能够保持极高的计算效率，同时在许多应用程序、网络复杂性和数据集10306图4.测试/训练不同数据集、网络和优化器选择的性能剪切增强用C注释。单个GPU用于所有实验，包括批量大小为128的ImageNet结果。复杂性这与 SGDP 等优化器形成对比， SGDP 优于SGD，但会产生计算成本，性能略低于RMSGD。SAM还显示出比SGD的性能改进，但是在计算上有显著的成本（是 SGD 的两倍）。我们进一步强调，在ImageNet训练的批量较小的情况下，SAM往往也会失去性能。RMSGD能够在低计算环境中保持非常高的性能。对不同网络和数据集的不同设置，使用不同的优化器，在EPDIX-B中进行历元时间分析的比较研究学习率作为正则化。我们强调RMSGD我们假设RMSGD随着批量大小的增加，SGD中的模型梯度更新产生低方差，并且可以使用更高的学习率以实现更好的性能。然而，这种缩放并不一致跨优化器选择。我们发现，使用SAM扩展批大小实际上会降低性能。这类似于[11，53，54]中的报告，其中使用较大批量时的训练稳定性对于网络中的每一层都是不同的这一发现导致开发了一种新的优化器，该优化器使用逐层学习率调度，并在大批量设置中表现出更好的性能RMSGD的每层学习率调整的概念我们认为，这解释了为什么它的性能水平始终保持在不同的批量大小设置高。社会影响。最近的工作[13，44]强调了人工智能对气候变化的风险，并且在计算上有效地减少碳足迹非常重要。我们证明了RMSGD能够在最少的硬件上运行并实现卓越的结果，有助于实现这一想法。引用[1] Atilim Gunes Baydin，Robert Cornish，David MartinezRubio，Mark Schmidt和Frank Wood。在线学习率自适应-10307超梯度下降在2018年国际学习代表会议上2[2] 我在博图。随机梯度下降的大规模机器学习在COMPSTAT’2010 的 Proceedings 施普林格， 2010 年。二、五[3] 我在博图。随机梯度下降技巧。Neur alnetworks：Tricks of the trade，pages 421Springer，2012.二、五[4] Michael B Cohen，Jelani Nelson，and David P Woodruff.关于稳定秩的最佳近似矩阵积。第43届自动机、语言和编程国际研讨会（ICALP 2016）。达格施图尔-莱布尼茨宫Zentrum fuer Informatik，2016. 3[5] Ciprian A Corneanu ， Sergio Escalera ， and Aleix MMartinez. 在没有测试集的情况下计算测试误差在IEEE/CVF计算机视觉和模式识别会议论文集，第2677-2685页，2020年2[6] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。arXiv预印本arXiv：1708.04552，2017。6[7] Xuanyi Dong，Lu Liu，Katarzyna Musial，and BogdanGabrys.Nats-bench：针对架构拓扑和大小对nas算法进行基准测试。 IEEE transactions on pattern analysis andmachine intelligence，2021。4[8] 蒂莫西·多扎特把涅斯捷罗夫的动力转化成亚当。在2016年国际学习代表会议上。2[9] John Duchi，Elad Hazan，and Yoram Singer.在线学习和随机优化的自适应子梯度方法 Journal of MachineLearning Research，12（61）：2121 7[10] Ginner Karolina Dziugaite ， Alexandre Drouin ， BradyNeal ， Nitarshan Rajkumar ， Ethan Caballero ， LinboWang，Ioannis Mitliagkas，and Daniel M Roy.为了寻找一种强有力的泛化方法。In H. Larochelle，M.兰扎托河哈德塞尔M. F. Balcan 和 H. Lin ， editors ， Advances in NeuralInformation Processing Systems，volume 33，pages 11723Curran Associates，Inc. 2020. 一、二[11] Yong Liu等.大批量训练中的锐度感知最小化8[12] Pierre Foret、Ariel Kleiner、Hossein Mobahi和BehnamNeyshabur。清晰度感知的最小化，有效地提高泛化。2021年，在国际学术会议上发表。一、二、四、七[13] Andre Fu ， Mahdi S Hosseini ， and Konstantinos NPlataniotis.重新考虑计算机视觉的二氧化碳排放。在IEEE/CVF计算机视觉和模式识别会议的Proceedings中，第2

下载后可阅读完整内容，剩余1页未读，立即下载