正交权重改进神经网络协方差条件

153 浏览量更新于2023-11-30 收藏 1.35MB PDF 举报

奇异值分解

正交梯度

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文利用自相关性改进SVD元层的协方差条件宋悦[0000− 0003− 1573− 5643]、Nicu Sebe、王伟DISI，University of Trento，Trento 38123，Italyhttps://github.com/KingJamesSong/OrthoImproveCondyue.song unitn.it抽象的。在神经网络中插入奇异值分解元层容易使模型的协方差出现病态，从而影响模型的训练稳定性和泛化能力。在本文中，我们系统地研究了如何通过对Pre-SVD层强制正交性来改善协方差条件。现有的正交处理的权重首先进行了研究。然而，这些技术可以改善条件，但会损害性能。为了避免这样的副作用，我们提出了最近正交梯度（NOG）和最佳学习率（OLR）。我们的方法的有效性在两个应用程序中得到验证：去相关批量归一化（BN）和全局协方差池（GCP）。大量的视觉识别实验表明，我们的方法可以同时提高协方差条件反射和推广。此外，具有正交权重的组合可以进一步提高性能。关键词：可微奇异值分解，协方差条件，正交约束1介绍奇异值分解（SVD）可以将矩阵分解为正交特征基和非负奇异值，是许多矩阵运算的基本步骤最近在计算机视觉和深度学习中，许多方法将SVD作为元层集成到神经网络中，以执行一些可微的谱变换，例如矩阵平方根和逆平方根。这些应用出现在各种各样的方法中，包括全局协方差池（GCP）[30，46，13]，去相关批处理归一化（BN）[21，23，47]，用于通用风格转换的白化着色变换（WCT）[31，8，57]和透视n点（PSPs）问题[4，6，11]。对于传递到SVD元层的输入特征映射X，通常首先计算特征的协方差为XXT。这可以确保协方差矩阵是对称的和半正定的，这不涉及任何负特征值并且导致相同的左和右特征向量矩阵。然而，据观察，将SVD层插入深度模型通常会使协方差非常病态[46]，导致arXiv：2207.02119v1 [cs.CV] 2022年7+v：mala2255获取更多论文·≈≈min2Y. Song等人对训练过程的稳定性和优化产生有害的后果。对于给定的协方差A，其条件由条件数测量：κ（A）=σmax（A）σ−1（A）（1）其中σ（）表示矩阵的特征值。从数学上讲，条件数衡量SVD对输入误差的敏感程度。条件数低的矩阵被认为是良态的，而条件数高的矩阵被认为是病态的。具体到神经网络，病态协方差矩阵在几个方面对训练过程是有害的，我们将在后面详细分析。这种现象首先由[46]在GCP方法中观察到，并且我们发现它通常外推到其他SVD相关任务，例如去相关BN。图1描述了这两个任务在整个训练过程中的协方差调节。可以看出，SVD层的积分使得生成的协方差非常病态（对于去相关BN为1e12，对于GCP为1e16）。相比之下，近似求解器（Newton-Schulz迭代[20]）的条件对于去相关BN约为1e5，对于GCP约为1e15，而标准BN仅具有1e 3的条件数Fig. 1. 在去相关BN（左）和GCP（右）任务的训练过程中，SVD元层的协方差调节。去相关BN基于ResNet-50和CIFAR 100，而ImageNet和ResNet-18用于GCP。病态协方差矩阵会在前向传递（FP）和后向传递（BP）中损害网络的训练。对于FP，主要是SVD求解器在稳定性和精度方面受到影响。由于病态协方差具有许多微不足道的小特征值，SVD求解器很难准确地估计它们，并且可能触发大的此外，非常不平衡的特征值分布很容易使SVD求解器无法收敛并导致训练失败[56，46]。对于BP，如[28，58，21]中所指出的，特征协方差在反向传播期间与Hessian矩阵密切相关由于误差曲率由Hessian矩阵[50]的特征值给出，因此对于病态Hessian，梯度下降（GD）步骤将在高曲率方向（大特征值）上来回反弹，并在低曲率方向（小特征值）上缓慢前进作为+v：mala2255获取更多论文改善条件反射3因此，病态协方差可能导致优化景观中的缓慢收敛因此，深度模型的泛化能力受到了损害。由于深度神经网络的数据驱动学习性质和高度非线性变换，直接给出协方差条件的解析形式是很难的。必须进行一些简化以便于调查。由于协方差是从前一层生成和传递的，因此前一层可能与条件最相关。因此，我们自然地将我们的焦点限制在Pre-SVD层，即，SVD层之前的层。为了进一步简化分析，我们研究了两个连续的训练步骤，这可以被认为是整个训练过程的模拟。在本文中，我们主要研究了一些有意义的操作的权重，梯度，和学习率的Pre-SVD层在两个连续的训练步骤。在我们的Pre-SVD层简化下，改进条件的一个有希望的方向是在权重上强制正交性。正交权值具有保范性质，可以改善特征矩阵的条件化。这种技术在稳定训练和Lipschitz网络的文献中得到了广泛的研究[35，54，45]。我们选择了一些有代表性的方法，并验证其有效性的任务去相关BN。我们的实验表明，这些正交技术可以大大提高协方差条件，但只能带来边际性能的改善，甚至轻微的下降。这表明，当权重的表示能力是有限的，改进的条件并不一定导致更好的性能。因此，仅将权重归一化不足以提高泛化。而不是寻求正交约束的权重，我们提出了我们的最近正交梯度（NOG）和最优学习率（OLR）。这两种技术探索了关于学习率和梯度的正交可能性更具体地说，我们的NOG将Pre-SVD层的梯度修改为其最接近的正交形式，并保持GD方向不变。另一方面，所提出的OLR在每个训练步骤动态地改变Pre-SVD层的学习速率，使得更新的权重尽可能接近正交矩阵。实验结果表明，这两种方法不仅显著改善了协方差条件，而且显著提高了GCP和去相关BN的验证精度。此外，当与正交权重处理相结合时，性能可以得到进一步的改善。主要贡献和结论概述如下：– 系统地研究了如何改善SVD元层的协方差条件我们提出了我们的预SVD层简化调查这个问题的角度来看，正交约束。– 我们探索不同的正交权重技术来改善协方差条件。我们的实验表明，这些技术可以提高条件反射，但会损害泛化能力，由于权重的表示能力的限制+v：mala2255获取更多论文|||||| ||4岁。 Song等人– 在GCP和去相关BN上的实验表明，这些方法可以获得更好的协方差条件和更好的泛化能力。它们与重量治疗的结合可以进一步提高性能。2相关工作在本节中，我们介绍了可微矩阵分解和神经网络中的正交性的相关工作，这些工作可能与改进协方差条件有关。2.1可微矩阵分解可微矩阵分解广泛用于神经网络，光谱元层。Ionescu等人 [25，26]首先提出了矩阵反向传播理论，为后续研究奠定了基础。在深层神经网络中，由于其具有很好的谱特性，常常需要求矩阵的平方根及其逆的变换。它们的应用涵盖了广泛的计算机视觉任务[47，48]。为了避免奇异值分解的巨大时间消耗，还发展了一些迭代方法来逼近解。[20，47，48].在[21，8，24，22，23，47]中，在ZCA白化变换中使用平方根倒数来对特征图进行去相关，这也被称为去相关BN。全局协方差池（GCP）模型[30，29，55，60，46，13，49]将协方差的矩阵平方根计算为谱归一化，这在一些识别任务上实现了令人印象深刻的性能，包括大规模视觉分类[30，46，60，47]，细粒度视觉分类[30，46，60，47]，egorization [30 ， 29 ， 49] 和视频动作识别 [13] 。白化和着色变换（WCT）使用矩阵平方根和逆平方根，通常用于一些图像生成任务，如神经风格转移[31，57]，图像翻译[53，9]和域自适应[1，10]。在几何视觉问题中，通常应用可微SVD来估计基本矩阵和相机位姿[40，11，6]。除了基于SVD的因式分解之外，微分Cholesky分解[37]和一些低秩分解用于近似注意力机制[14，61，32]或学习约束表示[7，62]。2.2神经网络中的随机性正交权重具有保范性质的益处，即，对于任何正交W，关系式WAF=AF成立。当涉及到深度神经网络时，这种属性可以确保信号稳定地通过深度网络传播，而不会爆炸或消失梯度[3，15]，这可以加快收敛速度，并促进鲁棒性和泛化。一般来说，有三种方法可以强制层的正交性：正交权重初始化[42，35，59]，正交正则化[41，2，39，2，54]，以及+v：mala2255获取更多论文∈·N≥N改善条件反射5通过Carley变换或矩阵指数显式正交权重[33，51，45]。在这些技术中，正交正则化和正交权重是最常用的，因为它们通常会带来一些实际的推广改进。由于协方差与Pre-SVD层的权重矩阵密切相关，因此实施正交性约束可以帮助改善SVD元层的协方差调节我们将选择一些有代表性的方法，并在第二节中验证它们的影响。4.2.请注意，现有文献的重点与我们的工作不同正交约束通常用于改善神经网络层的Lipschitz常数，这有望改善图像生成中的视觉质量[5，36]，以实现更好的对抗鲁棒性[52，45]，并提高泛化能力[43，54]。我们的工作是关注提高协方差条件和泛化性能。此外，正交性的文献主要研究如何加强正交权矩阵，而很少关注梯度和学习率。节中5，我们将探索这种可能性，并提出我们的解决方案：最近的正交梯度和最佳学习率，这是最佳的意义上，更新的权重是尽可能接近正交矩阵。3背景：SVD元层本节介绍SVD元层传播规则的背景知识。3.1向前传球给定整形特征XRd×N，其中d表示特征维度（即，通道的数量）并且N表示特征的数量（即，特征的空间维度的乘积），SVD元层首先将样本协方差计算为：P=XJXT，J=1（I−111T）（2）其中J表示中心矩阵，I表示单位矩阵，并且1是一个列向量，其值分别为全1。协方差总是半正定的（PSD），没有任何负特征值。然后，使用SVD执行特征分解P= UΛUT，Λ = diag（λ1，. . . ，λd）（3）其中U是正交特征向量矩阵，diag（）表示将向量变换为对角矩阵，并且Λ是对角矩阵，其中特征值以非递增顺序排序，即，，λiλi+1. 然后，根据应用，矩阵平方根或反平方根计算为：1 1T11 1Q∈ P 2= UΛ 2U，Λ 2= diag（λ 2，. . . ，λ 2）1d（4）SP−1= UΛ−1 UT，Λ−1= diag（λ− 1，. . . ，λ− 1）2 2 22 21个d+v：mala2255获取更多论文公司简介QQ2.好吧Q2212DQQ好吧S2212D公司简介（六）CUP简体中文∂Λ..6岁。 Song等人矩阵平方根Q经常用于与GCP相关的任务[30，60，46]，而去相关BN[21，44]的应用广泛应用平方根的倒数S.在某些应用中，如WCT，Q和S都是必需的。3.2向后传递让我们还有，表示损失l对矩阵的偏导数平方根Q和平方根S的倒数。然后，传递给特征向量的梯度计算为：布里尔=（UQ布里尔+（）QQ1）U~2，布里尔=（US+（l）T）UΛ−1公司简介（五）注意，Q和S的梯度方程是不同的。对于特征值，梯度计算为：λ 1= 1diag（λ− 1，. . . ，λ− 1）UTlU，l. = − 1diag（λ− 3，. . . ，λ− 3）UTlU随后，SVD步骤的导数可以计算为：l=U（（KT）UT（7）其中，k表示矩阵Hadamard乘积，并且矩阵K由以下组成：如果i j，则n尝试Ki j=1/（λi−λj），否则Ki j=0。此步骤与以下步骤相同Q和S。最后，我们将梯度传递给特征X：布里尔=（X+（l）T）XJ（8）CUP有了上述规则，SVD函数可以很容易地插入到任何神经网络中，并作为元层进行端到端的训练。4SVD前层和重量处理在本节中，我们首先简化Pre-SVD层，然后验证一些代表性权重处理的有效性。4.1SVD前层简化神经网络由一系列非线性层组成，其中每一层的学习都是数据驱动的。堆叠这些层会导致高度非线性和复杂的变换，这使得直接分析协方差调节变得困难。为了解决这个问题，我们必须进行一些简化。我们的简化涉及在两个连续的训练步骤中将分析仅限于SVD层之前的层（我们称之为Pre-SVD层）。Pre-SVD层直接确定生成的diag不+v：mala2255获取更多论文L中国L中国L中国L中国LL中国改善条件反射7协方差，而两个连续的训练步骤是整个训练过程的模拟。其思想是通过分析子模型（两层）和子训练（两步）来简化复杂的变换，这可以被认为是深度模型及其完整训练的令W表示Pre-SVD层的权重矩阵对于输入，Xl传递到层，我们有：X1+ 1=WX1+b（9）其中Xl+1是传递到SVD层的特征，并且b是偏置向量。由于偏置b在这里有一点影响，为了简单起见，我们可以忽略它该步骤中的协方差被计算为WXIXTWT。BP之后，体重矩阵更新为W−ηl，其中η表示层的学习速率让Yl表示下一个训练步骤的传入特征。然后，协方差计算为：C=.（W−ηl）·Y。（W−ηl）·YTlT=（W−η）Y Y（W−η）=WY YTWT−ηlY YTWT−ηWY YT（l）T+η2lY YT（l）TL我的天LL lWWllW（十）其中C表示第二步骤的生成的协方差现在问题变成了如何阻止新的协方差C变得比WX1XTWT更差。由方程式（10），三个变量可能影响条件反射：勒勒权重W、最后一步的梯度W和学习率η，这一层。其中，权重W似乎是最重要的，因为它有助于三项eq。（10）.此外，由W计算的第一项WY1YTWT不像其他项那样由η或η2表示。因此，首先考虑操纵W使得C的调节可以被改善是自然的。4.2体重的一般处理在对神经网络强制正交性的文献中，有几种技术可以改善权重W的条件。现在我们介绍一些代表性的方法，并验证它们的影响。光谱归一化（SN）。在[36]中，作者提出了一种归一化方法，通过将权重矩阵除以其最大特征值来稳定生成模型的训练[16]。该过程定义为：W/σmax（W）（11）这样的归一化可以确保W的谱半径总是1，即，σmax（W）=1。这可以有助于减少协方差的调节，因为我们在谱归一化之后具有σmax（WY1）=σmax（Y1+v：mala2255获取更多论文||||||||- -−8岁。 Song等人正交损耗（OL）。除了限制W的谱半径外，加强正交性约束也可以改善协方差条件。正交矩阵是保范的（即，WY1F=WF），已经提出了许多方法来鼓励权重矩阵上的正交性，以获得更稳定的训练和更好的信号保持特性[38，2，54，51，45]。一种常见的技术是通过以下正则化来应用软正交性[54]L=||W WT−I||女（12）这个额外的损失被添加到优化目标中，以鼓励更多的正交权重矩阵。然而，由于约束是通过正则化实现的，因此权重矩阵在每个训练步骤中并不完全正交。正交权重（OW）。代替通过正则化应用软正交性，一些方法可以显式地对权重矩阵实施硬正交性[51，45]。[45]的技术建立在数学性质上：对于任何反对称矩阵，其矩阵指数是正交矩阵。exp（W−WT）exp（W−WT）T=I（13）其中W WT的操作是使矩阵斜对称，即，W WT=（W WT）T的关系始终成立。然后exp（W WT）用作权重。该技术将权重显式地构造为正交矩阵。因此，在训练期间总是满足正交约束。表1. 基于10次运行的ResNet-50和CIFAR100上不同重量处理的性能。图二. 训练过程中的协方差调节。所有的重量处理可以改善条件。我们将上述三种技术应用于去相关BN的实验中。图2显示了整个训练过程中的协方差调节，表1显示了相应的验证误差。可以看出，所有这些技术都获得了更好的调节，但性能改善并不令人鼓舞。SN将调节减少到约105，而验证误差略有改善。软正交的OL带来的性能略有改善，尽管在条件的一些变化。条件变化的发生是因为正交性约束，方法平均值±标准差minSVD 19.99± 0.16 19.80SVD + SNSVD + OLSVD + OW19.94± 0.3319.73±0.2820.06± 0.1719.6019.5419.94+v：mala2255获取更多论文中国.·Σ−中国.改善条件反射9正规化没有得到严格执行。在权重处理中，OW的硬正交性实现了最佳协方差调节，在整个训练过程中连续保持条件数在103左右。然而，OW稍微伤害了验证错误。这意味着更好的协方差调节不一定对应于改进的性能，并且仅正交化权重不能改进泛化。我们推测，强制严格正交的重量可能会限制其代表性的权力。然而，正如我们将在SEC中讨论的那样。5.1，当我们同时正交化梯度时，可以消除5最近正交梯度最优学习率在本节中，我们将介绍我们提出的两种修改Pre-SVD层梯度和学习率的技术。还讨论了它们与重量处理的组合。5.1最近正交梯度（NOG）正如在SEC中所讨论的那样。4.1中，协方差调节也受梯度Δ L的影响。然而，现有的文献主要集中在正交的权重。为了使梯度也是正交的，我们建议找到Pre-SVD层的最近正交梯度。在[19]中已经研究了不同的矩阵近似问题，并且最近正交问题被定义为：布里尔min||-R||F根据RRT=I（14）RW其中R是寻求的解。为了获得这样的正交矩阵，我们可以将误差函数构造为：e（R）=Tr（R）中国Tl- R）（R/W）-R）n+Tr.RTR−I其中Tr（）是迹测度，并且表示对称矩阵拉格朗日乘子。封闭形式的解由下式给出：布里尔R=中国（l）T中国布里尔中国12（十六）详细推导见补充材料。如果我们有梯度的SVD（USVT=1），则解可以进一步简化为：R=USVT（VS−1VT）=UVT（17）如上所述，通过将奇异值矩阵设置为单位矩阵来实现最接近的正交梯度，即，将S设置为I。请注意，只有Pre-SVD层的梯度发生了变化，而其他层的梯度没有修改。我们提出的NOG可以带来几个实际的好处。+v：mala2255获取更多论文中国10岁。 Song等人正交约束和最优条件。正交约束严格地施加在梯度上，因为我们有（UVT）TUVT= I。由于我们明确地将所有奇异值设置为1，因此也实现了最佳条件，即，κ（λ 1）=1。这可能有助于改善条件。保持梯度下降方向不变。在高维优化景观中，许多曲率方向（GD方向）由梯度的特征向量（U和V）表征。虽然我们的修改改变了梯度，特征向量和GD方向不变。换句话说，我们的NOG只在每个GD方向上调整步长。这表明修改后的梯度不会损害网络性能。与体重治疗相结合我们的正交梯度和以前的权重处理是互补的。它们可以联合用于同时正交化梯度和权重。在下文中，我们将验证它们对调节和性能的联合影响。表2. ResNet-50和CI-FAR 100上的梯度和权重处理的性能。每个结果基于10次运行。图三. 在训练过程中，使用正交梯度和组合权重处理的协方差调节。图表3和表2分别给出了去相关BN的协方差调节和相应的验证误差正如我们可以观察到的，单独使用所提出的NOG可以大大提高协方差条件，将条件数从1012减少到106。尽管这种改进不如正交约束（例如， OL和OW），我们的NOG可以受益更多的泛化能力，导致验证误差的改善0。百分之六将SN与我们的NOG相结合不会导致条件或验证错误的明显改善，而NOG和OL的联合使用会损害网络性能。这是因为在梯度操作下可能不会强制执行损失的正交性约束。当我们的NOG与OW相结合时，仅使用OW的副作用被消除，并且性能进一步提高0。百分之三这一现象表明，当梯度是正交的，应用正交约束的权重也可以有利于推广。方法平均值±标准差minSVDSVD + NOG19.99± 0.1619.43± 0.2419.8019.15SVD + NOG + SNSVD + NOG + OW19.43± 0.2120.14± 0.3919.22±0.2819.2019.5418.90+v：mala2255获取更多论文中国中国中国≪≪≪中国中国N2+2ηN2+2LR否则改善条件反射115.2最优学习率（OLR）到目前为止，我们只考虑了正交化W和分开，但如何联合优化W−ηl尚未被研究。实际上，希望选择适当的学习率η，使得更新的权重接近正交矩阵。为此，我们需要实现以下目标：布里尔min||（W− η布里尔）（W−η）T−I||（十八）该优化问题可以更容易地以向量形式求解令w、i和l分别表示矢量化的W、I和I然后我们构建误差函数为：e（η）=.（w−ηl）T（w−ηl）−i<$T。（w−ηl）T（w−ηl）−i<$（19）展开和微分方程w.r.t. η导致：de（η）dη −4wwTlT w+4ηww TlT l+8ηlT wlT w=0η⋆≈wTwlTwwTwlTl+2lTwlTw（二十）其中一些高阶项被忽略。详细推导见补充材料。虽然所提出的OLR理论上产生最接近正交矩阵的更新权重，但对于任意w和l，ηk的值是无界的。直接使用η值可能会导致训练不稳定。为了避免这个问题，我们建议只在OLR的值小于其他层的学习率时使用OLR。让lr表示其他层的学习率。切换过程可以定义为：.如果ηlr，与重量/梯度处理组合当权重或梯度正交时，我们的OLR需要小心使用。当只有W是正交的，wTw是一个小常数，很可能有wTw lTw。因此，我们有wTwlTw lTwlTw，并且η将衰减到零。类似地，对于正交梯度，我们有wTwlTw lTwlTl，这将导致ηk接近于零。因此，建议的OLR不能工作时，重量或者梯度是正交的。尽管如此，我们注意到，如果W和是正交的，我们的η是有界的。具体而言，我们有：命题1：当W和下界上界是N2是正交的，η是上界和下界，1其中N表示W的行维度。中国中国Fη=（二十一）+v：mala2255获取更多论文−中国中国12岁。 Song等人我们在补充材料中给出了详细的证明。显然，η的上界小于1。对于下界，由于N的行维度通常很大（例如，64），因此η的下限可以非常小（例如，2e 4）。这表明我们提出的OLR即使在训练过程的后期也可以提供小的学习率。总之，最优学习率被设置为使得更新的权重在其变得尽可能接近正交矩阵的意义上是最优的特别地，当梯度和权重都正交时，它是合适的表3. 基于10次运行的ResNet-50和CIFAR100上的最佳学习率和混合处理性能。见图4。在训练过程中使用最优学习率和混合处理的协方差调节。我们给出了OLR的协方差条件和验证误差分别在图4和表3中。我们提出的OLR显着减少了条件数为10 -4，并提高了0的验证误差。5个百分点。当与正交权重或正交梯度组合时，验证误差略有下降。这符合我们的期望，因为η在两种情况下都衰减到零。然而，当W和正交，联合使用我们的 OLR 实现了最佳性能，仅优于 OLR 0 。 5% ，比OW+NOG高0. 百分之二这一观察结果证实了所提出的OLR对于同时正交的W和Wl很好地工作。6实验我们在两个应用程序中验证了所提出的方法：GCP和去相关BN。这两个任务非常具有代表性，因为它们对SVD元层有不同的使用GCP使用矩阵平方根，而去相关BN应用平方根倒数此外，去相关BN的模型通常在网络的开始处插入SVD元层，而GCP模型在FC层之前集成该层。6.1去相关批处理规范化表4比较了基于ResNet-50 [18]的CIFAR 10/CIFAR 100[27]上每种方法的性能我们的NOG和OLR都比其他重量处理和SVD实现更好的性能。此外，当混合处理方法平均值±标准差minSVDSVD + OLR19.99± 0.1619.50± 0.3919.8018.95SVD + NOG +OLR SVD + OW+ OLRSVD + NOG + OW +OLR19.77± 0.2720.61± 0.2219.05± 0.3119.3620.4318.77+v：mala2255获取更多论文改善条件反射13表4. 基于ResNet-50 [18]的CI-FAR 10/CIFAR 100 [27]上不同去相关BN方法的性能比较。我们根据10次运行报告每个结果。最好的四个结果分别以红色、蓝色、绿色和青色突出显示。方法CIFAR10CIFAR100平均值±标准差min平均值±标准差minSVD 4.35± 0.09 4.17 19.99± 0.16 19.80SVD +谱范数（SN）SVD +正交损失（OL）SVD+正交权重（OW）4.31± 0.104.28± 0.074.42± 0.094.154.234.2819.94± 0.3319.73± 0.2820.06± 0.1719.6019.5419.94SVD +最近正交梯度（NOG）SVD +最优学习率（OLR）4.15±0.064.23± 0.174.043.9819.43±0.2419.50±0.3919.1518.95SVD + NOG + OWSVD + NOG + OW + OLR4.09±0.073.93±0.094.013.8519.22±0.2819.05±0.3118.9018.77Newton-Schulz迭代 4.20± 0.11 4.1119.45±0.3319.01表5. 基于ResNet-18 [18]的ImageNet [12]上不同GCP方法的性能比较。故障时间表示SVD求解器在一个训练过程中不收敛的总时间。最好的四个结果分别以红色、蓝色、绿色和青色突出显示。方法失效时间Top-1 Acc.（%）前5名（%）SVD573.1391.02SVD+谱范数（SN）SVD+正交损失（OL）SVD+正交权重（OW）21273.28（↑0.2）71.75（↓1.4）73.07（↓0.1）91.11（↑0.1）90.20（↓0.8）90.93（↓0.1）SVD+最近正交梯度（NOG）SVD+最优学习率（OLR）1073.51（↑0.4）73.39（↑0.3）91.35（↑0.3）91.26（↑0.2）SVD + NOG + OWSVD + NOG + OW + OLR0073.71（↑0.6）73.82（↑0.7）91.43（↑0.4）91.57（↑0.6）Newton-Schulz迭代073.36（↑0.2）90.96（↓0.1）采用，我们可以观察到逐步稳定的改进验证误差。在这些技术中，OLR与NOG和OW的联合使用在度量和数据集上实现了最佳性能，比SVD基线性能高0。CIFAR10的4%和0。CIFAR100的9%。这说明这些治疗方法是互补的，可以相互受益6.2全局协方差池表5列出了SVD求解器在一个训练过程中的总故障时间以及基于ResNet-18 [18]的ImageNet [12]上的验证准确度。结果与我们的去相关BN实验非常一致。在权重处理中，OL和OW对成绩有不利影响，SN使SVD的成绩提高了0。百分之二我们提出的NOG和OLR优于权重处理，并将SVD基线提高了0。4%和0。3%。此外，具有正交权重的组合进一步提高了性能。具体地，组合NOG和OW超过SVD 0。百分之六+v：mala2255获取更多论文十四岁。 Song等人OW与NOG和OLR的联合使用在所有方法中获得了最好的性能，并以0。百分之七图5. 训练后期GCP方法的协方差条件化。周期性尖峰是由每个epoch之后对验证集的评估引起的。图5描绘了在稍后的训练阶段中的协方差调节。我们的OLR和OW都减少了约1e 15的条件数，而建议的NOG提高了2e 15的条件数当使用混合处理时，组合NOG和OW比单独使用获得更好的调理。此外，同时使用所有的技术，导致最佳的条件和改善的条件数5E 15。GCP任务的协方差条件没有像去相关BN那样得到改善这可能源于GCP模型的独特架构：协方差直接用作最终表示并馈送到FC层。我们推测，这种设置可能会导致协方差具有较高的条件数。近似解算器（牛顿-舒尔茨迭代）也没有良好条件矩阵（15），这部分支持了我们的猜想。7结论和未来工作在本文中，我们探索不同的方法来改善SVD元层的协方差条件。首先研究了现有的正交权重处理方法。我们的实验表明，这些技术可以改善条件反射，但可能会损害性能，由于有限的代表权力。为了避免正交权值的副作用，提出了最近正交梯度和最优学习率，这两种方法可以同时获得更好的协方差条件和更好的泛化能力。此外，它们与正交权重的组合进一步提高了性能。所提出的正交方法对各种计算机视觉应用具有直接的有益影响，并可能启发其他正交技术。在未来的工作中，我们希望从其他角度研究病态协方差的问题，并将我们提出的技术扩展到其他SVD相关的方法。+v：mala2255获取更多论文改善条件反射15引用1. Abramov，A.，Bayer，C.，海勒，C.：保持简单：用于域适应的图像统计匹配。arXiv预印本arXiv：2005.12551（2020）2. Bansal，N.，陈旭，Wang，Z.：在训练深度网络时，我们能否从正交正则化中获得更多在：NeurIPS（2018）3. 本焦，Y.，Simard，P.，Frasconi，P.：用梯度下降学习长期依赖关系是困难的。IEEE神经网络汇刊（1994）4. Brachmann ， E. ， Krull ， A. ， Nowozin ， S. ， Shotton ， J. ， Michel ， F. ，Gumhold，S.，Rother，C.：用于摄像机定位的可微分变换在：CVPR（2017）5. Brock，A.，Donahue，J.，Simonyan，K.：用于高保真自然图像合成的大规模gan训练。In：ICLR（2019）6. 坎贝尔，D.，刘，L.，Gould，S.：用鲁棒可微几何优化方法端到端解决盲透视n点问题在：ECCV（2020）7. Chan，T.H.，Jia，K.，Gao，S.，卢，J，Zeng，Z.，Ma，Y.：Pcanet：一个简单的图像分类深度学习基线IEEE TIP（2015）8. 赵宗耀：理解用于单向传递的广义白化和着色变换.在：ICCV（2019）9. Cho，W.，崔，S.，Park，D.K.，申岛，Choo，J.：图像到图像的翻译通过组明智的深度白化和着色变换。在：CVPR（2019）10. 崔，S.，荣格，S.，Yun，H.，Kim，J.T.，Kim，S.，Choo，J.：Robustnet：通过实例选择性白化改进城市场景分割中的区域泛化。在：CVPR（2021）11. 该死的Z Yi，K.M.，Hu，Y.，王福，Fua，P.，Salzmann，M.：针对线性最小二乘问题的深度网络的无特征分解训练TPAMI（2020）12. 邓，J.，Dong，W.，Socher河，Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：CVPR（2009年）13. 高志，王建奎，张，B.，胡昆，Li，P.：用于视频识别的时间关注协方差池网络在：NeurIPS（2021）14. 耿，Z.，Guo，M.H.，陈洪，Li，X.，Wei，K.，Lin，Z.：注意力比矩阵分解更好吗？In：ICLR（2021）15. Glorot，X.，Bengio，Y.：了解训练深度前馈神经网络的难度。03 The Dog（2010）16. 古德费洛岛，Pouget-Abadie，J.，米尔扎，M.，Xu，B.，Warde-Farley，D.，Ozair，S.，Courville，A.，Bengio，Y.：生成对抗网。NeurIPS（2014）17. 格里戈里耶夫，R. D.：关于von Schwarmann迹不等式的注记。MathematischeNachrichten151（1），32718. 他，K.，张，X.，Ren，S.，Sun，J.：深度残差学习用于图像识别。在：CVPR（2016）19. 新泽西州希厄姆矩阵贴近度问题及其应用。03 The Dog（1988）20. 新泽西州希厄姆矩阵的函数：理论与计算。03 The Dog（2008）21. 黄湖，加-地杨，D.，朗湾，英-地Deng，J.：解相关批处理归一化。在：CVPR（2018）22. 黄湖，加-地赵，L.，Zhou，Y.，（1996年），中国科学院，Zhu，F.，刘，L.，Shao，L.：批量白化随机性的研究在：CVPR（2020）23. 黄湖，加-地Zhou，Y.，（1996年），中国科学院，刘，L.，Zhu，F.，Shao，L.：组白化：平衡学习效率和代表能力。在：CVPR（2021）24. 黄湖，加-地Zhou，Y.，（1996年），中国科学院，Zhu，F.，刘，L.，Shao，L.：迭代归一化：超越标准化，实现高效白化。在：CVPR（2019）+v：mala2255获取更多论文16岁 Song等人25. 约内斯库角，Vantzos，O.，Sminchisescu，C.：具有结构化层的深层网络的矩阵反向传播In：ICCV（2015）26. 约内斯库角，Vantzos，O.，Sminchisescu，C.：通过矩阵反向传播训练具有结构化层的深度网络arXiv预印本arXiv：1509.07838（2015）27. Krizhevsky，A.：从微小的图像中学习多层特征。特隆特大学硕士28. LeCun，Y.A.，博图湖Orr，G.B.， Mülle r，K.R.：效率不高。《神经网络：交易技巧》（Neural Networks：Tricks of the Trade）9-48 03 The Dog（2012）29. 李，P.，谢，J.，王建奎，Gao，Z.：通过迭代矩阵平方根归一化实现全局协方差池网络在：CVPR（2018）30. 李，P.，谢，J.，王建奎，Zuo，W.：二阶信息对大规模视觉识别有帮助吗？在：ICCV（2017）31. 李，Y.，Fang，C.，中国农业大学，杨杰，王志，卢，X.，Yang，M.H.：通用风格转换通过特征变换。在：NeurIPS（2017）32. 卢，J，姚，J.，张杰，Zhu，X.，徐，H.，高文，徐，C.，Xiang，T.，Zhang，L.：Soft：具有线性复杂度的无softmax TransformerNeurIPS（2021）33. Maduranga，K.D.，Helfrich，K.E.，叶问：使用尺度凯莱变换的复数酉递归神经网络在：AAAI（2019）34. Mirsk y，L.：约翰五世在伊凡雷帝的遗迹。Monatsheftefurmathematik79（4），303-306（1975）35. Mishkin，D.，Matas，J.：所有你需要的是一个好的初始化。ICLR（2016）36. Miyato，T.，Kataoka，T.，Koyama，M.，Yoshida，Y.：生成对抗网络的谱归一化。In：ICLR（2018）37. 默里岛：分解的微分。arXiv预印本arXiv：1602.07527（2016）38. 帕斯卡努河Mikolov，T.，Bengio，Y.：关于训练递归神经网络的困难。在：ICML（2013）39. Qi，H.，你C王，X.，妈妈，Y.，Malik，J.：深度等距学习用于视觉识别。In：ICML. PMLR（2020）40. 兰夫特尔河，Koltun，V.：深度基本矩阵估计。在：ECCV（2018）41. R odr'ıguez，P.，Gonzalez，J.，Cucurull，G.，Gonfaus，J.M.， R o ca，X.：具有局部约束去相关的cnn正则化In：ICLR（2016）42. 萨克斯，上午，McClelland，J.L.，Ganguli，S.：深度线性神经网络中学习的非线性动力学的精确解载于：ICLR（2014）43. Sedghi，H.，古普塔，五，Long，P.M.：卷积层的奇异值。In：ICLR（2018）44. Siarohin，A.，Sangineto，E.，Sebe，N.：用于gans的白化和着色批处理变换。In：ICLR（2018）45. Singla，S.，Feizi，S.：斜正交卷积。在：ICML（2021）46. 宋，Y.，塞贝，北，Wang，W.：为什么在全局协方差池中近似矩阵平方根优于精确svd在：ICCV（2021）47. 宋，Y.，塞贝，北，Wang，W.：快

下载后可阅读完整内容，剩余1页未读，立即下载