文件标题：Newton-Schulz迭代在全局协方差池中优于精确SVD的原因

51 浏览量更新于2023-10-13 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1115−梯度后果为什么在全局协方差池中近似矩阵平方根优于精确SVD？Yue Song、Nicu Sebe和Wei WangDISI，意大利特伦托大学{yue.song nicu.sebe wei.wang} @ unitn.it摘要全局协方差池（GCP）旨在利用卷积特征的二阶统计量。它的有效性已被证明在提升卷积神经网络（ CNN ）的分类性能。在GCP 中使用奇异值分解（SVD）来计算矩阵平方根。然而，使用Newton-Schulz迭代[14]计算的近似矩阵平方根优于通过SVD[15]计算的精确矩阵平方根。我们从数据精度和梯度平滑度的角度实证分析了性能差距背后的原因。各种补救措施计算平滑SVD梯度进行了研究。基于我们的观察和分析，提出了一种混合训练协议，基于SVD的GCP元层，这样的竞争性能，可以实现对牛顿-舒尔茨迭代。此外，我们提出了一个新的GCP Meta层，它在前向传递中使用SVD，在后向传播中使用Pade’所提出的元层已被集成到不同的CNN模型中，并在大规模和细粒度数据集上实现了最先进的性能。1. 介绍全局协方差池（GCP）通过在将卷积特征的协方差矩阵馈送到全连接层之前将其归一化来探索二阶统计量。它已经被证明优于一阶池化方法（例如，最大池化和平均池化）[9，17，15，16，14]。通常，GCPMeta层计算特征的协方差矩阵作为全局表示，然后执行特征分解以导出相应的特征值和特征向量，然后使用矩阵对数[9，17]或矩阵平方根[15，16，14]进行归一化。怎么-图1. （左）AlexNet的训练前5个错误。随着学习率的下降，性能差距逐渐减小。（右）最后阶段的验证top-1错误。这些SVD补救措施略微改善了性能，但与iSQRT-COV [14]不可比较我们提出的SVD-Pade '在SVD方法中取得了最好的结果。然而，对数可以显著地改变本征值的幅度并且过度拉伸小的本征值。此外，矩阵平方根已被证明相当于稳健的协方差估计并近似利用黎曼几何[15]。因此，矩阵平方根通常优于对数归一化。可以使用 SVD 来计算精确的平方根 [15] 或使用Newton-Schulz迭代法来推导近似的平方根[14，16]。直观地说，准确的一个应该产生更好的性能。令人惊讶的是，近似平方根连续优于精确平方根[14]。我们的论文从这个有趣的观察开始，并试图找出潜在的原因。奇异值分解的一个关键问题是其梯度的数值不稳定性，该梯度是由斜对称矩阵K导出的，其非对角元素定义为Kij=1/（λiλj），其中λi和λj是特征值。 Kij可以重新表示为11。当两个特征值-λi1−λj/λiUE非常小并且彼此靠近，1和1将向无穷远处移动。作为λi1−λj/λikij会爆炸的。为了避免这个问题，已经进行了几次尝试来平滑梯度[16，7，25]。这些方法在其他任务中的性能始终优于普通SVD，但尚未在GCP中进行验证。1116梯度不稳定性问题对于GCP变得更加关键，因为它通常处理非常大的矩阵。根据我们的观察，当协方差矩阵维数很大（>200）时，它更有可能具有许多小的特征值。单精度（即，float32）通常将小的特征值归零，并且不能保证网络的收敛。因此，协方差的数据类型设置为双精度（即，float64），使得可以很好地表示小的特征值。然而，高精度也可以表示小特征值之间的非常细微的差异这可以容易地导致大梯度并且加剧不稳定性问题，并且因此导致较差的性能。因此，出现了几个问题：1) MPN-COV [15] （具有准确的 SVD ）和 iSQRT-COV [14]（具有近似的SVD）之间的性能差距是否与其梯度平滑度有关？2) 我们能否平滑准确SVD的梯度以帮助MPN-COV[15]实现与iSQRT-COV [14]竞争的性能？为了回答这些问题，我们将几种SVD向后补救引入MPN-COV [15]，它们使用不同的技巧（例如，梯度截断、放弃小特征值和泰勒多项式近似[25]）来平滑梯度。图1示出了修改的SVD补救措施和普通SVD的训练和验证误差曲线。我们可以看到，尽管修改后的SVD函数比普通SVD带来了边际性能增益，但仍然没有一个可以与基于Newton-Schulz的iSQRT-COV [14]相比这意味着梯度平滑度不完全考虑视差。另一个有趣的观察结果是，当学习速率降低时，修改的SVD函数和iSQRT-COV [ 14 ]之间的性能差距逐渐减轻（见图14）。左1）。这可能是因为在小的学习速率和稳定的网络权重的情况下，协方差矩阵更可能是良好条件的，并且因此最小特征值λmin大于EPS（即，数据精度允许的最小正数）。这可能有利于SVD的稳定eigendecomposition作为较小的舍入误差和平滑的梯度。否则，如果λmin小于EPS，则小特征值将被归零，并且梯度Kij将变为无穷大。我们的经验表明，随着学习率的降低，MPN-COV [15]的协方差矩阵确实变得更好，这与性能差距的趋势一致。这启发了我们将SVD函数与iSQRT- COV [14]结合起来，并开发出一种混合训练协议，即，使用Newton-Schulz迭代训练网络，直到学习速率足够小且网络权值相对稳定，然后切换到普通/修改的SVD进行精确的矩阵平方根计算。通过这样做，SVD仅处理后期这种混合策略充分探索了SVD用于特征分解的潜力，因此这些SVD方法实现了具有竞争力的，有时比iSQRT-COV更好的性能[14]。当使用混合训练协议时，与独立训练中的情况不同，修改的SVD补救措施相对于普通SVD的边际性能改进不再成立。普通的SVD函数有时可以优于具有平滑梯度的修改的SVD方法。这一现象使我们不得不重新思考对这些成分进行平滑处理的有效性和必要性.由于大的梯度可以接近无穷大并且很可能导致溢出，因此这些修改的SVD补救措施在平滑的数量级上急剧改变梯度然而，大而准确的梯度对于学习鲁棒表示和提高泛化性能是重要的。我们认为，大梯度应密切接近，同时避免奇点。在SVD补救措施中，Wang等人。[25]提出了使用泰勒多项式近似梯度的有希望的方向，但他们的截断泰勒级数在某些情况下无法收敛。在此基础上，提出了一种基于Pade ′逼近的梯度估计方法，该方法具有更大的收敛半径和更强的逼近能力.我们证明了Taylor多项式上Pade ′逼近的吸引人的收敛性。所提出的元层优于所有现有的谱方法，其与牛顿-舒尔茨迭代的组合实现了最先进的性能。我们的贡献有三方面：• 从数据精度和梯度平滑性两个角度实证分析了近似矩阵平方根优于精确矩阵平方根的原因。计算平滑SVD梯度的各种补救措施进行了研究和验证GCP。• 提出了一种混合训练方案，并与Newton-Schulz迭代算法进行我们使用度量条件数来度量协方差矩阵的病态，证明了这种策略。• 我们提出了一种SVD向后算法，该算法依赖于Pade '逼近的快速和强大的梯度近似。它在不同的数据集和不同的模型上始终实现最先进的性能。最后，为了促进相关SVD技术的简单适用性，我们将在接受1后发布在PYTORCH中实现的所有方法的源代码。1代码可在https://github.com/KingJamesSong/DifferentiableSVD上获得。1117∈∈Q·PU∂Λdiag12. 相关工作2.1.可微奇异值分解作为一种传统的矩阵分解技术，SVD在现代深度学习中有着广泛的应用，包括批量白化[25，8]，风格转移[2，3]和图像分割[1，9]。可微奇异值分解的理论首先在文献[9，10]中提出。当两个特征值非常接近时，可能发生伪梯度爆炸，导致数值不稳定。为了解决这个问题，[7]提出将矩阵分成两个较小的子矩阵，这降低了具有小且接近的特征值的风险。然而，这种修改没有理论基础，并且可能导致较差的性能。[25]提出依靠幂迭代来迭代地计算近似梯度。然而，幂迭代只有当最大特征值λ1是支配的时才收敛，这一要求可能限制其实际应用（即，前两个最大值可以相等）。[25]提出使用泰勒展开进行SVD梯度估计。由于要近似的函数的奇异性，泰勒在向前和向后计算期间加速近似矩阵平方根计算。本文对[15]和[14]之间的性能差距进行了调查。前一种方法计算精确的矩阵平方根，后一种方法计算近似的矩阵平方根，但性能更好。3. 调查3.1.矩阵平方根再探给定神经网络的全连接层之前的表示XRd×N，其中d定义维度，N表示特征的数量，精确和近似算法[15，14]都计算其样本协方差的矩阵平方根以利用二阶统计量。精确平方根：MPN-COV [15]。在卷积层之后，提取的表示XRd×N用于计算协方差矩阵：P=X¯IXT（1）其中<$I=1（I−111T）表示中心ing矩阵，I多项式不能给出很好的近似，当它是N N接近极奇点。受[25]的启发，我们提出使用Pade '逼近，一种有理逼近技术来计算SVD梯度。与Taylor多项式相比，Pade ′逼近具有更大的收敛半径和更强的逼近能力.2.2.全局协方差池在深度神经网络中，全局协方差池层的目标是在全连接层之前探索高级表示的二阶统计。其在提升网络性能方面的强大能力已在过去几年中得到证明[9，17，22，16，15，17]。表示单位矩阵，并且1是其值均为1的列向量在集中化之后，协方差矩阵P是对称半正定的。特征分解可以通过SVD或EIG来执行：P=UΛUT（2）这里Λ=diag（λ1，. . .，λd）是特征值以非递增顺序排列的对角矩阵，并且U=[u1，. . . ，u_d]是正交矩阵，其中每一列u_i是对应于特征值λ i的特征向量。矩阵平方根通过以下等式获得：Q，P2=UF（Λ）UT（3）1 114、21、23、24]。 DeepO 2 P [9]是第一个端到端全局，其中F（λ）是对角矩阵diag（λ2，. . .、λ2）。Af-1个d协方差池网络该方法首先利用奇异值分解计算协方差，然后进行矩阵对数进行非线性归一化.B-CNN [17]被提出来将卷积特征的外积从两个反过来，全局表示Q被馈送到全连接层中。在反向传播期间，损失函数l的偏导数w.r.t.基于矩阵反向传播方法计算输入矩阵X网络，然后执行元素的功率正常-学[9，10]。让斜纹布表示从最后一个开始的梯度化改进的B-CNN [16]研究了矩阵归一化技术的各种方法，并证明了在全连接层中，我们可以将特征向量矩阵U和特征值矩阵Λ的偏导数导出为：矩阵平方根归一化显著优于其他归一化方案。另外，他们建议-l=（U+（μ l）T）UF，Q（四）三次矩阵平方根计算技术：使用l= 1（diag（λ− 1，. . . ，λ− 1）UTlU）Newton-Schulz迭代在向前传递和求解-∂Λ22 21天diag使用Lyapunov方程进行梯度计算反向传播G2 DeNet [22]将高斯分布插入到网络中，并考虑了高斯流形的几何形状。 [15 ]第15话一个人稳健协方差估计的矩阵幂归一化方法其中（）diag表示仅保留矩阵的对角元素的对角化随后，可以使用链式法则来计算协方差Pl=U（（KT◦（UTmation对于GPU友好的计算问题，iSQRT-COV [14]建议使用Newton-Schulz迭代来其中，◦表示矩阵Hadamard乘积，如果i=j，则矩阵K由元素Kij=1/（λi-λj）组成1118√ǁ−ǁYZ1否则K ij=0。我的损失。输入特征X最终计算为：l=（X +（l）T）X¯I（6）P整个网络可以使用等式中定义的向前和向后传递进行端到端训练（1）至（6）。为关于详细的损失推导，请读者参阅[9、15]，以便全面审查。近似平方根：iSQRT-COV [14]。出于GPU友好计算效率的考虑， [14] 提出了一个循环嵌入元层，通过Newton-Schulz迭代[6]迭代计算近似矩阵平方根具体地，为了计算矩阵 A的平方根 Y，耦合的 Newton-Schulz迭代采用以下形式：1图2.（左）两个元层在不同精度下的训练误差（右）两种方法的有效β光滑度[18]。值越大，表示渐变越不平滑。绘制元层的误差曲线。数据精度对iSQRT-COV [14]有轻微影响（约0.1%），而MPN-COV [15]可能受到显著影响。MPN- COV [15]可以在双精度下实现合理的性能，但使用单精度时无法收敛。这Yk=2Yk−1（3I−Zk−1Yk−1），1Zk=2（3I−Zk−1Yk−1）Zk−1（七）观察证实了高精度的必要性，以允许有效的本征值的数值表示。从等式（5），我们可以看到，小特征值与其中Yk初始化为Y0=A，Zk开始于Z0=I。由于Newton-Schulz迭代仅在Δ I1时局部收敛，因此协方差矩阵P首先通过其迹进行预归一化以满足收敛条件：1A=P（8）tr（P）接下来，归一化矩阵A采用牛顿-舒尔茨迭代法，运算，并在N次迭代后输出近似矩阵平方根YN等式中的预归一化。（8）非平凡地改变数据量，这可能导致网络无法收敛。在Newton-Schulz迭代之后，所得矩阵Y_N被后补偿如下：Q= tr（P）YN（9）iSQRT-COV [14]的反向传播算法不像MPN-COV [15]那样简单损失部分高精度容易导致K_（ij）过大，造成梯度ent溢出。我们测量两个元层的有效β平滑度[18]以量化其梯度平滑度。如图所示。2右，MPN-COV [15]的平滑梯度远不如iSQRT-COV [14]。为了获得与奇异值分解相似的梯度光滑性，我们探索了不同的方法来操纵奇异值分解的后向算法以获得光滑的梯度。在本文的其余部分中，除非明确指定，否则我们继续使用所有方法的GCP元层的双精度3.3.梯度平滑分析为了研究梯度平滑性的具体影响，我们设计了几个具有平滑梯度的SVD元层。这些元层都使用SVD作为前向传递衍生物K 还有，K 需要为每个循环但是在反向传播期间具有不同的配置前N个特征值。第一种方法是直接放弃--牛顿-舒尔茨迭代为了简洁起见，我们在这里只给出具有协方差的导数：l1=− tr（（）P）I+具有可能触发对角矩阵Λ的数值不稳定性的小特征值。从诊断-P（tr（P））2A1tr（P）A斜纹T（十）最终特征值以降序排序，我们可以简单地选择前N个特征值并丢弃其余的。的+2√tr（P） tr（（Q）YN）I修改可以正式地表述为：那么方程可以再次使用公式（6）来导出关于输入特征的损失导数。3.2.数据精度分析如前所述，GCP方法需要双重精度，以确保有效的数值表示Λ=diag（λ1，. . . ，λN，0，. . . ）（十一）通过交叉验证来选择保持的特征值的数量N该方法被表示为梯度截断。我们的第二种方法是限制梯度的大小，并在反向传播期间对矩阵K应用截断。具体来说，我们有.T，如果1>T小特征值验证数据的影响cision（即， single or double），我们将AlexNet [13]作为Kij=λi−λj−T，如果λi−λj−T<1119（十二）主干并使用两个元层在ImageNet上的不同数据精度[4]。选择AlexNet是因为它是轻量级的，易于外推到其他深度模型。图的左边2介绍火车-其中，T是在以下精度下的大常数：数据类型，其最佳值也可以通过交叉设置验证。我们将这种方法命名幂迭代梯度。一个最近的SVD后向al-1120|||| ||||||||Σ−n=0我−我J我Σ图3. 前两个特征值之比（λ1/λ2）。对于每个协方差矩阵，第一特征值不是主导的。建议使用幂迭代来计算相关梯度[25]。形式上，幂迭代采用迭代更新uk=Puk−1/Puk−1来近似特征向量。当λ1占优势时，通过依赖于Pu1=λ1u1（5）可以改写为：l=u（（KT◦（uT ））+（））uT（13）图4. （左）训练我们提出的Meta层的前1个错误。这些方法带来了超过MPN-COV最大0.2%的性能改进[15]。（右）这些方法的有效β-光滑性[18]。使用iSQRT-COV [14]将梯度平滑至相似程度。1，因此在收敛半径之外。为了避免这个问题，矩阵K被分成两个三角形子矩阵，其中上三角形定义了j>i的情况，并且下三角形由j<> i时的元素组成。由于K是一个反对称矩阵，所以只需要计算上半部分我们称这种方法为CIP11u1第1号诊断我们将上述方法集成到而幂法的收敛性要求第一特征值占优（λ1/λ2>1）。我们根据经验观察到，这种方法无法收敛于GCP。图3显示了前10000个训练步骤中前两个特征值的比率随着网络训练的进行，该比率逐渐减小，并且对于一些协方差矩阵达到1因此，我们推测它不能收敛，因为第一特征值λ1并不总是占主导地位。牛顿-舒尔茨梯度我们的第三个补救措施是使用牛顿-舒尔茨迭代公式方程。（7）对于反向传播，同时使用SVD作为前向传递。迭代时间被仔细地调整以实现最佳性能。该方法被表示为泰勒多项式梯度。最近，[25]提出使用泰勒展开来近似SVD后向梯度。他们重新制定了在等式中计算的矩阵K的非零元素。（5）作为组合物：AlexNet [13]并评估其在Ima-geNet [4]上的性能。图4比较了这些方法的训练top-1误差（左）和它们的有效β平滑度[18]（右）。所提出的SVD变体可以在不同程度上平滑SVD梯度，并将性能最大提高0.2%。然而，iSQRT-COV [14]仍然以很大的优势领先于这些SVD补救措施。3.4.混合训练协议虽然这些SVD补救措施不能优于iSQRT-COV [14]，但它们的性能差距随着学习率的下降而不断减小。这种现象引出了我们的猜测，即当学习率足够小并且模型权重经过良好训练时，协方差矩阵可能更适合可以使用条件数来验证假设，即，量化的指标1Kij=λ−λ1 1=λ·1−（λ/λ）（14）协方差矩阵的病态性条件编号-BER由特征值λmax/λmin注意右项类似于函数f（x）= l/（lx）。其泰勒展开式在x=0处的麦克劳林级数可以表示为：KP（z）= zi+R（zK+1）（15）i=0时其中Kzn表示K次的泰勒展开，R（zK+1）表示丢弃的高阶余数。注入当量（15）转化为eq.（14）导致：并且可以测量矩阵的稳定性。高条件数指示λmin相对较小且矩阵接近奇异，而低条件数确保λmin相对较大且矩阵是良态的。根据经验，当使用双精度时，条件数大于1e14被认为是不稳定的和病态的。病态矩阵更可能具有小于EPS的特征值。这些小的特征值将被归零并且1λjλj2λjKK+1K≈（1++（）+···+（））≤（十六）梯度Kij可能会移动到无穷大，这可能会触发-ijλiλi λiλi λiGER舍入误差和梯度爆炸。我们测量这样，当两个特征值接近时，方程中的数值无穷大1/（λiλj）消失了，得到了有界梯度估计。从柯西根测试，泰勒级数在eq.（15）只收敛在范围内-1M，qj0。直接求解这些方程可以得到Pade系数。4.3. SVD反向传播让我们从用泰勒多项式近似的梯度开始。泰勒梯度的核心思想是在等式中使用截断的泰勒级数。式（15）中定义的矩阵K的元素来近似等式（15）中定义的矩阵K的（14）。Pade '逼近式可以通过匹配等式导出。（十五）：PM（x）+R（xM+N+1）=Σxi+R（xK+1）（20）i=0时表2.使用不同训练策略的AlexNet的验证错误最好的三个结果以红色、蓝色和绿色突出显示。方法独立培训混合训练最终误差（%）最终误差（%）最佳误差（%）top-1top-5top-1top-5top-1top-5iSQRT-COV[4]47.9523.6447.9523.6447.8123.54SVD-Pade48.4123.9147.7623.4847.6323.21SVD-Taylor48.7024.3047.9223.5647.8623.56SVD-牛顿48.8625.0847.8723.4847.7723.38SVD截断48.6624.1047.9823.4547.8123.48SVD-TopN48.5624.1047.9623.6547.8123.54MPN-COV [5]48.7724.2847.9423.5447.7523.24（FGVC）。具有不同GCP对使用混合训练策略的元层进行微调然后我们可以得到匹配的Pade '逼近和重新-将K的非零矩阵元素表示为M三种流行的细粒度基准，即，加州理工鸟（鸟）[26]，斯坦福狗（狗）[11]，斯坦福汽车（汽车）[12]。关于数据集和实现的更多详细信息-λj（m）Kij≈·=·N（二十一）5.2. ImageNet与AlexNetλiQN（λj/λi）λi1+qnn=1（λj）n我表2显示了AlexNet使用在实践中，对角线[M/N]Pade´近似式，其中分子和分母具有相同的次数（M=N+1）通常是首选的。这将保证稳定的Pade ′系数和扩大的收敛范围。4.4. 扩大收敛范围。Pade ′逼近是由有限泰勒级数导出的，但它比截断泰勒级数具有更好的收敛性特别是对于对角Pade '逼近，我们有：定理 1. 若函数 f （ z ）是紧支集测度 μ （ x ）在[N+1/N] 对角 Pade ′ 上的Stieltjes变换f（z）=b1dμ（x），则逼近独立和混合培训策略。在独立训练的情况下，所提出的SVD-Pade’方法显着优于其他SVD补救措施，并在前1和前5个错误中将普通SVD算法提高了约0.4%。由于每种方法之间的性能差距是微妙的，并且在使用混合训练策略时可能会波动，因此我们报告了最终和最佳验证误差以进行全面比较。当使用混合训练协议时，我们提出的SVD-Pade在四个指标上达到了最先进的性能，并超过了包括iSQRT-COV在内的所有其他基线[14]。5.3. ImageNet with ResNet表3.ResNet-50和ResNet-101的验证错误最好的三个结果以红色、蓝色和绿色突出显示。PN+1（z）11r（x）>1，则收敛极限N→∞ |f(z)−QN （z）|N= r2在[a，b]中是指数的。文[20]给出了对角Pade´逼近的收敛性定理和渐近注意，函数f（x）=1/（1x）在R中是紧支持的，因为它只在无穷远处为零。因此，这个特性可以确保相关的Pade '逼近仍然有很好的逼近，甚至接近原始泰勒级数的收敛边界。也就是说，对角Pade´逼近不仅可以避免SVD梯度的奇异性，而且可以对任何可能的特征值比λj/λi给出非常接近的逼近。5. 实验5.1.模型和数据集在[15，14]之后，我们首先以AlexNet [13]和ResNet-50 [5]为骨干，并在ImageNet 2012 [4]上进行大规模视觉识别实验。在ImageNet上对GCP模型进行训练后，我们对细粒度视觉分类表3比较了使用不同训练策略的ResNet的验证误差。结果与AlexNet的结果非常一致。我们的SVD-Pade´实现了最佳的评估结果。即使当应用独立训练协议时，即，SVD方法是从头开始训练的，SVD-Pade´仍然可以优于[14]约0.2%的百分比。这证明了紧密近似梯度的必要性。当涉及到混合训练策略时，这些SVD变体已经实现了与iSQRT-COV [14]的竞争特别是，我们的SVD-Pade '补救措施1PM（λj/λi）1m=0可以在附录中找到。方法独立培训混合培训top-1top-5top-1top-5ResNet-50iSQRT-COV[4]22.816.6022.816.60SVD-Pade22.676.5122.606.44SVD-Taylor22.916.6722.776.53SVD-牛顿22.866.6522.726.55SVD截断22.856.7022.746.52SVD-TopN22.916.6822.766.51MPN-COV [5]22.936.7522.796.50香草ResNet-5023.857.1323.857.13ResNet-101iSQRT-COV[4]21.605.8821.605.88SVD-Pade21.485.8021.405.69MPN-COV [5]21.795.9921.585.80香草ResNet-10122.636.4422.636.441123−≈表4. 使用不同GCP元层作为主干的ResNet-50在细粒度数据集上的准确性（%）比较最好的三个结果分别以红色、蓝色和绿色突出显示。f表示该方法不能收敛。方法鸟类[26]狗[11]汽车[12]最终最好最终最好最终最好iSQRT-COV[4]85.9586.4582.3483.4590.9391.56SVD-Pade87.0587.2983.4084.3492.5592.99SVD-Taylor86.9587.2083.2384.2292.4692.71SVD-牛顿86.9787.2283.0883.9492.3592.51SVD截断87.1687.2582.9584.0392.4393.04SVD-TopN//////MPN-COV [5]86.8987.1983.3484.2492.4592.84也达到了最好的效果。我们还认为，当切换到SVD方法时，预热更多的时期可以带来更大的性能增益。5.4. 使用ResNet最后，我们在FGVC上验证了这些GCP Meta层的性能具有不同GCP元层的ResNet-50模型首先使用提出的混合训练策略在ImageNet上进行预训练表4比较了它们的最佳和最终验证准确度。可以观察到，所有SVD变体都具有非常有竞争力的性能，并且以0.6%的大幅度超过 Newton-Schulz 迭代，尽管它们中的一些在ImageNet上略微落后于Newton-Schulz迭代。这证明了我们的猜测，即精确的矩阵平方根在具有小学习率和良好训练的网络权重的FGVC数据集上也能更好地工作。此外，较大的裕度可能意味着精确平方根训练的GCP网络比近似训练的网络具有更好的泛化能力在这些SVD变体中，我们提出的SVD-Pade '方法实现了最佳性能，在数据集上比Newton-Schulz迭代性能高1%。此外，SVD-TopN方法不能收敛于任何细粒度数据集。这满足了我们的期望，因为小的特征值可以编码细粒度类的类特定特征，并且因此在FGVC中起尽管有初步分析，但这个问题值得进一步调查。5.5. 速度比较表5.AlexNet上单个批次的每个GCP元层的计算时间成本和计算瓶颈。方法瓶颈FP（s）BP（s）共计isqrt-CoVN/A0.230.530.76SVD-Pade0.960.281.24SVD-Taylor0.960.321.28SVD-牛顿SVD截断SVD2.360.971.050.263.411.23SVD-TopN0.980.241.22MPN-CoV0.970.231.20我们在表5中比较了AlexNet上每个元层的单个批次的时间成本。与iSQRT-COV [14]相比，我们的实现消耗更少的反向传播时间，因为迭代矩阵-矩阵乘法是不涉及SVD后向算法。我们实现的计算瓶颈主要是前向特征分解，不幸的是，它受到平台的限制。我们的SVD-Pade ′具有比SVD-Taylor更快的向后速度，因为它们在相同次数K的泰勒级数上一致。这主要是因为Pade '逼近的分子和分母可以并行计算，总迭代次数为K/2。对于SVD-Taylor，需要K次迭代才能达到相同的程度。5.6. Taylor和Pade ′的一个逼近误差表6. Taylor多项式和对角Pade´逼近的100次双精度逼近误差。λj/λi0.10.30.50.70.90.990.999泰勒Pade´9e-199e-197e-185e-182e-211e-218e-165e-172e-43e-16368e-139043e-10表. 图6比较了泰勒多项式和100次对角Pade '逼近的函数f（x）=1/（1x）的逼近误差。如第 4.1，当特征值比接近收敛边界（λ j/λ i1）时，Taylor多项式的逼近误差被放大。相比之下，我们的Pade´逼近式始终对任何λj/λi提供良好的逼近。5.7. 梯度上界表7. 每个SVD方法的梯度Kij的上界。方法SVD-Pade´SVD-泰勒SVD-TruncSVD-TopNSVD-Ne wton SVDn=1表. 图7总结了每个SVD方法的梯度Kij的上限。我们提出的SVD-Pade '允许梯度的最大上界，但最大值在双精度（<1. 79e308）或甚至单精度（<3。40e38）。关于上限的详细推导，请参见附录。6. 结论本文从数据精度和梯度光滑性两个方面实证分析了近似矩阵平方根优于精确矩阵平方根的原因。我们研究了各种SVD的补救措施，平滑梯度，并验证其性能的GCP。我们提出了一种混合训练策略，以帮助SVD方法实现竞争力的性能对牛顿-舒尔茨迭代。基于这些发现，我们提出了一个新的GCP元层，该元层使用SVD作为前向传递，并在反向传播过程中使用Pade '逼近，以实现鲁棒的梯度逼近。所提出的元层已经在不同的数据集和深度模型上实现了最先进的性能。致谢这项工作得到了EU H2020 SPRING No.871245和EU H2020 AI4培养基编号951911项目。解析形式M1Σpmm=0λi·ΣN1个以上Q nK+1λi不1λN/1λi−λ j最大值6.00e364.55e171e10..4.50e15/∞触发条件λi=λj≤EPSλi=λj≤EPS1. λi−λ。≥TJλN≤EPS/λi=λ j1124引用[1] 若昂·卡雷拉，鲁伊·卡塞罗，豪尔赫·巴蒂斯塔，克里斯蒂安·斯敏-奇塞斯库。使用二阶池的语义分割ECCV，2012年。3[2] 邱太阴理解用于通用风格转换的广义白化和在ICCV，2019年。3[3] Wonwoong Cho 、 Sungha Choi 、 David Keetae Park 、Inkyu Shin和Jaegul Choo。通过分组深度白化和着色变换实现图像到图像的转换。在CVPR，2019年。3[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。四、五、六、七[5] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。7[6] 尼古拉斯·J·海厄姆。矩阵的功能：理论与计算SIAM，2008年。4[7] 黄磊、杨大伟、勃郎、邓佳。Decorrelated批处理归一化。在CVPR，2018年。第1、3条[8] 雷煌、雷昭、易州、范铸、李流、凌少。批式增白的随机性研究在CVPR，2020年。3[9] CatalinIonescu ， OrestisVantzos ， andCristianSminchisescu.具有结构化层的深度网络的矩阵反向传播。在ICCV，2015年。一、三、四[10] CatalinIonescu ， OrestisVantzos ， andCristianSminchisescu.通过矩阵反向传播训练具有结构化层的深度网络。arXiv预印本arXiv：1509.07838，2015年。3[11] Aditya Khosla、Nityananda Jayadevaprakash、BangpengYao和Li Fei-Fei。一种新的用于细粒度图像分类的数据集。在 FirstWorkshoponFine-GrainedVisualCategorization ， IEEE Conference on Computer Visionand Pattern Recognition，Colorado Springs，CO，2011年6月。七、八[12] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-F

下载后可阅读完整内容，剩余1页未读，立即下载