SPD流形上的自动学习优化方法

92 浏览量更新于2023-10-23 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7700学习优化SPD歧管高智1，吴玉伟1，贾云德1，梅赫塔什·哈兰迪21智能信息技术北京理工大学计算机学院，北京2电气与计算机系统工程系莫纳什大学，澳大利亚Data61{gaozhi 2017，wuyuwei，jiayunde}@ bit.edu.cn，mehrtash. monash.edu摘要计算机视觉和机器学习中的许多任务都被建模为具有对称正定（SPD）矩阵形式的约束的优化问题。由于SPD流形的非线性，解决这样的优化问题是具有挑战性的，使得具有SPD约束的优化严重依赖于专家知识和人工参与。在本文中，我们提出了一个Meta学习方法来自动学习SPD流形上具体地说，我们引入了一种新的递归模型，该模型考虑了输入梯度的结构，并确定了优化的更新方案。我们参数化的经常性模型的优化，并利用黎曼运算，以确保我们的方法是忠实于SPD流形的几何形状。与现有的SPD优化器相比，我们的优化器有效地利用了底层数据分布，并以数据驱动的方式学习更好的优化轨迹。对各种计算机视觉任务的广泛实验，包括度量接近度，聚类和相似性学习，表明我们的优化器始终优于现有的最先进的方法。1. 介绍具有对称正定（SPD）矩阵形式的约束的优化问题在计算机视觉和机器学习社区中具有广泛的应用。例如，在相似性学习中，马氏距离的非负性要求度量是SPD矩阵[13，22，34]。为了将高斯混合模型拟合到数据，需要SPD约束以获得每个模型的协方差[18]。其他应用范围从高阶统计编码[7，15]，视觉分类[8，9，10，12，14，41，42]，集群[11，21]。*通讯作者一般来说，SPD约束使优化问题具有挑战性且不易解决[35]。在欧几里德空间中直接应用基于梯度的优化算法（例如，随机梯度下降（SGD））的这种优化问题是没有成果的，并导致不符合SPD流形的几何形状的结果。为了缓解这个问题，需要求助于基于梯度的优化算法的黎曼形式[1]。这种优化器将具有流形约束的优化问题视为无约束问题，并利用黎曼算子沿着流形（在我们的情况下为SPD流形）移动以寻求解决方案。在我们的工作之前，所有的努力和社区的重点都是手工设计黎曼优化器[5，23，24，25，38，46]。例如，Bonnabel [5]在Rieman流形上发展了SGD算法，Roy等人[6]在Rieman流形上发展了SGD算法。[25]将动量SGD推广到黎曼背景。优化器的设计，评估其性能，并可能更新的优化方案，需要直觉和专家知识的流形，以达到满意的结果。也就是说，手工设计的优化器在很大程度上依赖于专家知识和人工参与。此外，现有的SPD优化器是任务无关的。由于不同任务的底层数据分布不同[2，32]，因此应针对手头的任务定制有效的优化器因此，一个自然的问题出现了：我们能在SPD流形上自动设计特定任务的优化器吗？我们的工作受到元学习进步的启发，为优化技术提供了新的视角。元学习可以自动获取知识，学习如何学习或快速适应新信息[27，37]。特别是，一些方法表明，可以通过用神经网络对优化器进行参数化来获得据我们所知，现有的作品从来没有试图学习SPD流形上的优化器。一个可能的原因是，直接应用现有的元学习方法，7701++++++到SPD流形不保持非欧几何。这促使我们研究如何利用Meta学习来自动化SPD优化器的设计。为了实现这一目标，需要克服两个挑战. (1)SPD流形上的黎曼梯度由对称矩阵来确定。简单地处理梯度不可避免地会破坏优化过程中我们应该考虑如何保持梯度矩阵的对称性（2）在SPD流形这样的非线性空间上，像两个梯度的加法这样的运算需要忠实于流形的内在几何。在本文中，我们提出了一种元学习方法来自动学习SPD流形上的优化器。具体来说，我们引入了一个矩阵LSTM（mLSTM），它可以保持梯度的对称性，并自动生成更新步骤。我们通过mLSTM对优化器进行参数化，并利用黎曼运算来确保最终设计符合SPD流形的几何形状。通过训练优化器以最小化基础学习器的目标，可以有效地利用底层数据分布并以数据驱动的方式学习更好的优化轨迹。我们对各种计算机视觉任务进行了实验，包括度量接近，聚类和相似性学习。实验结果表明，我们的优化器收敛速度更快，有一个更好的最优tima比现有的SPD优化。该代码可在https://github.com/ZhiGaomcislab/www.example.com上获得。总之，我们的主要贡献有两个方面。(1) 我们提出了有史以来第一个可学习的优化非欧SPD流形。由此产生的优化器学习如何优化SPD歧管。(2) 我们通过一种新的结构，mLSTM模型参数化优化器，并利用黎曼运算，以确保整个方法是忠实于SPD流形的几何。2. 相关工作2.1. SPD阀组具有SPD约束的优化问题可以通过基于梯度的黎曼优化算法来求解。Luenberger [31]提出了黎曼梯度下降（RGD）算法，其中优化器在每次迭代时对所有样本进行操作。Bonnabel [5]提出了黎曼随机梯度下降（RSGD）来减少考虑到以前的解决方案，Zhanget al.[46] Satoet al.[38]利用损失函数的有限和，提出了黎曼随机方差约化梯度（RSVRG）算法。Kasai等人[24]利用递归梯度[33]提出了黎曼随机递归梯度（RSRG）算法。此外，一些作品研究了自适应优化，其中不同的坐标具有不同的学习率。例如，Royet al. [25]计算不同坐标的欧几里得式自适应权重Kasai等人[23]提出了针对不同坐标调整梯度的行和列子空间。与现有的工作[5，23，24，25，31，38，46]相比，优化器都是手工设计的，我们引入了一种元学习方法来自动设计SPD优化器。此外，我们的优化器是特定于任务的，可以有效地利用底层数据分布，以数据驱动的方式学习更好的优化轨迹。2.2. 学习来优化学习优化在学习理论方面有着悠久的历史，可以追溯到Schmid- huber [39]的开创性工作，该工作提出了具有修改自身权重能力的网络。Bengio等人[4]引入了用于参数的学习更新规则以避免反向传播。Andrychowicz 等人 [2] ， Ravi and Larochelle [36] ，Wichrowskaet al.[43]和Rusuet al.[37]利用递归模型作为优化器，并通过梯度信息训练优化器。此外，Belloetal. [3]Li和Malik [28]利用强化学习来学习递归模型进行优化。不幸的是，所有这些开创性的方法都不能应用于有约束的优化问题.最近，谢等。[45]提出了一种可微线性化ADMM方法来学习解决线性约束问题尽管如此，已发展的ADMM仍然局限于欧氏空间. 相比之下，我们专注于学习优化非线性空间，特别是SPD流形。3. 预赛在介绍我们的方法之前，我们简要回顾了SPD流形上的几何和运算。请注意，在本文中，向量用粗体小写字母表示（例如，x），并且矩阵由粗体大写字母表示（例如，M）。我们使用Id和0d来分别表示d×d单位矩阵和元素均为“0”的d×d矩阵SPD歧管。SPD流形Sd由所有d×dSPD矩阵组成：计算负荷。RSGD被广泛用于SPD流形，尽管存在方差问题[46]，并且RSGD的学习率对所有坐标都是平等的。d={M∈Rd×d：M=M∈，x<$Mx>0，<$x∈Rd\{0d}}，（一）为了解决梯度方差问题，Royet al.[25] Uti-其中，x是矩阵转置运算，x是任何非采用动量法并设计了优化器零矢量对于SPD流形Sd上的点M，其S7702++++++++++M→S. M=Γ（吨）MM++.MM++MMM（m）=M2expmM22 M2++M切空间由TMSd表示.切空间是一个包含所有相切向量的欧几里得空间至Sd在麻省矩阵对数函数。给定SPD矩阵M∈D ，矩阵对数函数logm（M）：Sd→sym（d）是logm（M）=Ulog（M）Ulog，（2）其中sym（d）表示d × d对称矩阵空间。 U U= M是特征值分解，是对角特征值矩阵，U是特征向量矩阵，log（）表示对的对角元素的对数运算。矩阵指数函数给定一个对称矩阵N∈sym（d），矩阵指数函数expm（N）：图1. SPD阀组优化设计实例。黑色虚线表示测地线。绿色实线、蓝色实线、紫色实线和红色实线分别表示任意梯度、切空间上的黎曼梯度、先前的优化状态和更新向量。红色曲线表示回缩，绿色虚线表示正交投影。sym（d）→Sd计算方法是目标（例如，标签）是yi∈Rk。f（·）：Sd×Rd→Rk，expm（N）=Uexp（N）Uexp，（3）l（·）：Rk×Rk++→R+表示预测和目标ive其中U <$U <$= N是特征值分解，exp（n）表示n的对角元素上的指数运算。SPD歧管上的缩回操作。黎曼流形上的收缩是从切空间到具有局部刚性条件的流形上的光滑映射（[1]，4.1节）。在SPD流形上，指数tial map常被用作收缩运算ΓM（·）：函数，M∈Sd封装了优化问题的解决问题（6）是很有挑战性的，因为它是非欧几何的。直接在欧氏空间中使用梯度下降优化器，即M（t+1）=M（t）−η（t）<$（t），（7）其中步长η（t）和ε（t）∈sym（d）是D d+++，由M关于M的损失函数L（吨）（按时间1.-1M−11（四）t），将不符合歧管结构。为了缓解这个问题，梯度下降优化器，其中R∈Rd×d是切空间上的一个点，[31]认为黎曼设置是由公式化的切空间在M处。SPD流形上的正交投影。黎曼流形上的正交投影将点M处的任意梯度变换为（t+1）MP（t）=η（t）π（t）（−P（t））（吨）、（8）在切空间上在SPD流形上，其中P（t）是切空间上的更新向量。投影πM（·）：Rd×d→TMSd限定πM（t）（·）和ΓM（t）（·）是正交投影，牵引操作员，分别。黎曼梯度πM（πM）=M12M +中国，（5）（吨）πM（t）（π ）是切空间上的搜索方向。的其中M∈ Sd，且<$M∈Rd×d是一个任意梯度连接Eq.（8）Eq.（7）可以通过观察t）收缩运算Γ（t）（P（t））等价于在M点。M（t）−P（t）和正交投影πM（t）（t）是4. 学习SPD流形上的优化器4.1. 优化框架通常，具有SPD约束的优化问题可以用公式表示为最小化损耗n切线空间SPD歧管SSTM7703MMn我我M实际上是欧几里得空间中的恒等映射。更高级的作品[25，38，46]额外考虑了先前的更新向量P（t-1）来计算更新向量P（t ），这可以加速收敛。例如，在使用动量的方法中[25]，P（t）由下式计算：L（M），1微升。f（M，x），y≠ 0，P（t）=η（t）π（τ（t））+γ（t）τ（P（t−1）），（9）i=1对于M，即min∈Sd++ L（M）。由方程式（6）、其中γ（t）是权衡超参数。由方程式在等式（9）中，更新向量P（t）是通过将当前梯度与更新向量P（t）相加来确定的。xi∈Rd是第i个训练样本，以及其对应的ent（t）和前一个更新向量P（t−1），其中一个（六）M（t）M（t−1）→M（t）7704++++++++MF（t）（t）=σ（Wf1XWf1+Wf2H=wlHll llMO2需要求助于SPD上复杂的并行传输流形：τM（t−1）→M（吨）：TM（t−1）Sd→ TM （t）Sd[1]的文件。该操作涉及先前的更新向量P（t-1）从前一个切空间TM（t−1）Sd到曲线，租切空间TM（t）Sd. 我们强调，计算P（t）是任务无关和数据不可知的。在本文中，我们提出了一种元学习方法来自动设计优化器。特别地，我们建议利用神经网络来学习P（t）的非线性函数，该函数同时考虑当前梯度和先前的优化状态。也就是说，P（t）=gφ（φ（t），S（t−1））。（十）图2.矩阵LSTM的架构。这里，φ是网络的参数，状态S（t-1）传达了关于先前优化的信息。优化框架如图1所示。下面，我们将详细介绍我们的优化器及其训练过程。4.2. 我们的SPD优化器几种方法已经表明，LSTM能够学习在欧几里得空间中进行优化[2，36]。然而，这些方法不能直接应用于SPD的人工智能.SPD参数的矩阵是对称矩阵。传统的LSTM将梯度平坦化为向量，这不可避免地破坏了对称矩阵的结构在优化过程中，首先要考虑梯度矩阵的对称性.此外，在SPD流形上实现像两个梯度矩阵的加法这样的算术运算需要比在欧几里得空间中更复杂的形式，并且应该忠实于流形的几何。矩阵LSTM。我们提出了一个矩阵LSTM（mLSTM）模型来保持梯度矩阵的对称性。特别地，我们期望映射一个对称矩阵就是记忆细胞 F（t）、I（t）和O（t）分别是for-get门、输入门和输出门. Wf1，W f2，W i1，W i2，W o1，W o2，W c1，W c2∈Rd×d是mLSTM的参数，统称为γ=[Wf1 ，Wf2 ，Wi1 ，Wi2 ，Wo1 ，Wo2 ，Wc1]。 σ（·）是sigmoid函数，tanh（·）是双曲正切函数，而σ（·）是Hadamard 乘积。为了方便起见，mLSTM被简化为C（t），H（t）=mLSTM（X（t），S（t−1）），（12）其中S（t−1）=[C（t−1），H （t−1）]是mLSTM的状态mLSTM的架构如图2所示优化器架构。我们的优化器首先在gφ（·，·）中计算步长η（t）和搜索方向T（t），然后进行正交投影和收缩，以获得下一个解决方案，即，SPD矩阵。具体来说，我们采用了两个mLSTM模型，即. ，mLSTM_l和mLSTM_s，以计算η⑴和T⑴。我们根据经验观察到，使用跳跃连接来拟合最优搜索方向和输入梯度之间的残差有助于整体设计，这是我们对优化器的建议。我们的优化器通过以下方式更新SPD参数变成另一个对称的为此，双线性亲-在mLSTM中使用了一种对称的形式，具有可训练参数W的WXW。双线性亲-。M（t+1）=ΓM（t）Σ- P（t）、（十三）P（t）=g（n（t），S（t−1））=η（t）T（t）喷射不仅需要更少的参数，强大的性能[16]。我们的mLSTM公式化为φM哪里.总重量（t）我（t）n（t−1）η（t）ω（t）=σ（W<$X（t）Wi1+WH（t−1）I2Wi2）、，（14）C（t），H（t）= mLSTM（n（t），S（t−1））联系=πM（t）（Hs′）O（t）=σ（W<$X（t）Wo1+W<$H（t−1）Woh）C1C1C2C2（t）（t）′SSMSC+W<$H（t−1）W）H（t）mLSTMWf2）Lo1S（（吨）（吨）（t−1）I17705LS⊤=W（H+H）W，（15）<$C（t）=F（t）<$C（t−1）+I（t）<$C<$（t）H=O不丹（C）Cs，Hs= mLSTMs（M，S）总重量（t）（吨）（吨）S（t-1） =S（t−1）<$S（t−1）是以前的选择，（十一）其中X（t）∈sym（d）是mLSTM的输入，H（t）∈包含先前优化信息的优化状态第S（t−1）=[C（t−1），H（t−1）]是mLSTM的状态，l l llsym（d）是mLSTM的隐藏状态，C（t）∈sym（d）且S（t−1）=[C（t−1），H（t−1）]是mLSTMs的状态。s s s7706QQ.Σ吨∂φ.，如果i/=j.Σ简体中文=Q2（十七）ΣMj jj=1⊤图3.我们优化器的架构11−1−1M（t）2 = U 2 U且M（t）2 = U 2 U。我们-−1 −1注意Q = −M（t）2 P（t）M（t）2，并将特征值分解应用于 Q = UQ<$QU<$ 。矩阵指数可以通过expmQ=UQexp（Q）U计算。因此，我们可以重写Eq.（13）作为UΣU⊤=M(t)M(t+1).1个小时。Uexp（好吧1⊤Σ）UUUWS∈Rd×d和WL∈Rd是参数。优化器的可学习参数φ是φ={γl，γs，wl，Ws}，其中γl和γs是mLSTMl和mLSTMs的参数，由方程式（17），我们只需要在特征值分解中求导这个导数在[20]中已经研究过，如命题1所示。Thus，g ivenJ，我们可以分别优化器的体系结构如M（t+1）图3. 我们的优化器可以利用以前的优化-计算 JJ吨. 最后，第四节是关于可以并保证SPD歧管上的新参数。与考虑先前更新向量的优化器[25，38，46]相比，我们的优化器不涉及复杂的并行传输操作。用链式法则计算。1.提案设U∈U∈=M是M的特征值分解. 对于损失函数J（U，n），给定导数J和J，导数J是4.3. 培训J.=2U RMU中文（简体）∂Σ⊤∂J +UJiangJiangUU）UM J+U（∂Σ ）diagU，在元学习过程中，有两个优化循环，如图4所示在内部循环中，基础学习器由我们的优化器优化，而φ在外部循环中更新我们的方法区分了内部循环中的优化过程，并利用截断的返回-哪里Rij=1λi−λj，0，如果i=j（十八）通过时间传播算法来最小化基本学习器的目标。我们考虑一次内循环中的T个连续步骤，学习φ的元目标由下式给出：λi是第i个本征值，Xdiag表示X，所有偏离-对角线元素为0。培训战略。我们的优化器的训练要求数据是独立和相同分布的。怎么-最小J（φ）=1ΣTΣm L（M（t+1））然而，SPD参数和在内环中获得的优化状态是强相关的。我们使用φmtjtm.ΣΣ经验重放方案[30]来解决这个问题。具体来说，我们将优化器1=l frg（n（t），S（t−1）），x，y，锰吨j，iM（t） φMjjJ我我（十六）进入观察阶段和学习阶段。在在观察阶段，我们使用优化器来优化其中m是外循环中的批量大小（即，，Meta目标涉及m个单独的SPD参数以减少不期望的训练振荡），并且n是基础学习器，并将所获得的SPD参数和优化状态（M（t+1），S（t））推送到经验池中。在学习阶段，对于外部的每一步内部循环。请注意，f（·）和l（·）的形式不同，循环，我们随机选择{（M（t），S（t−1））}m从j j j=1任务由于页面限制，我们已经发布了相关内容。f（·）和l（·）的尾部，用于补充材料中我们的实验中考虑的任务。反向传播在优化器中，P（t）和M（t）在等式的收缩操作Γ （ t）（-P（t））中关于M（t+1）的导数。（13）非平凡的，因为retrac-构成训练数据的经验池在T步之后，我们推送新的SPD参数和优化状态{（M（t+T），S（t+T-1））}m进入体验池计算损失的公式为：（16），并通过反向传播更新φagation。我们为基础设置一个最大优化步长τ勒恩河当t+T>τ时，M（t+T）和S（t+T−1）是re-t。运算包含矩阵幂和指数运算：j j1−1−1−1分别设置为Id和0d我们的培训过程M（t）2，M（t）2和expm-M（t）2 P（t）M（t）2、使得反向传播具有挑战性。为了解决这个问题，我们做了以下观察。考虑特征值分解M（t）=U U 然后，可以通过以下公式计算矩阵幂：2U和JQΣQ⊤UQ=Q=−−1U2U⊤P（t）U−1.U2UQQ⊤7707算法1中总结了优化器。计算复杂性。在我们的方法中，向前和向后的传递主要涉及矩阵乘法，特征值分解和元素操作（例如，Hadamard乘积和激活函数）。7708Mn我J 2是一个给定的SPD投影矩阵，M∈ SdM基学习器优化器缩回缩回缩回损失损失损失损失图4.学习我们的优化器的计算图。对于d×d矩阵，矩阵乘和特征值分解的计算复杂度为O（d3）.对于每个元素的操作，需要O（d2）次触发器。这导致在向前和向后传递中分别产生 O（47d3+30d2+3d）和O（126d3+45d2+3d）触发器。算法1优化器的训练过程输入：随机初始化的优化器参数。初始SPD参数M（0）=Id。初始状态S（0）=0d.56*D<5>5695*<46>565*<24>56* D 0<25>2XUV初始经验池=。输出：优化器参数φ。而未达到观测阶段的最大迭代次数计算损失的基础学习方程。（6）;计算梯度ψ（t）;通过等式更新参数M（t+1）（13）;将{M（t+1），S（t）}推到n中;端而未达到学习阶段的最大迭代次数时，图5.具有不同SPD参数大小的度量接近度任务的图。SPD参数的大小为d×d。评估其在可见和不可见数据上的性能。Our op- timizeris compared with state-of-the-art SPD optimizers: RSGD[5], RSGDM [25], RSVRG [46], and RSRG [24].按照[24，25]中的协议，我们调整hyperparame-所有优化器的最佳性能。从m中随机选择{（M（t），S（t−1））}mJ J当未达到T时，j=15.1.度量接近度计算损失的基础学习方程。（6）;计算梯度ψ（t）;（t+1）我们对度量贴近度进行了实验任务[6]。具体来说，我们的任务目标是L（M）=更新M端由等式（13）;1个10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000S我D++7709j jj=1j jj=1-x<$2，其中x∈Rd是向量，A∈++ 是通过反向传播更新优化器的φ如果t+T > τ，则要解决的参数我们希望M能投射出fea-在度量空间中将Axi还原为原始值其他推{（M（0）=Id，S（0）=0d}m成;我们随机生成xi和A来训练和评估我们的优化器。我们将批大小n设置为256，m设置为128，端端推{（M（t+T），S（t+T−1））}m成;最大优化步长τ为200，学习率为10−3。我们在内部循环中考虑了T=5个优化步骤。我们评估了不同维度的优化器-返回优化器的参数φ5. 实验我们在三个任务上学习SPD优化器，即度量接近、图像聚类和相似性学习任务。受[36]的启发，我们的优化器被初始化为接近RSGD，具有较小的学习率，以帮助训练的初始稳定性我们在给定的任务和数据上学习优化器，M的情况：d = 2和d = 32。我们把损失的对数标图5中的不同优化器。当d=2和d=32时，RSVRG具有不同的性能，表明一旦配置改变，手工设计的优化器可能会执行不同的操作。相比之下，我们的优化器在d=2和d=32上都实现了良好的性能，因为它可以探索底层数据分布，并以数据驱动的方式适应任务。它不仅避免了大量的人为干预，而且具有更好的性能.计算我们的优化器的损失方程。（16）;7710UVUV厄舒茨布夫u2ΣΣv256*D<5>5695*<46>565*<24>56* D0<25>2XUV图6.聚类任务的图我们的优化器在训练集上进行训练，并在训练集和测试集上进行评估M表示中心的数量在测试集上，RSVRG最终收敛于3。54，m = 20和3。02，m=28（对数标度）。我们的优化器不仅可以在给定的数据上实现良好的性能，还可以在看不见的数据上实现良好的性能。56*D<5>5695*<46>565*<24>56* D0<25>2XUV5.3. 相似性学习相似性学习的目的是学习一个马氏度量，通过该度量，相似的样本具有小的距离，而不相似的样本具有大的距离。Mahalanobis度量通常被强制为SPD矩阵。我们...图7. MNIST数据集上相似性学习任务的图。SPD参数的大小为d×d。5.2. 聚类聚类是工程中的一项基本任务。许多视觉表示位于SPD流形上，例如协方差描述符，核矩阵和扩散张量图像（DTI）。因此，执行集群任务和学习中心的SPD形式是必不可少的。我们对Kylberg纹理数据集[26]进行了聚类实验，该数据集有20个主要纹理类别，28个精细分类。在[25]中的预处理之后，我们将图像调整为128×128，并将图像划分为1024个大小为4×4的网格。在每个网格的位置（u，v）处，我们提取了一个5维特征向量，x=1，|I|、|I|、|I2|、|I2|-是的然后，计算5×5协方差描述符来表示图像[19，29，40]。在我们的聚类任务中，我们通过最小化每个中心与属于该聚类的描述符之间的距离来学习中心，其中距离由仿射不变度量（AIM）计算[35]。对20个大类和28个细粒度类进行了实验，它们的批量m分别设为20和28批量n设定为512，τ设定为100。我们假设T=5，并将学习率设置为10−4。我们的优化器在训练集上进行训练，并在训练集和测试集上进行评估。我们在图6中绘制了优化器的对数尺度损失。我们可以发现，无论是在m=20，m=28，训练集，还是测试集上，我们的优化器都能取得很好的性能它收敛得更快，有更好的最优解。这说明在MNIST数据集和CUB数据集上进行了实验[44]，并使用对比损失来学习度量。在MNIST中，手写数字图像的大小为28×28，我们利用主成分分析，将它们减少到128维特征向量。CUB数据集是一个包含200个类别的细粒度图像数据集我们在VGG-16网络中添加了两个全连接层，其输出维度为256和128。然后，我们对VGG-16进行微调，分别从两个全连接层中提取256-D和128-D特征作为图像表示。我们将批量n设置为160，m设置为12个。学习率设定为10- 3。我们采用了斯坦-在两个数据集上进行标准训练和测试。最佳-在训练集上训练Mizer，并在训练集和测试集上评估Mizer。我们将最大优化步数τ设为200，并考虑T=5个优化步数。对不同尺寸的SPD参数进行了实验。我们在图7和图8中绘制了不同优化器的对数尺度损失。很明显，我们的优化器具有更快的收敛速度和更好的最优解。5.4. 消融研究我们对聚类任务进行了消融实验，以评估我们的mLSTM，经验重放方案和优化器中的跳过连接。具体来说，（1）我们用传统的LSTM模型替换了优化器中的mLSTM;（2）去除了经验重放方案，使用序列SPD参数作为训练数据;（3）在优化器中去掉了跳过连接，模型直接学习搜索方向。结果示于图9中。如果没有跳过连接，学习优化器变得困难，并且所获得的优化器不能收敛。传统的LSTM模型771156*D<5>5695*<46>565*<24>56* D0<25>2XUV图8.CUB数据集上相似性学习任务的图SPD参数的大小为d×d。表1.在三个数据集上优化的时间（秒）方法基尔贝里 MNIST幼崽RSGD [5]367 995 74岁980一百五十262RSVRG [46] 四百四十九516一百九十二443203号880[第24话]1248 4151014 940 1226年610RSGDM [25] 389 076 九十770 166. 578我们378 996 七十六。757一百五十四370不带跳过我们表2. SPD参数的性能（%）。图9.集群任务的消融研究。w/o mLSTM意味着用传统的LSTM模型替换我们的mLSTM，w/o pool意味着删除经验重放方案和经验池， w/o skip 表示删除我们优化器中 w/omLSTM最终收敛于二、47和1。39，而我们的收敛于0。16和-0。77（对数标尺）。的梯度矩阵，它破坏了将中心作为类别原型，计算测试样本与原型之间的AIM，对测试样本进行分类。在相似性学习任务中，我们使用度量矩阵计算测试样本和训练样本之间的距离，并通过1-NN类对测试样本进行分类。对称矩阵因此，所获得的优化器速度很慢，最佳状态也不好。经验重放方案稳定了我们的元学习过程，减少了不必要的训练振荡。使用经验重放方案训练的优化器具有更快的收敛速度。5.5. 挂钟时间我们测量了Kylberg、MNIST和CUB数据集的优化时间，如表1所示。在每个数据集上，使用Pytorch在具有Intel （ R ） Core （ TM ） i7- 7820 X CPU 3.6GHz 、GeForce GTX 1080Ti GPU和32 GB RAM的计算机上以相同的迭代步骤测量不同优化器的时间。我们的优化器比RSGDM [25]，RSVRG [46]和RSRG [24]更快不同的我们的优化器和它们之间的区别是计算更新向量P（t）的策略。RSGDM、RSVRG和RSRG利用并行传输来受益于先前的优化结果，其具有耗时的矩阵求逆和矩阵幂运算。相比之下，mLSTM直接与先前的优化状态一起工作，因此避免了昂贵的并行传输。5.6. SPD参数评估我们分别评估了优化器在聚类和相似性学习任务中求解在集群任务中，我们sifier。分类结果见表2。我们可以发现我们的优化器实现了最佳性能。原因可能是我们的优化器可以达到一个更好的最优值，基础学习器可以更好地适应数据。6. 结论在本文中，我们提出了一种元学习方法来学习SPD流形上的优化器自动。所提出的mLSTM可以保持梯度矩阵的对称性，并且我们的优化器可以很容易地在SPD流形上实现算术运算。我们训练优化器以最小化基本学习器的目标，它可以有效地探索底层数据分布并学习良好的优化轨迹。实验结果表明，该算法具有较快的收敛速度和较好的寻优效果。在未来，我们认为我们的方法的理论证明是值得做的，这提供了学习的SPD优化器的收敛性的测试数据的保证。鸣谢。本工作得到了国家自然科学基金项目2005年12月号的部分资助。61702037号和61773062;北京市自然科学基金项目，批准号：L172027。无mLSTM不含池方法RSGD [5] RSVRG [46] [第24话] RSGDM [25] 我们基尔贝里81. 2583岁19七十3182岁9284.37幼崽七十44五十三74六十五53七十15七十977712引用[1] P-A Absil，Robert Mahony，and Rodolphe Sepulchre. 矩阵流形上的优化算法。普林斯顿大学出版社，2009年。[2] Marcin Andrychowicz ， Misha Denil ， Sergio Gomez ，Matthew W Hoffman ， David Pfau ， Tom Schaul ，Brendan Shillingford，and Nando De Freitas.通过梯度下降来学习。神经信息处理系统进展（NeurIPS），第3981- 3989页，2016年[3] Irwan Bello，Barret Zoph，Vijay Vasudevan，and QuocV Le.神经优化器搜索与强化学习。在国际机器学习会议（ICML）的会议上，第459-468页[4] Samy Bengio，Yooney Bengio，and Jocelyn Cloutier.寻找人工神经网络的新学习规则。 Neural ProcessingLetters，2（4）：26[5] 西尔弗·波纳贝尔黎曼流形上的随机梯度下降IEEE自动控制学报（T-AC），58（9）：2217[6] Justin Brickell，Inderjit S Dhillon，Suvrit Sra，and JoelA Tropp. 度量接近问题。 SIAM Journal on Ma-PhaseAnalysis and Applications，30（1）：375[7] Anoop Cherian和Suvrit Sra.黎曼字典学习与正定矩阵稀疏编码。arXiv：1507.02772，2015年。[8] AnoopCherian 、 PanagiotisStanitsas 、 MehrtashHarandi、VassiliosMorellas和NikolaosPapanikolopoulos。学习正定矩阵的判别ab-发散在IEEE计算机视觉国际会议（ICCV）的会议记录中，2017年10月。[9] Melih Engin，Lei Wang，Luping Zhou，and XinwangLiu. Deepkspd：学习基于核矩阵的spd表示，用于细粒度图像识别。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。[10] Pengfei Fang ， Jieming Zhou ， Soumava Kumar Roy ，Lars Petersson，and Mehrtash Harandi.用于人物检索的双线性注意网络。在IEEE国际计算机视觉会议（ICCV）的会议中，2019年10月。[11] Maur i ceFr e'chet.这些自然的元素在一个空间里征服了这个空间.InAnnalesdel'institut Henri Poinca r e '，voleum10，pages 215-310，1948.[12] 高智，吴宇伟，卜兴源，谭宇，袁俊松，贾云德。通过对称正定流形上的深度网络学习鲁棒表示。模式识别（PR），92：1[13] 高智，吴雨薇，梅赫塔什·哈兰迪，贾云德。一种适用于spd流形上基于相似性分类的鲁棒距离测度IEEETransactions on Neural Networks and Learning Systems（T-NNLS），2019年。[14] Zilin Gao，Jiangtao Xie，Qilong Wang，and Peihua Li.全局二阶池卷积网络。在IEEE计算机视觉和模式识别国际会议（CVPR）上，2019年6月。[15] Mehrtash Harandi和Mathieu Salzmann。黎曼编码和字典学习：玉米粒来救场了在IEEE计算机视觉和模式识别会议（CVPR）的会议论文集，第3926-3935页，2015年[16] 梅赫塔什哈兰迪，马修·萨尔茨曼，理查德·哈特利.从歧管到歧管：spd矩阵的几何感知降维。欧洲计算机视觉会议（ECCV），2014年。[17] Sepp Hochreiter，A Steven Younger和Peter R Conwell。学习使用梯度下降。在国际人工神经网络会议（ICANN）的会议记录中，第87-94页[18] Reshad Hosseini和Suvrit Sra. 高斯混合模型的em替代方案：批处理和随机黎曼优化。数学规划，第1[19] Zhiwu Huang，Ruiping Wang，Shiguang Shan，XianqiuLi，and Xilin Chen.对称正定流形上的对数欧几里德度量学习及其在图像集分类中的应用。在国际机器学习会议（ICML）的会议记录中，第720-729页[20] CatalinIonescu ， OrestisVantzos ， andCristianSminchisescu.具有结构化层的深度网络的矩阵反向传播。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第2965-2973页[21] 赫尔曼·卡彻黎曼质心与柔化平滑。《纯粹与应用化学通讯》，30（5）：509[22] Leonid Karlinsky 、 Joseph Shtok 、 Sivan Harary 、 EliSchwartz 、Amit Aides 、Rogerio Feris、Raja Giryes 和Alex M.布朗斯坦。Repmet：基于代表性的度量学习，用于分类和少量目标检测。在IEEE计算机视觉和模式识别国际会议（CVPR）上，2019年6月。[23] Hiroyuki Kasai，Pratik Jawanpuria，and Bamdev Mishra.流形上的黎曼自适应随机梯度算法。第3262-3271页[24] 葛西博之佐藤博之和巴姆德夫·米什拉Rie- mannian随机递归梯度算法。在国际机器学习会议（ICML）的论文集中，第2521-2529页，2018年[25] Soumava Kumar Roy，Zakaria Mhammedi，and MehrtashHarandi.用于深

下载后可阅读完整内容，剩余1页未读，立即下载