神经网络训练的Koopman模式分析及其应用

37 浏览量更新于2023-12-04 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

∈ ⊂∈×→Koopman模式分析在神经网络中的应用Ryan Mohr，1MariaF onoberov a，1Iv a Manojlo vic′，1Aleksandr Andr ejc uk，1Zlatk oDrmac，2YannisKe vr ekidis，3Igor Mezic′，1，41AIMdyn，Inc.，Santa Barbara，CA2University of Zagreb，10000 Zagreb，Croatia3约翰霍普金斯大学，巴尔的摩，MD 212184University of California，Santa Barbara，CA 93106mohrr@aimdyn.com，mfonoberova@aimdyn.com，imanojlovic@aimdyn.com，aleksandr@aimdyn.com，drmac@math.hr，yannisk@jhu.edu，mezici@aimdyn.com摘要我们把神经网络的训练过程看作是一个作用于高维权值空间的动态系统每个历元是由优化算法和损失函数导出的映射的应用。利用这个诱导映射，我们可以将观测量应用到权空间上，并测量它们的演化。观测量的演化由与诱导动力系统相关的Koopman算子给出。我们使用Koopman算子的谱和模式来分析训练过程的收敛性和非收敛性。我们的方法可以帮助确定（1）是否使用了错误的网络权重初始化-特别是，围绕1聚类的特征值的存在如何确定何时终止学习过程-允许在训练之前重新启动太长时间和（2）加快训练时间。此外，我们还表明，基于负Sobolev范数的结构损失函数可以重建被大量噪声污染的多尺度使用这些基于Sobolev的损失函数提高了鲁棒性和可解释性。介绍神经网络的训练是一个非常感兴趣的话题，因为它们在各种应用领域中广泛使用，从图像识别和分类到求解常微分方程和偏微分方程。不幸的是，问题的维度往往阻碍了严格的分析。将神经网络训练视为动态系统（Chang et al. 2017; Dietrich，Thiem，and Kevrekidis2020; Chang et al.2019）为培训的数学方法提供了一个框架我们的目标是向更广泛的社区介绍应用动力系统方法的各种结果，特别是算子理论方法，以深入了解神经网络架构的选择我们认为训练过程是一个作用于高维权重空间的动力系统。每个时代都是版权所有©2021本文由其作者。在知识共享许可署名4.0国际（CC BY 4.0）下使用许可由最优化算法和损失函数导出的映射的一个应用。使用这个诱导映射，我们可以在权重空间上应用可观测量并测量它们的演化。观测量的演化由与诱导动力系统相关的线性算子 Koopman 算子给出。我们使用Koopman算子的频谱和这个观点可以帮助确定我们是否有一个糟糕的网络权重初始化，允许在训练太长时间之前重新启动。此外，我们将基于负Sobolev范数的结构损失函数纳入我们的网络。使用这些新类型的损失函数（1）可以提高网络的可解释性，并且（2）可以在对有噪声的多尺度信号进行训练时允许显著的噪声抑制。本文其余部分的结构如下。在下一节中，我们将神经网络的训练数学地表述为动力系统，并介绍分析动力系统的 Koop-man 算子观点。下面的部分，通过Koopman算子谱的透镜研究训练过程在结论之前的最后一节中，我们应用了受负Sobolev范数启发的损失函数，并展示了在试图重建信号时如何使用它们来显著抑制噪声。神经网络训练作为一个动态系统。设n（x;w），n：XRnRd，是一个神经网络，其中xXRm是输入特征向量，wRn是网络权重（参数）的向量，网络是一个d维实向量。令Ltr（w）是网络在训练集上的损失函数，作为网络参数权重的函数要解决的优化问题是w= arg min Ltr（w）。（一）损失函数Ltr和所选择的优化算法（例如，随机梯度下降）在网络权重上引入非线性离散时间映射，该映射在每个时期更新权重：T：Rn→Rn，wt+1=T（wt），（2）∈F◦∈F→Fn（w）=mλφ+e，（4）tr tk kt||∞FF∈∈∈F--∈ ∈∈其中wt是在时期tN0开始时的网络权重;w0表示在训练之前初始化的网络权重这个诱导映射T是一个离散动力系统，其状态空间为尝试直接分析映射T可能相当困难，因为它在使用的任何训练框架中被实现为黑盒。相反，人们可以通过研究驱动可观测量演化的诱导线性算子的谱特性来跟踪可观测量的演化，从而深入了解动力学系统。设是一个函数空间，它在与T的复合下是闭的;也就是说，如果f，则fT。运营商U：可以通过这个组合Uf=fT来定义。这个手术-算子，称为 Koopman 或复合算子，是线性的（ Mezic'2005），尽管是无限维的，即使T是非线性的。即使它是线性的，它仍然可以捕获T的完全非线性行为。在许多情况下， Koopman 运算器具有谱分解（ Mezic′2005;Budiodic′ ， Mohr 和 Mezic ′ 2012; Mohr 和Mezic ′ 2014; Mezic ′ 2019）观察这两个变量的Koopman谱可以告诉我们系统学习的速度有多快，以及何时出现一个固定点。Koopman模式分解（3）可以写成tkK其中mk是归一化到范数1的库普曼模式，λk是相关联的本征值，φk是重构系数，et是历元t处的误差项。如果所有不等于1的特征值都满足λk1，那么训练是稳定的（Mauroy和Mezic '2016）。< 在这种情况下，最慢的特征值决定了收敛速度.模式的重要性由以下绝对值确定：重构系数，其值越高，模式越重要。对应于重要模式的特征值在单位圆内越远，训练越快。标准MNIST数据集用于测试UF= j=1 cjλjφj+ZdE（z）f，（3）方法.测试的网络是一个卷积网络，有两个卷积层，分别有16个和32个内核，每个层后面都有2×2的最大池。每个内核是5 ×5。其中cjC是系数，λjC是特征值，φj是U的本征函数，dE（z）是投影值测度（PVM）。特征值的集合形成点谱。PVM与U的连续谱相关联;它在复平面上取集合，并将投影算子与它们相关联。我们还可以考虑向量值可观测量f =（f1，. . . ，fm），其中fi.在这种情况下，存在与（3）类似的分解，其唯一的区别在于标量值系数cj变成矢量值系数mjCm。这些向量值系数被称为Koopman模式，最初称为形状模式（Mezic '2005）。数据驱动算法，如动态模式分解算法家族，例如（ Schmid 和 Sesterhenn2008;Row-leyetal.2009;Jovanovic′ ，Schmid，andNichols2012，2014;Hemati， Williams ， and Rowley 2014; Williams ，Kevrekidis ， andRowley2015;Drmac′ ，Mezic′ ，andMohr2018;Drmac′， Mezic′，andMohr2019）用于使用来自单个初始条件的轨迹来近似模式因此，我们不需要显式访问U来分析动力系统。我们在下面的工作中使用DMD_RRR算法（Drm ac，Mez ic′和Mohr2018）。通过Koopman谱深入了解神经网络训练收敛这里的主要思想是，通过在训练过程中监测Koopman算子的频谱，将为我们提供一种方法来确定何时终止训练过程，以便在测试集上提供良好的性能，而无需网络记住该集。有了这个指标，网络就可以更好地泛化。给定所有网络权重wt的轨迹，其中tN是训练时期，我们使用两个不同的可观测值，（交叉熵）损失函数的延迟嵌入版本Ltr（wt）和在每个训练时期t返回网络权重w t的全状态可观测值。在-卷积层之后是全连接层具有100个神经元，然后是另一个具有10个神经元的全连接层，之后是软最大分类。架构如图1所示使用交叉熵损失函数，学习率为η=1e-3。还测试了不同的权重初始化（He或Xavier）。在每个时期之后，记录训练集和测试集上的交叉熵损失以及网络权重。所有网络都训练了1000个历元，并将KMD分析应用于图中指定的3个不同历元范围的快照图1：神经网络架构。图2显示了Xavier初始化方案的结果。左上角的图显示了每个时期在训练集上评估的网络的交叉熵损失。右上图显示了测试集上的交叉熵第二行示出了使用训练集上的交叉熵损失函数作为可观察量的KMD谱。频谱是使用前40个（左），100个（中）和500个（右）可观测快照计算的第三行显示了使用权重向量作为向量值可观测值计算的频谱。频谱是使用前50（左），100（中）和500（右）快照的观察计算。使用DMD_RRR计算光谱。单位圆内的本征值对应于衰减模式，而单位圆外的本征值对应于增长模式。非常接近单位圆的本征值对应于比与更接近零的本征值相关联的模式变化更慢的模式。→2（1+（2π<$2−s，（5）k<$））→→−|−|∈∈ǁ ǁA.联系我们每种初始化方案的训练速度都非常快，在几个时期之后训练误差会大幅下降 HE和Xavier初始化方案似乎过度记忆了训练集，我们认为这增加了测试集上的交叉熵损失。然而，测试集上的最终误差仍然低于测试集上的随机正态方案的最终误差。由于对于所有初始化方案，训练过程非常快，训练集交叉熵大幅下降通过在每一层应用不同尺度s（l）的损失，我们正在实施一个更可解释的网络。注意，对于l = 0，（6）的分母是1，并且通过Parseval恒等式，表达式等价于L2范数。索博列夫损失2.在这里，我们不是在每一层应用（5）的片段，而是仅在最后一层的输出处应用它，fL−1=CL−1zA：特征值在第二行中靠近0聚集，M L−1|2|2图（训练集交叉熵可观察）是有意义的。L（h，fL−1）=L− 1。（1 +（2πk<$2）2）1/2随着更多的快照被用来计算规格-trum，似乎有一些重要的特征值出现了m=1A=0k1=s（A）（七）接近1，这将指示训练接近训练过程的固定点在使用权重向量作为KMD计算的可观察值的图的最后一行中，这种趋势似乎很明显。在50个时期之后，存在聚集在0附近的重要特征值，并且随着拍摄更多快照，出现重要特征值，我们将这两种方法应用于区间[0，2]上的多尺度信号h（x）=x+sin（2πx4）（因此M=1）。在每个点x处，我们将噪声η（x）添加到信号中，该信号根据下式分布：你好。max h（x）− min h（x）<$N（0，1）.（八）围绕1.x∈[0，2]x∈[0，2]在损失函数中使用负Sobolev范数的噪声抑制在这里，我们研究不同的损失函数的性能相比，标准的L2损失时，学习多尺度信号。我们使用的损失函数是受到负指数Sobolev范数的函数形式的启发。对于函数f，h：TdR，其中Td是d维环面（R/ Z）d，阶p=2的Sobolev范数和它们的差的指数s0噪声信号h=h+η用作数据集。图3显示了使用噪声信号进行训练的不同损失函数的性能。左列包含纯L2损失函数的结果，中间列是Sobolev损失1，第三列是Sobolev损失2。从上到下的每一行对应于噪声水平=0。05，0。5和1。0，分别。该网络有9个隐藏层，每个隐藏层包含20个神经元和一个节点输出层。外行人是完全有联系的。可以看出，纯L2损失函数在每个噪声水平下都很差地重建干净信号h，基本上重建信号的平均值的f−hk∈Zd|2|22两个Sobolev损失函数，第一个在重建干净信号方面表现最好，即使在存在大量噪声的。这可能是由于实施了特定其中，f和h分别是f和h的F变换。随着波矢范数k2的增大，f∈（k）项的收缩h∈（k）2与损失尺寸成正比;在小尺度上f和h之间的差异不如在较大/较粗尺度上的差异重要。本文将Sobolev损失函数应用于L层（l = 0，. . . ，L1）以两种方式。令h：RDRM是要学习的函数，并且s：R R是定义尺度的单调递增函数通常我们将使用线性函数s（l）= l或指数函数s（l）= 2A。索博列夫损失1。对于每个隐藏层l，我们定义该层的辅助输出，表示为fA=CAzA，其中zARNl是层l的作用函数，并且CARM× Nl是矩阵。我们为每个辅助输出添加一个损失函数，其形式为为每一层缩放，而不是试图迫使网络试图在最后一层解开尺度对于每个Sobolev损失，使用线性标度函数s（l）=l结论在本文中，我们提出了使用Koop- man算子来分析神经网络方面的结果为了做到这一点，我们将训练过程视为权重的动态系统。特别是，我们使用Koopman算子的频谱来分析训练过程，并确定何时终止训练和重新开始。我们还引入了基于负Sobolev范数的结构化损失函数，当在嘈杂的多尺度信号上训练时，该函数允许显着的噪声抑制。确认这项工作得到了DARPA的部分支持，M. h（m）（k）−f（m）（k）。区域HR 0011 -18-9-0033和AFOSR合同FA 9550 -17-L（h，f）=0.、（六）C-0012A Am=1k1=s（A）（1 +（2πk<$2）2）1/2引用对于L1，. . . 其中h∈（m）是h=（h（1），. . .，h（M））。2Budišic'，M.; Moh r，R.; 和Mezi c'，I. 2012年。实用科普曼主义。混沌22（4）：047510。图2：使用Xavier初始化方案训练网络1的 KMD分析。（第一行左）网络在训练集上的交叉熵损失。（第一行右）测试集上的交叉熵损失（第2行）使用训练集上的交叉熵作为可观察值的KMD特征值左：40个时期后计算中间：100个时期。右：500个时期。（第3行）在训练期间使用权重向量作为可观察值的KMD特征值。左：50个时期后计算。中间：100个时期。右：500个时期。--图3：重建被噪声污染的多尺度信号（左栏）纯L2损失函数.（中间栏）索博列夫损失1。（右栏）索博列夫损失2。从上到下的每一行对应于噪声水平= 0。05，0。5和1。0，分别。带噪信号h被用作数据集，目的是重建干净信号h。在{h（x）}上使用的75/25 w的列车/试验分配。图4：重建被噪声污染的多尺度信号（在等式中λ =1）（八））。带噪信号h=h+ηw用作数据集，目的是重建干净信号h。在h（x）上使用的75/25 w的串/测试分割。Sobolev1和2如上所述。Sobolev1+ 2是指Sobolev 1方法和Sobolev 2方法均适用。很明显，Sobolev 1方法给出了最佳性能当使用= 0时，同样的趋势继续。05和0.5。张，B.;陈，M.; Haber，E.;和Chi，E. H. 2019.反递归RNN：递归神经网络的动态系统视图。arXiv.org. arXiv：1902.09689（stat.ML）。张，B.;孟湖; Haber，E.; Tung，F.;和Begert，D. 2017.从动态系统观点看多层剩余网络。 arXiv.org. arXiv：1710.10348（stat.ML）。Dietrich，F.; Thiem，T. N.的;和Kevrekidis，I. G. 2020. 对算法中的库普曼算子SIAM Journal on Applied DynamicalSystems19（2）：860-885. doi：10.1137/19M1277059。网址https://doi.org/10.1137/19M1277059。Drmac. ， Z.;Mez ic' ， I.;和 Moh r ， R. 2018 年DataDrivenModalDecompositions：AnalysisandEnhancements. SIAM Journal on Scientific Computing40（4）：A2253-A2285.Drmac.，Z.; Mez ic'，I.; 和Moh r，R. 2019年。通过DFT的范德蒙-柯西形式的Koopman谱分析SIAM Journal onScientific Computing41 （ 5 ）： A3118-A3151. doi ：10.1137/18M1227688。网址https://doi.org/10.1137/18M1227688。Hemati，M. S.的;威廉姆斯，M。的O.;和Rowley，C. W.2014. 大型数据流的动态模式分解 . Physics of Fluids26（11）：111701.我会的，先生。的R.; Schmid，P. J.道：Nichols，J. W.2012年。低秩稀疏动态模式分解。湍流研究中心，年度研究简报139-152。我会的，先生。的R.; Schmid，P. J.道：Nichols，J. W.2014年。稀疏促进动态模式分解。Physics of Fluids26（2）：024103.Maur oy，A.; 和Mezi c'，I. 2016年。利用Koopman算子的特征函数进行全局稳定性分析IEEE Transactions onAutomatic Control61（11）：3356梅兹岛2005年动力系统的谱性质、模型降阶与分解。非线性动力学41：309梅兹岛2019年。Koopman算子的谱，函数空间中的谱展开和状态空间几何。非线性科学杂志1-55。Moh r，R.; 和Mezi c'，I. 2014年。用Laplace算子构造标量型算子的本征函数，并与 Koopman 算子相联系arXiv.org1-25.罗维埃，C。 W的; Mezi c′，I.; Bagheri，S.; Schlatter，P.; 和Henningson，D. S. 2009.非线性流的谱分析。流体力学杂志641：115Schmid，P.J.道：和Sesterhenn，J.2008年数值和实验数据的动态模态分解。美国物理学会流体动力学分会第六十一届年会.美国德克萨斯州圣安东尼奥威廉姆斯，M。的O.; 凯夫雷基季斯岛G.地; 和Rowley，C.W. 2015 年。 Koopman 算子的非线性科学杂志 25（6）：1307

下载后可阅读完整内容，剩余1页未读，立即下载