学习物理引导神经网络解决特征值问题的竞争物理损失方法

94 浏览量更新于2023-12-04 收藏 1.02MB PDF 举报

神经网络

学习方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

具有竞争物理损失的学习物理引导神经网络：解决特征值问题[StarCount*] ChaoyangRoad，Chaoyang Road1弗吉尼亚理工大学计算机科学系2宾汉姆顿大学物理系，3马萨诸塞大学洛厄尔分校物理与应用物理系*平等贡献，{elhamod，jayroxis，karpatne}@ vt.edu，{csingh5，mredell1，wlee}@ binghamton.edu，{abantika，viktor podolskiy}@uml.edu摘要物理引导神经网络（PGNNs）的现有工作已经证明了在神经网络目标中添加单个PG损失函数的有效性，使用恒定的权衡参数，以确保更好的泛化能力。然而，在存在具有竞争梯度方向的多个物理损失函数的情况下，需要在训练过程中自适应地调整竞争PG损失函数的贡献以达到可推广的解。我们证明了竞争PG损失的存在下，在通用神经网络的问题，解决最低（或最高）的特征向量的物理为基础的特征值方程，常见的许多科学问题。我们提出了一种新的方法来处理竞争PG损失，并证明其有效性，在两个激励应用量子力学和电磁传播的学习可推广的解决方案。1介绍随着深度学习方法在不同科学学科中的影响越来越大（Karzeller 2017; Graham- Rowe et al. 2008），科学界越来越意识到利用人工神经网络（ANN）的力量，而不忽视在几个科学问题中以物理知识形式在这个方向上有希望的研究方向之一是通过添加损失函数来修改神经网络的目标函数，这些损失函数用物理方程来衡量ANN输出的违规行为，称为物理指导（PG）损失函数（Karpatne et al. 2017 b; Stewart and Ermon 2017）。通过将ANN模型锚定为与物理学一致，PG损失函数已被证明即使在几个科学问题的训练数据缺乏的情况下也具有泛化能力（Jia et al.2019; Karpatne et al.2017 c;Raissi，Perdikaris和Karniadakis 2019; de Bezenac，Pajot和Gallinari 2019）。我们将使用PG损失函数训练的一类神经网络称为物理引导神经网络（PGNNs）。版权所有© 2021本文由其作者。根据知识共享许可协议署名4.0国际（CC BY 4.0）允许使用虽然PGNN中的一些现有工作试图通过仅最小化PG损失来学习神经网络（因此是无标签的）（Raissi，Perdikaris和Karniadakis 2019; Stewart和Ermon 2017），但其他人使用适当的权衡超参数来使用PG损失和数据标签损失（Karpatne et al. 2017 c; Jia et al. 2019）。然而，更具有挑战性的是，当存在具有竞争PG损失函数的多个物理方程需要一起最小化时，其中每个PG损失可能显示多个局部最小值。在这种情况下，在具有恒定权衡超参数的目标函数中简单添加PG损失可能导致学习不可推广的解决方案。这似乎是违反直觉的，因为在PGNN文献中，通常假设增加PG损失可提供普遍性（ Karpatne 等人， 2017 c; de Bezenac 、 Pajot 和Gallinari，2019; Shin、Darbon和Karniadakis，2020）。这促使我们提出一个问题：是否有可能在神经网络学习的不同阶段自适应地平衡竞争PG损失函数的重要性，以获得可推广的解决方案？在这项工作中，我们介绍了一个新的框架Co-Phy-PGNN，这是一个缩写的CompetingPhysics-Guided神经网络，处理竞争PG损失函数在神经网络训练。我们特别考虑物理知识表示为特征值方程的科学问题的域，我们需要解决最高或最低的特征值解。这种表述在许多物理学中是通用的，例如量子力学领域的薛定谔方程在这些应用中，使用精确数值技术（例如，对角化方法）在计算上是昂贵的，尤其是对于大型物理系统。另一方面，PGNN模型，一旦训练，可以应用于测试sce- narios预测他们的本征解在大大减少运行时间。我们经验性地证明了我们的CoPhy-PGNN解决方案在量子力学和电磁传播两个不同应用中的有效性，突出了我们提出的方法对许多物理问题的普遍性。i=1zzU|| ||我i=1M222背景2.1物理问题概述：该问题的物理性质可以以如下形式的特征值方程的形式获得：A_y=b_y，其中，对于g_i_en输入矩阵A_y，b是特征值，y是相应的特征值。响应特征向量我们感兴趣的是在我们的目标问题中求解这个方程的最低或最高特征解。在这里，我们提供了两个目标应用程序的简要概述.量子力学：在这个应用程序中，目标是预测具有n=4个粒子的伊辛链模型的基态波函数。这个问题可以用由薛定谔方程H=E，其中E，第二类方法将PG损失作为目标函数中的附加项与标签损失一起合并，使用恒定的权衡超参数。这包括基本物理引导神经网络（PGNNs）的工作（Karpatne etal. 2017 c; Jia et al. 2019），用于湖泊温度建模的目标应用。我们在实验中使用这种基本PGNN的类似物作为基线。虽然最近的一些工作已经研究了PG损失对泛化性能的影响（Shin，Darbon和Karniadakis 2020）以及规范化对应于PG损失项的超参数尺度的重要性（Wang，Teng和Perdikaris 2020），但他们没有研究竞争物理损失的影响，这是本文的重点我们的工作涉及多任务学习（MTL）（Caruana 1993）领域，作为物理学的最小化ergylevel是特征值;wave函数是特征向量，和H，哈密顿量，是矩阵。由于基态波函数对应于最低能级，我们感兴趣的是找到这个本征值方程的最低本征解。为了能够执行详细的分析，我们为该应用程序选择了一个小问题规模（n = 4）。电磁传播：为了说明我们的模型的描述丢失和标签丢失可以被视为多个共享任务。例如，MTL中的交替最小化技术（Kang、Grauman和Sha 2011）可用于在不同小批次中交替最小化不同PG损失和标签损失项。我们认为这是我们实验中的基线方法。3方法3.1问题陈述：从ML的角度来看，我们给出了一个训练对的集合DTr：={Ai，（yi，bi）}N，其中（yi，bi）是基因r。这种传播可以归结为本征值问题A→hm=km→h其中，km，由对角化求解器计算我们考虑问题的学习一个ANN模型，（y，b）=fNN（A，θ），它可以预dict（y，b），对于一个ny输入矩阵A，其中θ是可学习的沿层的电磁模式，是本征值;和→hm，空间的F变换的系数电磁场的初始轮廓是本征向量。它我们还给出了一组未标记的e个例子，D：={A}M，这将用于测试。对于该应用，重要的是要注意，是复值的，我们感兴趣的是最大的特征值，而不是最小的。2.2 PGNN中的相关工作PGNN已在包括流体动力学在内的多个学科中获得成功应用（ Wang ， Wu ， and Xiao 2017 ， 2016; Wang etal.2017），气候科学（de Bezenac，Pa- jot和Gallinari2019）和湖泊建模（Karpatne等人，2017 c; Jia等人，2019; Daw等人，2020）。然而，据我们所知，PGNN公式还没有被探索用于我们在量子力学和电磁传播领域中求解本征PGNN的现有工作大致可分为两类。第一类涉及无标记学习，只最大限度地减少PG损失，不使用任何标记数据。例如，物理信息神经网络（PINN）及其变体（Raissi，Perdikaris和Karniadakis 2019，2017 a，b）最近已经开发出来。我们考虑一个简单的前馈结构的f神经网络，我们所有的配方。3.2设计物理指导的损失函数：学习f NN的一种简单方法是最小化训练集上预测的均方误差和（MSE），称为Train-MSE。然而，我们不是仅仅依赖Train-MSE，而是考虑以下PG损失项来指导fNN学习到可推广的解决方案：特征损失：我们在预测中要满足的一个基本方程，（y，b），对于一个ny输入A，是本征值方程，Ay=by。因此，我们考虑最小化以下等式：Σ||Aiyi−biyi||2我你好，通过单独最小化PG损失函数来求解偏微分方程，例如Burger由于这些方法是无标记的，它们不探索PG损失和标记损失之间的相互作用我们考虑将PINN的类似物用于我们的目标应用作为我们实验中的基线其中分母项确保y∈R位于单位h型r-球面上， y=1，因此避免了缩放问题。注意，通过构造，C-Loss仅取决于fNN的预测，而不依赖于真实标签（y，b）。因此，即使在未标记的测试数据DU上也可以评估C-损失。C-损失（θ）：=、（1）∈D−DDD我一期+1我我频谱损失：注意，有许多不感兴趣的冷启动λC：我们进行的第二个观察是关于Ay=by的解，可能出现C-损失对梯度下降法收敛性的影响在C-Loss的优化领域例如，对于每个输入AiU，有d个可能的本征解（其中d是y的长度），每个本征解将导致C-损失=0的完美低值，因此充当局部最小值。然而，我们只对每个A i的特定特征值感兴趣-通常是最小或最大的。因此，我们考虑最小化另一个PG损失项，以确保每个样本的预测可预测性是期望的。在量子力学应用的情况下，我们使用以下损失来找到最小的本征解：走向一个普遍的解决方案。请注意，C-损失遭受大量的局部极小值，因此是不可能的，有利于学习非推广的解决方案。因此，在开始的时期，重要的是要保持C-损失关闭。一旦我们已经跨越了足够多的时期，并且已经放大到参数空间中靠近可推广解的区域，我们就可以安全地打开C-损失，这样它就可以帮助改进θ以收敛到可推广解。基本上，我们“冷启动”λC由以下程序给出：S-损失（θ）：=exp我.阿比河（二）λC（t）=λC0×sigmoid（αC×（t-Ta）），（4）其中，λC0是表示在足够数量的时期之后λC的常数值的超参数，αC是超参数，exp函数的使用确保了E-Loss总是正的，即使当预测的本征值为负时（这是所有能态的情况，尤其是基态）。至于电磁传播应用，我们简单地通过用Re（i），其中Ree提取复特征值的实部由于在这两种情况下，exp函数都适用于负量，因此S-Loss具有平滑变化的梯度。3.3PG损失权重的自适应调整：将PG损失项并入f NN的学习目标中的简单策略是分别针对C -损失和S -损失使用权衡权重参数λC和λS将它们添加到Train-MSE。传统上，这种权衡权重在梯度下降的所有时期内保持恒定为某个值这内在地假设PG损失项在引导fNN学习到可生成的解决方案中的重要性在梯度下降的所有阶段（或时期）中是恒定的，并且它们彼此一致。然而，在实践中，我们根据经验发现，C-损失，S-损失和Train-MSE相互竞争，并在ANN学习的不同阶段（或时期）具有不同的重要性。因此，我们考虑以下自适应调整C-损失和S-损失的权衡权重的方式，λC和λS作为历元数t的函数。参数，其指示S形函数的增长速率，并且T a是超参数，其控制在λC从0的冷启动被激活之后的时期的截止数量总体学习目标：结合上述设计和结合PG损失函数的所有创新，我们考虑以下总体学习目标：E（t）=列车损失+λC（t）C-损失+λS（t）S-损失请注意，Train-Loss仅在Tr上计算，而PG损失项C-Loss和S-Loss在Tr以及未标记样本集U上计算。我们将我们提出的使用上述学习目标训练的模型称为CoPhy-PGNN，它是计算物理学PGNN。4评估设置量子物理学数据：我们考虑了n=4自旋系统的伊辛链模型，在两个控制参数Bx和Bz的不同影响下，预测了它们的基态波函数，这两个控制参数表示沿X轴（平行于X轴）的外部磁场Ising链的方向）和Z轴（垂直于Ising链的方向）。然后，这些系统的哈密顿矩阵H被给出为：退火λS：我们的第一个观察结果是S-n−1n−1n−1损失在学习的初始阶段起着关键作用在开始的几个时期中具有大的λS值，H=−<$σzσz−Bx<$σx−Bz<$σz，（5）i=0i=0i=0从而有助于避免选择局部最小值和非局部最小值。趋向于一个可推广解决方案。所以我们其中σx，y，z是Pauli算子，环边界条件为：条件是强加的。注意，H的大小为d=2n=16。考虑执行λS的模拟退火，该模拟退火在开始时期中呈现高值，缓慢衰减我们将Bz设为0.01，以打破基态de-在足够多的时期之后变为0具体来说，我们考虑以下λ S的退火过程：λS（t）=λS0×（1−αS）[t/T<$，（3）其中，λS0是表示λS在历元0处的起始值的超参数，αS1是控制退火速率的超参数，并且T是缩放超参数。<一般性，而Bx是从均匀分布中采样的从区间[0，2]。注意，当Bx1时，系统被称为处于铁磁相，因为所有的自旋都倾向于向上或向下。<然而，当Bx> 1时，系统过渡到顺磁相，其中向上和向下自旋都是同样可能的。因为基态波函数在两种ΣD--×|D|D区域，系统实际上表现出不同的物理特性。因此，为了在训练和测试分布不同时测试ANN模型的泛化能力，我们仅从铁磁相Bx<0. 5、测试数据为从更宽的范围0 0。5.我们直接测试ANN模型在其训练的数据分布之外进行泛化的能力。显然，所有标签感知模型在Bx[0，0.5]。然而，除CoPhy-PGNN外，所有基线模型在该区间外均显著退化，证明其缺乏通用性。此外，无标记的CoPhy-PGNN（无标记）模型是高度不稳定的，并且在整个系统中表现不佳。轴的坐标值没有单位。此外，模型解决方案由蓝点表示可以看出，所有标签感知模型都在Train-MSE景观中找到了最小值。然而，当绘制测试MSE损失表面时，很明显，虽然CoPhy-PGNN模型仍然处于最小值，但其他基线模型则不是。这是一个强有力的迹象，表明使用PG损失与未标记数据可以导致更好的外推;它允许模型一般化超出分布数据。我们可以看到，在没有使用标签的情况下，CoPhy-PGNN（无标签）无法达到Test-MSE的良好最小值，即使它达到了PG损失的最小值。5.2电磁传播应用：对于该应用，A型的大小为401401，使其成为一个艰巨的任务，为特征值求解器在计算时间方面。因此，ANN模型的网格搜索超参数调整是非常昂贵的。这是由于需要大量的时期来优化模型，这种规模的问题尽管如此，我们仍然能够通过手动调整CoPhy-PGNN的超参数和架构来优化模型，以在验证集上产生可接受的结果。然而，我们强调，更详尽的调优可能会导致更好的结果，超过我们获得的结果图3显示，在介电常数大于1000的测试场景中，CoPhy-PGNN仍然能够比黑盒NN更好地外推。1.事实上，我们已经观察到，由于黑盒NN仅优化Train-MSE，其余弦相似性度量取决于测试集。这与CoPhy-PGNN保持接近1的余弦相似性的能力形成对比虽然训练我们的模型仍然需要大量的时间（大约12小时），但它在测试速度方面的有效性在表2中得到了证明我们可以看到，我们的方法是至少一个数量级的速度比任何数值特征解。这突出了使用神经网络解决基于物理的特征值问题的前景，因为一旦经过训练，它们可以比数值方法更快地在测试点上产生特征值解。此外，虽然CoPhy-PGNN显示出比数值求解器更高的误差，但请注意，我们的模型预测与地面实况的余弦相似性接近于0。8，从而承认物理可用性。6结论和今后的工作这项工作提出了新的策略来解决PGNN中竞争物理损失函数对于求解特征值方程的一般问题，我们设计了余弦相似度NN/Train-MSECoPhy-PGNN（仅-DTr）/Train-MSECoPhy-PGNN（无标记）/Train-MSECoPhy-PGNN/Train-MSE210−1−2−2 020。021 00。01−22 −2020。021 00。01−22 −2020。021 00。01−22 −200。020。012NN/测试-MSECoPhy-PGNN（仅-DTr）/Test-MSECoPhy-PGNN（无标签）/Test-MSECoPhy-PGNN/Test-MSE210−1−2−2 00。152 10。1000。05−1−22 −200。152 10。1000。05−1−22 −200。152 10。1000。05−1−22 −200。150。100。052NN /PG损失CoPhy-PGNN（仅-DTr）/PG损失CoPhy-PGNN（无标记）/PG损失CoPhy-PGNN/PG-损失210−1−2−2 00。2020。1510。1000。05−1−22 −200。2020。1510。1000。05−1−22 −200。2020。1510。1000。05−1−22 −200。200。150。100。052图2：CoPhy-PGNN和不同基线模型之间的综合比较。第1列和第2列显示，如果不使用未标记的数据，模型不能很好地泛化。另一方面，第3列显示，如果没有标记数据，模型无法达到良好的最小值。只有最后一列，即我们提出的模型，在标记和未标记的数据中显示出良好的拟合。性能最佳的模型也是最优化PG损失的模型0。80。60。40。20。0-0。2NNCoPhy-PGNN1 4 9 16第一层PGNN模型CoPhy-PGNN，并在量子力学和电磁传播的两个目标应用中证明了其有效性。从我们的结果中，我们发现：1）PG损失有助于外推，并使模型具有更好的通用性;2）使用标记数据和PG损失导致更稳定的PGNN模型。此外，我们可视化了损失情况，以更好地理解标记数据损失和PG损失的组合如何导致更好的泛化性能。我们还证明了我们的CoPhy-PGNN的推广到具有不同类型的物理损耗函数的多个应用领域图3：CoPhy-PGNN与黑盒NN在电磁传播应用中的余弦相似性.虚线表示用于训练（左）和测试（右）的间隔之间的边界。求解平均时间（秒）一个动词|Ay−by|CoPhy-PGNN0. 04301. 878 ×10293 . hello，hello7437. 714 ×10−6Matlab0. 1968. 747 ×10−12torch.eig16. 5656. 821 ×10−13科学家linalg.eig106. 2237. 538 ×10−4scipy.sparse.linalg.eigs 8. 8934. 418 ×10−3表2：CoPhy-PGNN和其他数值特征值求解器之间的速度和精度比较注意，Matlab计算感兴趣的特征值（即，最大的），而其他特征值求解器，除了我们提出的方法，计算给定矩阵的所有特征值。这就解释了为什么Matlab的执行速度相对较快。以及它对大型系统的可扩展性未来的工作可以集中在减少我们模型的训练时间，以便执行广泛的超参数调整，以达到更好的全局最小值。最后，虽然这项工作经验证明了CoPhy-PGNN在与计算PG损失条款作斗争方面的价值，但未来的工作可以集中在我们方法的理论分析上。引用Zerzeller，T. 2017. 科学家的学徒。科学357（6346）：16Bernardi，M. D. 2019.损失景观。URL https：//github.com/marcellodebernardi/loss-landscapes/.卡鲁阿纳河1993.多任务学习：归纳偏差的知识基础来源。第十届国际机器学习国际会议集，ICML'93，41-48。美国加利福尼亚州旧金山：摩根考夫曼出版公司。ISBN 1558603077。Daw，A.;托马斯河，巴西-地问：凯里角C.的; 读吧，J。S.的; 应用，A. P的; Karpatne，A.2020年。物理导向架构余弦相似度−1−1−1(PGA)用于量化湖温建模中的不确定性的神经网络在2020年SIAM国际数据挖掘会议上，532-540。暹罗。de Bezenac，E.; Pajot，A.;和Gallinari，P. 2019。物理过程的深度学习：简化先前的科学知识。Journal ofStatistical Mechanics ： Theory and Experiment2019（12）：124009.Graham-Rowe ， D.; Goldston ， D.; Doctorow ， C.;Waldrop，M.;林奇角; Frankel，F.; Reid，R.; Nelson，S.; Howe，D.;和Rhee，S. 2008.大数据：PB时代的科学。Nature455（7209）：8-9.贾，X.; Willard，J.; Karpatne，A.; Read，J.; Zwart，J.;Stein-bach，M.;和Kumar，V.2019。物理引导的RNN用于动态系统建模：模拟湖泊温度剖面的案例研究。在2019年SIAM数据挖掘国际会议的会议记录中，558暹罗。康，Z.; Grauman，K.;和Sha，F. 2011. 在多任务特征学习中与谁共享。第28届国际机器学习会议论文集，ICML'11，521-528。Madison，WI，USA：Omnipress.ISBN 9781450306195。Karpatne ， A.; Chuanuri ， G.; Faghmous ， J. H.;Steinbach，M.; Banerjee，A.; Ganguly，A.; Shekhar，S.;Samatova，N.; Kumar，V. 2017 a.理论引导的数据科学：从数据中进行科学发现的新范式。IEEE Trans-actions on Knowledge and Data Engineering29（10）：23182331.Karpatne ， A.; Chuanuri ， G.; Faghmous ， J. H.;Steinbach，M.; Banerjee，A.; Ganguly，A.; Shekhar，S.;Samatova，N.; Kumar，V. 2017 b.理论引导的数据科学：从数据中进行科学发现的新范式。IEEE Trans-actions on Knowledge and Data Engineering29（10）：23182331.Karpatne，A.; Watkins，W.; Read，J.; Kumar，V. 2017年c月。物理引导神经网络（PGNN）：在湖泊温度建模中的应用。arXiv预印本arXiv：1710.11431。李，H.;徐志;Taylor，G.;Studer，C.;Goldstein，T.2018年可视化神经网络的损失景观In Bengio，S.;Wallach，H.;Larochelle，H.;Grauman，K.;Cesa-Bianchi，N.;和加内特， R. ，编辑，神经信息处理系统进展 31 ，6389CurranAssociates，Inc.网址：http://papers.nips.cc/paper/7875-visualizing-the-loss-landscape-of-neural-nets.pdf。Raissi，M.; Perdikaris，P.; Karniadakis，G. 2017年a。物理学深度学习（第一部分）：非线性偏微分方程的数据驱动arXiv预印本arXiv：1711.10561。Raissi，M.; Perdikaris，P.; Karniadakis，G. E. 2017年b。物理学通知深度学习（第二部分）：数据驱动的非线性偏微分方程的分解。 arXiv 预印本 arXiv ：1711.10566。Raissi， M.; Perdikaris ， P.; Karniadakis ， G. E. 2019.Physics-informed neural networks：一个深度学习框架，用于解决涉及非线性偏微分方程的正问题和逆问题。计算物理学杂志378：686-707。Shin，Y.; Darbon，J.; Karniadakis，G. E. 2020.关于物理学的收敛和泛化通知神经网络。arXiv预印本arXiv：2004.01806。Stewart，R.;和Ermon，S.2017年。利用物理和领域知识对神经网络进行无标签监督在AAAI。王建- X.;吴，J.; Ling，J.; Iaccarino，G.;和Xiao，H. 2017.用于预测湍流建模的综合物理信息机器学习框架。arXiv预印本arXiv：1701.07102。王建- X.;吴，J. - L.的;和Xiao，H. 2016. 预测湍流建模的物理学信息机器学习：使用数据改进RANS模型的雷诺应力。arXiv预印本arXiv：1606.07987。王建- X.;吴，J. - L.的;和Xiao，H. 2017.基于DNS数据重建雷诺应力模型差异的物理信息机器学习方法。Physical Review Fluids2（3）：034603.Wang，S.; Teng，Y.;和Perdikaris，P. 2020。理解和减轻物理信息神经网络中的梯度病理。arXiv预印本arXiv：2001.04536。Willard，J.;贾，X.; Xu，S.; Steinbach，M.;和Kumar，V.2020。整合基于物理的建模与机器学习：一项调查。arXiv预印本arXiv：2003.04919。

下载后可阅读完整内容，剩余1页未读，立即下载