使用软注意机制的自适应物理信息神经网络

166 浏览量更新于2023-09-05 收藏 731KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于软注意机制摘要布拉加-内托德州农工大学电气与计算机工程系College Station，TX 77845{levimcclenny，ulisses}@ tamu.eduPINN相对于传统时间步进PDE求解器的一大优点是整个空间-时间做了解物理学神经网络（PINN）有最近出现的深度神经网络的一个很有前途的应用程序的数值解的非线性偏微分方程（PDE）。然而，更刚性或半线性偏微分方程的解可能包含梯度和解快速变化的区域，从而在训练解网络时产生困难人们已经认识到，需要自适应程序来迫使神经网络准确地拟合解决方案中的这些“顽固”点。为了实现这一点，先前的方法已经在被认为是重要的解决方案的区域上硬编码的损失函数中使用固定权重。在本文中，我们提出了一种新的方法来训练PINNs自适应，使用完全可训练的权重，迫使神经网络专注于解决方案的区域是困难的，在某种程度上，这是让人想起软乘法atten- tion掩模在计算机视觉中使用。自适应PINN的关键思想是使权重随着相应损耗的增加而增加，这是通过训练网络以同时最小化损耗和最大化权重来实现的，如经典非线性优化中的增广拉格朗日和约束满足方法我们目前的数值实验与艾伦-卡恩PDE中的自适应PINN优于其他国家的最先进的PINN算法的L2错误，同时使用较少的训练时期。介绍作为新兴的科学机器学习领域的一部分（Baker et al.2019），物理信息神经网络（PINN）最近出现作为传统偏微分方程（PDE）求解器的替代方案（Raissi，Perdikaris和Karniadakis 2019; Raissi 2018; Wight和Zhao2020; Wang，Yu和Perdikaris 2020）。典型的黑盒深度学习方法不考虑对问题域的物理理解。PINN方法基于约束深度神经网络的输出以满足由PDE指定的物理模型。版权所有© 2021，本文由作者所有。允许在知识共享许可协议署名4.0国际（CC BY 4.0）下使用在可以通过GPU大规模并行化的过程中，可以使用在空间-时间域上不规则地分布（而不是在网格上随着近年来 GPU能力的不断增强，在训练迭代中依赖于parallelism的方法可能会开始成为科学计算中的主要方法。（Raissi，Perdikaris和Karniadakis 2019）中的原始连续PINN，此后称为另一方面，已经观察到基线PINN在求解更刚性的半线性偏微分方程时具有收敛和精度问题，其中解包含尖锐和复杂的空间和时间转换（Wight和Zhao 2020; Wang、Teng和Perdikaris 2020）。例如，相场模型的Allen-Cahn和Cahn-Hilliard方程就是这种情况（Moelans、Blanpain和Wollants 2008）。为了解决这个问题，已经提出了基线PINN算法的各种修改。例如，在（Wight and Zhao 2020）中，引入了一系列方案，包括训练损失函数的非自适应加权、搭配点的自适应重采样和时间自适应方法，而在（Wang，Teng和Perdikaris 2020）中，提出了学习率退火方案。共识是适应机制对于使PINN更稳定并且能够很好地近似解的困难区域是本文介绍了自适应PINNs，这是解决偏微分方程（PDE）自适应问题的一种简单解决方案，它使用可训练权重作为软乘法掩码，让人想起计算机视觉中使用的注意力机制（Wang et al. 2017; Pang et al. 2019）。权重与逼近网络同时训练。因此，在损失函数中，解的困难区域中的初始、边界或并置点被自动加权得更重，从而迫使近似在这些点上改进实验结果表明，自适应PINNs能准确地求解传统的“刚性”Allen Cahn偏微分自适应L LLL我LL匪r我θ普雷特θθ000i=1二二二二二i=1研究研究i=1PINN显示出比其他最先进的PINN自适应训练算法更准确的结果，同时使用更少数量的训练时期。背景物理信息神经网络综述考虑以下形式的一般非线性PDEut+Nx[u]= 0，x∈ Ω，t∈ [0，T]，（1）u（x，t）=g（x，t），x∈Ω，t∈ [0，T]，（2）u（x，0）= h（x），x∈Ω，（3）其中x∈Ω是域中的空间向量变量非自适应加权在（Wight and Zhao 2020）中，有人指出，应该重视迫使神经网络严格满足初始条件，特别是对于描述时间不可逆过程的偏微分方程，其中必须尽早近似解据此，提出了一个损失函数（θ）=r（θ）+b（θ）+C0（θ），其中C1是hy-perparameter。学习速率退火。在（ Wang ， Teng 和 Perdikaris2020）中，有人认为，在先前的方案中，权重C的最佳值可能在不同的偏微分方程之间变化很大，因此很难选择其值ΩRd，t是时间，Nx是空间差分运算器。相反，他们建议使用在训练期间使用以下项的反向传播梯度的统计数据进行调整的权重：ator.根据（Raissi，Perdikaris和Karniadakis 2019），令u（x，t）近似于具有输入x和t的深度神经网络的输出uθ（x，t）。将残差定义为：损失函数。值得注意的是，权重本身不通过反向传播来调整相反，它们表现为学习率系数，其被更新为AF。∂r（x，t）：=u（x，t）+N[u（x，t）]，（4）每一个训练阶段。自适应重采样。在（Wight and Zhao 2020）中，一个策略-其中所有偏导数可以通过自动微分方法计算（Baydin等人，2017; Paszke等人2017）。参数θ通过反向传播（Chauvin和Rumelhart 1995）在损失函数上进行训练，该损失函数对不满足（1）-（3）的输出进行惩罚L（θ）=Lr（θ）+Lb（θ）+L0（θ），（5）其中r是对应于残差（4）的损失，b是由于边界条件（2）引起的损失，并且0是由于初始条件（3）引起的损失：L（θ）=1Σr（xi，ti）2，（6）对剩余配置点进行自适应重采样提出了基于残差的幅值的估计方法虽然这种方法提高了近似，但必须中断训练过程，并在残差点上评估MSE，以确定性地重新采样具有最高误差的点在每个重采样步骤之后，残差点的数量增加，从而增加了计算复杂度。时间适应方法。在（Wight and Zhao 2020）中，建议了另一种方法，其将时间轴划分成若干较小的间隔，并且在它们上顺序地或并行地分别训练PINN。这种方法这是由于需要训练多个PINN而耗时的。rNrr ri=1Nb神经正切核（NTK）加权。最近，（Wang、Yu和Perdikaris 2020）引入了权重L（θ）=1Σ|u（xi，ti）−gi|第二条第七款在搭配和边界损失，这是更新bNbi=1Nb b b通过神经正切内核。这种方法导出一个决定性的内核，它保持不变或定期更新。1Σ0我i2在训练期间以预设的时间间隔周期性地进行L0（θ）=N0i=1|、（8）|,(8)方法其中{xi，hi=h（xi）}N0是时间t= 0时的数据，虽然前一节中概述的方法Nb{xi，ti，gi=g（xi，ti））}是边界处的数据{xi，t i}Nr是随机分布在线PINN，它们要么是非自适应的，要么需要蛮力域Ω，N0、Nb和Nr分别表示初始数据、边界数据和配置点的总数。参数θ可以通过深度学习中使用的标准梯度下降过程最小化总训练损失（θ）来调整。相关工作基线PINN算法在训练期间可能是不稳定的，并且在半线性PDE的解中围绕尖锐的空间和时间转变产生不准确的近似。最近关于PINN的许多文献已经通过引入对基线PINN算法的修改来减轻这些问题，所述修改可以增加近似的训练稳定性和准确性，主要是通过尝试减轻神经网络近似固有的频谱偏差。我们提到的一些方法是-十在稳定性和准确性方面的改进-研究研究二二以增加的计算成本进行自适应在这里，我们提出了一种自适应过程，该过程使用完全可训练的权重来产生乘法软注意掩模，其方式让人想起计算机视觉中使用的注意机制（Wang et al. 2017; Pang et al. 2019年）。这与自适应的神经网络哲学一致：代替在解决方案的特定区域处的硬编码权重，通过反向传播与网络权重一起所提出的自适应PINN利用以下损失函数L（w，λr，λb，λ0）=Lr（w，λr）+Lb（w，λb）+L0（w，λ0），（9）其中λr=（λ1，. . . ，λ Nr），λb=（λ1，. . . ，λNb），且λ0=低（λ1，λ 2）. . ，λ N0）是可训练的非负自适应0 0我二 ≡∇LLL≥联系我们L（w，λ）=1Σg（λi）r（xi，ti;w）2（10）∇LL LL（w，λ）=1Σg（λi）（u（xi，ti;w）−gi）2（11）00无000研究二0二二二研究二0研究研究研究研究研究研究研究二二二二二二二二二00000000二二Σ二L匪ri=1初始、边界和配置点的权重，以及r rNrr r r ri=1Nbb bNbb b b bi=1无L（w，λ）=1Σg（λ i）（u（xi，0; w）− h i）2.（十二）其中自适应掩码函数g是非负的、可微的、严格递增的函数。自适应PINN的关键特征是损耗（w，λr，λb，λ〇）相对于网络权重w最小化，但相对于自适应权重λr，λb，λ〇最大化，即，目标是：图1：掩码函数示例。从左上到右下：多项式掩码，q=2;多项式掩码，q= 4;平滑逻辑掩码;锋利的逻辑面具。分钟重量最大λr、λb、λ0L（w，λr，λb，λ0）。（十三）惩罚量通常被初始化为较小非零值）。我们注意到任何权重都可以是考虑对该问题的梯度下降/上升方法的更新：wk+1=wk−ηkwL（wk，λk，λk，λk）（14）设置为固定的、不可训练的值。例如，通过设置λ k1，将仅训练初始点和搭配点的权重。函数g的形状影响掩模锐度和掩模强度。λk+1=λk+ηkλL（wk，λk，λk，λk）（15）PINN的培训示例包括多项式掩码r rr rrb0g（λ）= cλ q，对于c，q> 0和S形掩模。见图1λk+1=λk+ηkλL（wk，λk，λk，λk）（16）λk+1=λk+η kλL（wk，λk，λk，λk）。（十七）必须保持低于适当的（大）值，以避免0 00rb0数值溢出S形掩模没有这个其中ηk是步骤k处的学习速率，并且λL=g′（λk，1）r（x1，t1;wk）2···g′（λk，Nr）r（xNb，tNr;wk）2ΣT（18）问题，也可以用来生产尖锐的面具。结果在本节中，我们报告了用以下方法获得的实验结果：使用简单的二次掩模的Allen-Cahn PDEλL=Σg′（λk，1）（u（x1，t1;wk）−g1）2···对比所提出的自适应PINN算法对基线PINN和两个g′（λk，Nb）（u（xNb，tNb;wk）−gNb）2ΣT（19）PINN算法中提到的，即非自适应加权和时间自适应方案（对于最后的λL=′（λk，1）（u（x1，0;wk）−h1）2···ter，使用（Wight和Zhao 2020）中的方法1的g′（λk，N0）（u（xN0，0;wk）−hN0）2ΣT（20）在这方面的工作，直接比较的功效因此，如果g′（λ）>0，即掩码函数严格递增，则λr ，λb ，λ〇〇，并且如果对应的未掩蔽损失为零，则任何分量仅为零;例如，λ=0当且仅当u（xi，t1;wk）=gi，对于所有i = 1，. . . ，N0，即，神经网络近似完全满足初始条件（在所有给定点）。这示出了权重序列{λk;k=1，2，. . . }，我们的技术这些示例的代码是在Tensorflow 2中编写的，可以在Github1上获得，其中所有的实现细节都是公开的，可重复使用。艾伦-卡恩方程Allen-Cahn反应-扩散PDE通常是λb; k = 1，2，. . . ，λ0; k = 1，2，. . . 假设对应的未掩蔽损耗为非零，则对应的未掩蔽损耗（以及相关联的掩蔽值）单调增加。此外，梯度λ r的大小，λb ，λ0 ，因此更新的，如果相应的-举几个例子。在实践中，多项式掩码函数使用的主要品质因数是L2误差，类似于相关未掩蔽的损失更大。这种逐渐加重的刑罚--在相场模型中，其可用于例如模拟金属合金的微观结构演变中的相分离过程（Moelans、Blanpain和Wollants2008;沈和杨2010; Kunselman等人2020年）。这里考虑的Allen-Cahn PDE被指定为使网络更加不适合残差，约束-ary和初始点紧密地（自适应权重，即，1https://github.com/levimcclenny/SA-PINNs研究±±±±我Nb（由于周期性边界条件，实际上有200个边界点）。这里我们将边界权重wi保持为1，而初始权重wi和搭配b0图2：顶部：经由自适应PINN的近似u（x，t）的绘图中间：近似u（x，t）与通过时间演化在各个时间点的高保真解U（x，t）。左下：跨空间-时间域的残差r（x，t）。正如预期的那样，对于整个域Ω，它接近于0。右下角：在空间-时间域上近似和高保真解决方案之间的绝对误差。如下：训练权重Wi初始和配置权重分别从区间[0，100]和[0，1]中的均匀分布初始化。训练在NvidiaV100GPU上进行13 ms/迭代。用自适应PINN获得的数值结果显示在图2中。随机重新开始的10次运行的平均L2误差为2.1% ±1.21%，而通过时间自适应方法（Wight和Zhao 2020）获得的10次运行的L2误差为8.0% ±0.56%。无论是基线PINN还是非自适应加权方案，固定初始条件权重C = 100，都无法令人满意地解决这个PDE，L2误差分别为96.15%6.45%和49.61% 2.50%-这些数字几乎匹配。与（Wight和Zhao 2020）中报道的图3中的曲线图对于所提出的自适应PINN算法是独特的。它显示跨时空域的搭配点的训练权重这些是由PINN自施加的乘法软注意力掩模的权重。该图在具有随机重启的不同运行中保持显著恒定，这表明它是待求解的特定PDE的性质。我们可以观察到，在这种情况下，在解决方案的早期需要更多的关注，但在空间变量中并不均匀在（Wight和Zhao 2020）中，这一观察结果是合理的，因为Allen-Cahn偏微分方程描述了时间不可逆的扩散反应过程，其中必须尽早近似解。然而，在这里，这个事实是由自适应PINN本身“发现”的。u t− 0。0001uxx+ 5u3−5u= 0，x∈[−1，1]，t ∈[0，1]，（21）u（x，0）=x2cos（πx），（22）u（t，−1）=u（t，1），（23）u x（t，−1）=u x（t，1）.（二十四）出于多种原因，Allen-Cahn PDE是PINN的有趣基准它是一个更严格的半线性PDE，挑战PINN近似具有尖锐的空间和时间过渡的解决方案，并且还引入了周期性边界条件（23，24）。为了处理后者，将（11）中的边界损失函数b（θ，wb）替换为1Σ国bi=1图3：跨时空域的学习权重较亮的颜色和较大的点表示较大的权重。我我我2Lb（θ，wb）=B=（|u（1，tb）− u（−1，tb）|++i i2|）（25）|)(25)神经网络架构与层大小[2，128，128，128，128，1]完全相关。（网络的2个输入是（x，t）对，输出是uθ的近似值。）该架构与（Wight和Zhao 2020）相同，以便直接比较性能。我们将配置点、初始点和边界点的数量设置为Nr=20，000，N0=100和Nb= 100，结论在本文中，我们介绍了一种新的PINN算法的基础上自适应。这种方法使用了一个概念框架，让人想起计算机视觉中使用的软注意力机制，因为网络识别哪些输入对其自己的训练最重要。Allen-Cahn PDE系统的实验结果表明，自适应PINN允许更准确的解决方案的PDE具有更小的计算成本比其他国家的最先进的PINN算法。我们认为，自适应PINNs开辟了新的可能性，为复杂的非线性，半线性和刚性偏微分方程的工程和科学的PINN求解器的改进致谢作者希望感谢NSF奖DGE-1545403资助的D3EM项目的支持作者还要进一步感谢美国陆军CCDC陆军研究实验室的慷慨支持和加盟，以及英伟达DGX站的硬件，允许实施和experimentation显示在这个摘要。引用Baker，N.; Alexander，F.; Bremer，T.; Hagberg，A.;Kevrekidis ，Y.; Najm ， H.; Parashar， M.; Patra ，A.;Sethian，J.; Wild，S.; Willcox，K.;和Lee，S. 2019.科学机器学习基础研究需求研讨会报告：人工智能核心技术。doi：10.2172/1478744。Baydin，A.G.; 珀尔马特湾A.; Radul，A.A.; 还有西斯金德大通先生2017年。机器学习中的自动微分：综述。TheJournal of Machine Learning Research18（1）：5595-5637.Chauvin，Y.;Rumelhart，D.大肠一九九五年反向传播：理论、架构和应用。心理学出版社.Kunselman ， C.; Attari ， V.; McClenny ， L.; Braga-Neto，U.;和Arroyave，R. 2020.半监督学习方法用于模糊微结构中的类分配。Acta Materialia188：49Moelans，N.;Blanpain，B.;和Wollants，P.2008年微结构演化的相场模拟简介。Calphad32（2）：268Pang，Y.; Xie，J.; Khan，M. H.;安韦尔河M.; Khan，F. S.;和Shao，L.2019年。用于遮挡行人检测的面罩引导注意力网络在IEEE国际计算机视觉会议论文集，4967Paszke ， A.; Gross ， S.; Chintala ， S.; Chanan ， G.;Yang ， E.; DeVito ， Z.; Lin ， Z.; Desmaison ， A.;Antiga，L.;和勒勒上午2017. pytorch中的自动微分。Raissi，M. 2018.前向-后向随机神经网络：高维偏微分方程的深度学习。arXiv预印本arXiv：1804.07010。Raissi，M.; Perdikaris，P.;和Karniadakis，G.大肠2019.物理信息神经网络：一个深度学习框架，用于解决涉及非线性偏微分方程的正向和反向问题。 JournalofComputational Physics 378：686-707.Shen ， J.; 和 Yang ， X.2010 年。 allen-cahn 和 cahn-hilliard方程的数值逼近离散连续动力系统-A28（4）：1669。Wang ， F.; Jiang ， M.; Qian ， C.; Yang ， S.; Li ， C.;Zhang，H.; Wang，X.;和Tang，X.2017年。用于图像分类的剩余注意力网络。IEEE计算机视觉和模式识别会议论文集，3156Wang，S.; Teng，Y.;和Perdikaris，P. 2020.理解和减轻物理学通知神经网络中的梯度病理。arXiv预印本arXiv：2001.04536。Wang，S.; Yu，X.;和Perdikaris，P. 2020.何时以及为什么PINN无法训练：神经切线内核透视图。arXiv预印本arXiv：2007.14527。怀特角L.;和Zhao，J. 2020. 使用自适应物理信息神经网络求解Allen-CahnarXiv预印本arXiv：2007.04542.

下载后可阅读完整内容，剩余1页未读，立即下载