基于数据的物理分布：自动发现和验证机理模型的新框架及其应用

15 浏览量更新于2023-12-04 收藏 945KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Ⓧ基于数据的控制方程Waad Subber1分，Piyush Pandita1分，Sayan Ghosh1分，Genghis Khan1分，Liping Wang1分，RogerGhanem2分1GE Research，Niskayuna，NY 123092南加州大学洛杉矶分校，CA 90007摘要大多数常见的机理模型传统上以数学形式来解释给定的物理现象。另一方面，机器学习算法提供了一种将输入数据映射到输出的机制，而无需明确描述生成数据的底层物理过程。本文提出了一个基于数据的物理分布（DPD）框架，用于从观测数据中自动发现支配方程。在没有预先定义模型结构的情况下，首先发现方程的自由形式，然后根据可用数据进行校准和验证。除了观察到的数据之外，DPD框架可以利用可用的先前物理模型和领域专家反馈。当先验模型可用时，DPD框架可以发现用符号表示的加法或乘法校正项校正项可以是先验模型的现有输入变量的函数，或者是新引入的变量。在先验模型不可用的情况下，DPD框架发现管理观察的新的基于数据的独立模型我们展示了所提出的框架在航空航天工业的实际应用中的性能。介绍现代机器学习（ML）方法旨在提供一种统计机制来预测系统在新条件下的结果。这种统计机制是建立在探索数据中嵌入的投入和产出之间的相关性的基础上的（Jain和Singh，2003年）。然而，在许多工程应用中，输入、输出和ML模型结构没有被选择成使得学习阐明对生成数据的底层物理过程的洞察，而不是黑盒函数近似。因此，知识是以数据驱动的方式发现的，而不是完全解释问题的物理原理。另一方面，机械建模方法从科学定律和公理的出发点出发，通过逻辑演绎产生现象背后的物理学的形式模型及其度量。一般来说，机械建模方法，通讯作者：Waad Subber，电子邮件：Waad. ge.com版权所有c2021，本文由作者所有。允许的使用知识共享授权署名4.0国际（CC BY 4.0）。用简化的数学公式描述因果机制，而ML方法试图在输入和输出之间建立统计关系。这两种方法不应被视为直接竞争对手（Baker et al.2018年）。一种方法的优势应用于补充其对应方法，这表明科学机器学习领域的现代研究工作应致力于实现两种方法之间的共生关系（ Baker et al. 2019; Jain and Singh 2003; Baker et al.2018）。机器学习和机械方法之间的协同框架可以基于在一个统一的框架中集成多个信息源（如现场和实验室数据）、先验领域知识、物理约束和专家反馈来构建。这种方法的主要特点体现在预测模型的符号表示中。通过数学表达式对预测机制进行符号化描述，可以为其预测提供可解释性，便于集成专家反馈，并以显式方式融合最新的领域知识。为此，我们提出了一个基于数据的物理发现（DPD）框架，用于从观测数据中自动发现控制方程。符号回归和贝叶斯校准用于发现支配数据的物理规律。该方法基于将多个数据源、领域知识、物理约束和专家反馈集成在一个统一的模型发现框架中。在我们之前的工作中（Atkin-son et al. 2019），我们介绍了一种从数据中推断微分算子的符号表示的方法，以自由形式的方式与SINDy（Brunton，Proctor和Kutz2016）等方法相反，这些方法需要用户假设一个术语库，其中仅考虑线性组合。在这项工作中，我们提出了一个框架，发现控制方程的数据利用现有的物理领域的知识和约束。在现有物理模型可用的情况下，DPD框架发现乘法或加法校正项;否则提出仅基于数据的独立模型。发现的校正项或独立模型可以是现有输入变量或新引入的变量的函数所发现的模型的符号表示有助于解释新变量对当前物理过程的影响。发现的模型是发现校准测试数据假设+2×exp健身模型， =零之前发现一个新的模型，更好地描述数据和先验知识物理发现BHM校准IDACE更新输入意见，先前的物理模型和约束输出更新或新型号使用贝叶斯混合建模（ GEBHM ）方法进行校准（Ghosh et al.2020; Zhang et al.2020年）。GEBHM是一种概率ML方法，可以进行校准、验证、多保真度建模和不确定性量化。此外，该框架还配备了一个优化实验设计工具，提出了一种新的实验方案，以提高模型的精度。在这里，使用了智能设计和计算机实验分析（IDACE）（Kristensen等人，2019）方法。IDACE是一种基于估计的不确定性和输出期望值自适应地产生新的实验设置以提高模型精度我们提供了一个技术描述的方法，并展示其使用的现实世界的问题与航空航天工业。该应用程序的重点是dis-现场实验室数据覆盖了描述腐蚀的预测模型，给出了先验物理模型的可用性。我们证明了所提出的框架融合先验知识与发现的校正项，提高模型的fidelity测量的基于数据的物理发现（DPD）框架提出了一种基于数据的物理发现（DPD）方法，该方法将领域知识、物理约束和观测数据集成在一个框架中。图1：基于数据的物理发现（DPD）框架的工作流程。该框架的输入是观测数据，以及可选的先验模型和约束。首先，根据设置，在物理发现部分中发现独立模型或其次，对发现的模型进行校准。第三，对发现的模型进行V V和UQ，如果需要的话，提出一组新输出是经过校准和验证的模型。这里θ={θ，θ，ρ}，其中θ表示先验模型预测响应（带置信区间）pD p参数，复杂的工程系统在新的条件下。该框架实现了基于数据的机器学习和基于能力的机械建模方法之间的关系。DPD框架作为人类的研究助手，有两个目标：提高预测的可信度和学习新的物理学。这构成了一种新的模型构建范式，其中机器学习算法和科学家一起工作，以制定解释新物理现象的符号数学形式类似于科学家进行的物理实验，以发现输入和输出变量之间的相互作用关系，我们提出了一组变量到我们的符号回归框架，并要求一个关系来管理它们。所提出的方法的工作流程的概述如图所示。（一）.θd表示符号回归演化过程中产生的短暂随机常数（Fortin等人，2012），ρ是加权参数。该设置可以容易地推广到乘法校正的情况，如：g （ x ， θ ） =f （ x ， θp ） ×ρδ （ x ，θd），（4）以及先验模型不可用的情况g（x，θ）= δ（x，θd）.（五）注意，我们没有先验地定义校正项δ（x，θd）的模型结构。在这一步中，尺度参数ρ被设置为1，先验模型参数θp被设置为它们的最大似然估计值，θd在运行时的进化计算期间创建和设置时间（Koza和Koza 1992），（ii）发现模型后给定观测集D={x，yi}n，（如果结构，模型参数在新现有的物理模型ii=1θ={θp，θdρ}f （ x ， θp ）和约束 φ（x）=0），我们寻求一个新的或更新的模型，更好地描述观测数据。如图所示的过程。（1）假设有一个先验模型f（x，θp），其中θp是校准参数，并且需要一个附加校正项，则问题被提出为：求δ（x，θd），使得J=g（x，θ）−y2→min，（1）须遵守：φ（x）=0，（2）哪里g（x，θ）= f（x，θp）+ ρδ（x，θd）.（三）接下来使用贝叶斯方法校准发现的模型g（x，θ）。（iii）在校准的模型不满足VV要求的情况下（例如，测试数据在模型预测的95%置信区间内），提出了一种新的优化实验，以提高模型的精度，使用智能实验设计一旦发现的模型满足V V和UQ要求，它将作为一个可解释的模型向领域专家提出反馈。从本质上讲，所提出的工作流将领域知识和物理定律嵌入到机器学习算法中，以提供可解释的预测模型。DPD框架的突出特点是：1）通过嵌入物理原理来增强机器学习算法的预测能力，从而实现区域外推----≤pD如果数据不可用，2）解决传统机械建模方法在合并多个信息源方面的局限性，3）通过合并领域知识来最小化机器学习方法所需的训练数据的大小。实际应用程序航空航天工业应用被认为是demonstrate潜在的实用性所提出的框架。该问题的重点是开发一个预测模型的飞机结构材料的腐蚀过程1.00.80.60.40.20.0火车测试0.0 0.2 0.4 0.6 0.8 1.0时间索引在这个应用中，我们证明：1）DPD发现现有物理模型的校正项以获得更好预测能力的能力，2）对于小训练数据集的情况，与现有物理模型相比，DPD获得的改进性能，3）DPD发现仅基于训练数据集而不结合先前物理模型的独立模型的性能。腐蚀问题延长防腐涂层系统的使用寿命需要对恶劣操作条件下的材料有基本的这些条件对新型耐腐蚀材料的开发构成了挑战（Olajire2018）。预测飞机结构在长期使用条件和不可预见的环境事件下的腐蚀是飞机结构维修计划为此，我们提出的框架将提供一个校准，验证和不确定性量化预测模型的腐蚀作为环境和操作条件的函数。所发现的腐蚀模型的符号表示使得预测模型具有可解释性，这对于理解新条件下的腐蚀过程是必需的。问题设置：实验数据由AFRL提供，作为DARPA AIRA挑战问题（AIRA 2018）的一部分。测量值由腐蚀电流、温度和相对湿度的时间序列数据表示，每5分钟报告一次。本文的目的是在给定的环境条件下建立腐蚀电流的预测模型。对于这种应用，我们提出的问题是找到一个可用的先验物理模型的校正项：g（T，H，θ）=f（T，θp）×ρδ（H，θd），（6）式中T为温度，H为相对湿度，θ=θp、θd、ρ是校准参数。注意，可用的先验模型仅是温度T的函数，而发现的项被设置为仅是湿度H的函数此设置用于显示DPD框架如何可以在现有的物理模型中引入新的变量，以提高预测精度。具体地，Butler-Volmer方程的形式为：f（T，θp）=θ0exp（θ1/T）+θ2exp（θ3/T）（7）图2：数据被平均分成训练集和测试集。分解基于时间索引（即，训练数据t≤0。试验数据t> 0。5）。被用作温度T的先验模型。修正项作为相对湿度H的函数，记为δ（H，θd）。DPD框架中的符号回归将发现δ（H，θd），使得：J=g（T，H，θ）−y2→min，（8）和g（T，H，θ）=f（T，θθ）×ρρδ（H，θ），（9）其中y是测量的腐蚀电流。这里θθp被先验地设置为最大似然估计值，并且ρp=1。一旦发现校正项的最合适的结构，则执行贝叶斯校准以估计模型参数θ=θp，θd，ρ。方程发现和模型校准是在数据的前50%部分上执行的，而模型的预测和测试是在即将到来的50%（二）、基线模型：首先，使用训练数据集t0。5中，执行基于梯度的优化以获得参数的最大似然估计（MLE），Butler-Volmer方程该模型，这是一个函数的温度，其余的测试数据进行了验证。测试数据的验证图如图所示（三）、性能指标R平方R2=0。691和均方根平方误差RMSE=0。109使用测试计算数据为了提高Butler-Volmer方程的性能而不需要额外的训练数据，一个新的校正项被引入到现有的模型。修正项的目的不仅是为了提高模型的性能，而且还研究了新引入的变量对腐蚀电流的影响通常，前一个目标是通过增加训练数据集的大小来实现的，后一个目标是由领域专家以机械的方式来实现的。接下来，我们将展示DPD框架如何通过使用可用的训练数据集自动发现新的控制方程来提高现有模型的性能带有先验模型的DPD利用现有模型f（T，θp），先验估计参数θp和腐蚀电流腐蚀过程对材料特性和使用的影响≤≤±≤≤我≤BB1.00.80.60.40.20.00.0 0.2 0.4 0.6 0.8 1.0观察到0.0 0.2 0.4 0.6 0.8 1.0观察到图3：基线模型f（T，θp）在测试数据集上的验证，t> 0。五、表1：针对训练数据集t 0发现的Butler-Volmer方程的校正项。五、性能指标基于测试数据集t > 0。五、图4：在测试数据集上验证发现的模型g（T，H，θ），t > 0。五、1.00.80.60.40.2训练数据集，表（1）列出了一些发现的多-0.00.5 0.6 0.7 0.8 0.9 1.0时间索引叠代校正项除了为每一项列出的R2，贝叶斯信息准则（BIC）和所获得的改进。根据R2值将改善百分比定义为V[%]=图5：t > 0时发现的模型g（T，H，θ）的预测。五、置信区间定义为（µ± σ）。（R2/R2−1）×100，其中R2= 0。第691章价值2基线模型和Ri 是新发现的价值在贝叶斯校准之前的模型。修正项δ（H，θd）的参数θd尚未用贝叶斯方法标定。通过在现有模型中引入一个新的变量，可以实现10%-14%的预测增强，这模型校准：为了捕获任何缺失的物理，接下来使用GEBHM 框架进行 Kennedy 和 O'Hagan 贝叶斯校准（Kennedy和O'Hagan 2001）。校准模型的验证结果报告在图中。（四）、改善28%可以通过新发现的模型来实现，使用GEBHM进行校准图（5）给出了t > 0时所发现的模型的预报和观测数据。五、灰色阴影区域是定义为µ σ的置信界限。所有数据均在0和1之间归一化。模型预测值与实测值吻合较好数据减少训练数据大小：为了研究训练数据大小对模型性能的影响，我们只使用前0。08%的可用数据用于训练，其余部分用于测试，如图所示。（六）、图（7）显示了曲线的验证图租金基线模型（ Butler-Volmer 最大似然估计的参数）。为训练数据尺寸（t0。08），基准的性能指标模型得到的结果远低于使用一半数据时得到的结果（t0.5）如图（3）所示。精确地观察到R2值的减少（89%）这一观察结果突出了训练数据大小对模型性能的影响。接下来，使用可用的训练集（t0. 08）我们表明可以获得改进-DPD框架。这种改进是通过引入一个作为新输入函数的校正项来变量对于给定的训练数据集（t0. 表（2）列出了在校准模型之前发现的校正项δ（H，θd）以及相应的BIC，R2和获得的改善百分比值通过引入新的变量到现有模型，DPD发现了校正项（例如，δ（H）= 0。391 exp（H）），可导致78%的改善。表（2）中的百分比改善V[%]是根据图1所示的基线模型计算的（七）、接下来，使用GEBHM校准新发现的模型g（T，H，θ）预测和验证结果分别如图（9）和图（8）所示。目前发现的模型的预测遵循以下趋势：然而，观察到的数据显示了对峰之间的腐蚀电流的高估。尽管如此，与图8所示的基线模型相比，可以实现图8所示的239%的（七）、大R2（试验）= 0.691RMSE（检验）=0.1091.00.80.60.40.20.0R2（试验）= 0.887RMSE（检验）=观察到预测预测腐蚀电流预测BICR2δ（H，θd）V[%]-2078.20.7870。481H exp（H3）14-2073.90.774H（2 H − 0.（第七十三条）12≤≤1.00.8表2：针对训练数据集t 0发现的Butler-Volmer方程的校正项。08.性能指标基于测试数据集t > 0。08..0.60.40.20.00.0 0.2 0.4 0.6 0.8 1.0时间索引图6：基于时间索引将数据划分为训练（t ≤ 0）。08）和测试（t> 0. 08）套。1.00.80.60.40.20.0R2（试验）= 0.074RMSE（检验）=0.1920.0 0.2 0.4 0.6 0.8 1.0观察到0.0 0.2 0.4 0.6 0.8 1.0观察到图8：在测试数据集上验证发现的模型g（T，H，θ），t > 0。08.图7：基线模型f（T，θ）在仅基于观测数据的独立模型，测试数据集， t >0。08.p先验模型不可用。贝叶斯方法用于模型的校准和不确定性下的验证。航空航天工业中的实际应用被认为是-这里获得的改进表明，尽管所发现的模型已经将性能改进了78%（如前所示），但是它仍然缺少一些可以通过基于GEBHM的校准来捕获的物理。没有先验模型的DPD：利用训练数据集0。5.表（3）显示了一些发现，在没有任何物理模型的情况下创建独立模型。在这里，所发现的模型采用g（T，H，θ）=δ（T，H，θd）的形式。可以用更复杂的模型结构来实现大的改进这些模型用数学表达式解释贝叶斯校准发现模型g（T，H，θ）=H 2（θ0H2−θ1T），（10）给出了图（10）所示的验证结果，改进了28%。所发现的独立模型的预测性能如图所示。（十一）、结论提出了一种基于数据的物理发现（DPD）框架，用于从观测数据中自动发现控制方程。该框架可以发现现有物理模型的校正项，以提高预测性能。校正项可以是乘法或加法，以及当前输入变量或新变量的函数此外，DPD可以发现这表明了所提出的框架的实用性。致谢作者感谢美国空军研究实验室根据美国国防部5230.24号指令定义的分布A提供腐蚀数据供公开发布。本材料基于美国国防高级研究计划局（DARPA）根据协议编号HR00111990032支持的工作。批准公开发行;发行不受限制。引用艾拉2018.人工智能研究协会.https://www.darpa.mil/program/artificial-intelligence-research-associate.Atkinson，S.; Subber，W.;王，L.; Khan，G.; Hawi，P.;和Ghanem，R. 2019.自由形式控制微分方程的数据驱动发现。arXiv预印本arXiv：1910.05117。Baker，N.; Alexander，F.; Bremer，T.; Hagberg，A.;Kevrekidis ， Y.; Najm ， H.; Parashar ， M.; Patra ， A.;Sethian，J.; Wild，S.;等，2019年。科学机器学习基础研究需求研讨会报告：人工智能核心技术技术报告，美国能源部科学办公室（SC），华盛顿特区（美国）。火车测试1.00.80.60.40.20.0R2（试验）= 0.251RMSE（检验）=腐蚀电流预测预测BICR2δ（H）V[%]-5620.20.1320。391 exp（H）78-5609.60.0980。99 H +0。08332-5608.80.0950。274 H2+ 0。509 H+0。29328≤1.00.80.60.40.20.0观测预报0.2 0.4 0.6 0.8 1.0时间索引1.000.750.500.250.00R2（试验）= 0.884RMSE（检验）=0.0670.0 0.2 0.4 0.6 0.8 1.0观察到图9：t > 0时发现的模型g（T，H，θ）的预测。08.置信区间定义为（µ±σ）。表3：训练数据集t0的独立模型。五、性能指标基于测试数据集t > 0。五、图10：验证发现的独立模型g（T，H，θ），t > 0. 五、1.00.80.60.40.20.00.5 0.6 0.7 0.8 0.9 1.0时间索引巴凯尔河E.的; 佩尼亚，J. - M.; Jayamohan，J.; 和Je'rusalem，A. 2018.机械模型与机器学习，一场值得为生物界而战的Biology Letters14（5）：20170660.Brunton，S. L.的; Proctor，J. L.;和Kutz，J.N. 2016. 用非线性动力系统的稀疏辨识从数据中发现控制方程美国国家科学院院刊113（15）：3932Fortin，F.一、De Rainville，F.M.; 加德纳，M.-一、Parizeau，M.; 和Gagn e′，C. 2012年。DEAP：进化算法变得简单。Journal of Machine Learning Research13：2171-2175.Ghosh，S.;Pandita，P.;Atkinson，S.;Subber，W.;张玉;图11：t > 0时发现的独立模型g（T，H，θ）的预测。五、置信区间定义为（µ±σ）。Kristensen，J.;Subber，W.;张玉;Ghosh，S.;库马尔，N. C.的; Khan，G.;和Wang，L. 2019.多目标优化智能自适应采样方法的工业在设计工程和制造。IntechOpen。Olajire，A.A. 2018年海洋金属结构防腐蚀有机涂层体系技术的最新进展Journal of Molecular Liquids269：572张玉;Ghosh，S.;Pandita，P.;Subber，W.;Khan，G.;和Wang，L. 2020.扩展一般高斯过程以使用子模型对大数据集建模的注释。在AIAA Scitech 2020论坛上，0678.库马尔，北C.的; Chakrabarti，S.;和Wang，L. 2020.贝叶斯概率模型在工业应用中的进展。ASCE-ASME J工程系统中的风险和不确定性B部分机械工程6（3）。Jain，S. K.的; and Singh，V. P. 2003. 水资源系统规划和管理。爱思唯尔Kennedy，M. C.的;和O'Hagan，A. 2001.计算机模型的贝叶斯校准。Journal of the Royal Statistical Society：Series B（Statistical Methodology）63（3）：425Koza，J. R.;和Koza，J.R. 1992. 遗传编程：计算机编程的自然选择，第1卷。MIT Press.腐蚀电流观测预报预测腐蚀电流BICR2δ（T，H）V[%]-2235.60.8620。537HT（H2T+H−T+0。457（H-T）exp（H（H+T）25-2220.50.833H2（H2− 0. 456T）21-2186.20.825H3（− 0. 479T +0。479exp（H）− 0。（第304条）19

下载后可阅读完整内容，剩余1页未读，立即下载