Exasim软件：生成GPU上的偏微分方程数值解的不连续Galerkin码

136 浏览量更新于2024-01-25 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 20（2022）101212原始软件出版物Exasim：在图形处理器上生成偏微分方程数值解的不连续Galerkin代码若尔迪·维拉-佩雷斯河Loek Van Heyningen，Ngoc-Cuong Nguyen，Jaume Peraire麻省理工学院航空航天系，剑桥，02139，MA，USAar t i cl e i nf o文章历史记录：收到2022年收到修订版，2022年9月7日接受，2022年MSC：65M6065Y0565Y1065Z0568N99保留字：参数化偏微分方程模型高性能计算a b st ra ct本文概述了Exasim的功能和应用，Exasim是一个开源代码，用于生成高阶不连续Galerkin码来数值求解参数化偏微分方程（PDE）。该软件结合了高级和低级语言，通过Julia，Python或Matlab脚本构建参数化PDE模型，并生成高性能C++代码，用于在具有分布式内存的CPU和Nvidia GPU处理器上求解PDE模型。Exasim提供了无矩阵的不连续 Galerkin离散化方案以及可扩展的缩减基预处理器和Newton-GMRES求解器，使其适用于广泛类别的PDE的精确和高效近似版权所有©2022作者。由爱思唯尔公司出版这是CC BY-NC-ND下的开放获取文章许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。代码元数据当前代码版本0.4用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-22-00105Code Ocean compute capsule法律代码许可证MIT许可证使用git的代码版本控制系统软件代码语言，工具和服务使用C++，CUDA。除了Python，Julia和/或Matlab。编译要求，操作环境依赖性CUDA工具包，BLAS，Lapack，MPI，METIS，Gmsh和Paraview。LLVM和酶的CLang如果可用，链接到开发人员文档/手册https://github.com/exapde/Exasim/blob/master/Documentation/Exasim.pdf问题支持电子邮件exapde@gmail.com，cuongng@mit.edu1. 动机和意义高阶方法在求解偏微分方程（PDE）的实践者中越来越感兴趣[1与低阶格式相比，它们在降低计算成本的同时提高了精度，并且扩散和色散误差较低，因此具有很大的优势[4，5]。特别是，不连续Galerkin（DG）公式已成为许多不同领域中最常用的高阶方法之一[6DG方法依赖于局部*通讯作者。电子邮件地址：jvilap@mit.edu（Jordi Vila-Pérez）.https://doi.org/10.1016/j.softx.2022.101212保守的制定，确保高阶精度的非结构化网格。此外，它们提供了对流算子的稳定定义，并允许合适的hp自适应策略[13为此，在过去的几年中，已经提出了不同类别的DG离散化[18特别地，DG方法与无矩阵方法的组合由于其可扩展性而成为最流行的替代方案之一，适合于解决高性能计算（HPC）平台中的大规模问题[22，23]。无矩阵DG离散化已被证明优于其他常见方法，如混合DG（HDG）方法[24]。2352-7110/©2022作者。由爱思唯尔公司出版。这是一篇开放获取的文章，使用CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softx若尔迪·维拉-佩雷斯河Loek Van Heyningen，Ngoc-Cuong Nguyen等人软件X 20（2022）1012122⊂˜]∈∈∈ ∈∈∈∈∈= ∈ ××表1Exasim中属于每个模型类别的PDE示例。对流模型线性和非线性对流，Burgers方程，Euler方程浅水方程扩散模型泊松方程，非线性弹性、可压缩波动模型波动方程、线性和非线性弹性动力学、麦克斯韦特别是，HDG方法因其在椭圆问题中增加的准确性和降低的计算复杂性而流行[25，26]，并用于所有类别的PDE，包括流体流动[27然而，在无矩阵方法中，HDG方案需要建立系统矩阵或处理更大的方程组[38]，当与非线性求解器结合时，会产生很高的计算成本，这使得它们与无矩阵DG方案相比。本文介绍了Exasim，一种基于本地DG（LDG）方法生成高阶DG代码的开源软件[18，39]。Exasim执行隐式无矩阵方法[22，40]，使代码适合在使用CPU和GPU的多个架构上运行。此外，它利用了参数化的偏微分方程，减少了2.1. 参数化PDE模型基本的偏微分方程系统必须被写为一组一阶偏微分方程，并且也可以与某个常微分方程（ODE）耦合以形成微分代数方程系统例如，在开放域中定义的扩散模型，其中tf>0，并以其更一般的形式表示，读作q+u=0，在×（0，tf]中，（一）拉乌m（u，x，t，μ）t+·f（u，x，t，μ）=s（u，x，t，μ），单位为×（0，tf]，（一）乙模型的数学描述到状态变量、通量、源项以及初始和边界条件的定义。这些物理术语的定义明确地在这样一个埃夫α-γ射线+βw=sw（u，x，t，µ），在n×（0，tf]中，（1c项）通用框架允许用户以无缝的方式定义多样和复杂的物理系统，而不必处理弱公式或进一步的数学抽象[41]。此外，高级界面允许用户使用成熟的语言（如Julia，Python或Matlab）指定这些术语。然后，代码执行预处理阶段，将这些功能集成到高性能C++代码中，该代码与C++和CUDA内核接口，并允许软件在不同的计算平台上运行。通过这种方法，Exasim提供了一个轻量级的开源产品，可以很容易地为用户采用任何类型的经验，在DG离散化。同时，该代码具有隐式时间无矩阵方法，可作为先进的研究工具，能够在具有多个处理器和适当可扩展性的不同架构中运行，从而使其能够解决涉及数百万自由度的复杂问题[22，40]。总而言之，该软件结合了设计用于在GPU架构上操作的高性能隐式DG代码的典型特征[42-与此同时，这与提供GPU功能和高级前端的流行DG代码形成对比，因为它们的显式[48，49]或双[50]时间步进方法，或各种在CPU上运行的成熟HPC替代方案[51本文件其余部分的结构如下。第2节描述了Exasim处理的参数化PDE模型和离散化方法然后，第3节详细介绍了代码架构及其不同的功能。第4节中提供了一些示例，以说明软件的功能。最后，第5节和第6节总结了这一影响。工作和本文的主要结论。2. 模型和离散化方法Exasim产生可执行DG代码以求解各种PDE模型，这些PDE模型可以在一般参数化公式下描述并在对流、扩散或波型方程（软件中的模型C、D和W）下分类，例如表1中列出的那些，并描述如下。具有适当的初始和边界条件。这里，状态变量u的集合（u，q，w）RncuRncu ×ndRnw 是偏微分方程模型的精确解，x是坐标变量的向量，t表示（0，t f）中的时间变量，µRnparam是物理参数的向量。另外，向量值函数m是一个质量函数，矩阵值函数fRncu×nd 是一个通量和向量值函数sRNCu是一个源项。同样，αR，β R和swRnw分别是附加常微分方程的两个参数和一个源项.当状态变量u不包含q且方程（1a）-（1b）为非线性时，扩散模型（1a）不包括在模型中波模型来自扩散模型时，方程。（1a）被替换为格t+inn×（0，tf]，（1d）并采用ODE方程（1c）来恢复位移场w。最后，请注意，除了扩散、对流和波动模型之外，Exasim还可以通过将高阶PDE模型重写为一阶方程组来求解它们2.2. 离散化方法Exasim采用LDG方法对PDE模型（1）进行空间离散化，从而得到一个包含源、通量、质量、数值轨迹和数值通量函数的半离散方程在Exasim中，这些函数作为脚本文件中符号变量的数学表达式输入。这允许用户仅通过在高级语言设置（即Python、Julia或Matlab）中编写这些数学函数来定义PDE模型的LDG离散化还要注意的是，通过提供适当的数值迹线和通量表达式，可以在Exasim中实现广义LDG框架内的不同DG方法，另一方面，Exasim采用几种对角隐式若尔迪·维拉-佩雷斯河Loek Van Heyningen，Ngoc-Cuong Nguyen等人软件X 20（2022）1012123Fig. 1. 流程图总结了Exasim的代码架构和不同流程之间的依赖关系。颜色代码如下：高级/低级语言实现的进程（分别为蓝色/红色），输入和输出文件（绿色），外部功能（洋红色）。(For参考文献的解释要在此图图例中着色，请参考本文的网络版本阴谋用户可以指定级数n和精度阶数m，支持高达四阶的时间精度。3. 软件描述Exasim将用于预处理和代码生成的高级接口与C++语言相结合，以获得可在CPU和GPU架构上运行的高性能代码。Exasim利用了许多外部库和软件，例如线性代数库BLAS和LAPACK、用于网格生成的Gmsh、用于网格分区的METIS、GPU感知MPI库、用于GPU架构的CUDA工具包和用于可视化的Paraview。代码架构的概要如图所示。1，它说明了不同的任务和依赖关系以及一些软件的主要功能。代码的一些此外，代码安装和问题设置的详细描述可以在Exasim3.1. 自动代码生成定义PDE模型（1）的问题参数和函数，即，通量函数，源项，初始和边界条件，通过高级语言编写的脚本在Exasim中指定，即Julia，Python或Matlab。然后通过自动代码生成模块将生成的代码通过采用常见的子压缩消除（CSE）工具自动优化，以通过内置的符号工具箱消除重复表达式[56]。最后，用Exasim的C++内核代码解释C++/CUDA代码，实现了相应的离散化和求解方法。Exasim的3.2. 高阶网格生成Exasim提供了一个网格模块来生成简单几何体的网格。类似地，Exasim使用Gmsh [57]从几何模型文件生成网格。然而，任何替代的网格生成器都可以用于生成有限元网格复杂的几何形状。Exasim从标准有限元网格生成DG等参离散化所需的高阶网格，并将边界节点投影到相应的曲面网格边界上。3.3. 无雅可比牛顿LDG方法是ExasimDG/DIRK离散化所产生的方程组的解决，通过使用雅可比自由牛顿GMRES方法。GMRES求解器的性能通过无矩阵预处理器加速，该预处理器使用缩减基方法和雅可比矩阵的低秩近似[40]构建。Ex-asim提供了两种计算GMRES矩阵向量乘积的选择默认实现基于一阶有限差分近似。或者，也可以使用依赖于外部软件包Enzyme [58，59]的自动微分（AD）方法。此外，还使用了许多不同的算法来优化代码性能，包括用于残差评估的张量积和因子分解，或用于自定义GPU分配的自动调整。关于离散化和求解方法的更多细节可以在[22，40]中找到。3.4. GPU可扩展性Exasim提供了一组数值算法，适合优化GPU系统的性能[22]。如表2所示，该软件在弱标度和强标度测试中表现出色，用于Purdue扩口锥体的直接数值模拟（DNS）[60，61]。模拟采用三阶DG和DIRK方案，OLCF的Summit超级计算机上有多达768个节点，每个GPU有一个MPI秩，每个节点有6个当从24个节点增加到768个节点时，在弱缩放测试中获得约5%的退化，而随着节点数量的增加，在强缩放结果中也可以观察到3.5. 可视化Exasim使用Paraview可视化和分析的数值解决方案，一旦模拟完成立即。为此，采用后处理工具从解决方案数据生成相应的VTK/VTU文件高阶可视化是通过分裂网格元素，生成线性元素的子网格，然后由Paraview处理来实现的。4. 说明性实例Exasim有大量的例子，包括对流扩散，传热，可压缩流，波传播和磁流体力学问题。本节介绍四个不同的示例，代表对流、扩散和波动模型，代码库中提供了这些示例。若尔迪·维拉-佩雷斯河Loek Van Heyningen，Ngoc-Cuong Nguyen等人软件X 20（2022）1012124==== −= −====-=-=×（）下一页=-对混合变量qh，得到了p阶收敛。同样，该示例显示上级=-v0ε+v′、v′克坦（kx）表2Exasim在Nvidia Tesla V100 GPU上的弱缩放和强缩放测试。时间列指示每个时间步所需的物理时间。弱标度强定标节点自由度时间（秒）时间比自由度时间（秒）时间比240.408B3.101.0001.632B12.451.000480.816B3.121.0061.632B6.250.502961.632B3.141.0131.632B3.140.2521923.264B3.171.0231.632B1.590.1283846.858B3.201.0321.632B0.810.06576813.056B3.251.0481.632B0.430.035图二. Poisson示例-使用四面体的均匀网格和不同多项式近似度的误差收敛，作为网格大小（左）和标准化运行时间（右）。4.1. Poisson方程给出了单位立方体<$（0， 1）3上的三维Poisson算例，并给出了解析解usin（πx）sin（πy）sin（πz），以验证数值方法的收敛性，特别是对于扩散模型.该问题是解决了一组结构化的四面体网格，并使用不同的多项式逼近度，p。误差的收敛被报告为图2（a）中网格大小和图2（b）中计算时间的函数。第 2段（b）分段。运行时间，无论是单核英特尔至强位移场沿θ π/9线衰减。最后图图3（e）显示了不同近似阶数的雷达截面（RCS）[62]，突出了时间和空间中高阶近似的重要性，以确保波传播的低4.3. 比克利喷射器使用浅水方程的Bickley射流[63]的配置说明了对流模型的一个示例。的E5 2660 v3 CPU和Nvidia Titan V GPU，由情况2 描述了a2喷流，u喷流为GPU计算的最大时间（tmax= 96. 在网格5中为65 sp=3）。sech（y），在平方域φ（2π， 2π）中，受到初速度场的轻微扰动，即最优收敛速度的p+1得到的近似-[u0]=[ujet+ε+u′][u′]=[ktan（ky）+ky/k2]（2a）高阶方法的效率和GPU实现的更好性能4.2. 平面波对圆柱的散射本研究的第二个例子对应于波数为k 的平面声波的传播（10， 0）在具有单位介电常数的介质中，1，和声速，C1，由单位半径的2D圆柱体散射。问题在平方域中求解（（12） 2、吸收-外边界上的边界条件和圆柱边界上的Neumann边界条件。数值模拟是使用不同的近似阶数，从p3至p5和DIRK（3，4）方案，采用一个由4224个具有弯曲边界的三角形组成的非结构化网格，如图2所示。第3（a）段。散射波的解决方案是描绘在图。3（b）和3（c）分别为p 3和p 5，在50个时间段后，而图。图3（d）说明了二次型其中ε0的情况。1是各向同性扰动，u′和v′是速度场的涡扰动，偏心涡量场=exp− （ y+x/10 ） 2/ （ 2<$2 ） cos （ kx ） cos （ ky ），（ 2b）高斯宽度<$0。5和波数k0。5.这个问题是解决在一个128 - 128笛卡尔网格与周期性的边界条件，给定的无量纲重力值g10- 4。模拟使用p4多项式和DIRK（3，3）方案。不同时间的速度幅值的示意图如图所示。四、Exasim解决了这种情况下，不需要物理或人工扩散，表现出良好的分辨率和传播的流动扰动。4.4. Taylor–Green最后，研究认为1600，它是在π=（0，2 π）3中求解的具周期边界若尔迪·维拉-佩雷斯河Loek Van Heyningen，Ngoc-Cuong Nguyen等人软件X 20（2022）1012125=图3.第三章。波散射-（a）具有弯曲边界的非结构化网格详图，t = 5 0 T 时的瞬时位移场（b）p = 3，（c）p = 5，（d）沿θ = π/9线，以及（e）雷达截面。（d）中的虚线表示二次衰减。图四、 Bickley jet-不同模拟时间的速度场大小，使用p = 4多项式和DIRK（3，3）时间方案计算。条件下，采用64个3立方体和三阶和四阶多项式的结构化网格，并使用隐式大涡模拟（ILES）方法[40]。模拟已经在6个NvidiaTesla V100 GPU上进行，分别花费8.97和23.46 GPU小时，以600个时间步长达到最终状态tf图5中对动能耗散进行了评估，并与DNS参考溶液进行了比较[64]。一方面，图5（b）说明了动能率的演变，表明ILES解和参考解DNS解决方案。特别地，p=3的解显示出比t=12的p=4近似更低的能量耗散若尔迪·维拉-佩雷斯河Loek Van Heyningen，Ngoc-Cuong Nguyen等人软件X 20（2022）1012126==−≃==-图五. 泰勒-格林涡旋-动能率随时间的演化（a）和无量纲时间t = 9时的动能谱（b）。虚线表示斜率为-5/3。表3Taylor-Greenvortex -单个Nvidia Tesla V100 GPU的计算和内存利用率，采用p 4和32 3六面体网格。总效率吞吐量反映了上述数字效率吞吐量gpuTemplateArrayAXPBYgpuTemplateArrayAtIndex向前看另一方面，Fig. 图5（a）描绘了最大耗散时刻t9的动能谱。p4解与波数k<80的参考解相比非常接近，但它高估了最高波数的能量。波谱还示出了高达k的波数的第一范围20时，它遵循幂律与指数接近的理论值5/ 3。或者，即使对于低波数，p3解也显示出过高的能量含量.这个例子也在32× 3六面体的网格中求解，p4，采用单个GPU，以评估硬件利用率的效率.为此，表3报告了代码中至少占运行时间80%NvidiacuBLAS库中的dgemm另一方面，大多数剩余的内核显示出对内存带宽的有效利用。5. 影响Exasim的目的是使DG方法可供用户使用，同时提供一个强大的求解器，能够通过创新的数值算法处理大型非线性方程组。为此，高级界面允许用户在简单的Python、Julia或Matlab脚本中指定描述一般参数化PDE系统的通量、源项、边界条件和初始条件的分析表达式。这个模拟- 简单的预处理步骤，然后集成在C++和CUDA内核与基于MPI的并行化，从而产生一个高性能的代码能够在CPU和GPU上运行此外，该软件采用了一套适合这种架构的GPU加速数值算法，允许利用其计算能力，并显着增加Exasim能够处理的数值模拟的规模和大小。以这种方式，软件本身代表了一个关键工具，以面对需要高计算能力的实际问题。为此，Exasim已被用于不同的大规模LES计算，预测跨音速或高超音速应用中的转捩和湍流[22，40]。此外，鉴于制定PDE模型的简单性，Exasim有可能促进在涉及复杂描述和耦合现象的物理系统中引入现代高阶DG离散化。最后，Exasim的模块化结构允许利用外部库和包的全部功能。这是酶的情况，其已被集成在软件中以在与GMRES迭代相关联的矩阵-向量乘积中执行前向模式自动微分6. 结论本文介绍了Exasim，一个用于生成数值解的间断Galerkin码的开源软件的PDEs。该代码具有Julia，Python和Matlab的高级用户界面，用于预处理和代码生成，并将其与C++和CUDA/MPI内核相结合，产生能够在CPU和GPU平台上运行的高性能代码。该代码利用了一种无矩阵的解决方案方法，提供了完整的GPU功能和良好的可扩展性，这种架构。该软件已在许多不同的内核利用计算存储器_dgemm_64 ×64_nn128 ×64_nndot_kernelgpuTemplatePutFaceNodesV0 gpuTemplateApplyXx3gpuTemplateApplyXx4kernelgpuFlux百分之十四点四百分之十三点九百分之十二点一百分之十点一百分之六点八百分之六点八百分之六点八5.7%3.6%54.81%3.60%63.73%3.48%14.68%40.13%百分之五点八八7.84%12.73%41.69%88.21%30.53%85.57%96.10%44.73%63.68%80.50%89.04%总百分之八十点二26.79%65.21%若尔迪·维拉-佩雷斯河Loek Van Heyningen，Ngoc-Cuong Nguyen等人软件X 20（2022）1012127应用程序和例子，它构成了一个基本的学习框架和先进的计算研究，用于提高我们的理解复杂的流动物理创新的数值工具。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作数据可用性文章中描述的研究未使用任何数据致谢作者要感谢Albertien Terrana在软件开发中的贡献，以及William Moses在Exasim中设置酶的帮助。我们衷心感谢美国能源部（根据合同DE-NA 0003965）和美国国家科学基金会（根据授权号NSF-PHY-2028125）对本工作的支持。最后，作者感谢橡树岭领导计算设施提供访问他们的GPU集群。引用[1] Kroll N ， Hirsch C ， Bassi F ， Johnston C ， Hillewaert K ， editors.IDIHOM ：高阶方法的工业化 - 自上而下的方法。 SpringerInternationalPublishing;2015.[2] 克罗尔河ADIGMA：一个关于航空航天应用的自适应高阶变分方法发展的欧洲项目。航空航天科学会议，美国航空航天研究所;2009年。[3] 王正杰，王晓，等.高阶计算流体动力学方法的研究现状与展望. Internat JNumerMethods Fluids2013;72（8）：811-45.[4] Slotnick J，Khodadoust A，Alonso J，Darmofal DL，Gropp W，Lurie E，etal.CFDvision2030study：Apathtorevolutionarycomputationalaerosciences. （技术。众议员 NASA-CR-2014-218178 ）。NASA; 2014.[5] 叶卡捷琳娜空气动力学的高精度、低数值扩散方法。Prog Aerosp Sci2005;41（3-4）：192-300.[6] Cockburn B，Karniadakis GE，Shu C-W.间断Galerkin方法的发展。不连续Galerkin方法。Berlin，Germany：Springer-VerlagBerlin Heidelberg; 2000，p. 三比五十[7] 简·S赫斯海文TW。节点间断伽辽金方法。Springer NewYork;2010.[8] 作者：Jiang Jiang，Lin S-Y，Shu C-W.守恒律的龙格-库塔局部投影间断伽辽金有限元法III：一维系统。J Comput Phys1989;84（1）：90-113.[9] Cockburn B，Shu C-W.守恒律的龙格-库塔间断伽辽金方法[J].计算物理学报，1998;141（2）：199-224.[10]Bassi F，Rebay S.二维欧拉方程的高精度间断有限元解。 J Comput Phys1997;138（2）：251[11]Bassi F，Rebay S.数值解可压缩Navier-Stokes方程的高精度间断有限元方法。J Comput Phys1997;131（2）：267-79.[12]Bassi F，Rebay S.可压缩Navier-Stokes方程的两种间断Galerkin方法的数值评价。Internat J NumerMethods Fluids2002;40（1-2）：197-207.[13]张文，张文，等.非线性双曲守恒律的自适应间断有限元方法.北京：清华大学出版社，2001. SIAM J Sci Comput2003;24（3）：979-1004.[14]Balan A，Woopen M，May G.杂交间断Galerkin格式在各向异性网格上的Hp适应性。在：第22届AIAA计算流体动力学会议。美国航空与航天研究所;2015年，[15]Giorgiani G，Fernán-Méndez S，Huerta A.不可压Navier-Stokes方程的具有度自适应的可杂交间断Galerkin。Comput Fluids2014;98：196-208.[16]Cangiani A，Dong Z，Georgoulis EH，Houston P.hp-多边形和多面体网格上的间断Galerkin方法。Springer-Verlag;2017.[17]Roca X，Nguyen C，Peraire J.可压缩流的杂交间断Galerkin方法的可扩展并行化。第21届AIAA计算流体动力学会议。美国航空航天研究所;2013年，[18]科伯恩湾，舒C-W的当地不连续Galerkin方法时间依赖的对流扩散系统。SIAM J Numer Anal1998;35（6）：2440-63.[19]Peraire J ， P.O. 椭圆问题的紧致间断 Galerkin 方法。 SIAM J Sci Comput2008;30（4）：1806[20]Cockburn B，Gopalakrishnan J.二阶椭圆问题杂交混合方法的特征。SIAM JNumer Anal2004;42（1）：283-301.[21]CockburnB，Guzmán J，Soon S-C，Stolarski HK.二阶椭圆型问题的嵌入间断Galerkin方法分析。SIAM JNumer Anal2009;47（4）：2686-707.[22]Terrana S，Nguyen NC，Peraire J.高超声速流的GPU加速大涡模拟。AIAAScitech 2020论坛。2020年，p.AIAA-2020-1062。[23]放大图片作者：Kronbichler M，Kormann K.不连续伽辽金有限元算子的快速无矩阵求值。ACM Trans Math Softw 2019;45（3）：1[24]Kronbichler M，Wall WA.用快速多重网格解算器比较连续和不连续伽辽金法的性能。SIAM J SciComput2018;40（5）：A3423-48。[25]Huerta A，Angeloski A，Roca X，Peraire J.连续和不连续Galerkin方法的高阶单元的效率。Internat J NumerMethods Engrg2013;96（9）：529-60.[26]Woopen M，Balan A，May G，Schütz J.可压缩流基于目标的hp自适应模拟的杂交和标准DG方法的比较。Comput Fluids2014;98：3-16.[27]Sevilla R，Huerta A.二阶椭圆问题的可杂交间断Galerkin（HDG）。In：Schröder J，Wriggers P，editors. 先进的有限元技术。CISM国际机械科学中心，第566卷，施普林格国际出版社; 2016年，第100页。105比29[28][10]杨文，李文，李文.应力张量强对称Stokes流的超收敛HDG方法。J SciComput2018;77（3）：1679-702.[29]Vila-Pérez J，Giacomini M，Sevilla R，Huerta A.可压缩流的可杂交间断伽辽金公式。Arch Comput Methods Eng2020;28（2）：753-84.[30]杨文，杨文，等.非连续网格方法在湍流数值模拟中的应用.北京：清华大学出版社，2000。J Comput Phys 2017;336：308-29.[31]放大图片作者： ClaudioC ， Fernandez P ， Christophe A ， Nguyen N ，Peraire J.可压缩磁流体力学的隐式杂交间断Galerkin方法。J Comput PhysX2020;5：100042.[32]张文，张文，等.连续介质力学中偏微分方程的可杂交间断Galerkin方法.北京：清华大学出版社，2001. J Comput Phys2012;231（18）：5955-88.[33]Sevilla R，Giacomini M，Karkoulias A，Huerta A.线弹性力学的超收敛混合间断Galerkin方法。Internat JNumer Methods Engrg2018;116（2）：91-116.[34]Fernandez P，Christophe A，Terrana S，Nguyen NC，Peraire J.波传播的混合不连续Galerkin方法。J Sci Comput2018;77（3）：1566-604.[35]Nguyen N，Peraire J，Cockburn B.声学和弹性动力学的高阶隐式杂交间断Galerkin方法。J Comput Phys2011;230（10）：3695-718.[36]Vidal-Codina F，Nguyen N，Oh S-H，Peraire J.计算三维金属纳米结构中非局部电磁效应的可杂交非连续Galerkin方法。J Comput Phys2018;355：548-65.[37]Vidal-Codina F，Nguyen N-C，Ciracionic C，Oh S-H，Peraire J.用于计算三维金属纳米结构中二次谐波产生的嵌套混合不连续Galerkin方法。J ComputPhys2021;429：110000.[38]Kronbichler M，Kormann K，Wall WA.可杂交不连续Galerkin算子的快速无矩阵求值。在：计算机科学与工程讲义. Springer International Publishing;2019，p. 581-9[39]杨伟杰，王伟杰，王伟杰.不可压Navier-Stokes方程的局部守恒LDG方法MathComp2005;74：1067-95.[40]张文，等.非连续网格法在跨音速抖振中的应用.北京：机械工程出版社，1999.AIAA J 2022;1[41]Alnæs MS，Logg A，Alglgaard KB，Rognes ME，Wells GN. 统一形式语言。ACM Trans Math Softw2014;40（2）：1-37.[42]Arndt D，Fehn N，Kanschat G，Kormann K，Kronbichler M，Munch P，et al. ExaDG：Exa-scale高阶不连续Galerkin. In：Bungartz H-J，Reiz S，Uekermann B ， Neumann P ， Nagel WE ， editors. Exascale 计算软件 -SPPEXA 2016-2019。Cham：SpringerInternational Publishing; 2020，p. 189-224。若尔迪·维拉-佩雷斯河Loek Van Heyningen，Ngoc-Cuong Nguyen等人软件X 20（2022）1012128[43][10] J.A. D，J.A. W，J.A. D，J.A. M，et al. The Deal.II有限元库：设计、功能和见解。计算数学应用2021;81：407-22.[44]Anderson R，Andrej J，Barker A，Bramwell J，Camier J-S，Cerveny J，等.MFEM：一个模块化的有限元方法库。计算数学应用2021;81：42-74.[45]Ching EJ，Bornhoft B，Lasemi A，Ihme M. Quail：一个轻量级的Python开源不连续Galerkin代码，用于教学和原型设计. SoftwareX2022;17：100982.[46][10]杨文，王文. HDGlab：MATLAB中可混合不连续Galerkin方法的开源实现。ArchComput Methods Eng2020;28（3）：1941-86.[47]埃米特湾 FESTUNG：一个 MATLAB/GNU 的Octave 工具箱，用于不连续Galerkin方法。第四部分：通用问题框架和模型耦合接口。Commun ComputPhys2020;28（2）：827-76.[48]Klöckner A，Warburton T，Hesthaven JS.在非结构几何上求解波动方程.中：GPU计算宝玉石版. Elsevier;2012，p. 225比42[49]Schöberl J. C++11在NGsolve中实现有限元。 Tech. 代表，分析和科学计算研究所，维也纳技术大学- TU Wien;2014年。[50]Witherden F，Farrington A，Vincent P. PyFR：使用通量重建方法解决流式架构上的对流扩散类型问题的开源框架。 Comput Phys Comm2014;185（11）：3028-40.[51][10]杨文，李文，李文，李文. 非定常问题的显式间断Galerkin方法。Comput&流体2012;61：86[52]Cantwell C，Moxey D，Comerford A，Bolis A，Rocco G，Mengaldo G，等 .Nektar++ ：一个开源的 spectral/hp 元素框架。 ComputPhysComm2015;192：205-19.[53]Dedner A，Klöfkorn R，Nolte M，Ohlberger M.并行和自适应离散方案的通用接口：抽象原则和沙丘有限元模块。Computing2010;90（3-4）：165-96.[54]Prud'homme C，Chabannes V，Metivet T，Hild R，Trophime，Samake A，etFeelpp/feelpp：Feel++ V109. 2021年[55]亚历山大河求解刚性常微分方程的对角隐式Runge-Kutta方法。SIAMJ NumerAnal 1977;14：1006-21.[56]Meurer A，Smith CP，Paprocki M，Čertík O，Kirpichev SB，Rocklin M，et al. SymPy：Python中的符号计算。PeerJ Comput Sci2017;3：e103.[57]Geuzaine C，Remacle J-F. Gmsh：一个内置预处理和后处理设施的三维有限元网格生成器。Internat J Numer MethodsEngrg2009;79（11）：1309-31.[58]Moses W，Churavy V.，而不是重写机器学习的外国代码，自动合成快速梯度。In：Larochelle H，Ranzato M，Hadsell R，Balcan MF，Lin H，editors.神经信息处理系统进展，第33卷。柯兰联营公司; 2020年，p. 12472-85[59]Moses WS ， Churavy V ， Schihler L ， Hückelheim J， Narayanan SHK ，Scha-nen M等人，

下载后可阅读完整内容，剩余1页未读，立即下载