GPU-Warp驱动的高效有限元矩阵生成与装配策略

179 浏览量更新于2024-06-17 收藏 1.43MB PDF 举报

"基于GPU-Warp的有限元矩阵生成与装配方法是一篇发表在《计算设计与工程》杂志上的研究论文，由Utpal Kiran、Deepak Sharma Chang和Sachin Singh Gautam等人撰写，来自印度理工学院机械工程系。该研究旨在利用图形处理单元（GPU）的强大计算能力，特别是NVIDIA Tesla K40 GPU，显著减少有限元模拟的时间。论文的核心内容聚焦在如何通过GPU的计算统一设备架构（CUDA）中的Warp Shuffle功能，优化数值积分过程，从而加速有限元矩阵的生成。作者提出了一种新的策略，结合着色方法，这是一种在GPU并行编程中常见的技术，通过将工作负载划分为较小的、独立的计算单元（Warp），以实现细粒度的并行处理和高效利用片上存储器。这种方法采用了部分并行的数值积分方法，提高了单元刚度矩阵求解的效率。对于三维弹性问题，作者选择了8节点六面体单元进行性能测试，结果显示，在NVIDIA Tesla K40 GPU上，他们的方法可以达到8.2倍的加速比，这远超出了仅依赖着色元素组装策略，后者每个元素仅使用一个线程。此外，新策略不仅提高了计算速度，还显示出更高的算法吞吐量和带宽。论文的背景指出，GPU的并行计算架构与传统的CPU有所不同，使得它们特别适合处理大量独立数据集的计算密集型任务。有限元法作为解决偏微分方程的关键数值方法，通过与GPU的有效协作，能够极大地提升计算效率。本文的研究对于那些寻求在科学计算领域优化有限元分析的应用来说，提供了有价值的技术参考。值得注意的是，这篇论文是在CC BY-NC-ND许可下发布的，意味着读者可以在指定的条件下自由分享和使用文章内容。对于希望深入了解GPU-Warp在科学计算中的实际应用或优化有限元方法的工程师和技术人员来说，这是一项重要的研究成果。"

联合

Kiran

等人

Journal of Computational Design and Engineering 6

（

2019

）

705-718

707

通过以合并的方式读取输入数据并使用每个元件的单个线程来计算

元件刚度矩阵（

）全局矩阵使用

CSR

存储格式，该格式具有预计

算的列索引和行偏移。对于属于共享存储器中的补丁的所有元素进

行组装，并且最终数据以合并的方式写入全局存储器中的全局矩

阵。在

Zayer

，

Steinberger

和

Seidel

（

2017

）中发现了一种基于稀

疏矩阵乘法的新有限元装配策略。该策略通过稀疏矩阵表示捕获网

格的连通性信息，并使用它们来有效地组装元素矩阵，避免任何类

型的预处理。另一种最近的有限元组装方法见于

Sanfui

和

Sharma

（

2017

）。在这项工作中，三维有限元的装配过程分为一个节点的

节点符号部分和一个元素的元素的数字部分。

上述研究中提出的策略在

GPU

上实现了显着的加速，然而，这些

策略已经过时了。但这些方法仍然可行。在总结前人工作的基础

上，我们发现数值积分方法不需要片外存储器，具有冗余计算的特

点，更适合

GPU

实现。对于低阶单元，采用局部记忆或全局记忆的

方法性能更好，但对于刚度矩阵尺寸较大的单元，记忆带宽受到在

使用每个元素一个线程策略的情况下尤其如此。在这项工作中，我

们提出了一种策略，使用多个线程做一个元素的计算这为我们提供

了足够的片上存储空间，用于数值积分（无冗余计算）以及元素矩

阵。现有的着色方法被用来避免在装配过程中的竞争条件。网格被

划分成不相交的元素集表示不同的计算相应的每一种颜色是由

GPU

内核顺序进行。所提出的策略使用同一内核实现元素

预赛

3.1.

GPU

架构和

CUDA

GPU是面向吞吐量的设备，设计用于处理

数据

GPU

的硬件设计基于众核处理单元，与

CPU

等多核处理单元有

很大不同众核设计包括大量的简单处理单元，非常小的高速缓存，和

高内存带宽。另一方面，多核处理器由几个高度复杂和高效的核心以

及大缓存和低内存带宽组成。本文采用了

NVIDIA

公司的

GPU

，它

由多个流式多处理器（

）组成每个

包含多个流处理器（

）

和片上存储器。它还有一个被称为全局内存的片外存储器

（

DRAM

），在

GPU

上具有最高的延迟。片外存储器也用于

CPU

和

GPU

之间的数据每个

可用的片内存储器进一步分为寄存器、可配

置共享存储器和只读数据缓存。寄存器被分配给一个线程，并且不能

被任何其他线程访问

共享内存是线程块的公共内存，它可以被该块

的所有线程访问。片上存储器比片外存储器快得多。本地内存是每个

线程的私有内存空间。这种存储器通常占用寄存器中的空间，但可能

溢出到片外存储器。常量内存对于

GPU

线程是只读的。图

显示

NVIDIA Tesla K40

流式多处理器以及内存层次结构。

计算统一设备架构（CUDA）（NVIDIA，2016）

由NVIDIA创建的并行编程平台。它允许软件开发人员使用支持CUDA

的图形处理单元（GPU）进行通用计算。CUDA提供了使用多种语言

（如C，C++，FORTRAN等）对硬件（GPU）进行编程的灵活性。感

兴趣的读者可以参考（NVIDIACorporation，2016）了解更多详情。

3.2.

线弹性有限元列式

有限元法是求解偏微分方程的一种数值方法.控制偏微分方程，即线

性弹性材料的强形式，由下式给出：

$·

0; 1

其中

是柯西应力张量，

是单位体积的体积力强形式由下式给出的

位移

和牵引力

边界条件补充：

数据并行和数据吞吐量任务。数据并行应用是指在独立数据集上运

行的应用，而数据吞吐任务需要处理大量的

在

上

;

ð2Þ

图

一、

NVIDIA Tesla K40

基于

Kepler

架构的

SMX

它有

个

SMX

和

192

个

CUDA

核心。该图还显示了线程的内存层次结构

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

GPU-Warp驱动的高效有限元矩阵生成与装配策略

GPU-Warp驱动的有限元矩阵生成与装配策略：显著加速与高效利用

GPU-Warp驱动的彩色法有限元矩阵生成与高效装配

matlab集成c代码-app-dwi-mni-warp:应用程序-dwi-mni-warp

flask-warp

EU-warp

OBI-Warp-开源

sero-warp-1.0.0

EUserv-addv4-warp

warp-rnnt:CUDA-Warp RNN-换能器

meta-warp7-distro:WaRP7的Yocto项目

最新资源