GPU-Warp驱动的有限元矩阵生成与装配策略：显著加速与高效利用

161 浏览量更新于2024-06-16 收藏 1.43MB PDF 举报

《基于GPU-Warp的有限元矩阵生成与装配策略》是一篇发表在《计算设计与工程》杂志上的研究论文，该杂志专注于设计工程领域，特别是利用GPU技术进行计算工程的应用。本文的创新之处在于提出了一种新的有限元矩阵生成和装配策略，通过结合GPU编程模型CUDA（Compute Unified Device Architecture）中的GPU-Warp功能以及着色方法，旨在显著提升数值模拟的效率。首先，论文的核心内容围绕如何利用GPU的并行性和片上存储器资源，特别是在数值积分过程中引入了GPU-Warp shuffle功能，这是一种并行操作的特性，可以加速数据交换，从而优化计算效率。传统的有限元方法在CPU上执行时，可能会受到内存带宽限制，而GPU的并行处理能力使得大规模并行化成为可能，这使得数值积分得以部分并行化，进而加速单元刚度矩阵的求解。研究者针对8节点六面体单元在三维弹性问题中的应用进行了性能评估，结果显示在NVIDIA Tesla K40 GPU上，新策略带来了高达8.2倍的加速比，相较于基于着色的元素组装策略（每个元素仅使用一个线程），显示出明显的优势。不仅如此，该策略还提升了算法的吞吐量和带宽利用率，表明其在处理大规模计算问题时表现出色。文章强调了GPU与CPU的异构计算架构，指出GPU的设计理念侧重于高吞吐量而非单核性能，这对于依赖大量数据并行处理的数值方法如有限元法来说是非常契合的。通过专门针对GPU硬件设计的算法，研究者能够充分利用GPU的潜力，尤其是在科学计算和工程应用中。最后，该研究受《计算设计与工程》学会的同行评审，并遵循CC BY-NC-ND许可协议，允许读者在指定条件下自由访问和分享文章。作者Utpal Kiran、Deepak Sharma Chang和Sachin Singh Gautam来自印度理工学院机械工程系，他们的贡献不仅在于提出新方法，还在于实证验证其在实际计算环境中的效能。总结来说，《基于GPU-Warp的有限元矩阵生成与装配策略》是一篇探讨如何在GPU平台上优化数值积分和有限元矩阵构建的关键研究，对于提高计算密集型工程模拟的性能具有重要意义。

展开

联合

Kiran

等人

Journal of Computational Design and Engineering 6

（

2019

）

705-718

707

通过以合并的方式读取输入数据并使用每个元件的单个线程来计算

元件刚度矩阵（

）全局矩阵使用

CSR

存储格式，该格式具有预计

算的列索引和行偏移。对于属于共享存储器中的补丁的所有元素进

行组装，并且最终数据以合并的方式写入全局存储器中的全局矩

阵。在

Zayer

，

Steinberger

和

Seidel

（

2017

）中发现了一种基于稀

疏矩阵乘法的新有限元装配策略。该策略通过稀疏矩阵表示捕获网

格的连通性信息，并使用它们来有效地组装元素矩阵，避免任何类

型的预处理。另一种最近的有限元组装方法见于

Sanfui

和

Sharma

（

2017

）。在这项工作中，三维有限元的装配过程分为一个节点的

节点符号部分和一个元素的元素的数字部分。

上述研究中提出的策略在

GPU

上实现了显着的加速，然而，这些

策略已经过时了。但这些方法仍然可行。在总结前人工作的基础

上，我们发现数值积分方法不需要片外存储器，具有冗余计算的特

点，更适合

GPU

实现。对于低阶单元，采用局部记忆或全局记忆的

方法性能更好，但对于刚度矩阵尺寸较大的单元，记忆带宽受到在

使用每个元素一个线程策略的情况下尤其如此。在这项工作中，我

们提出了一种策略，使用多个线程做一个元素的计算这为我们提供

了足够的片上存储空间，用于数值积分（无冗余计算）以及元素矩

阵。现有的着色方法被用来避免在装配过程中的竞争条件。网格被

划分成不相交的元素集表示不同的计算相应的每一种颜色是由

GPU

内核顺序进行。所提出的策略使用同一内核实现元素

预赛

3.1.

GPU

架构和

CUDA

GPU是面向吞吐量的设备，设计用于处理

数据

GPU

的硬件设计基于众核处理单元，与

CPU

等多核处理单元有

很大不同众核设计包括大量的简单处理单元，非常小的高速缓存，和

高内存带宽。另一方面，多核处理器由几个高度复杂和高效的核心以

及大缓存和低内存带宽组成。本文采用了

NVIDIA

公司的

GPU

，它

由多个流式多处理器（

）组成每个

包含多个流处理器（

）

和片上存储器。它还有一个被称为全局内存的片外存储器

（

DRAM

），在

GPU

上具有最高的延迟。片外存储器也用于

CPU

和

GPU

之间的数据每个

可用的片内存储器进一步分为寄存器、可配

置共享存储器和只读数据缓存。寄存器被分配给一个线程，并且不能

被任何其他线程访问

共享内存是线程块的公共内存，它可以被该块

的所有线程访问。片上存储器比片外存储器快得多。本地内存是每个

线程的私有内存空间。这种存储器通常占用寄存器中的空间，但可能

溢出到片外存储器。常量内存对于

GPU

线程是只读的。图

显示

NVIDIA Tesla K40

流式多处理器以及内存层次结构。

计算统一设备架构（CUDA）（NVIDIA，2016）

由NVIDIA创建的并行编程平台。它允许软件开发人员使用支持CUDA

的图形处理单元（GPU）进行通用计算。CUDA提供了使用多种语言

（如C，C++，FORTRAN等）对硬件（GPU）进行编程的灵活性。感

兴趣的读者可以参考（NVIDIACorporation，2016）了解更多详情。

3.2.

线弹性有限元列式

有限元法是求解偏微分方程的一种数值方法.控制偏微分方程，即线

性弹性材料的强形式，由下式给出：

$·

0; 1

其中

是柯西应力张量，

是单位体积的体积力强形式由下式给出的

位移

和牵引力

边界条件补充：

数据并行和数据吞吐量任务。数据并行应用是指在独立数据集上运

行的应用，而数据吞吐任务需要处理大量的

在

上

;

ð2Þ

图

一、

NVIDIA Tesla K40

基于

Kepler

架构的

SMX

它有

个

SMX

和

192

个

CUDA

核心。该图还显示了线程的内存层次结构

下载后可阅读完整内容，剩余14页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

cpongm

粉丝: 6

GPU-Warp驱动的有限元矩阵生成与装配策略：显著加速与高效利用

GPU-Based Volume Rendering for Medical Imagery

Fast volume rendering using a shear-warp

GPU-Warp驱动的高效有限元矩阵生成与装配策略

GPU-Warp驱动的彩色法有限元矩阵生成与高效装配

matlab集成c代码-app-dwi-mni-warp:应用程序-dwi-mni-warp

flask-warp

EU-warp

OBI-Warp-开源

sero-warp-1.0.0

EUserv-addv4-warp

最新资源