GPU到CPU的高性能转译：使用高级并行结构的自动优化

129 浏览量更新于2024-06-21 收藏 12.83MB PDF 举报

"这篇论文探讨了通过高级并行结构实现GPU到CPU的高性能转译和优化，主要涉及Polygeist、MLIR和CUDA技术，并提到了屏障同步的概念。研究旨在解决随着硬件架构和编程模型变化导致的昂贵应用程序重构问题，提出了自动化跨模型编译的方法，以提高性能可移植性。" 在当前的高性能计算领域，尽管并行性是提升系统性能的关键，但是随着新硬件的不断推出，架构实现和编程模型也持续演进，这经常需要开发者对应用程序进行耗时的重构工作。为了解决这个问题，研究人员提出了一种新的策略，该策略基于Polygeist和MLIR框架，能够自动将使用CUDA编程模型的程序转换为适应CPU线程的模型。这个方法的核心在于一种并行结构的表示方式，它允许传统的编译器转换在不修改源代码的情况下进行，并且支持针对并行性的特定优化。 MLIR（多级中间表示）是这个转换过程中的关键组件，它提供了一个层次化的编译器基础设施，允许在不同的抽象级别上进行分析和优化。Polygeist则是一个高级并行语言，它能够表达多种并行编程模型，包括CUDA。通过这两个工具的结合，可以实现CUDA代码到CPU的无缝迁移。为了验证这种方法的有效性，研究团队对CUDA的Rodinia基准测试套件进行了跨编译和优化，在多核CPU上获得了58%的几何平均加速比，甚至超过了手动编写的OpenMP代码。此外，他们还展示了一个实际应用案例，即在没有用户干预的情况下，成功地在Fugaku——一个仅包含CPU的超级计算机上高效运行和扩展了PyTorch的CUDA内核，且性能比PyTorch的CPU本地后端提高了2.7倍。论文的关键词包括Polygeist、MLIR、CUDA和屏障同步，表明这些技术在并行计算模型和编译器设计中的重要性。屏障同步是一种同步机制，用于确保并行任务在继续执行之前都到达预定的同步点，这对于在多核CPU上正确管理和优化并行代码至关重要。这项工作为高性能计算领域的程序移植性和优化提供了新的视角，通过自动化工具减轻了开发者的工作负担，同时提高了代码在不同平台上的执行效率。这种技术的发展对于未来异构计算环境中的软件可移植性和性能优化具有重要意义。

}

122

PPoPP’23，2023年2月25日至3月1日，加拿大蒙特利尔，魏尔斯∙莫西斯，伊万诺夫∙伊万诺夫，多姆克，遠藤，多尔夫特和齐年科。

parallel%i=0to10{

%x=loaddata[%i]%y

=loaddata[2*%i]%a

=fmul%x,%x%b=

fmul%y,%y%c=fsub

%x,ybarriercall@use(

%a,%b,%c)...

%x_cache=memref<10xf32

>%y_cache=memref<10x

f32>parallel%i=0to10{

%x=loaddata[%i]%y=

loaddata[2*%i]store

%x,%x_cache[%i]store

%y,%y_cache[%i]}

parallel%i=0to10{

%x=load%x_cache[%i

]%y=load%y_cache[

%i]%a=fmul%x,%y

%b=fsub%y,%zcall

@use(%a,%b)...

图4.

在屏障周围进行并行循环拆分：将屏障上方的代码放在一个

单独的并行“for”循环中，将屏障后面的代码放在另一个循

环中。该转换消除了屏障，同时保持了语义。最小剪切算法

存储了%x和%y，然后在第二个循环中用于重新计算%a、%

b和%c。

R:→.

然后，我们组合相关操作的直接和逆关系，获得访问相同下标

的线程索引之间的关系，D=R−1◦R:→′.

最后，我们减去恒等关系D\I:→′.如果非空，D≠

，不同的线程可能访问相同的地址，需要barrier。对于非仿射

访问或非静态控制流，我们保守地假设整个数组维度都被访问

。在实践中，这在GPU代码中很少需要，其循环通常具有参数

化/静态边界。当涉及多个基地址时，必须检查别名保证。考

虑图3（右）中的代码。由于访问的地址集不重叠，即A∩

A=，可以允许跨barrier进行代码移动。相反，如果对A

的加载或存储进行了1的偏移，那么barrier是必要的，因为在

barrier之后加载的数据将由不同的线程存储。

3.2屏障降低

为了使GPU程序在CPU上运行，我们必须有效地模拟GPU程

序的同步行为。而第3.1节的内存语义使我们能够在优化过程

中保持barrier的正确性，本节讨论如何在CPU上实现barrier

。CPU体系结构没有线程块的概念，也没有等待该概念中的

线程组的barrier指令。相反，我们使用常规的CPU线程和工

作共享来将线程块循环迭代分配给它们。从概念上讲，这与

GPU执行模型不同，其中线程每次执行一个迭代。工作共享

要求每个线程按顺序执行多个迭代，这使得在迭代中间进行

同步是不可能的，只能在循环结束时进行同步。为了解决这

个问题，我们在我们的MLIR表示中开发了一种新的barrier消

除技术。我们的方法是

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

GPU到CPU的高性能转译：使用高级并行结构的自动优化

利用GPU进行高性能数据并行计算

demolicious-transpiler:一个 GPU 驱动的 demolicious 转译器和模拟器

通过js简单实现将一个文本内容转译成加密文本

转译器

HTML转译

shopackify:高度模块化的主题开发工具，可使用 Webpack 和您选择的 PostCSS 或 SASS 创建世界一流且可用于生产的 Shopify 主题，同时转译和填充 ECMAScript 以实现向后兼容性和更新代码

VB到易语言源代码转译软件1.0演示版

bfpy：Python到Brainfuck转译器

ActorFramework：虚-物理地址转译与优化

js-decorators：实现Python装饰器风格的JavaScript转译器

最新资源