Fugaku超级计算机上宇宙遗迹中微子的大尺度分布模拟

126 浏览量更新于2023-10-30 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Fugaku超级计算机上400万亿网格的Vlasov模拟：宇宙遗迹中微子的大尺度分布六维相空间石川康治kohji@ccs.tsukuba.ac.jp计算科学中心，日本筑波大学Satoshi Tanakasatoshi.yukawa.kyoto-u.ac.jp京都大学日本京都吉田直树oshida@ipmu.jpKavli宇宙物理与数学研究所日本东京柏摘要本文报道了在Fugaku超级计算机上进行的宇宙遗迹中微子的Vlasov模拟和冷暗物质的N体模拟。中微子的引力动力学之后，第一次，直接集成在一个六维相空间的弗拉索夫方程。我们最大的模拟以自洽的方式结合了400万亿网格上的弗拉索夫模拟和3300亿体计算，并准确地再现了宇宙中中微子的非线性动力学。新的高阶Vlasov求解器是通过结合一系列最先进的数值方案和充分利用A64FX处理器上的SIMD指令来优化的。我们的模拟的时间解决方案是一个数量级短于最大的N体模拟。在Fugaku，性能可扩展到147，456个节点（700万个CPU核心）;弱扩展和强扩展效率分别为82%关键词宇宙大尺度结构，漫画遗迹中微子，弗拉索夫模拟，不学ACM参考格式：吉川幸司，田中聪，吉田直树。2021年Fugaku超级计算机上400万亿网格的Vlasov模拟：宇宙遗迹中微子在六维相空间中的大尺度分布。在国际会议高性能计算，网络，存储和分析（SC '21），2021年11月14日至19日，圣。关闭 KY ， USA.ACM，美国纽约州纽约市， 11 页。https://doi.org/10.1145/3458817.3487401作者的作品允许制作本作品的全部或部分数字或硬拷贝供个人或课堂使用，无需付费，前提是复制品不以营利或商业利益为目的制作或分发，并且复制品在第一页上带有此通知和完整的引用。版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许用信用进行提取复制，或重新发布，张贴在服务器上或重新分发到列表，需要事先特定的许可和/或费用。请求权限请发邮件至permissions@acm.org。SC关闭MO，USA©2021计算机协会。ACM ISBN 978-1-4503-8442-1/21/11。- 是的- 是的十五块https://doi.org/10.1145/3458817.34874011ACM诺顿贝尔奖的理由我们提出了一系列的混合Vlasov/N体模拟宇宙中的大尺度结构的这包括世界上第一个在全六维相空间域上进行的宇宙遗迹中微子的弗拉索夫模拟，以及有这也是世界上第一次成功的运行，它结合了基于粒子的N体模拟和Vlasov模拟的互补优势，用于不同种类物质组分的混合物我们的模拟是在安装在RIKEN计算科学中心的Fugaku超级计算机上进行的，该计算机具有多达147，456个节点（7，077，888个CPU核心）。我们实现了非常高的可扩展性的弗拉索夫模拟，也为整个端到端的模拟弱和强的缩放效率。与此同时，时间的解决方案是由一个数量级的改善，以获得在宇宙中的大质量中微子动力学的数值结果与现有的国家的最先进的粒子为基础的N体模拟具有相当的空间分辨率和更优越的离散噪声水平2性能属性成果类别可伸缩性，解决问题的时间结果报告的基础是整个应用程序，包括I/O Precision报告的混合精度在整个系统的系统规模测量机构计时器3问题概述中微子是基本粒子，在粒子物理学的标准模型中被假定为像光子一样然而，中微子振荡的发现[10]揭示了中微子具有有限的质量，暗示了标准模型之外的一些未知物理。尽管中微子在理解物质和反物质不对称性的起源方面具有根本的重要性，但中微子的绝对质量尺度仍然非常不确定。到目前为止，中微子振荡实验只提供了中微子质量的下限。虽然已经进行了几个地球粒子实验，通过氚β衰变测量中微子质量SC关闭MO，USA吉川幸司、田中聪、吉田直树（）（）（）stec（）（）（）和无中微子双β衰变，这样的实验只对中微子的总绝对质量设置一种有希望的方法是通过测量中微子质量通过无碰撞玻尔兹曼方程或弗拉索夫方程：f（x，u，t）+u2·f（x，u，t）宇宙结构形成的动力学效应。标准宇宙学模型假定，ta（t）阿克斯–（一）宇宙是通过引力放大黑腹鱼大爆炸留下的密度波动该模型还预测，从早期到现在，宇宙中存在着“遗迹”中微子。大质量中微子的分数能量密度与三种中微子的总质量成比例，估计为10 −3的量级。其中a t是描述宇宙膨胀随时间变化的标度因子，fx，u，t是大质量中微子的分布函数，它是随空间位置x和正则速度u的函数=a t2x。引力势αx满足泊松方程，10- 2尽管对当今宇宙的贡献很小能量收支，具有有限质量的残余中微子（以下称为大质量中微子）通过与由所谓的冷暗物质（CDM）主导的其他非相对论物质的引力相互作用显著影响LSS的形成。质量中微子的主要作用是通过无碰撞阻尼抑制大尺度密度涨落的非线性增长。大质量的中微子具有非常大的速度色散，有效地防止了它们自己和其他物质的聚集。由于速度色散直接取决于中微子质量，原则上，我们可以通过检测和精确建模LSS中的无碰撞阻尼效应来约束或测量中微子质量。这为从宇宙学观测（如星系巡天）中测量中微子质量提供了一种新颖而有前途的方法目前，粒子N体方法已成为宇宙结构形成过程数值模拟的主要选择。CDM和大质量中微子的引力动力学是用N体方法用大量粒子数值模拟的[2，3，13，14]。不幸的是，在这种N体模拟中仍然存在一些固有的缺陷N体模拟以Monte-Carlo方式使用有限数量的离散“超粒子”对六维相空间（三维物理空间和三维速度或动量空间）中的物质分布进行统计然后，数值结果容易受到众所周知的散粒噪声的影响。当模拟像大质量中微子这样具有非常大的速度色散的“热”分量时，离散噪声严重损害了结果（见我们在§5.4中的结果）。然而，基于粒子的方法不太适合精确地再现无碰撞阻尼，其中速度分布尾部的高速分量起着至关重要的作用。显然，希望采用精确地表示多维相空间中的连续和扩展的速度分布在这里，我们提出了一个全新的方法，明确地遵循大质量中微子的动力学，通过求解时间演化的分布函数与有限体积法。我们的方法消除了上述的数值计算问题，代表作为一个连续介质中的六维相空间的大质量中微子。这种方法使我们能够在没有散粒噪声的情况下再现中微子分布，即使速度分布有一个宽的，延伸的尾巴[26]。由于宇宙遗迹中微子可以看作是一种无碰撞物质，因此描述了它们分布函数的时间演化πGa（x，t）=4πGa（t）[ρ（x，t）−ρ <$（t）]，（2）其中G是引力常数，ρx、t和ρ<$t分别是质量密度场及其空间平均值在下文中，我们的直接积分方程（1）和（2）的方法被称为弗拉索夫模拟。4现有技术目前宇宙中最大的包含大质量中微子的LSSN体模拟是在中国天河二号超级计算机上进行的天奴模拟，使用了他们的数值代码CUBEP3 M采用了粒子-网格（PPPM）方案的变体在CUBEP3M程序中，PM格式进一步分解为两级PM计算，以减少求解引力势所需的MPI通信在天奴模拟中，CDM粒子初始化在宇宙学红移100处，此时宇宙的年龄为1600万年。当系统演化超过10亿年后，中微子粒子被放置然后这两个组成部分演变成现在的宇宙。他们的CUBEP3 M代码在天河二号超级计算机的13,824个计算节点（331,776个核心）上实现了72%的弱缩放效率，完成他们模拟的总挂钟时间为52小时。5实现的创新5.1六维相空间中的Vlasov模拟及其与N体模拟的结合5.1.1弗拉索夫模拟。我们的主要创新之一是在六维相空间中完成了无碰撞自引力物质的Vlasov模拟。历史上，Vlasov模拟已用于无碰撞等离子体以及无碰撞自引力系统的研究[5，8，9，15]。不幸的是，应用程序仅限于空间一维或二维的问题。在低β等离子体[12，25]的数值模拟中进行的五维陀螺运动Vlasov模拟是有史以来进行的最高维度的模拟exaflop级超级计算机的出现，漫画遗迹中微子的400万亿网格Vlasov模拟SC关闭MO，USA∂ϕ ∂f（），（）×（）（）/××布拉夫≤ ≤−≤在数值技术的进步，最终使我们能够在全六维相空间进行弗拉索夫模拟弗拉索夫方程（1）用空间五阶有限体积法求解（见§5.2）。六维相空间体积在空间域和速度域中均在均匀笛卡尔网格上离散。空间和速度空间中的网格的数量分别被称为Nx和Nu我们采用方向分裂方法[4]，其中Vlasov方程（1）被分裂为六个一维平流方程：三个在物理空间中通过对PM网格上定义的重力位进行插值和插值来计算任意位置处的重力。由于我们施加周期性边界条件，因此我们使用卷积方法[11]使用快速傅立叶变换（FFT）求解泊松方程（2）。用树算法计算N体粒子间的短程引力，以提高传统PM方案在高密度区的力分辨率。短程力的计算由高度优化的重力核计算，其中力的计算被加速fui布拉夫在SIMD指令的帮助它最初是为x86开发的t+a（t）2 =0 （i=1， 2， 3）（3）另一组三个平流方程在速度空间具有SSE和AVX指令集的架构（参见[17，24]），在与GRAPE- 5的API兼容性之后命名为我们的端口的富士通A64FX处理器t− =0（i=1，2，3），（4）其中x1，x2，x3= x，y，z且u1，u2，u3 = ux，uy，uz.分布函数从t=t到tn+1=tn+ tt的计算公式为：Fugaku超级计算机使用A64FX处理器上的SIMD指令集，可扩展矢量扩展（SVE）指令集。使用SIMD指令实现的细节可以在[24]中找到。借助SVE指令集，达到1. 2× 109交互/秒，单个f（x，u，tn+1）=Duz（t/2）Duy×Dx（t）Dy（t）Dz（t）（t/2）Dux（吨/2）（五）A64FX处理器的核心，而没有明确使用SVE指令集的实现是2。4107交互/秒对于具有用于CDM分量的N个CDM×Duz（n/2）Duy（n/ 2）Dux（n/ 2）f（x，u，tn），其中，D表示沿方向推进平流方程的算子。第5.2节和第5.3节分别详细介绍了推进平流方程的数值方案及其实现。在我们的实现中，我们采用单精度浮点运算的Vlasov模拟。5.1.2与N体模拟相结合. 我们的模拟遵循一个现实的，观测动机的宇宙学模型，其中存在一个动态冷组件（CDM）和一个热的热遗迹（大质量中微子），通过引力相互作用的结构形成。因此，CDM和大质量中微子的动力学需要以完全耦合和自洽的方式同时求解。重要的是认识到CDM分量可以通过常规N体方法适当地处理，因为CDM是字面上的“冷”并且最初在速度空间中具有非常紧凑的分布。因此，我们设计了一个混合的N-体和Vlasov方法，其中我们采用一个复杂的N-体方法来解决代表CDM分量的N-体粒子的运动方程，而我们直接积分的Vlasov方程（1）的大质量中微子。注意CDM和中微子分量共享共同的引力势;方程（2）中的质量密度场ρx，t是CDM和大质量中微子的和CDM的质量密度是由N体粒子的分布得到的，而大质量中微子的质量密度则是通过在整个速度空间上积分分布函数得到我们采用TreePM（树粒子网格）方法[1，6]来进行每-形成CDM组件的N体模拟TreePM方案将引力分为两部分，分别使用树和粒子网格（PM）方案计算短程力和长程力。在PM方案中，引力势是在规则网格（以下简称PM网格）上计算的，用于CDM分量和大质量中微子贡献的质量密度场。远程我们将PM网格的数量NPM设置为NPM=NCDM 3 3，使得N个身体部分所需的经过时间最短。我们注意到，N体粒子的位置和速度由双精度浮点数表示5.1.3区域分解我们考虑一个定义在0上的六维相空间域x，y，zL和在<笛卡尔坐标系中。我们平均分解空间，用于与MPI并行化，但速度空间不分解。每个空间网格点保持用于速度空间的整个网格，使得可以执行分布函数（诸如质量密度、平均速度和速度弥散张量）的速度矩的计算，而无需MPI过程之间的任何数据传输。这种有效的策略帮助我们提高代码的整体性能在下文中，让我们将分解子域的数量分别表示为沿x、y和z轴的每侧nx、ny和nz，并且还将MPI进程的数量表示为Nproc=nxnynz。在N体计算部分，给出了N体粒子的分布n被分解为均匀间隔的nxnynz区域。对于计算长程引力的PM方案，由于Fugaku超级计算机上FujitsuSSLII/MPI包中的高效并行三维FFT软件库支持二维分解数据布局，因此CDM密度场在每个三维分解域的PM网格上计算，然后在MPI进程之间传输，从而将整个密度场分解为二维。除了并行FFT外，N体部分的MPI数据通信主要发生在计算N体粒子的质量密度场和用树方法计算N体粒子的短程力时，这两个过程都需要知道相邻区域边界附近的N体粒子分布。SC关闭MO，USA吉川幸司、田中聪、吉田直树（）5.2空间高阶平流格式的单级时间积分我们的Vlasov模拟的一个潜在的缺点是需要大量的内存来配置网格网格不仅在物理空间，而且在速度空间。因此，与传统的N体模拟相比，弗拉索夫模拟的空间分辨率是有限的，即使使用当前可用的最先进的超级计算机。通过简单地增加网格的数量来提高空间和/或速度分辨率是不切实际的因此，在给定网格数的情况下，采用具有空间高阶精度的数值格式并有效地提高空间分辨率是非常重要的考虑到Vlasov方程（1）和平流方程（3，4）的物理和数学特性，理想的是同时满足数值解的单调性和正性。注意，具有空间高阶精度的数值平流方案通常也需要高阶时间精度，以便获得数值稳定的解。因此，通常采用具有多个阶段的时间积分方案，例如时间高阶TVD Runge-Kutta方案[21]，代价是增加计算成本。为了实现具有更少计算成本的空间高阶格式，我们设计并采用了一种新的数值格式SL-MPP 5 [ 23 ]，该格式具有空间五阶精度并保持单调性和正性（MP），以及仅具有单级的时间高阶时间在我们的新格式中，通过将标准MP保持格式[22]处的多项式重构数值通量替换为由保守半Lagrange格式构造的数值通量，首次实现了空间高阶MP保持格式和单阶段时间积分格式的共存int [NX][nx];f[0][0] f[0][NY-I]f[I][0] f[I][NY-I][2][0]……图1：在推进等式（7）中的SIMD向量化的示意图。彩色框显示加载到单个SIMD寄存器的数据布局，其中向量宽度设置为4。注意，SIMD寄存器中的数据具有连续的存储器地址。查看底部面板中的数据布局。考虑一个二维平流方程f（x，y，t）+vx[19、20]。有了这个公式，我们就能从数字上得到特鲁克斯特鲁吉稳定的解决方案与空间高阶精度使用compultionally不太昂贵的时间积分方案。这导致在显着减少的整体计算成本的弗拉索夫模拟。空间五阶格式与传统的时间积分格式通常需要时间三阶时间其中v x和v y分别是沿x和y轴的平流速度。我们采用方向分裂法求解该方程，进而提出了沿x方向的平流方程。f（x，y，t）+vx一体化方案。换句话说，每步需要进行三次数值通量的计算. 我们的新方案需要计算的数值通量只有一次每一个时间步，从而大大降低了计算成本。阿勒特一个沿y方向f（x，y，t）+vy阿勒特阿克斯f（x，y，t）= 0.（八）埃什基5.3Vlasov仿真中的有效SIMD矢量化为了在现代处理器体系结构上实现最佳性能，SIMD向量化对于优化是必不可少的。富士超级计算机中的富士通A64FX处理器也具有名为可扩展向量扩展（SVE）的SIMD指令集，可以并行执行64位和32位数据元素的8个和16个操作。我们显式地利用SIMD指令来实现在第5.2节。在这里，我们描述了我们的方法在两个维度作为一个明确的情况。它可以很容易地扩展到六维情况。让我们假设函数f x，y，t在xy平面上用图1所示的网格进行规则离散。在沿x轴数值地推进平流方程（7）时，直接用SIMD指令对多行执行时间积分. 由于沿y轴的离散化数据具有连续的存储器地址，因此沿y轴对齐的数据（由图1中的每个彩色框包围）可以用单个指令加载到SIMD寄存器然后，我们可以用SIMD指令并行求解y坐标的多个索引（7）SIMD指令沿y轴的时间积分并不像沿x轴那样简单为了利用SIMD指令对多列并行积分（8），我们需要将不连续内存地址中的一组数据加载到SIMD寄存器中，如图2所示。这引入了显著的内存操作开销，并妨碍了有效的SIMD工作流。漫画遗迹中微子的400万亿网格Vlasov模拟SC关闭MO，USA×××int [NX][nx];[0][3] [3]第二届世界贸易组织部长级会议[2][3] 香港[3][3][0][ 2][3][1][2] 香港[2][2][3][2][3][0]f[3][l][3][2]香港[3][3][2][0]f[2][l]香港[2][2][2][3]f[l][0] f[l][l] [1][2][3]第二届世界贸易组织部f[0][0]f[0][NY-I] f[I][0]f[I][NY-I] [2][0]……图2：SIMD寄存器上的数据布局图，图3：4个SIMD寄存器上的4个4元素的转置以重新排列数据布局。这对于利用SIMD指令执行等式（8）的并行推进是最佳的彩色框表示SIMD寄存器。表1：具有和不具有SIMD指令和LAT方法的每个CMG的Vlasov仿真的性能。方向无SIMD指令集带SIMD指令集 w/ LAT方法在推进（8）中需要执行SIMD向量化，多列的y轴。不连续地址中的数据应打包到单个SIMD寄存器（彩色框）中。我们利用一种有效的方法，称为（8）沿y轴。首先，我们以与沿x轴积分（7）相同的方式沿y轴加载数据，如图3的左侧面板所示。在SIMD宽度为n的情况下，n个连续列中的离散化数据被加载到n个SIMD寄存器。然后，n个SIMD寄存器上的n n个数据元素的布局被转置，如图3的右侧面板所示。SIMD寄存器上的数据转置可以通过在SIMD寄存器之间重复地混洗数据元素来“就地”完成。需要64条SIMD指令来转置16个SIMD寄存器上的16个16数据布局。SIMD寄存器上的所得数据布局与图2中所描绘的相同，其适合于针对具有SIMD指令的多个列并行地执行由于与高速缓存和主存储器上的，SIMD寄存器上的混洗操作可以非常快速地执行，因此我们可以使用SIMD指令以显著小的存储器操作开销来执行等式（8）的LAT方法不仅在二维空间而且在高维情况下都能有效地求解平流方程，并且可以推广到六维相空间中的列表1：离散化分布函数的结构1234567当我们求解Vlasov方程时，离散化的六维分布函数定义如列表1所示，其中NX、NY和NZ是沿x、y和z方向的空间网格的数量，NUX、NUY和NUZ分别是沿ux、uy和uzVlasov方程沿一个方向的时间积分是以六重环的形式实现的沿着除了uz轴之外的所有方向求解平流方程的SIMD矢量化可以通过在与uz轴相关联的索引上运行第二最内部循环，以与图1中所示相同的方式沿uz轴的平流对应于图2所示的情况.我们在SIMD的帮助下显示了性能增益-A64FX处理器上的结构集和LAT方法。在这里，我们列出了A64FX处理器（见第6节）的每个核心内存组（CMG，详见下文）的性能，这些性能是在两个节点上进行的一组Vlasov仿真中测量的，其中Nx= 32 3，NU= 64 3，有和没有显式使用SIMD指令和LAT方法。显然，SIMD指令的显式使用在速度空间（除了沿着uz轴的一个）中将性能提高了30倍，并且在物理空间中提高了18倍。请注意，即使明确使用SIMD指令，沿uz轴的性能也明显较低。这是由于对SIMD寄存器的低效加载操作用LAT方法求解平流方程，struct_df {floatdens、ux_mean n、uy_mean n、uz_mean ;floatdfv [NUX] [NUY] [NUZ];};struct_df * df =（struct_df *）\\ malloc （sizeof（struct_df ）*NX *NY*NZ ）;ux4.84 [Gflops]176.7 [Gflops]–乌伊7.14 [Gflops]233.3 [Gflops]–uz7.44 [Gflops]17.9 [Gflops]224.2 [Gflops]X5.51 [Gflops]150.0 [Gflops]–y6.88 [Gflops]154.1 [Gflops]–z6.50 [Gflops]149.2 [Gflops]–SC关闭MO，USA吉川幸司、田中聪、吉田直树−×× × ×× ×在u-z轴上，我们显著地提高了数据加载到SIMD寄存器中的效率。所得到的性能与沿速度空间中的其他轴的性能一样好。可以清楚地看出，速度空间中的性能（表1中的上三项）优于物理空间中的性能这是因为物理空间中的平流中的操作包括从/到用于MPI通信的虚网格网格的数据复制因此，速度空间平流的性能可以看作是我们方案在单个CMG上的5.4N体模拟的优越性图4比较了CDM分量的密度场，我们的混合Vlasov/N体模拟获得的大质量中微子（表2中列出的运行M24）。与CDM分量相比，由于它们的速度色散非常大，大质量中微子的分布相当弥散。中微子的分布在大尺度上大致跟踪CDM，这表明CDM的高密度区域及其周围有更高的中微子密度。中微子更平滑的分布阻止了CDM（以及星系）小尺度集群的非线性增长，这有望在未来的我们也给出了用不同质量的中微子Mν = 0模拟的大质量中微子的密度场。2eV和0. 4eV，其中Mν是中微子的三个质量本征值之和。大质量中微子的分布取决于它们的质量Mν，而CDM和星系的中微子分布则强烈地受中微子分布的影响。图5显示了我们的Vlasov/N体模拟中随机位置处的大质量中微子的局域速度分布函数以及从等效初始条件开始的N体模拟中相应的速度分布函数。我们的Vlasov/N体模拟再现了一个平滑的长尾分布以及低速补丁中的变形（子结构），但N体模拟中的粗采样（由空心圆圈表示）甚至不允许我们辨别这些特征。在图6中，我们显示了用我们的Vlasov/N体混合模拟（与图4所示相同）模拟的大质量中微子的密度场，速度场和速度色散的比较，以及由源自相同初始条件的N体模拟获得的对应物，其中我们采用7683个颗粒的CDM组分和8 7683个颗粒的巨大的中微子用我们的Vlasov/N体模拟得到的中微子密度场是光滑的，并且在整个计算域上均匀地解析精细结构，而N体模拟中的对应物被散粒噪声所损害;在Vlasov/N体模拟中解析的精细结构被散粒噪声所错过和严重污染。在图5中看到的N体模拟中的速度结构的差的表示也影响分布函数的高阶速度矩，例如更严重的速度场和速度分散，如图6中可以看到的。应该注意的是，使用相同数量的计算资源完成这两个模拟所需的壁时间几乎是相当的，这表明我们的Vlasov/N体模拟显然是在模拟大质量中微子动力学方面优于传统的粒子N体模型。6如何衡量绩效6.1平台和设置我们在由158，976个计算节点组成的Fugaku超级计算机上进行了数值模拟，每个计算节点都具有基于ARMv 8-A ISA的FujitsuA64 FX处理器。A64FX处理器有四组CMG，每组包括12个计算核心和8 GB HBM2内存，因此总共有48个计算核心和32 GB内存。芯片中的四个CMG通过带宽为115 GB/s的环形总线网络双精度和单精度运算的理论峰值性能分别为 0.77 和 1.54Tflops。计算节点通过豆腐互连D连接，豆腐互连D是一个六维环面网络，网格大小为24 23 24 2 3 2。在下文中，根据问题的大小，每个MPI进程被分配给单个或两个CMG因此，MPI进程的数量是计算节点数量的两到四倍MPI进程被分配在六维环面网络上，使得物理上相邻的域之间的MPI通信在单跳内保持隔离。为了测量可扩展性，我们进行了数值模拟，每个盒子的大小为L=200h-1兆秒差距（Mpc）。标准宇宙学模型的另一面是由最近对宇宙微波背景辐射（CMB）的观测确定的[18]。在这里，h是以100 km/sec/Mpc为单位的归一化哈勃常数。我们假设中微子在三个质量本征态上的总质量为0.4 eV，这接近于CMB观测的上限[18]。通过clock_gettime（）系统调用测量的挂钟运行时间来评估性能对于表2中列出的每次运行，我们通过40步运行模拟，并取40个测量经过时间的中值。至于时间的测量，我们设置了一个初始条件，盒子大小为1200h−1 Mpc，宇宙学红移为10，类似于现有的最先进的模拟[7]。我们测量端到端的总运行时间，对于I/O，使用clock_gettime（）系统调用。7性能结果在本节中，我们将介绍我们的混合Vlasov/N体模拟在可扩展性和求解时间方面的性能表2列出了本节中给出的运行参数，其中我们显示了Vlasov模拟和N体粒子中的网格网格数、计算节点数、沿区域分解的每个轴的MPI进程数以及每个节点的MPI进程数。我们采用这些运行的命名约定，其中第一个字母S，M，L，H和U分别表示Vlasov模拟的空间网格网格的数量Nx= 963，192 3，384 3，768 3和1152 3，其次是计算节点的数量，以144个节点为单位。CDM分量的N体粒子数与Vlasov网格的N体粒子数成正比，即NCDM= 9 3Nx，但最大运行（U1024）除外，其中NCDM与H运行组中的N CDM相同，并设置为NCDM = 69123。请注意，H1024和U1024雇用147，456人，漫画遗迹中微子的400万亿网格Vlasov模拟SC关闭MO，USA线性色标对数色标0.80.60.40.20.00log（f/fmax）冷暗物质大质量中微子大质量中微子Mν=0。2 EV0.300.250.200.150.100.050.000.05L=200[h−1Mpc]L=200[h−1Mpc]0.10L=200[h−1Mpc]0.10图4：用Vlasov模拟的CDM分量和大质量中微子的密度图我们精确的Vlasov模拟能够再现质量为0.4 eV（中）和0.2 eV（右）的大质量中微子大尺度分布的差异物质分布函数1.0表2：测量弱结垢和强结垢的时间和解决方案。40002000ID（Nx，Nu）NCDMN节点（nx，ny，nz）N进程N节点2S1（ 963， 643）8643144（ 12， 12， 2） 20S2（ 963， 643）8643288（ 12， 12， 4） 23 3 33S4（ 96， 64）864 576（ 12， 12， 8）22000400040002000 02000u x[km/sec.]454000M8（ 1923， 643）172831152（ 24， 24， 4） 2M12（ 1923， 643）172831728（ 24， 24， 6） 2M16（ 1923， 643）172832304（ 24， 24， 8） 2M24（ 1923， 643）172833456（ 24， 24， 12） 2M32（ 1923， 643）172833456（ 24， 24， 16） 2L48（ 3843， 643）345636912（ 48， 48， 6） 2图5：在我们的Vlasov模拟（彩色）中，大质量中微子在单个Vlasov网格（物理位置）上的速度分布函数插图以线性色标示出了低速部分中的分布，示出了速度分布中的变形的精细结构开环是在相应的粒子模拟中处于同一区域的中微子粒子。计算节点7.1扩展性为了测量我们的混合Vlasov/N体模拟的弱标度和强标度，我们在表2中列出的S，M，L和H运行组中执行17次运行。我们测量了每一步所花费的时间，用于积分Vlasov方程（Vlasov部分），用于使用树方法计算N体粒子的短程力（树L64（ 3843， 643）345639216（ 48， 48， 8） 2L96（ 3843， 643）3456313824（ 48， 48， 12） 2L128（ 3843， 643） 3456318432（ 48， 48， 16） 2L256（ 3843， 643） 3456336864（ 48， 48， 32） 2电话：+86-21-8888888传真：+86-21- 88888888电话： +86-512-7683， 643，6912 3，73728电话：+86-768- 3， 64- 3，6912-3，110592（ 96， 96，48）H1024（768 3，64 3）6912 3147456（96，96，64）4电话：+86-10- 8888888传真：+86 -10 -88888888（48， 48， 128）2部分），并分别用于使用PM方案（PM部分）求解泊松方程，以及用于以§6中描述的方式在Vlasov和树部分中所需的MPI进程之间进行数据通信的部分。图7描述了分解后的每一步运行时间以及测量的每一步总运行时间3.02.52.01.51.00.50.00.51.00.30Mν=0。4ev的0.250.200.150.100.050.000.05L=200[h−1Mpc]log（ρ联系我们）uy[km/sec.]CDMCDML=200[h −1Mpc]对数（ρν/ρν）L=200[h −1Mpc]对数（ρν/ρν）1SC关闭MO，USA吉川幸司、田中聪、吉田直树0.30弗拉索夫n体0.250.200.150.100.050.000.05弗拉索夫n体×Sν中微子密度中微子速度中微子速度色散1.032501.022001.011501.001000.99500.980.10 0 0.97图6：Vlasov和N体模拟之间中微子的质量密度、速度场和速度色散的比较注意，在N体模拟中获得的速度分散图是粗粒度的（平滑的），以减少散粒噪声。表3：整个模拟和每个模拟部分的弱缩放效率。表4：模拟S2-M16S2-L128S2-H1024SMLH总百分之九十六百分之九十一点一百分之八十二点三总百分之八十七点七百分之九十三点三百分之九十一点一百分之八十二点四弗拉索夫百分之九十九百分之九十九点二百分之九十四点四弗拉索夫百分之八十七点五百分之九十三点九百分之九十九点六百分之九十三树百分之八十八点四百分之七十六点八82.0%树百分之九十点九百分之九十七点一百分之八十五点七百分之七十七点五下午百分之七十九点五百分之四十八点七百分之十七点一下午百分之七十二点九百分之六十点六36.2%百分之三十四点一对照表2中列出的S、M、L和H运行组的节点数。Vlasov部分的运行时间约占总运行时间的70%，在整个仿真中占主导地位。在左侧面板中，我们显示了运行序列S2、M16、L128和H1024的每个部分和整个模拟的运行时间。它示出了弱缩放效率的度量，并在表3中进行了总结。在Fugaku超级计算机的近全系统（147，456个节点）中，Vlasov部分的弱标度效率我们注意到，PM部分的缩放并不出色，因为PM部分中涉及的FFT计算仅以二维方式与nxnyMPI过程并行化，尽管它对整体性能有轻微影响在图7的右侧面板中描绘的S、M、L和H运行组中的每一个中的运行之间的每一步的经过时间的比较示出了Vlasov、树和PM部分以及整个模拟的强缩放效率。其总结在表4中。最耗时的Vlasov部分的强大缩放效率非常出色，对于M，L和H运行组优于90%。PM部分似乎效率稍低，但这可以归因于上述FFT计算的并行效率受损。注意，FFT计算的并行度在每个运行组内n×ny是恒定的尽管如此，总体7.2至溶液时间没有其他的模拟可以直接与我们的相比，因为这是第一个弗拉索夫模拟在整个六维相空间域。作为求解时间的参考，我们选择了LSS形成中大质量中微子的最大的基于粒子的N体模拟，它与我们的模拟具有共同的科学动机和数值结果。对具有大质量中微子的LSS形成的最大的基于粒子的N体模拟是在天河二号超级计算机上进行的天奴模拟[7]。需要52小时的挂钟时间来完成6912 3 CDM粒子和8 6912 3中微子粒子的模拟[7]。比较基于粒子的N体模拟和我们的Vlasov模拟的数值结果并不简单。对以下两个重要量进行检查是适当和公平的：空间分辨率和散粒噪声水平。在N体模拟中，重要的物理量，如密度和速度场，是通过对一定体积或一定数量的粒子上单个N体粒子的质量和速度进行平均来计算的对大量粒子进行平滑处理降低了局部物理量中散粒噪声的水平，但不可避免地损害了有效的空间分辨率。简单地说，通过对Ns个粒子进行平均，可以得到空间分辨率为L<$N1/ 3×L/N1/ 3，其中L是a的大小强缩放效率在所有运行组中都是优异的立方模拟盒，Nν是大质量弗拉索夫N体L=200[h−1Mpc]对数（ρν/ρν）L=200[h −1Mpc]|~u ν| [公里/秒]L=200[h−1Mpc]联系我们漫画遗迹中微子的400万亿网格Vlasov模拟SC关闭MO，USA/////弱标度效率8765101100强定标效率43210102103104105十比一10-2102103104105节点数节点数图7：Vlasov、树和PM部分的弱（左）和强（右）缩放效率以及总缩放效率。虚线显示了理想的缩放比例。中微子，散粒噪声水平估计为1/N1/ 2。在8影响信噪比项，它与S1/ 2我们已经提出了世界上第一个和最大的弗拉索夫的结果S/N S/N=Ns简单的Poisson统计。因此，最大的天奴N体模拟具有中微子分布的有效空间分辨率，在宇宙结构形成的背景下，在六维相空间中模拟大质量中微子，再加上基于粒子的冷暗物质N体模拟我们的模拟遵循大质量中微子的引力动力学，LL=13824（S/N）三分之二（九）与LSS形成完全耦合的方式我们的新方法为无碰撞系统的模拟提供了一个有前途的解决方案L. 序列号：2002/ 3L. 序列号：2002/ 3具有大的或任意的热运动的物体。≃640100≃101850（十）Vlasov模拟使我们能够研究大质量中微子在LSS形成过程中的非线性在不受粒子散粒噪声影响的情况下，我们的模拟准确地作为S N的函数。例如，对于1%的足够小的散粒噪声水平，或等效地S N=100，有效空间分辨率为100LL640，并且几乎与我们的H游程组的分辨率相同，其中Nx=7683。因此，天奴模拟可以被认为是如果我们保守地允许散粒噪声水平高达2%（S N=50），则有效空间分辨率为λL=L1018，其对应于具有Nx=11523的U游程组的空间分辨率。我们执行两个端到端运行，H1024和U1024，其中Nx=7683和11523，分别在147，456个节点上，几乎充满了Fugaku超级计算机的系统。初始条件设定为红移z=10，模拟箱的大小为1200h−1 Mpc，并演化到当前宇宙（z=0）。应该注意的是，天奴模拟在z = 5的红移之后引入了大质量中微子的动力学效应，晚于我们模拟的时代。此外，我们的Vlasov模拟在速度空间中的分辨率也很高（图1）。5和6）在此不作考虑因此，我们的模拟更加精细和准确。H1024和U1024完成这些仿真（包括I/O）的端到端运行时间分别为1.92小时（执行时间6183秒和I/O时间733秒）和5.86小时（执行时间20342秒和I/O时间782秒），分别提高了27倍和8.9倍，与最先进的天奴N体仿真相比有了很大的飞跃。再现正在进行和未来的宽场星系巡天将探测到利用地面望远镜进行的观测，C. 鲁宾望远镜和太空望远镜，如美国宇航局的南希格雷斯罗马望远镜和欧洲航天一系列的国家的最先进的技术集成，直接求解六维弗拉索夫方程。我们的新的平流计划使我们能够实现空间高阶（少扩散）的解决方案，计算重量轻的时间积分。这个创新方案的整个实现是高度优化的，利用SIMD指令在最好的方式。为此，我们引入了一种新的LAT方法，定期包装成SIMD寄存器有效地离散数据现代技术和SIMD指令的协同使用显著降低了否则所需的总计算成本。我们的模拟的并行效率是非常优秀的，无论是弱和强缩放。这部分是由于相对单片，高带宽和低延迟的互连，豆腐互连D，配备有Fugaku超级计算机，直接连接嵌入在A64FX处理器中的CMG和HBM2存储器组虽然像Vlasov模拟这样的模板计算基本上是内存带宽有限的，S2M16L128 H1024mmmmasov）（正文）（VI（N-co

下载后可阅读完整内容，剩余1页未读，立即下载