没有合适的资源?快使用搜索试试~ 我知道了~
0Fugaku超级计算机上的400万亿网格Vlasov模拟:六维相空间中宇宙残留中微子的大尺度分布0Kohji Yoshikawa �0kohji@ccs.tsukuba.ac.jp筑波大学计算科学中心 日本筑波市0Satoshi Tanakasatoshi.tanaka@yukawa.kyoto-u.ac.jp 京都大学湯川研究所 日本京都0Naoki Yoshidanaoki.yoshida@ipmu.jp东京大学卡夫利宇宙物理和数学研究所 日本柏市0摘要0我们报告了一种宇宙残留中微子的Vlasov模拟,结合了大尺度结构形成上的冷暗物质的N体模拟,该模拟在Fugaku超级计算机上进行。通过直接积分六维相空间中的Vlasov方程,首次跟踪了中微子的引力动力学。我们最大的模拟以自洽的方式结合了400万亿个网格的Vlasov模拟和330亿次的N体计算,并准确地再现了宇宙中中微子的非线性动力学。新颖的高阶Vlasov求解器通过组合一系列最先进的数值方案并充分利用A64FX处理器上的SIMD指令进行优化。我们的模拟的时间到解决方案比最大的N体模拟短一个数量级。在Fugaku上,我们的性能与147,456个节点(700万个CPU核心)的弱和强扩展效率分别为82%至96%和82%至93%。0关键词0宇宙中的大尺度结构,宇宙残留中微子,Vlasov模拟,Fugaku0ACM参考格式:Kohji Yoshikawa,Satoshi Tanaka和NaokiYoshida。2021.Fugaku超级计算机上的400万亿网格Vlasov模拟:六维相空间中宇宙残留中微子的大尺度分布。在2021年11月14日至19日的高性能计算、网络、存储和分析国际会议(SC'21)中。美国密苏里州圣路易斯。ACM,纽约,美国,11页。https://doi.org/10.1145/3458817.34874010�通讯作者0授权个人或课堂使用本作品的全部或部分内容,不收取费用,但禁止制作或以盈利或商业优势为目的分发副本,并要求副本载有本通知和第一页的完整引用。必须尊重ACM以外其他所有权人拥有的本作品组成部分的版权。允许摘要与署名一起使用。未经特定授权和/或费用事先许可,禁止复制,重新发布,发布到服务器上或分发到列表上。请通过permissions@acm.org申请权限。SC '21,2021年11月14日至19日,美国密苏里州圣路易斯,©2021年计算机协会。ACM ISBN 978-1-4503-8442-1/21/11...$15.00https://doi.org/10.1145/3458817.348740101 ACM戈登∙贝尔奖的理由0我们展示了一系列的宇宙大尺度结构形成的混合Vlasov/ N-体模拟。这包括在完整的六维相空间域上进行的世界上第一个宇宙残留中微子的Vlasov模拟,以及有史以来最大的Vlasov模拟。这也是世界上首次成功地将基于粒子的N体模拟和Vlasov模拟的互补优势结合起来,用于不同种类物质组分的混合物。我们的模拟在RIKEN计算科学中心安装的Fugaku超级计算机上进行,最多使用147,456个节点(7,077,888个CPU核心)。我们实现了Vlasov模拟和整个端到端模拟的非常高可扩展性,无论是弱扩展效率还是强扩展效率。与此同时,时间到解决方案的提高使我们能够以比现有最先进的基于粒子的N体模拟具有相当空间分辨率和更优秀离散噪声水平的数值结果来研究宇宙中大质量中微子的动力学。02性能属性0成就类别可扩展性,时间到解决方案使用的方法类型显式基于整个应用程序报告的结果包括I/O报告的精度混合精度系统规模在整个系统上测量的测量机制计时器03问题概述00SC '21,2021年11月14日至19日,美国密苏里州圣路易斯,Kohji Yoshikawa,Satoshi Tanaka和Naoki Yoshida0由无碰撞Boltzmann方程或Vlasov方程给出:0∂f(x0∂t + u0a(t)^2 ∙ ∂f(x,u,t)0∂x0- ∂ϕ0∂x∙∂f(x,u,t)0∂u = 0, (1)0其中a(t)是描述宇宙膨胀时间依赖性的尺度因子,f(x,u,t)是大质量中微子的分布函数,作为共动空间位置x和规范速度u = a(t)^2 *x的函数。引力势ϕ(x)满足Poisson方程0�^2ϕ(x,t) = 4πGa(t)^2[ρ(x,t) - ¯ρ(t)], (2)0其中G是引力常数,ρ(x,t)和¯ρ(t)分别是质量密度场及其空间平均值。此后,我们将直接积分方程(1)和(2)的方法称为Vlasov模拟。04当前最新技术0目前在宇宙中包含大质量中微子的最大LSS的N体模拟是在中国的天河二号超级计算机上执行的TianNu模拟,使用了6912^3个CDM粒子和13824^3个中微子粒子[7,27]。他们的数值代码CUBEP3M采用了一种改进的粒子-粒子-粒子-网格(PPPM)方案[11],通过将粒子-网格(PM)方案获得的引力力与短程粒子-粒子(PP)力附加在一起来提高力分辨率。在CUBEP3M代码中,PM方案进一步分为两级PM计算,以减少求解引力势场所需的MPI通信。在TianNu模拟中,CDM粒子在宇宙红移为100时初始化,当宇宙年龄为1600万年时。当系统演化了10亿年后,中微子粒子被放置。然后,两个组分被演化到现在的宇宙。他们的CUBEP3M代码在天河二号超级计算机的13824个计算节点(331776个核心)上实现了72%的弱扩展效率,完成模拟的总墙钟时间为52小时。05实现的创新5.1六维相空间中的Vlasov模拟和与N体模拟的组合05.1.1 Vlasov模拟.我们的一个主要创新是在六维相空间中完成无碰撞自引力物质的Vlasov模拟。历史上,Vlasov模拟已经被用于研究无碰撞等离子体以及无碰撞自引力系统[5,8,9,15]。不幸的是,应用仅限于具有空间一维或二维的问题,因为即使对于具有空间二维问题来说,所需的内存和计算成本也非常高。在低beta等离子体的数值模拟中进行的五维陀螺动力学Vlasov模拟[12,25]是迄今为止进行的维度最高的模拟。随着拥有百亿亿次级超级计算机的出现,以及在数值技术方面的显著进展,我们现在能够在完整的六维相空间中进行Vlasov模拟。(5)0400万亿格子的宇宙遗迹中微子的Vlasov模拟 SC ’21,2021年11月14-19日,美国密苏里州圣路易斯0数值技术的进步最终使我们能够在六维相空间中进行Vlasov模拟。Vlasov方程(1)采用空间五阶有限体积方法求解(见§5.2)。六维相空间体积在空间和速度域中都在均匀的笛卡尔网格上离散化。空间和速度空间中的网格数分别称为Nx和Nu。我们采用方向分裂方法[4],将Vlasov方程(1)分裂为六个一维平流方程:三个在物理空间中的方程0∂f/∂t +0a(t)^2 ∂f/∂xi = 0 (i = 1, 2, 3) (3)0和速度空间中的另一组三个平流方程0∂f/∂t -∂ϕ0∂xi0∂f/∂ui = 0 (i = 1, 2, 3), (4)0其中(x1,x2,x3) = (x,y,z),(u1,u2,u3) = (ux,uy,uz)。从t = tn到tn+1= tn + ∆t的分布函数的时间演化为0f(x,u,tn+1) = Du_z (∆t/2) Du_y (∆t/2) Du_x(∆0× Dx(∆t) Dy(∆t) Dz(∆t)0× Du_z (∆/2) Du_y (∆t/2) Du_x (∆t/2)0其中Dℓ(∆t)表示沿ℓ方向推进平流方程的算子。有关推进平流方程的数值方案及其实施的详细信息,请参见§5.2和§5.3。在我们的实现中,我们采用单精度浮点运算进行Vlasov模拟。05.1.2 将 N 体模拟与组合.我们的模拟遵循了一种现实的、观测动力学模型,其中存在一个动力学冷组分(CDM)和一个热遗迹(大质量中微子),它们通过引力相互作用。因此,需要以完全耦合和自洽的方式同时求解CDM和大质量中微子的动力学。需要注意的是,由于CDM在速度空间中“冷”且初始时具有非常紧凑的分布,因此可以通过常规的N体方法来适当处理CDM组分。因此,我们设计了一种N体和Vlasov方法的混合方法,其中我们采用先进的N体方法来求解代表CDM组分的N体粒子的运动方程,而我们直接积分代表大质量中微子的Vlasov方程(1)。需要注意的是,CDM和中微子组分共享相同的引力势场;方程(2)中的质量密度场ρ(x,t)是CDM和大质量中微子的和。CDM的质量密度是通过N体粒子的分布得到的,大质量中微子的质量密度是通过在整个速度空间上积分分布函数得到的。我们采用TreePM(树粒子网格)方法[1,6]对CDM组分进行N体模拟。TreePM方案将引力作用分为两部分,即短程和长程引力,分别使用树和粒子网格(PM)方案计算。在PM方案中,通过CDM组分和大质量中微子贡献的质量密度场,计算在规则网格(以下简称PM网格)上的引力势场。TianNu模拟是目前包含大质量中微子的宇宙大尺度结构(LSS)的最大N体模拟,它在中国的天河二号超级计算机上执行,使用6912^3个CDM粒子和13824^3个中微子粒子[7,27]。他们的数值代码CUBEP3M采用了一种改进的粒子-网格-粒子-网格(PPPM)方案[11],通过将粒子-网格(PM)方案获得的引力力与短程粒子-粒子(PP)力附加在一起来提高力分辨率。在CUBEP3M代码中,PM方案进一步分为两级PM计算,以减少求解引力势场所需的MPI通信。在TianNu模拟中,CDM粒子在宇宙红移为100时初始化,当宇宙年龄为1600万年时。当系统演化了10亿年后,中微子粒子被放置。然后,两个组分被演化到现在的宇宙。他们的CUBEP3M代码在天河二号超级计算机的13824个计算节点(331776个核心)上实现了72%的弱扩展效率,完成模拟的总墙钟时间为52小时。0在任意位置的引力力通过对PM网格上定义的引力势场进行求导和插值来计算。由于我们采用周期性边界条件,我们使用快速傅里叶变换(FFT)和卷积方法[11]来求解Poisson方程(2)。N体粒子之间的短程引力力是通过树算法计算的,以提高在高密度区域中的力分辨率,这在传统的PM方案中通常被忽略。短程力的计算是通过高度优化的重力核函数完成的,其中力的计算借助于SIMD指令加速。它最初是为x86架构开发的,使用SSE和AVX指令集(参见[17,24]),并被命名为“Phantom-GRAPE”,以符合与GRAPE-5[16]的API兼容性。我们将Phantom-GRAPE移植到富士通A64FX处理器上的Fugaku超级计算机,使用A64FX处理器上可用的SIMD指令集,即可扩展矢量扩展(SVE)指令集。使用SIMD指令集的实现细节可以在[24]中找到。借助SVE指令集的帮助,我们在单个A64FX处理器的单个核上实现了每秒12亿次的相互作用效率,而在不使用SVE指令集的实现中,相互作用效率为每秒2400万次。对于CDM组分的N体模拟,我们将PM网格数NPM设置为NPM = NCDM/3330以使N体部分所需的时间最短。我们注意到,N体粒子的位置和速度由双精度浮点数表示。05.1.3域分解。我们考虑定义在0≤x,y,z≤L和−V≤ux,uy,uz
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功