没有合适的资源?快使用搜索试试~ 我知道了~
基于RDMA技术的GPU/FPGA数据协处理器的高吞吐量低延迟在线图像处理拉斐尔·庞萨尔引用此版本:拉斐尔·庞萨德。基于RDMA技术的GPU/FPGA数据协处理器的高吞吐量低延迟在线图像处理。信号和图像处理。格勒诺布尔阿尔卑斯大学[2020-..],2020.英语NNT:2020GRALT 071。电话:03211910HAL Id:tel-03211910https://theses.hal.science/tel-032119102021年4月29日提交HAL是一个多学科的开放获取档案馆,用于存放和传播科学研究文件,无论它们是否已这些文件可能来自法国或国外的教学和研究机构,或来自公共或私人研究中心。L’archive ouverte pluridisciplinaireTHAPOSE为了获得等级格勒诺布尔阿尔卑斯大学博士专业:信号图像并行通信Arrêté ministériel:25 mai 2016Présentée par拉斐尔·庞萨尔Thèse dirigée parDOMINIQUE HOUZET,Université GrenobleAlpes et codirigée parVincent FRISTOT,Université GrenobleAlpes,etNicolas JANVIER, ESRF,格勒诺布尔Grenoble图像假释信号自动化电子、电工、自动化、信号处理博士学校(EEATS)利用GPU和FPGA处理器处理实时、高延迟和基于RDMA技术Thèse soutenue publiquement le10/12/2020,陪审团组成后:劳伦斯·皮埃尔Grenoble Alpes大学教授陪审团主席多米尼克·豪泽法国格勒诺布尔大学教授,Directeur de thèseBRICE GOGLININRIA BORDEAUX -特别报告员埃马纽埃尔·法尔希INGENIEUR HDR,SYCHROTRON SOLEIL-GIF-SUR-YVETTE,特别报告员NICOLAS JANVIER Ingénieur先生,ESRF GRENOBLE,Invité文森特·弗里斯托法国格勒诺布尔阿尔卑斯大学会议厅主任,因维特基于RDMA技术的GPU/FPGA数据协处理器2020年,拉斐尔·阿尔·庞萨尔3摘要-与高端X射线探测器的性能不断提高相关的X射线光子源的不断发展允许进行尖端实验,这些实验可以产生非常高的吞吐量数据流,并生成大量具有挑战性的管理和存储数据在这种情况下,优化处理架构变得至关重要,这些架构允许实时图像处理,例如原始数据预处理,数据缩减,数据压缩,快速反馈。迄今为止,这些数据管理方面的挑战尚未得到完全令人满意的解决,而且无论如何,还没有得到普遍的解决。本论文是ESRF RASHPA项目的一部分,该项目旨在开发一个基于RDMA的高性能数据采集系统该框架的主要特点之一是直接数据放置,直接从探测器头(数据产生器)到处理计算基础设施(数据接收器),以最高的可接受吞吐量,使用远程直接存储器访问(RDMA)和零拷贝技术与最小的中央处理器(CPU)的干预。本论文所做的工作是对RASHPA框架的一个贡献,使数据能够直接传输到加速器板的内部存储器。在RDMA网络接口卡(RNIC)和处理单元之间提出了一种低延迟同步机制,以触发数据处理,同时与检测器保持同步因此,一个全面的解决方案,满足在线数据分析的挑战,提出了标准的计算机和大规模并行协处理器以及。所提出的方法的可扩展性和多功能性通过检测器仿真器来例示,利用RoCEv 2(融合以太网上的RDMA)或PCI-Express链路和RASHPA处理单元(RPU),诸如图形处理器单元(GPU)和现场门可编程阵列(FPGA)。对X射线科学中很少采用的FPGA实时数据处理进行了评价,展示了高级综合的优点该框架补充了一个分配器的大型连续内存块在主内存和加速器的地址翻译系统,都面向DMA传输。建议的管道的评估进行了在线数据分析,发现在一系列衍射实验。这包括使用自适应增益检测器预见的原始数据预处理、使用布拉格峰计数的图像抑制以及将4Traitemententempsr′eel,hautd′ebitetfaiblelatence,R'esum'e-L'a m'elioration p ermane n te des sources de r a y onneme n t X,ainsi que les gains enperformances des d'etecomputes de dern i ` ere g'e n'eration rende n t p possibles des ex péeriences qua n ti 'es' emissions de don n 'ees a ` haut d'ebit,aussi di ffi ciles ` a g'erer qu' astock er.在本文中,他设计了一个可以实现的系统,该系统可以在不使用动物的情况下进行压缩,在不使用动物的情况下进行细胞的排出,压缩可以在使用动物的情况下进行。 这是一个问题,即没有人对流动资金的管理问题,也没有人对流动资金感到满意Cettet `esefaitpartied'un pr o jet plus vaste , l e pr o jet RASH P A del'ESRF , visa n t` d 'e v elop p e r un sys ` eme d'acquisition haute perebuba s'e sur le RDMA ( Remote Direct Memory Access ) . Unedescaract'eristiquesesse ntiellesdecepr ojetestlacapaci t'ea`transf'ererdirecteme ntdesn'eesdelatechietedut'etecteurverslam'emoiredel' unit'e de calcul,au plus hau t'ebit possible,en utilisa n t les c hniques d'ac c ` es direct a` la m'emoire,sans copies in n utiles,et minimisa n t le recours a ` un pr o cesseur.Letravailr'eali s'ependa ntcettet h'eseestune ntributionausys t'emeRASH PA , whirendpossible,nonseuleme ntletransnsf e rt dedon'eesdanslam'emoiredusys t'emedecalcul,maisaussidirecteme ntdanslam'emoirei nternedecartesac c'e l'eratricesdanslecasdesys t'emeal'arcchitectureh'eterog'ene.Unm'ecanismedesyn chronisationa`faiblelatencee ntrecarter'eseauetuni t'edecalcul est pro po s'e,d'eclenchantletraiteme ntdesdon'eesaurythmedu d'etecteur.我们希望找到一个全球性的解决方案,在短期内解决不了的问题,但在传统的协调人身上,这些协调人的数量是巨大的,而不是平行的。Pourillustrerlaversatilit'ede在FPGA上的测试暂时还没有完成,在X上的科学中的应用也很有价值,它可以应用于高性能系统Laqualificationdupipelinedecalculproo s'ea'et'efaiteens'inspira n t d'exp 'eriences de crist allographie en s'erie(SSX).Ilco m prendunp r′e-traiteme ntdesdon n′eesbrutescommepr′evupourund′etecteura`gainadaptatif,lar′ejectiond'images en fonetary du no m brede pics de Bragg , et la compression des don n ′ ees au format matricecreuse.i敬阿莱特和娜塔莉,如果巴勃罗和尼古拉没有向ISDD和欧盟提出倡议,这是不可能的。 Ilsm'n t fait conf iance et on t bien v oulu me confier un pr o jet aussi im porta n t pour ur r le a y onne me n t scie n tique de l'ESRF. 我很担心我不会发现的。 感谢玛丽让DDP给我们儿子带来的支持。Dominique和Vincentontassur'e我也要向安迪和佩特里致敬,因为他们在1999年的ESRF上做了我的第一次尝试,而且你也看到了唐戈的设备,因为他们完全相信这台宏伟的机器的功能虽然这三个问题都没有得到解决,但我并不认为这是我在GPUs编程领域的一次尝试,也不认为这是我在计算科学领域的一次尝试,但我也不认为这是一次尝试。也谢谢你给我们打的领带。在我的演讲中,我的设备和RASH P A都在进步,我没有看到任何东西,我也没有看到任何东西,我的FPGA和A u r elien都很好,我有一个很好的印象。 我为我们的儿子感到骄傲.亚历杭德罗和塞缪尔我也不想让你去。劳拉很勇敢,她接受了你用英语对我的信任和纠正。我也想把这件事告诉我们,也是为了我们所有的老朋友而且我们大家都知道,我对一个人的态度是最好的,因为这不是一个人的态度。但我不能用我的名字来称呼你们,你们也不能把我弄糊涂!塞拉是你的一个大男孩。ii内容目录二图五表七清单八1介绍11.1使用X射线辐射。 . . . . . . . . . . . . . . . . . .21.1.1ESRF-EBS格勒诺布尔,欧洲同步加速器 . . . . . . . . .41.1.2X射线探测器和实验装置概述 . . . . . . . .91.2全方位X射线2D成像实验111.3研究问题121.3.1数据传输问题和RDMA缓解技术121.3.2使用GPU/FPGA加速器进行141.3.3RASHPA数据采集框架151.4论文结构162 最先进的技术:数据传输RASHPA182.1高吞吐量网络192.1.1与内存管理212.1.2PCI-e互连232.1.3直接内存访问概述242.1.4内存分配挑战262.1.5传统网络技术272.1.6RDMA技术概述292.1.6.1RASHPA项目框架内的RoCEv2评估312.1.6.2消息传递加速器库332.1.7DMA技术以外的前景2.2 硬件加速器概述34iii2.2.1GPU加速器352.2.2 PCI-e P2P传输到GPU/FPGA设备内存372.2.3 并行算法392.2.4 FPGA加速器402.3 RASHPA框架412.3.1范例412.3.2 HEP或天文学432.3.3 对RASHPA处理单元规格的443RASHPA数据源模拟器473.0.1方法。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .483.1 REMU检测器仿真器 . . . . . . . . . . . . . . . . . . . . . . . . . .483.1.1网络协议的微基准测试。 . . . . . . . . . . . . . .493.1.2用动词编程 . . . . . . . . . . . . . . . . . . . . . .493.1.3事件执行 . . . . . . . . . . . . . . . . . . . . . . . .533.1.4概念验证 . . . . . . . . . . . . . . . . . . . . . . . . . . .533.2 RASHPA PCI-e实现。 . . . . . . . . . . . . . . . . . . . . . .543.2.1减少RASHPA . . . . . . . . . . . . . . . . . . . . . . . . . .563.2.2 FPGA设计。. . . . . . . . . . . . . . . . . . . . . . . . . . . .573.2.3固件. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .573.2.4事件。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .583.2.5大内存缓冲区的分配。 . . . . . . . . . . . . . . . .583.3使用Xilinx IP的RASHPARoCE。. . . . . . . . . . . . . . . . . . . . . .613.4结果。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .623.4.1 RoCEv2版本的结果。 . . . . . . . . . . . . . . . . . . .623.4.2PCIe版本。. . . . . . . . . . . . . . . . . . . .624使用RASHPA的在线加速数据处理644.1 RASHPA处理单元。 . . . . . . . . . . . . . . . . . . . . . . . . .664.1.1一般工作 . . . . . . . . . . . . . . . . . . . . . . . . . . .664.1.2地址转换系统 . . . . . . . . . . . . . . . . . . . . .694.1.3 CPU加速的RPU。. . . . . . . . . . . . . . . . . . . . . . .704.1.4 GPU加速RPU。. . . . . . . . . . . . . . . . . . . . . . .714.1.5 FPGA加速RPU . . . . . . . . . . . . . . . . . . . . . . .724.1.5.1提议的FPGA设计。. . . . . . . . . . . . . . . . .744.1.5.2 HLS内核和主机应用程序。 . . . . . . . . . . . .744.2 SSX实验的图像处理。 . . . . . . . . . . . . . . . . . .764.2.1原始数据预处理 . . . . . . . . . . . . . . . . . . . . . . .784.2.2数据拒绝。. . . . . . . . . . . . . . . . . . . . . . . . . . .794.2.3压缩到稀疏矩阵。 . . . . . . . . . . . . . . . . . . .794.2.4方位角积分。. . . . . . . . . . . . . . . . . . . . . . .794.2.5超低延迟控制。 . . . . . . . . . . . . . . . . . . . . .804.3结果。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .80iv4.3.1方法。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .814.3.2使用CPU/OpenMP。. . . . . . . . . . . . . . . . . . .814.3.3GPU . . . . . . . . . . . . . . . . . . . . . . . . . . .814.3.3.1 NVIDIA CUDA评估 . . . . . . . . . . . . . . . .814.3.3.2 AMD OpenCL评估。 . . . . . . . . . . . . . . . .834.3.3.3 REMU PCI-e / GPURPU评估。 . . . . . . . . .83v4.3.4FPGA86上的结果4.3.5POWER9计算机上的结果875结论. 925.1成果935.2展望945.2.1分类存储945.2.2整合挑战96Bibliography参考书目97A期刊和会议104B 硬件和软件贡献106C R'esum'edelat'ese enlangue fran massaise108vi图目录1.1第一次摄影. . . . . . . . . . . . . . . . . . . . . . . . . . . . .31.2只有好的波长。. . . . . . . . . . . . . . . . . . . . . . . . . . .41.3 X射线源亮度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51.4 GE同步加速器。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .61.5在世界上. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .71.6 ESRF建筑工程。 . . . . . . . . . . . . . . . . . . . . . . . . . . . .81.7 ESRF和Beamlines。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .81.8少女峰16M探测器图像。............................................................................................. 131.9X科学中的摩尔.............................................................................................................. 142.1与工作相关的多个领域202.2RASHPA系统概述212.3计算机内存层次结构232.4计算机内存带宽242.5PCI-Express拓扑252.6CPU亲和力252.7TCP状态机292.8RNIC编程内部302.9RoCE数据报342.10 LibVMA Mellanox消息传递加速器352.11 Z36代2.12 硬件加速器382.13 Connectx-5RNIC392.14 RASHPA系统视图432.15 关注区域442.16 RASHPAGPU概述453.1REMU序列图543.2Smartpix探测器553.3RASHPADMA概述563.4使用RASHPA58进行多路数据传输3.5REMU PCI-e模块设计603.6PCIeBAR对齐。............................................................................................................ 613.7BD软处理的效率634.1RASHPA-RPU67概述vii4.2RASHPA-B684.3ROMU序列图694.4GPU处理管线724.5低延迟同步机制734.6RPUFPGA设计754.7SSX实验概述774.8少女峰16M探测器78的后视图4.9GPU系统的最大吞吐量834.10 CUDA流执行844.11 将吞吐量从CPU和RNIC传输到GPU存储器854.12 从FPGA板传输吞吐量。..............................................................................................864.13 PCI-e延迟测量874.14 IBM AC922POWER9架构904.15 POWER991上的互连概述5.1NVMEoF95viii表的列表2.1 RDMA变体313.1无数据包丢失的可用带宽503.2RDMA带宽513.3动词API514.1 GPU结果84ix列表3.1缓冲区描述符计算。...................................................................................................594.1低延迟任务启动744.2AXI-Master接口754.3主机应用程序触发FPGA计算764.4使用OpenMP82进行原始数据预处理4.5OpenCL内核854.6HLSPipeline88x缩略词AXI高级可扩展接口。74中央处理器。12CUDA计算统一设备架构。十七,六十五DAQ数据采集系统11ESRF欧洲同步辐射设施。十五十九五十一FPGA现场可编程门阵列。十二、十四、二十七、四十、七十二GPU图形处理器单元。十二,十四HLS高级合成。41HPC高性能计算。十五,三十一I/O输入和输出22MMU内存管理单元。22PCI-e外围组件互连Express。十七、二十三、四十九、六十六RASHPA基于RDMA的高性能应用采集系统15远程直接内存访问。12REMURASHPA探测器模拟器。53RNICRDMA网卡。十二、四十八融合以太网上的RoCEv2RDMA。十七、十九、九十三ROMULURASHPA后端接收器。68xi术语表数据传输过程是两个RASHPA节点之间进行的数据传输过程。RASHPA模块可以从不同的数据切片(时间采样)或从不同的感兴趣区域(空间采样)产生多个并发DTP。42DMA代表直接存储器访问,描述了负责从一个存储区域到另一个存储区域的数据传输的内部计算机组件DMA可以有两种形式:内存映射或流。24高级综合是一种针对FPGA设计的开发流程,使用高级语言和概念,而不是复杂的低级,容易出错,高度专业化的技术。74RASHPA缓冲区是在目标计算机中分配的用于数据传输的内存区域。它必须与DMA操作兼容。42RASHPA管理器是一个软件应用程序,负责配置和监控RASHPA系统。它可以执行RASHPA节点的能力检索前配置,开始/停止采集和管理错误。它使用XML电报在专用控制链路上进行通信。42RASHPA处理单元是一个硬件实体,它可以从其内部存储器中的RNIC摄取传入数据流,并且可以在正确触发时处理这些数据66远程DMA是DMA概念在远程连接计算机上的推广在这本回忆录中,我们重点介绍了千兆以太网链路和RoCE协议.29xii致谢这项工作是在ESRF-EBS探测器开发计划(DDP)框架内提出的T2.a技术计划的一部分1第1章绪论内容1.1利用X射线辐射21.1.1ESRF-EBS格勒诺布尔,欧洲同步加速器41.1.2X射线探测器和实验装置概述91.2全方位X射线2D成像实验111.3研究问题121.3.1数据传输问题和RDMA缓解技术121.3.2使用GPU/FPGA加速器进行141.3.3RASHPA数据采集框架151.4论文结构16第1章 介绍2利用新一代X射线2D图像探测器在吞吐量方面的全部性能,在使用现有硬件和软件解决方案时具有挑战性。本论文旨在提出有助于技术,以减轻这些困难。这第一章将给出一个广泛的概述光子科学和最低限度的先决条件,uisites对探测器硬件。介绍了一些对处理能力要求较高的X射线成像技术。然后,我们将详细描述这个问题,并提出这个项目的初衷论文的意义和我们的贡献,然后在最后指定我们的工作成果1.1利用X射线辐射创造科学请注意,本节仅简要介绍X射线的悠久而丰富的历史。X射线的历史与现代物理学的历史以及19世纪后期人们对电磁学基本定律的普遍认识是平行的这导致了以前不相关的主题的统一,例如光或电以及静电或磁现象中的神秘人工制品。X射线是1895年由W.他在研究真空管中高压的影响时,注意到远处荧光屏发出微弱的震动不久,他发现了一些有趣的性质,不可见的,但未知的辐射,并采取了第一次射线照相术在历史上提出的图1.1。因为他不知道它们的起源,他把它们命名为X射线,因为数学中的x是未知值的符号。第一个X射线源是在19世纪末被抽真空的密封管。最后一个是千米长的线性加速器,称为XFEL(XFree Electron Laser),建于20世纪末,产生极短(飞秒范围)和强烈的X射线闪光,具有激光的特性。在密封管、XFEL或同步加速器设施中产生的X射线基本上是相同形式的电磁辐射,不同之处仅在于它们各自的能量和产生过程带电粒子(例如,电子和离子)在它们的加速度改变时会损失一些能量。当它们撞击克鲁克管中的阴极时,或者当它们的轨迹被弯曲磁铁弯曲时,就是这种情况这些能量就是X射线的来源。相对论性粒子在高速(接近光速)下,能量极高并产生强烈X射线束。地球上没有自然的同步辐射源。但是宇宙中有这样的自然资源,例如。在一些旋转的恒星里同步辐射是天体物理中最重要的辐射过程之一同步辐射于1947年首次被观察到,作为在圆形加速器中进行的第一次高能物理(HEP)实验的副产品,其中粒子在通过RF腔时周期性地加速。因此,它们在每一次旋转中同步地获得越来越多的能量。这就是名字的由来第一个同步加速器,可以站在桌子上,显示在第1章 介绍3图1.1:左:W的图片。 Réongten. 这是史上第一个由W. 他的妻子安娜·伯莎·路德维希的手和她的戒指。(来源:维基百科)图1.4. 在这些早期的发现中,SR主要是一种对实验者的讨厌。由于粒子的能量更高,产生的X射线比克鲁克斯管产生的X射线更强烈。SR光束也是脉冲的、高度准直的并且具有窄的光谱范围[44]。事实上,它们有许多有趣的特性,很快吸引了许多寻找强大光源的研究人员的注意在所谓的第一代同步加速器时代,同步辐射科学家在建造自己的设施之前,成为核物理实验的寄生虫,这些设施是第二代同步加速器设施。如图1.3所示,X射线源的亮度有了惊人的增长,一种成功的新科学和技术已经出现,在多个研究领域中卓有成效地使用了SR这促进了工业、结构生物学、凝聚材料研究、人类学或文化遗产研究等方面的新用途和应用。X射线主要用于观察目的,并可与加热或冷却外壳、高压金刚石砧、激光束等结合使用。SR设施对当今的科学至关重要,并在世界各地使用。的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功