高性能计算云环境下 GPU 并行计算技术及应用研究
XII
图 4.5 XWAY 体系结构 ................................................................................................................. 52
图 4.6 XenLoop 体系架构 ............................................................................................................. 53
图 4.7 VMCI 体系结构 .................................................................................................................. 54
图 4.8 云平台中 GPU 计算通信流程及数据处理过程 ................................................................ 55
图 4.9 改进后的 GPU 计算低延迟通信流程及数据处理过程 .................................................... 56
图 4.10 实时数据高复用机制下的数据流 .................................................................................... 58
图 4.11 改进虚拟化云平台的可扩展性 ........................................................................................ 60
图 4.12 在三种平台上对 MNIST 手写图片库训练的性能对比 ................................................. 62
图 4.13 在三种平台上 QFT 算法的单 GPU 仿真 ........................................................................ 63
图 4.14 在三种平台上 QFT 算法的双 GPU 仿真(P2P 通信) ................................................. 63
图 4.15 在三种平台上 QFT 算法的四 GPU 仿真(流通信) .................................................... 64
图 5.1 量子搜索算法线路图 .......................................................................................................... 68
图 5.2 状态列表结构体数组 .......................................................................................................... 69
图 5.3 方案 A 的工作流程 ............................................................................................................. 70
图 5.4 方案 B 的工作流程 ............................................................................................................. 71
图 5.5 搜索算法迭代中共享内存的使用步骤 .............................................................................. 73
图 5.6 随着仿真规模扩大四种方案的执行时间趋势 .................................................................. 76
图 5.7 GPU 执行的四种方案下与 CPU 执行的性能比 ............................................................... 77
图 5.8 仿真中的聚合操作 .............................................................................................................. 78
图 5.9 量子线路及其中的分解线路 .............................................................................................. 79
图 5.10 本文提出中间变量仿真方法与 5.3 节提出方法的性能对比 ......................................... 82
图 6.1 HIO 迭代算法流程示意图 .................................................................................................. 86
图 6.2 三维样品在频率域和空间域下的采样 .............................................................................. 87
图 6.3 三维圆柱形的傅里叶变换过程示意图 (CFT) .................................................................. 89
图 6.4 CUFFT1 中卷积步骤的伪代码 .......................................................................................... 90
图 6.5―Bin_array”和“Bin_boundary”之间的关系示意图 ...................................................... 91
图 6.6 采用本节方法的卷积步骤 CUDA 伪代码 ........................................................................ 93
图 6.7 输入驱动方法下使用 CUDA 的卷积步骤并行实现 ......................................................... 93
图 6.8 聚集状数据集下 LBR 方法示意图 .................................................................................... 94
图 6.9 三维 CFT 的计算流程 ........................................................................................................ 96
图 6.10 基于 GPU 的输入-输出混合(HIO)算法架构 ............................................................. 97
图 6.11 GPU 内存吞吐量随着
的变化 ........................................................................ 98
图 6.12 单精度下本章提出方法与 CUNFFT1 的性能比............................................................. 99
万方数据