基于NVIDIA Kepler的众核多计算模式系统设计

111 浏览量更新于2024-08-31 收藏 215KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"众核多计算模式系统的构建" 在高性能计算领域，众核处理器因其高计算密度、低片上通信开销以及优越的性能/功耗比而被广泛应用。特别是对于航空航天、医疗服务、地质勘探等复杂应用领域，面对海量数据处理需求，众核处理器能提供强大的实时计算能力。传统的多核处理器虽然也能实现并行计算，但在处理多种任务或复杂工作负载时，效率往往受限。 NVIDIA的Kepler GK110架构引入了Hyper-Q特性，该特性允许更多的CUDA流（用于并行任务调度的执行单元）同时运行，从而显著提高了GPU的并发能力。基于此，文章提出了针对复杂应用任务的三种计算模式：单任务并行、多任务并行和多任务流式计算。这三种模式分别适应不同的计算需求，如单任务并行适用于对计算速度要求极高的任务，多任务并行则可以同时处理多个独立的任务，而多任务流式计算则能有效地管理具有依赖关系的任务流。为了构建和切换这些计算模式，作者采用了空位标记技术。这是一种智能的调度策略，通过标记未被使用的计算资源来实现模式间的平滑过渡。同时，结合数据缓冲机制，可以有效地管理和传输数据，减少等待时间，确保高效的数据流动。另外，通过优化计算任务加载方式，可以进一步提高系统的灵活性和响应速度，使得众核处理器能够根据任务需求动态调整计算模式。众核处理器的动态构建和任务调度是解决复杂应用领域计算问题的关键。文献中提到的逻辑核构造和可重构众核处理器结构，以及自适应调度算法，都是为了解决这一问题的创新尝试。它们旨在通过动态地分配和重组核资源，以满足不断变化的应用需求，提高整体系统的效能和效率。众核多计算模式系统的构建是为了解决多样化计算任务的挑战，通过设计和实现灵活的计算模式，可以适应各种应用场景，从而最大化利用众核处理器的计算潜能。这样的系统不仅可以提高计算效率，还可以优化资源利用率，为复杂领域的实时计算提供有力支撑。

资源详情

资源推荐

众核多计算模式系统的构建众核多计算模式系统的构建

摘要：复杂应用领域中的一些具体计算任务不仅需要计算平台具备高效的计算能力，而且也应具有与计算任务

特点相匹配的计算模式。依据NVIDIA Kepler GK110架构中Hyper-Q特性与CUDA流的关系，提出单任务并行、

多任务并行与多任务流式计算三种计算模式。采用空位标记的方法对计算模式进行构建与切换，结合数据缓冲

机制和计算任务加载方式，设计了众核多计算模式处理系统，实现了众核处理机多模式计算的功能。　　0 引

言　　在航空航天、医疗服务、地质勘探等复杂应用领域，需要处理的数据量急剧增大，需要高性能的实时计

算能力提供支撑。与多核处理器相比，众核处理器计算资源密度更高、片上通信开销显着降低

　　摘要：复杂应用领域中的一些具体计算任务不仅需要计算平台具备高效的计算能力，而且也应具有与计算任务特点相匹配　　摘要：复杂应用领域中的一些具体计算任务不仅需要计算平台具备高效的计算能力，而且也应具有与计算任务特点相匹配

的计算模式。依据的计算模式。依据NVIDIA Kepler GK110架构中架构中Hyper-Q特性与特性与CUDA流的关系，提出单任务并行、多任务并行与多任务流式流的关系，提出单任务并行、多任务并行与多任务流式

计算三种计算模式。采用空位标记的方法对计算模式进行构建与切换，结合数据缓冲机制和计算任务加载方式，设计了众核多计算三种计算模式。采用空位标记的方法对计算模式进行构建与切换，结合数据缓冲机制和计算任务加载方式，设计了众核多

计算模式处理系统，实现了众核处理机多模式计算的功能。计算模式处理系统，实现了众核处理机多模式计算的功能。

　　0 引言

　　在航空航天、医疗服务、地质勘探等复杂应用领域，需要处理的数据量急剧增大，需要高性能的实时计算能力提供支撑。

与多核处理器相比，众核处理器计算资源密度更高、片上通信开销显着降低、性能/功耗比明显提高，可为实时系统提供强大

的计算能力。

　　在复杂应用领域当中，不同应用场景对计算的需求可能不同。例如，移动机器人在作业时，可能需要同时执行路径规划、

目标识别等多个任务，这些任务需要同时执行；在对遥感图像处理时，需要对图像数据进行配准、融合、重构、特征提取等多

个步骤，这些步骤间既需要同时执行，又存在前驱后继的关系。因此，基于众核处理器进行计算模式的动态构造，以适应不同

的应用场景和应用任务成为一种新的研究方向。文献[1]研究了具有逻辑核构造能力的众核处理器体系结构，其基本思想是基

于多个细粒度处理器核构建成粗粒度逻辑核，将不断增加的处理器核转化为单线程串行应用的性能提升。文献提出并验证了一

种基于类数据流驱动模型的可重构众核处理器结构，实现了逻辑核处理器的运行时可重构机制。文献提出了一种支持核资源

动态分组的自适应调度算法，通过对任务簇的拆分与合并，动态构建可弹性分区的核逻辑组，实现核资源的隔离优化访问。

　　GPGPU（General - Purpose Computing on GraphicsProcessing Units）作为一种典型的众核处理器，有关研究多面向

单任务并发执行方面的优化以及应用算法的加速。本文以GPGPU为平台，通过研究和设计，构建了单任务并行、多任务并行

和多任务流式处理的多计算模式处理系统。

　　1 众核处理机

　　1.1 众核处理机结构

　　众核处理机是基于众核控制单元（MPU）与众核处理器（GPGPU）相结合的主、协处理方式构建而成，其逻辑结构如图

1所示。众核处理机由众核控制单元和众核计算单元两部分组成，其中众核控制单元采用X86结构的MPU,与众核计算单元之间

通过PCI-E总线进行互连。

　　1.2 CUDA流与Hyper-Q

　　在统一计算设备架构（Compute Unified Device Ar-chitecture,CUDA）编程模型中，CUDA流（CUDA Stream）表示

GPU的一个操作队列，通过CUDA流来管理任务和并行。CUDA 流的使用分为两种：一种是CUDA 在创建上下文时会隐式地

创建一个CUDA流，从而命令可以在设备中排队等待执行；另一种是在编程时，在执行配置中显式地指定CUDA 流。不管以何

种方式使用CUDA流，所有的操作在CUDA流中都是按照先后顺序排队执行，然后每个操作按其进入队列的顺序离开队列。换

言之，队列充当了一个FIFO（先入先出）缓冲区，操作按照它们在设备中的出现顺序离开队列。

　　在GPU 中，有一个CUDA 工作调度器（CUDA WorkDistributor,CWD）的硬件单元，专门负责将计算工作分发到不同的

流处理器中。在Fermi架构中，虽然支持16 个内核的同时启动，但由于只有一个硬件工作队列用来连接主机端CPU 和设备端

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38632624

粉丝: 8
资源: 956

基于NVIDIA Kepler的众核多计算模式系统设计

基于众核处理器的多计算模式构造技术研究.pdf

面向国产异构众核系统的Parallel C语言设计与实现.pdf

简要分析当前的超算为什么普遍采用众核协处理器来提供强大的浮点计算能力

windows intel opencl

请列举十条关于Computer Arithmetic的发展方向，并简要论述。

MATLAB MIC

mcm封装的芯片型号

intel parallel studio xe cluster edition 2020 linux

详细阐述Computer Arithmetic的研究目标，研究内容，发展的方向

讲讲DASH: Dynamic Scheduling Algorithm for SingleISA Heterogeneous Nano-scale Many-Cores技术和优缺点

写出以下缩写词的中英文全称：DSP、MMACS、MIPS、MOPS、 MFLOPS。

parallel studio xe

athread_spawn（）

ldpc编码fpga实现

配置中心.zip

基于java的物流管理系统报告的开题报告.docx

企业级SpringCould脚手架工程：Eureka、Ribbon、Hystrix、Zuul、Feign、分布式事务.zip

基于Java的微信小程序html2wxml转换接口设计源码

嵌入式学习之电子音乐门铃.zip

习题集Python基础习题集.zip

最新资源