没有合适的资源?快使用搜索试试~ 我知道了~
可在www.sciencedirect.com在线获取理论计算机科学电子笔记349(2020)103-118www.elsevier.com/locate/entcs加速计算量大的工作负载的APU性能评估Ernesto Rivera-Alvarado1,2 Francisco J. 托雷斯-罗哈斯3计算机科学哥斯达黎加理工学院圣何塞,哥斯达黎加摘要APU(加速处理单元)作为低成本处理器在个人计算机中广泛使用,所述低成本处理器在同一管芯中具有CPU和用于显示图形的集成GPU。 使用光线跟踪算法作为计算密集型工作负载,并利用APU的特定特性,我们比较了该SoC与相同价格范围内的CPU和GPU解决方案的性能关键词:加速处理单元,计算密集型工作负载,光线跟踪,CPU,GPU,加速。1介绍多年来,计算机系统在集成、性能、功能和应用方面都取得了进步。这种演变的一个明显的例子是CPU(中央处理单元),它是计算机使用最广泛的资源。最初,CPU被设想为处理通用任务,但现在包含用于视频处理、矢量运算加速、多媒体解码和科学应用硬件加速等功能的专用电路[16][26][29]。尽管如此,CPU在处理大数据集或手头的任务具有大量计算操作时表现出众所周知的性能限制[16][26]。例如,当渲染计算机图形时,CPU性能是次优的,这是一项高度并行和计算密集型的这一限制导致开发了特定于应用程序的硬件来处理图像生成,1感谢我们在哥斯达黎加理工学院“少数幸福“研究小组的同事们2电子邮件:ernestoriv7@yahoo.com3电子邮件:torresrojas@gmail.comhttps://doi.org/10.1016/j.entcs.2020.02.0151571-0661/© 2020作者。出版社:Elsevier B.V.这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。104E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-电脑像素颜色计算的图像可以并行执行(使用光栅化)由几个处理器。这一观察指导了图形处理单元(GPU)的设计:一种集成了大量极简处理器的电路,这些处理器针对这一特定任务所需的数学运算进行了高度优化GPU在计算机图形中获得的性能增益是巨大的,现在,它被广泛用于视频游戏和多媒体应用程序[29]。由于CPU在多个任务中的性能限制,许多研究都针对GPU架构,将其用作通用处理器[20][26][27]。这项研究已经改善了几个计算密集型工作负载的执行时间(例如,人工智能、区块链、生物信息学等[16])。因此,由于其并行处理能力和对数学运算的高度优化,GPU已将自己定位为大量苛刻工作负载的默认架构[16][20]。然而,GPU也有几个限制因素,使其不能最佳地用于各种任务。特别是,CPU-GPU通信使用称为PCI-Express的系统总线,其传输速率低于CPU-RAM通信中的传输速率,其本身也很低[18][20]。PCI-Express内存传输直接影响需要CPU和GPU之间大量通信的应用程序的性能[36][20]。另一个挫折是CPU RAM和GPU VRAM没有内存一致性协议,也没有有效的方式来共享数据结构[19]。此外,GPU在执行顺序代码、高数值代码时效率很低,分支,具有递归的代码或具有不可预测的内存访问模式的代码[18][16][29]。2011年,随着CPU芯片中新型专用电路的引入,一种被称为APU(加速处理单元)的新型计算机架构诞生了。这种设置具有在同一集成电路中共享系统存储器(RAM)的CPU和GPU,它们的存储器之间具有一致性机制,并且 APU设计带来了创建利用这些特定特性的专用算法的机会[16][20]。尽管如此,[20]指出,在评估GPU性能不实用的任务中APU的性能方面还有很多悬而未决的工作,这些任务是由于PCI-Express总线传输速率等限制,CPU和GPU之间无法共享数据结构,或者当GPU执行具有大量分支的代码时[20]。此外,相同的作者提到,紧密耦合算法的设计和评估,可以利用APU架构的特定特性来提高性能,是值得探索的机会[20]。我们探讨了在计算密集型工作负载中使用APU作为CPU或GPU架构的替代方案的可行性。选择光线跟踪算法作为本评价的研究案例,因为:• 它是计算和数据密集型的[17]。• 有积极的研究工作旨在提高性能[36][27]。E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-105• 有最先进的实现可用于CPU和GPU [27]。• 它在多个研究领域都有应用,如计算机图形学、物理仿真、机器人运动规划等[12]。这些特性使光线跟踪算法成为一个有趣的案例,用于研究其在CPU和GPU架构上的成本和执行时间性能,并将其与为APU设计的实现进行比较。在低成本硬件中提高光线跟踪算法性能的可能性,例如个人电脑和视频游戏机中的光线跟踪算法,可以为由于其高渲染时间而无法实现的设备带来这种技术的好处。第2节显示了通过各种方法加速光线跟踪算法所做的不同努力和所获得的结果,而第3节描述了APU加速机制的设计和实现细节。本研究所进行的实验,包括实验设计,所用的硬件,以及所获得的数据的分析方法在第4节中详细说明。反过来,这些实验的结果在第5节中给出,并在第6节中讨论。最后,第7节总结了他的论文的所有结论,并确定了未来工作的途径2背景已经有几次尝试通过GPU来加速光线跟踪算法;尽管如此,这些实现通常包含混合算法,该混合算法将光栅化结合起来,否则将需要大量的计算能力,光线跟踪和硬件解决方案[32]。这种发展使得评估GPU中纯光线跟踪实现的性能具有挑战性此外,[32]提到通过GPU中的光线跟踪渲染图像的实际机制使用复杂的数据结构,需要维护和加速过程才能实现可接受的性能[32]。据我们所知,没有一项研究成果是在APU的背景下进行的。相反,它们通常利用专门的高成本硬件来实现可接受的渲染时间。其他研究人员的工作重点是在有限资源的GPU中实现光线跟踪,比如移动设备中的GPU结果显示出潜力,但它们具有不使用广泛可用的硬件的缺点,因为它们建议开发专用硬件以实现合理的性能[22]。其他研究将光栅化,光线跟踪和专用硬件纳入单一设计中,以加速渲染时间[21]。这些开发的目标是通过移动GPU以快速的方式实现足够好的质量图像,但缺点是不使用标准硬件,并且使用光栅化提供的图像质量较低[10][17]。已经有关于开发专用硬件(ASIC)以通过光线跟踪渲染图像的研究[8]。由于电路是专用的,106E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-对于光线跟踪,它不像典型的CPU那样在指令获取和指令解码周期另一方面,这个解决方案只是一个功能有限的原型。此外,它是在FPGA上开发的,因为在出版时在硅上实现设计的使用GPU作为光线跟踪的默认平台的主要原因之一是RAM-VRAM事务频繁,与CPU相比,GPU具有较小的缓存,因此内存事务需要更多的带宽[27][15]。考虑到这一点,最近的举措特别关注通过GPU加速光线跟踪中的光线/对象相交[36]。他们提出了一种机制来压缩发送到GPU内存的预处理对象的数据结构,这降低了RAM和VRAM之间所需的通信带宽。这种方法的缺点是增加了每个GPU VRAM事务的数据压缩时间。不过,这种方法只适用于需要大量内存事务的场景。使用预处理数据结构作为加速机制的另一种方法是边界体层次(BVH)。该方法分析场景中的每个元素,并将它们添加到边界框中,这些边界框将逐步添加到更大的容器中,从而创建一个二叉树数据结构。通过这种方式,当光线没有穿过边界框时,子树和容器中的所有对象都将被丢弃,从而节省了大量的处理时间[27]。 通过这种加速机制可以获得高性能增益,因为它避免了多个射线/对象交叉点的不必要计算[33]。该算法最初设想在CPU中运行,后来由[6]移植到GPU,然而,尚未找到APU的具体实现有一些开发旨在将GPU定位为通用计算平台[31][10],或者找到一种优化的方式来调度GPU(甚至不是APU中的集成GPU)[34]。 两者都是研究领域 和我们的研究不同。3设计我们专注于展示APU作为可行的架构,以提高计算密集型工作负载的性能,特别是光线跟踪。这是相关的,因为APU广泛可用,并存在于许多商品硬件中[14][20]。我们不仅仅是在寻找一个算法从CPU到GPU的移植,也不是对现有算法的优化。为APU设计了一种新颖的光线跟踪算法,该算法深入了解了如何使用该架构的特定特性来提高计算密集型工作负载的性能。例如,我们在很大程度上依赖于在集成的GPU和CPU之间以高效的方式共享数据结构的能力,因为内存由两个处理器共享,这避免了PCI-Express总线的通信瓶颈。 内存量可以扩展到与操作系统可用的内存相同的内存[16]。此外,任务E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-107图1.一、CodeXL对已开发的APU算法进行零数据传输的分析结果GPU无法完成的任务可以很容易地委托给CPU。这项研究为展示APU加速计算昂贵的工作负载的能力迈出了第一步,因此至关重要的是,这三种架构运行完全相同的算法(即使算法没有针对该平台进行特别优化),以便在相同的环境和工作负载下显示行为。商业或最先进的解决方案,如Nvidia OptiX[24][25]或Intel Embree[5]不在本研究的范围内,因为很难在编程语言和使用的资源方面对解决方案的架构进行公平的比较。此外,这些工具依赖于供应商,并且为CPU(使用C)和GPU(使用OpenCL)开发了完全相同的光线跟踪算法。甚至数据结构也是一样的。这些实现不提供任何有利于任何架构的优化[27][28][30]这是基于。GPU开发遵循[20]指出的建议,以提高处理一般工作负载时的性能。APU的代码与其内部CPU渲染的CPU架构的代码完全相同,以及用于其内部GPU的离散GPU的相同代码。因此,对这些组件的任何优化都将存在于所有考虑的参与者中。正如[20]所指出的,APU的关键机会之一是能够在CPU和GPU之间有效地共享数据结构。内存传输是几种算法在GPU中表现不佳的原因之一,这是由于代表PCI-Express总线的通信瓶颈和内存延迟。在我们的实验中使用的AMD APU架构能够提供 零 拷 贝 机制 , 这 允 许 以 高 效的 方 式 在 CPU 和 集 成 GPU 之 间 共 享 数据 结 构[4][2][3]。工具CodeXL[1][13]用于分析和检查CPU和集成GPU之间共享内存数据结构的行为正如预期的那样,它被验证没有任何数据结构被复制(见图1)。① 的人。加速APU架构中光线跟踪的算法如图2所示。图像是使用所有的CPU和GPU内核同时渲染的,同时共享存储在RAM中的场景的相同数据结构。根据[27]中的建议,图像被分为16× 16像素的工作-108E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-图二. APU光线跟踪算法。加载作为要提供给处理器以进行渲染的单元。对于系统中的每个可用CPU核心,都会产生一个线程来检查是否有任何可用的工作负载挂起。如果是这种情况,线程执行工作负载,将其结果保存到内存中并查找下一个工作负载。每个线程结束,如果没有更多的挂起的工作。由于APU的GPU组件的每个工作分配都意味着开销,因此应该至少有足够的工作来最大化GPU资源利用率,即它的所有处理单元都应该有足够的工作量。AMD文档建议尝试不同的工作负载大小以实现最佳性能[4][20]。根据经验,我们发现,如果GPU中有N个计算单元,则分配给GPU的工作负载总数为6×N。集成的GPU与CPU内核并行处理图像。当GPU完成工作时,它会检查是否有至少6×n个工作负载可供它处理。如果不是这种情况,GPU线程完成,任何剩余的工作都由CPU核心执行。当所有线程完成时,渲染图像从RAM复制到存储内存,过程结束。所提出的算法很好地适合光线跟踪渲染器的要求对于其他计算密集型工作负载,需要对任务进行深入分析,以提出满足该工作负载特定特征的加速机制E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-1094方法因子方差分析(ANOVA)实验旨在有效地评估研究中的不同因素可能对响应变量产生的影响[23]。之所以选择这种方法,是因为它能够评估APU、CPU和GPU架构中光线跟踪算法的性能以及直接影响渲染时间的其他几个因素[27]。出于实用性考虑,对效果(抗锯齿、反射、反射)的评估使用2k形式,这显著减少了执行实验的数量,同时保留了这些效果在渲染时间内的影响力。因子是实验中可能以某种方式影响响应变量的成分(具有不同水平)[23]。ANOVA的目的是确定该差异是否具有统计学意义。本实验的选定因素和水平为:• 对象:场景中存在的对象数量直接影响渲染时间[27]。使用了以下数量·1000。·4000。16000。·65000。·26万。• 图像分辨率:图像质量取决于它可以包含的细节水平[17]。像素是数字图像中可能存在的最小细节,因此它与质量直接相关。 这意味着,图像(分辨率越高),质量越好。为实验选择了三种常见的计算机分辨率·1280× 720。·1440× 900。·1920× 1080。• 视觉效果:视觉效果直接影响渲染时间[27]。考虑了以下三个效应的所有· (AA)抗锯齿。· (RE)反射(5级)。· (TR)透明度(5个级别)。• 架构:这是测试APU加速计算密集型工作负载能力的最关键因素。如文件所述,这些因素是:· APU· CPU.· GPU。有5× 3× 8× 3 = 360个组合,由于决定有5个重复,我们最终进行了360× 5 =1800次实验。开发了几个脚本来自动化和自动选择实验数据。110E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-表1硬件描述。特性CPUGPUAPU供应商AMDNvidiaAMD模型锐龙2600GeForce 1050Ti锐龙2400G价格(美元)199199169CPU核心/线程6/12-4/8功耗(W)657565CPU高速缓存L2/L3(MB)3/16-2/4CPU频率(GHz)3.4- 三点九-3.6- 三点九GPU内存(GB)-4共享RAMGPU频率(GHz)-1.291.25GPU核心-768704GPU GFLOPS-21381736两台计算机被用来获取数据。一台计算机拥有CPU和GPU架构,另一台拥有APU。这两款机器都配备了2400 MHz单通道的8 GB RAM,256 GB SSD和库存冷却(详情请参见表1用于实验的基本场景由物体的数量和位置构成。从那里,分辨率、效果和架构的因素被调整以适应特定的组合。一个复杂的光线跟踪图像有几个对象分布在所有场景中[27]。该标准用于在投影帧的x和y轴以及场景的z不同的物体大小和形状被用来模拟一个典型的光线跟踪场景中包含的元素性能可以等同于响应时间[26]。因此,这些实验的自然响应变量是算法创建图像所花费的渲染时间。5结果由于ANOVA充分性要求,对数据进行了平方根转换[23]。然而,本节的图表与反变换(即,提升到其平方)数据结果。图3显示了由R[35]生成的该实验的ANOVA表。图4绘制了在所有定义的场景中,平均渲染时间与架构(本研究中最重要的因素)的关系。图图5、6和7分解了这些信息,这些信息呈现了架构相对于其他每一个的行为E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-111平均时间(s)Anova表(II型tectc)记录:T_cqrt和Sq Df F值Pr(>F)建筑2980.9 2 2.8440e+05 2.2e-16 *目标c 21603.4 4 1.0306e+06 2.2e-16 *2.2e-16 *12945.3 7 3.5288e+05 2.2e-16 *架构:Objectc 2944.3 8 7.0228e+04 2.2e-16 *架构:Recolution 41.5 4 1.9806e+03 2.2e-16 *标的物c:回收151.0 8 3.6010e+03 2.2e-16 *架构:Uptc 1284.6 14 1.7508e+04 2.2e-16 *对象c:中国5538.6 28 3.7745e+04 2.2e-16 *Recolution:111.5 14 1.5191e+03 2.2e-16 * 架构:对象:Recolution 13.2 161.5706e+02 2.2e-16 * 架构:对象c:ESTTC 750.7 56 2.5580e+03 2.2e-16 *架构:重构:11.8 28 8.0599e+01 2.2e-16 * 目标c:回收:* 架构:对象:重新定义:1.2528e+01 2.2e-16 * 倒数c---符号编解码器:0 '*' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ‘ ’图三. ANOVA表。平均时间与架构50403020APU CPU GPU架构图四、平均渲染时间在体系结构的函数主要因素。表2显示了所有对象数量、效果和分辨率级别组合的每个架构(APU、CPU和GPU)的平均渲染时间。性能/像素通过对实验所用的三种分辨率中的像素数取平均值来计算。渲染图像的平均时间除以图像中的平均像素数真实世界的渲染场景涉及高分辨率,场景中的几个对象以及数千到数百万个对象[27]。我们在1920× 1080分辨率、260000个对象、抗锯齿、反射和透明度激活的情况下分析了这个案例。该 运 行 获 得 的指标见表3。●112E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-平均时间(s)平均时间(s)平均时间(s)与架构7060504030201280x720 1440x900 1920x1080决议图五、分辨率与架构的平均渲染时间200150架构●APUCPUGPU平均时间与效应在建筑100●50●●●●●●●0xx−xx−xxxx−xx−RExx−TR−xxxx−TR−REAA−xx−xxAA−xx−REAA−TR−xx AA−TR−RE影响图第六章效果与架构的平均渲染时间表2获得APU、CPU和GPU架构的指标(越低越好)。度量APUCPUGPU平均时间(s)19.7252.8649.82性能/像素(μs)4.5912.3111.60架构●APUCPUGPU●●●E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-113平均时间(s)200架构●APUCPUGPU平均时间(s)与建筑100●●●0●●1000 4000 16000 65000 260000对象见图7。 对象数量与结构的平均渲染时间。表3真实案例度量。度量APUCPUGPU平均时间(s)307.02 633.981267.14性能/像素(μs)148.06 305.70611.08通过验证三种架构在相同分辨率、物体数量和效果的情况下绘制出完全相同的图像,验证了算法的正确性。UNIX的diff命令很好地做到了这一点。在APU、CPU和GPU架构之间生成的图像之间没有发现差异。图图8、图9和图10示出了由实验生成的典型图像。6讨论图3的方差分析表显示,所有主要因素及其组合的p值都很低,这意味着它们具有统计学意义。因此,它们都影响了响应变量。图4显示了物体数量、效应和分辨率的所有相互作用的平均值。对这些数据的Welch表2显示了每个体系结构的平均渲染时间(在统计学上是不同的,p小于0。05)。该信息与该结果一致,并表明APU是渲染动画的最佳架构,因为与CPU和GPU平台的时间相比,它提供了114E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-见图8。 16000个对象见图9。 65000个对象分辨率、对象数量、效应及其相互作用对渲染时间的影响在[30][28][27][7][17]中得到了广泛的解释。 结果如图3和图4所示。5,6,7证实了这些意见。在这方面,应用于我们数据的ANOVA和Welch• APU在任何分辨率水平上的性能都优于其他两种体系结构。分辨率级别影响图像中处理的像素数量,每个像素意味着至少一条射线(如果存在抗锯齿,则更多),其本身通过额外的次级射线触发交叉检测并影响计算。因此,图5证明,E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-115见图10。 260000个对象APU似乎对原始工作槽分辨率的增加不太敏感• 通过为一个像素的颜色计算生成更多的光线来实现抗锯齿、反射和重叠的效果,并且作为结果,执行更多的数学运算并且渲染时间增加。APU在抗锯齿效应激活时具有统计学差异和优越的性能。当存在抗锯齿时,添加更多的效果会扩大架构之间的渲染时间差异,图6显示APU是具有最佳性能的APU,因为它对这种增量不太敏感。• 在光线跟踪算法中,必须计算场景中每条光线与对象之间的交点。因此,场景中的对象越多,需要检测的交叉越多,这产生更多的存储器访问和数学运算。对于16000个或更多的对象,对象数量使APU渲染时间在统计上不同,并且优于CPU或GPU(图7)。这种现象可以通过APU架构对存储对象的RAM的访问的容易性来解释,而在GPU实现中,随着对象数量的增加,通过PCI-Express总线向GPU的传输也增加,从而对渲染时间产生负面此外,使用GPU的光线跟踪处理是具有挑战性的,因为计算单元的子利用率和低效的存储器访问模式,这是由于在碰撞检测期间需要访问的对象数据结构的不可预测性[12]。表3表明,APU性能优于平均渲染时间和性能每像素在复杂的情况下,更接近现实世界的渲染问题(场景具有更高的分辨率,对象数量,以及所有的影响)。这表明APU即使在需要最大计算能力的情况下也具有性能优势,这提供了一种见解116E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-这种架构具有加速一般计算密集型工作负载的潜力。在一般和最复杂的场景中,APU性能比定义实验的其他计算平台高出50%以上(表4)。为了呈现如图1A和1B中所示的正确图像。8,9和10,需要FP64(64位的浮点数)操作。 如果FP32 使用时,渲染的图像会显示令人讨厌的伪影。当通过光线追踪计算像素颜色时,需要执行大量的数学运算来获得屏幕上显示的颜色。如果使用FP32,则其舍入误差通过导致生成不正确像素颜色的数学运算累积。这些正确的输出和从分析中获得的指标提供了证据,证明专为APU设计的拟议加速机制将该架构定位为加速计算密集型工作负载(如光线跟踪)的可行选项。7结论和今后的工作我们提出了一种替代的低成本架构,用于加速计算密集型工作负载。我们的设计利用APU(集成GPU和CPU)中所有可用的计算资源来处理计算密集型任务,在这种特殊情况下,光线跟踪。我们的方法利用了APU体系结构的特殊特性,例如,它能够从RAM共享数据结构,并能够有效地协调内部处理器的工作。我们的实验提供了有价值的信息,显示APU架构作为加速计算昂贵的工作负载的可行替代方案的潜力,同时与CPU和GPU架构相比是最具成本效益的。所获得的数据和现实情况下的度量表明,APU的性能优势变得更加显着的任务的内存访问和数学运算的增加。浮点运算的精度直接影响光线跟踪的正确性。我们发现需要FP64才能获得正确的结果。因此,具有优化的FP64操作的平台将提高本研究所选任务的性能。对于未来的工作,必须考虑额外的光线跟踪功能和算法。应评估新一代APU,因为它们可能会改变本研究的结果。除了光线跟踪之外,另一个计算密集型工作负载表4APU相对于CPU和GPU架构场景CPUGPU一般病例(%)62.6965.69最复杂情况(%)51.5679.00E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-117ⓍⓍ以衡量APU在这些任务中是否保持其性能和成本效率优势。由于APU使用与CPU和GPU相同的代码,因此探索这三种架构中渲染代码的广泛优化效果将是有趣的。此外,对独立GPU解决方案中的PCI-Express和内存传输的深入探索可以为从APU获得更高性能的方法提供有趣的见解最后,由于有几种技术可以最大限度地减少FP32舍入误差[27],因此可以集中在FP32操作上运行引用[1] Advanced Micro Devices,[2] AdvancedMicroDevices , “AMDAcceleratedParallelProcessing , OpenCLProgrammingGuide,”AMD,2013.[3] Advanced Micro Devices,[4] Advanced Micro Devices,[5] A'fra,A. T.,I. 瓦尔德角 要瘦,要瘦。 Woop,Embre rereracingkernels:Overviewand newfeatures,in:ACM SIGGRAPH 2016 Talks,SIGGRAPH '16(2016),pp. 52:1-52:2。[6] Aila , T. 和 S. Laine , Understanding the Efficiency of Ray Traffic on GPU , in : Proceedings of theConference on High Performance Graphics 2009,HPG'09(2009),pp. 145比149[7] Akenine-Moller,T.,E. Haines和N.何伟文,[8] 阿 尔瓦 拉 多湾 J., D. Valderde, G. Randolph、 Steinvorth和 F. J. Torres-Rojas, RTUCR: HardwareparaRayTracing,in:Tiem poCom partido,Volumen8,Nu′me ro1,Tiem poCompartido(2008),pp. 6比13[9] Angel,E.和D. Shreiner,[10] Bikker,J.,“实时游戏中的光线跟踪”,博士NHTV University of Applied Sciences,Reduitlaan 41,4814DC,Breda,The Netherlands(2012).[11] Bikker , J. 和 J. van Schijndel , The Brigade Renderer : A Path Tracer for Real-Time Games ,International Journal of Computer Games Technology2013(2013)。[12] Chitalu,Floyd M.和Dubach,Christophe和Komura,Taku,Bulk-synchronous Parallel SimultaneousBVH Traffic for Collision Detection on GPU,in:Proceedings of the ACM SIGGRAPH Symposium关于交互式3D图形和游戏,I3D '18(2018),pp. 4:1-4:9。[13] Fare,C.,启用SYCL应用程序的配置文件,在:OpenCL国际研讨会的会议记录,IWOCL12:1-12:1。[14] Gaster,B.,L. Howes,D. R. Kaeli,P. Mistry and D. Schaa,[15] Haines,E. 和T. A kenine-Müoler,“R a y T racing Gem s : 使 用 DXR 和 其 他 API 进 行 高 质 量 和 实 时 渲染”,Apress,2019年。[16] Hennessy,J.,“Computer Architecture : A Quantitative Approach,” Morgan Kaufmann Publishers,an imprint[17] Hughes,J.F.、A. van Dam,M.麦奎尔,D.F. Sklar,J.D. Foley,S.K. Feiner和K.Akeley,[18] 英特尔公司,“英特尔R处理器显卡OpenCL TM开发人员指南”,英特尔公司,2015年。[19] Junkins,S.,IntelR C o m p u t e Architecture公司,2018年。处理器显卡Gen9”,118E. Rivera-Alvarado,F.J. Torres-Rojas / Electron. Notes Theor. Comput. Sci. 349(2020)103-[20] Kaeli,D. R.,P. Mistry,D. Schaa和D. P. Zhang,[21] 李,W.- J.,S. J. Hwang,Y. Shin,J.- J.Yoo和S. Ryu,An Eccient Hybrid Ray Tracing and RasterizerArchitecture for Mobile GPU , in : SIGGRAPH Asia 2015 Mobile Graphics and InteractiveApplications,SA'15(2015),pp. 2:1-2:4。[22] 李,W.- J.,Y. Shin,J. Lee,J.- W.金,J. - H.不S荣格,S.李,H.- S.公园和T.- D. Han,SGRT:AMobile GPU Architecture for Real-time Ray Tracing , in : Proceedings of the 5th High-PerformanceGraphics Conference,HPG '13(2013),pp. 109比119[23] 蒙哥马利湾C.的方法,“Design and Analysis of Experiments,” Wiley,[24] 帕克,S。G.,J. Bigler,A.迪特里希,H。放大图片作者:J.吕布克D.麦卡利斯特M。麦奎尔K. Morley,A.Robison和M.Stich,Optix:一个通用的光线跟踪引擎,ACM Trans.Graph.29(2010),pp. 66:1-66:13。[25] 帕克,S。G.,J. Bigler,A.迪特里希,H。放大图片作者:J.吕布克D.麦卡利斯特M。麦奎尔K. Morley,A.Robison和M.Stich,Optix:A general purpose ray tracing engine,in:ACMSIGGRAPH 2010 Papers,SIGGRAPH66:1-66:13。[26] 帕特森,D.,“Computer Organization and Design : The Hardware/Software Interface,” Morgan[27] Pharr,M.,W. Jakob和G. Humphreys,[28] Shirley,P.,[29] Stallings,W.,“Computer Organization and Architecture (10th Edition),” Pearson,[30] Su Zuerern,K.,[31] Tristram,D.和K. Bradshaw,评估GPU上典型科学问题的加速,在:南非计算机科学家和信息技术专家会议研究所会议记录,SAICSIT十七比二十六[32] Vardis,K.,A. A. Vasilakis和G. Papaioannou,交互式光线跟踪的多视图和多层方法,在:第20届ACMSIGGRAPH交互式3D图形和游戏研讨会论文集,I3D'16(2016),pp. 171比178[33] 王玉,C. Liu和Y. Deng,A Feasibility Study of Ray Tracing on Mobile GPU,in:SIGGRAPH Asia2014 Mobile Graphics and Interactive Applications,SA3:1-3:5。[34] Wen,Y.,M. F. O'Boyle和C. Fensch,MaxPair:Enhance OpenCL Concurrent Kernel Execution byWeighted Maximum Matching,in:Proceedings of the 11th Workshop on General Purpose GPU,GPGPU-11(2018),pp. 40比49[35] Wickham,H.和G. Grolemund,[36] Ylitie,H.,T. Karras和S. Laine,通过压缩的宽BVH在GPU上的有效非相干光线传输,在:高性能图形会议记录,HPG'17(2017),pp。4:1-4:13。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功