“提高公共云中HPC应用程序性能的新方法”

154 浏览量更新于2024-01-11 收藏 651KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

© 2014作者。由爱思唯尔公司出版信息工程研究院可在www.sciencedirect.com上在线获取ScienceDirectIERI Procedia 10（2014）169 - 1762014未来信息工程提高公共云中的HPC应用程序性能Rashid Hassani*，Md Aiatullah，Peter Luksch罗斯托克大学，罗斯托克，18059，德国摘要通过将高性能计算（HPC）应用迁移到云环境来提高和评估HPC应用的性能被广泛认为是高性能和云计算领域的关键问题。然而，网络性能差，异构和动态环境是一些执行的陷阱系列云计算中的HPC应用程序。本文提出了一种新的方法来提高亚马逊HPC云上HPC应用程序的性能和可扩展性。从我们的方法中获得的证据表明，与专用HPC集群相比，云上的响应率超过20%，在加速和扩展方面有显着改进。我们指出，EC2云系统是部署按需小型HPC应用程序的可行平台。© 2014作者。由爱思唯尔公司出版这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/3.0/）。信息工程研究院负责评选和同行评议关键词：云计算; HPC应用;并行排序算法; MPI; Amazon EC21. 介绍超级计算，通常称为高性能计算（HPC），被称为采用并行处理在短时间内执行大量计算的属性。HPC平台通常是紧密耦合的，并且执行频繁的处理器间通信和同步。它们需要大量计算机的集群设置，安装，维护和操作都很昂贵。它们主要用于学术界和工业界的科学研究因此，超级计算机不可能是* 拉希德·哈桑尼。联系电话：+49-3814987565;传真：+49-3814987522。电子邮件地址：rashid. hassani@uni-rostock.de。2212-6678 © 2014作者由爱思唯尔公司出版这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/3.0/）。信息工程研究所负责的选择和同行评审170Rashid Hassani等人/ IERI Procedia 10（2014）169对于普通用户和打算按需访问或短期运行其应用程序的小型企业来说，这是一个可行的解决方案。近年来，云计算正在成为一种计算能力的巨大资源，它为构建HPC平台提供了多种可能性[1]。传统HPC平台提供有限的硬件访问，并且无法扩展。根据应用需求和用户预算向上和向下扩展计算平台的能力，使云成为符合HPC用户需求的经济高效、及时的解决方案和新兴趋势。云计算的一些关键特征是虚拟化，资源弹性和快速增长，能够提供基础设施和软件即服务。这些功能允许更好的灵活性和定制HPC用户的特定应用程序。因此，HPC社区已经发现云计算设施作为潜在的目标系统。这是促使许多用户和组织将HPC应用程序移植到云的主要原因之一。Amazon Web Services（AWS）推出的弹性计算云（EC2）[2]通过硬件级虚拟化按需提供强大的计算和存储资源，并旨在实现全球化。它为虚拟并行机群上的计算提供了可能。一些研究调查了在AmazonCloud基础设施上执行HPC应用程序的好处。尽管云计算提供了很多好处，但云计算是否能为HPC应用提供超级计算机的合适替代方案还没有确定。因此，这促使我们对云中的HPC进行详细的研究。过去对云计算上的HPC应用程序的研究结果是悲观的。他们概述了由于云上HPC应用程序的网络性能不足、资源异构性和多租户而导致的主要限制[3，4，5，10，11]。然而，云计算近年来取得了进展，现在将通过在处理器、内存和网络中引入异构配置来解决其中一些问题。它们已经在不同的场景中被采用，例如密集型和业务应用程序，其中用户可以在需要时扩展和缩减资源，并最终在任务完成时删除它们。排序算法被认为是高性能计算应用中的核心部分。分布式排序算法有多种类型，人们对它们进行了许多改进。速度是分析并行算法的性能指标。这些排序算法中的一些已经在各种计算基础设施上实现，以分析系统的性能。这将是有趣的，看看云如何扩展，以及当实现并行排序算法时，云与高端机器的性能如何。尽管云提供了广泛的好处，目前的研究问题是在本文中，我们实现了并行基数排序的MPI版本，并分析了其在云基础设施上的性能，最后将其与专用的高端HPC平台进行了比较。这项工作的贡献如下：调查已移植到云环境的HPC应用程序的最新工作并确定这些应用程序在云环境中面临的挑战。实现并行基数排序算法的高效MPI版本，以在云中获得可扩展性和良好的速度。通过在真正的专用HPC测试平台（Sirius）[6]和Amazon EC2 Cloud [2]上部署我们提出的技术来评估其性能和可扩展性。本文其余部分的组织如下：第二部分通过定义此范例的参考模型，简要概述了云计算和Amazon EC2基础设施，并讨论了潜在的机会，并调查了公共云中高性能计算的当前技术水平，特别是Amazon EC2。第三节描述了我们提出的并行版本的基数排序的实现，并概述了缩放分析Rashid Hassani等人/ IERI Procedia 10（2014）169171命名法HPC高性能计算AWS亚马逊网络服务EC2弹性计算云MPI消息传递接口在MPI中间件下，已经在EC2以及专用HPC集群上实现。最后，对全文进行了总结，并提出了进一步的研究方向.2. 云上HPC2.1. 云架构如图1所示，云架构中有三个主要层，即基础设施即服务（IaaS）、平台即服务（PaaS）和软件即服务（SaaS）。图1.一、云架构SaaS位于云计算堆栈的顶端。它是云计算中最明显的一层，它为最终用户提供了对云中托管的特定应用程序的访问。它包括软件应用程序，如Google Apps，Yahoo Mail等。PaaS是SaaS层和虚拟化IaaS层之间的抽象层。它为用户提供了一个应用程序框架和一组API，开发人员可以使用它们来构建他们的云应用程序。PaaS产品包括Google App Engine、Salesforce的Force.com。IaaS为用户和组织提供存储和计算资源，这些资源作为服务获得。亚马逊是提供IaaS解决方案的主要参与者之一。172Rashid Hassani等人/ IERI Procedia 10（2014）1692.2. 亚马逊网络服务2006年，Amazon Web Services（AWS）推出了弹性计算云（EC2），通过硬件级虚拟化按需提供强大的计算和存储资源。它提供了大型计算基础设施的按使用付费模型和基于硬件虚拟化的服务，用户可以在需要时扩展资源。这些应用程序通过Amazon Machine Image（AMI）在硬件上启动。一旦AMI启动，运行的系统就充当实例。根据计算需求，有不同类型的实例，即标准，高内存，微型，高CPU，集群GPU和集群计算。有几项研究评估了Amazon EC2的HPC应用程序。Gunarathne等人[12]得出的结论是，与云上的带宽敏感型应用程序相比，延迟敏感型应用程序的性能较差。Zhou等人[13]使用经典基准和实际应用程序比较了专用HPC系统与三个公共云平台的结果。Ramakrishnan等人[14]将之前的研究扩展到了EC2云平台。他们得出结论，由于EC2云上的互连，与传统HPC平台相比，Amazon EC2上的性能下降更高。在[15]中，比较是基于在EC2上运行的HPC应用程序的性能测量。作者建议部署新的现象来评估性能。[16]中的工作与我们的研究最相关，在我们的研究中，Amazon EC2与运行MPI应用程序的本地集群进行了比较。作者评估了一个EC2上的集群计算实例，并指出了几个问题，如互连限制EC2上的性能现在，Amazon EC2已经开始解决以前的问题，它提供了专门针对现代HPC的计算实例，这些实例通过多租户和虚拟化以及快速网络连接实现。然而，最近对HPC优化云的努力[17][18]是有希望的积极迹象，并导致研究界的巨大增长。2.3. 云上的排序算法排序被认为是一个超级计算的基准测试性能的高性能计算应用程序的计算架构。对改进数据排序的需求日益增加。并行排序算法是非常丰富的。它们已经在各种计算基础设施上进行了测试，并且已经对其进行了许多改进。分布式排序算法有很多种，如基数排序、快速排序、堆排序和归并排序等。针对云计算环境下排序算法的性能进行了多项研究。[19]第十九章：一个人的幸福基于合并排序的算法，具有比较的变化和快速排序的推广[21]。根据迄今为止取得的结果，这些算法似乎要么是相对缓慢的开始，如快速排序，要么是缓慢的结束，如合并和Bitonic排序，其中较少的序列与并行合并，但与这些算法不同，当基数排序并行化时，与其他算法相比，它对较大的数据集执行得更快，如快速排序和合并排序[22][7]。Radix sort是目前一种众所周知的快速算法方法，用于在CPU和GPU处理器上对32位和64位键进行排序，该方法对键的按位表示进行了某些位置和符号假设[22]。这种想法促使我们开发Radix sort算法的并行版本，并将其部署在云上，以使用“加速”测量来测试性能到目前为止，我们已经讨论了公共云（特别是Amazon EC2）上高性能计算的潜在机会和当前技术水平。“加速”度量表示并行算法和并行系统的性能。本研究的目的是实现和部署并行基数排序，并分析云加速测量。Rashid Hassani等人/ IERI Procedia 10（2014）1691733. 执行和评价为了在云中实现和测量基数排序的速度，需要研究许多方法来实现该算法的并行版本。目前，大多数并行HPC应用程序都采用消息传递接口（MPI）[8][9][23]。作为一个案例研究，在第一步中，我们实现了并行基数排序程序使用MPI，Pthreads和OpenMP，并分析了他们的性能基准测试。我们的实验结果使我们得出这样的结论，MPI比别人在并行排序的时候表现更好。因此，MPI被选为一个合适的方法来开发和实现云上的并行基数排序。据我们所知，我们是第一个在亚马逊云上执行MPI版本的基数排序的人。在云中实现基数排序之前，必须构建一个集群。 Amazon推荐基于CentOS的映像用于HPC应用程序。群集计算实例非常适合HPC应用程序，并且在CPU资源与网络性能相结合。作为中间件，我们专门重新配置并安装了最新版本的OpenMPI（v1.8）用于HPC应用程序[8][9]，并且GNU C++编译器安装在我们的Sirius测试平台[6]和Amazon公共云上。我们在实验中使用了我们专用HPC平台的硬件规格如下：8个节点，每个节点配备：4个CPU Opteron 8350、160 GB SATA、16 GB DDR2-RAM。3个节点，每个节点具有：4个CPU Opteron 842、160 GB SATA、16 GBDDR2-RAM。表. 1显示了Sirius测试床集群的软件规格。表1.Sirius集群软件规范库/编译器/操作系统版本Linux Enterprise（SUSE Novell）10.3GNU编译器4.1.2打开MPI V 1.83.1. 执行我们已经使用了基数排序算法的优化并行版本，与所有其他排序算法相比，它保证了CPU核心之间近乎完美的负载平衡[22]。我们开发了平行的MPI版本的基数排序使用'C'。它在第一阶段从左基数排序开始，然后继续一位右基数。通过Amazon Web Service，首先我们创建了AMI并将其保存为模板，其中包含我们上面提到的超大型实例类型。通过此模板，我们运行了多个HPC实例。对于HPC实例，Amazon保证10千兆以太网互连具有完整的二分带宽。对于我们的实验，我们考虑了四种不同的工作负载，即，25MB、50MB、75MB和100MB的整数数据。使用“rand”函数生成整数值主-从模型被认为是开发和实现并行基数排序的有效方法。在这种方法中，主设备使用“MPI_Send“命令将作业分配给从设备，此时，所有从站并行执行排序操作。下一步是由master使用“MPI_Recv“命令收集已排序的块在不同的工作负荷条件下重复实验十次，然后计算平均值。根据Amdahl定律定义了加速。为了测量这些实例的执行时间，我们使用174Rashid Hassani等人/ IERI Procedia 10（2014）1693.2. 分析在两个平台上编译和执行并行基数排序之后，为了测量可伸缩性（加速对于不同的工作负载），我们的方法相对于数据大小，执行时间，然后加速已经计算了四个不同的工作负载25，50，75和100MB，通过将节点从2，4，6扩展到8个节点。25MB数据和100MB数据的结果分别如图2和图3所示。为了确定与可扩展性有关的计算性能，在每个平台上从2到8个节点单独测试了所有工作负载。我们已经分别在图4和图5中显示了具有2个和8个节点的计算集群的实验结果。通过单独分析每个输入数据，我们观察到当数据均匀分布到节点时，执行时间更好，但在不均匀分布的情况下，执行时间会增加。两个平台的执行时间差异很大，分别为75MB和100MB。另一方面，负载不平衡对性能有很大的影响，它会导致更多的执行时间和更少的加速。对于所有情况，这也在节点之间考虑。图二、25MB数据的平均执行时间（秒）3.第三章。100 MB数据的平均执行时间（秒）我们假设主机分配和取回任务所花费的通信时间随着集群的增长而增加。在EC2计算集群上的实验中，从2个和4个节点开始，我们观察到所有输入大小都获得了最大速度。这是因为计算时间和通信时间之间的比率不同。我们已经观察到，6个和另外8个节点的计算能力和通信时间略有增加，导致性能下降和速度下降。这是由于更多的通信开销，但仍然比专用HPC群集性能更好。总的来说，据观察，与专用HPC相比，云显示出更好的可接受性能和最大速度。Rashid Hassani等人/ IERI Procedia 10（2014）169175图四、2节点计算性能图五、8节点计算性能4. 结论和今后的工作优化并行应用程序以在云中高效执行是非常重要的。我们设计了一种方法来提高HPC应用程序在从Amazon HPC Cloud到HPC优化集群的一系列平台上的速度和规模。我们的结果强调了我们的方法的有效性。它们与以前在云中完成的工作进行了比较，以验证部署HPC应用程序时的性能。我们观察到，与专用HPC集群相比，云上的响应率超过20%，在最多8个节点的加速和扩展方面有了显着的改进。超过这个限制，必须引起相当大的注意，因为如果我们不预先预留更多的实例，我们可能会遇到网络互连带宽问题。我们认为，云计算为某些HPC应用程序提供了可行的替代解决方案，而不是所有应用程序，因为应用程序的大小和规模等特征是确定最佳平台的重要因素。然而，仍然有机会通过解决第二节中所述的问题来提高性能。然而，我们预计如果我们应用对更多CPU核心/实例的显式请求，则有可能获得更好的并行效率，甚至超过40%的扩展。总而言之，我们认为Amazon分析了快速排序、合并等并行排序算法的MPI版本的性能在Amazon和Microsoft Azure等公共云上进行排序等，将来会很有用。引用[1] R.布亚角S.杨，S. Venugopal，J. Broberg和I。Brandic，[2] http://aws.amazon.com/ec2“Amazon[3] A. Iosup，S. Ostermann，N.伊吉特巴西河普罗丹，T. Fahringer和D. Epema，“面向多任务科学计算的云计算服务性能分析”，IEEE Trans.Parallel Distrib。系统：第22卷，第100页。931-945，2011年6月。[4] A. Iosup等人，Computing”, 号22第6页。931 - 945，2011年6月176Rashid Hassani等人/ IERI Procedia 10（2014）169[5] A. Gupta和D. Milojicic，“云计算上HPC应用的评估”，Open Cirrus Summit，Atlanta，GA，pp. 2011年10月22日至26日[6] “Sirius cluster”, available at15/05/2014.[7] Rashid Hassani，Riaz Choudhury，and Peter Luksch，“Analysis of Sparse Matrix-VectorMultiplication Using Iterative Method in CUDA”，IEEE NAS 2013，ISBN：978-0-7695-5034-3/13，pp.262-266，DOI：10.1109/NAS.2013.41，2013年7月。[8] Rashid Hassani和Peter Luksch，EuroPVM/MPI 2012，Springer LNCS 7490，pp. 285-286，DOI：10.1007/978-3-642-33518-1_34，2012年9月。[9] Rashid Hassani和Peter Luksch，HPCS 2012，ISBN：978-1-4673-2362-8/12，pp. 684-686，DOI：10.1109/HPCSim.2012.6266993，2012年7月。[10] Rashid Hassani和Peter Luksch，“Optimizing Bandwidth by Employing MPLS AToM with QoSSupport”，IEEE NAS 2012，ISBN：978-0-7695-4722-0/12，pp. 104-108，DOI：10.1109/NAS.2012.18，June 2012.[11] 陈志华，2012，ISBN：978-1-61208-199-1，pp. 179-183，May 2012.[12] J. Ekanayake，X. Qiu，T. Gunarathne，S. Beason和G. C. Fox，[13] Q.他，S.周湾Kobler，D. Duffy和T. McGlynn，“在公共云中运行HPC应用程序的案例研究”，ACM高性能分布式计算国际研讨会，系列。HPDC '10。New York，NY，USA：ACM，pp. 395-401，2010年。[14] K. R.杰克逊湖，澳-地拉马克里什南K. Muriki，S. Canon，S. Cholia，J. Shalf，H. J. Wasserman和N. J.Wright，[15] Yan Zhai，Mingliang Liu，Jidong Zhai，Jiong Ma，and Wenguang Chen，2011年1月至10日[16] L. Rashid，W. Hassanein和M. Hammad，“分析和增强多线程体系结构上的并行排序操作”，《超级计算杂志》，第53卷，第2期，第100页。293[17] “Magellan15/05/2014.[18] sa.gov“Nebula Cloud Computing Platform”, available at[19] 周昆，龚敏敏，黄欣，郭柏宁，“数据并行八叉树曲面重建”，IEEE可视化计算机图形学学报，2010年。[20] Nadathur Satish等人，“CPU和GPU上的快速排序：带宽无关SIMD排序的案例”，pp。351-362，2010。[21] 郭静丛，乔治Almasi，和Vijay Saraswat，“快速PGAS实现分布式图算法”，ACM/IEEE高性能计算，网络，存储和分析国际会议（SC'10），pp. 2010年1月11日[22] 杜恩安德鲁。G，科学，弗吉尼亚大学夏洛茨维尔，弗吉尼亚州，美国，2011年1月。[23] Rashid Hassani、Ganesh Chavan和Peter Luksch，集群

下载后可阅读完整内容，剩余1页未读，立即下载