《云计算中数据库资源的优化配置》—开罗大学《埃及信息学杂志》原创文章—2014年

105 浏览量更新于2023-12-09 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

埃及信息学杂志（2014年）15，1开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com原创文章云计算中数据库资源的优化配置法特玛A. Omara*，Sherif M. Radhya Sahal埃及开罗大学计算机和信息学院接收日期：2013年1月19日;修订日期：2014年1月7日;接受日期：2014年1月14日2014年2月14日在线提供摘要云计算是基于虚拟化技术的新一代计算。云上的一个重要应用是数据库管理系统（DBMS）。本文的工作是围绕虚拟设计顾问（VDA）展开的。VDA被认为是一种解决方案用于优化在共享公共物理机器池的虚拟机上运行的DBMS实例的性能的问题。它需要校准DBMS查询优化器的调优参数VDA中的校准过程是手动完成的。该手动校准过程被认为是复杂、耗时的任务，因为每次DBMS必须在不同的服务器基础设施上运行或用同一服务器上的另一个DBMS替换时，校准过程可能必须重复。根据本文的工作，自动校准工具（ACT）已被引入自动校准过程。此外，贪婪粒子群优化（GPSO）搜索算法已被提出并实现在VDA中，而不是现有的贪婪算法，以防止局部最优状态捕获的搜索过程中达到全局最优。该算法的主要功能是最小化估计的成本和提高虚拟机配置。ACT工具和GPSO搜索算法已经使用TPC- H基准查询对Xen虚拟化环境上的虚拟机（VM）中托管的PostgreSQL实例进行了实现和评估。©2014制作和主办由Elsevier B.V.代表计算机与信息学院开罗大学。*通讯作者。联系电话：+20 22734030。电子邮件地址：f. fci-cu.edu.eg（F.A. Omara），s. fci-cu.edu.eg（S.M.Khattab），radhya. grad.fci-cu.edu.eg（R.Sahal）。开罗大学计算机和信息系负责同行审查。1. 介绍云计算是新一代的计算。它允许用户使用数据中心的计算资源和服务（即，计算机、网络、存储、操作系统、应用程序开发环境、应用程序），网络部署和开发其应用程序[1]。云计算的主要特点是提供自助服务，1110-8665© 2014由Elsevier B. V.代表开罗大学计算机与信息学院制作和主办。http://dx.doi.org/10.1016/j.eij.2014.01.002制作和主办：Elsevier关键词虚拟化;资源分配;粒子群算法;查询优化器;校准2 F.A. Omara等人愿景，允许用户部署自己的计算资源集[2]。云计算技术是基于虚拟化的。虚拟化是一种将计算功能与物理硬件分离的技术。它允许用户对物理机器基础设施进行分区和复用（例如，CPU、内存、I/O、存储和网络接口卡）[3]。应用程序运行在虚拟机上，而不是物理机上。虚拟机器(VM)是一个计算环境的软件实现，一种模拟直接在物理硬件上执行的物理机器的方法[4]。虚拟机监控器（VMM）用于创建和管理VM（例如，Xen、VMware、VirtualBox和KVM）[5]。虚拟机配置或资源分配控制物理重构的共享资源（CPU、内存、I/O带宽）分配给VM。优化虚拟化应用的性能的问题（即，在虚拟机上运行的应用程序）对于云计算模式的成功至关重要，因为虚拟机配置会影响应用程序性能[2，6]。另一方面，数据库管理系统（DBMS）被认为是部署在云上的应用程序之一。每个DBMS实例都有自己的调优参数。调优参数与DBMS的查询优化器中的成本模型交互以改变性能（例如，CPU参数和缓冲区参数）[7]。DBMS需要校准其调优参数，以便了解虚拟化环境并产生准确的估计成本。事实上，DBMS面临着调优资源分配的挑战，因为每个工作负载（一组SQL语句）具有不同的特性，需要不同的资源分配。换句话说，DBMS实例如何从共享物理池中的每个VM的资源分配中获益，这称为虚拟化设计问题（VDP）[7虚拟设计顾问（VDA）技术为这类问题提供了一种解决方案。它为在共享资源中运行不同工作负载的多个VM提供了推荐配置[2，7它探索工作负荷的特征以区分其强度（例如，CPU或I/O密集型等）并为运行此工作负载的VM做出最佳资源分配决策。DBMS有一个查询优化器工具，可以根据估计的成本选择最佳执行计划。成本模型是查询优化器工具中的一个模块，负责成本估计。数据库成本模型表示给定工作负载的总资源消耗。它依赖于用于调优参数的静态假设来生成执行计划。实际上，当前资源消耗的执行准确性被认为是数据库成本模型的一个问题换句话说，查询优化器因此，需要校准查询优化器参数，以便了解虚拟化环境中的不同资源分配每当DBMS实例从一个基础设施移动到另一个基础设施，或者DBMS实例被同一基础设施中的另一个DBMS实例替换时，都会重复校准过程不幸的是，这个过程是手动执行的。因此，校准过程需要自动化，以节省时间，金钱并产生准确的估计成本。在本文介绍了一种用于调整DBMS查询优化器参数的自动校准工具ACT，虚拟化环境来解决VDA中的手动校准问题。另一方面，P文章S温优化（PSO）被认为是一种现代进化算法，用于探索给定问题的搜索空间[10]。它用于为最大化/最小化搜索问题找到最优或接近最优的解决方案。如前所述，VDP被认为是一个搜索问题，它试图最小化云环境中数据库系统的虚拟化资源的分配成本[2，7本文提出了一种称为G-reedy-P-article-S-warm-optimization（GPSO）的搜索算法。提出了克服局部最优问题的VDA中已有的贪婪算法。所提出的GPSO算法被认为是启发式贪婪搜索和粒子群优化的融合，以基于虚拟化环境中的工作负载分布来优化配置。GPSO算法已经在VDA枚举器模块中实现，其最初对VM进行相等的资源分配，并且基于由数据库系统查询优化器的成本模型获得的估计成本来适配这些分配。为了评估ACT工具和GPSO搜索算法，基于不同虚拟机的最优 CPU 分配进行了原型实验。测试已经使用PostgreSQL 8.4.8执行，运行TPC-H基准查询作为工作负载[11，12]。实验结果表明，ACT运行时间随校准采样点数的增加而线性增加，GPSO算法能为不同类型的工作负载提供有效的配置，优于已有的贪婪算法。本文的其余部分组织如下;相关工作在第2节中描述。VDA中的校准问题在第3节中进行了描述。建议的DBMS查询优化器自动校准工具将在第4节中讨论。在第5节中，将处理VDA中的优化问题。在第6节中，将讨论所提出的GPSO算法。在第7节中，介绍了ACT和GPSO算法的评估结果。第八部分对全文进行了总结，并对今后的工作进行了展望2. 相关工作在虚拟化环境中运行的应用程序的性能优化[8，9，13]和资源分配[14，15]领域有许多研究论文。与本文的工作相关的预配置DBMS和一组工作负载查询）[7在[8，9]中，虚拟设计顾问已经提出通过使用查询优化器来解决虚拟化设计问题，查询优化器通常内置在大多数DBMS中，作为评估潜在资源分区配置的成本模型。查询优化器的这种在[2]中，虚拟设计顾问已用于优化部署在Amazon EC2云中的数据库设备的性能。最好云计算中数据库资源的优化配置3校准过程的性能是许多性能优化问题中的重要任务[8，9，18，19]。当校准过程繁琐时，其自动化对整体优化框架有利。虚拟设计顾问采用白盒方法对DBMS的性能进行建模[8，9]。另一方面，[13]中使用了性能建模的黑盒方法来驱动自适应资源控制系统，该系统动态调整虚拟化数据中心内多层应用程序的每一层的资源共享。这两种方法;黑盒和白盒已被用于解决IaaS云上DBMS的资源配置问题[20]。Soundararajan等人。[15]除了CPU和内存资源之外，还考虑了存储资源。他们发现，资源配置会影响绩效，这被认为是资源分配问题中的一个挑战。资源分配问题是一个经典的问题，随着新兴的资源整合设置（例如机器虚拟化和认知无线电网络）而被实例化[14]。在后者中，无线电频谱之间的认知无线电共享，和资源分配问题，制定了一个优化问题，以实现最大最近，资源分配是云计算技术领域面临的最重要的挑战之一，无论服务的层次结构特别是云提供商如何满足客户的最大限度地提高利润。在[21，22]中，针对每个处理能力、数据存储和通信资源的分布式解决方案，考虑了用于多层云应用的基于SLA的资源分配问题该问题被转换为一个三维优化问题。此外，云IaaS中的成本-性能权衡已得到解决，其中问题已被公式化为多目标优化[23]。所提出的模型基于细粒度收费模型构建，标准化的性能模型。遗传算法的实现和实验结果证明了该模型的有效性。另一方面，有大量现有的提出的方法，使用粒子群优化（PSO）在var.在一般和动态环境中，太棒了基本的粒子群算法是一种优化技术，这是通过使用多个群来协同优化解向量的不同分量来实现的虽然原始PSO使用D维向量的群体，CPSO将这些向量划分为D个一维向量群，每个群代表原始问题的一个维度。在此基础上，提出了一种G-reedy-P-article-S-warm优化算法（GPSO），用于优化共享资源的分配，以最小化估计成本，提高VM配置。3. 虚拟设计顾问将讨论虚拟化设计问题（VDP）、虚拟设计顾问（VDA）解决方案以及VDA中的校准问题。3.1. 虚拟化设计问题（VDP）在VDP中，N个VM在共享物理机器池上运行，每个VM运行其自己的DBMS的N个实例的实例[8，9]。共享物理池由M个不同的资源表示。每个VM具有工作负载，其中Wi表示第i个VM上的工作负载。VDP提出了以下问题：工作负载Wi[7- 9，27]。分配给第i个VM的资源份额的集合可以表示为向量：R1;R2;.. . ;r[M]例如，不失一般性，在三个共享资源（CPU、存储器、I/O）的情况下，即M=3，将50%的CPU、30%的存储器和25%的I/O分配给VM 1导致向量R1=[0.5，0.3，0.25]。我们假设每个工作负载Wi在资源分配Ri下具有相关成本。这一费用由以下各项表示：成本：Wi; Ri所有工作负载的总成本表示为：XN成本计算成本：Wi; Ri1/1静态环境[10]。然而，在现实世界中，许多应用是非平稳优化问题;它们是动态的，这意味着环境和全局最优的特性可以及时改变。针对动态环境，已经提出了几种有效的粒子群优化算法 . 其中一种算法是快速多群优化算法（FMSO）[24]。它使用两种类型的群;一种是在整个搜索空间中检测有希望的区域，另一种是作为一种局部搜索方法，在搜索空间中的局部有希望的区域中找到接近最优的解。另一种方法用于在动态环境中调整PSO[25]。它是基于定期跟踪目标的变化。这种跟踪用于将粒子存储器重置为当前位置，从而允许群以最小的开销跟踪变化的目标[25]。合作粒子群优化算法（CPSO）已被引入，用于采用合作行为来显着提高原始PSO算法的性能[26]。VDP的目标是获得适当的资源分配，以最大限度地降低所有工作负载的总体成本，即找到：arg最小值成本在[7-9]中定义并解决了VDP下一节将详细介绍作为VDP解决方案的虚拟设计顾问。3.2. 虚拟设计顾问（VDA）虚拟设计顾问（VDA）的架构和设计，作为虚拟化设计问题的解决方案，如图1所示[8，9]。VDA分为两个模块：配置枚举（包括搜索算法）和成本模型。模块相互作用，使用校准过程产生推荐配置。校准过程调整成本4F.A. Omara等人3.3. VDA中的校准问题图1Virtualization Design Advisor（VDA）体系结构。根据每个枚举配置的模型参数。下面将简要介绍这两个模块3.2.1. 配置枚举模块配置枚举模块用于枚举为VM分配资源。它实现了一个搜索算法，如贪婪搜索和动态规划，用于枚举候选资源分配。VDA使用贪婪搜索算法，该算法基于迭代直到无法增量实现性能增益[8，9]。每一次迭代，一小部分资源会从受损最小的VM中释放，并分配给受益最大的VM。贪婪算法根据给定工作负载的估计成本来决定增加和减少分配给VM3.2.2. 成本模型VDA采用DBMS查询优化的成本模型mizer后，它与虚拟化意识增强。成本模型通过设置查询优化器的适当参数值来反映具有特定资源分配的VM 。DBMS中的查询优化器使用以下优化器调优参数的向量来估计DBMS实例（Di）上的给定SQL工作负载（Wi）的执行计划的成本：Pi½pi1;pi2;. . ;pil]5优化程序的调优参数会强烈影响最佳执行计划的选择。DBMS成本模型可以通过以下函数描述[11]：成本DBWi; Pi; Di6VDA面临着一个问题，即如何调优在虚拟化环境中运行的DBMS实例的成本模型。这个问题可以被描述为DBMS成本模型，它依赖于一组查询优化器调优参数（Pi），而配置枚举器输出候选资源分配（Ri）。因此，需要校准过程来将该资源分配映射到相关的调谐参数值。在VDA中，校准是用于将每个资源分配映射到查询优化器的调优参数的相应值集的过程。对于每个调谐参数，存在用于描述调谐参数与对应的资源分配之间的关系的校准方程。通常，校准方程描述为：Pif Ri7其中Ri是分配给第i个VM的资源部分的集合。该过程使用根据经验构建的校准模型，该模型由一组校准方程[8，9，27]组成。这样，查询优化器就可以知道它所运行的换句话说，查询优化器通过估计和比较基于给定资源分配的一组计划的成本来选择最优执行计划。不幸的是，校准过程是手动完成的，这被认为是一个繁琐的过程，并且必须针对DBMS和服务器硬件规格的每个不同组合重复。通过自动化校准过程将节省时间和精力。本文重点介绍了一个自动化手动校准过程的工具的设计和实现。换句话说，这篇论文解决了这样一个问题：“每次DBMS必须在不同的服务器基础设施上运行，或者DBMS被另一个DBMS替换时，通过自动化校准过程来避免重复手动过程，可以节省多少时间？”’’ The proposed tool willbe described in Section4. 自动校准工具自动校准工具（ACT）被认为是本文的第一个贡献ACT自动执行成本模型校准过程，这被认为是虚拟设计顾问的重要组成部分。ACT对DB管理员隐藏了校准过程的细节和复杂性ACT的输出（即校准模型）用于使查询优化器的调优参数适应校准模型基本上是一组等式，其基于给定的资源分配来计算调谐参数值。本节首先概述ACT的架构和配置，然后描述其两个模块，即控制器模块和工作器模块。4.1. ACT概览根据图1，校准过程在资源分配和查询优化器的成本模型的调整参数之间映射。根据手动校准，当要针对不同的DBMS重新设计VDA时，以及当将相同的DBMS移动到具有不同CPU速度、物理内存大小等的新物理基础架构时，必须手动重复校准过程。因此，物理基础架构可以提供的可能配置越多，校准配置所需的时间和复杂性就越多云计算中的数据库资源优化配置5特别是如果它是手动完成的。自动校准比手动校准更准确和有用，因为节省时间和成本。我们假设ACT的用户具有DBMS的查询优化器和成本模型的专家知识 CPU速度和内存大小），哪些资源分配影响哪些调优参数，哪些参数取决于其他参数，因此参数方程（PE）需要多个校准查询来对其进行评估[8，9]。需要此信息来制作校准查询并定义其相应的成本Eq。（六）、此外，ACT允许其用户选择自动校准的类型，冷缓存或热缓存。在冷缓存校准中，ACT从DBMS中的空缓冲池缓存开始。在热缓存校准中，校准数据库的缓冲池在测量校准查询的运行时间之前被预热。图2描绘了ACT工具的架构。它包含两个主要模块，控制器和工作器，它们相互作用以自动执行查询优化器调优参数的控制器模块在主机上运行，而工作器模块在具有不同分配的虚拟（客户）机器上运行。4.2. 控制器模块控制器是ACT中的主要模块。它在主机上运行（在Xen术语中称为Dom0[28]）。它接收来自工具用户的输入，并产生校准模型作为一组方程，其中自变量是资源分配，因变量是调谐参数。为了准备控制器的输入，工具用户求解成本方程（CE）系统，由此未知数是校准（调整）参数，并且方程表示对应于精心制作的SQL查询（称为校准查询）的成本。每个校准查询的成本由根据校准参数制定的一个成本方程表示。控制器模块的输入是校准查询和成本方程（CE）的解，即，一组参数方程（PE），其具有作为自变量的校准查询成本和作为因变量的校准参数。工人模块（将在下一小节中描述）评估校准队列的成本为每个配置资源分配计算，并通过直接代入PE计算相应的调谐参数值。控制器模块通过对（资源分配、校准参数）值对运行回归分析来输出校准模型。该模块的工作流程如图所示。3.第三章。4.3. 工作器模块工人是ACT中的第二个模块。它运行在来宾VM中。工作器模块从控制器模块接收其输入并将其输出发送回控制器。它使用校准数据库来执行输入查询。如前所述，工作器模块评估每个配置资源分配的校准查询的成本，并通过直接代入PE来计算相应的调优参数值。成本等式（CE）中的查询成本是以连续页面读取为单位测量的，而工作者测量的成本是以秒为单位的。因此，一个重整化过程发生，以转换为-图2ACT工具架构。图3控制器模块操作。6F.A. Omara等人算法基于给定工作负载的估计成本来决定增加和减少分配给VM的资源。最后，贪婪搜索算法给出了所有VM的推荐配置报告。贪婪算法存在陷入局部最优的问题[8，9]。因此，本文采用基于贪婪算法的粒子群优化搜索算法，以减少陷入局部最优。首先，将给出PSO的简要描述。6.1. 粒子群优化图4工人模块操作。测量的成本（以秒为单位）和CE中的成本单位之间的差异[8]。为此，一个重整因子（RNF）计算，culated作为一个单一的顺序I/O操作的估计。该模块的工作流程如图所示。四、5. 虚拟设计顾问虚拟设计顾问中的搜索算法使用校准过程来枚举VM的配置。搜索算法使用查询优化器成本模型的““假设”本文介绍了一种用于探索给定问题的搜索空间的现代进化算法肯尼迪和埃伯哈特首先提出了这个算法-Rithm于1995年发表[10]。PSO模拟某些种类动物的个体（粒子）的社会行为（例如，鸟群和鱼群）。在PSO中，粒子群通常被称为一个群体，而每个群体。PSO的思想是基于将群集运动的观察引入进化计算领域[29，30]。每个粒子在D维空间中运动（D通常表示决策变量的数量）。因此，每个粒子由向量元组（Xi，Vi，Pi，Gi）描述，其中每个向量表示当前位置、速度向量、粒子已经达到的个人最佳位置以及由整个群跟踪的全局最佳位置到第i个粒子。最初，PSO算法在搜索空间内随机选择候选解。然后，他们在随机定义的方向上移动，基于其自身和同行的最佳状态。算法的每次迭代，粒子都会评估它们朝向目标的位置。它们使用全局最佳位置和它们先前的位置来更新它们自己的速度，然后使用这些速度来调整它们的新位置。用于更新每个粒子的速度和位置的方程为：vidt1wvi dtc1r1½pbest idt -xi dt]2018年12月28日，2018年12月28日，作为在候选资源分配下给定查询工作负载的估计成本。搜索算法xidðtÞþvidðtþ1Þ ð9Þ使用校准过程修改查询优化器校准过程可以划分密集型工作负载，甚至CPU密集型或非CPU密集型工作负载，并指导VDA为每个虚拟机分配适当数量的资源。VDA使用启发式贪婪算法，该算法存在陷入局部最优的问题[8，9]。为此，提出了一种基于粒子群优化算法的全局优化算法（GPSO），以克服局部最优问题。6. 提出了贪心粒子群优化（GPSO）算法目前，VDA使用贪婪搜索算法，该算法基于迭代地改进成本函数，直到无法实现成本降低[8，9]。更具体地说，在每次迭代中，一小部分资源（称为份额）从受到伤害最小的VM中分离出来，并分配给受益最多的VM更详细地说，贪婪其中，所有参数都表示为时间t时的第d维，vi d（t）是第i个粒子的速度，w=vid（t）是负责保持粒子沿相同方向移动的惯性分量，w（w e [0.8，1.2]）是惯性权重，它决定了先前的速度被保留了多少[31]，x id（t）是第i个粒子的位置，pbest id（t）是第i个粒子的个人最佳位置，gbest d（t）是全局最佳位置（时间t时群的全局最佳候选解），c1，c2是范围从0到4的正加速度系数，r1，r2是从均匀分布U [0，1]中抽取的随机数。搜索是一个重复的过程，停止标准是达到最大迭代次数或满足最小误差条件。6.1. 贪婪粒子群优化算法提出了一种启发式贪婪搜索和智能粒子群优化相结合的新算法，克服了局部最优状态而得到全局最优解。该算法云计算7Þ×þPSO资源分配份额估计成本采用动量因子mc=0.3。PSO组件具有逐渐减小的惯性权重因子。惯性系数w在0.9和0.4之间线性减小，如以下公式[33]所示：最大功率 -wmin最大值-无最大值minð10Þ图5VDA枚举器模块中的GPSO。称之为G-Reedy-P- article-S温优化（GPSO）。所提出的GPSO算法需要更多的计算，在许多情况下，成功地增强了结果VM配置。图5描绘了所提出的GPSO算法的思想。该算法的主要思想是利用粒子群优化算法来调整启发式贪婪算法的共享参数，以减少贪婪算法陷入局部最优的情况。在GPSO算法中实现了两个模块，它们相互作用以找到推荐的配置，如下所示：(1) 贪婪模块基于给定工作负载的估计成本来枚举VM的资源分配。(2) PSO模块向贪婪模块发送候选份额（粒子）和VM配置，然后接收更新的VM配置和这些配置的相应估计成本。在此设置中，PSO模块的粒子是要调整的份额参数，粒子的维度是资源的数量。这项工作集中在一个资源（CPU），因此，粒子群算法中的粒子具有一维。换句话说，share参数充当粒子位置的唯一维度。改进的PSO，SSM-PSO，用于避免无效解的情况[32]。GPSO算法的效果是通过迭代运行启发式贪婪算法与一个新的份额使用PSO计算。在每次迭代中，启发式贪婪算法从上一次迭代中达到的最后一个解（全局最优解的配置）开始，该解被认为是局部最优解。GPSO算法已在VDA枚举器（搜索）模块中实现。6.2. 标准PSO因子粒子群优化算法的参数对优化性能有较大影响。PSO需要预先定义数值系数（最大速度，惯性权重，动量因子，社会因子和个人因子）和群体规模。全局优化解决方案的能力在很大程度上取决于这些参数的设置。采用最大速度和惯性权重来平衡全局搜索和局部开发。惯性权重值越大，全局搜索能力越强，而权重值越小，局部开发能力越强。换句话说，它们影响了从局部优化中逃逸和细化全局优化的能力。社会因素和个人因素决定着人类的探索能力和开发能力。群的大小平衡了全局优化和计算成本的要求[30，33，34]。在GPSO算法中，粒子群算法的分量系数r1和r2是随机产生的，c1= c2= 2，其中，Itermax是PSO迭代的最大次数，Iternow是运行PSO中的当前迭代次数，wmax是最大惯性值，等于0.9，wmin是最小惯性值，等于0.4。6.3. 适应度函数为了评估每个粒子（共享参数）的性能，使用候选VM配置下的给定工作负载来计算估计成本的总和，如等式2中所述（三）、6.4. GPSO算法GPSO算法步骤如下：(1) 最初，假设每个资源的均等分配作为所有VM的初始配置（每个资源的1/N被分配给每个VM）。(2) 定义适应性函数以使成本最小化，如等式2中所述。（3），然后随机选择粒子的位置（份额值）。搜索空间包括除了导致大于最大分配（100%）或小于最小分配（0%）的资源分配的分数之外的所有可能的分数。这些约束减少了错误的发生，并且可以通过以下描述：最小值Ri-份额>0最大值Ri最大值份额100<此外，搜索空间边界[Xmin，Xmax]D被限制在[0.001，0.1]中。此限制意味着每个共享参数可以是0.1%到10%之间的任何值。在这项工作中，只使用一种资源，CPU（即，粒子的一维向量），因此，GPSO用于找到最佳粒子（份额值）以调整CPU 分配X =（x1，x2，.. . ，xn）。(3) GPSO然后在迭代中操作。每个粒子通过运行贪婪算法迭代地评估其位置，并确定其个人最佳位置。然后确定全局最佳份额和VM配置。每个粒子的贪婪算法的初始VM配置是由前一次迭代的全局最佳粒子调整的VM配置。然后，每个粒子使用其先前的速度、惯性权重、其先前的位置、其个人最佳位置以及在整个种群中的适合性方面的最佳粒子（全局最佳位置）来更新其自身的速度。然后，每个粒子使用计算出的速度来调整其新位置。(4) 在迭代终止后，迄今为止最好的粒子的配置被输出为最终的VM配置R。贪婪启发式8F.A. Omara等人¼如前面所列步骤中所述，对于每次迭代和每个粒子，贪婪算法使用新的份额和先前的最佳配置作为初始状态。前一个配置是局部最优的，当份额值被PSO改变时，这允许贪婪算法从局部最优解的陷阱逃脱到全局最优解。7. ACT工具和GPSO算法评估本节介绍了一个拟议的ACT工具和GPSO算法的实验评估。7.1. 实验装置本文描述的实验使用PostgreSQL 8.4.8数据库系统，安装在具有 Core2 Duo T5870 2.00 GHz 处理器、 4 GB 内存和CentOS 5.5 操作系统的机器使用的虚拟机监视器是Xen[28]，这是一个开源虚拟化平台。基于Xen的准虚拟化已被用于在将资源直接映射到来宾操作系统时提高虚拟机管理程序的性能[5]。Amazon EC2基于Xen虚拟化，因此，此实验设置类似于云计算环境。7.2. 性能度量使用四个指标来衡量性能。(1) ACT工具的速度，以时间（分钟）为单位。(2) 通过选择CPU参数（cpu_tuple_cost和cpu_operator_cost）作为共享资源，然后根据热数据库上的结果校准模型适当地设置这些参数，计算工作负载的总估计成本（根据顺序页面获取）。(3) 成本改进测量相对性能，如公式[8，9，23]所示。此度量是根据查询优化器的估计成本计算的。在这项工作中，使用两种算法（贪婪和GPSO），公式如下：以从磁盘。cpu_operator_cost表示处理WHERE子句中每个操作符的CPU成本估计[8]。本小节介绍了ACT速度测量后运行ACT校准过程的逐步方案。图 6描述了使用ACT 校准PostgreSQL的两个调优参数的场景场景步骤在[27]中详细描述。另一方面，为了评估ACT工具的速度，其总运行时间（即，控制器和工作器模块的运行时间）已经在具有冷缓存和热缓存校准的不同数量的资源分配配置下被测量。影响运行时的其他因素包括DBMS、物理机计算能力和配置的值（不仅仅是数量）。使用冷缓存，控制器会在每个资源配置时重新启动工作者的VM，从而增加总运行时间。使用一个，ACT工具在冷校准下运行一个配置（50% CPU和50%内存）耗时4分钟。另一方面，使用热缓存时，在ACT工具运行之前首先启动工作模块，并预热校准数据库。在一种配置（50%CPU和50%内存）下，完成校准过程需要ACT 1.6分钟。图7显示ACT运行时间随配置数量线性增加，即使是冷或热缓存。此外，冷缓存实验需要较长的时间相比，热缓存实验。7.4. GPSO算法评价本节给出了所提出的GPSO算法和贪婪算法之间的实验比较。7.4.1. 粒子群优化算法我们在范围 [10-100] 内改变 GPSO 算法的 PSO 模块中的swarmin的大小，以测试在两个VM上运行的两个不同工作负载的GPSO算法。每个实验重复10次，并报告平均值。我们发现，总的（和方差）估计成本的工作量为小规模的群体是大于估计成本的大规模的群体。因此，在下一小节中，使用不同的群大小来计算和两个搜索空间，以获得最佳的群体规模。改进估计成本贪婪-估计成本GPSO估计成本贪婪ð11Þ7.4.2. GPSO算法搜索空间范围变化其中， Est_CostGreedy 和 Est_CostGPSO 分别是 greedy 和GPSO配置下的总估计成本。(4) 每单位时间的成本改进计算如下：成本改进通过在[0.01%-10%]和[0.1%-10%]两个搜索空间边界内改变种群规模来选择可行的种群规模，从而评价GPSO算法的性能。第一个搜索空间包含100点，而第二个包含1000点。搜索空间中的每个点代表共享参数的值，该共享参数被用作贪婪启发式算法的控制器。GPSO相对于贪婪算法的每次成本改进¼7.3. ACT工具评估平均运行时间2012年12月每时间单位用于比较两个搜索空间，当量（12）（见图）（八）。根据图8中的结果，第一次搜索空间改进优于第二次，直到群大小达到50，在该点处，两个 PostgreSQL 描述性参数已被用于此评估。cpu_tuple_cost表示处理一个数据库元组的CPU成本成本两个搜索空间几乎具有相同的比例。因此，在以下实验中使用群大小为10的第一次搜索。表1给出了GPSO算法的实验设置。云计算9表1GPS O 实验的参数值。粒子群大小（粒子数）10迭代次数50处决人数搜索空间范围值0.1%-10%; 100点图6使用ACT工具的PostgreSQL实验场景353025201510501 2 3 4 5数量的配置冷缓存热缓存图7使用冷缓存和热缓存校准的ACT运行时。Rithm。执行次数代表独立实验的次数。贪婪算法从所有VM的相等分配开始，共享参数为（5%）。7.4.3. 具有相同工作负载的本实验的目的是得出结论，当工作负载相同时，GPSO0.0120.0100.0080.0060.0040.0020.0000 25 50 75 100 125群大小每单位时间的成本改进（搜索空间=100点）每单位时间的成本改进（搜索空间=1000点）图8群集大小对两个搜索空间的成本改进的影响两个虚拟机的总成本时间（分钟）每时间单位的10F.A. Omara等人该算法能够有效地检测相同的工作负载，反映了共享资源的公平分配。图9显示了运行TPC-H Q1查询工作负载的10个相同副本的10个VM的估计成本。该图将三个估计成本绘制为两种算法（greedy和GPSO）以及默认配置的相同列。7.4.4. 随机负载在本实验中，生成随机TPC-H工作负载以测试整体性能的改善。通过[8]中描述的相同方法生成20个查询。每个工作负载由10到20个工作负载单元的随机组合组成。工作负载单元可以是TPC-H查询Q17的1个副本，也可以是TPC-H查询Q18的修改版本的66个副本[8，9]。每个VM运行一个工作负载。每个算法从2个虚拟机开始，然后增加1个虚拟机，直到1.2E+161.0E+168.0E+156.0E+154.0E+152.0E+150.0E+0023456789 10 11 12 13 14 15 16 17 18 19 20工作负载数量默认贪婪（5%）GPSO达到20个VM。图10显示了三种配置的总估计成本，并显示了GPSO算法估计成本中的下降比率。通过GPSO算法得到的估计成本低于估计成本ob。最多20个随机工作负载的成本比较TPC-H数据库。由贪婪算法得到。换句话说，GPSO算法在估计成本方面优于贪婪算法。所提出的GPSO 算法的性能改进计算使用Eq。（十一）、结果如图11所示。值得注意的是，当贪婪算法在19个工作负载处具有局部最优值时，最大的改进出现。贪婪无法改善配置，并在初始配置（默认配置）中停止，1.2E+0161.0E+0168.0E+0156.0E+0154.0E+0152.0E+015百分之十六百分之十四百分之十二百分之十百分之八占6%百分之四百分之二GPSO算法可以通过使用另一个份额来摆脱这种局部最优来改进。结果表明，GPSO算法在以运行时间为代价的情况下，获得了较好的总代价分配。虽然，有执行运行时的时间开销，GPSO算法是比较慢的贪婪算法。由于共享资源的分配在VDA中被认为是一个离线过程，因此GPSO算法可用于获得VM的接近最佳配置。GPSO算法与用于在资源消耗方面的随机工作负载特性的任何剖析技术的组合（例如，CPU、内存和I/O）提供了对工作负载密集度的感知。这种感知可以指导云提供商分配适当的8.0 E+107.0 E+106.0 E+105.0 E+104.0 E+103.0 E+102.0 E+101.0 E+100.0E+000 0%2345678910 1112131415161718 19工作负载数量GPSO Greedy（5%）比Greedy图11GPSO算法相对于贪婪算法的成本改进。资源量来处理传入的工作负载。提供商可以根据工作负载的密集程度将工作负载安排在多个池中，或者使用云突发来保持严格的SLA，即使某些传入的工作负载是CPU密集型的。云爆发是指当计算能力需求激增时，在私有云或数据中心运行的应用程序突然进入公共云的应用程序部署模型[35]。这种混合云部署的优点是，组织只在需要时支付额外的计算资源[35]。另一方面，GPSO算法可以通过周期性地或在特定事件上再次执行它并在每个时间间隔内周期性地改变资源分配来连续地使用以捕获动态工作负载变化的随机性。8. 结论和今后的工作根据本文的工作，对虚拟设计顾问进行了改进，提出并实现了自动化设计顾问，0.0 E+002 3 4 5 6 7 8 910工作负载数量自动校准工具（ACT）工具。该提议工具的功能是使校准过程自动化，估计成本（顺序页面提取）估计成本（顺序页面提取）估计成本（顺序页面提取）贪婪的烦恼云计算11默认（5%贪婪）GPSO调优数据库的查询优化器的参数，假设模式，这样它就可以估计运行工作的成本图9相同工作负载的成本。在虚拟化环境中快速准确地加载。的12F.A. Omara等人ACT已被评估使用实验调优参数的PostgreSQL数据库管理系统。实验结果表明，ACT运行时间与资源配置的数量呈线性增长。此外，一种混合粒子群优化的启发式方法，即GPSO的基础上，用于最大限度地减少云环境中的工作负载的总成本已被引入。GPSO算法已经使用TPC-H查询和PostgreSQL数据库进行了评估。结果表明，GPSO算法比启发式算法具有更好的性能，它通过提高拟合度值来避免局部最优，并在可能的情况下找到全局最优。这项工作至少可以通过两种方式加以扩展。首先，ACT工具可以扩展为自动化其次，ACT工具可以扩展为智能选择资源配置（回归分析中的采样点），从而快速收敛到校准模型方程。这将是通过建立一个profiling技术，以获得处理不同的统计方法不同的工作负载行为。扩展这项工作的另一个选择是考虑其他资源，如I/O性能和网络带宽，以及QoS的混合，以提供更灵活的方法。另一方面，GPSO算法适应性函数可以针对动态工作负载进行升级，以涉及两个因素：（1）影响共享参数的成本和时间的加权因子，以便改进GPSO以选择最佳共享，从而使GPSO估计成本和运行时间最小化，以及（2）定义惩罚因子，其反映用户和云提供商之间的SLA，以处理SLA违规。引用[1] 张琦LC，布塔巴·拉乌夫。云计算：最新技术和研究挑战。JInt Serv Appl2010;1（1）：7-18.[2] [10]张文辉，张文辉.在云中部署数据库设备。 IEEEData EngBull 2009;32（1）：13-20.[3] Barham P，Dragovic B，Fraser K，Hand S，Harris T，Ho A，et al. Xen and the art of virtualization.第十九届ACM操作系统原理研讨会论文集。博尔顿土地，纽约，美国; 2003年。p. 164比77[4] 戈德堡角虚拟机研究综述。IEEE Comput1974;7：34-45.[5] 罗斯河系统虚拟化技术综述。里斯本，葡萄牙：论文（电气工程和计算机科学）MS非论文研究论文（EECS）; 2004年。[6] 计算C云计算手册;2010年。.[7] Soror AA，Aboulnaga A，Salem K.数据库虚拟化：数

下载后可阅读完整内容，剩余1页未读，立即下载