基于排队模型的实数编码多目标遗传算法在异构Hadoop环境下的应用

114 浏览量更新于2024-01-27 收藏 990KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报异构Hadoop环境下基于有效排队模型的实数编码多目标遗传算法V. Seethalakshmia， Govindasamyb，V.阿基拉河a印度Puducherry工程学院计算机科学与工程系b印度Puducherry本地治里工程学院信息技术系阿提奇莱因福奥文章历史记录：2020年1月27日收到2020年7月16日修订2020年8月5日接受2020年8月11日网上发售保留字：Hadoop框架异构Hadoop框架大数据MapReduce遗传算法A B S T R A C T最近，云基础设施大大提高了其适用性。这导致了有效的大数据处理。Hadoop调度器是提供所需效率级别的关键组件以可扩展的方式规划日益增加的功能和资源是一项重大挑战此外，部署的Hadoop的潜在异构性进一步加剧了这一本文提出了一种调度器，使调度的选择，通过评估整个任务组的作业队列。此外，建议的调度器使用一种新的调度方法的基础上实数编码遗传算法（RCGA）。RCGA与MapReduce使用户能够创建更具可扩展性的应用程序。在更短的时间内提供更高的抽象。实验结果表明，建议的RCGA调度器实现了更好的性能比现有的系统以下指标：执行时间，总成本，资源利用率，加速比，吞吐量，调度效率，公平松弛，调度时间，周转时间，CPU时间，数据局部性和平均节点局部性比。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍大数据分析系统属于软件应用程序类别，使用可扩展的并行处理系统来处理大量数据。Hadoop是最成熟的开源大数据分析框架，实现了Google可扩展性是Hadoop最重要的特性。各种工作已经解决了Hadoop的性能预测。Berlinska和Drozdowski（2011）提出了MapReduce的数学模型。MapReduce Share是Nykiel等人在Map-Reduce中共享多个查询执行的一项出色工作。（2010年）。*通讯作者。电子邮件地址： seethaveera16@gmail.com （ V.Seethalakshmi ），vgopu@pec.edu（V Govindasamy），akila@pec.edu（V.Akila）。沙特国王大学负责同行审查制作和主办：ElsevierYao等人（2014）提出了一种Hadoop调度器，该调度器利用对工作负载模式的理解，通过动态调整用户资源共享和每个用户的调度算法来提高系统效率。 Ahmad等人（2012）建议Tarazu，一套优化，以提高MapReduce在不同集群上的性能。Chen等人（2013）提供了一种易于理解和实现的改进的加权轮询任务调度算法（IWRR）。该算法使用计算效率高的技术删除不太可能在节点上工作的作业 Shestak等人（2012）强调Hadoop在同构计算环境中取得了巨大的成功。Lee等人（2011）使用的标签交换路径（LSP）是用于调整调度方案的各种作业大小模式。此外，实验结果表明，MapReduce的同质性假设可能会导致不准确的，往往是不必要的投机性能在不同的设置。Deshai等人（2019）研究了Hadoop云环境中产生的多个问题，特征和问题。目前的研究工作大多集中在从单一角度提高性能，但很少有人考虑多目标调整，特别是在异构并行和通信数据库。Senthilkumar和Ilango（2016）提出的Hadoop调度算法分类概述了https://doi.org/10.1016/j.jksuci.2020.08.0031319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com诉Seethalakshmi等人/沙特国王大学学报3179工作时间表。Tang et al. （2013）实现了一个基于MapReduce的Hadoop Deadline约束扩展算法：MTSD。最后对基于遗传算法的工作调度方法提出了一些建议。Geetha等人。（2014）提出了一种算法，使用该算法，读者更容易识别工作截止日期并评估工作能否在截止日期前完成。具有Hadoop最后期限的调度器被安排执行。Chen等人（2013）介绍了一种基于改进的循环算法的任务规划。Yi（2010）提出了一种贝叶斯作品分类的规划算法.该调度算法是基于调度和自分类。Kumari et al.（2017）基于超启发式资源调度算法开发了一种新的多目标粒子建模和神经网络。然而，业绩预测模型令人费解，而且没有考虑成本从上面的分析可以看出，某些静态和动态路由器提供了负载平衡。然而，除了匹配和动态集成邻居搜索（DGNS），大多数静态和动态查询不解决数据局部性问题。大多数静态和动态响应时间都很长。此外，系统公平性和资源共享在大多数路由器中得到充分解决。没有一个调度器可以有效地处理两个以上的参数。还推断出大多数算法使用少量设置来进行调度。通过结合更多的参数，当前的技术可以开发出更好的规划算法。这将有助于提高系统的性能。基于此动机，本文设计了一种新的异构Hadoop环境下实数编码多目标遗传算法（Real Coded Multi-objective Genetic Algorithm，RCGAHH），以实现有效的调度性能。拟议文件的主要贡献如下：首先，度量，即负载，供应，每个虚拟机（VM）的最大完工时间，和执行时间，每个作业的内存约束进行评估。资源作业不匹配问题：在异构工作负载中，作业具有不同的标准。考虑资源特性和运行环境，将作业分配到节点以减少平均完成时间是关键。工作分类的概念可以用来解决资源和工作不匹配的问题。o 在这里，作业被分为o 最后，采用实数编码的遗传算法优化模型，兼顾公平性和最小份额满意度，完成调度2. 相关工作Qiao等人（2020）将多层感知器（MLP）神经网络技术与五种元启发式计算算法（即入侵杂草优化（IWO-MLP）、蜻蜓算法（DA-MLP）、进化策略（ES-MLP）、遗传算法（GA-MLP）和帝国主义竞争算法（ ICA-MLP ））相结合，用于估计每月天然气消费量（NGC）。Moayedi等人（2020）提出了单个薄钢桩的建模，以模拟土压力反应（p）和侧向挠度（y）之间的关系。所提出的模拟有助于使用基于皮肤的应变传感器产生更可靠的p-y曲线图。由于模型管桩的尺寸较小，桩体所受压力较小，要求传感器的尺寸和灵敏度增大，电测传感器无法满足试验要求。Gao等人（2019）对用于估计住宅建筑热负荷（HL）和冷负荷（CL）的16种基于机器学习的方法进行了全面比较，需要重点优化所用模型。Moayedi等人（2018）评估了在多层土壤介质中建造的桩的侧向变形。评价是在距离苏门答腊地震带、苏门答腊俯冲带和断层带约350 km的登嘉楼海滨平台上进行的。Xu和Chen（2014）提出了一种基于场概念的自适应计算趋化性，以加速细菌群在耐受性附近的收敛速度。它有很多缺点，包括收敛速度慢，不能跳出局部最优和固定步长。Zhao et al.（2014）提出了一种改进的蚁群优化算法用于特征选择，其目标是在多字符特征集中找到（近）最优子集。然而，这种方法是不有效的处理大规模的组合问题，因为它需要更长的时间来处理大规模的问题。Shen等人（2016）提出了一种新的支持向量机（SVM）参数调整方案，该方案使用果蝇优化算法（FOA）。其主要缺点是，由于它们是局部搜索算法，因此陷入局部最优解的概率很高。Wang等人（2017）提出了一种基于混沌蛾焰优化（CMFO）策略的内核极端学习机（KELM）然而，这些奇特的昆虫被困在人造灯光周围的无用/致命的螺旋路径中，从而降低了预测结果。 Xu等人（2019）通过将MFO与高斯突变（GM）、柯西突变（CM）、Lévy（LM）或GM、CM和LM的组合相结合，提出了MFO的新变体。具体而言，GM被引入到基本的MFO中，以提高邻里知情能力。需要提高MFO算法的探索和利用性能，以控制种群的多样性。Zhao等人（2019年）提出了混沌增强灰狼优化包裹ELM用于诊断百草枯中毒患者。Chen等人（2020）提出了一种具有混沌趋化步长、高斯变异和混沌局部搜索的增强型细菌锻造算法（BFO）（CCGBFO）Wang和Chen（2020）同时对SVM进行参数优化和特征选择。他们提出了一种改进的鲸鱼优化算法（CMWOA），它结合了混沌和多群策略。CMWOA的主要缺点是它不好探索搜索空间。下表描述了研究差距。本节从机器学习的角度介绍和总结了常用的优化方法，并分析了它们在机器学习各个领域中的应用最后，优化方法中的一些挑战和开放性问题在表1中突出显示。由于遗传算法是一种灵活的、无约束的方法，并且不需要统计学方面的专业知识，因此它已被用于云计算中的可靠调度过程。基于此，本文提出了基于遗传算法的Hadoop环境下任务调度新策略。3. 拟议系统该系统是实编码的多目标遗传算法异构 Hadoop 环境（RCGASHH）。问题中存在多个目标通常会产生最优解，主要称为帕累托最优解。RCGASHH的架构如图所示。1.一、Hadoop程序从标准Hadoop sched接收两个关键消息，●●3180诉Seethalakshmi等人/沙特国王大学学报机器数量模拟获取执行时间设置作业和集群初始化的参数执行RCGA以获得最优作业调度作业调度模式端使用作业类检查进程设置约束和度量的评估。表1研究差距。作者方法缺点Qiao等人（2020）入侵杂草优化，蜻蜓算法，进化、策略、遗传算法与帝国竞争算法它需要一些额外的计算工作。由于基于种群的算法的解的收敛速度慢，它们应该与其他局部搜索算法相结合。Moayedi等人，（2020年）p-y曲线图由于模型管桩的尺寸较小，对桩体施加的压力较小，对传感器的尺寸和灵敏度都提出了增大的要求，电测传感器无法满足试验要求Gao等人，（2019）使用十六种基于机器学习的方法需要专注于优化使用的模型Moayedi等人，（2018年）有限元方法地震的震级为破坏，桩的承载力损失一定的震级。Xu和Chen（2014）细菌觅食优化它具有多个缺点-包括收敛速度慢，不能跳出局部最优，步长固定。Zhao等人（2014）改进的蚁群算法对于处理大规模的组合问题效率不高，因为处理大规模的问题需要更长的时间。Shen等人（2016）果蝇优化主要缺点是，被困在局部最优的概率很高，因为它们是局部搜索算法Wang等人（2017）混沌蛾-火焰优化然而，这些花哨的昆虫被困在一个无用/致命的螺旋路径周围的人造光，从而降低预测结果。Xu等人（2019）增强的蛾焰优化它有很长的收敛时间，可能会有收敛或倾向的问题陷入局部最优。Zhao等人（2019）灰太狼优化它的缺点是求解精度低，收敛速度慢，局部搜索能力差。Chen等人（2020）强化细菌锻造算法它对环境的感知能力较弱，容易受到地方极端的感觉。王晨（2020）Chaotic Multi-SwarmWhale Optimizer它不擅长探索搜索空间。广告：（i）显示用户的职位空缺介绍的文本RCGASHH的主要优点是，它通过识别系统的异构性来处理理想的平等和最小份额准则该计划使用的目标函数是-估计执行时间，核心号，内存、CPU使用、吞吐量和等待时间。RCGASHH由两个主要进程组成，其中接收到这些消息之一来触发每个进程。调度程序应执行排队程序，以便在收到新作业时分配传入作业操作系统将在接收到心跳警报后触发网络架构将规则应用于空闲资源。在高级架构中有四个组件：（i）Hadoop方案，（ii）分配调度过程，（iii）调度方法，以及（iv）调度方法。计划策略测量即将到来的作业的所有资源的性能周期。要为入站作业选择合适的队列，这些预测将被传递到排队阶段。路由系统选择并发送任务到可访问的空闲资源方案。任务调度技术使用所选职务的特征，将任务从所选职位分配到可用职位。Fig. 1. RCGASHH系统。释放资源槽。RCGA用于执行Hadoop方案和分配调度过程。下一节将详细介绍使用分类和路由过程的排队。RCGASHH实线和虚线分别显示了图2中的作业输入流和心跳消息。心跳消息的内容是当前在TaskTracker发送器上运行的任务的进度报告、失败或已完成的分配列表、资源状态（虚拟内存、磁盘空间等）。要为传入工作选择适当的队列，这些估计值将转发到排队过程。路由过程选择可用的空闲资源方案。将任务委派给指定的资源方案。任务调度的方法是利用所选作业的特性，将作业分配到可访问的空闲资源槽中。还包括Hadoop方案，任务调度方法，以及排队和路由过程的完整描述。RCGASHH的高级架构如图所示。3.第三章。数据局部性是Hadoop体系结构中影响Hadoop效率的关键变量之一。在所提出的方法中，根据节点的执行能力将数据分配给节点。虽然在信息被输入到HDFS之后可以减少或增加节点使用的信息或资源，但是所提出的方法可以动态地修改和重新分配信息。有些任务是CPU密集型的，而另一些任务则对磁盘进行大量读写，或者必须通过网络传输更多数据。数据被组织到Hadoop框架中的文件中。一般来说，所有系统切片的大小都相同。用户提交系统作业。此作业表示为：每个系统任务（Ji）包括若干映射功能并且减少了任务。在必要的任务信息所在的切片上，映射分配进行处理。简化作业处理映射任务子集的结果M. Ji; Rji。它确定了作业J的执行作业的时间，●●诉Seethalakshmi等人/沙特国王大学学报3181f··· gðÞFG我1Fno虚拟机及其工作的概述处理作业并生成队列心跳消息用户Hadoop架构新工作排队过程分配工作输入作业：输入作业在特定特征方面是同质的，例如义务、数据和计算要求、到达率和执行时间在不同的执行时间，据报道，Hadoop框架的工作负载是非常异构的。集群：不同的基础设施资源，如数据存储和处理单元。可以假设具有M个节点的组新作业在所有资源上的执行建议课程调度过程选定的作业路由过程这里：集群=R1;;R M.用户：在分配的优先级和最低份额要求之间，客户端之间存在差异。对于每个客户Ui，工作分配的种类和数量也可以不同。在白天，大多数Hadoop企业都有更高的负载。在夜间，工作量减少。同样，在不同的时刻，资源数字也会发生变化。Hadoop调度器：存在不同的Hadoop调度器，其中每个调度器解决一个或多个性能指标。然而，没有调度算法，以最好的，我们的图二. RCGASHH系统的高层体系结构。理解，优化所有这些指标在一起-主要数量、CPU使用率、内存、吞吐量、等待时间、CPU限制、I/O限制、运行连接的CPU、运行限制的I/O、信息位置、负载平衡和执行时间。在某些情况下，优化一个度量将导致另一个度量的实质性恶化。例如，一个最大化公平性的调度程序会不断地将处理器从一个任务转移到另一个任务。这可能会增加相当大的开销，导致更高的平均完成时间。由于增强一个指标可能会导致另一个指标的大幅下降，因此应该注意的是，通常很难优化所有Hadoop性能指标。基于RCGA的作业调度准则包括表2所示的参数。最大迭代次数是的增量t=t+1没有3.1. 基于分类的排队在本节中，将解释所提出的RCGASHH所使用的众所周知的分类聚类方法k-means。k-means用于对Hadoop实际工作负载中的作业进行分类。在该方案中建立了两个标准。Hadoop供应商执行的第一个标准是满足最低要求。第二个标准是公平，这是提高一般制度效率的根本。考虑公平保护任何用户免受饥饿。此外，它在用户之间公平地分配资源。最低份额满意度比公平更重要因此，RCGASHH有两个分类（主要类别1和次要类别2）来考虑首先实现最小份额的问题。工作根据它们在两种分类中的特征进行分类（即，优先级，资源执行的平均速率（mean exe- cRate（Ji; Rj）），已建立类的平均到达频率在最初的评级中。第一级定义为：课程的基本优先级由Ci指定。前-图三. RCGA作业调度过程流程图。在资源Rj上，时隙j;Memji，其中时隙j是时隙的集合Memj是Rj的存储单元。对实际Hadoop工作负载的研究表明，工作负载可以分为“流行作业”类。类的工作C k被发现由随后使用的建议技术在COSHHAysan等人。（2014年）。这将在下一节中解释为具有相同平均执行时间（在每个资源上）的作业集在C类中的工作到达的指定平均速率由ai表示。在资源R j s上的类C i中的工作执行的预测平均速率由li;j指示。因此，节点中的最小值是完全固定的。按这一分类编制的课程总数一组标识为SecondaryClasses 2的类是conse-二级分类的顺序。在优先级班级平均工作到达频率了c0 类似于0 并且平均执行速率由L0表示 .i i i;jHadoop框架中的异构性：Hadoop的异构性可以定义为三个级别：工作负载、集群和消费者。这里，通过这种区分产生的课程的总量被认为是理所当然的是F0，即SecondaryClasses2¼C0;···;C00。新的种群作为当前池（最优种群）用于调度选择-交叉和突变基于作业特征基于执行时间和排序的适应度计算●3182诉Seethalakshmi等人/沙特国王大学学报¼ð···ÞΣΣ表2RCGA的作业调度参数参数项目说明核心数节点CPU利用率（%）CPU利用率百分比（相当于已用核心数/总核心数）总内存群集中存在的RAM总量内存利用率%内存利用率百分比总体和平均执行时间单位时间内完成的作业数（MB）CPU绑定的单词计数是一个CPU绑定的MapReduce作业，计算每个单词在文本文件中出现的次数。等待时间（s）方法等待的时间量称为就绪队列中的等待时间CPU绑定进程的进度速率受绑定CPU的速度限制（I/O系统空闲）I/O绑定进程进展的速率受到I/O子系统的I/O绑定作业的速度限制，从而快速阻塞I/O。数据局部性位置被称为作业节点和入口节点之间的距离负载平衡处理器可以执行有限数量的功能。我们的计划 Hadoop 研究和其他 Hadoop 工作负载调查是基于Facebook 和Yahoo ！ [24] 第 10 段。识别由同一类的成员发送到Hadoop集群的作业是可行的将“k”设置3.2. 基于RCGA优化的作业调度RCGA使用染色体作为种群，再次产生新的染色体。因此，每个染色体都充当起点，并且实际上存在搜索开始的多个点和搜索进行的各个方向这就是为什么RCGA优于Meta启发式方法的原因。在对新作业进行评估并将其定位在正确的类别中之后，RCGA调度程序可以考虑工作和资源的匹配。GA可以解决大规模的问题。染色体被用来描述申请人通过使用遗传算子和随机选择，将加强下一代人口的复制。在max-gen的预定代之后，重复将停止。最后一代中的最精细染色体可以被解码为理想或接近最优的解。RCGA方法的好处是它可以处理足够的搜索空间，这对复杂的最优解很重要，并且它可以避免捕获最佳局部解。接下来，计划生成随机生成的任务序列的原始种群。染色体的这种特定活动应该根据反映资源使用模式的作业特征来设计。这些特征可以为工作计算。用户通过以下方式描述人口规模先执行工作。每个调度的种群中的适应度由用户定义的作业特征计算，例如核心数量、CPU使用率、内存、I/O限制、CPU限制、I/O限制运行、I/O限制运行、信息位置、负载平衡和执行时间。他们的健身功能的重要性，然后排名的时间表。染色体长度相当于作业活动总量（转自到作为Jo）。每个染色体元件Xx1;;x n匹配Jo中动作数量的常量位置值。X的每个分量都有重要性，在这种情况下，除了比特mac之外，比特可以表示大约0和10的实值，这里的mac是2，所需的位（位图）是2。因此，xi是在0和2× 7之间，当使用遗传算子（交叉和突变）时，x1将被记录并被视为实数。当执行解码过程时，xi为最接近的整数值（四舍五入）。应该注意的是，实际的编码表达式只生成可行的选项，并减少了GA将种群转移到可行的研究区域或修复不可行的染色体所需的时间事实上，如果替代开发策略需要处理替代操作系列上的作业，则可以使用X一旦建立了初始群体，选择、交叉和变异就会发生几次，直到变化的群体中最合适的成员收敛到更大的锻炼重要性。该技术具有选择重要交换参数的开销。此外，时间复杂度更高，因为每个答案都必须与人口中的任何其他选择进行比较健身功能：云计算功能的主要目标是减少在可用资源上执行所有任务的完成时间。这是所提出的方法的主要目标函数。目标是最小化时间。因此，任务Ti在多个核心Cj上的执行时间如使用等式定义的。适应性：ETmax Ti;Cj8i<$1;·· ·;n;j<$1;··· ;m其中ETmax表示完成Cj上的Ti“n”和“m”分别表示函数和核的数量。因此，必须减少执行时间（出于调度目的称为ETmax）。选择：选择过程包括仅使用基于等级的技术从当前群体中选择一对父母，以测量被选择的已知机会。然后，这些提供者与基于拉普拉斯的交叉算子相匹配生一个孩子这集中于使用随机生成的位串模型来确定每个父母的基因被传递给孩子。解释如下：给定parent-1（主要类1）和parent-2（次要级别2），通过以下步骤创建子级：1. 生成一个与父节点的长度相等的位串（及其位置）。2. 有些子元素3. 在与“0 00”相关联的位串中创建父代-1基因的列表4. 排列这些基因，使其出现的顺序与第二类相同。5. 按照步骤4中创建的顺序，在这些排列基因的子间隙中停止。诉Seethalakshmi等人/沙特国王大学学报3183我我我我我我我1/4。Σ我Ci-Cllu：t¼ii0：5子节点基于作业队列的结果表1中的参数。（小学一年级及中学二年级）下面的公式给出了后代：y1 1/4小学1班ij小学1-中学2jy2¼中学2小学1-中学2 jLX分配后代的'a'和'b'的设定值与父母的分布成如果父母彼此接近，那么后代应该彼此接近，如果父母彼此远离，那么后代可能彼此远离。功率突变（PM）：PM的分布函数fx和密度函数Fx由下式给出：fxpC p-1;FxpC p0 ≤C ≤1其中“p”是分布指数，PM以下面的方式用于产生根解附近的方法。接着，生成均匀随机数t[0，1]，并生成遵循上述分布的随机数“r”。然后，将使用上述方程来开发静音解决方案-8>Ci-r。Ci-Cltr>Ci-rCu-Cit≥r其中，C是下边界，C是上边界，Cu-Ci变量选择，并且“r”是均匀分布的随机数0和1。突变的能量由突变指数“p”调节。对于小的“p”值，在解中预期较少的干扰，并且对于大量的“p”实现更大的多样性。突变的目的是保证种群保持多样性。它提供了随机空间搜索运动，以防止RCGA陷入死角或区域最优。新的婴儿计划需要取代现有的游泳池或人口系统中最弱的计划。对于第二次迭代，在在第一次迭代结束时，所有个体都将被视为父母。该过程按照用户给定的迭代次数执行。Pareto最优性是多目标问题最优性的一个普遍接受的定义，为了使决策者（设计者）进行最优选择，必须通过一个有效而完整的搜索过程来确定最优折衷解集（Pareto前沿）。如果适合度i（y1）对适合度i（y2），i = 1，2，.，则称解y1支配另一解y2。. ，n和适应度j（y1）到适应度j（y2），j = 1，2，. ，m。其中，y1和y2运算符表示差和更差。在解空间内未被占用的判断向量被称为帕累托最优，并且构成帕累托最优前端变量的帕累托最优集合。Hadoop中基于RCGA的分步作业调度如下：步骤1：（工作建议）：当客户将MapReduce作业发送到作业跟踪器时，作业跟踪器将根据K-means分类将工作转移到类2）作为父1和父2。步骤4.1：第一步。（初始化人口和工作特征，随机产生一组调度，包括通过特定优先级规则获得的调度步骤4.2：（选择）：从步骤4中获取两个计划，使用基于排名的选择来选择两个较高的字符串作为父行以生成新行（子行）。步骤4.3：（拉普拉斯交叉）：通过拉普拉斯分布函数，每个字符串的两个部分被交换，以创建新的，希望是最好的亲属。步骤4.4：（Power mutation）：该步骤用于避免随机和局部最小父选择。第五步：使用邻里搜索来定位邻里如果孩子的最大完工时间小于最坏的，并且不等于总体中的任何成员，则将其替换为makespan值，用子元素替换成员。步骤6：重复2-6，直到满足某些终止条件。第7步：在第一次迭代结束时，所有可用的个体都将被视为父代。第8步：最后，新鲜椰子计划取代了当前人口库或时间表中最不活跃的处理审查目标：两个相互冲突的目标，即执行时间和总时间，应当在满足某些程序约束作业调度问题有两种优化方法：燃料成本最小化和排放最小化。这两个目标是相互冲突的。如果不存在可行的x0使得x0>x，则解x为称为帕累托最优解。表3中的示例显示了RCGA用户。这里，位串的原型类型包括{2、3、5和6}处的一个。在被定义为PrimaryClasses 1的父母-1中，这些角色的基因直接转移到婴儿身上。模板包括{1，4，7，8}0。父代-1在这些位置具有基因{1，4，7和8}。这些基因以相同的顺序复制到婴儿体内，如图所示。在parent-2（Secondary Classes 2）{8，4，7，and 1}中。第一个父代的子代中作业的百分比由范围为0到1的交叉率描述。所产生的子体可以在交叉后突变。所使用的特定突变程序是基于突变的突变。在这个过程中，两个任务在染色体中交换位置。通过指定用户的0-1突变率来描述作业被转化的概率。突变的目标是确保种群内的多样性得以保存。它提供了基于Web的空间搜索运动，以防止陷入死角或在局部最优的GA。最终，新的儿童方案将取代现有的人才库或人口战略中最不活跃的时间表。在这种类型的突变中，两个基因被随机分配，它们的作用发生了变化，如表4所示。通常，基于顺序的交叉和变异比一点和两点更好。当混合方案时，它们比单点或两点融合更成功。经验上，基于顺序的交叉和变异在几个特征优化问题中被证明是更成功的。在该方法中，按照随机位串，通过具有混合来最坏的人的孩子如果成员具有相同的y3184诉Seethalakshmi等人/沙特国王大学学报2表3安排染色体和交叉操作员。染色体位置12345678父代-1（PrimaryClasses1）12345678二进制模板01101100家长-2（中学2）86427531孩子82345671表4基于顺序的突变家长-1（小学班1）1 2 3 4 5 6 7 8已选择<$<$突变染色体1 6 3 4 5 2 7 8他父母的一些小碎片来自最佳父代的比特的比率通过用户定义的0和1之间的交叉率来计算。路由过程：如果一个心跳消息从一个学习工具发送到调度器，比如说R j，它会导致路由方法。该路由方法是基于排队技术的重要类1和次要类2的建议集合。一个函数用于为该空闲资源方法的资产中的每个空闲槽选择一个作业，并将所选择的职位提交给计划系统。任务调度算法从作业位置中选择任务并将其分配到适当的槽。必须提到的是，处理器并不限于每个活动的单个资源。当选择作业时，调度算法系统将几个适当的分配分配给新的空闲资产槽。如果所选作业可用的插槽数小于未完成的任务数，则该位置将保留在就绪队列中。因此，当从空闲资源中进行计划选择时，此分配被视为下一个心跳消息的一部分;但是，不再考虑分配的任务。当分配一个工作的所有职责时，该工作将与等待队列分开。有两个阶段在该算法中，对于当前空闲资源时隙的工作选择。课堂作业应在建议课堂（SC）的第一阶段进行考虑，在此阶段选择情境，以根据项目完成作业。这确保了具有最大容量的客户端将更早地接收一定百分比的资源，以实现其最小份额。然而，在第二阶段，工作是选择在尝试所建议的呈现内容和偏好的客户。这就是计划如何解决客户的公平性。两个消费者情况相同的，在每个点随机抽取。可以看出，RCGASH是一个动态程序员。类别和RCGA求解器部分将根据Hadoop的工作量和资产的任何差异来更新规划选择。路由过程逐步算法如下所示：步骤1：N：J和Nfs= J中的空闲插槽数，当从资源（比如J）接收到心跳消息引理1.而Nfs为minShare - user.currentShare）×weight）为最大值第三步：然后执行第二第四步：Nfs值减一过程，即Nfs^Nfs-1步骤5：通过RCGA将所选择的集合J发送到调度过程以针对每个空闲时隙J选择最优任务4. 实验结果与讨论实验环境：MRSIM（Hammoud等人，2010），MapReduce模拟器用于实现所提出的系统。MRSIM模拟器基于离散事件模拟。它精确地模拟了Hadoop气候。该模拟器使我们能够轻松快速地测量基于MapReduce的应用程序的优化。它还显示了不同Hadoop配置的效果。我们扩展了这个模拟平台来测试Hadoop的五个主要性能指标。为了能够向Hadoop系统提交期望的作业流，将作业提交方法组件添加到MRSIM设计。员额的到达时间根据工作量信息确定。根据到达时间触发作业子任务，以向结构提交新作业。此外，使用此元素，我们可以指定具有不同最小份额和优先级的各种用户。每个帖子的输入数据文件针对MRSIM中的dfs部分来计算和存储切片。MRSIM中的JobTracker组件被扩展为从配置文件接收所需的方法名称。调度技术在JobTracker类中进行测试，并在每次心跳中从JobTracker组件调用。RCGASHH调度程序被调用来对传入的作业进行分类，以及在有来自资源的心跳文本时分配新作业。评估部分也被添加到模拟器中，每当一个作业完成时，它都会计算所需的性能指标。资金的带宽为100 Mbps。这里，有100个帖子被提交到系统，这足以在我们的Hadoop工作负载中包含一系列行为。Hadoop块的大小设置为128 MB，这是Hadoop 0.21的默认大小，并在本实验中的所有算法中将数据复制数设置为3。对提出的RCGA、GA（Kaur和Verma，2012）、FIFO（Li等人，2017）、果蝇（Govindaraj和Natarajan，2020）和火蝇（Kashikolaei等人，2019）方法-第2步：然后，将J添加到选定作业集合中J！J选择gies是执行。我们使用Hadoop MapRe的开发引入痕量，在（Aysan等人，2014年）。一个马克是从引理2. 而Nfs-0并且，在本发明中，那里是一工作（J）其类secondary classes 2（user.currentShare/weight）是最小的。一个Facebook集群，从2009年5月到10月，历时六个月。另一个跟踪来自雅虎组！，在2009年2月底/3月初的三个星期里。 Facebook和Yahoo！用于评估调度程序的工作负载诉Seethalakshmi等人/沙特国王大学学报3185在（Aysan等人，2014年）。如Kaur和Verma（2012）所给出的，参数在表5中定义。基准作业：字数统计，MapReduce Hadoop工作，运行在大小为109MB，219 MB，534 MB，1.25 GB，2.39 GB，5.5 GB和10.5 GB。这些作业被认为是不同类型的数据大小，这将由不同的任务处理。记录特定情况的总运行时间如表6所示。它显示了就业的基准运行时间。作业优先级P随机地从1到5给出。实验是针对作业预算（定时）是字数统计作业基准运行时间的两倍的情况进行的这项研究提供了标准的工作课程，使用聚类的k均值。分类后，建议的RCGA工作时间表实施。将结果与当前GA（Junwei和Yongsheng，2013）FIFO（Li等人，2017）、果蝇（Govindaraj和Natarajan，2020）和萤火虫（Kashikolaei等人，2019）技术基于实施时间、价格、资源使用、加速、性能等性能指标的制造商。4.1. 执行时间结果所提出的RCGA调度器、GA、FIFO、果蝇和萤火虫技术的结果如图4所示。所提出的方法消耗更少的时间来完成的工作相比，现有的方法。值得注意的是，所提出的RCGA方法实现了更少的执行时间为510.36秒的作业数100。另一种方案，如FIFO、GA、果蝇和萤火虫，分别产生954.37 s、812.89 s、798.78 s和756.25 s的结果。其原因是在所提出的方法中，没有编码和解码过程减少了计算时间。所提出的RCGA调度器、现有GA、FIFO、果蝇和萤火虫方法的执行时间结果的数值如表7所示。4.2. 总成本在图5中，示出了三个过滤器的总成本。所提出的RCGA调度器、现有GA、FIFO、果蝇和萤火虫方法的总成本结果的数值如表8所示。RCGA算法的完全代价比优于现有算法。本节中显示了拟议的RCGA，GA和FIFO方法的实验评估。因此，现有的FIFO、GA、果蝇和萤火虫方法的成本消耗高，表5基于RCGA的作业调度参数和值。RCGA参数云量10处理器数量迭代次数人口计数10交叉方法Laplace交叉突变类型功率突变终止条件迭代次数就业人数调度参数核心数内存（RAM）256执行时间600 sI/O绑定49吞吐量1.18CPU利用率0.87等待时间8.5负载（每个PU）从0到无VMS的数据本地性用户定义（最多100%）表6价值基准工作。工作输入大小映射任务运行时间（s）15109 MB23330219 MB37745535 MB6152601.25 GB12256752.39 GB25642905.5 GB58110210510.5 GB1131845见图4。执行时间与作业数量的比较。总成本率为100，作业大小为13515.05、13118.87、12054.57和12142.56。结果表明，RCGA调度器的成本效益较低，适用于作业调度过程，具有适用范围广的优点。4.3. 资源利用图6呈现了诸如RCGA调度器、GA、FIFO、果蝇和萤火虫之类的调度器的资源利用率。建议的RCGA提供了最好的资源利用率的结果，而现有的遗传算法，FIFO，果蝇，萤火虫决策者有一个低的资源利用率在任务规模为100时，RCGA调度方案的资源利用率为75.78%，比现有的GA、FIFO、果蝇和萤火虫算法分别提高了27.08%、23.74%、13.22%和3.1%。其主要原因是该算法不需要将实数转化为二进制数，具有中心点、速度快、精度高的特点。所提出的RCGA调度器、现有GA、FIFO、果蝇和萤火虫方法的资源利用结果的数值如表9所示。4.4. 加速比加速结果如图7所示。结果表明，RCGA算法具有更高的加速效果。所提出的调度方案可以达到最优的调度结果与使用的LX运营商。而现有的遗传算法、先进先出法、果蝇算法和萤火虫算法的总加速比分别小于0.414、0.069、这意味着所提出的RCGA调度器最适合Hadoop环境。所提出的RCGA调度器、现有的GA、FIFO、果蝇和萤火虫方法的加速结果的数值如表10所示。3186诉Seethalakshmi等人/沙特国王大学学报表7执行时间结果。

下载后可阅读完整内容，剩余1页未读，立即下载