异构Hadoop集群中的落伍者缓解和管理分类框架综述

155 浏览量更新于2024-01-27 收藏 2.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

制作和主办：Elsevier沙特国王大学学报异构Hadoop集群中用于落伍者缓解和管理的分类框架：最新技术综述Kamalakant Laxman Bawankulea，Rupesh Kumar Dewanga，Anil Kumar Singhaa印度，阿提奇莱因福奥文章历史记录：收到2021年2022年1月6日修订2022年2月18日接受2022年3月19日网上发售保留字：大数据HadoopHDFSMapReduceStragglers数据放置推测执行异构环境A B S T R A C THadoop是最经济、最便宜的软件框架，它允许更广泛的数据集的分布式存储和并行处理。Hadoop分布式文件系统（HDFS）允许使用MapReduce分布式存储和并行处理大量数据集。然而，Hadoop这种均衡的负载分布会造成存储期间的负载不平衡、任务调度期间的资源由于硬件异构性，Hadoop的性能在异构环境中会下降。在我们的研究中，本文回顾和分析了重要的研究。它提出了新的分类分类法，将现有的落伍者管理和缓解技术大致分为两种方法：主动和被动。分析和比较了现有的研究现状，并根据研究结果指出了它们的局限性。最后，系统的审查讨论了开放的问题和潜在的方向，为未来的工作，以管理和减轻离散的异构Hadoop集群。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言76222.动机与目的76233.背景76243.1.Hadoop分布式文件系统3.2.MapReduce 76243.3.Hadoop集群的实现：同构和异构集群76243.4.Hadoop的默认假设如何在异构环境中打破？............................................................................................................................................................................76254.组织调查76254.1.主动方法76254.1.1.掉队者回避76264.1.2.掉队者预测76324.2.反应性方法76334.2.1.掉队者检测76335.掉队者缓解方法及其局限性的比较研究76396.讨论76396.1.未解决问题7640*通讯作者。作者要感谢印度全印度技术教育委员会（AICTE）的质量改进计划支持这项研究。https://doi.org/10.1016/j.jksuci.2022.02.0211319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comKamalakant Laxman Bawankule、Rupesh Kumar Dewang和Anil Kumar Singh沙特国王大学学报76227.未来的工作76428.结论7642竞争利益声明参考文献76421. 介绍如今，数据正以惊人的速度快速增长，其中传输存储和处理系统不能很好地执行（Gautam等人，2015; Agrawal等人，2012年）。分布式存储和并行处理是用于实现更好和高性能计算的两种技术（Chen等人，2017; Oussous等人，2018; Abualigah等人， 2021年）。Hadoop MapReduce是一个非常著名的软件框架，它提供分布式存储（ HDFS ）和并行处理（ MapReduce ）（ Dean 和Ghemawat ， 2008; Shvachko 等人， 2010; Javanmarti 等人，2021年）。2005年，Dough Cutting提出了Hadoop软件框架一年前，也就是2004年，Google提出了MapReduce来计算海量数据集。Hadoop MapReduce 类似于 Google MapReduce （ Assunção etal. ， 2015; Yildiz 等人， 2017;Javanmarti 等人， 2021; Kalia 和Gupta，2021）。它是在商品硬件集群（也称为节点）上实现的具有成本效益的模型之一（Rasooli和Down，2011年; Geetha等人，2016; Kambatla等人， 2014年）。该框架具有其优点，它通过使用简单的通用硬件来计算大量数据（Yao等人，2015; Bortnikov等人，2012; Nabavinejad等人，2016; Jung和Nakazato，2014）。Hadoop是可以处理运行时故障的最强大的框架。它重新调度失败的任务，以及运行缓慢的任务（Choi等人，2017年; Qin等人，2015;Yang和Chen，2015; Zhao和Medhi，2017）。耗时的任务被重新调度以更快地完成作业执行，称为推测执行（Reddy和Roy，2015;Bhandare等人，2016; Aggarwal等人，2021;Alnezari和Rikli，2017）。在推测执行中，在其他节点上重新调度运行缓慢的任务的副本，以更快地完成其执行（Soualhia等人，2017; Anjos等人，2015年 ; Tang 等人， 2013 年 ; Abualigah 和 Alkhrabsheh ， 2021年）。数据局部性Hadoop是将计算向数据移动的基本概念。Hadoop并不总是在异构环境中保持数据局部性（Zaharia等人，2008; Shang等人，2017;Vavilapalli等人，2013年）。当大量数据在节点之间传输并且无法保护数据局部性时，其性能会下降，进一步导致网络拥塞，负载不平衡和延长作业（ Arasanal 和 Rumani ， 2013;Xiong 等人， 2014;Usama等人， 2017年）。Hadoop MapReduce的性能在节点计算能力相同的同质环境中更好（Zaharia等人，2008; Yang等人，2014; Chen等人，2013年b）。在同构环境中，任务在节点之间的分布是均匀的（Sun等人，2012;Soualhia等人，2018; Srirama等人，2012; Maleki等人，2020年）。由于节点具有不同的计算能力，任务的这种均匀分布在异构环境中产生了负载不平衡（ Lee 等人， 2014 年 ; Hammoud 和 Sakr ， 2011 年 ;Ibrahim和Bassiouni，2020年），负载不平衡是一个问题。许多其他问题，如不必要的任务投机加剧了资源争用，过度使用硬件降低了其寿命，集群配置期间的软件错误配置，节点过载，所有这些原因都会导致异构Hadoop集群中的落伍者（Srirama，2016;Garraghan等人，2016年）。Hadoop MapReduce作业由于异构Hadoop集群中的上述问题而延长（Bae等人， 2020年）。Fig. 1.显示了在异构Hadoop集群中出现的落伍者。掉队者是集群中可用的节点，但与其他节点相比，它们的性能较差。有多种方法在早期被提出来帮助减轻和管理异构Hadoop集群中的落伍者（Wang等人，2021年）。2013年，Ananthanarayanan et al. （2013）提出了一种小型作业克隆技术，Fig. 1. 在异构Hadoop集群中出现掉队者（Bawankule等人， 2021年）。Kamalakant Laxman Bawankule、Rupesh Kumar Dewang和Anil Kumar Singh沙特国王大学学报7623集群资源，以避免掉队者。 Zhao等人（2013）提出了一种不同的方法，该方法动态调整节点的任务槽数以匹配节点的处理能力，这有助于避免掉队者。Zaharia等人（2008）提出了一种方法，该方法可以检测集群中正确的慢速运行任务，并将其重新调度到更快的节点上，以便尽早完成作业。最后，Xie et al. （2010）提出了一种基于节点计算能力的异构集群节点负载均衡技术尽管如此，早些时候已经提出了几种方法来管理和安置掉队者。上述政策是用于管理和减轻掉队者的一些有效2014年，Kumar and Kumar（2014）对MapReduce框架的落伍者处理算法进行了本文提出了明智的属性和障碍，现有的国家的最先进的技术。然而，本文只回顾了Hadoop本地调度器，LATE，Mantri，MonTool，Dolly，并且没有根据方法学对方法进行分类在2016年，Bhandare等人（2016）提出了一篇文章，通过将其分为主动和被动两类来审查和分析一些落伍者处理技术。然而，本文仅对LATE、SAMR和ESAMR、Dolly和Wrangler等方法进行了评述，这些方法在抑制离散星方面是不够的2016年，Garraghan等人（2016）再次提出了一篇关于大规模虚拟化云数据中心的分析了两个大规模生产系统，量化了频率和影响，并提出了进行根本原因分析的方法。然而，作者回顾了有限的方法，并通过分析混乱的根本原因来展示其影响2021年，Katrawi等人（2021）提出了一篇文章《MapReduce框架中的离散处理方法：比较研究》。然而，它已经审查了有限的文章在落后缓解和管理，如Hadoop本地调度器，LATE Sched-scheduler，Mantri，MonTool和Dolly。由于离散星的处理是大数据处理框架下的重要问题之一，研究有限的文章将不会放大这一领域。2020年，Gill等人（2020）提出了一篇文章《云中的尾巴：一项调查》和大规模云中心内落伍者管理的分类。本文基于大规模云计算中心中的落后原因，为MapReduce、Spark和Dryad等大数据处理框架提出了一种新的分类法。本文综述了各种环境下离散星的管理和减缓技术。然而，根据该研究在该领域提交的文章，提出的落伍者管理和缓解的分类分类法并不完整。它将研究分为两大类：离散星探测和离散星抑制。然而，它并没有涵盖与离散避免和离散预测相关的文章。此外，它还重点介绍了为同构和异构大型云计算中心上的大数据处理框架提出的落伍者缓解和管理技术。Hadoop异构集群中令人兴奋的主动问题是无效的数据放置（Xie etal. ， 2010; Eltabakh 等人， 2011 年 ; 熊等人， 2018; Ibrahim 和Bassiouni，2020;Naik等人，2019），过度任务克隆（Ahmad etal.， 2012年;Tang等人，2013; Brahmwar等人，2016年; Zhang等人，2016;Abualigah等人，2021），以及块副本的管理不善（Wei等人，2010; Ananthanarayanan等人，2011; Wang等人，2019; Abad等人，2011; Ananthanarayanan等人，2010年;Yadwadkar和Choi，2012年）。异构Hadoop集群中的反应性问题是不可靠的过度任务推测（Zaharia等人，2008年; Chen等人，2010; Sun等人，2012; Soualhia等人， 2018）和节点黑名单（Ananthanarayanan等人，2014; Yao等人，2015; Ramakrishnan等人，2011; Liu等人，2017年）。为了完成离散星管理和离散星消减分类，我们提出了一个新的离散缓解分类法，涵盖了异构Hadoop集群中与离散避免、离散检测和离散预测相关的所有文章。以前的研究没有分类的技术在两种方法，主动和被动，我们已经提出了我们的分类分类。本文旨在组织和讨论有效的研究，减轻和管理在异构Hadoop环境中的落伍者。这些异构Hadoop落伍者缓解和管理技术从未通过覆盖其每个角落（包括年份、避免、检测和预测标准、使用的节点、测试环境、结果等）进行详细分类和审查。我们的分类法将落伍者缓解和管理技术大致分为主动和被动两种方法，其中这些方法在离散者检测之前和之后起作用（Xie等人，2010年）。因此，本文旨在调查有效的研究，处理落后缓解和管理技术在异构Hadoop集群。最后，本文通过综合研究，阐明了每种方法的优缺点。这篇文章有一些重要的亮点如下：1. 本文提出了一种新的完整的落伍者缓解分类分类法，该分类法基于研究人员和工业专家先前提出的策略将技术分为主动和被动方法。2. 它还讨论了Hadoop MapReduce的同质性假设，这在早期的文献研究中从未讨论过。3. 此外，还对不同的策略与年份、回避、检测和预测标准、使用的节点、测试环境、结果等进行了详细的比较研究。4. 最后，它分析了各种文章的基础上提出的分类分类法，并提出了图形研究在每个类别进行。它为异构Hadoop环境中的落伍者缓解和管理提供了许多隐藏的开放问题，并为未来可能的工作提供了潜在的方向。其余文件的结构如下。第二节介绍了与本课题相关的工作第3节介绍了HDFS和MapReduce的背景研究此外，第4节介绍了我们的调查的组织和结构，通过使用提出的分类的落伍者缓解技术与建议的方法的详细研究第5节介绍了以前提出的方法的比较第6节讨论了每一类别所做工作的百分比及其评价标准，并提出了在进一步研究中考虑的未决问题。最后，第7节提出了一些可以提高异构Hadoop集群性能的未来方向，第8节总结了本文和讨论。2. 目标和动机Hadoop MapReduce是当今业界和研究人员用于大数据处理的著名框架。它具有在各种环境中工作的兼容性，例如同构，异构和云。今天，异构性在软件和硬件方面已经变得普遍异构计算现在已经在许多领域变得突出（Alnezari和Rikli，2017; Wang等人，2019年）的报告。由于集群形成期间硬件的不同代次、多个用户具有不同的资源集、其他作业优先级、不同的CPU绑定和I/O绑定任务、工作负载异构性，它在Hadoop集群中变得很常见（Garg和Janakiram，2018; CiritogluKamalakant Laxman Bawankule、Rupesh Kumar Dewang和Anil Kumar Singh沙特国王大学学报7624例如， 2019 年 ; Xu 等人， 2018; Islam et al. ， 2016; Zhou ，2016）。这些参数提高了Hadoop集群中的异构性，并降低了异构Hadoop集群中Hadoop的性能。发表了几篇关于异构Hadoop集群中Hadoop MapReduce性能下降的最新调查文章我们的研究只考虑了最好的文章，专注于关键问题，如调度，数据偏斜，负载平衡在异构Hadoop集群。Tiwari等人（2015）将MapReduce调度算法分类为多维模型。他们提出了一个多维度的模型来提高调度器的性能.用于改进性能的维度是实体、环境和质量。作者从多维角度对现有的调度技术进行了比较Mohamed和Hong（2016）研究了在云环境中为Hadoop开发的各种插件。他们对用于云计算的调度器进行了有效而全面的调查Soualhia等人（2017）讨论了Hadoop Spark、Storm和Mesos的不同调度技术。作者详细研究了Spark、Pandey和Saini（2018）中使用的各种调度技术，提出了影响异构环境中调度器性能的各种异构因素它使用了多维模型（Tiwari等人， 2015年），对研究对象进行了研究。Irandoost等人（2019）提出了与MapReduce数据偏斜处理相关的非常全面的研究。并讨论了不同阶段的偏度处理技术及其优缺点。Gill等人（2020）对大型云数据中心内的落伍者管理进行了广泛的审查。作者提出了一个详细的落伍原因分类，并讨论了各种落伍管理和缓解技术的基础上，他们的特点（李等人，2014年）。它涵盖了在MapReduce中管理落伍者的文章（Hammoud和Sakr，2011）。然而，它提出了不完整的分类分类法的落伍者管理和缓解。它将研究分为两类：离散探测和离散抑制。然而，它并没有涵盖与离散避免和离散预测相关的文章。此外，它主要集中在掉队者缓解和管理技术提出的同质，而不是异构环境中的掉队者更突出。为了完成离散者管理和离散者缓解分类，我们提出了一个新的离散者缓解分类分类法，该分类法涵盖了异构Hadoop集群中与离散者避免、离散者检测和离散者预测相关的所有文章。本文提出了一种新的税收经济学，它将落后者管理和缓解技术大致分为两种方法：主动和被动。它还讨论了异构Hadoop集群中从未被结合讨论过的落伍者的确切原因。它纯粹侧重于审查仅在异构Hadoop集群中用于落后者管理和缓解的3. 背景Hadoop框架将大量数据存储在Hadoop分布式文件系统（HDFS）上，并使用MapReduce计算数据。此外，还详细解释了这些组件：3.1. Hadoop分布式文件系统Hadoop的分布式文件系统。它将文件分块到几个块中，以分布式方式存储在多个节点。当它破坏文件时，文件的所有块除了最后一个块外，其余块的大小相同。在HDFS中，默认的块大小是64 MB、128 MB和256MB。用户可以根据要求配置块大小（Shvachko等人，2010; Matsuno等人，2016年）。它提供了更高的吞吐量，同时在应用程序执行期间访问更多的海量数据集。HDFS是高度可靠的，并提供高可用性的数据片段。它复制每个块用于容错目的。对于跨集群放置副本，它遵循机架感知算法。该算法将第一个副本放在一个节点上，其中一个wri- ter连接。然后将第二个和第三个副本放置在单独机架中的不同节点它可以放置三个以上的副本，但有一些限制，即一个以上的副本将被放置在同一节点上，而不超过两个副本将被放置在同一机架上（Shvachko等人，2010; Xie等人，2010;Ghemawat等人，2003年）。它的实现具有主 / 从架构，其中它在主节点上实现NameNodeNameNode管理文件系统命名空间并维护文件系统的元数据信息（Xie et al.，2010; Ghemawat等人，2003年）。数据-节点存储实际的应用程序数据。3.2. MapReduceGoogle提出了一种用于计算数据密集型应用程序的并行编程模型MapReduce（Dean和Ghemawat，2008年; Guo和Fox，2012年; Naik等人，2019年）的报告。MapReduce模型有两个重要的函数程序：一个Map函数和一个Reduce函数。Map函数映射输入数据并生成键值对列表。生成的键值对是中间数据（Dean和Ghemawat，2008; Chen等人，2013年a）。然后将此中间数据复制到reducer节点，进一步充当reducer的输入。Reduce函数处理具有相同键的中间键值对。reducer函数通过执行sort、shuffle和merging操作，生成最终的输出作为键值对。reduce函数的最终输出按照它们的 key-value对进行分组和排序（Dean和Ghemawat，2008; You等人，2011年; Chen等人，2013年）。它比其他模型更快地处理大量数据，因为“计算向数据移动”，这导致更高的带宽并提高了数据局部性（Xie等人，2010年）。它是一个容错模型，可以自动处理故障.它重新安排失败的任务，以更快地完成作业执行3.3. Hadoop集群的实现：同构和异构集群Hadoop集群中的节点不能总是使用平面拓扑连接，如图所示。二、节点分布在集群中的多个机架和交换机上。网络交换机在同一机架中的节点之间共享。一个或多个核心交换机用于连接机架交换机。不同机架上的两个节点之间的通信必须通过多个交换机进行路由连接到同一机架的大多数节点具有比不同机架上的节点更高的带宽（Shvachko等人，2010; Hsiao和Kao，2014）。如上所述，该图包含多个核心交换机、机架交换机和构成Hadoop集群的节点。Hadoop集群使用主从拓扑结构形成。图2展示了同构Hadoop集群。图图2显示了从硬件角度来看，存储节点和计算节点具有相同的计算能力。图 3显示了异构Hadoop集群，其中集群中的节点具有不同的计算能力。Kamalakant Laxman Bawankule、Rupesh Kumar Dewang和Anil Kumar Singh沙特国王大学学报7625图二. Homogeneous Hadoop Cluster（Bawankule等人，2021; White，2012）。图三.异构Hadoop集群（Bawankule等人， 2021年）。3.4. Hadoop的默认假设如何在异构环境中打破？Hadoop在HDFS中的数据放置和MapReduce中的作业调度过程中做出了一些默认假设，如下所示（Dean和Ghemawat，2008年）1. 集群中的所有节点都是同构的。2. 数据总是均匀地分布在节点之间，以平衡负载。3. 所有节点以相同的速度执行分配的工作4. 每个任务的进度在整个时间内都是相同的。5. 如果节点具有空闲槽或可用资源，则可以启动推测性任务，因为在空闲节点上启动任务没有成本。6. 任务已完成的总工作的分数只是它的进度分数。在简化任务中，每个阶段占用总时间的1/3。计算任务进度时考虑的阶段是复制、减少和合并阶段。7. 所有的任务都在同一个wave中同时完成。因此，进度分数低的任务可能是落后者。8. map任务和reduce任务执行的工作量是相同的。这些假设在异构的Hadoop环境中是行不通的。假设1、2和3由于异质性而失效。Hadoop的调度器在异构集群中表现不佳，假设4、5和6可能会崩溃，而假设7是MapReduce范式所固有的。在MapReduce作业中，将输入拆分为大小相等的块并在reducer之间划分keyspace可以确保大致相等的工作量。4. 调查的安排Hadoop是一个用于计算大数据的框架。三个主要实体可以描述它：用户、工作负载和计算环境。如今，用户、硬件和工作的数量多种多样，使系统变得复杂。多Kamalakant Laxman Bawankule、Rupesh Kumar Dewang和Anil Kumar Singh沙特国王大学学报7626用户使用单个Hadoop集群，其中每个用户都有自己的一组资源，并保留了一些优先级来执行作业。不同的用户提交不同的任务，例如CPU限制或I/O限制，这会导致工作负载异构性（Tuli等人，2021年）。在现实世界中，每台机器的硬件配置都是不同的，这最终会导致硬件异构性（Wang et al.，2019年）的报告。异构环境几年前， Hadoop 在所有上述因素中都是同质的（ Gao 和 Huang ，2021）。Hadoop的需求在数据中心的大规模数据计算中不断增长，并且已经变得流行起来。然而，由于其在数据放置和任务调度期间的同质性假设，其性能在异构环境中下降（Wang等人，2021年）。异构环境中的平均任务分布会造成集群中的负载不平衡。异构环境中的节点由于负载不平衡和节点间数据传输而成为掉队者。掉队者可能是由于软件错误、硬件故障和资源争用。在异构环境中，了解离散子的确切原因是一个具有挑战性的问题。掉队者更容易适应不同的环境。提出了各种但是这些方法和技术还没有得到全面的分类和研究。我们的研究为异构Hadoop环境提出了新的分类法，以减轻图中的落伍者。 4，它将现有的方法分为两种不同的方法：主动和被动。此外，这些方法分为离散避免，离散检测和离散预测技术。提出了各种方法来避免、检测和预测异构Hadoop环境中的落伍者，下面将详细研究提出了副本管理、负载均衡、提高数据局部性、任务克隆等方法来避免分散攻击。提出了推测执行和节点黑名单等方法来检测掉队节点。今天，主要是通过使用现代机器学习技术来预测落后者。两种方法，如离散预测和离散避免，反应之前的离散出现。掉队者检测在掉队者事件之后作出反应。这些途径，技术和方法进一步详细讨论。4.1. 积极主动的做法这种方法避免了在异构Hadoop集群中出现掉队者之前出现掉队者。Hadoop被广泛用于避免异构Hadoop集群中的掉队者。该方法可能会由于用于克隆任务或减少节点（黑名单）的过多资源而造成资源争用。尽管如此，这种方法仍然可以在异构Hadoop集群中出现落伍者之前对其进行处理。4.1.1. 掉队者回避Hadoop中的一些异常值会显著延长作业完成时间。需要尽早采取行动，释放任务可以使用的资源。克隆任务是在发现掉队者之前采取行动的一种方法。许多基于处理能力方法的数据放置技术被提出。在所提出的方法中，所有节点同时完成它们的工作（Bawankule等人，2021，2022; Lee等人，2014年; Xie等人，2010; Xu和Lau，2016）。更多的方法，如副本管理（Cheng et al.，2012）和负载平衡（Chen等人，2014年）基于数据流行度和处理能力，提出了在Hadoop中避免掉队者。异构环境中大量的数据传输降低了其性能，并产生了落伍者。许多提出的技术通过基于节点处理能力和磁盘空间可用性放置数据来避免异构集群中的节点间数据传输这种有效的数据放置策略将帮助Hadoop防止掉队者。许多算法在检测到掉队者之前就采取行动在这些技术中，作者试图通过在发现掉队者之前采取一些预防措施来避免掉队者。Hadoop的性能在所有环境中并不相同，其实现在同构、异构和模拟环境中也各不相同。对于落伍者避免、预测和检测技术，测试环境在评估Hadoop性能方面起着非常重要的Hadoop集群中更多的节点有助于提高作业的性能，因为集群有足够的资源，作业在早期阶段就完成了。性能指标在每种技术中可能有所不同，但总体而言，它们改善了作业执行时间。Hadoop有两个版本Hadoop 1.x和Hadoop 2.x，现在，为了更好地跨集群管理资源，见图4。用于异构Hadoop集群中落伍者缓解和管理的分类框架。Kamalakant Laxman Bawankule、Rupesh Kumar Dewang和Anil Kumar Singh沙特国王大学学报7627Hadoop 2.x被工业、研究人员和教育机构广泛使用。是的，作业的性能在两个版本中有所不同。在Hadoop 2.x中，相同的工作可以提供与Hadoop 1.x更好的性能兼容性。在研究社区中有许多基准测试可以测试Hadoop的性能。是的，Hadoop的性能对于不同的基准测试是不同的。以上讨论了所有可能影响Hadoop的性能。现在是用户在进行实验之前决定参数的选择。表1-它详细概述了在异构Hadoop集群中避免掉队者的方法。表1详细概述Hadoop MapReduce中的数据放置技术。作者年撤销标准测试环境节点数量性能度量版本基准结果漏洞Xie等人2010节点分析的目的是当地5响应Hadoop-字数统计，平均它没有考虑时间（二零一零年）计算节点计算比例异构试验台时间0.20.2&Grep百分之十七点三&百分之七点一和数据迁移Ye etal.2012实时态势模拟器9响应不不百分之十二它没有考虑时间（2012年）选择用于数据放置的数据阳极以实现负载平衡时间提到提到以及数据迁移的成本。沙贝拉2013数据阳极上的数据放置当地9数据检索不不近NodeKumar（2013）阿拉萨纳尔和2013具有最大带宽。计算节点计算均匀试验台Amazon EC27时间不提到不提到线性22.6%百分之十八不真实，所以结果不准确。负载不平衡，鲁马尼（二零一三年）能力基于要分发的（马修和Varia，2014年）提到提到增量&二次排序不精确手册节点计算Lee等人2014负载相等。解决节点不平衡问题异构5执行Hadoop-字数统计，平均计算比率计算节点（2014年）Anjos等人2014基于节点计算能力的问题。数据分布基于虚拟试验台MRSG64时间执行0.20.205不&Grep字数，&百分之十四点五&百分之二十三点五52.04%基于静态工作负载的计算能力。实际节点没有（2015年）节点计算能力在异构模拟器时间提到排序到70%所以结果是并不准确穆罕默德2016环境存储层感知的健壮当地5响应不Wordcount&72%至附加存储Shin（2016）数据放置（RDP）方案，以解决不平衡的工作负载。异构虚拟试验台时间提到Grep百分之八十一增加了成本并使节点过载。表2详细概述Hadoop MapReduce中的副本管理技术作者年撤销标准测试环境节点数量性能度量版本基准结果漏洞阿南塔纳拉亚南2011块当地100完成不字数统计，平均额外的存储等人（2011年）复制异构时间提到排序，Grep百分之二十点二增加10%Jin等人（2012年）2012基于他们的受欢迎程度。复制试验台模拟器504减少Hadoop-TeraSort百分之三十额外的成本和降低性能。额外的存储的容错机制，添加额外（Magellan）（Ramakrishnan等人，（ 2011年）网络流量，改善数据局部性0.20.2增加了额外的成本，性能Xiong et al. （2014年）2015仓储成本数据存储数据中心252能源Hadoop-WordCount百分之二十一找到Liu等人（2018年）2018基于虚拟存储层（VST）的热度。动态副本SEU虚拟40效率执行2.3.0Hadoop-&AMS-02物理工作分析Puma12%至数据热浪费大量时间。找到Kamalakant Laxman Bawankule、Rupesh Kumar Dewang和Anil Kumar Singh沙特国王大学学报7628Bae等（2021年）2020利用灰色预测模型预测数据热度，从而实现布局。仅复制异构集群AmazonWeb5效率数据局部性2.7.3标准（艾哈迈德例如，2012 ）单词计数&GrepGrep&百分之二十七平均数据热浪费大量时间。它使用20%那些块具有最高Services EC2HadoopWordCount百分之九十七额外的存储用于复制远程访问的可能性数据块。Kamalakant Laxman Bawankule、Rupesh Kumar Dewang和Anil Kumar Singh沙特国王大学学报7629表3详细概述Hadoop MapReduce中的数据局部性改进技术作者年份撤销标准测试环境节点数量性能度量版本基准结果漏洞Wang等人2015马尔可夫链模型虚拟24执行Hadoop-A套房百分之四十九点八&它不使用（2015年）Dharanipragada2017基于节点的能力节点在节点上分发连续的传入数据。基于数据分布异构集群当地5时间作业运行时间2.2.0Hadoop-（艾哈迈德例如， 2012年）词百分之九点八百分之二十物理集群来测试性能。它不等人（2017年）磁盘延迟。异构2.7.1计数&考虑节点Paik等人（2017）2018分析计算集群虚拟18网络微型个词的意思Hadoop-7%至期间能力数据分布它不Naik等人2019节点的性能。基于以下各项分配数据异构Hadoop集群当地7利用数据局部性HiBench基准测试Hadoop-2.6.1HiBench百分之十八平均在数据分发期间考虑节点能力。使用NameNode（2019年）Bawankule等人2021节点处理能力。地图块放置异构Hadoop集群当地7&执行时间数据局部性1.2.1Hadoop-基准HiBench7%至百分之二十七百分之二十七&进行块分区，这会使它过载。政策（2021年）基于节点处理能力。异构Hadoop集群&执行时间2.5.2基准平均14%至百分之二十六如果历史记录服务器初始加载失败，则执行良好。表4详细介绍Hadoop MapReduce中的任务克隆技术。作者年撤销标准测试环境节点数量性能度量版本基准结果漏洞Eltabakh等人2011相关主机代管当地41操作Hadoop-字数统计，&20%至它没有考虑到（2011年）同一数据集均匀效率0.20.2Grep百分之五十五所需时间Wu等人（2016年）2016的节点。分配试验台虚拟20执行Hadoop-基准9.1%&数据迁移。它没有考虑到阿南塔纳拉亚南2010在同一节点上的相关数据块。网络感知&异构Hadoop集群宾氏1000效率工作时间2.4.0不MaxTo1949MaxTo1988WordCount&百分之三十六点四百分之三十二数据迁移所需的时间。它没有考虑到等人（二零一零年）资源感知任务安置生产集群提到表连接&Group By&所需时间数据迁移。Xu and Lau（2016）2017智能克隆Google Real11000作业流程时间不GrepGoogle工作百分之七十一它浪费了额外的算法（SCA），以提高系统的效用。世界群落提到通过克隆数据块来获得存储空间。4.1.1.1. 数据放置。在这种技术中，跨节点的负载基于节点计算能力、磁盘延迟和其他因素来平衡。谢等人提出的第一种技术。（2010）基于节点计算比率平衡负载。这种方法改善了本地和虚拟集群的响应时间（Bawankule等人， 2021年）。其他各种建议的方法基于多个因素来平衡节点之间的负载，这些因素可以增强表1中讨论的异构Hadoop集群性能。Xie等人（2010）解决了在异构Hadoop集群中组织和重新组织数据的问题。该方法实现两个算法。第一种算法基于节点计算能力来分配块。第二种算法在向现有集群添加新节点时重新组织块，并将新数据附加到当前输入数据。它根据处理能力将数据跨节点放置，其中集群中的每个节点在处理数据时具有平衡的负载。然而，它有一些局限性1. 计算比率已根据静态工作负载计算2. 它在数据放置时不考虑数据复制因素。Kamalakant Laxman Bawankule、Rupesh Kumar Dewang和Anil Kumar Singh沙特国王大学学报76303. 技术无法估计数据迁移的成本和数据迁移所需的时间。4. 最初，它使用的时间和资源不足以处理等量的数据，同时记录响应时间。Ye等人（2012）提出了一种基于实时数据节点情况选择最佳数据节点的技术。它动态地选择数据节点，并帮助实现负载平衡。它减少了网络流量，因为在集群中的节点之间传输的数据较少。但是，它有一些局限性，如果数据是基于节点能力分布的，则可以提高数据的局部性。实验是在模拟器上进行的，因此结果不准确，节点的行为不真实。Shabeera和Kumar（2013）提供了一种基于带宽的数据放置解决方案。它定期测量客户端和数据节点之间的带宽。它将数据块放置在端到端带宽最大的数据节点上。然而，如果基于带宽的块放置可能使集群中的一些节点过载，则它具有一些限制。这进一步导致负载不平衡。负载平衡本来可以通过保持阈值来实现。块小于等于的数据节点阈值将进一步用于数据分配。Kamalakant Laxman Bawankule、Rupesh Kumar Dewang和Anil Kumar Singh沙特国王大学学报7631Arasanal和Rumani（2013）提出了一个估计计算比率的数学模型。该技术基于硬件规格计算计算比率。它使用CPU速度、物理内存大小、虚拟内存大小、当前CPU使用率、CPU数量等，在集群中的节点上可用。所提出的基于历史的模型使用以下等式计算节点的得分。1.一、最后，使用几个有用的心跳计数器来计算节点的计算比率。它基于计算比率分配数据，并在分配数据块之前对分数进行归一化。但是，人工计算节点计算率并不准确，因此可能会使集群中的某些节点

下载后可阅读完整内容，剩余1页未读，立即下载