管理大数据应用程序的一致性与自适应权衡

13 浏览量更新于2023-12-01 收藏 2.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

管理大数据应用程序的一致性：权衡和自适应Houssem Eddine Chihoub引用此版本：Houssem Eddine Chihoub.管理大数据应用程序的一致性：权衡和自适应。数据库[cs.DB]。卡尚高等师范学校-卡尚高等师范学校，2013年。英语NNT：2013DENS 0059。电话：01151256HAL Id：tel-01151256https://theses.hal.science/tel-011512562015年5月12日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaireTHENSE/ENS CACHAN-BRETAGNE布列塔尼欧洲大学校园为了获得CACHAN高等师范学校提及：Informatique巴黎马蒂斯博士学校管理大数据应用程序的一致性云计算：权衡和自我适应par presentéeHoussem Eddine ChihoubPréparée à Inria Rennes-BretagneThèse soutenue le 10 décembre 2013陪审团组成后：Pierre Sens/特别报告员法国巴黎第六大学Toni Cortes/特别报告员西班牙加泰罗尼亚理工大学大学讲师Esther Pacitti/检查员法国蒙彼利埃大学讲师Luc Bougé/检查员Casseur，ENS Cachan-布列塔尼大区，法国Gabriel Antoniu/directeur de thèseDirecteur de recherche，INRIA Rennes，France玛丽亚·SPérez/co-directeur de thèse西班牙马德里理工大学大学讲师简历A l'ère de Big Data，les applications de treitement intensif dedonnées gèrent des volumes de données extrêmement grands.而且他们需要更快的治疗时间。这些应用程序的一部分是在云上部署的，这是基础设施的一个优点。在这种情况下，复制在云计算中至关重要，可以帮助解决大数据的防御问题。此外，该决议还提出了关于捐助者一致性的重要问题。协调的管理是首要的。这些型号的一致性强，在性能方面很重要，而在传球方面则很困难，因为相反，最佳性能的一致性模式（术语一致性）是一种最佳可供选择的模式。所有这些最后的模式都是可以容忍的，在某些情况下，暂时不一致在这方面的工作中，我们解决了大数据系统中一致性管理的问题。首先，我们提出了一种自适应的一致性模型，该模型可以增加或减少一致性的自动化程度。Ceci允许最佳的性能测试，以满足应用的要求。第二，我们放弃了金融家们对云计算一致性的管理。因此，我们建议对合同条款的一致性效力进行管理。第三部分的贡献包括研究协调管理对能源消耗分配系统的影响这一研究使我们能够分析储存系统在减少消费方面适应重新配置的可能性。在完成我们对新制度的工作后，我们取消了对新适用制度的一致性管理。我们将介绍一种方法，以改进对受试者进行药物应用的方式。 Le modèle proposé facilite la comprehensiondes besoins 一致性。此外，该模型还可用于生成特定于执行应用程序的手册。Des evaluations approfondies sur lesplats-formes Grid莫茨克莱斯大数据，云计算，一致性，性能，竞争力，能源效率，大容量，存储，系统摘要在大数据时代，数据密集型应用程序需要处理大量数据，同时需要快速处理时间。大量这样的应用程序在云中运行，以便从云功能中受益在这种情况下，复制对于应对大数据挑战至关重要。然而，复制引入了跨不同副本的数据一致性的主要问题。一致性管理是大数据系统的关键问题。强一致性模型由于所需的同步工作而对系统的可伸缩性和性能引入了严重的限制。相比之下，弱一致性模型和最终一致性模型降低了性能开销，并实现了高级别的可用性。然而，在某些情况下，这些模型可能会容忍太多的时间不一致性。在这篇博士论文中，我们解决了大数据系统和应用程序中首先，我们关注存储系统级别的一致性管理。我们提出了一个自动化的自适应模型，在运行时的一致性水平，在需要时，以提供尽可能高的性能，同时保持应用程序的一致性要求的规模向上/向下。此外，我们还解决了一致性管理对云中货币成本的影响。因此，我们提出了一个具有成本效益的调整在云中的一致性水平在第三个贡献中，我们研究了一致性管理对数据中心内能耗的影响此后，我们研究自适应配置的存储系统集群，节省能源。为了完成我们的系统端研究，我们专注于应用层。我们提出了一个行为建模方法，apprehends应用程序的一致性要求基于该模型，我们提出了一种在线预测方法，适应应用程序的特定需求，在运行时，并提供定制的一致性。在Grid'5000测试平台和Amazon EC2上的广泛评估关键词大数据，云，一致性，性能，成本，能效，大规模，存储，系统订单布列塔尼卡尚高等师范学校Campus de Ker Lann-Avenue Robert Schuman-35170 BRUZ电话：+33（0）2 99 05 93 00-传真：+33（0）2 99 0593 29知识是对象与理智的整合。阿威罗伊（1126确认如果没有我的导师加布里埃尔和玛丽亚的指导，这篇博士论文的成就是不可能完成的我要衷心感谢他们给我机会继续我的博士工作，感谢他们在我逗留的三年中的认可和可用性，感谢他们的洞察力，感谢他们的耐心和全力支持。我要感谢我的非正式顾问Luc，感谢他在工作内外的全力支持，感谢他明智的建议，以及他教给我的所有东西。我想把这项工作的成就献给我的父母，Zhor和Messaoud，他们一直相信我。我也要感谢他们对我的全力支持，感谢他们一直以来对我的支持。我还要感谢我所有的兄弟姐妹和亲人，感谢他们不断的支持和耐心。我要感谢评审团的所有成员，我的评审员Toni和Pierre，以及Esther，他们贡献了宝贵的时间来评估我的作品。我感谢他们富有洞察力的评论和宝贵的问题，帮助我更全面地了解所取得的成果。我借此机会感谢我在KerData团队中的朋友Shadi Ibrahim，我与他密切合作了几篇论文，并在工作内外分享了难忘的回忆我要感谢我在KerData团队的所有同事和朋友，他们是我在KerData工作的三年里认识的。我记得我们进行了许多建设性的讨论和大笑的许多时刻。非常感谢所有对我非常耐心的朋友，特别是那些我在INRIA遇到的人，我将永远和他们做朋友。特别感谢朋友和KerData团队助理Céline和Elodie。最后，我想对欧洲玛丽·居里行动网络SCALUS的所有教授和合作伙伴以及ESRs我还要感谢所有与我直接或间接合作过的人。我内容1介绍11.1背景。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11.2捐款 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21.3出版物 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41.4曼尼托巴的组织。 . . . . . . . . . . . . . . . . . . . . . . . . . .4第一部分 - 上下文：大数据的一致性管理72大数据系统和云计算：简要概述92.1大数据2.1.1大数据定义102.1.2大数据平台112.1.3大数据架构122.2云计算142.2.1云服务级别152.2.2云计算模型162.2.3云计算平台172.3云计算中的大数据应用：挑战和问题192.3.1大数据挑战192.3.2我们的重点：复制和一致性212.4摘要. 223云中的一致性管理3.1CAP定理243.2一致性模型263.2.1一致性强3.2.2弱一致性273.2.3最终一致性283.2.4因果一致性293.2.5时间轴一致性303.2.6讨论313.3云存储系统323.3.1亚马逊Dynamo 32二、目录3.3.2卡桑德拉。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33Yahoo！PNUTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .343.3.4 Google Spanner。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .353.3.5讨论。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .373.4自适应一致性。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .383.4.1红蓝一致性。 . . . . . . . . . . . . . . . . . . . . . . . . . . . .383.4.2一致性配给。 . . . . . . . . . . . . . . . . . . . . . . . . . . .403.5摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41第二部分-贡献：云计算的自适应一致性方法434一致性与性能：云中4.1动机464.2Harmony：弹性自适应一致性模型474.2.1放大云存储中的最终一致性级别474.2.2和谐........................................................................................................................ 474.3陈旧读取率估计494.3.1陈旧读取概率494.3.2计算副本数量Xn....................................................................................................514.4实施&实验评估514.4.1和谐执行514.4.2和谐评价524.4.3陈旧读取率的估计精度584.5讨论594.6摘要605一致性与成本：云中的成本感知一致性调优5.1动机625.2云存储的成本是多少？.....................................................................................................635.2.1云存储服务和货币成本635.2.2成本模型645.2.3一致性与成本：实用观点685.3Bismar：经济高效的一致性模型735.3.1指标：一致性-成本效率735.3.2Bismar.....................................................................................................................735.4实验评价755.4.1Consistency–Cost5.4.2货币成本765.4.3Staleness vs. 货币成本785.4.4放大Bismar.............................................................................................................78中的资源成本5.5讨论795.6摘要806一致性与能源消耗：一致性管理对能源消耗目录三6.1动机826.2对一致性-能耗权衡的见解...............................................................................................6.2.1Tradeoff实用视图836.2.2读/写比率影响866.2.3存储集群中的节点偏差6.3存储集群的自适应配置6.3.1重新配置方法906.3.2实验评价916.4讨论. 946.5摘要957Cha m eleon：通过行为建模定制特定于应用程序的一致性977.1动机987.2总体设计997.2.1设计目标997.2.2使用案例1007.2.3应用程序数据访问行为建模1017.2.4基于规则的一致性-状态关联1057.2.5基于预测的定制一致性1107.3实施和实验评估1117.3.1执行1117.3.2模型评估：聚类和分类1127.3.3定制一致性：评估1167.4讨论1197.5摘要120第三部分 - 结论与展望1218结论1238.1成就1248.2前景126第四部分9Résumé enFrançais 1399.1上下文1399.2捐款1429.2.1自适应模态1429.2.2云计算中的一致性管理1429.2.3分析协调管理对能源消耗的..............................................................................9.2.4Cohérence spécifique à.....................................................................................四.目录9.4OrganisationduPunct1469.5结论和展望. 147R1第1章介绍内容1.1上下文11.2捐款21.3出版物41.4第四次世界大战1.1上下文最近，数据大小在许多组织中呈指数级增长。2010年，当时的Google首席执行官EricSchmidt估计万维网的数据量约为500万TB [2]，而最大的存储集群在Facebook这样的公司中，2013年的数据量超过100 PB [122]。数据无处不在，来自多个来源：社交媒体，智能手机，传感器等。这种被称为大数据的数据海啸，为数据存储和管理的不同方面带来了许多复杂性。这些复杂性是由于压倒性的大小，以及所需的速度和来自不同来源的数据的复杂性，这些数据在高负载可变性下具有不同的要求。为了应对相关挑战，许多大数据系统依赖于大型和新颖的基础设施，以及新的平台和编程模型。在这种情况下，云计算的新兴范式为大数据提供了极好的手段在这种模式下，用户可以按需租赁计算和存储资源，按需付费的方式。因此，企业可以在需要时以低成本获得其大数据应用所需的资源。与此同时，他们避免了对需要大量努力建设和维护的物理基础设施的大量投资，此外，这需要高水平的专业知识。第1章第二次世界大战在云存储中，复制是大数据的一个非常重要的功能。在广域云规模下，数据跨多个数据中心复制，以满足快速响应和本地可用性要求。因此，客户端可以从最近的数据中心内的副本本地请求数据此外，地理复制通过在不同地理区域复制冗余数据来提供数据持久性、容错性和灾难恢复然而，复制中出现的一个问题是保证副本之间的数据一致性。在这种情况下，确保强一致性需要在不同位置进行大量的同步工作，从而使用户面临高网络延迟。这会影响云存储解决方案的性能和可用性一个特别流行的替代方案是最终一致性。最终一致性可以容忍某些时间点的不一致性，但保证所有副本在未来时间收敛到相同的状态。一致性管理严重影响存储系统。此外，随着大数据规模的扩大，一致性管理对于满足性能、可用性和货币成本要求至关重要传统的存储系统和数据库实现了严格的模型，如强一致性，在满足当今大数据应用的可扩展性需求和性能要求在这种情况下，考虑应用程序需求并仅提供足够保证的灵活和自适应一致性解决方案应该成为大数据革命的核心1.2贡献本博士研究的贡献可以总结如下。Self–Adaptive Consistency Model: Consistency when Needed, Performancewhen最终一致性作为一种提供高可用性和快速响应的模型在云存储系统中非常流行然而，这是以读取陈旧数据的高概率为代价的，因为在读取中涉及的副本可能不保持最近的最新。在这项工作中，我们提出了一种新的方法，名为和谐，自适应调整的一致性水平在运行时根据应用程序的要求。Harmony背后的关键思想是陈旧读取率的智能估计模型。该模型允许弹性地增加或减少读操作中涉及的副本的数量，以保持低（可能为零）的陈旧读的可容忍部分。因此，Harmony可以在实现良好性能的同时满足应用程序所需的一致性。我们已经在Grid'5000测试平台和Amazon EC2上实现了Harmony，并对Cassandra云存储进行了广泛的评估结果表明，和谐可以实现良好的性能，而不超过容忍的陈旧读取的数量。Cost–Efficient最近，许多组织已经将其数据移动到云，以便以低成本提供可扩展、可靠和高度可用的服务在这种情况下，货币成本是1.2 –这是一个非常重要的因素，因为云计算是一种经济驱动的模式。然而，在一致性管理的相关研究中，很少考虑到这一点.事实上，大多数优化工作都集中在如何在一致性保证和性能之间提供适当的权衡在这项工作中，我们认为，货币成本时，应考虑到评估或选择的一致性水平（访问操作中涉及的副本数）在云中。因此，我们定义了一个新的度量标准，称为一致性成本效率。在此基础上，我们提出了一个简单而有效的经济一致性模型，称为Bismar。Bismar在运行时自适应地调整一致性级别，以降低货币成本，同时保持低比例的陈旧读取。在Grid'5000测试平台上使用Cassandra云存储进行的实验评估一致性与能耗：分析和调查近年来，数据中心内的能源消耗呈指数级增长在大数据时代，存储和然而，很少有研究致力于储能系统的能量消耗的分析此外，一致性管理的影响几乎没有被调查，尽管它的高度重要性。在这项工作中，我们解决这个特殊的问题。我们提供了一个分析研究，调查的能源消耗的应用程序的工作负载与不同的一致性模型。此后，我们利用关于每个一致性级别的功率和资源使用的在这种情况下，我们介绍了自适应重新配置的存储系统集群根据应用的一致性水平我们对部署在Grid'5000上的Cassandra进行了实验评估，结果此外，它们还展示了重新配置存储组织如何实现节能、增强性能和更强的一致性保证。基于应用行为建模的如今，全球范围内正在部署多种大数据应用程序和服务，为大量客户提供服务。这些应用程序的性能要求和一致性要求各不相同。在存储系统级别理解这些要求是不可能的应用程序的高级别一致性需求并没有反映在系统级别。在这种情况下，对于所有类型的应用程序，陈旧读取的后果并不相同。例如，与社交媒体应用程序中的陈旧读取相比，网络商店的陈旧读取可能导致严重后果在这项工作中，与相关的工作相比，我们专注于管理一致性的应用程序级别，而不是在系统方面。为了实现这一目标，我们提出了一种基于机器学习技术的应用程序访问行为离线建模方法。此外，我们引入了一个算法，关联的一致性政策与每个应用程序的状态自动。在运行时，我们引入了Chameleon方法，该方法利用应用程序行为的模型来提供特定于该应用程序的自定义一致性。首先，识别应用程序状态。然后，预测算法选择第1章第一次在下一个时间段为预期的应用程序状态提供足够的一致性策略。实验评估表明，我们的建模方法的准确性很高，超过96%的应用程序状态的正确分类。此外，在Grid'5000上进行的实验根据应用程序的行为及其一致性要求，同时提供最佳性能。1.3出版物书籍章节Houssem-Eddine Chihoub ， Shadi Ibrahim ， Gabriel Antoniu ， and MaríaS.Pérez，云存储系统的一致性管理，接受了将于2013年底由CRC PRESS出版的《大数据时代数据处理技术的进步》一书中出版的图书章节。编辑：Sherif Sakr和MohamedMedhat Gaber。国际会议Houssem-Eddine Chihoub ， Shadi Ibrahim ， Gabriel Antoniu ， and MaríaS.Pérez，Harmony：Towards automated self-adaptive consistency in cloud storage，in theproceedings of the 2012 IEEE International Conference on Cluster Computing（CLUSTERCORE等级A（接受率28%）。Houssem-Eddine Chihoub，Shadi Ibrahim，Gabriel Antoniu，and María S.云计算中的一致性：当钱很重要!第13届IEEE/ACM集群、云和网格计算国际研讨会（CCGRIDCORE等级A（接受率22%）。国际会议Houssem-Eddine Chihoub，云中的自适应成本效益一致性管理，第25届IEEE国际并行和分布式处理研讨会（IPDPS 2013）：博士论坛（2013），波士顿，2013年月。Houssem-Eddine Chihoub ， Gabriel Antoniu ， and María S. Pérez ， Towards ascalable，fault-tolerant，self-adaptive storage for the clouds，在EuroSys 2011年博士研讨会上，萨尔茨堡，2011年月。研究报告Houssem-Eddine Chihoub ， María S. Pérez ， Gabriel Antoniu 和 Luc Bougé ，Chameleon：通过应用程序行为建模实现特定于应用程序的自定义一致性。1.4马其顿共和国的组织本手稿的其余部分分为三个部分。······1.4第一部分：介绍了本文的研究背景。第二章介绍了大数据的一般背景，并介绍了大数据的平台和基础设施.此外，它提出了云计算的新兴范式作为一个很好的手段来处理大数据管理的然后，本章将讨论云上大数据的挑战它强调了一致性管理问题及其对存储解决方案的潜在影响在这种情况下，第3章提供了一个云一致性管理的调查研究首先，CAP定理及其权衡。然后，提出并讨论了各种一致性模型。随后，本章介绍了一些流行的云存储系统，并重点介绍了它们的一致性管理实现最后，本章介绍了自适应一致性策略作为有效的模型，以应对云中大数据应用程序的负载变化。第二部分：由四章组成，介绍了这项工作的核心贡献。第4、5、6章主要介绍了一致性管理和系统端的解决方案。在第4章中，我们将讨论一致性与性能之间的我们介绍我们的方法，和谐，提供良好的性能，而不违反应用程序的一致性要求。虽然性能水平非常重要，但云中存储服务的货币成本也同样重要。第五章研究一致性管理对货币成本的影响。此外，本章描述了我们的方法Bismar。Bismar利用新的与第4章和第5章类似，第6章探讨了一致性模型对存储系统集群能耗的影响此外，在本章中，我们展示了存储系统集群的自适应重构（根据每个一致性级别）的节能效果为了补充我们在系统方面的工作，第7章介绍了Chameleon，我们在应用程序级别的一致性管理方法。提出了一种大数据应用的行为建模方法。除了应用程序语义之外，该模型还用于提供定制的一致性，该一致性根据应用程序的需求在每个时间段选择适当的一致性策略第三部分：由第8章组成。在本章中，我们总结了我们的贡献，并提出了我们关于云中大数据应用程序一致性管理的结论。此外，我们讨论了在这种情况下的限制，并描述了在这方面的观点，可以导致更有效的存储管理在云中。第1章：第一次7第一背景：大数据我9第2章大数据系统和云计算：简短概述内容2.1大数据2.1.1大数据定义102.1.2大数据平台112.1.3大数据架构122.2云计算142.2.1云服务级别152.2.2云计算模型162.2.3云计算平台172.3云计算中的大数据应用：挑战和问题192.3.1大数据挑战192.3.2我们的重点：复制和一致性212.4摘要. 22近年来，许多公司和组织的数据规模呈指数级增长2010年产生的总数据量估计超过1zettabyte（1021字节），预计在未来十年将增长50倍[136]。这种数据挖掘现象，后来被称为大数据，带来了许多挑战和问题。因此，专家们每天都要处理与如何存储、管理、处理和查询数据有关的问题。这些问题在谷歌、亚马逊和微软等大公司已经解决了很多年，它们依赖于创新的软件平台，但主要是大规模的基础设施。另一方面，小公司仍然没有装备。数据大小和种类的持续增长率表明，

下载后可阅读完整内容，剩余1页未读，立即下载