多存储系统中的请求处理

74 浏览量更新于2023-10-31 收藏 2.22MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

多存储系统中的请求处理由蒙彼利埃大学提供在I2S博士学校编写 *来自专业：计算机科学由Carlyna Bondiombouy提供carlyna. inria.fr于2017年7月12日在评审团面前进行了辩护，评审团成员包括：安吉拉·博尼法蒂教授克劳德·伯纳德里昂第一大学报告员M.法鲁克·乌曼尼教授布莱斯·帕斯卡报告员Sarah COHEN-BOULAKIA高级讲师（HDR）南巴黎大学审查员M.皮埃尔·G·埃内维斯研究负责人国家遥感中心检查员埃丝特·P·阿西蒂教授蒙彼利埃大学审查员M.帕特里克五世·阿尔杜里兹研究总监因里亚论文指导I2S：E COLE 博士学位 I形成 S结构S系统主是有恩典和同情心的，慢慢地变得愤怒，在爱中丰富。耶和华恩待众人，怜恤他所造的。耶和华阿，你一切的作为都赞美你，你忠信的百姓都赞美你。他们述说你国的荣耀，述说你的大能，使万民都知道你的大能，和你国的荣耀。- 圣经ii.奉献给我的家人。致全世界的儿童。确认文件谢谢你，我的主，我的胜利蝴蝶，我的救赎主，永远在那里为我，谢谢你的不值得的恩典。你是我的一切，我觉得我的价值，没有你，我什么都不是，我忠实的朋友。胜利属于耶稣，我可以通过他做这一切，他给了我力量。你的恩典对我来说已经足够了，亲爱的丈夫，你是我活着的原因我把我的信任和希望寄托在你身上，你是我的供养者。所有的荣耀、荣誉和赞美都属于你。我想表达我深深的感谢帕特里克Valduriez我的论文导师，为他的帮助，伟大的可用性，耐心，宝贵的建议和鼓励。他的能力、科学的冷漠和洞察力教会了我很多。它们过去是，将来也将继续是我工作的主要引擎。我感谢博扬·科列夫和奥列克桑德拉·列夫琴科，没有他们，这篇论文就不会是现在的样子，因为他们的讨论、建议和贡献。我感谢Esther Pacitti为我的研究和职业规划提供了宝贵的建议。我非常感谢我论文期间的合作者和贡献感谢RicardoJiménez- Peris 、 Raquel Pau 、 José Pereira 和 Pavlos Kranas ，感谢他们在CoherentPaas项目中的出色合作。还要感谢委员会成员Farouk Toumani、Angela Bonifati、Pierre Genevès、SarahCohen-Boulakia和Esther Pacitti，感谢他们花时间评估我的论文，感谢他们在口头答辩期间提供的深刻而仔细的意见和建议。如果没有刚果国家的支持，这项工作是不可能的，刚果国家使我能够感谢一笔研究津贴，使我能够平静地献身于我的论文的阐述。我还要向Zenith团队的所有成员表示衷心的特别感谢Dennis Shasha、DjamelYagoubi、Sakina Mahboubi、Miguel Liroz、Ji Liu、Medhi Zitouni和MaximilienServajean，他们为我的研究工作提供了宝贵的建议。还要感谢Florent Masseglia、Reza Akbarinia、Laurence Fontana、Khadidja Meguelati、Titouan Lorieul、SaberSalah、Reda Bouadjenek、Rim Moussa、Daniel Gas- par、Valentin Leveau和SenWang，我经常回忆起我们一起度过的快乐时光。我想感谢我的父母给了我所有的机会来取得最大的成功。谢谢你教我如何去爱。致我的姐妹们，兄弟们，侄女们，侄子们，阿姨们，叔叔们，祖母们，祖父们，谢谢你们。你的爱、祈祷和指引帮助我面对了所有的考验。致我的天使：撒母耳和以利亚，他们告诉我，生命是一份礼物，一份宝藏，一份恩典，让我被接受，被接受。iii.四0. 确认文件放弃。我感谢 Dovene Agogue 、 Nora Aouba 、 Josiane Mendy 、 Bettina Ibouanga 、Arnaud Nzomambou 、 More Ogounde 、 Tresor Pemosso 、 Audrey BouhouamaKassa、Polha Guimbi、 Tidiane Cherif Fall 、 Bouanga Solila 、 Yoka Nida 、 AnnaNgouba 、 Styven Lankiang 、 Davina Makosso 、 Aurore Ngono 、 Marie FernandezBoni、Florent Fernandez和Armelle Nzang。时间流逝，你的建议、建议和鼓励照亮了我的生活。我想感谢Frederic Kikadidi的支持，感谢他审查我的论文并提供宝贵的反馈。我感谢Abdoul Aziz教授和Oumar Diankha教授的支持，感谢他们与我分享宝贵的研究经验。我想特别感谢Musika团队：Agnès、Marie和Céline。他们让我的生活成为一次真正难忘的经历。我想感谢弗朗索瓦·巴蒂·索雷尔和玛丽·普卢赞斯基的道义支持和鼓励。我感谢Brigitte Manckoundia、Gabrielle At- tibayeba、NarcisseNadjingar 、 Mamoudou Ibrahima 、 Alain Loufimpou 、 Yoka Noelle 、 Vic- torGbenou 、 Braithe Mangombi 、 Amaelle Otandault 、 Grace Embolo 、 ArmideMeboua、Julie Minsta、Chardel Gokini、Géraud Fokou、Amiel Balebana、DeboraIssoibeka、Re-becca Yaca、Carelle Koutchanou、Bernadette Faye、Therese Nouga及其家人的帮助和宝贵建议。我想向Lalou Yavoucko、Kilone Manta Mon- deila、Gerrys Mboumba、AnaisGabiot、Sabrina Mathat、Amegbo Assogba、Narcisse Badi- ette、Marie Thiamane、Debora Batchi、Nailoth Betty、Ray Loubayi、Jose Kotshi、Hapsita Oriane Ady、Francis Ganga 、Benny Boungou 、 Anne-Marie Manga、Djennie Doukaga 、JudithPoaty、Bonheur Djatto、Sara Tchibinda、Cinthia Elenga、Yedisa Makosso、ZoeElenga 、 Caprel Tchissambou 、圣伯纳黛特崇拜团体、 Olga Kouikani 、GerolgSita、Marie Nkounkou、Emmanuel Ehounda、Boverly Mandiangou、Patric Mbah、Mariette Nkama、Marcelle Kombo、Elise Assala和Anaelle Kibelolo。我还要非常感谢伊斯梅尔·马亚基、贝里·姆拜奥苏姆、盖伊·恩加哈、泰奥菲尔·恩加帕、玛丽·恩加帕、穆斯塔法·比金加、扎卡里亚·萨拉维、拉乌尔·蒂亚姆和亨利·特吉亚克。我想感谢UM、LIRMM、Inria和所有其他对这项工作有直接或间接贡献但上文未提及的人。我感谢他们的帮助和支持。摘要云计算对数据管理产生了重大影响，导致了新的可扩展数据管理解决方案的激增，如分布式文件和对象存储这也导致了DBMS接口的广泛多样化和通用编程范例的丢失在本文中，我们讨论了在云中处理多个数据源的查询的问题，其中这些数据源具有不同的模型、语言和API。本论文是在欧洲CoherentPaaS项目的框架内编写的，特别是CloudMdsQL多存储系统。CloudMdsQL是一种函数式查询语言，它能够在本文中，我们提出了一个CloudMdsQL扩展，通过允许将用户定义的map/filter/reduce（威望）运算符与传统的SQL语句结合使用，充分利用底层数据处理框架（如Spark）的功能这允许在我们的解决方案通过允许重写子查询来实现我们已经通过在CloudMdsQL查询引擎中实现威望扩展来验证我们的解决方案。在此原型的基础上，我们提出了集群中多存储查询处理的实验验证，以评估优化对具体来说，我们将探讨在不同条件下使用绑定和数据过滤的好处总的来说，我们的性能评估说明了V六0. 摘要法语标题多存储系统中的请求处理关键词• 云中的数据管理系统• 多商店系统• 多数据• 请求的处理摘要云计算正在对数据管理产生重大影响，并呈扩散趋势新的可扩展数据管理解决方案，如分布式文件和对象存储、NoSQL数据库和大数据处理框架。这也导致了DBMS接口的广泛多样化和通用编程范例的丢失，使得用户很难将其数据存储集成到专门的数据存储中，例如关系、文档和图形数据存储。在本文中，我们解决了多个云数据存储的查询处理问题，其中数据存储具有不同的模型、语言和API。本文是在CoherentPaaS欧洲项目[1]的背景下编写的，特别是CloudMdsQL多存储系统。CloudMdsQL是一种函数式查询语言，它可以利用本地数据存储的全部功能，只需允许一些本地数据存储查询被称为函数，并同时被优化，例如，通过按下选择谓词、使用绑定联接、执行联接排序或计划中间数据发运。在本文中，我们提出了CloudMdsQL的一个扩展，通过允许用户定义的映射/过滤器/Reduce（RFR）运算符与传统的SQL语句结合使用，充分利用底层数据处理框架（如Spark）的功能。这允许关系和HDFS大数据之间的性能连接。我们的解决方案允许通过启用子查询重写进行优化，以便可以使用绑定连接，并且可以尽可能早地由数据处理框架推送和应用过滤器条件。我们通过实现作为云- MdsQL查询引擎的一部分的MFR扩展来验证我们的解决方案。基于此原型，我们对集群中的多存储查询处理进行了实验验证，以评估优化对性能的影响。更具体地说，我们探讨了在不同条件下使用绑定连接和选择推送的性能优势。总的来说，我们的性能评估表明CloudMdsQL查询引擎七八0. 摘要英文标题多存储系统关键词• 云数据存储• 多存储系统• 多数据库系统• 查询处理九研究团队Zenith团队，Inria LIRMM实验室LIRMM-蒙彼利埃计算机科学、机器人和微电子实验室地址蒙彼利埃大学5号CC 05 018圣普里斯特校区-860 rue St Priest34095蒙彼利埃cedex 5扩展摘要简介云对数据管理产生了重大影响，导致了新解决方案的激增，如分布式文件和对象存储DFS、HDFS）、NoSQL数据库（例如Hbase、MongoDB、No4J）和大数据处理框架（如MapReduce、Spark）。这些解决方案是丰富的云服务（IaaS、PaaS、SaaS、DaaS等）的基础然而，这导致DBMS接口的广泛多样化和通用编程范例的丢失对于云中的数据管理，我们可以依靠关系数据管理系统（DBMS），它有一个分布式和pa-rale版本。然而，近年来，DBMS因其一刀切的方法而受到批评。虽然这一批评导致了为一种类型的应用程序开发更专业的DBMS。这使得用户例如，考虑具有包含作者的关系数据库、包含期刊的文档数据库和包含作者之间关系的图形数据库的用户，并且希望今天的主要解决方案是提供一个程序（例如，用Java编写的程序），该程序通过三个数据库的API访问所有三个数据库，此解决方案非常费力且难以扩展（例如，处理新数据库）。本论文是在欧洲CoherentPaaS项目[1]的框架内编写的。该项目面临着在云中管理数据的两个主要问题：由于缺乏事务而导致的数据一致性损失，以及必须手动调度和优化数据库查询的事实。Cohe-rentPaaSSQL和复杂事件处理CoherentPaaS提供了xixii0.扩展摘要用于查询不同数据库的通用编程模型和语言该平台被设计为允许用户数据的不同子集这构成了具有高水平异构性和本地自治性的多数据存储系统在本论文中，我们将重点研究如何有效地处理具有公共语言的异构数据查询。该问题可以表示如下。设Q（S1，S2，...对于n个数据库上的查询，每个数据库具有不同的数据模型和查询语言，并且在某些情况下（例如，文档数据库、图形数据库）具有不同的API，问题是提出一种将Q转换为优化查询执行计划（QEP）的方法，该方法具有对中间结果的有效管理。为了应对这些挑战，CoherentPaaS提供了多存储系统及其CloudMdsQL函数式语言，用于使用嵌套查询多个异构数据库CloudMdsQL查询可以利用本地数据库的全部功能，只需允许将本地数据上的某些本地查询作为函数调用，同时基于简单的成本模型进行优化。查询引擎架构是完全分布式的，因此查询引擎节点可以通过交换代码（查询计划）和数据彼此直接通信。这种分布式体系结构提供了重要的优化机会CloudMdsQL编译器充分利用了这些优化功能在多存储系统的上下文中，大量注意力被给予通常一个主要的解决方案是使用关系查询引擎，该引擎允许SQL类型的查询从HDFS检索数据。例如，MicrosoftPolybase系统使用此解决方案将 HDFS数据集成到 SQL Server 并行数据仓库（PDW）中。然而，PDW必须提供非结构化数据的关系视图，这是困难的，并且不总是可行的。在本文中，我们提出了一个CloudMdsQL系统的扩展，通过允许用户定义的map/filter/reduce（MBE）运算符与传统的SQL语句相结合，充分利用HDFS数据处理框架的功能我们的解决方案允许xiii本论文包含5个主要章节：我们在下面描述了这些章节，然后给出了一个结论，总结了贡献，并提出了未来的研究方向。多存储系统中的请求处理概述我们概述了多存储系统中的请求处理。我们首先介绍了最新的云数据管理解决方案和多数据库系统中的查询处理。多存储系统[40]（也称为聚合存储[25]）通过一种或多种查询语言提供对云中多个数据库的集成访问。已经构建了各种多存储系统，具有不同的目标、架构和查询处理方法。为了便于比较，我们根据与底层数据库的耦合程度对这些系统进行了划分，即松散耦合系统受到它们遵循具有多个数据库（例如NoSQL和DBMS）的介质-包装器体系结构。每个数据库都是独立的，即在本地控制，并且可以由其他应用程序访问。强耦合系统旨在有效地查询结构化和非结构化数据。它们也可能有特定的用途，如然而，它们为了性能而牺牲了系统的自主性，因此数据库只能由多存储系统直接通过其本地API访问。像松散耦合系统一样，它们提供了一种用于查询异构数据的单一语言但是，查询处理器直接使用本地数据存储接口，或者在HDFS的情况下，它与MapReduce或Spark等数据处理框架接口。因此，在执行查询时，查询处理器直接访问数据库，这是高效的。然而，可以连接的数据库的数量通常是非常有限的。混合系统结合了松散耦合系统的优点，包括···xiv0.扩展摘要强耦合，包括直接通过其本地接口对某些数据库的有效访问。L’architecturesuit l’architecture médiateur- wrapper, tandis que le processeur de requêtes peutégalement accéder directement à certaines bases de données, par exemple, HDFSvia MapReduce ou我们回顾并分析了每个类别的一些代表性多存储系统：（1）BigIntegrator、Forward 和 QOX; （ 2 ） Polybase 、 HadoopDB 和 Estocada; （ 3 ） Spark SQL 、BigDAWG和CloudMdsQL。我们的比较揭示了几个重要的趋势。主要的趋势是能够将关系数据（存储在数据库中）与不同数据库（如HDFS或NoSQL）中的其他类型的数据集成但是，多存储系统之间的一个重要区别我们还另一个趋势是在数据模型和查询语言方面，大多数系统提供类似SQL的关系抽象。CloudMdsQL多存储系统的设计CloudMdsQL是一种函数式SQL语言，能够在单个查询中查询多个异构数据库（关系数据库和NoSQL数据库），该查询可能包含内置于每个数据库的本机查询接口中的调用。主要的创新是在多数据库系统[24，46]中使用的解决方案不直接应用于多存储系统。首先，我们的通用语言不用于查询Web上的数据库，这些数据库在云中，一个查询涉及几个数据库，用户必须对每个数据库都有访问权限。其次，数据库可以有非常不同的语言，从非常简单的get接口到在完整的SQL或SPARQL语言中，键-值数据库中的/put。没有一种语言能有效地捕捉所有其他语言。SQL不能直接在图中表示路径遍历（当然，我们可以用关系来表示图，但这需要将路径遍历转换为昂贵的联接）。最后，NoSQL数据库可以是无模式的，这使得它几乎不可能导出全局模式。最后，用户需要的xv各种数据库语言的全部功能，例如，直接表示图形数据库中的路径遍历要做到这一点，我们需要我们可以将这些观察结果转化为我们共同语言的五个主要需求：1. 使用每个数据库的本机查询机制，集成对不同NoSQL和SQL2. 允许嵌套查询以3. 独立于模式，因此可以轻松集成具有或没有不同模式的数据库;4. 允许数据元数据的转换，例如将属性或关系转换为数据，反之亦然。[61]5. 易于优化，以便在CloudMdsQL语言及其查询引擎满足了这些需求。虽然后四种需求已经在多数据库系统中得到了很好的介绍，但CloudMdsQL也有助于满足前一种需求。该语言能够在查询引擎的设计得益于它在云平台中运行的事实。与介质和包装器集中的传统介质包装器体系结构不同，CLoudMdsQL系统具有完全分布式的体系结构，其提供了重要的优化机会，例如，通过最小化节点之间的数据传输。这使得重用作为分布式查询处理基础的查询优化技术成为可能。[46]使用MFRCloudMdsQL能够xvi0.扩展摘要通过使用绑定、执行连接排序或通过调度中间数据传输，尽可能早地选择谓词我们在本文中的主要贡献是这允许在我们定义了一个简单的表示法（在CloudMdsQL中）来声明性地指定map/filter /reduce（威望）运算符的序列。我们假设每个数据库都是完全自治的，因此，我们的查询引擎架构基于传统的中介-包装器但是，用户需要了解数据在数据库中的组织方式，以便我们语言中的一个查询可以请求从两个数据库中检索数据，然后对检索到的数据集执行联接。因此，查询包含内置于底层数据库中的调用，这些调用表示为子查询。由于我们的查询语言是函数式的，因此它允许数据和函数之间的严格耦合。用于数据处理框架的子查询由一系列以形式表示法表示的威望操作来表示。D’autrepart, SQL est utilisé pour exprimer les sous-requêtes sur les bases de donnéesrelationnelles ainsi que la requête principale qui effectue l’intégration des 因此，查询既受益于高表达性（通过允许将用户定义的MBE运算符与传统SQL语句结合使用），也受益于优化（通过允许重写子查询，以便数据库可以尽快推送和执行筛选条件和绑定连接原型设计我们开发了作为CloudMd-sQL查询引擎扩展的比比皆是每个查询引擎节点由两部分组成- master和worker。- 并与计算机集群中的每个数据库节点共置。主节点将查询作为输入并生成查询计划，然后将其发送到查询引擎中选择的节点以执行该计划。它使用查询计划器来执行查询分析和优化，并生成可以在查询引擎节点之间轻松传输的序列化工作人员协作执行由主服务器生成的查询计划，该查询计划跨越查询中涉及的底层数据库每个工作节点充当一个轻量级数据库处理器，并由几个通用模块（xvii特定于数据系统。L’implémentation 为了扩展云查询引擎MdsQL with续约，我们开发了一个续约调度程序，供数据处理框架的威望调度程序找到优化的机会，并将产生的我们使用以下数据库的包装器验证了CloudMdsQL查询引擎：Sparksee，一个使用Python API的图形数据库; Derby，一个可通过JDK驱动程序访问的关系数据库; MongoDB，一个使用Java API的文档数据库; Apache Spark，一个基于HDFS的数据处理框架，可通过Apache Spark API访问。实验验证使用CloudMdsQL查询引擎原型，我们对集群中的多存储查询处理进行了实验验证，以评估更具体地说，我们探讨了在不同条件下使用bindjoin（一种非常有效的技术）的好处在我们的实验验证中，我们关注的是可以表达跨多个数据库的数据集成的查询，特别是通过Spark框架访问的NoSQL、DBMS和HDFS我们显示了5个请求的3个不同执行计划的执行时间。我们比较了不同连接顺序、中间数据传输和重写子查询的执行时间我们还探讨了在不同条件下使用binjoin的好处实验结果表明，每个bindjoin请求的第三个QEP在执行时间方面比前两个QEP好得多然后，我们在具有三个数据库（PostgreSQL、MongoDB和HDFS）的Grid5000集群中评估了我们的威望方法我们使用3个不同的查询验证了我们的方法，每个查询都使用3个不同的HDFS配置来评估可扩展性。我们比较了没有绑定的QEP和有绑定的QEP之间的性能。结果表明，在执行时间方面，在具有更多节点数（16个节点）的配置中，bindjoin优化的好处更大。此外，通过根据确定的规则重新排序MPR运算符，减少了在MAF序列执行期间总的来说，我们的性能评估说明了xviii0.扩展摘要CloudMdsQL查询可以优化查询并选择最有效的执行策略结论在本文中，我们讨论了在云中处理多个数据库的查询的问题，其中数据系统具有不同的模型、语言和API我们提出了CloudMdsQL多存储系统的扩展，以充分利用底层数据处理框架（如Spark）的功能。CloudMdsQL是一种函数式查询语言，它能够利用底层数据系统的全部功能，只需允许将某些本机查询作为函数调用，同时进行优化，例如，尽可能多地处理选择性谓词、使用绑定、执行连接调度或调度中间数据传输。我们的扩展允许将这允许在我们的解决方案通过允许重写子查询来实现我们已经通过在CloudMdsQL查询引擎中实现威望扩展来验证我们的解决方案。在此原型的基础上，我们对集群中的多存储请求处理进行了实验验证，以评估具体来说，我们将探讨在不同条件下尽早使用绑定和选择的好处总的来说，我们的性能评估说明了对多百叶窗系统的研究相对较新，存在新的问题。根据我们的贡献，我们可以确定以下研究方向。支持多存储视图已被广泛用于多数据库中，以确保跨分布和异构性，从而隐藏数据存储在不同DBMS中的事实这需要

下载后可阅读完整内容，剩余1页未读，立即下载