CURARE：云上大数据集合数据库的策划和管理

106 浏览量更新于2023-11-04 收藏 3.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

CURARE：在云加文·坎普引用此版本：加文·坎普CURARE：在云上策划和管理大数据集合数据库[cs.DB]。里昂大学，2018年。英语NNT：2018LYSE 1179。电话：02058604HAL Id：tel-02058604https://theses.hal.science/tel-020586042019年3月6日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaireN°d’ordre NNT :里昂大学博士学位论文他的歌剧l’Université Claude Bernard LyonEcole DoctoraleED 512（InfoMaths）Spécialité de doctorat：学科：信息学Soutenue publiquement le 26/09/2018，par：加文·肯普CURARE：在云上处理和存储大数据集合陪审团组成如下：拉热尔·贝拉特雷什Poitiers特别报告员埃内斯托·埃斯波西保罗和阿杜尔地区大学讲师特别报告员洛朗·多拉齐奥Rennes大学讲师库卡姆·阿布德拉菲阿贝尔福-蒙贝利亚尔技术大学萨利马·哈斯法国里昂大学第一研究所帕里萨·戈杜斯里昂大学1 Co-directrice de thèse热那亚·瓦尔加斯-索拉尔Chargée de Recherches，CNRS Co-directrice de thèse卡塔琳娜·费雷拉·达法国里昂大学硕士学位CLAUDE BERNARD大学-里昂1President de学术委员会主席行政委员会副主席Vice-président du Conseil Formation et Vie Universitaire服务总局局长M.弗雷德里克·弗莱里M.哈姆达·本·哈迪德M. Le Championseur Didier RevelM.菲利普·舍瓦利耶M.法布里斯·瓦莱M.阿兰·赫勒复方散Faculté de Médecine Lyon EstFaculté de Médecine et de Maïeutique Lyon Sud - CharlesMérieux牙科学院Institut des Sciences Pharmaceutiques et BiologiquesDépartement de formation et Centre de Recherche en BiologieHumaine导演：M. Directeur：Mme la Pasteure C. 比里昂导演：M.勒·阿塞尔·D. Directeur：Mme laPasteure C. VINCIGUERRA导演：M.勒·阿塞尔·Y Matillon Directeur：Mme la A-M. SchottComposanites ET Departments DE Science ET LogieFaculté des Sciences et TechnologiesDépartement Chimie BiochimieDépartement InformatiqueDépartement MathématiquesDépartement MécaniqueDépartement PhysiqueUFR体育运动科学与技术里昂大学科学天文台里昂理工里昂理工大学第一研究所高等教授和Institut de Science Financière et d'Asphalt导演：M. F. De Marchi导演：M.勒·阿塞尔·F. THEVENARD导演：Mme C. Felix导演：M.导演：M.勒·阿塞尔·S.AKKOUCHE导演：M.勒埃索尔湾TOMANOV Director：M.勒·阿瑟尔·H本·哈迪德导演：M. Le Quarterseur J-CPLENET Directeur：M. Y. VANPOULLE导演：M. B. GUIDERDONI导演：M.Le Proposeur E.PERRIN Directeur：M. G. PIGNANOW Directeur：M.勒埃索尔角Viton导演：M.勒·阿普西耶尔·A. MOUGNIOTTE导演：M. N. 勒布瓦讷21-41-5关键词：大数据、云服务、数据策展、数据探索和面向云服务的架构总结：用于分散式数据创建的新平台的出现，例如传感器和移动平台，以及Web上开放数据的日益可用性，正在增加组织内部数据源的数量，并带来前所未有的大数据探索。数据策展的概念已经出现，指的是数据收集的维护以及数据集的准备和集成，将它们结合起来进行分析。策展任务包括提取显式和隐式元数据;语义元数据匹配和丰富以增加数据的质量。下一代数据管理引擎应该采用新的理念来促进技术，以应对数据的泛滥。它们应帮助用户理解数据集科学家可以逐步探索数据收集，并在内容和质量达到满意点时停止。我们的工作采用了这一理念，主要贡献是一个名为CURARE的数据收集的策展方法和探索环境。CURARE是一个基于服务的系统，用于管理和探索大数据。CURARE实现了一个数据收集模型，我们建议，用于表示其内容的结构和统计元数据的概念下组织的视图。视图是一种数据结构，它提供数据集合内容的聚合透视图，1-6几个相关的版本。CURARE提供了专注于使用数据分析方法计算和提取视图的工具，以及探索（查询）元数据的功能。利用大数据需要数据分析师执行大量决策，以确定存储、共享和处理数据集的最佳方式，从而从中获得最大的利益和知识。CURARE提供集成在环境中的工具，以帮助数据分析师确定哪些是可用于实现分析目标的最佳集合，而不是手动探索数据集合。我们实现了CURARE，并解释了如何使用数据科学服务将其部署在云上，CURARE服务插在数据科学服务之上。我们已经进行了实验，以测量基于Grand Lyon和Twitter的数据集的计算视图的成本，以提供有关我们的数据策展方法和环境的兴趣的见解。1-7MOTS CLEF：données volumineuses ， services cloud ， curation de collections de données etarchitectures orientées services cloud.简历：L’émergence数据收集的概念涉及数据收集的维护、La tâche de curation inclut儿童教育管理的现代化进程是一种新的教育哲学，它促进了教育技术的发展，使人们能够更好地面对儿童教育的困境。他们开发了一种利用方式，以了解收藏品的内容，并为收藏品的开发提供指导。一个科学家可以探索收集的données pas à pas，puis我们的工作采用了这种哲学和主要贡献，这是一种对知识的保护和探索的方法，我们称之1-8CURARE是一个基于服务的系统，用于治疗和探索关于各种方面和可变性的大量数据。CURARE implémente un modèle de collection de données，que nous proposons，visantreprésenter le contenu structurel des collections des données et les metadonnéesstatistiques.该模式的收集données是组织下的概念vue和celle-ci是一个结构的données谁pourvoit一个角度agrégée的contenu收集données和ses partitions（releases）associées。CURARE pourvoit des outils pour explorer（interroger）des metadonnées et pour extrairedes vues en utilisant des methodes analytiques.利用这些数据需要一个可考虑的数字来判断数据分析的部分，以确定数据的储存、分配和出售的最佳方式，从而获得最大的数据量和数据部分的知识。CURARE是一个专门从事数据采集的工具，它将数据集成到一个数据库中，以帮助数据分析人员分析数据，从而实现数据的客观分析。我们将实施CURARE，并解释如何在云计算我们将继续积累经验，以了解里昂大教堂和Twitter教堂建筑群的建设成本，并通过我们对教堂建筑的兴趣和对教堂建筑的管理来实现这一目标1-9内容表1一、导言. 1-121.1C背景和动机..........................................................................................................................................................................1-121.1.1整理和探索数据收集1-131.1.2面向服务的数据分析1-151.2P-ROBLEM声明和目标.......................................................................................................................................................... 1-161.3一、方法和贡献................................................................................................................................................................... .1-181.3.1数据管理方法1-191.3.2数据管理环境1-201.4组织结构...............................................................................................................................................................................1-202大数据固化即服务-最新技术和基本概念2-232.1BIG DATA定义....................................................................................................................................................................... 2-232.2BIGD ATA生命周期管理........................................................................................................................................................2-282.2.1大数据生命周期管理根据E. CurryEt al. ....................................................................................2-282.2.2大数据生命周期管理根据H. 诉Jagadish 2-312.3BIG DATA固化....................................................................................................................................................................... 2-342.3.1数据管理的要求2.3.2数据采集和清理2-402.3.3内容创建：元数据模型2-492.3.4数据管理的核心2-602.4BIG DATA作为服务............................................................................................................................................................... 2-612.4.1BDaaS参考架构2-652.4.2BDaaS工具2-732.4.3关于BDaaS 2-792.5C结论..................................................................................................................................................................................... 2-803CURARE：面向服务的数据收集体系结构3-821-103.1数据固化过程.........................................................................................................................................................................3-823.1.1数据收集结构元数据3-843.1.2数据收集统计元数据3-853.1.3探索数据收集元数据3-853.2数据库环境：全球建筑....................................................................................................................................................3-863.2.1数据收集和清理服务3-873.2.2分布式数据存储和存取服务3-883.2.3数据处理和勘探服务. 3-903.2.4大数据分析和决策支持服务3-913.3在目标体系结构........................................................................................................................................上部署CURARE3-923.3.1CURARE服务和底层数据科学虚拟机3-923.3.2CURARE数据管理生命周期3-973.4结论......................................................................................................................................................................................3-1004作为数据收集服务的数据处理4-1024.1建模数据收集：一般原则............................................................................................................................................... 4-1024.2P参考：数据类型...............................................................................................................................................................4-1054.2.1原子和复杂数据类型4-1064.2.2功能类型4-1074.2.3关系类型4-1084.3VIEW Model.......................................................................................................................................................................... 4-1094.3.1数据收集. 4-1104.3.2视图4-1134.4操纵视图............................................................................................................................................................................4-1224.4.1相似性4-1234.4.2工会4-1244.4.3十字路口4-1254.4.4差异4-1264.4.5产品编号4-1274.5维护意见............................................................................................................................................................................4-1281-114.5.1插入4-1294.5.2修改4-1304.5.3删除4-1304.6讨论和最后注释................................................................................................................................................................4-1315实施视图模型和实验曲线5-1335.1I视图模型.............................................................................................................................................................................5.1.1创建数据集合........................................................................................................................... 5-1375.1.2创建视图5-1395.2操作视图..............................................................................................................................................................................5-1425.2.1插入、移除和更换项目5-1425.2.2比较和合并视图5-1435.3E实验和用例........................................................................................................................................................................ 5-1455.3.1估计创建数据集合视图的成本5-1465.3.2为存储数据集做出决策5-1525.3.3使用视图做出决策5.4实验......................................................................................................................................................................................5-164简介6结论和展望. 6-1666.1工作和贡献........................................................................................................................................................................... 6-1666.2未来工作和前景................................................................................................................................................................6-1686.2.1构建临时数据管理和探索环境6-1696.2.2基于数据探索的人在回路中6-1696.2.3数据收集和大数据服务市场6-170附录6-1831-121.1背景和动力1引言来自用于分散式数据创建的新平台（例如社交网络、传感器网络、Web开放数据[1]、移动应用程序、物联网（IoT）环境）的大量数据的出现带来了被称为大数据的数字集合，其可用于新模式以重新使用并从数据中提取价值以支持分析、决策、建模和预测任务。大量的各种数据集合增加了维护和利用它们的难度。福布斯[2]估计，到2025年，世界将拥有168 zettabytes的数据，即1021字节。Gartner估计，世界顶级公司中超过25%的关键数据数据湖概念的引入增加了额外的挑战，数据湖是一个集中的存储库，包含几乎取之不尽的原始（或最低限度的管理）数据，随时可供任何有权执行分析活动的数据湖往往会变得越来越大，越来越复杂，以至于有人创造了数据沼泽这个词[4]。数据湖中的数据集合与Edward Curry [5]和NIST [6]等作者为大数据提出的数据集合具有类似的属性。事实上，这些是“难以在单机或传统现成数据库系统上运行的具有数量、速度、种类和/或可变性的数据集合”。因此，根据这些作者[4，5]的说法，大数据运动已经导致了两位作者1-13指的是传统的数据体系结构无法有效地处理新的数据集，从而带来了数据密集型应用程序向并行体系结构的转变。下一代数据管理引擎应该采用新的理念（架构，数据处理和共享模式）来促进技术，以应对大量的观测数据。这些应有助于用户理解数据库的内容，并为探索数据提供指导。科学家可以逐步探索数据收集，并在内容和质量达到满意点时停止。我们的工作采用了这一理念，并解决了数据收集、管理和探索问题，以支持数据科学任务。1.1.1策展和探索数据收集大数据允许用户做出令人惊讶的见解和预测[7]。数据分析的关键原则之一是分析的质量取决于所分析信息的质量。数据策展的概念已经出现，指的是数据收集的维护以及数据集的准备和集成，将它们结合起来进行分析。数据策展是处理数据以维护数据并在其生命周期中提高其兴趣，价值和有用性的艺术，即提高数据的质量。因此，它意味着发现感兴趣的数据集合，清理和转换新数据，将其与其他本地数据集合进行语义集成，并在需要时对所产生的复合数据数据策展提供方法和技术数据管理支持，以解决数据质量问题，最大限度地提高数据用于分析和知识发现目的的可用性。因此，数据策展任务包括提取显式和隐式元数据;语义元数据匹配和丰富以增加数据的质量R. Y. Wang）和雅江翠雀花（D.M. 强大[8]1-14从若干方面描述数据质量，分为四个主要方面：内在性，包括准确性和客观性;相关性，评价数据是否与特定项目相关;表述性，“数据是否可以解释”;可获取性，即数据可以由谁使用有多种原因导致人们不能容易地利用策展的数据集合、数据的类型值未知、无法收集观察值、收集错误）。如果不进一步探索数据集合，这很难知道，但更重要的是数据探索[9]是关于有效地从数据中提取知识，即使我们不知道我们到底在寻找什么。数据探索使用算法和查询来发现数据中的模式。探索和理解数据收集可能是长期和资源密集型的。数据收集内容的定量视图对于向数据分析师提供其内容的汇总视图是必要的。与元数据一起，需要探索技术来遍历数据集合，而不需要逐个分析项目。数据查询的目的是为了得到所有的数据元组，这些数据元组都是关于一个定义的经常，目的是正确和完整地回答一个相关的问题。这意味着了解数据库的内容及其结构。在数字数据收集中，这一点无法保证。用户通常不确定他们想要找到哪些模式，哪些模式可以用来回答他们的问题。数据探索方法正在出现，以帮助数据科学家表达查询，从而帮助他们理解数据集合的内容。1-15数据管理和探索需要使用可以处理数据收集的分析和统计算法。必须考虑到数据收集的特点，即数据收集的数量、速度、种类和准确性，应用这种算法。它们可能需要执行重要的计算资源来管理数据集合并提供探索它们的工具。他们可以依赖于大数据和数据科学平台的当前结果，也可以依赖于云等支持架构，这些架构可以支持执行昂贵的流程，提供必要的计算和存储资源。1.1.2服务定向数据分析云架构提供了无限的资源，可以支持数据收集管理和利用。云计算的基本特征在于按需自助服务、广泛的网络访问、资源池、快速弹性和可测量的服务[10]。这些特性使得设计和实现服务来处理数据收集、处理和使用云资源的探索成为可能。在过去的十年中，利用云计算技术提供智能数据集合管理的问题已经引起了学术研究者，例如，越来越多的关注。P. Valduriez团队在法国[11]，H.诉美国的Jagadish团队[12]或Z.来自中国的Zheng [13]以及Google Big Query、IBM和Thales等行业从业者给定数据集合的不同属性，并给定有时应用于它以提供价值并使其对应用程序有用的贪婪算法因此，运行数据处理和分析任务需要新的数据管理策略，能够应对数据收集的不同特征，即数量，种类和速度;以及数据的准确性，新鲜度和清洁度。将数据管理和探索迁移到云端可以1-161.2问题声明和客观有趣的是，它允许以有效的方式处理大量数据，同时存在无限的和可适应的计算和存储资源。大数据分析在必须集成、存储和处理数据集合时会带来挑战数据收集的多样性使得难以确定是否可以整合、关联和融合在不同条件下收集的具有不同潜在目的的数据收集。此外，数据集合不是静态实体，提供者定期打开并共享具有不同特征的发布（即，尺寸、范围、结构、精度、新鲜度）。例如，Sloan Sky Server Survey1每年都会发布前一年完成的天文观测结果，因此无法访问天文台的人Stack Overflow2和Wikipedia3发布不同大小的数据集，以便人们可以在具有特定计算和存储能力的机器上进行分析。重要的计算、存储和内存资源必须得到有效的管理和提供，以利用和分析数据收集，从而支持智能城市管理人员等目标应用程序从庞大的移动性和交通数据分析中受益，为智能城市、金融市场的试点做出决策，根据交通和环境限制调整交通基础设施，提供在灾难或特殊情况下运送人员的替代策略。1http://skyserver.sdss.org/dr14/en/home.aspx2https：//www.k aggle.com/stackoverflow/datasets3https://meta.wikimedia.org/wiki/Research:Detox/Data_Release1-17在这项工作中解决的问题可以在以下陈述中陈述。给定一组包含具有可变结构和内容的数据集的发布：(1) 计算、发现和推断元数据，这些元数据可以提供汇总视图：数据集的结构知识（例如，表格结构中的属性数量，JSON类文档中的项目模式）;产生数据的条件（例如，传感器的类型、读取频率、生产者的位置、来源），定量知识（例如，属性值分布）;语义知识（例如，表格实体中属性之间的功能、时间和因果依赖关系）。(2) 将计算、推导和发现的元数据分组到数据模型实体中，这些数据模型实体可以组织这些元数据，并简化对数据集合的探索，以做出关于最佳维护数据集合及其相关联的元数据所需的资源的决策，以及关于它们可以被使用和组合以支持分析实现建模和预测任务的方式的决策。本论文的目的是双重的：首先，提出一个数据策展模型，它可以对描述数据集合产生的结构、内容和条件的元数据进行建模。其次，提出一个面向服务的数据策展环境，用于收集、清理、处理数据集合，以用于计算、发现和推断元数据，并存储数据，以支持通过探索操作进行的以数据为中心的实验设计。1-181.3方法和贡献这篇论文是在Parisa Ghodous和Catarina Ferreira da Silva的监督下，在格勒诺布尔信息学院（LIG）和法国-墨西哥信息学和自动控制实验室（LAFMIA）的Genoveva Vargas-Solar的大量合作和贡献下，在图像和信息系统学院博士学位由罗纳-阿尔卑斯地区通过ARC 7计划资助。博士学位是在项目Aggregating和管理Big rE altime数据（AMBED）在云中进行的：应用于智能城市的智能交通。AMBED被称为目的是：掌握概念，方法，工具和技术，如任何服务和业务大数据分析;采用基于多云的面向服务的方法来收集，集成，存储和智能分析数字数据集合。鉴于具有V属性的原始数据收集首先，我们研究了面向服务的架构，并试图确定哪些任务可以分布到单个云服务中来处理数据集合。为此，我们受到了H.V.Jagadish和他的大数据生命周期。我们定义了基于采集、预处理、存储、处理、数据分析和决策支持的服务Harvest专注于从外部收集数据。预处理以隔离的方式运行清洗、初始信息提取存储负责以大数据所需的分布式并行方式存储和操作数据处理会运行1-19一次使用所有数据进行清理和数据管理。数据分析运行特殊的算法，旨在识别数据中可能对最终用户有用的模式。最后，决策支持为最终用户提供了可视化数据的接口，以支持他们的决策。根据我们对这些学术和工业成果的研究，解决数据收集处理，特别是数据策展和探索，我们设计了一种基于视图模型的数据策展方法和部署在云上的基于服务的数据策展环境1.3.1数据固化方法我们提出了一种数据策展方法，旨在支持决策的数据分析师从服务选择到存储管理。这种方法基于一个视图模型，该模型旨在为数据分析师提供有关所使用和可用的数据集的定量信息我们的模型提供了两类概念：数据收集系列旨在将数据集重新组织为我们所谓的发布。这些发布对应于由源定期产生的数据。这个想法是维护一个结构，帮助跟踪数据收集如何随着时间的推移而演变。数据视图系列旨在为数据分析师提供有关发布所提供的数据集内容的重要统计信息。这个想法是为了帮助数据分析师探索数据集的内容，并概述数据集中的数据类型两个属性的纬度和经度值可用于确定在同一记录的第三个属性中声明的位置的名称。

下载后可阅读完整内容，剩余1页未读，立即下载