巴黎多菲纳大学和马努巴大学编写的用于丰富服务湖中用户数据源的基于质量的数据集成

106 浏览量更新于2024-02-03 收藏 2.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

在巴黎多菲纳大学和马努巴大学编写用于丰富服务湖中用户数据源的基于质量的数据集成支持者希巴·阿里利2019年11月27日第543号研究生院多菲纳的ED专业性信息学评审团组成：Djamel BENSLIMANE里昂克劳德·伯纳德大学教授1报告员Genoveva Vargas-Solar教授，格勒诺布尔-阿尔卑斯大学报告员Zoubida Kedad教授，凡尔赛大学检查员迪米特里斯·科齐诺斯教授，塞吉-蓬图瓦兹大学丹妮拉·格里戈里教授，巴黎多菲纳亨达·哈吉贾米·本·盖扎拉教授，马努巴大学评审团主席主任主任Khalid Belhajjame巴黎多菲纳共同监督里姆·德里拉马努巴大学助理硕士共同监督确认书如果没有许多人四年来的支持，这篇论文就不会存在。首先，我想对我的导师Khalid Belhajjame、Rim Drira、Daniela Grigori和HendaHajjami Ben Ghezala表示衷心的感谢，感谢他们允许我完成这篇论文。感谢您耐心监督这项工作，您的建议，您的见解和许多小时的时间来帮助这项工作。感谢你对改进我的写作的无尽耐心，感谢你对章节草稿的评论，感谢你为清晰简单地解释事情所做的巨大努力。我谦卑地感谢LAMSADE实验室的教职员工，感谢他们所有的科学支持、友谊和鼓励。特别是，我想感谢朱丽叶·鲁奇耶、乔伊斯·埃尔·哈达德和福里尼·法比奥在我论文的每一年里对我进步我感谢我在LAMSADE和RIADI的同事们，感谢他们令人振奋的讨论，感谢我们在最后期限前一起工作的不眠之夜，感谢他们的鼓励和道义上的支持，感谢我们在一起度过的所有美好和糟糕的时光。我特别感谢我所有的大学外朋友，感谢他们的友谊、支持和他们在我生活中扮演的重要最后，也是最重要的，我要感谢我的父母和兄弟们的坚定支持、爱和耐心。我把这部作品献给他们。2认可摘要在大数据时代，公司正在从传统的数据仓库（使用昂贵且耗时的ETL（提取、转换、加载）程序）转向数据湖，以管理其不断增长的数据。但是，由于数据的不断产生，存储在公司数据库中的知识，即使是在构建的数据湖中，也永远不会是完整的和最新的本地数据源通常需要用来自外部数据源的信息来增强和丰富不幸的是，数据丰富过程是专家们进行的手工实验之一，他们通过根据自己的专业知识添加信息或选择相关数据源来丰富数据，以补充缺失的信息。这样的工作可能是乏味、昂贵和耗时的，使其非常有希望实现自动化。本文提出了一种以用户为中心的主动数据集成方法，用于自动丰富本地数据源，其中使用数据服务从Web源中动态利用缺失的信息我们的方法允许用户查询有关数据源模式中未定义的概念的信息在这样做的过程中，我们考虑了一组用户偏好，如成本阈值和计算所需答案所需的响应时间，同时确保获得的结果质量良好。本文的第一部分描述了用处理用户数据查询所需的概念来丰富数据源的模式。为了做到这一点，我们开发了两种算法。第一个允许识别缺失的数据，更具体地说，是用户查询所需的缺失概念和相关属性，但不是由其数据源提供的第二种算法通过添加由第一种算法确定的缺失元素来丰富用户数据源的模式在论文的第二部分，我们展示了如何利用服务湖来丰富本地数据集。我们提出了一种新的基于质量的服务组合方法，以确定可用于填充缺失数据的相关数据服务。4摘要信息。在这样做的过程中，我们采用了本地即视图数据集成技术。此外，我们还开发了一种基于Knapsack的算法，以选择在不超过给定预算（时间和货币成本）的情况下产生良好质量结果的服务检索到的信息无缝、透明地集成到本地数据集中。以下部分解决了不同数据服务提供的数据类型与本地数据源中此问题是在选择和组合相关数据服务以回答用户查询时面临的主要问题之一我们建议通过本地数据源模式中的关系为Service Lake中可用的所有数据服务定义视图。第一步涉及COMA++在本地数据源的模式和数据服务的输入/输出参数之间计算的使用在第一步中获得的匹配，第二步自动创建节点/边缘加权图，描述本地数据源的模式，使得节点的权重表示节点属性上的聚合匹配分数。然后，我们研究在图中至少一次找到包含所有服务参数的前k个最小成本连接树我们通过探索斯坦纳树来做到这一点。最后但并非最不重要的是，我们的贡献，MoDaaS，提出了一个模型驱动的框架，用于建模和描述数据服务和DaaS服务。我们开发MoDaaS是为了鼓励提供商采用标准模型，根据共享本体对其服务的功能和关注点进行建模，从而使他们能够自动生成服务视图，以支持异构服务之间的关键词：以用户为中心的数据集成、数据供应服务湖、架构丰富、数据服务、数据即服务（DaaS）、服务视图、组合、编排、数据质量、服务质量（QoS）、查询处理、用户首选项、 Steiner 树、云计算、语义注释、域本体、模型驱动工程（MDE）、重用和专业化摘要如今，大量因此，对于希望存储数据的公司来说，与昂贵且耗时的传统数据仓库（需要ETL方法）相比，数据湖已成为一种有吸引力的尽管数据量很大，但存储在公司数据湖中的数据往往不完整，甚至无法根据用户的需求（查询）进行更新因此，需要丰富本地数据源此外，网络上可用信息源的多样性和数量的扩展使得实时数据提取成为因此，为了允许以简单且可互操作的方式访问和检索信息，数据源越来越多地更具体地说，它是在此背景下，我们提出了一种新的以用户为中心的数据集成方法主要目标是通过数据服务从Web（也是云）提取数据来这将允许满足用户的查询，同时尊重他们在执行成本和响应时间方面的偏好，保证所在论文的第一部分，我们描述了用处理用户数据查询所需的新概念丰富本地数据源模式的过程此过程基于我们开发的两种算法第一种算法用于6总结本地来源。第二种算法然后，我们演示了如何利用服务湖来丰富本地数据源在此背景下，我们提出了一种新的、以质量为导向的服务组合方法，以特别是，我们采用了LAV（本地即视图）方法进行数据集成，并为相关服务的选择提供了背包问题的解决方案因此，检索到的数据以可转换的方式集成到本地数据库中。为了解决从不同服务返回的数据与存储在本地数据源中的数据之间可能存在的异构性，我们建议根据本地模式的关系来定义服务视图。第一步基于COMA ++计算的数据源和相关数据服务之间的匹配结果。给定所获得的映射，在第二步中创建加权图然后计算斯坦纳树的顶k最后，我们介绍了MoDaaS，它是一个用于数据服务（尤其是DaaS服务）建模和描述的平台我们开发MoDaaS是为了鼓励提供商采用标准模型，根据共享本体对其服务功能进行建模，从而使他们能够自动生成服务视图。关键词：以用户为中心的数据集成扩展摘要如今，大量因此，对于希望存储数据的公司来说，与昂贵且耗时的传统数据仓库（需要ETL（提取-转换-加载）方法）相比，尽管数据量很大，但存储在企业数据湖中的数据通常不完整，甚至无法根据用户的需求（数据查询）进行因此，需要丰富本地数据源此外，网络上可用信息源的多样性和数量的扩展使得实时数据提取成为因此，为了允许以简单且可互操作的方式访问和检索信息，数据源越来越多地更具体地说，这些是数据服务，包括云计算的DaaS（数据即服务）服务。本地源的手动丰富涉及几个简单的任务，例如识别相关服务、提取和集成异构数据、定义服务到源的映射等。更具体地，我们考虑这样的场景，其中用户（例如雇员）希望查询本地数据集，而该数据集不包含对所有用户查询的完整响应该数据集可以是任何格式（例如，CSV文件、XML文档、关系数据库或RDF图形）。通常，本地数据集需要用来自外部数据源的信息进行考虑一个包含以下关系表的数据集，其中带下划线的属性表示主键。我们假设个人、作者和书籍都是由他们的标识符唯一标识的。authorID外键引用一个人，8扩展摘要从作者表。关系图个人（个人身份证、姓氏、出生日期、国家/地区）作者（作者ID、姓名、大学、电子邮件、域）图书（ID、标题、作者、主题）外部键表作者：作者ID引用人员的个人ID图书：作者引用作者的作者ID现在考虑一个用户，他熟悉 J.问题1：从书中选择标题和主题。问题2：选择？iSBN，标题从书中何处主题=JWeb服务J.问题3：选择标题，作者，？来自出版商？出版商，在哪里预订？出版商. ？名称=图书。？出版商。L’exécution de 然而，不能仅基于用户输入的本地数据库来完全评估查询Q2和Q3原因是该数据集没有提供评估这些查询所需的所有元素ISBN和编辑器值不存在于任何本地数据库此外，Publisher表不同的服务可以提供这样的信息。此外，单个服务并不总是保证完全响应用户的请求，这使得组合多个Web服务变得至关重要。Web服务是异构的，通常独立于使用它们的上下文而构建。这会导致几个兼容性问题（语法、结构或语义）。因此，异构服务的这种广泛可用性使得选择和组合服务的过程成为一项重要的任务。幸运的是，数据通常与扩展摘要9根据某些标准（例如，质量、成本、保密性和安全性等）必须明确地描述和建模，以便能够选择满足用户偏好的最佳服务。C’est 主要目标是通过数据服务从Web（也是云）提取数据来这将允许满足用户的查询，同时尊重他们在执行成本和响应时间方面的偏好，保证所在第一部分中，我们描述了用处理用户数据查询所需的新概念来丰富本地数据源模式的过程此过程基于我们开发的两种算法第一种算法用于第二种算法然后，我们演示了如何利用服务湖来丰富本地数据源在此背景下，我们提出了一种新的、以质量为导向的服务组合方法，以特别是，我们采用了LAV（本地即视图）方法进行数据集成，并为相关服务的选择提供了背包问题的解决方案因此，检索到的数据以可转换的方式集成到本地数据库中。为了解决从不同服务返回的数据与存储在本地数据源中的数据之间可能存在的异构性，我们建议根据本地模式的关系来定义服务视图。第一步基于COMA ++计算的数据源和相关数据服务之间的匹配结果。给定所获得的映射，在第二步中创建加权图然后计算斯坦纳树的顶k最后，我们介绍了MoDaaS，它是一个用于数据服务（尤其是DaaS服务）建模和描述的平台我们开发MoDaaS是为了鼓励提供商采用标准模型，根据共享的本体（即他们的服务特性）对其服务特性进行建模。10扩展摘要这允许您自动生成服务视图。EuDaSL：用户数据源的自动丰富系统数据提供服务湖在本文中，我们引入了一种新的范式，我们称之为数据提供服务湖或数据服务湖，类似于数据湖。图1数据服务湖或简称服务湖是异构数据Web服务的存储库，提供对高质量信息的按需和实时访问。返回的数据以其原始格式从Web源中提取，并按原样存储在原始数据中。L’idée因此，我们不是将从不同异构源检索到的数据放入专门设计的数据仓库中，而是将其移动到湖中，以便稍后进行分析。这将促进和动态地丰富用户数据源，以便完全响应和满足用户的数据查询，同时消除初始成本和数据摄取。扩展摘要11全球架构图3.4显示了我们的数据集成系统的整体架构，我们称之为L’architecture de EuDaSLest composée principalement de quatre composants图2通过一组数据查询实现富集过程中在一个数据查询甚至一组查询之后，我们的系统必须确定查询的哪一部分（概念和关系）不能被满足，因为一旦确定了所有缺失的概念和关系，系统就会在数据源的模式中定义它们然后，它继续识别候选数据Web服务--既要提取此信息，也要12扩展摘要通过调用所选的Web服务，最后将提取的除其他事项外，我们的系统必须允许在单个Web服务无法提供所需信息的情况下组合不同的数据服务图3.5按以下顺序说明了拟议整合过程的不同阶段图31) 确定用户正在寻找但在输入的数据源中没有的2) L’enrichissement3) L’identification des services de données pertinents permettant de fournirl’information4) 重新制定用户请求以包括对所选数据扩展摘要135) L’exécution6) 最后，将所有这些步骤都是乏味的任务，并且手动执行它们需要大量的时间、精力和专业知识。我们的方法使这些任务所需的工作具有成本效益，并降低了编程复杂性，同时保证了最低的执行成本和更高的结果质量。缺失数据的识别（缺失数据）在我们的方法中，数据源被表示为架构图是表示数据源架构的有向图（参见图3.1），而数据图表示这种区分对于确保所开发的算法的更好性能是必要的。图414扩展摘要345678如果Qi.概念仅涉及一个概念c，则如果存在对应于c的节点v∶ V，则每个Qiin QDdo将（att，c，'certain'）添加到MissAttributes结束attribute att奏效Qi.不属于v的属性←←图5第一算法（算法6）允许遍历所有用户查询和引入的数据源的模式，算法1：搜索缺失信息要求：QD= Q1，Q2，，Qn是数据查询，GS=（V，E）是模式图保证 MissElts = MissConcepts、MissAttributes、MissRelations1缺少概念、缺少属性、缺少关系2每个Qiin QDdo·扩展摘要15（i）>>概念←（i）>>789如果c已在MissConcepts10前属性Q.属性做11如果（att，concepts，certitude）在MissAttributes中定义为cconcepts，并且certitude将（att，concepts，uncertain）替换为（att，c，13如果在MissAttributes14将（att，c，'certain'）添加到MissProperties15另外将c添加到MissConcepts和Q中的所有属性i.将属性添加到MissAttributes;16其他前概念c>Qi.不具有任何代表性的节点v Vdo17将c添加到MissConcepts18前条件下Q.条件做19获得相关属性-概念对in cond20对于such as（c不是从GS中缺失的，并且att是缺失的）或（c被定义为缺失的概念，而att不是与c相关的缺失属性）do21将（att，c，'certain'）添加22个相关概念c1和c2，它们在GS中没有边e关系23在MissRelations中定义新边缘e=（c1，c2，att1），其中c1表示输出节点，c2是传入节点，att1是该边缘24在Qi.中找到不属于任何c.的属性。并且未被定义为与c相关的缺失属性，如cQi。概念DO2526前C在Qi. 概念DO27计算相关性评分（"a"、"c"）28如果c的相关性得分大于0.5，则29将C添加到概念30将（a，concepts，31;第二算法（算法7）允许·16扩展摘要>>>>算法2：丰富模式图要求：GS=（V，E），MissElts= MissConcepts，MissAttributes，MissRelations保证：GS（富模式图）1foreachc缺少的概念2将标记为"M"的名为c的新节点添加3foreachatt Missattributesdo4foreachc属性.概念do除了在概念c中定义的初始属性之外，还定义了一个新属性，将"String"作为类型，将"Missing"作为状态。6foreachrel MissRelationsdo7向E添加一个新边缘，该边缘从rel.OutNode传出，进入rel.InNode并使用rel.Label标记图3.6显示了图3.1中所示的模式图的丰富示例灰色的节点、属性和停止分别表示新概念、属性和关系，这些新概念、属性和关系对于处理用户提出的数据查询是必不可少的，图6扩展摘要17选择相关数据服务的组成以在本节中，我们将介绍我们选择和组合数据Web服务的方法。第一步是确定哪些候选数据服务可以从本地数据源获取部分或全部缺失数据。第二步允许构建不同的可能组合位置和相应的查询计划，从而允许找到所有期望的信息。最后一步是根据数据质量（QD）和服务质量（QoS）来评估组合的质量，从而选择能够满足数据查询的组合，包括用户约束（例如，响应时间、执行成本相关数据服务的组成给定数据查询Q和由其视图V = v1、v2、...表示的一组数据服务， vi，算法8使得能够识别包含构成查询Q的全部或部分合取的所有候选服务视图。首先，该算法首先检查用户数据源中存在的信息是否首先用于响应查询。Q. 如果本地数据库中缺少某些数据，则算法将继续识别服务湖中数据服务的所有视图，从而返回这些缺少的然后，该算法创建所选服务的所有可能组合。组合应该返回所有缺失的数据集。在下面的内容中，我们将演示如何从服务组合中创建查询执行计划创建执行计划执行计划的创建18扩展摘要→{}←←算法3：识别相关服务视图要求：Q（X）q1（X1）， ... ... ，qm（Xm），CI是一个合取ve查询SV一组服务视图相关视图1，. ... ... 相关视图m1foreveryconjunctqiinQdo2相关视图i3ifqi（Xi）不缺失4存在一个关系nR（Y）thatcorrespondstoqi（Xi）5让M是定义在R（Y）的变量上的映射，如下所示：如果Y是R的第j个变量，则6M（Y）←Xj其中Xj是X i中的第e j7addM（R）to相关视图i8其他人9对于服务视图主体中的每个连词10ifqi=u然后11让M是sv变量上定义的映射，如下所示：ifY是12M（Y）←Xj其中Xj是第ej v变量e13其他14M（Y）是Q或SV中未出现的新变量15addM（sv）to相关视图i可执行文件，其中可以执行所有组件服务图4.2显示了一个执行计划的示例，其中每个节点对应于组合服务的一个操作的调用，弧用于表示 W e b 调用的顺序。图7L’exécution du Plan de requête 一旦服务S2返回值（数据），服务S3将被执行与服务S2返回的数据数一样多的次数。类似地，

下载后可阅读完整内容，剩余1页未读，立即下载