大规模知识图查询中的RDF图摘要算法研究

40 浏览量更新于2024-01-02 收藏 3.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 2（2022）100082用于查询大型知识图的Emetis Niazmanda，b，Gezim Sejdiuc，Damien GrauXd，Maria-Esther Vidala，ba莱布尼茨科技大学图书馆信息中心，德国b汉诺威莱布尼茨大学，Welfengarten 1B，汉诺威30167，德国cSmart Data Analytics，波恩大学，德国波恩dInria，蔚蓝海岸大学aRT i cL e i nf o保留字：知识图摘要图SPARQL评价嵌入模型分布式上下文a b sTR a cT知识图（KGs）集成异构数据，但一个挑战是开发有效的工具，允许最终用户从这些知识源中提取有用的见解。在这样的上下文中，在保留所有信息的同时减小资源描述框架（RDF）图的大小可以加快查询引擎的速度通过限制数据传输，特别是在分布式设置中。本文提出了两种RDF图摘要算法：基于查询的摘要算法（GBS）和基于查询的摘要算法（QBS）。后者是前一种方法的优化和无损的方法。我们实证研究的有效性，建议无损RDF图摘要检索完整的数据，通过重写RDF查询语言称为SPARQL查询较少的三重模式使用语义相似性。我们在四个不同大小的数据集上进行了实验研究。与在原始RDF图上执行的最先进的查询引擎Sparklify相比，QBS查询执行时间减少了80%，汇总的RDF图减少了99%。1. 介绍在过去的几十年中，链接数据集（这些数据集的结构遵循W3C的标准资源描述框架RDF（Manola，Miller，McBride et al.，2004），并从更通用的KG（如DBpedia）共享各个领域的知识（Lehmann et al.，2015）或WikiData（Vrandecic& Krötzsch，2014）到专门的，例如，SemanGit（Kubitza，Böckmann，GrauX，2019）.在这些类型的源上的实际应用需要开发优化的技术来提取有意义的信息。语义Web社区积极地为RDF管理做出了贡献，并提出了形式主义，例如， SPARQL（ Harris ， Seaborne ， &Prud &'hommeau x ， 2013 ）和 SHACL（Spahiu，Maurino，Palmonari，2018），用于在RDF图上表达查询和完整性约束。此外，近年来，效率也得到了解决，并且已经提出了各种方法;它们包括存储RDF图的方法，例如，集中式（Faye，Curé，&Blin，2012）或分布式（Kaoudi &Manolescu，2015），以及查询RDF图（Vidal等人，2010年）。事实上，查询处理的任务可以变得令人难以置信的COM-当RDF图与大型本体一起出现时，可能会出现知识图中没有实例的本体部分。此外，包括图模式表达式的复杂查询（例如，多并集查询）代表了查询引擎在处理时间方面的挑战（Pérez，Arenas，Gutiérrez，2009）。图摘要是一种通过提供减少冗余数据的图的紧凑表示来解决这个问题的技术（Shin，Ghoting，Kim，&Raghavan，2019）。因此，汇总图&的大小会减小，并且可以设计有效的技术来加速查询处理（Kondylakis，Kotzinos，Manolescu，2019）。RDF摘要已用于查询应答和优化。它已被应用于识别最显著的节点，从数据中发现模式，以及可视化RDF图以快速理解数据（Cebiric等人，2019年）。我们提出了图摘要方法，通过应用词嵌入和图嵌入模型，通过将它们编码为向量来找到最相似的谓词。单词嵌入模型采用自然语言处理（NLP）技术来表示数字向量空间中的单词（Jurafsky Martin，2009）。用于将文本信息和社会媒体数据（如推文句子）转换为矢量格式的数字权重的单词嵌入模型。他们在特定领域进行研究，以解决实际问题，例如*通讯作者。电子邮件地址：Emetis. tib.eu（E. Niazmand），sejdiu@cs.uni-bonn.de（G.Sejdiu），damien.grau inria.fr（D.GrauX），Maria. tib.eu，vidal@l3s.de（M. E.维达尔）。1截至2021年8月，LOD云收集了大约1512个数据集，共享413，734，019，304个RDF三元组。https://lod-cloud.net/。https://doi.org/10.1016/j.jjimei.2022.100082接收日期：2021年11月25日;接收日期：2022年4月13日;接受日期：2022年5月16日2667-0968/© 2022作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表国际信息管理数据杂志见解期刊主页：www.elsevier.com/locate/jjimeiE.尼亚兹曼德湾Sejdiu，D. Graux等人International Journal of Information Management Data Insights 2（2022）1000822如Neogi，Garg，Mishra，&Dwivedi（2021）和Mishra，Urolagin，Jothi，Neogi，&Nawaz（2021）。有更多的用例使用单词嵌入模型来表示文本单词的向量。Chauhan&Palivela（2021）提出了一个框架，可以提高对假新闻和真实新闻的检测。该框架使用神经网络和标记化方法。标记化方法已被提出用于特征提取或向量化，其将标记分配给词嵌入。单词嵌入模型也可以应用于RDF图，RDF2Vec是Ristoski Paulheim（2016）提出的一种示例性方法&。我们的目标是提供一个算法，其中一个总结的RDF图组RDF三元组组成的相似的谓词，相似度矩阵计算的嵌入确定这种相关性。SPARQL查询基于汇总的RDF图重写。因此，查询执行时间减少，而答案的完整性最大化。我们的目标是实现以下研究目标：• 摘要在减少RDF图大小中的作用。• 摘要对查询处理的影响。提出了两种基于查询的摘要方法：基于查询的摘要方法（GBS）和基于查询的摘要方法（QBS）。GBS减小了RDF图的大小，QBS考虑图摘要的标准以将SPARQL查询重写为具有较少的三元模式但具有等价答案的查询我们的查询重写技术诉诸语义相似性指标，以确定相关的谓词在一个SPARQL查询的三重模式，并取代他们与一个谓词，代表所有的。QBS具有以下期望的特性：a）紧凑性：图汇总通过仅考虑与给定SPARQL查询相关的RDF图的一部分而提供与原始RDF图相比更少的节点和边;b）无损查询处理：通过将查询转换为简单的查询，基于相似性度量，通过在汇总的图上查询而返回与原始图相比相同的答案;以及c）低成本查询处理：加速在汇总的RDF图上的查询处理。评估GBS和QBS性能; Sparklify组件（Stadler，Sejdiu，Grau X，&Lehmann，2019）用作 SANSA堆栈的默认查询引擎（ Lehmann 等人， 2017 年）。Waterloo SPARQL Diversity Test Suite （ Wat- Div ）基准生成器（ Zhao ， Hartig ， Özsu ， Daudjee ， 2014 ）用于生成两个 RDF 图（WatDiv.10M和WatDiv.100M）和查询;研究中还包括实体摘要基准ESBM（Liu，Cheng，Gunaratna，Qu，2020）和DBpedia2的转储。我们报告20个查询的执行时间加速高达80%。观察到的结果是有希望的，并提供证据，我们提出的方法特别是，这项工作的贡献如下：• 图摘要能够减少查询处理中所需的RDF三元组。• RDF图摘要引导的查询重写技术。这些技巧确保了答案的完整性。• 对最先进基准的实证研究。观察到的结果表明，减少冗余信息的一个RDF图的一部分，执行SPARQL查询的积极影响本文的其余部分组织如下：在第2节中，我们回顾了RDF摘要领域的相关研究。第3节提出了一个深入的例子来说明我们的挑战。第4节介绍了我们提出的方法。我们的实证评估的方法和结果报告在第5节。我们在第6节中提到了我们的讨论。最后，在第7节中，我们总结并提出了接下来要解决的挑战2https://wiki.dbpedia.org/。2. 相关工作图摘要技术可以减小图的规模，加快图的查询计算速度，并有助于图的可视化和分析。此外，它还提供了语义搜索，降低了计算复杂性。我们分析了现有的方法，RDF图汇总和查询处理汇总RDF图。2.1. RDF中的图形摘要图数据库使用图结构将实体表示为节点，将它们的关系表示为图的边Bourbakis（1998）。图数据库中数据的增加使查询处理变得复杂。摘要技术是一种克服图数据库中搜索查询复杂性的方法（LeFevreTerzi，2010）。图求和已经被研究用于半结构化图数据模型，例如XML（Qun，Lim，Ong，2003）和RDF图。在这一领域有许多实验来压缩RDF图，其结构是从原始RDF图计算的，使得原始图中存在的所有路径也存在于摘要图中（ Bonifati ， Dumb- rava ， &Kondylakis ，2020）。这些技术可以分为四类，如下所示（Cebiric等人， 2019年）：2.1.1. 结构方法该摘要方法考虑了结构化RDF图。遵循该方法的一种摘要技术是由Zhang，Duan，Yuan，Zhang（2014）提出的RDF图的自适应结构摘要（ASSG）&。它压缩了RDF图的一部分，这是考虑到一个集合的查询。这种技术需要一些用户选择的查询来构建摘要图.通过只压缩由用户查询组成的部分，减少了边和节点的数量。这种技术只考虑RDF图的结构，而不是从语义的角度考虑。本文提出的基于查询的摘要方法是基于一个类似的方法，但同时考虑结构和语义。实际上，具有相同标签和等级的节点被分配在相同的等价类中。图数据中的每个等价类都有一组节点、节点的秩和节点的标签因此，图数据被划分为一些等价类。因此，压缩后的图与原始图相比具有更少的节点和边Gurajada，Seufert，Miliaraki，Theobald（2014 b）的方法使用结构化方法来总结RDF图，并通过依赖于存储在系统内的RDF图的总结来研究TriAD（Gurajada，Seufert，Miliaraki，Theobald，2014 a）中的高效查询处理，TriAD是一种分布式RDF数据管理引擎。Sydow，Pikula，Schenkel（2013）提出的另一种方法显示了基于用户选择的实体选择RDF图的最重要部分的问题。这种方法让系统生成一个关于选择性实体的事实摘要，这与本文提出的基于查询的摘要方法接近2.1.2. 模式挖掘方法此方法发现模式以构建摘要图。例如， Zneika ， Lucchese ，Vodislav，Kotzinos（2016）提出了一种通过挖掘一组近似图模式并计算每个模式覆盖的实例数量来总结RDF图的方法。然后，它将模式转换为描述知识图内容的RDF模式。在这种情况下，查询的评估是在汇总图而不是原始图上完成的。此外，Karim，Vi- dal，&Auer（2020）提出的计算方法识别频繁星模式以生成RDF图的紧凑表示，其中频繁星模式的数量最小化。2.1.3. 统计方法该摘要方法遵循基于频率的观点来摘要图形。Zhu，Ghasemi-Gol，Szekely，Galstyan，Knoblock（2016）的工作提出了一种称为CoSum的技术，其中多个E.尼亚兹曼德湾Sejdiu，D. Graux等人International Journal of Information Management Data Insights 2（2022）1000823类型图作为输入，输出是超图。CoSum被分配给统计RDF摘要类型;它以基于频率和定量的方式生成摘要图。作者认为，通过对具有相同类型的节点进行聚类，可以利用CoSum技术对图进行汇总。基于语义的求和方法将具有相同谓词和宾语的主语分组的思想然后，每个集群引用由具有相同类型的节点组成的超级节点。这些超级节点通过加权边彼此链接。因此，这种方法的主要目的是自动将对应于同一实体的元素分组，这被称为实体解析（Bennyoun等人，2009年）。一般来说，这种技术试图将k型图转换为另一个k型摘要图，该图由彼此链接的超级节点和超级边组成CoSum作为一种求和技术，为解决以下问题提供了一种解决方案：i）将RDF图建模为多类型图，将集合实体归结为多类型图的摘要问题。（2）提出了一种基于多类型图的协同摘要方法，能够同时识别实体和实体之间的链接关系iii）提供了一个通用框架来接受不同的特定领域知识。在摘要图中，每个超级节点是具有相同类型的一些顶点的组，并且每个超级边将这些节点集群彼此连接。2.1.4. 混合方法该方法结合两个或所有其他类别生成汇总图。例如，Zheng等人（2016）提出的摘要方法是混合RDF摘要方法，因为它同时考虑了结构和模式来构建摘要图。2.2. 语义搜索和查询处理出于简化由一些查询的联合组成的查询的目的，Zheng等人（2016）开发了一种基于相似性搜索的解决方案。这意味着不使用多个查询的联合为了得到完整的答案，只需要使用单个或更少的查询并就可以得到正确的、与多并查询相同的结果。我们的工作共享相同的观察：减少SPARQL复杂性可以实现由于摘要技术。这种技术包括结构和语义相似性。由于查询在结构上可以不同，但它们具有相似的语义，因此引入了语义路径替换等操作语义路径替换操作是通过挖掘结构模式来用边替换路径。通过保留语义等价的实例，提供语义实例字典来挖掘语义图模式。最后，通过语义路径替换重写给定的查询图，得到一组语义等价的查询。此外，基于这些操作，Zheng et al.（2016）定义了一种称为语义图编辑距离（sged）的相似性度量。Sged测量将一个子图转换为另一个子图的成本。然后，如果从RDF图中提取的子图具有最小的基于sged的转换成本，则将选择这些子图来提供摘要图。3. 挑战和动力大型RDF图的高效查询处理是数据管理的主要挑战之一。我们用两个例子来激发这个数据管理问题，并用一个真实的用例来说明- RDF图大小对执行时间的影响。图1a描绘RDF图的一部分，其中实体通过属性相关。它包括语义相似的属性（例如，，和��，��）。让我们考虑一种图形摘要方法，graph. 已经进行了一些工作用于将具有相似语义意义的元素分组，例如，Singh，Devi，Devi，&Mahanta（2022）提出了一种方法，通过使用GloVe评估单词之间的相似性来对具有相似语义含义的术语进行分组（Pennington，Socher，&Manning，2014）。将该方法应用于图1a中的RDF图的结果在图1b中示出。此外，图Ic呈现了图Ic中的RDF三元组的RDF序列化。 1 a和b。DBpedia的一部分由2047个RDF三元组组成，如图2a所示。节点和边表示为椭圆形和矩形，重新命名。该数据集有1000条边和510个节点。该图还提供了一个包含四个三元组模式的SPARQL查询。此查询的评估将检索五个答案，这些答案对应于德国人的姓名，或具有德国国籍，或出生或死亡于德国Sparklify查询引擎3在19秒图2b和c描绘了按照前面描述的两种图摘要方法计算的摘要RDF图上的执行时间。图2b中的结果表明，通过朴素方法在汇总图上执行SPARQL查询，即使产生所有结果，也可能是昂贵的。该方法将具有相似边的源节点和目标节点分组在174个子图中。因此，在汇总的RDF图上的查询处理需要43秒。给出五个答案。或者，可以在查询处理期间完成图形汇总。一种优化的基于查询的图求和方法可以识别应答查询所需的RDF图的部分，然后它仅对原始RDF图的这一部分进行图2c中的结果显示了通过优化方法在具有16条边和17个节点的汇总RDF图上执行的查询;它在5秒内检索到所有5个答案。图2中的RDF图由Cytoscape4生成。图图3a给出了图2a中的DBpedia的一部分的紧凑表示，该部分需要回答图3b中的SPARQL查询。该图属性deathPlace保留在压缩查询中，因为它在语义上与其他属性不相似。这种紧凑的建模减少了RDF图的大小，并能够将查询重写为具有更少三元组的查询。 3 B. 因此，重写的查询执行时间减少到5秒，同时产生完整的五个答案。这些例子说明了高效摘要技术在RDF数据管理中的相关性。在第4中，我们解决了这个问题，并描述了摘要技术，能够减少RDF图的大小，并加快在汇总图上的查询处理过程中的执行时间。4. 研究问题和拟议办法在本节中，我们讨论在求和RDF图上的查询处理问题此外，我们引入了重要的初步定义，并通过提出两种方法（朴素和优化）来提供解决方案，用于在不丢失必要信息的情况下总结RDF图4.1. 问题陈述摘要技术最小化了RDF图的大小，这有助于优化查询处理。同时，在摘要过程中要考虑到保存所有需要的基于语义相似性度量的图求和是解决大型RDF图查询处理的一种本节介绍了利用RDF图中编码的知识、相似性度量和SPARQL查询的技术;它们生成可根据其处理查询的为了说明使用相似性度量来确定相关性的相关性，考虑Zhu et al.（2016）在图中分组相似的实体和属性。一个组的所有元素（即，实体或属性）被概括为一个元素（即，一个实体或属性），3 http://sansa-stack.net/sparklify/。4http://www.cytoscape.org/。E.尼亚兹曼德湾Sejdiu，D. Graux等人International Journal of Information Management Data Insights 2（2022）1000824Fig. 1. 激励EX样本（紧凑性）。(a)一个RDF图，表示具有相似属性的实体;（b）RDF图的无损摘要，保留主要信息;（c）绿色方框中与RDF图相关的三元组被总结到黄色方框中的较小部分。(For参考文献的解释如欲在此图例中着色，请参阅本文的网页版本图lb;其总结了图la中的RDF图的相关或相似的边。相似性度量是给定两个实体关联范围[0.1]中的值的函数，该值指示输入实体的相似性度量依赖于各种属性实体（ 101i和 102j）：_( 1i, 2j)=cos( )=201i.202j|1i||2j|（一）来估计相似性。4.2. 预赛给定两个类 1={ 11，��12，...，1 n}和 2={ 21，��22，...，其中 1i和 2j分别是类 1和 2中的实体。这两个类之间的语义相似性定义为��：对于所有的（1i，2j）对在1X2中的集合，你好！= 2j。因此，两个类彼此相似，当且仅当类1中的一组实体类似于类2中的一组实体（Jatnika，Bijaksana，&Ardiyanti，2019）。此外，这些实体不应相同。相似度的值等于所有实体对的语义相似度值的平均值。度量相似性的度量之一是余弦相似性;它通过从两个向量之间的角度寻找余弦值来计算两个n维向量之间的相似性。类中的实体通过模型转换为向量，以计算它们之间的角度。余弦相似度的值在0和1之间。如果该值接近1，则意味着实体彼此更相似和通过概念嵌入向量间的余弦关系来度量语义相似度和相关度的嵌入模型有很多这些方法中的一些专注于称为词嵌入的术语由Mikolov，Chen，Corrado，Dean（2013）提出的Word2Vec作为词嵌入模型用于这项工作中，以基于术语生成概念句嵌入Word2Vec模型将词转化为低维的词嵌入，并基于公共背景知识库中编码的上下文知识，借助小型神经网络计算这些词嵌入。此外，为了计算单词嵌入，Word2Vec模型计算表示这些嵌入的这些低维向量之间的角度的余弦。Word2Vec模型采用余弦相似度作为寻找相似词的度量。为了找到相似的单词，可以使用基于gensim库5的训练Word2Vec模型。词嵌入的主要前提是具有相似意义的词应该具有相似的表示。有许多实体和关系在语义上是相似的，但它们在知识中的表现是不同的。如果该值更接近0，则意味着实体之间的相似性更小。在下文中，公式示出了集合5之间的语义相似性https://radimrehurek.com/gensim/models/word2vec.html。E.尼亚兹曼德湾Sejdiu，D. Graux等人International Journal of Information Management Data Insights 2（2022）1000825图2. 激励EX样本（EX时间）。(a)SPARQL查询在19秒内从原始RDF图中检索到5个答案;（b）汇总的RDF图通过朴素方法在43秒内检索相同的答案;（c）优化方法在5秒内检索相同的答案边图因此，通过额外的训练数据来考虑上下文是生成上下文化的词嵌入的重要任务。在运行的示例中，Word2Vec用于确定属性country、nationality和birthPlace是否相关和相似。相似性值可以指导RDF图中属性的汇总，并允许SPARQL查询的转换。图3示出了转换后的SPARQL查询。转换后的SPARQL查询虽然更简单，但同时，有许多应用程序中的数据表示的形式的图形，这需要图形嵌入。Ristoski ， Rosati ， Noia ， Leone ， Paulheim （ 2019 ）提出的RDF2Vec作为图嵌入模型用于学习关系的上下文。在RDF知识图的情况下，考虑实体和实体之间的关系，而不是单词序列。首先，图数据被转换成实体序列;它可以被认为是使用两种不同方法的句子，即，图行走和Weisfeiler-Lehman（WL）子树RDF图内核。使用这些传感器-因此，RDF2Vec训练相同的神经语言模型，将RDF图中的每个实体表示为潜在特征空间中的数值向量。建立在现有的结果图嵌入和总结，我们提出了两种方法来总结RDF图。第一种称为基于语义的摘要（GBS）方法;它基于对具有相同谓词和对象的主题进行分组来总结RDF图第二个是为第一个优化的，称为基于查询的摘要（QBS），只考虑RDF图中与SPARQL查询相关的部分。其次，详细定义了GBS和QBS。4.3. 一种简单的RDF图一个基于XML的摘要（GBS）的方法，能够减少RDF图的大小代表我们的天真的方法。GBS分为两个阶段：在线阶段和在线阶段。图 4两个阶段都显示出来了。的E.尼亚兹曼德湾Sejdiu，D. Graux等人International Journal of Information Management Data Insights 2（2022）1000826⟨⟩⟨⟩⟨⟩图三. 一个总结的RDF的例子。(a)RDF图只考虑一个最相似的谓词，在5秒内返回5个答案。回球通过减少RDF数据集中三元组的数量，在不知道模式和所有谓词的情况下在更短的时间内得到相同的答案;（b）在与原始RDF图相比，通过将转换后的SPARQL查询作为简单查询应用于汇总的RDF图，可以节省时间图第四章建议的基于XML的摘要（GBS）方法的摘要图架构分为两个阶段（简单方法）。ODBine阶段的输入是已经被加载为RDF图的RDF数据集，并且输出是语义摘要图。对于在线阶段，输入是从在线阶段生成的摘要图、SPARQL查询和语义相似性度量，输出是将查询转换为具有较少三重模式和最终答案的查询。在算法1所示的OCININE阶段中，应预处理数据所有的边和顶点都从RDF图中读取如前所述，目的是提供语义摘要图，而不会丢失所需的信息。在接收到数据集作为输入（步骤1）之后，加载RDF图（步骤2）。然后，RDF图被扩展以找到新的关系，这些关系在原始RDF图中已经不可用，但它们具有相似的语义含义。这种扩展是通过计算RDF图中属性的传递闭包来实现的推理层用于提取新知识。为了从当前的知识库中推断新的事实，应用推理规则。传递闭包（TC）是推理规则之一，在这项工作中被用来推断更多的事实。部署在例如，在给定的原始RDF图中，实体德国和国家之间没有关系。如图5所示，通过应用TC推理规则，新的三元组Germany，type，Country已经从现有三元组Germany，type，EuropeanCountry和EuropeanCountry，subClassOf，Country中推断出来。由于原始RDF图通过应用具有更多三元组的推理规则而扩展，因此可以同等地回答国家和德国的查询传递闭包（TC）推理规则被部署在图中，以便找到更多的事实（步骤3）和扩展RDF图。在（步骤4）中，利用新属性生成推断的RDF图。需要识别具有相似谓词和宾语的主语，以找到超级节点（SN）。为了存储来自海量数据的结果，使用内存中的Spark弹性分布式数据集（RDD）（步骤5）。弹性分布式数据集（RDD）是Apache Spark的核心6顾名思义，RDD是一个弹性的、分布式的、不可变的数据集合，这些数据被划分在一个机器集群上。在Spark RDD中，一个工作者集群连接到一个驱动程序为了找到更多的事实，在原来的不存在的图表一个.6 https://spark.apache.org。E.尼亚兹曼德湾Sejdiu，D. Graux等人International Journal of Information Management Data Insights 2（2022）1000827算法1：基于语义的摘要（GBS）算法，O线性阶段摘要图。输入：RDF数据集已加载为RDF图（G）输出：语义摘要图（ ′）1G← RDFGraphLoader.loadFromDisk（spark，input，parallelism）;transitiveReasoner.apply（G）;3SN← RDD[（List[Subjects]）] from inferredGraph，其中Subjects具有相似的谓词和对象;/*SN是超级节点列表*4/newTriples←Triple.create（SN，Predicate，Object）;5 Bu数组←new ArrayBu数组（triple.length）;6 foreach（SN，Predicate，Object）∈inferredGraphdo7如果新三元组不存在于缓冲器中，则8Buffer+=newTriples;结束结束9 ′←不10 返回顶部图5. 推理层中的传递闭包（TC）规则示例。或主节点。主节点将负责工作执行，而工作节点执行被拆分然后分发给它们的作业。在Sparklify中，RDF图基于Spark RDD存储和建模，通过快速处理对分布式RDF数据集上的SPARQL查询进行有效评估所有具有共同谓语和宾语的主语被分组。（key，value）对的RDD像（ Predicate ， Object ， List （ Subjects ））一样使用 ; 这类似于Alzheis，Fionda，Khatchadourian，Penguin（2015）提出的技术;它也通过聚类具有相同类型的实体来查找相同的节点。&成对RDD显示操作，例如使用相同键组合和分组值的组合和��这些对的RDD中的每一个都可以被认为是子图。此外，组列表中的受试者被认为是超级节点（SN）。图6以一个简单的例子示出了如何在初始阶段通过GBS算法生成摘要RDF图。例如，所有出生在德国的人都可以被分组并视为超级节点（SN）。从这些超级节点中创建新的三元组及其相关边，并将其添加到缓冲器中（步骤6）。因此，从原始RDF图生成汇总的RDF图在一般情况下，这种汇总图的边和顶点的总数是较少的原始RDF图。因此，将创建汇总图（步骤7）。在生成摘要RDF图之后，目标是具有对应于查询中减少的三重模式数量的完整答案集。在在线阶段中，在（步骤8）中处理多三元模式查询以基于诸如Word2Vec的嵌入模型找到边缘候选的集合（步骤9）。正如第4节所解释的，余弦相似性作为一种度量，用于通过它们之间的距离来寻找相似的谓词。此外，已使用基于gensim的训练模型。在我们的模型中，语义相似的谓词倾向于躺在一起例如，给定的谓语动词��之间的余弦相似度值分别为0.8217、0.8124和0.3672。��在（步骤9）中，选择具有比给定阈值（>0.5）更高的相似性值的边缘。因此，谓语��动词��不能被认为是类似的谓语。相似边被认为是顶点之间的强关系，称为超边。如算法2所示，发现的超边用于将查询转换为简单查询以找到完整结果（步骤10）。词嵌入技术根据边缘之间的距离来考虑边缘之间的相似性因此，在图的大小较小并且谓词彼此更接近的汇总RDF图中，存在所建立的谓词与其他谓词相似的可能性，不仅在距离方面，而且从语义的角度来看。图中的一个简单例子。 7演示了GBS方法的算法如何在在线阶段工作。在（步骤11）中，通过从查询引擎（例如，Sparklify，在摘要RDF图上。在重新检索答案后，观察到一些所需信息丢失。在第5节中，评估结果表明，在GBS方法中查询大型RDF图的求和RDF图返回与在原始RDF图上查询相比，答案的数量更少。为了避免在查询处理过程中丢失信息的问题，我们提出了基于查询的摘要（QBS）方法。4.4. 一种优化的RDF图为了减少RDF图的大小，最优化的方法是基于查询的摘要（QBS）方法。QBS指导总结-E.尼亚兹曼德湾Sejdiu，D. Graux等人International Journal of Information Management Data Insights 2（2022）1000828见图6。基于语义的摘要（GBS）方法示例（在线阶段）。(a)原始RDF图的一部分;（b）使用传递闭包规则扩展图，以找到原始RDF图中不存在的新事实，但它们在语义上是真实的;（c）具有相同谓词和对象的主题被分组以找到超级节点（SN），以使用RDD Spark创建新的三元组，也将不共享相同谓词和对象的节点删除;（d）生成具有较少节点和边的摘要RDF图。基于输入查询的细化过程因此，不是考虑整个RDF图来进行汇总，而是仅考虑与用户查询相关的原始RDF图的部分这一想法受到Zhang等人（2014）的启发。这样，不仅减少了执行时间，而且保留了所有必要的信息。该算法的输入是一个RDF数据集，该数据集已被加载为一个RDF图、一个SPARQL查询和一个语义相似性度量。输出是将查询转换为具有较少三重模式的简单查询和具有最终答案的语义摘要图;它在算法3中呈现。在接收RDF图作为输入并加载它之后（步骤1-与GBS方法不同，该方法不需要生成推理图，而且只考虑图的一小部分，耗时较长与查询有关。因此，RDF图不会像GBS方法那样扩展。在（步骤3）中提取超谓词和超对象之后，生成由具有等于超谓词的谓词或具有等于超对象的对象的三元组组成的子图（Sub-Graph，子图）（步骤4）。基于查询的摘要（QBS）的架构如图所示。第八章在下一步中，将单词和图形嵌入模型应用于该子图以找到边缘候选集。与GBS方法不同，嵌入模型考虑子图而不是整个图。通过这种方法，只有相关的谓词将被发现为相似的（步骤5）。实际上，嵌入模型有助于将查询转换为简单的SPARQL查询。它还有助于通过提取具有等于边缘候选集合的谓词的三元组来找到超主体（步骤6）。通过拥有超级主语、超级谓语和超级宾语E.尼亚兹曼德湾Sejdiu，D. Graux等人International Journal of Information Management Data Insights 2（2022）1000829图7. 基于数据库的摘要（GBS）方法示例（在线阶段）。(a)在训练模型之前，从具有多三重模式SPARQL查询和词汇表的查询阶段生成的摘要RDF图;（b）应用词嵌入模型和图嵌入模型来查找最相似的谓词，通过将最相似的谓词视为超级边缘，将多三重模式查询转换为简单的查询;（c）转换查询与结果。算法2：基于语义的摘要（GBS）算法，在线阶段查询重写。输入：SPARQL查询（Q）;来自算法1的摘要图（′）;词汇表（V）;语义相似度度量输出：转换后的SPARQL查询（查询'）;结果1 初始化训练模型;2V← list_of_vocabulary;3 foreachvocabulary∈Vdo4模型←训练模型;端5 Q.Predicates←从Q中提取的谓词集合;6 对于所有的p∈Q，7个余弦相似度（q，P）>0.5的相似P←谓词q;��8Q.replaceBy（P，representativeOf（synonym_set_of_P））;端9 Q′←Q;10 result. parql（）;11 返回结果从前面的步骤中，在（步骤7）中创建新的三元组，并将其添加到我们的子图（Sub-Graph）中，以生成作为摘要图的最终图（步骤8）。前面发现的超边用于将查询转换为简单查询（步骤9）。由于QBS依赖于用户的查询，因此生成的汇总图包含与查询相关的所有信息。因此，在摘要图上查询转换后的查询将返回所有可能的答案。这是由定理4.1证明的。通过对该摘要图应用简单查询，检索答案（步骤10）。定理4.1. 如果��1和��2是RDF图中的类��，��1是1的域��，��2是2的域��。此外，��根据给定的语义相似性度量，1类似于2。设��′′是QBS方法的紧凑表示��，其中��是用于在′′中表示��1和��2��的性质。以下属性成立：1. “的基数和��(��′′)=��(��)(2)E.尼亚兹曼德湾Sejdiu，D. Graux等人International Journal of Information Management Data Insights 2（2022）10008210图第八章基于查询的摘要（QBS）方法的摘要图架构（优化方法）。算法3：基于查询的摘要（QBS）算法。输入：RDF数据集加载为RDF图（G）; SPARQL查询（Q）;词汇表（V）;语义相似性度量输出：转换后的SPARQL查询（ ''）;摘要图（ ''）;结果列表1G← RDFGraphLoader.loadFromDisk（spark，input，parallelism）;2个超级谓词←Q.getSetOfPredicates;3Super-Objects← Q.getSetOfObjects;4g←三元组包括超级谓词或超级对象;/*g是Sub-Graph*5/初始化训练模型;6V← list_of_vocabulary;7 foreachvocabulary∈Vdo8模型←训练模型;端9 Q.Predicates←从Q中提取的谓词集合;10 对于所有的p∈Q，11个相似集合P←谓词q in g，余弦相似度（q，P）>0.5;12Q.replaceBy（P，representativeOf（synonym_set_of_P））;端13 Q′′←Q;14 tsp← G.getSetOfPredicates.getURI.contains（similar_set_of_P）;/*tsp是一组包含相似谓词s的三元组1*5/Super-Su

下载后可阅读完整内容，剩余1页未读，立即下载