没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报LODQuMa:一个用于关联(开放)数据质量管理的自由本体过程Samah SalemSahan,Fouzia BenchikhaLIRE实验室,Abdelhamid Mehri-君士坦丁第二大学,阿尔及利亚君士坦丁阿提奇莱因福奥文章历史记录:2021年1月23日收到2021年5月31日修订2021年6月1日接受2021年6月8日网上发售保留字:链接开放数据质量评估质量改进同义词谓词分析统计数据DBpediaA B S T R A C T多年来,数据质量是链接开放数据(LOD)中最常讨论的问题之一,这是由于大量的集成数据集通常是异构的。基于本体的质量问题处理方法已经被提出。但是,当数据集缺乏定义良好的模式时,这些方法就会因为缺少元数据而变得无效。此外,没有解决基于RDF(资源描述框架)三元组之间的分析而不需要本体统计和语义信息的质量问题的检测。请记住,本体并不总是可用的,它们可能是不完整的或被滥用的。在本文中,一个新的自由本体过程称为LODQuMa提出了评估和提高LOD的质量。它主要基于分析统计、谓词之间的同义词关系、QVC(质量验证案例)和SPARQL(SPARQL协议和RDF查询语言)查询模板。在DBpedia数据集上的实验表明,该方法能够有效地提高数据集的内在质量维度,从而得到正确、紧凑的数据集。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍在过去十年中,以关联数据1(LD)格式发布的数据集数量从2007年5月的12个数据集增加到2020年5月的1,255个。这种巨大的增长导致了许多结构化数据集在链接开放数据(LOD)云中的集成,例如DBpedia3和Wikidata4。这种公开数据集的主要目的是提供大量的开放数据,同时也方便网络用户在众多数据源中的导航。与其他数据模型不同,链接数据集在资源描述框架5(RDF)中表示,它缺乏显式的*通讯作者。电 子 邮 件 地 址 : samah. univ-constantine2.dz ( S. 塞 勒 姆 ) , fouzia 。 板 凳 -ikha@univ-constantine2.dz(F。Benchikha)。沙特国王大学负责同行审查制作和主办:Elsevier第1https://www.w3.org/standards/semanticweb/data2https://lod-cloud.net/3http://wiki.dbpedia.org/4https://www.wikidata.org/wiki/Wikidata:Main_Pagehttps://www.w3.org/TR/rdf11-concepts/模式信息。为此,许多数据集提供了对实体进行分类并定义数据类型和属性语义的本体。然而,本体信息并不总是可用的,并且可能是不完整的(Jentzsch,2014);例如,DBpedia有几个本地化版本,其中大多数缺乏本体(Jang等人,2015年)。此外,从目标数据源构建本体是一项困难且耗时的任务,特别是当它基于低质量内容时。已经进行了关于“适合使用”或数据质量的许多工作;已经提出它们来评估数据集中的各个部分的一个或多个质量维度,即文字、谓词、三元组、链接和元数据,或者通过使用本体(Beek等人,2018年;DorobaBagraban等人 , 2020;Fürber&Hepp , 2011; Kontokostas 等 人 , 2014; Rula&Zaveri,2014; Sejdiu等人, 2019 )或不(Jang等人, 2015年)。然而,仍然有一些未解决的质量问题,如冗余和不完整性,而大多数提出的方法都集中在本体提供的信息,并没有测量的内在维度,通过发现两个或两个以上的谓词之间的同义词关系,尽管他们的效率。事实上,LOD质量管理的问题,而不需要本体是在文献中解决得很差,因此,严格的研究需要弥合这一差距之前,使用数据集集成,信息检索,或本体生成。后https://doi.org/10.1016/j.jksuci.2021.06.0011319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comS. Salem和F. 本奇哈沙特国王大学学报5553表1LOD质量评估方法的比较。Lei方法(LeiSWIQA(Fürber&RDFUnitJang方法贝克方法伊萨方法例如,(2007年)Hepp,2011年)(Kontokostas等人,2014年度)(Jang等人,(2015年)(Beek等人, 2018年)(Issa等人, 2019年度)目标LOD质量评估++++++LOD质量改进目标受试者水平+++谓词级对象级++++++质量维度精度一致性简洁性++++++++++++同义词谓词发现方法类别自由本体++自动化半自动化自动化++++++为了确定文献中缺少的内容,提出了以下问题:是否有可能使用现有的方法来评估缺乏或具有不完整本体的如何在不使用本体的情况下有效地评估LOD的质量?是否有可能通过发现同义谓词来度量LOD的内在维度本文提出了一种新的过程管理LOD质量,打算独立于本体。我们提出的LODQuMa的主要目的质量问题的检测基于预定义的QVC(质量验证案例),而SPARQL(SPARQL协议和RDF查询语言6)查询模板用于消除检测到的问题。本文的贡献可归纳如下:提出了一种新的基于同义词发现的方法来度量内在维度,并在SPARQL查询的基础上对其进行改进 内在组包含几个质量维度,主要是准确性、一致性和简洁性,应对其进行检查,因为它们集中在信息是否正确地表示真实世界的数据以及信息本身是否在逻辑上一致(Zaveri等人, 2016年)。发现的同义词有助于在谓词级别识别sameAs链接。此外,该过程还生成了几个分析统计数据,这些统计数据可用作本体的创建、维护和集成中的元数据。所提出的流程在DBpedia的几个子集上进行了验证,即人员,工作和组织。实验结果表明,我们的建议,确保检测和纠正几个质量问题,即不准确的值,不一致的值,冗余的谓词和三元组。本文其余部分的结构如下:第2见第3节。第4节和第5节详细介绍了这一提议。在第6中说明了在英语DBpedia的最新版本的几个子集上对所提出的解决方案的验证。第7节介绍并讨论了所获得的结果。本文最后在第8节中提出了结论和对未来工作的建议。2. 相关工作本节介绍了LOD的一些研究工作,旨在评估数据质量和发现同义词。然后,比较研究,根据一些确定的标准,建立。2.1. LOD质量评估在文献中,有许多研究人工,半自动或自动评估LOD的质量。本研究将这些方法分为两类:(i)基于本体的方法和(ii)自由本体的方法。2.1.1. 基于本体的方法基于本体的细节层次质量评估方法得到了广泛的研究,每种方法都针对特定的应用场景。SWIQA(Fürber Hepp,2011)是一个基于规则的框架,它使用SPARQL查询模板执行自动质量评估,以测量对象值的多个质量维度。类似地,作者在(Beek等人,2018)对对象值质量感兴趣,其中他们指定了两个质量维度:准确性和一致性。基于Karma7框架,在LD清洗的研究中提出了一个有趣的研究(DorobaBagrabanetal., 2020),其中,他们使用字符串相似性算法来建议在合理的时间内对错误的字符串进行更正。这些方法只关注文字的质量,而不考虑对象值由统一资源标识符8(URI)表示时的质量。为了检查元数据的有效性,作者在(Lei等人, 2007)提出了一个框架,允许评估语义的内在质量维度回顾文献。建议的解决方案的概述是亲-7http://usc-isii2.github.io/karma/8https://www.w3.org/2001/03/identification-problem/rfc2396-uri-references。6https://www.w3.org/TR/rdf-sparql-query/html●●●●●●S. Salem和F. 本奇哈沙特国王大学学报5554元数据.在同样的背景下,Assaf等人(2015)提出了一个名为Roomba9的框架,该框架通过识别缺失信息来自动验证和生成描述性数据集配置文件,并在可能的情况下自动纠正它们。用于评估LOD质量的另一个有价值的提议称为RDFUnit(Kontokostas等人,2014),一种测试驱动的方法,基于通过SPARQL查询模板对数据质量问题进行形式化。评价结果表明,该方法在揭示质量问题方面是有效的,但它没有纳入问题识别后质量改进的重要组成部分。在(Rula Zaveri,2014)中提出了一种半自动评估和提高LD质量的相关方法。它基于三个主要阶段。首先,它允许基于用例分析用户然后,它对数据集质量进行定量评估。最后,它基于先前执行的分析提高了数据集的质量。尽管这一命题的重要性,它仍 然是 一个理 论研 究。DistQualityAssessment( Sejdiu等人 ,2019),一种基于一些现有质量度量的RDF质量评估的分布式内存评估的新方法(Debattista et al.,2016; Zaveri等人,2016年),它在大数据方面表现得非常好。ProLOD+基于数据挖掘和数据剖析算法,+(Abedjan等人, 2014)和ABSTAT(Spahiu等人, 2016)评估LD的质量。最近,LOD的质量已经在几种情况下进行了评估,例如分散式系统(Huang et al., 2020)和数字图书馆(Canadian et al.,2020年)。2.1.2. 自由本体方法另一方面,(Jang et al.,2015)提出了一种适用于LD本身而不使用任何模式的LOD质量评估方法。它允许评估RDF三元组的质量,三种类型的模式10,包括:域质量模式(DQP)、范围质量模式(RQP)和数据类型质量模式(TQP)。这种基于实践的方法主要包括三个步骤。(i)手动定义适合目标数据资源的模式结构。(ii)自动生成一组测试用例模式,这些测试用例模式表示基于假设的有效数据。(iii)通过将生成的测试用例模式应用于数据来评估它已被应用到韩国DBpedia,其中错误发生率等于36.31%。这似乎是一个有趣的工作,它开辟了新的可能性,研究人员开发更多的技术LOD质量评估,而不使用任何数据模式。然而,该方法需要大量的手动工作来确定适合目标数据资源的模式。此外,它没有给出确切的域/范围,即,它生成一个上层类型。此外,在检测到质量问题后,没有进行质量改进,也没有计算测量尺寸的质量分数。我们的主张与这项工作的主要区别在于被测量的实体。其中Jang等人(2015)通过揭示与类型相关的质量问题来评估LD的质量,即,检查主题类型和对象类型/数据类型的正确性,与我们的命题相反,我们的命题对数据本身感兴趣。2.2. 同义词谓词发现在 文 献 中 , 同 义 词 谓 词 的 发 现 用 于 查 询 扩 展 ( Abedjan&Naumann,2013)、图合并(Kalo等人,2019)和冗余检测(Issa等人,2019年)的报告。特别地,本文主要关注同义词关系以全面检测质量问题,因为我们认为,发现谓词之间的语义关系,特别是9https://github.com/ahmadassaf/OpenData-Checker第10https://github.com/KAIST-KIRC/SAQA同义词,可能是非常有用的检测链接数据集中的质量问题。Abedjan和Naumann(2013)提出了一种方法,允许发现同义使用的谓词,即,可以相互替换的谓词,例如主演和艺术家,其主要目标是通过在语句级别聚合正关联规则和负关联规则来在知识图中发现同义词谓词的另一个有趣的研究在(Kalo et al., 2019),其基于知识嵌入方法,而不对数据进行任何假设。这种数据驱动方法的主要目标是巩固知识图谱。最后,Issa等人的工作,2019)提出了一种基于同义词谓词增强数据集它包括三个阶段:(i)统计分析,(ii)语义分析,(iii)自然语言处理(NLP)分析。在我们的工作中,通过基于NLP发现的同义词预测来增强内在维度2.3. 比较研究表1总结了对一些选定作品进行的比较研究,其中考虑了六个主要标准:主要目标,要评估的数据集部分(目标),质量尺寸,方法,类别和自动化。基于这一分析,需要更多的研究来提供高质量的LOD,而不需要用户的专业知识或本体信息。事实上,大多数研究不包括质量改进模块,这是一个至关重要的阶段。此外,他们都没有专注于发现谓词之间的同义词关系,以评估和提高内在质量的维度。因此,提出了一种基于同义词谓词发现的自由本体过程,以评估和提高LOD的准确性、下一节将详细介绍建议的解决方案。3. LODQuMa概述为了限制缺乏良好开发的本体的数据集中的质量问题,本节介绍了LODQuMa,这是一种新颖的自由本体过程,包括三个阶段:(a)预处理,(b)Meta数据生成,和(c)质量管理,如图所示。1.一、3.1. 预处理链 接 的 数 据 集 非 常 大 , 可 能 不 适 合 主 内 存 ( Naumann ,2014),并且它们的不同性质需要一些预处理。这一阶段(图) 1(a))让劳工处作好准备,应付这些挑战。首先,它从数据集中提取一个子集,并使用SPARQL提供的基于页面和基于键的分页技术为消费做好准备然后将提取的RDF三元组合并并存储在特定的数据结构中。最后,它将URI替换为前缀和谓词此阶段有可能显著降低内存消耗。例如,包含1百万个三元组的数据集的大小从113.5兆字节减少到56.2兆字节,从而缩短了执行时间。3.2. 元数据生成在准备好LD以供消费之后,元数据生成阶段涉及基于剖析和挖掘统计的数据分析,这是因为在没有本体的数据集中,没有实体、数据类型和属性语义的定义S. Salem和F. 本奇哈沙特国王大学学报5555我的天2Fig. 1. LODQuMa的工作流程。因此,在这个阶段中执行两个步骤(图1)。 1(b)):同义词谓词的发现和剖析统计的发现。该阶段将在第4中详述。3.3. 质量管理此阶段通过使用一组定义的QVC和SPARQL查询模板检测、测量和纠正质量问题来管理LD质量它分三个步骤进行(图1(c))。第5将详细解释这一阶段4. 元数据生成此阶段 允许检查数据 并收集将用 于质量管理任 务的元数据 。LODQuMa专注于发现三元组之间的关系,主要是(1)同义词谓词,然后用几个(2)分析统计信息丰富每个包含定义为同义词的谓词的三元组,包括基数、模式和数据表,以实现进一步的目标。4.1. 同义词谓词发现在链接数据集中发现同义谓词对于在主语、宾语和谓词级别识别质量问题非常有帮助。在深入研究此步骤之前提供了一些定义。定义1((数据集):)。链接数据集被定义为一组RDF图G。每个GG是一组RDF三元组T,其形式为主语、谓语、宾语、s. t。T S;P;O,其中S和P必须是URI,O可以是URI或Literal。定义2((同义词谓词):)。在G中,两个三元组Ti(Si,Pi,Oi)和Tj(Sj,Pj,Oj)在谓词之间可以有同义关系,其中Pi≠synPj.S. Salem和F. 本奇哈沙特国王大学学报5556P.第9章:附加同步[1/2P];Pij.Σ2;-;>ijjcandNLP技术用于发现同义词谓词(参见算法1-第5行)。这一决定的动机是基于词库的方法的高精度(He等人,2016年)。因为众所周知,LOD中的谓词是由URI而不是文字标识的,所以执行预处理阶段以准备它们。因此,使用NLP技术的同义词发现更有效,并且它被保持在三个级别:基本的、基于字典的和复杂的。4.1.1. 基层在这个级别上,LODQuMa检测最基本的同义词形式,即,具有相同术语但不同前缀的谓词,例如dbo:name和dbp:name。应该注意的是,所提出的过程不考虑本体提供的元数据,而是关注RDF三元组提供的数据。4.1.2. 基于词典的水平在这一层次上,提出了一种基于WordNet的基于叙词表的方法,以发现具有相同含义的谓词,如foaf:gender和dbp:sex。然而,还有一个问题包含WordNet无法检测到的拼写错误的谓词,例如dbp:birthPace、dbp:birthPaxes和dbp:nbirthPlace。4.1.3. 复杂的液位最后,使用拼写检查方法11,执行同义词谓词的高级发现。该方法基于各种流行的拼写检查包,包括ISPELL(Gorin等人,1971)、Aspell(Atkinson,2006)和MySpell(Andrea,2002)。该步骤可以以两种方式进行:半自动或自动。为了避免任何混淆,领域专家必须在半自动版本中确认每个检测到的同义词对,其主要优点是其在确认生成的同义词集合方面的高精度。然而,专家干预需要大量的时间和精力,特别是对于大规模数据集。出于这些原因,LODQuMa自动验证发现的同义词集。由于Levenshtein距离算法12的性能和准确性,过程自动化基于Levenshtein距离算法12(Po,2020)。因此,不再需要专家协助,并减少了执行时间和工作量。算法1:同义词谓词发现1:数据:G,RDF三元组的图。2:结果:SynSet1/2Pname;Synn p2Pd;8s2Syn;Pnamens3:Pd←GetDistinctPredicates4:foreachPname2Pd do5: Pcand½Pname]←fWordNetSynPname[MSpellPnameg6:结7:foreachP P P2PP伊济多8: 如果P可以d/2Pi]\P可以d|Pj|10:结束11:结束算法1详细描述了发现同义词谓词的任务首先,分析RDF三元组的集合G以检测不同的预测Pd。然后为每个不同的predict生成字典PcandPCand包含候选同义词列表,并且可能表2DBpedia中具有唯一值的谓词列表dbo:deathDatedbo:eyeColordbo:buildingStartDatedbo:birthDatedbp:eyeColordbp:血型dbo:hairColordbo:releaseDatedbo:dateOfBurialdbp:hairColordbp:bloodGroupdbo:deathYeardbo:hipSizedbp:性别dbo:shoeNumberdbo:shoeSizedbp:voiceTypedbo:dissolutionDatedbo:dissolutionYeardbo:foundingDatedbo:foundingYeardbo:yearOfConstructiondbo:openingYeardbo:buildingEndDate为了只获得真正的同义词,收集具有共同同义词的同义词。 所得结果以SynSet表示。后者为每个谓词P名称指定一组同义词Syn。4.2. 分析统计信息发现此步骤通过使现有的分析方法适应LD的性质来生成几个分析统计信息基数、数据类型和模式以及依赖关系都在统计数据中得到了解决。基数:是分析结果的基本形式。LODQuMa对谓词的出现以及数据集中的三元组总数感兴趣。目标是计算质量分数并提高数据质量。数据类型和模式:被认为是最基本和最有用的分析统计信息。它们在LODQuMa中自动检测。主要目标是避免问题在质量问题检测过程中可能发生的混淆(例外1,参见5.1)。元数据:被认为是在三元组之间生成的复杂元数据。LODQuMa对具有唯一值的谓词(如dbo:birthDate和dbo:deathDate)以及主键谓词(如dbp:id)感兴趣,以避免在质量问题检测步骤中可能出现的混淆5.1)。这是一项手动任务,需要领域专家在开始流程执行之前为目标数据源确定这些谓词。在我们的案例中,对DBpedia数据集进行了分析研究,其中确定了一组必须包含每个实体的唯一值的谓词(见表2),以及必须包含整个数据集的唯一值的谓词(见表3)5. 质量管理该阶段包括三个主要步骤:检测质量问题、计算质量分数和解决质量问题。5.1. 检测质量问题LOD的质量评估涉及基于各种度量的若干我们的建议是基于使用四个QVC的三元组间表3DBpedia中的主键谓词列表每个谓词的P名称拼写错误最后,候选人第11https://github.com/pyenchant/pyenchantdbp:id12https://github.com/imalic3/levenshtein-distance-python●●●dbo:wikiPageIDdbo:wikiPageRevisionIDdbp:countryCodedbo:签名dbo:资本dbo:标志dbo:ulanIddbo:viafIddbo:isniIddbo:lccnIddbo:sudocIddbo:bnfIddbo:espnIddbo:selibrIddbo:mbaIddbo:ndlIddbo:nlaIddbo:orlog IdS. Salem和F. 本奇哈沙特国王大学学报5557..附件6:附加案例01 T T.Σð ðÞÞð ðÞÞ表4出现异常的示例例外例如1dbr:Julius_Caesar,dbo:birthDate,2dbr:Julius_Caesar,dbo:spouse,dbr:Cornelia-(wife-of-caesar)dbr:Julius_Caesar,dbo:spouse,dbr:Calpurnia-(wife-of-caesar)dbr:Julius_Caesar,dbo:spouse,dbr:Pompeia-(wife-of-caesar)3dbr:Gwyneth_Paltrow,foaf:性别,女性dbr:Gwen_Verdon,foaf:性别,女性三元组内和三元组间的Lems。四个QVC,即QVC- 01、QVC-02、QVC-03和QVC-04,允许验证包含同义谓词的每个三元组对的主语和宾语之间的相似性或差异。尽管在(Salem和Benchikha,2020)中获得了有趣的结果,但仍然存在一些局限性,例如该方法无法检测正确类型的质量问题(例外1)。此外,有些情况被确定为质量问题,尽管事实上它们是正确的(第2和第3段)。表4提供了每种例外情况的示例。异常1:第一个异常发生在谓词的值由多个模式表示时,例如birthDate谓词。这种情况被认为是一个不准确的问题,尽管事实上,它应该被确定为一个冗余问题的三重水平。异常2:当谓词可能包含一个或多个值(如配偶)时发生第二个异常。这种情况被认为是不准确的问题,尽管它的正确性。例外3:在第三种情况下,它检测到一个不准确的值问题,而实际情况是正确的。这个例外-如果Pi=synPj=SiQVC-04通过比较同义词谓词的主语和宾语来检测相同谓词的重复项,如等式(4)所示。如果同义词谓词Pi和Pj具有不同的主语和宾语,则存在重复信息(即,在数据集中定义相同的谓词)。如果Pi=synPj=Si算法2展示了如何在同义词谓词对上应用QVC来识别质量问题。事实上,该算法允许在包含谓词之间的同义关系的每个三元组的元组上测试四个QVC输出是一组质量问题,主要是不一致和不准确的值,以及冗余的谓词和三元组,其中可以测量内在质量维度,即准确性,一致性和简洁性准确性,或者更精确地说,语义准确性,是指数据值表示值对实际真实世界值的正确性的程度(Zaveri等人, 2016);通过检测不准确的值来测量。此外,数据集的一致性是基于不一致值来衡量的。另一方面,冗余谓词和三元组分别用于测量内涵简洁性和外延简洁性,内涵简洁性是指数据不包含冗余属性的情况,外延简洁性是指数据不包含冗余对象的情况。应该注意的是,LODQuMa通过检测冗余三元组来检测冗余对象。在检测到质量问题后,计算处理后的数据集的质量分数是有用的,有时也是必需的。tion由多值谓词区分,例如配偶,以及必须具有唯一值的谓词,一个特定的主题,如性别。为了确保质量问题检测的有效性并提供高质量的结果和数据集,本文特别关注使用以下QVC处理上述例外情况:QVC-01通过比较同义谓词的主语和宾语来检测冗余三元组。所示等式(1),如果同义词谓词P 和P 具有相同算法2:基于同义词谓词的质量问题检测1:数据:G,SynSet2:结果:错误,质量问题集3:对于每个Ti;Tj2G2;Ti5:如果Si<$Sj^Oi<$Oj,则;i;j7:结束8:如果Si^Sj^Oi第9章:我的女人Case02;. T i; T j主语和宾语,则三元组Ti等价于Tj,意味着其中一个是多余的如果Pi=synPj^Si<$Sj^Oi<$Oj)fTi<$Si;Pi;Oi()Tj<$Sj;Pj;Oj<$gð1Þ● QVC-02检测不一致和不准确的值,如公式(2)所示。因此,如果同义词谓词Pi和Pj具有相同的主语但具有不同的宾语,则宾语值Oi和Oj是不一致的。此外,因为这种情况下感兴趣的是具有特定主题的唯一值的谓词和必须包含整个数据集的唯一值的谓词关键谓词,因此,这些值中至少有一个肯定不准确。如果Pi=synPj^nSi^Si^OiQVC-03只处理关键谓词,然后检测不一致和不准确的值(见公式(3)),当同义词谓词Pi和Pj具有不同的主语和相同的宾语时。10:结束11:结束12:如果Pi13:如果Si16:结束17:如果Si20:结束5.2. 计算质量分数此步骤允许通过测量从上一步骤获得的结果来评估数据集的质量数 据 集 的 总 体 质 量 得 分 QScore 是 准 确 性 ( AccQS ) 、 一 致 性(ConQS)和简洁性(CoQS)质量得分的平均值●●●●●●S. Salem和F. 本奇哈沙特国王大学学报5558¼- 四分之一¼ ð ÞQScore/AccQS/ConQS/CoQS/=3/ 5/计算几个质量维度的质量分数,以区分检测到的问题,如以下等式所示。AccQS计算不准确值的评分,ConQS计算不一致值的评分,CoQS计算冗余谓词和三元组的评分。AccQS¼1-tiv=T6ConQS¼1-tdv=T7CoQS¼1- ΔtrpΔtrt=TΔt8μ m其中tiv、tdv、trp、t rt和T分别表示具有不准确值的三元组的数量、具有不一致值的三元组的数量、冗余谓词的数量、冗余三元组的数量和三元组的总数。CoQS也可使用以下公式计算:CoQS=2.99亿其中,IntCo和ExtCo分别为内涵和外延简洁性评分,并使用以下公式计算:国际公司1-10吨rp=T10吨6. LODQuMa验证为了评价和验证LODQuMa,将进行两项研究。第一个问题涉及各种拟议技术的整体性能,而第二个问题涉及过程输出。6.1. LODQuMa性能LODQuMa测试数据集包含必须使用我们的过程检测的各种类型的质量问题,并且它用于确定所提出的算法是否正确识别所有QVC。另一方面,LODQuMa在2019年发布的英语DBpedia最新版本的不同领域的三个真实世界子集上进行测试,即个人、工作和组织(见表6)。尽管英语DBpedia有一个本体,但只有真实世界的数据被认为是证明我们的主张的概念。此 外 , 使 用 三 个 标 准 信 息 检 索 度 量 ( Fürber& Hepp , 2011;Ghemmaz等人,2021),即精度、召回率和F1-测量,其中:精密TP12公司简介ExtCo¼1-Extrt=T≤11℃5.3. 解决质量问题在进行质量改进之前,用户可以验证和确认检测到的问题。这些问题将是核心-召回TPTPFFNF1测量2精确度×召回率精确度和召回率6.1.1. 同义词发现算法ð13Þð14Þ稍后使用一组SPARQL查询模板、外部知识和分析统计数据来描述这种策略的主要优点是它不需要领域专家的参与。通过执行用于处理每个QVC的几个SPARQL查询,使用灵活的过程来提高LOD的质量(见表5)。在QVC-01中,执行一个简单的查询来消除冗余的三元组。不准确的值在原始源中被验证为正确后,在QVC-02中被删除(例如,在DBpedia数据集的情况下,原始来源是Wikipe-在DBpedia的基础上,对同义词自动发现进行了评价,并以半自动发现的同义词集为参考定义了性能指标。其中(i)真阳性(TP)表示真同义词,(ii)假阳性(FP)表示假同义词,(iii)假阴性表6DBpedia子集的统计概述。dia)。在QVC-03中,删除不准确的值,然后替换子集#三重受试者数量同品种器械数量#对象根据原始数据精确计算。最后,predi-人1,000,00040,8173,671462,583检测频率用于解决检测到的质量问题工作1,000,00042,9613,393468,076在QVC-04中,删除冗余谓词并替换组织1,000,00056,9687,643514,868最常见的同义词。表5用于修复质量问题的SPARQL查询模板。质量问题QVC操作SPARQL查询模板冗余三元组QVC-01删除联系我们Case01[主语] Case01[谓语] Case01[宾语]}不一致/不准确的数值QVC-02删除联系我们Case02[主语] Case02[谓语] Case02[宾语]}QVC-03删除插入{\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}主题?predicate [object]}{\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}主题?谓词Case 03[correctObject]}哪里{?主题?谓词Case 03 [object]}冗余谓词QVC-04删除插入{\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}受试者Case04[同品种器械]?对象}{\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}申报病例04[correctPredicate]?对象}哪里{?受试者Case04[同品种器械]?对象S. Salem和F. 本奇哈沙特国王大学学报5559}S. Salem和F. 本奇哈沙特国王大学学报55600.95召回精度F1-测量10.90.80.70.60.50.40.30.20.101自动化水平P0.670.570.630.690.660.610.510.410.390.410.28半自动自动(lvnD= 0)自动(lvnD= 1)个自动(lvnD= 2)自动(lvnD= 3)召回10.410.670.690.66精度10.950.610.410.28F1-测量10.570.630.510.39图二. 同义词谓词发现算法的性能。(FN)表示我们的算法没有发现的现有同义词如图2所示,半自动发现的精度高于自动发现的精度。此外,当Levenshtein距离(lvnD)等于1时,自动化版本执行得最好。6.1.2. 质量问题检测算法的评价该测试通过识别以下三个度量来评估质量问题检测算法的效率:(i)真实质量问题(TP),(ii)虚假质量问题(FP),以及(iii)存在但未检测到的质量问题(FN)。为此,两个领域的专家参与建立一个测试数据集的1K三元组包含几个问题,必须检测LODQuMa。已知在测试中使用1,000个样本足以构建95%的置信水平,误差范围为3.5%,如(Jang等人, 2015年)。 图 结果表明,QVC-01和QVC-02在准确率方面优于QVC-03和QVC-04,而QVC-03 和 QVC-04 在 召 回 率 方 面 优 于 QVC-03 和 QVC-04 。 比 较 F1-Measure结果时,QVC-01得分最高。 图图4描述了LODQuMa获得的高分,特别是F1-Measure,它被定义为精确度和召回率之间的平衡,大约为0.87。这最后一点证明了所提出的算法的实用性和效率6.1.3. 质量改进方法为评价质量改进方法的有效性,采用定量和定性评价:定量评价:使用以下列出的新的和适当的方程进行。在查询执行之前和之后计算几个统计信息此外,每个QVC(因子)的更新查询数量。P子因子QVC-01之前的P子因子后1/4dObj后/dObj前-系数QVC-02系数QVC-03系数16dPred后¼ dPred前-系数QVC-042017年12月定性评价:执行新的同义词发现运行以进行定性评价,并且获得的结果必须显示同义词集SynSet等于一个预测值。例如,对于谓词dbo:birthPlace,结果应该是SynSet= {dbo:birthPlace,dbp:birthPlace , dbp : placeOfBirth} , 而 不 是 SynSet={dbo :birthPlace}。为了 消除检测 到的问 题并提高 链接数 据集的质 量,必 须基于SPARQL查询模板更新数据。另一方面,数据使用者不能对在LOD中发布的数据集执行更新操作。为此,LOD环境进行本地仿真,以测试和证明预定义的SPARQL查询模板的效率。Virtuoso Open-Source Edition13首次安装。其次,从DBpedia中提取的文件被复制到本地Virtuoso三元组存储中。最后,SPARQL查询以预先计划的时间顺序成功执行,即,从QVC- 01到QVC-04,经过QVC-02和QVC-03,以减少生成的查询的数量,并消除对SPARQL端点的冗余和不必要的请求表7给出了定量评价结果,证明了质量改进的有效性。图三. QVC表现。13http://vos.openlinksw.com/owiki/wiki/VOS10.90.80.70.6个单位0.50.40.30.20.10精确回忆QVC-011.000.910.95QVC-02 QVC-031.000.800.890.671.000.80QVC-040.741.000.85QVC精度召回F1-测量性能性能●●S. Salem和F. 本奇哈沙特国王大学学报5561PP表9每个QVC检测到的问题示例QVC异常三元组表7见图4。 质量问题检测算法的性能。QVC-01:冗余三元组QVC-02:不一致和不准确的数值dbr:Hermann_Huppen,dbo:birthPlace,dbr:马尔梅迪dbr:Hermann_Huppen,dbp:birthPlace,dbr:马尔梅迪dbr:George_S._巴顿,dbo:出生日期,1885-11-11dbr:George_S._ Patton,dbp:birthDate,1885-11-dbr:George_Boole,dbo:deathDate,1864-Eurocup_Mégane_Trophy dbr:Nick_Catsburg,dbp:titles,dbr:欧洲杯_梅甘娜_奖杯dbr:George_Sand,dbo:birthDate,1804-dbr:George_Sand,dbo:birthDate,1803-0dbr:George_Whitefield,dbo:deathDate,1770-dbr:George_Whitefield,dbo:deathDate,1770-9定量评价:质量改进前后对“DBpedia Person”的统计概述前因子后因子受试者:1百万QVC-01:34,576受试者:965,424等同器械数量:3,671 QVC-04:298等同器械数量:3,373dbr:Greg_Bear,dbp:i
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功