没有合适的资源?快使用搜索试试~ 我知道了~
跟踪:PROFILES数据搜索:在网络上分析和搜索数据WWW 2018,2018年4月23日至27日,法国里昂1497语义Web检索与分析引擎Semih Yumusak†KTO Karatay大学,土耳其semih. karatay.edu.trAI 4 BDGmbH,瑞士s. ai4bd.comHalifeKodazSelcukUniversity科尼亚,土耳其hkodaz@selcuk.edu.tr安德烈亚斯·卡米拉里斯荷兰特文特大学utwente.nl计算机科学系a.kamilaris@www.example.com埃利夫·尤萨尔KTO KaratayUniversity科尼亚,土耳其elif. ogrenci.karatay.edu.tr土耳其安卡拉edogdu@cankaya.edu.tr埃尔多安·多杜·坎卡亚大学里扎·埃姆雷·阿拉斯KTO KaratayUniversity科尼亚,土耳其riza.emre.aras@ogrenci.karatay.edu.tr摘要语义Web促进了Web上的通用数据格式和交换协议,以实现系统和机器之间更好的互操作性。 虽然语义Web技术被用来语义注释数据和资源,更容易重用,这些数据源的特设发现仍然是一个悬 而 未 决 的 问 题 。 流 行 的 语 义 Web 端 点 存 储 库 , 如SPARQLES,链接开放数据项目(LOD云),和LODStats不包括最近发布的数据集,并不经常更新的发布者。因此,需要一种以频繁间隔发现这些端点和数据集的基于web的动态搜索引擎为了解决这个问题,提出了一种新的Web元爬行方法,用于发现Web上的关联数据源我们实现了一个原型系统名为SPARQL端点发现(SpEnD)的方法在本文中,我们描述了SpEnD的设计和实施,连同其操作的分析和评估,在时间性能,可用性和大小方面与上述静态端点存储库研究结果表明,SpEnD优于现有的关联数据资源发现方法。CCS概念• 信息系统→Web搜索和信息发现;关键词关联数据,语义Web,SPARQL端点,发现,搜索引擎ACM参考格式:Semih Yumusak , Andreas Kamilaris , Erdogan Dogdu , HalifeKodaz,Elif Uysal,and Riza Emre Aras.2018年。的发现和分析引擎*http://spend.semihyumusak.com.tr,https://github.com/semihyumusak/SpEnD†通讯作者。本文在知识共享署名4.0国际(CC BY 4.0)许可下发布作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191599语义网。 在WWW '18伴侣:2018年网络会议Companion,2018年4月23日至27日 , 法 国 里 昂 。 ACM , New York , NY , USA , 9 页 。https://doi.org/10.1145/3184558.31915991引言语义Web标准和技术1在Web上变得越来越流行,促进了通用数据格式和协议,以实现系统和机器之间更好的互操作性以及无缝数据集成。链接数据是一个术语,指的是符合语义Web标准的大型结构化数据源,特别是资源描述框架(RDF)2数据模型。链接数据源通过链接数据端点(具体称为SPARQL端点)在Web上发布和提供,这允许使用SPARQL查询语言查询链接数据源。链接数据源或端点在越来越多的Web应用程序中用于语义注释数据[12],以增强搜索结果并促进信息检索和知识提取。最近的统计数据3涉及LOD云中的一千多个数据集和数十亿个三元组[12]。关联数据源的质量在很大程度上取决于其可用性及其包含的数据内容,并且许多项目都在跟踪它[39]。一个常见的问题是,链接数据源并不总是可用的,往往没有响应,由于请求过载或维护。而且,其中一些在几个月后停止维护并消失。因此,以频繁的间隔(例如,数小时、数天)监视、发现、报告和验证关联数据源的可用性至关重要以频繁的间隔提供有关这些数据集[23]的质量、正确性、完整性和一致性的信息也至关重要据我们所知,存在四个主要的关联数据静态存储库,它们定期跟踪网络上的关联数据资源这些是链接开放数据社区项目(LOD Cloud)[12],SPARQL端点状态(SPARQLES)[39],LODStats [15]和DataHub 4。这些项目列出可用的关联数据端点,分析它们的质量和连接性。此外,LOD1http://www.w3.org/2001/sw2http://www.w3.org/RDF3 http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/4http://datahub.io/跟踪:PROFILES数据搜索:在网络上分析和搜索数据WWW 2018,2018年4月23日至27日,法国里昂1498云呈现了发现的所有关联数据端点的图像,用圆圈表示数据源,并将它们之间的引用表示为链接。 SPARQLES项目的重点是监控SPARQL端点的可访问性。同样,LODStats侧重于对这些数据源的统计监测。最终,Datahub被用作所有其他三个静态存储库的数据共享平台,这在第2.1节中进行了更详细的解释。尽管上述存储库包含数百个关联数据端点,但它们不能足够快地发现新的在线端点,也不能有效地跟踪离线端点,依赖于发布者来更新与数据源相关的信息(参见第2节)。 更重要的是,这些项目目前列出的数据源中大约有一半是离线的(参见第5节)。 为了解决对基于Web的动态搜索引擎的这种需求,该搜索引擎以频繁的间隔发现链接数据端点(例如,小时,天),我们提出了SPARQL端点发现(SpEnD),一种新的Web爬行方法,用于发现,分析和发布Web上的关联数据源SpEnD能够提供最新的链接数据源及其元数据列表因此,本文的主要贡献是一个新的动态发现和分析方法的关联数据端点,它优于所有其他现有的方法发现的数据源在语义Web上,在可用性方面,和大小的关联数据端点发现(见第5节)。论文的其余部分组织如下:第2节介绍了关联数据和爬行相关研究的相关工作。第3节描述了我们发现关联数据端点的一般方法然后,第4节介绍了实施的SpEnD系统,而第5节评估SpEnD通过比较其性能与其他四个关联数据存储库。最后,第6节总结了本文,指出了未来的工作。2相关工作相关的工作跨越两个类别:(1)关联数据,元数据和集合,以及(2)Web抓取和元抓取。前一类涉及关联数据的演变,而后者提出了与语义Web相关的各种基于爬虫的研究。2.1关联数据[6]中的工作将关联数据解释为在Web上互连数据源的一种方式,以便数据变得机器可读,语义注释,并链接到其他数据源。链接数据发布指南[6]建议使用URI来命名或标识数据,就像其他Web内容一样,并使用RDF模型相互因此,链接数据源要么作为RDF文档发布,要么作为SPARQL端点发布在Web上[6]。如果一些链接数据源遵循链接数据发布原则(可用性、机器可读性、开放格式、URI标识和链接数据)5在Web上发布,则称为链接开放数据(LOD)。如果LOD源符合某些标准[12],则其有资格被包括在LOD云项目中。LOD云目前由1,000多个数据集组成。连接最多的源是DBpedia65http://www.w3.org/DesignIssues/LinkedData.html6http://dbpedia.org/数据集,来自维基百科。 如引言中所述,该领域有四种主要的关联数据集合。[12][13][14][15][ 16][17][18][19][1 SPARQLES项目利用VoID词汇表来定义关联数据源,根据其可用性,性能,互操作性和可发现性监控数据集[8]。关于SPARQLES项目,动态关联数据Ob-servatory项目[26]每周抓取关联数据源,然后在项目的网站7上发布 LODStats目前在其网站上索引了9,960个数据集8。该项目报告VoID词汇表中每个数据集的统计信息,同时使用RDF Datacube词汇表9报告汇总的统计信息。最后,Datahub 10是一个链接数据共享网站,SPARQLES,LOD Cloud和LODStats项目使用它来共享和存储有关链接数据集的元数据。尽管Datahub打算跟踪网络上可用的所有关联数据数据集,但大量数据集并未列出(请参见第5节)。 表1在数据收集方法、使用的资源、使用的定义、使用的元数据格式和列出的端点数量方面对上述存储库进行了比较。表1:当前链接的元数据集合定义格式端点数量LOD CloudVoIDTurtle[1]149SPARQLES VoID,Datacube JSON 496LODStatsweb HTML 335数据中心CKAN API CKAN API 527随着LOD云变得越来越大,对关联数据消费工具的需求也随之增加。为了浏览和查询关联数据源,已经开发了许多浏览器,例如Tabulator [4],Openlink Data Explorer11和Sig.ma[36],以及搜索引擎,例如Swoogle [17],Falcons [10],Sindice [17]。[37][38][39][39][39]为了提高数据可用性和可重用性,所有这些消费者应用程序的一个共同需求是链接数据源的元数据引用。该领域的元分析是关于标准化关联数据源描述信息的检索和解释为了提供与域无关的元数据定义,VoID词汇表[1]被创建用于描述关于RDF数据集的元数据,例如SPARQL端点URL和各种统计数据(例如,三元组、实体、类和属性的数量)。2.2Web爬行和元爬行网络的快速增长增加了对基于内容的搜索和信息检索的需求,这是通过使用网络爬虫[7]来促进的,网络爬虫也被定义为蜘蛛、游牧者、蠕虫、漫游者和机器人[28]。早期的爬虫通过它们的存储、索引(编目)、搜索和爬行方法来区分由于连接问题,它们中的大多数都有性能限制。7 http://swse.deri.org/dyldo/8http://stats.lod2.eu/9http://www.w3.org/TR/vocab-data-cube/10http://datahub.io/11http://ode.openlinksw.com/跟踪:PROFILES数据搜索:在网络上分析和搜索数据WWW 2018,2018年4月23日至27日,法国里昂1499作为web爬取中的性能问题的解决方案,多线程和分布式爬取已经出现[22],而许多不同的多线程(例如,多线程和分布式爬取)已经Crawler4j 12、Websphinx [30])和分布式(例如,Nutch 13,UbiCrawler [7])网络爬虫已经被开发出来。在当今的大规模网络中,即使是这些多线程和分布式爬虫也无法在有限的时间内以有限的资源检索足够的信息。因此,一些爬虫只在有限的范围或域中集中爬行[34]。2001年发布的语义网[5]也对网络爬虫产生了影响。在语义Web领域,经典的Web爬行和索引技术无法收集语义注释的数据。因此,为了为关联数据创建适当的爬行和索引方法,开发了新的检索技术,例如BioCrawler[3]和MultiCrawler [21]。此外,OntoCrawler [42]使用基于本体的网站建模来抓取和分类经典的Web文档。Slug [14]被设计用于抓取经典和语义Web,以检索相关文档。 在客户端,开发了许多搜索引擎,如Semplore [40],SemSearch [29],Sindice[9],SWSE [20],Falcons [11]和Watson [13],用于搜索和索引语义Web源和本体,或来自经典Web的语义内容。 由于语义网的网络爬行也无法在有限的时间和资源中检索到足够的信息[25],因此提出了元爬行作为扩展经典爬行方法的有效方法,通过在爬行阶段包括搜索引擎[27]。元抓取经典Web的例子包括SavvySearch[24],Helios [19]和WebCrawler 14。在语义Web领域中,元搜索当前未在上述语义搜索引擎中采用[9,20,29,35]。2.3我们的贡献鉴于现有的关联数据源项目/存储库主要基于基于社区的众包来收集相关信息,在本文中,我们提出了一种基于Meta爬行的自动、动态关联数据端点发现方法。元爬行是Web搜索领域中的常见方法;然而,SpEnD方法在将元爬行应用于语义Web领域(即,语义Web领域)方面是独特的。SPARQL端点的发现)。 本文详细介绍了SpEnD在发现、分析和发布关联数据端点方面的完整设计,并将SpEnD存储库与DataHub、LOD Cloud、SPARQLES和LODStats存储库进行了比较[44]包括描述SpEnD软件和比较SpEnD存储库与仅DataHub存储库。 通过这种方式,我们解决了语义Web社区对基于Web的搜索引擎的现有需求,该搜索引擎能够频繁地发现关联数据端点和数据集(例如:小时、天),其被发布在网络上的任何地方。 虽然LOD Cloud也声称使用爬行,但其爬行服务非常基本且效率低下(请参阅第5节中的性能比较)。我们通过采用连续的元抓取(能够利用任何提供开放API的可用搜索引擎,通过统一的即插即用方法)来执行其服务,作为一种简单有效的方法。12https://code.google.com/p/crawler4j/13http://nutch.apache.org14http://www.webcrawler.com/一种在Web上保持有关链接数据源的最新元数据的方法。3方法SPARQL端点发现(SpEnD)是一种用于发现Web上的关联数据源的新颖Web爬行方法,它由四个步骤组成:(1)Web爬行,(2)Web页面分析,(3)域学习和(4)存储库创建。图 1显示了SpEnD中采用的一般方法,基于上面列出和解释的四个步骤。 在第一步中,我们建议使用网络爬虫,不断爬行的语义注释的数据和链接的数据源的网络。一种提高网络爬行性能的技术是使用Meta爬行(见4.1节). 这里的一个重要过程是识别可用于描述关联数据端点的关键字,即在包含语义Web相关内容的所有网站中出现的常见模式(参见第4.2节)。 实现这一点的一种方法是手动解析大量可用的链接数据源,尝试识别所有相关网页中明显的最常见元素。 为了轻松地获得(当前)可用的关联数据源的完整列表,我们可以利用现有的关联数据源存储库(例如LOD Cloud、SPARQLES、LODStats和DataHub)。图1:一般方法在第二步骤中,执行网页分析以考虑被解析的网站中的一些是否包含在第一步骤中定义的公共模式中的一些。 如果是,则这强烈指示解析的网站包含链接数据端点和语义注释的数据。有各种技术可以检查这些端点是否可用和活动,其中更流行的是在端点上执行一些查询,期望获得一些响应和结果(请参见第4.3节)。 在第三步中,利用领域信息进行更有针对性的跟踪:PROFILES数据搜索:在网络上分析和搜索数据WWW 2018,2018年4月23日至27日,法国里昂1500f oreachpaдe∈paдesURL←ExtractURLs(页面)有效的网页分析。 在这种情况下,当前域与所识别的常见模式一起以各种组合使用,以便对关联数据端点和相关语义Web内容执行复杂的搜索(参见第4.4节)。 在最后一步中,关于关联数据端点的信息需要变得对公众可用,使得客户端可以发现相关数据集并直接与它们交互(或检索历史数据),并且机器可以定位其推理操作所需的相关信息/知识。因此,SpEnD搜索引擎应该提供新的链接数据端点,然后Web客户端/机器可以使用该端点来发现相关的数据集/信息。还可以创建web和/或桌面应用以服务于人类(即,用户)。通过图形用户界面)以及机器(即,通过API)(参见第4.5节)。4执行我们通过采用元爬行方法实现了SpEnD利用商业搜索引擎使我们能够避免基础设施成本并提高系统我们的目的不是为了促进使用搜索引擎的网络抓取任务(因为这将明显增加对他们的依赖,为重要的网络相关的任务),但只是为了证明可能的有效性和潜力的网络抓取实现搜索引擎的语义网。此外,我们考虑将链接数据源表示为SPARQL端点,因为SPARQL是当前检索和操作以RDF格式存储的数据的最流行的方式。 在未来,我们也愿意包括其他关联数据端点,如果可用并广泛使用的话。该系统的体系结构在图中可视化。二、 SpEnD系统实现具有五个主要步骤:(1)元爬行,(2)创建用于元爬行的搜索关键词,(3)网页分析,(4)域学习,以及(5)创建SPARQL端点的存储库。这些步骤将在以下小节中进行说明。4.1元抓取SPARQL终点搜索引擎API1516具有各种规范。在发现阶段,基于标准化配置文件,在所有四个主要搜索引擎(Bing、Yahoo、Google和Yandex)上应用统一的元抓取方法(适用于任何搜索引擎)。通过使用这种方法,可以克服不同搜索API接口的限制此外,一个新的搜索引擎可以包括在系统中,只需插入其XML记录的配置文件。 XML模式被设计为指定使用任何搜索引擎进行元爬取的公共特性和参数。一些搜索引擎有进一步的限制,以重新严格的访问常见的网络爬虫。例如,对于来自Crawler4J和WebSphinx的(频繁)请求,Google搜索引擎会导致403 HTML错误响应[30]。在SpEnD系统中,通过使用来自由XML模式定义的配置文件的参数值来创建爬取对象,然后为每个搜索引擎创建爬取线程这些线程遵守相应搜索引擎的限制规则。在搜索引擎对象内部,为每个元搜索任务调用元爬行算法。与该任务相关的算法显示在算法4.1中,因为提取、解析和过滤过程以伪代码示出。在该算法中,针对每个搜索引擎上的每个搜索关键字执行元抓取任务,如下所示:在开始时,为搜索引擎对象初始化配置文件之后,针对每个搜索关键字执行搜索任务(参见表2)。该算法访问搜索任务下列出的所有搜索结果页面,直到结束。通过这个元抓取过程,隐藏在HTML源代码下的所有URL都被提取出来,不相关的文件类型(例如:pdf、gif、jpeg),并且过滤掉排除的关键字。包含某些搜索关键字的所有页面将暂时保存。算法4.1: MeetA CrA wlI ng(SearchEnдine,SearchPhrases)参数←GetParams(搜索引擎)paдes←GetPaдes(参数,搜索短语)URL。筛选文件类型(参数)图2:系统图URL。筛选排除()URLs. save()4.2创建元爬网的搜索关键字通常,元搜索关键词由领域专家选择,这是一种对于潜在结果的完全覆盖至关重要的操作。在本研究中,我们的元爬行方法从以下开始15http://datamarket.azure.com/dataset/bing/search16https://developers.google.com/custom-search···跟踪:PROFILES数据搜索:在网络上分析和搜索数据WWW 2018,2018年4月23日至27日,法国里昂1501一个关键字集,这是提取我们的初步爬虫,收集已知的SPARQL端点页面。此关键字提取过程通过分析和识别网页链接数据资源网关中的常见关键字模式来消除元爬行中对领域知识的需要。 通过扫描可用的链接数据存储库(LOD Cloud,SPARQLES,LODStats和DataHub),总共抓取了275个包含SPARQL端点的HTML页面,并通过使用术语频率评分进行分析,以找到所有情况下明显的常见模式。发现的最常用的关键字 如 下 : sparql 、 query 、 rdf 、 virtuoso 、 open-link 、inference、iri和endpoint。除了单个单词之外,与上述关键字一起使用的常见HTML标记如下:label,a,span,title,Meta,h1,h2,h3,li,dt,p和option。然后,我们将这些结果结合起来,收集了一个元爬行搜索关键字和特定搜索指令的列表表2列出了来自搜索关键字的最终列表的一些示例 通过使用这种方法,我们收集和实验的所有关键字和短语存在于已知的SPARQL端点页面。此外,我们利用搜索运算符17来丰富关键字列表以用于元爬行目的。表2:搜索关键词和指令示例[43]搜索文本描述sparql具有sparqlsparql-language有sparql而没有language的“sparql endpoint”精确短语allintitle:sparql query具有标题sparql的和/或查询intitle:sparql具有标题sparql“huangjianlongxx.inurl:huangjianlongxx.inurl:SPARQL关于PoolParty和URL中的sparql“sparql endpoint”site:gov带有扩展名gov的4.3网页(URL)分析在该步骤中,提取并解析搜索引擎结果页面中列出的URL的HTML源代码。这些URL通过使用Web数据提取方法进行过滤,例如预定义的正则表达式和过滤标准[16]。 与元搜索算法并行地,检查所识别的每个候选URL是否之前被测试过。如果不是,则基于通过使用Jena Framework 18的简单SELECT查询来测试它是否是SPARQL端点。4.4领域学习在通过搜索关键字(如表2中列出的那些)进行初步搜索试验之后,简单的学习算法对候选URL进行一次更复杂的搜索虽然图中的算法 4能够定位与链接数据相关的网站,SPARQL端点页面可能不会显示在具有表2中列出的常见关键字的搜索结果页面中。 为了避免这种可能性,从候选URL中提取薪资级别域(PLD)名称,然后创建新的搜索查询17http://www.googleguide.com/advanced_operators_reference.html18https://jena.apache.org/通 过 使 用 “ 站 点 ” 关 键 字 ( 例 如 , “sparql 站 点 :domain.com”)。利用该搜索扩展,借助于Google Guava库19对每个域执行更完整的搜索。下一步是对发现的每个关联数据源执行统计荟萃分析 要执行此操作,需要使用VoID词汇表,其中包括一组属性,用于根据数字、名称和统计数据定义链接数据源。例如,VoID词汇表实现项目20提供若干SPARQL查询以收集关于现有数据源的统计信息从可用的方法中,我们选择了七个查询,如表3所示。 通过将这些查询发送到SPARQL端点,可以收集各种统计信息。这些查询的结果提供了有关每个存储库中列出的链接数据源的大小和范围的有用信息。 这些统计结果还用于在URL收集过程期间过滤掉相同的URL,即 具有相同数量的三元组和实体的URL被标记为相同。表3:统计分析的SPARQL查询[43]ID SPARQL查询定义1SELECT COUNT(*){ s?p?o}个三元组2SELECT COUNT(distinct?s)实体数量{?s a []}3SELECT COUNT(DISTINCT?s)不同的数量{?s?p?o}个资源URIUNION {?不?p?s过滤器(!isBlank(?s)!isLiteral(?s))4SELECT COUNT(distinct?o)不同数量{?s rdf:type?o}类5SELECT count(distinct?p)不同数量{?s?p?o}个谓词6SELECT COUNT(DISTINCT?s)不同的数量{?s?p?o}主题节点7SELECT COUNT(DISTINCT?o)不同数量?s?p?〇对象节点filter(!isLiteral(?o))4.5存储库创建在最后一步中,创建了一个存储库,用于存储发现的SPARQL端点。 该存储库包括一个Virtuoso RDF存储,用于永久存储发现的端点,还包括一个Java应用程序,为Web和桌面客户端提供图形界面以运行SpEnD系统。这个Java应用程序可以在搜索引擎上执行元搜索,分析得到的候选URL,并对发现的SPARQL端点执行统计分析。此应用程序的主屏幕(见图3)执行搜索引擎抓取(见4.1节)和网页分析(见4.3节)。 该屏幕有一个用于搜索关键字和查询的搜索文本输入框(见第4.2节)、一个待选择的搜索引擎列表和一个用于显示正在进行的搜索结果的表格网格。19https://github.com/google/guava20https://code.google.com/p/void-impl/wiki/SPARQL QueriesForStatistics跟踪:PROFILES数据搜索:在网络上分析和搜索数据WWW 2018,2018年4月23日至27日,法国里昂1502图3:桌面/Web应用程序:Crawler选项卡[43]此外,通过分析接口,可以在DatasetCollection容器中跟踪其他四个项目的结果。其他功能(在Monitoring& Analysis容器中)包括跟踪每个SPARQL端点可用性的状态监视,以及使用表3中列出的SPARQL查询对每个SPARQL端点进行统计分析。 该软件被设计为连续运行,从而能够对网络上可用的SPARQL端点进行持续的抓取和分析。5评价评价侧重于两个不同的方面。首先,分析利用各种搜索引擎(Bing、Yahoo、Google和Yandex)产生的搜索结果,然后将SpEnD SPARQL端点存储库与LOD Cloud、SPARQLES、LODStats和DataHub存储库进行比较。在下面的实验中,我们让SpEnD系统工作24小时,然后收集结果。 该实验研究的所有结果,包括原始搜索结果,可在SpEnD项目的网站21上获得。5.1搜索引擎结果从搜索引擎中提取了总共117K个唯一的URL。图4显示了抓取的URL数量与找到的(唯一和重复)SPARQL终点的总数。在收集了大约44K个URL之后,发现的唯一端点的数量不再增加。在18K和19K收集的URL之间,发现的唯一端点的数量显著增加。 原因是领域学习任务的操作(见4.4节),它在搜索文本的初始查询之后开始(见表2)。在该实验期间总共发现了超过1K个独特的SPARQL端点。 在发现过程之后,对这1,037个唯一端点进行了分析,以考虑它们的可用性和元信息。其中,211个不可用(在搜索引擎结果中列出,但无法访问)。的21http://spend.semihyumusak.com.tr/在进一步分析22后,还删除了剩余的终点168,因为它们在结果集中列出了不止一次。尽管数据集和SPARQL端点之间不存在一一对应关系,但具有重复数据集(其中之一)的SPARQL端点被排除在进一步分析之外,以便更精确地比较可用的唯一链接数据源的数量。虽然这些端点被排除在分析之外,但它们并没有被排除在已发布端点的最终列表之外,其中这些端点被标记为相同的As连接,并且没有从最终存储库列表中删除。因此,总共有658个独特的在线端点最终存储在我们的SPARQL端点存储库中进行分析。图4:终点数量与搜索的URL数量[43]表4提供了对658个发现的SPARQL终点的一些见解,在搜索项方面,导致超过60个终点。例如,通过在所有搜索引擎中搜索“sparql查询”短语,发现了207个唯一SPARQL端点一些端点显然是通过多个检索词发现的例如,搜索词“sparql-w3”和“sparql-wiki”返回几乎相同的SPARQL端点URL。5.2SpEnD与现有SPARQL终点存储库的比较在本小节中,将SpEnD的24小时发现过程的结果 为了确定四个存储库和SpEnD上列出的每个端点的状态,在2016年6月期间,每天向每个列出的SPARQL端点发送一个简单的SPARQL查询,总共持续一个月。 表5列出了这些存储库以及SpEnD数据集中的在线和离线端点的数量。存储库中列出的SPARQL端点几乎有一半是离线的(被动的),这表明SPARQL端点集合在这些存储库中没有频繁更新。此外,在SpEnD数据集中发现了211个离线端点。22使用表3中列出的查询(三元组、实体、类等的数量)检查每个数据集。 如果两个端点对于所有查询具有完全相同的结果,则它们被认为是相同的数据集(但是在两个单独的URL端点中重复)。跟踪:PROFILES数据搜索:在网络上分析和搜索数据WWW 2018,2018年4月23日至27日,法国里昂1503表4:检索词超过60个终点搜索文本 数量“sparql endpoint”站点:PLD个端点518sparql查询207“sparql端点”179sparql-语言171inurl:huangjianlongxx.com150allintitle:sparql查询144sparql-w3126sparql-维基125sparql-博客-wiki-w3-pdf-新闻124sparql-blog-wiki-w3-pdf120sparql-博客115allinurl:sparql数据105“sparql endpoint”-blog -wiki -w3-pdf93“Virtuoso SPARQL查询编辑器”87“sparql endpoint”-博客84“sparql endpoint”-wiki76“sparql端点”66“Virtuoso SPARQL查询编辑器”65“sparql endpoint”-w361表5:SPARQL终点的可用性比较[43]可用数据集在线离线合计教育署署长537 121 658 211 869图5可视化了所有项目发现的独特和共同端点的总数。SpEnD存储库有520个不同的端点。然而,也有一些SPARQL端点不能被SpEnD发现,因为它们不能与web的其余部分链接,因此搜索引擎不能发现它们。图图6仅示出了四个存储库和SpEnD数据集中列出的活动和可用端点如该图所示,SpEnD也发现了其他集合中列出的277个活动终点中的224个(准确度为80.9% ) 。 SPAR-QLES 和 LOD Cloud 没 有 独 特 的 URL , 而Datahub中仅列出了三个独特的URL,LODStats中仅列出了一个独特的URL。Datahub存储库主要涵盖活动URL方面的其他列表,除了SpEnD。尽管图图5示出了SpEnD数据收集(434个端点)中的大量唯一URL即在相同的域名下存在多个SPARQL端点因此,我们还分析了SPARQL端点URL基于其PLD。图7示出了活动PLD的数量,并且表6列出了包括多于10个SPARQL端点URL的那些PLD在这种情况下,SpEnD发现了其他集合中列出的130个域中的119个(准确率为91%)。图5:存储库的SPARQL终点总数图6:可用SPARQL端点的存储库集合我们注意到,SpEnD项目发现的434个唯一端点URL和146个重要域未通过使用质量度量进行验证/鉴定(Acosta et al. 2013;Kontokostas 和 Westphal 2014; Mendes , Mühleisen 和 Bizer2012);然而,作者认为它们仍然有价值,因为它们没有被列入任何其他收藏。在表7中,列出了在线和离线PLD以及端点URL的总数,将SpEnD与其他四个存储库进行了比较。SpEnD数据集的PLD数量最多(265)以及端点URL的最高数量(658)。6结论和今后的工作虽然LOD Cloud、SPARQLES和LODStats等静态存储库在发现和监控关联数据源方面很受欢迎,但本文表明它们并没有捕获整个关联数据源DataHub高210低 总在线六三二七三254527详细等级云69138267149LodStats13639175160335火花20561266230496跟踪:PROFILES数据搜索:在网络上分析和搜索数据WWW 2018,2018年4月23日至27日,法国里昂1504图7:存储库表6:相同PLD下SPARQL端点URL的数量[43]支付级别域名#Enrkbexplorer.comd点(>10)65b3kat.de58insee.fr34dbpedia.org27fundacionctic.org23data.gov.uk21270a.info15ign.fr13linkeddata.es13eagle-i.net 12表7:SpEnD和存储库发现的PLD和URL的数量[43]#PLD #端点在线离线在线离线数据中心130 119 273 254网络上可用的关联数据端点的频谱,也不能有效地跟踪识别持续离线的新端点 本文通过提出一种动态的方法来发现Web上可用的关联数据端点,从而解决了这一差距。我们已经提出了SpEnD,这是一个发现引擎的SE-MANTIC Web的基础上的Web爬行。我们的实现涉及利用现有商业搜索引擎的元抓取方法,以证明在不到24小时内有效跟踪关联数据资源方面的网络抓取的潜力。评价程序表明SpEnD优于静态存储库在时间性能、可用性和所发现的关联数据端点的大小直接比较显示,SpEnD数据集包含的SPARQL端点、PLD、三元组、实体、资源URI、类、谓词、主题节点和对象节点明显多于所有其他存储库。我们的SPARQL端点集合日益增长,可供学术界进一步分析和研究,即使我们的数据集在语义注释和分类方面还不丰富。每天执行常规的爬网任务,新发现的SPARQL端点会逐渐添加并发布在项目的Web站点上。作为未来的工作,我们的下一步将是语义分析[38,41],并对收集的SPARQL端点进行排名[18]。这将有助于更好地了解所发现的关联数据源的内容,从而可以根据其域或上下文对SPARQL端点进行分类[31此外,由于观察到少量端点未被SpEnD发现(由于搜索引擎的限制),但在静态存储库上仍然可用,因此我们将投入一些努力来改进我们的整体方法,以便以自动方式更好地7确认这篇研究论文是基于Semih Yumusak博士论文中完成的结果编写的,并在其他作者的帮助下得到了增强 本研究部分由土耳其科学技术研究委员会资助,资助号为1059B141500052(参考编号:B.14.2. TBT.0.06.01-21514107-020- 155998)。引用[1] Keith Alexander和Michael Hausenblas。2009年描述关联数据集-关于void的设计和使用在链接数据的网络研讨会(LDOW 09),与第18届国际万维网会议(WWW 09)。[2] Sören Auer , Ivan Ermilov , Jens Lehmann , and Michael Martin.[n. d.] 。LODStats-一种基于语句流的方法,用于收集有关RDF数据集的全面统计信息。([n.d.])。http://lodstats.aksw.org/[3] Alexandros Batzios , Christos Dimou , Andreas L Symeonidis , andPericles A Mitkas. 2008 年 BioCrawler : 一个 智 能的 语 义网 爬 虫 ExpertSystemswithApplications35,1-2(2008),524-530.https://doi.org/10.1016/j.eswa的网站。2007.07.054[4] Tim Berners-lee 、 Yuhsin Chen 、 Lydia Chilton 、 Dan Connolly 、 RuthDhanaraj 、 James Hollenbach 、 Adam Lerer 和 David Sheets 。 2006 年Tabulator:Exploring and Analyzing linked data on the S
下载后可阅读完整内容,剩余1页未读,立即下载

















安全验证
文档复制为VIP权益,开通VIP直接复制
