没有合适的资源?快使用搜索试试~ 我知道了~
跟踪:Wiki研讨会WWW 2018,2018年4月23日至27日,法国里昂1823从维基数据自动生成维基百科信息框摘要托马斯·塞兹智利大学DCCtsaez@dcc.uchile.cl艾丹·霍根智利大学DCC数据基础研究所ahogan@dcc.uchile.cl图[12]。这个知识图谱背后的一个核心前提是允许信息框提供与维基百科文章描述的特定实体然而,许多文章没有信息框,或者只有最少信息的信息框;此外,英语文章中的信息框和其他语言的信息框的详细程度之间存在巨大的差异。维基数据被提议作为一个事实的中央存储库,以试图解决这种差异,并已被用作信息来源,以生成信息框。然而,当前的过程仍然依赖于人为干预来为给定类型的实体创建通用模板或为特定语言的特定文章创建特定信息框因此,仍然有许多维基百科条目没有信息框,但相关数据由维基数据提供。在本文中,我们研究全自动的方法来生成信息框维基百科的维基数据知识图谱。主要挑战是创建排名机制,其提供与实体相关联的事实我们讨论了这一挑战,提出了几个简单的指标,优先信息框中的信息,并提出了一个初始的用户评估,以比较各种指标所产生的信息框的质量CCS概念• 信息系统→Wiki;关键词维基百科,维基数据,信息框,排名ACM参考格式:托马斯·赛斯和艾丹·霍根2018.从维基数据自动生成维基百科信息框 在WWW '18伴侣:2018年网络会议伴侣,2018年4月23日至27日,法国里昂。ACM,NewYork,NY,USA,8页。https://doi.org/10.1145/3184558.31916471介绍作为人类知识的最大集合之一-然而,维基百科,就其本质而言,总是一项正在进行的工作在添加新条目以反映新实体,编辑旧条目以提高质量和准确性的同时,其他工作正在进行中,以改善维基百科的沿着这些路线的一个主要发展是创建了互补的维基数据知识本文在知识共享署名4.0国际(CC BY 4.0)许可下发布作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191647用户可以在中央位置以尽可能与语言无关且可互操作的方式直接管理结构化数据在Wikidata之前,大多数与维基百科相关的(半)结构化数据以信息框,表格,列表,类别等形式直接嵌入到文章中(这些数据通过各种机制提取和集成,以形成丰富和流行的数据集,如DBpedia [5]或YAGO [1])。然而,以这种形式管理维基百科上的数据远非理想。例如,当多产足球运动员在国际比赛中进球时,该进球可能需要对许多不同的文章进行手动编辑:该运动员在其各自的信息框中的总进球、具有该锦标赛的最高得分者的表、该比赛的所有进球、以及该比赛的所有进球。国家队得分最高的球员,等等;考虑到有288个活跃编辑的维基百科1对应于不同的语言,可以看到球员的单个进球可能需要数百或数千次手动编辑,以保持维基百科的结构化数据在不同语言之间保持最新和一致显然,这种情况导致在使用人力方面的进一步考虑到不同语言可用的活动编辑器的差异,这导致许多文章没有提供信息框,不同语言版本之间的信息不一致,等等[6,7]。认识到维基百科在管理其结构化内容方面存在的这些缺陷,维基数据因此被提议将这些内容集中在一个中心位置。被结构化的基础数据使用独立于语言的标识符,其中多语言标签和描述可以被分配给各个实体和属性;此后,事实被给出为这些实体和属性的元组,这些元组可以以任何语言呈现,其中组成实体和属性的标签可用。维基数据的这一功能最大限度地减少了以各种语言生成信息所需的工作2此外,从零开始设计时就考虑到了结构化数据,Wikidata允许使用单个查询生成基础数据的各种排列;例如,在一个实施例中,不是人类编辑者必须手动维护锦标赛中的最高得分者的列表,可以生成和/或根据需要通过对基础数据集的查询进行刷新自成立以来,Wikidata经历了显著的增长和发展,现在有4260万个条目(实体)的描述,超过18000名活跃用户帮助扩展和策划知识图谱。因此,维基数据已经成为结构化数据的丰富来源,可以以非平凡的方式补充维基百科。作为维基数据“第二阶段”的一部分1根据https://en.wikipedia.org/wiki/List_of_Wikipedias;retr.2018年1月27日。[2]我们建议读者参考Kaffee等人最近的一项调查。[2]关于维基数据标签在各种语言中的可用性。3统计数据来自https://www.wikidata.org/wiki/Wikidata:Statistics;保留2018 - 01 -27 2018 - 01 - 27跟踪:Wiki研讨会WWW 2018,2018年4月23日至27日,法国里昂1824项目的一个重要目标是开始从维基数据生成维基百科信息框。4事实上,许多维基百科信息框已经基于维基数据管理的信息;图1提供了一个高度详细的信息框示例 在本文的源代码标记中有一个简明的指令“{{Infobox telescope}}”,这是根据实体类型生成信息框所需的全部内容:实体类型与特定模板相关联,该特定模板指示结构化数据如何可用在Wikidata中,该实体应该被呈现为维基百科条目上的信息框,允许用户在需要时手动覆盖特定属性。[5]目前有近一千个信息框是以这种方式为英文维基百科生成的。6更深入地了解编辑者如何从维基数据生成维基百科信息框,我们注意到,根据前面的示例,这种生成是由与特定类型相关联的模板指导的事实上,目前有367个这样的信息框模板使用维基数据作为来源为维基百科定义;其中22个 是用于创建完整的信息框,而其余345个用于从维基数据属性中填充现有信息框中的值。7在可用的22个完整模板中,这些模板包括各种类型,包括望远镜(见图1),人物,相扑选手,南非城镇等。如图1所示,为一些实体制作的信息框似乎质量很高。然而,这种以类型为中心的基于模板的方法有一些主要的障碍需要克服首先,需要为每种类型定义一个合适的模板,并将特定的属性及其顺序硬编码。虽然这对于诸如telescope之类的实体可能是直接的(假设在特定情况下允许覆盖属性的一些可撤销性),但是对于诸如人之类的类型硬编码属性似乎有点困难,其中各种属性可能取决于他们的知名度、职业、他们生活的时间虽然对于person类型的实体有一个通用模板,但该模板仅涵盖了可能认为适用的最基本信息 我们在图2中提供了从维基数据的通用人物模板生成的信息框的示例,其明显比为望远镜提供的示例更稀疏;进一步调查,实体Samuel Argall在维基数据(Q16404998)中具有比信息框中显示的更多的可用信息,例如国籍国、出生地、职业、军事分支等。(其中一些提供外部参考)。为了解决这个问题,已经为子类型的人定义了各种其他模板,例如相扑选手、科学家、壁球运动员等;然后这些允许为这些实体创建更详细的信息框尽管如此,目前只有少数相关实体类型(总共22个拥有模板:为所有相关类型创建此类模板将需要大量的手工劳动和协调。除此之外,对于这种基于模板的方法,还有许多其他问题需要考虑首先,特定属性(例如,4参见https://www.wikidata.org/wiki/Wikidata:WikiProject_Infoboxes;保留2018/01/27.5见https://en.wikipedia.org/wiki/Template:Infobox_telescope; retr.2018年1月27日。6列表可在https://en.wikipedia.org/wiki/Category:Articles_with_infoboxes_completely_from_Wikidata获得;保留2018 - 01 - 27 2018 - 01 - 277这些都列在https://en.wikipedia.org/wiki/Category:Templates_using_data_from_Wikidata; retr.2018年1月27日。完整的信息框模板名为Template:Infobox newspaper.8见https://www.wikidata.org/wiki/Q1640499;retr. 2018年1月27日。图1:使用望远镜模板从维基数据生成的维基百科信息框示例;示例取自CC-BY-SA3.0下的https://en.wikipedia.org/wiki/Atacama_Pathfinder_实验跟踪:Wiki研讨会WWW 2018,2018年4月23日至27日,法国里昂1825图2:使用person模板从Wikidata生成的Wikipedia信息框示例;示例取自CC-BY-SA3.0下的https://en.wikipedia.org/wiki/Samuel_Argall奖项、职业等) 可以取多个值,其中只有一些值可能足够显著以保证放置在信息框中。其次,要显示的适当属性有时可能取决于所讨论的实体,而不仅仅是实体的类型;例如,可能存在实体跨越类型(例如,也是著名科学家的相扑摔跤手);此外,例如,诸如sibling之类的属性对于特定类型的实体可能不被认为是值得注意的,但是当该属性的值是与Barack Obama一样著名的人时,它可以保证包括。沿着这些路线,我们研究全自动技术可以为特定实体生成指定语言的哪些信息框,而不需要除维基数据提供的信息之外的任何信息,这意味着没有手动指定的模板,没有对信息框的现有训练数据的假设等。我们的假设是,我们可以从维基数据本身的结构中获得统计数据,这些统计数据可以以完全通用的方式用于在维基百科信息框的上下文中优先考虑维基数据中可能对用户感兴趣/相关的实体的属性-值对。我们认为这是初步的研究,也许可以补充现有的机制,通过这些机制从维基数据中生成信息框。特别是,我们提出的方法可以用作一个类型不可知的默认情况下,一个合适的模板是不可用的(在一个给定的语言);用户将仅需添加通用命令“{{InfoboxWikidata}}”,并且该文章将基于当前文章的语言用全自动信息框填充。此外,我们的方法可以用于对现有模板中给定属性的值进行优先级排序,其中没有明确地提供秩2相关工作即使不考虑使用模板从维基数据生成信息框的内部工作(如前所述),我们也不是第一个考虑自动生成或丰富维基百科信息框(半)结构化信息的工作。已经提出了许多方法来从维基百科提取结构化信息,以便生成或以其他方式增强信息框。这些包括系统其他的工作已经着眼于使用信息提取技术在维基百科之外的来源,以产生可以用来改善信息框的事实[11,13]。虽然这些作品提出了从各种来源自动提取信息框相关信息的方法,但我们假设维基数据是信息的来源,并主要关注生成信息框时的属性和值像我们一样,其他作品也建议使用现有的结构化信息源来增强维基百科。Yus等人[15]提出了信息框系统,该系统使用DBpedia [5检查出生地的值是位置);虽然有些想法与这项工作重叠,但它们的重点是半自动化的信息框生成。Kaffee [3]提出了一种基于Wikidata语句自动为Wikipedia条目生成占位符的方法;然而,在她的方法中,提出了维基百科管理员将手动生成用于显示的属性的适当排序,而这项工作的主要目标是开发和评估用于在信息框中呈现信息的自动排序方案。我们认为,我们的工作3由WIKIDATA生成信息盒的原型我们已经创建了一个原型服务,用于从维基数据实体中生成信息框,该服务接受以下输入:(1)识别维基数据实体的特定Q代码,以及(2)语言代码。根据这些信息,服务会为该语言的实体创建一个信息框,根据特定的排名方法(使用从维基数据转储离线编译的统计数据)优先考虑它认为与该实体最相关的特别地,给定Q码和语言,步骤如下:(1) Q代码和语言被填充到SPARQL查询模板中,该模板将从维基数据查询服务中检索与该实体相关联的所有9查询模板如清单1所示:它不仅检索给定实体的属性和值,还检索它们在给定语言中的主标签(由rdfs:label给出);它不检索进一步的信息(例如,在这个初始原型中,不考虑限定符或引用)。数据类型(例如,日期、数字等)将不具有与它们相关联的标签,但是维基数据标签服务将使该值未绑定,从而允许信息框服务在可用的情况下选择标签;否则使用值本身。必须特别考虑检索给定属性的标签,这涉及到查询中所示的一些间接性9https://query.wikidata.org/跟踪:Wiki研讨会WWW 2018,2018年4月23日至27日,法国里昂1826()下一页()下一页()下一页()→清单1:SPARQL查询从Wiki检索元数据-语言标记为'xx'的ID为'yy'的实体的数据(2) 一旦检索到所有此后,我们将决定显示剩余的哪些属性-值对,以及显示的顺序。这种信息的优先顺序(3) 所有的属性值对都有优先级我们提供了一个在线演示,用于生成提供适当维基数据Q代码的信息框。10我们强调这是一个系统的原型;(假设地)部署 的 版 本 宁 愿 与 维 基 百 科 紧 密 集 成 , 其 中 给 定 命 令“{{Infobox Wikidata}}”,部署的版本将自动检测维基百科的语言版本,在维基数据中找到正确的Q代码,使用服务来编译信息框,然后相应地在最终的HTML页面中显示它。更一般地说,本研究的重点是上面的第(2)我们现在更详细地讨论这个过程4RANKING信息框旨在成为关于特定实体的结构化数据的简明摘要,其中信息根据其与用户的潜在相关性进行优先排序,首先从最重要的信息开始。在设计维基数据的自动信息框生成服务时,一个重要且非平凡的方面是决定哪些这对于决定显示哪些对(在某些情况下,维基数据提供了比简洁信息框所需的更多的信息)以及以什么顺序显示是必要的。 要应用这样的排名,我们需要清单1中的查询所提供的信息之外的信息。 因此,我们将转储维基数据并从中提取一些(相当直接的)统计数据。在我们描述这些统计数据之前,我们先给出一些非常简短的前提条件。我们目前认为维基数据的10https://s3-us-west-2.amazonaws.com/infobox-coloro/index.html它给出了s,p,o形式的直接三元组,没有限定符,引用等;该版本在竞争值中选择最佳的非推荐值,该值例如将包括城市的最近人口读数。[11]一个三元组的例子可能是wd:Q42,wdt:P19,wd:Q350,其中wd:Q42指的是道格拉斯·亚当斯,wdt:P19指的是出生地,wd:Q350指的是剑桥。另一个例子是wd:Q42,wdt:P570,11 May 2001,其中wdt:P570指的是死亡日期,三元组的对象值是一个数据类型:日期。然后,我们将维基数据转储视为形成由一组三元组组成的图G(例如,可以在RDF中表示)。首先,我们考虑属性的相对重要性(例如,出生、死亡、天文台、海拔等) 而与具体值无关。一个直接的想法是将属性的频率视为确定其重要性的有趣度量,直觉上更频繁使用的属性更重要。例如,我们可以考虑在数据中可能比血型更经常地使用国籍的属性,因此前一个属性应该优先于后者。更具体地说,我们可以简单地将图G中的属性p的频率定义为:f re q(p,G)=|{(s,o):(s,p,o)∈G}|换句话说,属性的频率只是定义该属性的图中的三元组的数量。虽然易于计算,但该频率测量具有一些限制。首先,属性的频率可能不与其与用户的相关性很好地相关;这将必须通过例如以下方式经验地验证用户评价。其次,这样的度量只能对属性进行排名,而不会帮助我们对与给定属性相关联的值进行排名。对于为给定属性定义了大量值的实体,这可能会有问题例如,维基数据中的巴拉克·奥巴马(Barack Obama)获得了11个奖项,所有这些奖项都与编辑的相同“正常排名”相关联(每个都是同样有效的值);然而,这些奖项并不具有同等的突出性或声望,从诺贝尔和平奖到Sikatuna勋章(菲律宾已知的外交功绩)。在信息框中,我们可能只显示该属性的最重要值,并按重要性排序;然而,对于这样的特征,频率测量过于粗粒度。因此,我们考虑的第二个度量是PA geRAN nk [8],这是一个流行的基于中心的度量,用于估计图中节点的重要性该度量最初是为有向图定义的,其中我们从Wikidata转储构建这样的图,其中我们将每个三元组s,p,o视为有向边s o,因此不对边标签提供任何特殊考虑,并且不考虑三元组,其中o是数据类型值(例如日期,11重要的是要注意,这些排名并不表示多值属性的特定值的重要性,而是旨在表示竞争值之间的偏好,例如选择最近的人口读数或当前市长等。这样的排名不会被用来,例如,排名奥巴马赢得的奖项,因为所有的价值观都是同样有效的(虽然不是同样突出)。PREFIXrdfs:PREFIX维基库:PREFIXwd: PREFIX bd:PREFIXwdt: 选择?p标签?道具?val?val LabelWHERE {wd:Qyy?道具?Val.?ps wikibase:直接索赔?道具?ps rdfs:label?pLabel .SERVICEwikibase:label {bd:service Param wikibase:language 'xx'.}FILTER((LANG(?p Label))='xx'(?prop!=wdt:P18))}跟踪:Wiki研讨会WWW 2018,2018年4月23日至27日,法国里昂1827()下一页2()下一页()下一页()下一页道格拉斯·亚当斯产品描述:英国作家和幽默作家实例:人类性别或性别:男性国籍:联合王国所讲的语言,书面或签字:英语,英国英语母语:英语职业:编剧小说家,戏剧-wright,sciencefictionwriter , children's writer ,comedy,dramaturge居住地:伦敦出生日期1952-03-11T00:00:00Z姓名:道格拉斯出生地剑桥Commons category:道格拉斯·亚当斯死亡日期2001-05-11T00:00:00Z游离碱ID:/m/0282x宗教:无神论VIAF ID:113230702死亡方式:自然原因类型:喜剧,科幻道格拉斯·亚当斯产品描述:英国作家和幽默作家实例:人类性别或性别:男性国籍:联合王国所讲的语言,书面或签字:英语,英国英语职业:编剧小说家,戏剧-wright,sciencefictionwriter , children's writer ,comedy,dramaturge母语:英语,英国英语出生地剑桥姓名:道格拉斯居住地:伦敦类型:喜剧,科幻,讽刺宗教:无神论学历:剑桥大学死亡方式:自然原因死亡地点圣巴巴拉仪器:吉他RA ndoM频率PA gE RA nK道格拉斯·亚当斯产品描述:英国作家和幽默作家澳大利亚人ID:847711Munzinger IBA:00000020676配偶:简·贝尔森AlloCiné人员ID:97049学历:圣约翰出生日期1952-03-11T00:00:00ZRuneberg作者ID:阿姆斯杜openMLOL作者ID:140290母语:英国英语港口人员ID:208947出生地剑桥UNZ作者标识符:亚当斯道格拉斯IMDb ID:nm0010930国家图书馆-rael ID:000163846职业:喜剧演员,小说家Goodreads作者ID:4孩子们:波莉·简·火箭·亚当斯NDL授权ID:00430962主题道格拉斯·亚当斯死亡方式:自然原因Discogs艺术家ID:134923NKCR AUT ID:jn19990000029Google涂鸦:道格拉斯亚当斯61岁生日游离碱ID:/m/0282x道格拉斯·亚当斯产品描述:英国作家和幽默作家实例:人类性别或性别:男性国籍:联合王国母语:英语,英国英语所讲的语言,书面或签字:英语,英国英语居住地:伦敦宗教:无神论职业:编剧小说家,戏剧-wright,sciencefictionwriter , children's writer ,comedy,dramaturge死亡方式:自然原因仪器:吉他出生地剑桥类型:喜剧,科幻死亡原因心肌梗死姓名:道格拉斯学历:剑桥大学雇主:BBCCOMBInED+COMBInED×图3:在Douglas Adams(Q42)的五种排名策略下生成的信息框;每个信息框包含25个属性-值编号等)。12在此图上应用PageRank算法后,我们为图中的每个s和o值导出一个分数与应用于维基数据属性的频率度量不同(具有P * 标识符,例如已获得的奖项),PageRank因此适用于维基数据实体(具有Q * 标识符,例如巴拉克·奥巴马,诺贝尔和平奖,Sikatuna勋章等);而PageRank可用于对值进行因此,频率和PageRank度量可以被认为是互补的,并且可以被组合以对属性-值对进行排名因此,对于给定的对p,o和图G,我们考虑两种直接的方法来组合p的频率得分和o的PageRank得分,第一种基于项的总和/平均值:因此,频率是可以用于对属性进行排序的度量12有人可能会问,方向在维基中是否扮演着重要的角色。rank+(p,o,G)=norm( freq(p,G))+ norm( prank(o,G))数据图,因为例如可以将三元组s,child,o等效地定义为具有反向边标签的o,parent,s然而,我们认为,方向在维基数据中发挥了重要作用,因为节点的出度往往是有界的,而入度不是;例如,公民链接到他们的国家,但国家不链接到他们的(可能太多)公民。此外,在基于链接为网页分配重要性的PageRank的原始公式中,我们注意到维基数据提供了从s到o的网页的超链接,但反之亦然。第二个基于以下项的乘积:rank ×(p,o,G)= norm(freq(p,G))× norm(prank(o,G))其中prank〇,G表示图G中〇的PageRank得分,并且norm定义了线性地映射跟踪:Wiki研讨会WWW 2018,2018年4月23日至27日,法国里昂1828|22×个[客户端]()下一页()下一页()下一页(())(())()()∼将值划分为区间0, 1,其中0表示所有p(在频率的情况下)或s 〇(在PageRank的情况下)的测量的最小值,并且1表示类似的最大值。13这些组合的直观性在于,求和测量应该充当“析取”的形式另一方面,乘积测度作为一种形式其中例如,如果norm freqp,G= 1但norm pranko,G= 0,则rank+p,o,G=1,而rank×p,o,G=0。重要的是要突出显示,由于我们没有数据类型值14的PageRank分数,因此对p,o的排名对于总和将至多为1,对于乘积将至多为0,其中o频率和PageRank测量是离线计算的,并加载到信息框生成服务内的本地索引中。这样的值可以定期更新(尽管通常我们不会认为这些值相对而言对短期变化敏感,就整体排序而言5用户评价为了评估由不同度量生成的信息框的相对质量,我们进行了初始用户评估,其中通过以下排名变体向用户呈现为各种实体生成的信息框:随机基线(Rand)属性-值对随机排序;该战略旨在作为基线。属性频率(Freq)值PageRank(PR)组合(+)(Com+)Combined()(Com×)属性的频率和值的PageRank(rank ×)的乘积为了避免创建过长的信息框供用户查看,我们选择了25个属性值对的阈值对于给定的实体,信息框然后被构造为具有用作标题的实体的主标签;出于评估的目的,我们不显示图像,因为它们不应在不同的排序中变化。然后按属性对前25个属性-值对进行分组:基于属性的最高排名值对属性进行排序,然后根据其对应对的顺序列出每个属性内的值。该归一化过程对于求和版本是必要的,因为最大PageRank值小于零(基于概率测量),而最大频率值以百万计。[14]从技术上讲,将这些值与图中的任何其他节点进行排序是没有问题的,但结果没有多大意义:例如,PageRank得分为2日期值将与任意数量的日期值不可比较[15]我们选择这一阈值是基于对维基百科专题文章信息框中此类值数量的非正式调查我们根据维基数据上最常见的类型选择了15个实体进行评估;这些实体如下:3人– 道格拉斯·亚当斯– 米歇尔·巴切莱特[Q320]– 大卫·林奇[Q2071]2个国家– 智利[Q298]– 津巴布韦[Q954]2化学元素– 金色[Q879]– 水[Q283]2种–– 鸭嘴兽[Q15343]2知识分子作品– 圣经(Q1845)– 12愤怒的男人[Q2345]2天体– 火星[Q111]– 参宿四[Q12124]2大楼– 艾菲尔铁塔[Q243]– 古根海姆博物馆[Q179199]我们为每个实体构建了五个信息框,对应于前面概述的五种排名策略。图3提供了在每种研究策略下为Douglas Adams(Q42为了评估所生成的信息框,我们收集了12个评估者(大多数是语义Web课程的学生由于这些评价员都是以西班牙语为母语的人,因此信息框是用西班牙语制作的。每个实体的五个信息框并排印在一张没有明确指出哪个信息框对应于哪个排名,对于不同的实体,信息框的呈现顺序是随机的,以避免例如:第一个或最后一个信息框评估偏差。向每个评价者提供一份表格,其中指示他们提供表(实体)的标识符和5个信息框中每个信息框的7级Likert量表评分,从1(非常差)到7(非常好)在评分开始之前,对评价者简要说明了评价标准:这些选项应该作为维基百科的潜在信息框进行评估,他们应该注意所呈现数据的相关性,并且他们应该在评估信息框时考虑属性的顺序以及每个属性的值。6结果评估者有20分钟的时间来提供他们的分数。本次共收集了145份完整评价(每份评价为每种策略打分5分)和1份不完整评价相应评价的平均评分者间标准差为1.23(来自间隔为6的评分方案)。在图4中,我们给出了每个排名措施的总体结果,并取所有评估的平均值;这里的误差条表示标准偏差。四种策略的表现都超过了基线·······跟踪:Wiki研讨会WWW 2018,2018年4月23日至27日,法国里昂1829×个×个7654321R和FREqPRCOM+COM×7结论在本文中,我们研究了一种全自动的方法,从相应的维基数据描述生成维基百科信息框。该方法可用于为维基数据支持的语言生成信息框,而不需要任何特定的手动输入,例如特定类型的模板。该方法的核心涉及从维基数据中获取的属性值对的优先级我们认为,频率和PageRank应该被认为是互补的,因为一个是有用的排名属性,而另一个是有用的排名值。然后,我们进行了初步的用户评估,比较这四种方法生成的信息框和随机基线的选择15个实体从7个流行的实体类型。结果表明,尽管所有的排名方案都优于排序方法图4:每个等级测量的总体平均评价;误差条表示标准差具有统计学显著性(p<<1. 3 10−5)。16事实上,所有方法对的结果都彼此显著不同(p<7。810 −5),除了FR e Q和Com+(p= 0. 第25段)。的措施基于PageRank生成的信息框的用户平均比其对应者更好地被评估。总体上最好的测量是使用乘法的组合测量。这个结果相当令人惊讶:它表明(a)值的排序被认为比属性的排序更重要,以及(b)评估者没有特别强调信息框中数据类型值的存在。相反,评估者更看重信息框中重要值(PageRank)的存在,而不是常见属性(频率);此外,属性值对与高属性频率和高PageRank值(Com×)比只考虑PageRank(PR)更好的评估。在图5中,我们提供了更详细的结果,每个实体的平均虽然在比较排名测量时,该图通常显示了相同的趋势(例如,Com×在几乎所有实体中的平均表现最好),但我们现在可以看到,不同实体的绝对评估差异相当明显,实际上,不同类型的实体。特别是,描述人的信息框评分很高,而与化合物或物种有关的实体平均评分要低得多这可能表明所生成的信息框的质量对实体的类型是敏感的;作为一般趋势,我们可以观察到更具体类型的实体(即,人、工程、建筑物)的属性往往比非常通用的类型更容易被评估,这可能是因为不清楚像水这样通用的东西的重要属性是什么。16统计显著性结果基于145个完整响应的配对t检验;所有p值都是双尾的。随机基线,用户把更高的重视PageRank的价值观时,评价信息框的质量比频率的属性。此外,评估在不同类型的实体中有所不同,其中我们看到了用户倾向于更严格地评估“一般”实体(如水,狗等)的初始趋势当与特定的人、作品等相比较时此处所列结果应被视为初步结果;实际上,我们没有比较例如通过基于模板的方法获得的结果。17总的来说,我们认为这些完全自动化的方法是一种可能的方法,可以补充目前用于从Wiki数据生成信息框的现有类型特定模板方法,例如,在这种模板不可用的情况下。然而,用户倾向于基于值的PageRank分数的信息框排名的趋势可能非常重要,因为当前基于模板的方法仅考虑属性的排序;这里的结果表明,考虑值的排序也是重要的,有助于为多值属性选择重要值,例如获得的奖励,或者当值是突出值时,例如兄弟:巴拉克·奥巴马,有助于提升属性-值对的排序。我们在这里提出的措施探索如何将这样的排名应用于维基数据的自动信息框生成的初步想法。所提出的方法的益处在于,它做出最小假设并且适用于任何类型的实体,而不需要训练集或其他手动输入。但是还有其他可能的方向可以探索,例如使用机器学习方法来识别特定类型实体的重要属性[9],或者可能依赖于Yus等人提出的半自动化方法[15]利用DBpedia数据集。另一个需要考虑的关键方面是参与维基百科的编辑社区:他们会如何看待这样一个工具,以及如何使它对他们更有用。例如,编辑者可能希望更改某些自动化的属性-值对,或者将信息限制为存在引用的信息。另一个悬而未决的问题是提供链接、图像和其他复杂的值。最后一个限制是我们的方法自动生成的信息框,特别是那些基于PageRank的信息框,17鉴于这些信息框中的详细程度各不相同,如图1和图2所示,如何公平地做到这一点并不完全清楚。平均评价跟踪:Wiki研讨会WWW 2018,2018年4月23日至27日,法国里昂18307654321图5:每个实体的详细平均结果和排名指标;误差条表示标准差对于类似类型的实体可能不遵循一致的样式;因此,潜在的未来方向可以是考虑属性和/或值的类特定排名。无论如何,我们相信对信息框生成的更多研究可以避免对特定类型模板的需求,并可以加速Wikidata对维基百科跨几种语言的此外,我们的研究结果表明,与目前提出的许多方法相反,值的重要性-而鸣谢。这项工作得到了千年数据基础研究所和Fondecyt基金会的支持。1181896. 我们要感谢所有参与我们研究的学生的贡献。引用[1] 作者声明:John H. Suchanek,Klaus Berberich,and Gerhard Weikum. 2013.YAGO2:一个来自维基百科的时空增强知识库。第内特尔194(2013),28-61. https://doi.org/10.1016/j.artint.2012.06的网站。001[2] Lucie-Aimée Kaffee 、 Alessandro Piscopo 、 Pavlos Vougiouklis 、 ElenaSimperl、Leslie Carr和Lydia Pintscher。2017.巴别塔(Babel):维基数据的多语言性分析。开放协作国际研讨会(OpenSym)14:1-14:5。https://doi.org/10.1145/3125433.3125465[3] 露西-艾米·凯菲2016. 从维基数据为维基百科生成条目占位符:增加对自由和开放知识的访问。学士论文柏林应用科学大学。[4] Dustin Lange Christoph Böhm和Felix Naumann。2010年。从维基百科条目中提取ACM会议信息和知识管理(CIKM)。1661-1664年。https://doi.org/10.1145/1871437.1871698[5] Jens Lehmann , Robert Isele , Max Jakob , Anja Jentzsch , DimitrisKontokostas, PabloN Mendes , Sebastian Hellmann , Mohamed Morsey ,Patrick Van Kleef , Sören Auer , et al. 2015. DBpedia–a large-scale,multilingual knowledge base来自维基百科Semantic Web Journal6,2(2015),167[6] Wlodzimierz Lewoniewski。2017.不同语言维基百科信息框的完整性和可靠性在商业信息系统研讨会( BIS )。295-305. https://doi.org/10.1007/978-3-319-69023-0_25[7] Wlodzimierz Lewoniewski,Krzysztof Wecel,and Witold Abramowicz. 2017.多语言维基百科条目的相对质量和受欢迎度评估Informatics4,4(2017),43.https://doi.org/10.3390/informatics4040043[8] Lawrence Page , Sergey Brin , Rajeev Motwani , Terry Winograd. 1999.PageRank引文排名:为网络带来秩序。技术报告1999-66。斯坦福信息实验室。[9] Simon Razniewski、Vevake Balaraman和Werner Nutt。2017年。博士生导师或医疗条件:面向知识库属性的实体特定排名。高级数据挖掘与应用526-540 https://doi.org/10.1007/978-3-319-69179-4_37[10] Zareen Saba Syed和Tim Finin。2010年。自动丰富维基百科的方法在协作构建的知识源和人工智能(AAAI研讨会)。[11] Thong Tran和Tru H.曹2013年。维基百科信息框中过时信息的自动检测Research in Computing Science70(2013),211[12] Denny Vrandečić和Markus Krötzsch。2014年Wikidata:一个自由的协作知识库Commun. ACM 57,10(2014),78-85.[13] Fei Wu,Raphael Hoffmann,and Daniel S.焊接2008年维基百科的信息提取:沿着长尾移动ACM SIGKDD知识发现和数据挖掘国际。731-739.https://doi.org/10.1145/1401890.1401978[14] Fei Wu和Daniel S.焊接2007.维基百科的自动语义化。ACMConference onInformation and Knowledge Management(ACM信息与知识管理会议)41-50. https://doi.org/10.1145/1321440.1321449[15] Roberto Yus , Varish Mulwad , Tim Finin , and Eduardo Mena. 2014.Infoboxer:使用统计和语义知识来帮助创建维基百科Infoboxes。在ISWC2014海报演示跟踪。405-408. http://ceur-ws.org/Vol-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功