维基数据中的负面知识挑战与解决-开放世界的探索与发现

70 浏览量更新于2023-11-29 收藏 912KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

544开放世界维基数据的负面知识希巴·阿瑙特harnaout@mpi-inf.mpg.de马克斯·普朗克信息学研究所德国萨尔布吕肯格哈德·魏库姆weikum@mpi-inf.mpg.de马克斯·普朗克信息学研究所德国萨尔布吕肯摘要维基数据知识库（KB）是网络上最受欢迎的结构化数据存储库之一，包含超过9000万个实体的超过10亿条语句。像大多数主要知识库一样，它仍然是不完整的，因此在开放世界假设（OWA）下运行-维基数据中不包含的陈述应该被假设为具有未知的真理。然而，OWA忽略了很大一部分有趣的知识是负面的，这在这个数据模型中不能很容易地表达在本文中，我们回顾了OWA带来的挑战，以及维基数据为克服这些挑战所做的一些具体尝试。我们回顾了一种统计推断方法的负面陈述，称为基于同行的推理，并提出维基negata，一个平台，实现这种推断维基数据。我们讨论了从这个平台的开发中吸取的经验教训，以及如何使用这个平台来学习有趣的否定，以及维基数据内部的建模挑战 Wiki negata可在www.example.com上https://d5demos.mpi-inf.mpg.de/negation。ACM参考格式：Hiba Arnaout，Simon Razniewski，Gerhard Weikum，and Jeff Z.锅2021年开放世界维基数据的负面知识。在2021年网络会议（WWW '21Companion）的配套程序中，2021年4月19日至23日，斯洛文尼亚卢布尔雅那。ACM，美国纽约州纽约市，8页。 https://doi.org/10.1145/3442442。34523391介绍多年来，维基媒体基金会主持了许多免费的、多语言的和协作的知识项目。这些项目是全世界人民的重要信息来源。维基百科的最新成就是维基数据[32]，它是维基媒体姊妹计划的结构化数据的中央存储，包括维基百科、维基导游、维基词典和维基百科。内容由维基数据编辑和自动机器人创建和维护。维基数据以及其他当前的网络级知识库在一系列应用中至关重要，如问答、对话代理和推荐系统。考虑到这些知识库的巨大规模以及不断增长，跟踪其质量对于本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8313-4/21/04。https://doi.org/10.1145/3442442.3452339西蒙·拉兹涅夫斯基srazniew@mpi-inf.mpg.de马克斯·普朗克信息学研究所德国萨尔布吕肯杰夫·Z 潘j.z. ed.ac.uk爱丁堡大学英国爱丁堡未来发展这些知识库几乎只包含肯定的状态，这是刻在开放世界的假设（OWA）上采用的语义Web，其中声明的状态是真的，而其余的是未知的。例如，维基数据中断言“斯蒂芬·霍金获得了沃尔夫物理学奖”，因此被认为是真实的，但“霍金获得了诺贝尔物理学奖”的陈述却不存在，因此被认为是未知的事实上，没有后一种说法的原因是它的虚假性。能够正式区分一个陈述是否为假，并断言其虚假性，将增强维基数据例如，维基数据列出了霍金获得的40多个奖项，但没有提到他没有获得的一个突出奖项，即诺贝尔物理学奖。另一个用例是问题回答，其中明确的否定语句可以减少歧义，并提高涉及否定的查询的答案的相关性。例如，查询没有获得诺贝尔物理学奖的物理学家，或者没有政党的政治家，其中简单的维基数据查询1通过简单地应用封闭世界假设（CWA）分别返回23k和346k未排名的名字。CWA与OWA相反，在OWA中，KB中不存在的语句被假定为false。特别是对于网络规模的知识库，由于其不完整性，仅存储正数据并在查询时应用CWA是不现实的。然而，维基数据表达某些否定的能力在主要知识库中是一个值得注意的例外，我们将在第2节中详细讨论。在本文中，我们重新审视了基于对等推理的核心方法，发表在[1]中，以得出相关且可能正确的否定陈述。特别是，它使用相关实体的信息来识别利益陈述例如，在维基数据中，大多数人没有记录学位，但这通常只是因为学位不相关，例如，对于许多体育界人士，艺术家，或政治家的中低知名度，因此，OWA适用。我们只能在更具体的情况下作出否定的更强有力的推论。以比尔·盖茨为例。我们注意到许多与他相似的实体（例如，埃里克·施密特或托尼·法德尔）确实有学位。因此，假设一组相关实体的完整性是合理的，可以得出盖茨的这个属性，即他确实没有学位。与此同时，盖茨为了避免这种否定1https：//w.wiki/tXQ，https://w.wiki/wWwWWWArnaout，Razniewski，Weikum和Pan545这种附带信息的优先级，基于对等体的推断在收集对等体和推断候选否定陈述的基础上结合了附加的排名特征，例如频率、意外性等，使用监督回归模型进行调整更多详情见第3节。在这项工作中，我们考虑了三类负面陈述：（i）接地负面陈述，如“汤姆克鲁斯没有赢得奥斯卡奖”;（ii）普遍负面陈述，如“凯特温斯莱特没有Twitter帐户”;（iii）有条件的负面陈述，如“阿尔伯特爱因斯坦从未在任何美国大学学习。大学”。此外，我们提出了维基否定ata（否定有关维基数据实体的声明），一个平台，用户可以检查有趣的否定有关维基数据实体，发现基于同行的推理模型。交互式系统允许用户调整该方法授予的参数的组合。该演示可在https：//d5demos.mpi-inf.mpg.de/negation访问，包括如何使用它的演示视频2. 更多详情见第4节。我们的贡献可归纳如下。我们讨论了在实际的真实世界知识库中部署基于对等的推理方法所带来的挑战和机遇的经验教训（即，Wikidata）.我们引入了条件否定语句，这是一类新的否定语句。我们提供了一个交互式平台，用于发现有关维基数据实体的有趣否定。2背景2.1逻辑背景KB模型。知识库（KB）是关于现实世界实体及其关系的结构化陈述的集合，着名的项目是Wikidata [32]，DBpedia [3]，Yago [30]和Google Knowledge Graph [29]。一个典型的语句由一个（主语;谓语;宾语）三元组组成。逻辑数据解释。早期的数据库范例通常采用CWA，即，假设所有未声明为真的陈述都是假的[15，27]。相比之下，在语义Web和知识库中，OWA已经成为标准，它涵盖了更广泛的和潜在的开放式主题范围。OWA声称，没有明确说明的陈述的真实性是未知的。这两种语义都代表了一些极端的立场，因为在实践中，既不能想象所有不包含在KB中的语句都是假的，也不能认为所有这些语句的真实性都是未知的，因为在许多情况下，不包含在KB中的语句确实不存在，因为它们已知是假的。一个中间基础是部分封闭世界假设（PCWA），其中通用规则或元数据用于指定数据的部分在CWA下操作[12，26]。我们在表1中显示了3种假设之间的差异。在该示例中，考虑用于PCWA的CWA的数据部分是与成员资格相关的所有数据，即，所有带有谓词成员的语句。接近完整。跟踪知识库质量的一个重要部分是评估其完整性。本文提出了一些工具来帮助编辑人员了解完整和不完整的区域2视频：https://d5demos.mpi-inf.mpg.de/negation/documentation.html维基数据[8]。它允许他们记录某个实体的完整谓词。例如，如果列出了某个人的所有子女，则可以将其标记为完整，如果没有，编辑器可以添加缺少的信息并将其标记为完整。然而，依靠编辑器来维护网络规模的知识库在规模上是有限的。因此，另一项工作集中在Wiki的自动化上数据例如，在[5，24]中，已经提出了Wikidata的相对召回模型。通过比较类似的实体（例如，共享一个国籍的人），它列出了一些重要的缺失属性。在[33]中，重点是在给定谓词的情况下，维基数据的完整性如何在不同的类中变化。例如，受教育程度的完整性将在德国男性科学家和印度尼西亚女性科学家之间进行衡量。[11]研究不同的信号，以确定知识库是完整的，包括流行度，知识库如何随时间变化，以及类信息。通过在规则挖掘方法中组合这些信号，可以预测丢失的信息 [17]提出了一个维基数据完成工具，通过使用最新的机器学习算法从维基百科提取事实。编辑器可以查看提取的候选语句及其证据，并评估其正确性。如果是正确的，她将被重定向到维基数据以添加新的摘录语句。这部分工作为维基数据的完善做出了重要贡献，但与其他网络规模的知识库相比，它总是不完整的。现实世界中包含的信息总是比数据存储中包含的信息多得多。因此，知识机构必须能够对其中未包含的信息采取立场。2.2维基数据Wikidata是一个免费的众包KB，拥有超过25，000名活跃用户和329个机器人。它包含超过10亿个关于9200万实体的声明。平均而言，一个实体有14份报表。维基数据的分类，即，类的层次结构是一个协作的工作。鼓励编辑决定内容创建和管理的规则。2.3Wikidata中的否定维基数据通常是一个在OWA下运行的仅支持正面声明的KB。然而，也有几个例外，它们让我们瞥见了否定。10.声明。访问维基数据中的编辑历史可能会为负面信息提供有希望的候选人[31]，即通过调查曾经是KB的一部分但随后被删除的语句（可能是接地负面语句的候选人）。例如，我们比较了2017年和2018年版本的维基数据，重点关注人们的声明（大约100个）。0.5m删除语句）。在1 k个删除语句的随机样本中，超过82%的语句只是由本体修改、粒度更改、改写或前缀修改引起的，例如：（ Ghandi; lifestyle; Vegetarian ）更改为Vegetarian- ism和（James Green; oxfordID; 101011386）更改为11386。15%是一年后实际恢复的陈述，其余3%代表实际否定，但我们发现它们很少值得注意，即，主要是显示出生日期的更正或反映地缘政治变化的位置更新···开放世界维基数据WWW546¬∃⊆¬∃∈¬∃∈¬声明∈ KB OWACWA装卸区诺贝尔物理学奖是什么？✓真真真（爱因斯坦;奖项;奥斯卡）未知数假未知（英国皇家学会会员）✓真真真（爱因斯坦;匈牙利科学院院士）未知数假假表1：OWA、CWA和PCWA之间的差异，其中成员数据假设在PCWA下是完整计数谓词。表达否定的一种方式是通过与实例匹配的例如，JoeBiden有4个孩子列出了财产孩子，以及声明（孩子数量; 4）。这就可以得出结论，其他任何人都不是他的孩子。然而，虽然这种计数谓词存在于流行的知识库中，但它们都没有一种正式的方法来处理这些谓词，特别是将它们与基于实例的谓词联系起来。声明弃错误的更改也可以通过已弃用的等级功能[18]直接记录为接地否定语句。然而，我们发现，这主要涉及来自各种进口来源的错误，其重点并不是主要实现有趣的否定，如“斯蒂芬霍金没有获得诺贝尔物理学奖”。.否定的谓词。维基数据包含带有否定意义的谓词，例如，没有部分，没有质量，和不同。然而，这些都是非常具体的知识，例如，（公开声明;不具有质量;保密性）和（死亡;不同于;脑死亡），并且不推广到其他属性。虽然已经有讨论扩展维基数据数据模型以允许通用属性否定3，但到目前为止还没有解决无值。维基数据可以通过“no-value”符号捕获关于普遍缺失的陈述[ 9 ]。这允许知识库编辑器添加带有空对象的语句例如，我们表示为x（Angela Merkel; child; x），维基数据允许表示为（Angela Merkel; child; no-value）4。存在122k个这样的“无价值”语句，但仅用于狭窄的领域。例如，这些陈述中有53%只针对两个国家的属性（几乎完全用于南极洲的地理特征），低（表明艺术品不是续集）。令人鼓舞的是，维基数据社区有途径表达一些否定。然而，如上所示，它们有不同的目的，每个都只处理一个特定的子问题。通过我们的工作，我们希望能够在维基数据中提供一种通用的方式来表达值得注意的否定2.4逻辑和数据管理中的否定逻辑规则和约束，如描述逻辑[4]，[6]或OWL，可以用来在有限的域中导出否定语句。一个人只能有一个出生地如果一个人出生在巴黎，那么他就可以说他不是出生在其他城市。OWL还允许否定语句的显式断言[19]，但到目前为止，它主要用作本体描述语言和用于推断有意知识，而不是用于扩展信息（即，类和关系的实例3https://www.wikidata.org/wiki/Wikidata:Property_proposal/fails_遵守在一般框架中提出了基于描述逻辑的本体中不同级别的否定和不一致[10]。在RuDiK [21]中，提出了一个规则挖掘系统它可以学习规则头中具有负原子的规则（例如，在日本出生的人不能是美国人。主席）。这可以用来预测负面的陈述。不幸的是，这样的规则预测了太多正确的，但没有信息的负面陈述，基本上列举了一大批不是美国人的人。总统。[21]还提出了CWA的一个精确导向的变体，如果至少有一个其他关系连接主语和宾语，则假设否定。2.5语言学和文本信息提取（IE）。否定是人类语言的一个重要特征[20]。虽然存在多种表达否定的方式，但最先进的方法能够非常可靠地检测文本片段是否被否定[7]，[34]。然而，会话模式的理论表明，否定陈述也可以从不包含明确否定的句子中推断出来：例如，根据格赖斯的合作沟通准则[14，25]，从句子“约翰有两个孩子，玛丽和鲍勃”中得出的合理结论是，没有其他人是约翰的孩子。在过去的一年里，我们也看到了越来越多的人对发现文本中有用的否定的兴趣在[16]中，目标是构建一个包含从维基百科更改日志中挖掘的否定的反KB，重点是发现事实错误。在[28]中，它是为了获得有意义的负样本，以增加常识知识库。3基于对等的否定推理基于我们以前的工作[1]，我们在这里重现了最重要核心。令Ki是完美地表示现实的（假想的）理想KB，即，包含了那些在现实中成立的陈述在OWA下，（实际上）可用的KB，Ka包含正确的陈述，但可能是不完整的，因此条件Ka Ki成立，但不是相反的[26]。我们区分了三种形式的负面陈述。定义1（阴性）。(1) 如果（s; p; o）不为Ki，则（s，p，o）成立.(2) 一个普遍否定命题o（s; p; o）是成立的，如果不存在o使得（s; p; o）Ki。(3) 条件否定语句o（s; p; o）。（o; p';o'）是满足的，如果不存在o使得（s;p;o）和（o;p';o'）∈Ki.一个有根据的负面陈述的例子是，4https://www.wikidata.org/wiki/Q567罗比从未获得过奥斯卡奖WWWArnaout，Razniewski，Weikum和Pan547[1]输入[2]同行��1，��报表��1,��2,��[4]排名度量标准同行/亲属权威频率实体频率属性（KB）文本信号[3]候选人€（/声明��）=你好，你好，...，你好��1 2Top-k1. 50岁，2.��9，.，k.3[5]输出关于E的有用的负面陈述相似性函数k，ne∈¬∃¬∃S面，图形测量，嵌入…图1：[1]中基于对等体的否定推理概述。Robbie; award; Oscar），一个普遍否定陈述是算法1：基于对等体的候选检索算法。输入：知识库KB，实体e，对等体组函数peer_groups，对等体组的大小s，结果数k输出：k-e 的最频繁否定语句候选2 P[]=peer_groups（e，s）;//收集对等组3 N[]=;//最后的负面评价4 对于PiPdoint[] ;//predicate和predicate-object对组Pi6ucandidates=[];//候选项的唯一值7对于pe∈Pido8个候选项+=collect（pe，p，_）;//pe：peer，p：predicate9candidates+=collect（pe，p，o）;//o：object110结束11个ucandidates=唯一（候选人）12为st∈ucandidatesdo13sc=count（st，candidates）;//评分语句，st：声明没有在任何一所美国大学学习”，表示为x（阿尔伯特·爱因斯坦;在;x）。（x;地点;美国）.对于这些类别的否定陈述，如果没有进一步的约束，检查与肯定陈述没有冲突是微不足道的。在存在进一步的约束或限定机制的情况下，可以求助于（不）一致性检查服务[4，22]。然而，推导否定陈述还面临其他挑战。尽管有必要，但由于OWA，检查与肯定语句的冲突以确定否定的正确性是不够的。Ki只是一个虚拟的结构，因此推导出正确的否定陈述的方法必须依赖于Ka中包含的有限的肯定信息，或者利用外部证据，例如，从文本。此外，正确的否定陈述的集合几乎是无限的，特别是对于有根据的否定陈述。因此，与肯定语句不同，否定语句的构造或提取需要与排名方法紧密耦合。研究问题。给定一个实体e，编译一个有趣的接地负面和普遍的负面陈述。基于对等推理。该方法通过将来自高度相关的实体（即对等体）的信息与排名分析的监督校准相结合，得出值得注意的负面陈述，如图1所示。这种方法背后的直觉是，类似的实体可以暗示对给定实体的相关陈述的期望。例如，斯蒂芬·霍金的许多同行，即其他物理学家，都获得了诺贝尔物理学奖。我们可以得出这样的结论：他确实赢得了这个奖的期望是可行的，这使得他没有赢得这个奖的事实成为一个特别有用的陈述。然而，他的许多同龄人出生在莫斯科，而他出生在牛津。因此，我们需要设计出一种考虑各种线索的排名方法，如频率、重要性、意外性等。基于对等的候选检索。为了将该方法扩展到网络规模的知识库，我们首先使用PCWA来推断负面陈述的候选集合，然后使用几个排名度量进行排名。给定一个实体e，我们分三步进行(1) 获取对等体：我们收集e的对等体组，并检索它们的所有语句。这些群体可以基于（i）主题的结构化方面[5]，例如人的国籍，或14如果<$etscore（st，N）sc，则<15setscore（st，sc，N）16端部17端部月18日结束19 N = N\inKB（e，N）;//删除语句e 已经有20returnmax（N，k）其他实体的类，（ii）基于图的度量，如连通性[23]，或（iii）实体嵌入[35]。(2) 计数语句：我们计算对等组内所有状态的相对频率，并保留最大值，如果候选人出现在几个组中。(3) 减去正项：我们删除对e成立的语句。算法1中示出了完整的过程。简而言之：peers是基于一些黑盒函数peer_groups（第2行）来选择的。接下来，对于每个对等体组，检索这些对等体具有的所有语句和属性，并根据它们的相对频率进行排名在对等组中，如果一个属性或语句在多个对等组中出现，我们将保留最大相对频率在返回顶部结果作为输出之前，我们减去e已经拥有的结果。考虑e=汤姆克鲁斯。表2显示了他的同事和候选人的负面陈述的几个例子。我们实例化的对等功能是基于结构化的信息。我们收集与e有相同职业的人，如在[5]中。在维基数据中，克鲁斯有6个职业（演员，导演，飞行员，...）因此，我们将获得与他共享其中一个的实体的6个对等组。为了可读性，我们考虑仅从一个组、参与者和组的3个成员派生的语句否定候选人列表是3个参与者列中显示的所有陈述在这个特殊的例子中，N只是一个只有演员组得分的候选人然后从N中删除对Cruise有效的语句，即以绿色突出显示的语句然后返回N中的前k个例如，对于k=3，顶部的否定语句用红色突出显示负面言论排名通常，候选否定语句集很大，因此需要排名度量。我们设计以下四个排名指标的理由是，评分（评分标准）开放世界维基数据WWW548¬∃¬∃¬∃¬罗素克洛梅丽尔·斯特里普丹泽尔·华盛顿汤姆·克鲁斯消极言论（award; Oscar）（award;Oscar）（award; Oscar）（公民;美国）奥斯卡奖，1.0（公民;新西兰）（公民;美国）（公民;美国）（occ.; 编剧）（已定罪;v），0.33（child;x）（儿童;y）（child;z）（child;u）€（公民;新西兰），0.33(occ.; 编剧）(occ.; 编剧）（已定罪;w）表2：从一个有3个同伴的同伴群体中发现汤姆·克鲁斯的候选陈述在学习排名模型中将频率信号与流行度和概率似然性相结合。定义2（EnsemB le R ankI ng Score）。λ1PEER+λ 2POP（o）+λ 3PIVO如果（s; p; o）满足评分=λ1PEER+λ4FRQ（p）+λ3PIVO如果o（s; p; o）满足PEER测量相对频率，例如，0.9的同龄人有孩子，但只有0.1是政治活动家。POP是对象实体的流行度（维基百科页面浏览量），例如，没有获得诺贝尔奖的分数会比奥斯卡·克莱因奖章更高。FRQ是当发现的陈述是普遍否定陈述时属性的频率，例如，x（citizen; x）将获得比x（Instagram;x）（112k Instagram账户）更高的分数（维基数据中的320万公民身份）。最后，PIVO是旋转相似性度量，其中我们考虑关于e的文本背景信息（维基百科嵌入[35]）。关于这些指标的更多信息见[1]。表3列出了对爱因斯坦最负面的三种说法。例如，爱因斯坦明显拒绝参与曼哈顿计划，并被怀疑同情共产主义。这就使得他在1949年不是共产党员的说法成为可能。美国值得注意。3.1 条件否定语句基于同伴的推理方法产生两类否定语句，即接地否定语句和普遍否定语句。这两个类别代表极端情况。对于有根据的否定陈述，我们只是否定一个断言。对于普遍否定的陈述，我们否定了一个属性的所有可能的断言。在这两个极端之间的一个折衷就是限制普遍否定的范围。例如，要列出爱因斯坦没有上过学的所有主要大学是很庞大的，而且他没有在任何大学学习也是不正确的。然而，突出的声明是，他没有在任何美国学习。他说，他没有上过大学，也没有上过私立大学。挑战再次在于，有一组近乎无限的正确的条件否定语句。有必要确定值得注意的问题。遍历可能的条件否定语句的空间，并使用另一组指标对其进行评分，是一种方法。然而，与普遍否定的陈述相比，搜索空间要大得多，因为对于每个属性，都有大量可能的条件，通过新的属性和常量（例如，“位于亚美尼亚/巴西/中国/丹麦/.”，亚伯拉罕/贝多芬/克利奥帕特拉/...”）的。因此，为了提高效率，我们使用了之前生成的接地否定语句。简而言之，基于同伴的推理首先产生有根据的否定陈述。接下来，这些子集被提升为更具表达力的条件否定语句。关于提升技术的更多细节可以在[2]中找到。表4显示了一些示例。欧洲跨国航空航天公司空中客车的负面声明包括3个不是其总部所在地的城市。这些城市都有一个共同的特点，即它们都位于德国，因此条件语句x（Airbus; head-quarters location; x）。（x，国家;德国）。实际上，空客的注册总部位于荷兰莱顿。另一个例子是巴基斯坦的政府形式，这是联邦共和国，而不是君主制。4维基百科平台我们已经在一个名为Wiki negata的演示程序中实现了基于对等体的推理方法，该演示程序可在 www.example.com 上获得https://d5demos.mpi-inf。 mpg.de/negation。用户可以通过选择实体并调整该方法授予的参数的组合来与系统交互，对等功能和要显示的否定语句类（参见图3）。系统描述。图2说明了Wikinegata的客户端-服务器架构。Web界面运行在Apache Tomcat上。我们使用HTML、CSS和JavaScript来构建系统的服务器端。JSP用于服务器端，PostgreSQL用于创建和管理数据库。预先计算。由于基于对等体的推理的计算量很大，并且推断否定的实时验证很容易，因此我们依赖于离线预计算来实现更有效的检索系统。为此，我们已经实现了三个or-thogonal功能，用于识别同行，（i）结构化的方面，（ii）基于图形的相似性度量，（iii）基于嵌入的相似性。对于属于11个类（包括人，组织，国家）的600k流行实体，我们检索了100个最相似的对等实体，并使用这些来识别负面陈述。我们的数据库的总大小，使用B树索引，是64 GB，包括6.81亿个否定语句和1亿个肯定语句。实时验证。由于现实世界的变化或知识库完成，一些预先计算的否定语句可能会变得不正确。布拉德·皮特在2020年赢得了他的第一个奥斯卡奖。因此，直到2020年，声明（布拉德皮特;奖项;奥斯卡）是有效的。因此，我们使用维基数据SPARQL端点执行实时验证，以检查在交互时维基数据中不包含语句WWWArnaout，Razniewski，Weikum和Pan549随机秩属性频率合奏¬∃x(instagram;x)¬∃x(doctoral student;x)<$（职业;天体物理学家）<$（child;TarekSharif）--美国共产党（Communist PartyUSA）€（奖项;英国电影和电视艺术学院）¬∃x(noble title;x)¬∃x(doctoral student;x)表3：使用3个排名指标的Einstein的前3个结果条件语句接地否定语句<$x（Benjamin Franklin; position;x）.（x，subclass of; head ofstate）x=美国总统马萨诸塞州州长，州长。弗吉尼亚州¬∃x(Airbus; headquarters location;x).（x，国家;德国）x=Bonn，Ottobrunn，Hamburg，..¬∃x(Pakistan; form of government;x).（x，subclass of;monarchy）x=君主立宪制、绝对君主制、联邦君主制、.¬∃x(Taxi Driver; award;x).（x，子类;奥斯卡奖）奥斯卡最佳影片奖、最佳编剧奖、最佳男主角奖表4：将接地否定语句提升为条件否定语句的示例。Web浏览器图2：Wikinegata的架构。否定是有用的，并且在许多情况下，由于使用基于对等体的模型对这些否定表5显示了一些示例。例如，第一个例子是寻找没有学位的人。前3个结果显示有趣的人，即，像尼古拉·特斯拉这样的发明家，像亚伯拉罕·林肯这样的政治领袖，他们没有接受过任何正规教育。在第二个例子中，声明要求不属于道琼斯指数的知名公司。道琼斯工业平均指数是衡量美国大公司股票表现的股票市场指数。其中包括英特尔、苹果公司、和微软。然而，它不包括亚马逊和谷歌等大型美国公司。平均检索时间为4至14秒。昂贵的查询大多是那些在Web界面。爱因斯坦的结果如图3所示。尽管他的许多同行都是，但他不是俄罗斯科学院的成员。尽管他成为了美国。在他的晚年，他没有被授予美国物理学会的荣誉。实体摘要。 main函数允许用户搜索关于他们选择的实体的有趣的否定，图3。（1）是具有自动完成功能的输入字段。（2）允许在实时验证或预先计算的验证之间进行选择。（3）允许在消极结果之上显示积极的陈述。（4）是关于如何为输入实体收集对等体的选择。（5）是关于显示哪类否定的决定（常规是指有根据的普遍否定，条件是指有条件的否定陈述）。（6）是要显示的结果数。（7）通过查询Wikidata [32]来显示为同一谓词成立的对象，或者通过创建一个可能的答案的Google查询，可以瞥见每个否定属性的等效肯定答案。对于每个结果，（8）显示了该语句所适用的对等实体人们可以对每个语句的正确性和信息量给出反馈（9）。最后，通过单击任何对等点，（8）和（10），将触发对该对等点的查询系统保留来自先前查询的所有特征值（例如，相同的相似性函数和否定类型）。提问提问。我们的平台提供问答功能。可以使用否定语句搜索实体，其中实体是变量。与现有的结构化搜索查询时间，特别是对于条件语句的情况5讨论5.1使用Wiki否定词在维基数据中查找这项工作的目标是表明需要在维基数据和其他网络规模的知识库中实现有趣的负面信息它提供了对常见用例的增强，例如实体汇总和问题回答。然而，用每一个可能的否定来扩展知识库是不现实的，即使知识库允许你这样做，就像维基数据一样。我们讨论了负知识的有趣性的概念。什么值得注意？我们如何才能发现它？在Wikidata5中，演员可以赢得超过5500个奖项，而汤姆克鲁斯没有赢得其中的99.99%但一个突出的奖项，是相关的补充是奥斯卡奖，他还没有收到。通过对等和PCWA，我们获得了更好的上下文推断否定语句。在维基数据中允许的否定之上，Wikinegata表达了一种新的否定，条件否定语句，其中基于有意义的方面聚合的有根据的否定语句。例如，电影《出租车司机》的结果如表4所示。这部电影没有赢得任何类别的学院奖。这里的条件语句是通过提升技术获得的，它基于多个否定语句的一个共同点，即（subclass of; Academy Awards），聚合了多个否定语句。第二个例子是本杰明·富兰克林。虽然他引擎，此函数返回实体的排名列表，其中5https://w.wiki/vaTWeb服务器[a] 实体（实体摘要）[b] NEG. 三元组模式（问题回答）最终[c]结果结果[日]n[a] 显著负报表[b] 显著实体SPARQL端点[d]实时验证查询反馈结果实体类型同行消极言论积极表态[c]预先计算的有效性开放世界维基数据WWW550¬图3：实体汇总界面，显示Einstein的信息。否定声明实体类型前3名结果阳性<$y（x;学术学位;y）人尼古拉·特斯拉，托马斯·爱迪生，亚伯拉罕·林肯斯蒂芬·霍金、巴拉克·奥巴马、路易斯·巴斯德<$（x; part of; Dow）公司亚马逊、谷歌、彭博社英特尔、苹果公司、微软<$（x;成员; 20国集团）国家挪威、爱尔兰、瑞典法国、英国、德国^诺贝尔物理学奖人史蒂芬·霍金亚历山大·贝尔尼古拉·特斯拉爱因斯坦、普朗克、居里夫人表5：使用否定陈述回答问题的示例美国开国元勋之一与他的同龄人不同，他从未担任过国家元首的职位。5.2真实部署的经验教训为维基数据部署基于对等的推理使几个实际的限制浮出水面，我们如下所述(1) 保留：我们为在其类中至少具有平均数量的语句的实体推断否定（例如，平均而言，企业实体具有29个语句）。通过对等，我们为每个实体考虑最近的100个对等点。通过对等功能，例如结构化方面（例如共享专业），我们进一步将最接近的识别为接近流行度（维基百科页面访问量）。(2) 层次检查（使用的子类和实例），例如删除“Hawkingisnotaphysician”（霍金不是物理学家），因为他是理论物理学家。或者放弃陈述（道格拉斯·亚当斯;职业;作者），因为他是一个作家。这同样适用于奖项（奥斯卡奖）和奖项的实例（奥斯卡最佳男主角奖，最佳女主角奖等）。(3) 维基数据包含 8k 属性。我们过滤那些包含标识符（67%），描述数量/日期/地理坐标（7%）。对于其余部分，我们手动注释函数属性，即只能取一个值的属性，以及通用否定语句没有意义的属性。例如，没有必要推断，一个人没有生父，或者没有出生地，不过，有趣的是，美国好莱坞明星不是在美国出生的。而是印度尼西亚因此，我们并不完全忽略这些属性。(4) 使用条件否定语句，我们手动预先定义有趣的提升方面。例如，对于受过专业教育的人来说，一个有趣的方面是大学的位置，或者它们的类型私立/公立。我们对每个类的30个最常见的属性这样做。自动化每个属性的相关方面是未来工作的潜在方向。(5) Wikidata 我们还提供了一个离线验证的选项，运行时间更快，但可能会影响精度。这些调整提供了在真实环境中部署研究概念它们反映了Re-coin [5]的经验，在生产中，必须实施额外的检查，例如，建议将死亡日期添加到所有人身上。5.3查找维基数据建模问题并不是所有的否定都是正确的，错误的否定经常来自于维基数据的数据模型。一个例子是Dijkstra和否定的声明，WWWArnaout，Razniewski，Weikum和Pan551¬他的工作领域不是计算机科学，也不是信息技术，而他具有信息学的积极价值，这可以说是近乎同义的。这些实体经常被编辑者可互换地使用，这导致许多不一致。其他一些不正确的负面陈述可能是由于缺乏约束。例如，对于大多数企业，总部位置属性是使用城市完成的，但对于西门子，建筑物被列出（路德维希·费迪南德宫），使我们推断的陈述（西门子;总部位置;慕尼黑）不正确。5.4部署为维基数据插件我们目前正在调查部署的 Wikineg ata 内部托管环境的Toolforge，由维基媒体提供，使它可以从内部访问维基数据作为插件。除了Wikipedia embeddings [35]选项之外，该实现只需要维基数据本身来推断关于其实体的负面陈述。然而，我们应该考虑到计算工作量。对等体和候选否定语句的检索可能是昂贵的（特别是对于人-实体），以及通过所有可能的方面聚合条件否定语句的成本。6结论在本文中，我们回顾了知识库的OWA性质，由这一假设引起的挑战，以及维基数据为克服它们所做的努力。我们重新审视了一个统计推断方法的负面陈述，基于同行的推理，并提出了维基negata，一个平台，实现这种方法在维基数据。我们讨论了我们在这个平台的开发过程中所做的观察，以及它如何对用户和编辑都有帮助。在未来的工作中，我们的目标之一是改进处理长尾实体的方法。很难找到这些实体的对等体（缺乏方面，没有维基百科嵌入[35]等），并推断正确的否定候选。由于缺乏关于它们的正面信息，大多数推断的否定仅仅是缺失的信息。我们也有兴趣在Wikidata内部部署Wiki neg ata，使其更容易被社区访问。致谢由德国研究基金会（DFG）资助引用[1] H. Arnaout，S.Razniewski和G.威库姆2020年。用有趣的负面陈述丰富知识基础。在AKBC。[2] H. Arnaout，S.拉兹涅夫斯基湾Weikum和J.锅2020年。消极的陈述被认为是有用的。arXiv（2020）.[3] S. 奥尔角，澳-地比泽湾，澳-地Kobilarov，J.莱曼河Cyganiak，Z.Ives等人2007年DBpedia：开放数据网络的核心在ISWC。[4] F. Baader，D.Calvanese，D.Mcguinness，D.Nardi和P.F. 帕特尔-施奈德2007年描述逻辑手册北京：清华大学出版社.[5] 诉 Balaraman ， S.Razniewski 和 W. 傻瓜 2018 年维基数据的相对完整性（Relative Completeness in Wikidata）在WWW上的Wiki工作坊。[6] D. 卡尔瓦尼斯湾De Giacomo，D.Lembo，M.Lenzerini和R.罗萨蒂2007年描述逻辑中的易处理推理和高效查询查询 DL-Lite家族。自动推理杂志（2007）。[7] W. Chapman ， D.Hillert ， S.Velupillai ， M.Kvist ， M. 斯凯普施泰特湾Chapman，M.Conway，M. Tharp，D.Mowery和L.代杰2013年。为多种语言扩展NegEx词典。卫生技术和信息学研究（2013年）。[8] F. 达拉里河Eko Prasojo，S.Razniewski和W.傻瓜2017年。COOL-WD：维基数据的完整性工具。在ISWC。[9] F. Erxleben，M.Günther，M.克勒奇Mendez，和D.Vrandečić. 2014年。将维基数据引入链接数据网站。在ISWC。[10] G. Flouris，Z.黄，J.Z. Pan，D.Plexousakis和H.哇噢2006年。本体论中的否定、否定与变化在AAAI。[11] L. 加拉拉加湾Razniewski，A.Amarilli和F.M. Suchanek.

下载后可阅读完整内容，剩余1页未读，立即下载