评估知识库中规则质量的覆盖假设估计方法

198 浏览量更新于2023-10-15 收藏 12.92MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10730使用覆盖假设估计知识库完成的规则质量0Kaja ZupancLjubljana大学，计算机与信息科学学院，斯洛文尼亚卢布尔雅那，kaja.zupanc@fri.uni-lj.si0Jesse Davis KULeuven，计算机科学系，比利时鲁汶大学，jesse.davis@cs.kuleuven.be0摘要0目前，有许多大型自动构建的知识库（KBs）。一个有趣的任务是从知识库中学习，以生成推断的事实或定义规律性的规则的新知识。学习的一个挑战是KB必然是开放世界的：我们不能假设KB中未包含的元组的真值。当KB仅包含事实（即真陈述）时，我们缺乏负例，这通常是学习算法所需的。为了解决这个问题，我们提出了一种评估从KB中学习的一阶规则质量的新颖评分函数。我们的度量试图在评估潜在规则的质量时包含KB中不包含的元组的信息。实证上，我们发现我们的度量结果比以前的方法更精确。0CCS概念0•计算方法→规则学习；知识表示和推理；逻辑和关系学习；•信息系统→关联规则；0关键词0规则挖掘，知识库，ILP，开放世界假设0ACM参考格式：Kaja Zupanc和JesseDavis。2018。使用覆盖假设估计知识库完成的规则质量。在WWW2018：2018年网络会议，2018年4月23日至27日，法国里昂。ACM，纽约，纽约，美国，9页。https://doi.org/10.1145/3178876.318600601引言0知识库（KBs）存储结构化的关系数据，例如“AaronRodgers为Green Bay Packers效力”和“Green BayPackers是一支橄榄球队”。一些最重要的KB包括YAGO[22]，Wikidata，1 DBpedia [1]，NELL [5]，Freebase[4]，Google Knowledge Graph [30]和Cyc[11]。通常，这些KB是通过挖掘在Web上找到的文本自动填充的。由于Web文本的可变质量和希望具有准确性01 https://www.wikidata.org0本文发表在Creative Commons Attribution 4.0 International（CC BY4.0）许可下。作者保留在其个人和公司网站上传播作品的权利，并附上适当的归属。WWW 2018，2018年4月23日至27日，法国里昂© 2018IW3C2（国际万维网会议委员会），根据创作共用CC BY 4.0许可发布。ACM ISBN978-1-4503-5639-8/18/04..https://doi.org/10.1145/3178876.31860060KBs，这些方法通常偏向于确保只包含高质量的元组（即可能是正确的）在KB中。这些KB不断增长，因为挖掘是一个迭代和持续的过程，当前的KB可能涉及数百万个不同的实体并包含数亿个事实。一个有趣的任务是挖掘构建的知识库以获取以下规则：0isPoliticianOf（x，y）∧diedIn（x，y）�livesIn（x，y）。（1）0从几个角度来看，这是有趣的。首先，规则捕捉了数据中的规律性，因此本身是一个有趣的知识来源。其次，尽管这些KB非常庞大，但它们必然是不完整的。规则可以用于推断其他事实，以帮助完善KB（例如，在[5,7,20,28]中所做的那样）。这样的规则需要从数据（即KB）中学习。这可以自然地提出在典型的归纳逻辑编程设置中[19]学习规则的问题，其中我们希望学习尽可能多的正确预测，没有（或很少）错误的预测。然而，学习此类规则的绝大多数工作都依赖于具有标记的正面和负面示例，而在这种情况下，我们只能访问正面示例。已经尝试了几种方法来解决这个问题。最明显的方法是进行封闭世界的假设，并简单地假设KB中不包含的任何元组都是负例。这显然是错误的，并且已经在实践中表现不佳[12]。作为替代方案，Galarraga等人提出了这样的假设，即只有某些未观察到的元组是错误的，而对其余元组的真值不做任何假设。另一种解决方案是随机抽样一些未观察到的元组作为负例，这通常与领域知识一起使用。例如，NELL的初始版本采用了一种半监督方法，该方法利用了给定关系的某些参数类型上的互斥约束[5]。最后，人们还研究了一系列仅依赖于使用正面示例来评估此类规则的度量标准[23,24,28]。本文提出从正面和无标签数据的角度来学习此类规则。这种学习框架假设学习者可以访问正面示例和无标签数据，其中无标签数据包含正面和负面示例的混合。我们提出了一种新颖的置信度度量来评估候选规则，该度量在评估潜在规则的质量时考虑了无标签数据。从实证上看，我们将我们的度量与Galarraga等人的度量[12]在三个数据集上进行了比较，并与Gardner等人的方法[13]在NELL KB上进行了比较，发现我们的性能更好。0跟踪：Web内容分析，语义和知识WWW 2018，2018年4月23日至27日，法国里昂XR={x | ∃y : R(x, y) ∈ KR},(2)YR=yx : R x, yKR .(3)2.2Evaluation Metrics for Rulessupp BR = KPBR = PBRKR .(8)ConfCWA(B ⇒ R) = supp(B ⇒ R)PBR.(9)ConfPCA(B ⇒ R) =supp(B ⇒ R)supp BR + INRPBR.(10)2.3Rule GenerationTrack: Web Content Analysis, Semantics and KnowledgeWWW 2018, April 23-27, 2018, Lyon, France107402背景0表1呈现了一个小的知识库，用作说明重要概念的运行示例。02.1表示0表1：示例KB。0livesIn是PoliticianOf diedIn0（Ava，Paris）（Ava，Paris）（Ava，Paris）（Emily，London）（Bob，Newyork）（Bob，Newyork）（Emily，Paris）（Ava，Newyork）（Emma，Lisbon）0我们将使用基于一阶逻辑子集的KB表示。常量（例如，Emily）指的是域中的特定实体，并以大写字母开头。变量（例如，x）范围是域中的实体，并用小写字母表示。谓词或关系R /n，其中n是关系的arity，表示域中实体之间的关系。在本文中，我们只考虑二元或arity两个谓词，并将第一个参数称为主语，第二个参数称为对象。二元原子的形式为R（t1，t2），其中t1和t2都可以是常量或变量。文字是一个原子或其否定。地面原子是一个原子，其中t1和t2都是常量。地面原子可以是真或假。真实的地面原子称为事实。对于表1中的KB，地面事实的一个例子是livesIn（Emily，London）。对于给定的KBK，我们使用KR来指代K中出现的关系R的所有地面事实的集合。我们使用XR和YR来表示在K中作为主语或对象出现在关系R中的常量的集合，它们的定义如下：0Datalog规则可以写成蕴含B�H。体B由文字的连词组成，而头H是一个文字。以下是规则的示例：0livesIn(x, y) � diedIn(x, y), (4)0livesIn(x, y) � isPoliticianOf(x, y), (5)0isPoliticianOf(x, y) ∧ diedIn(x, y) � livesIn(x, y) . (6)0如果所有变量都被常量替换，则规则是grounded或instantiated。规则(6)的一个实例化是0diedIn(Ava, Paris) ∧ isPoliticianOf(Ava, Paris)0� livesIn(Ava, Paris) (7)0如果规则的所有文字都出现在K中，则实例化规则的头部是一个预测。在我们的运行示例中，livesIn(Ava,Paris)是一个预测，因为diedIn(Ava, Paris)和isPoliticianOf(Ava,Paris)都出现在表1中的KB中。符号P B � H表示规则B �H应用于知识库K中的事实所做的预测集。0有许多指标可用于评估规则的质量。其中最常见的两个是支持度和置信度。0规则的支持度或覆盖度定义为规则所做的预测在给定的KBK中出现的次数：0其中KP B �R表示“已知正例”（KP）示例的集合，即已经出现在K中的预测。Galarraga等人[12]更喜欢这个定义，因为它是单调递减的，可以应用许多标准修剪技术，可以大大提高规则学习的运行时间效率。规则的置信度或精度定义为其预测中正确的比例。然而，从Web自动填充的KB通常只包含事实（即真实的groundatoms），并且是开放世界的，这意味着KB中不包含的任何groundatom的真值是未知的。因此，如果P B �R包含任何不在KB中的groundatom，则无法计算置信度。解决这个问题的一个标准方法是进行封闭世界假设（CWA），假设KB中不包含的所有groundatom都是假的。这得出以下定义：0显然，当知识库从Web自动填充时，CWA是错误的，因此使用它是次优的。Galarraga等人[12]通过提出部分完备性假设（PCA）来解决这个问题，该假设假设如果我们知道给定x和R的一个y，即R(x, y)∈KR，我们就知道该x和R的所有y。实际上，这使他们能够推断出KB K的以下一组负例：0IN R = { R(x, y') | R(x, y') ∈ KR ∧ y' ∈ YR ∧ �y : R(x, y) ∈ KR0这些负例可以用于计算规则的置信度，从而得到以下定义：0PCA假设适用于像函数一样运作并且每个主语最多有一个对象的关系（例如diedIn），假设知识库是准确的。然而，当一个关系可能将多个对象与每个主语关联时，该假设可能被违反。大多数关系属于这个类别。在这种情况下，它的可行性完全取决于知识库的完整性。另一个潜在的弱点是PCA置信度忽略了规则所做的预测数量。0生成一阶确定性子句的方法已在归纳逻辑编程文献中广泛研究[19]。我们的目标不是重新审视规则的构建方式；我们只是修改用于评估每个规则质量的得分函数。因此，我们使用AMIE+系统[12]中采用的高效规则生成策略。该实现采用了数据库社区的各种技术，以实现良好的可扩展性。在高层次上，它按照以下方式生成规则：用户提供支持阈值和最大子句长度作为输入。算法维护一个规则队列，最初包含一个空体（即�R）的每个关系的规则。规则从队列中移除，并通过添加文字到体中来进行改进，具体取决于定义了合法规则的语言偏好（例如最大长度等）。然后检查改进后的规则的支持度，如果超过支持度阈值，则返回该规则。此外，修改后的规则被添加到队列中以进行可能的进一步改进。3RC CONFIDENCE SCOREWe propose a novel confidence score for evaluating rules in open-world problems. From a learning and evaluation perspective, eachprediction made by an individual rule B ⇒ R either falls in the setof known positive examples KPB⇒R (that is, it appears in the givenknowledge base K) or belongs to a set UB⇒R of unlabeled examples(that is, it does not appear in K). Any ground atom not in K couldeither be true or false. Thus, conceptually, these unlabeled examplescan be subdivided into two setsUnknown positives This is the set of ground atoms that aretrue but do not appear in K. They are denoted by UPB⇒R.Unknown negatives This is the set of the ground atoms thatare false and do not appear in K. They are denoted by UNB⇒R.Figure 1 illustrates this subdivision of the predictions.3.1Relationship between CoverageAssumptionrc(B ⇒ R) = supp(B ⇒ R)KR= |UPB⇒R|UPR,(12)β = |R|UR,(13)βPCA =|KR|XRYR,(14)βB⇒R =supp(B ⇒ R)XBRYB⇒R| ,(15)XB⇒R={x | ∃y R(x, y) ∈ PB⇒R},(16)YB⇒R={y | ∃x : R(x, y) ∈ PB⇒R}.(17)10750我们提出了一种用于评估开放世界问题中规则的置信度得分的新方法。从学习和评估的角度来看，由个体规则B � R进行的每个预测要么属于已知正例示例集KP B �R（即出现在给定的知识库K中），要么属于未标记示例集UB � R（即不出现在K中）。KB中不在的任何groundatom可能是真的也可能是假的。因此，从概念上讲，这些未标记示例可以细分为两个集合：未知正例这是真实的ground atom集合，但不出现在K中。它们由UP B � R表示。未知负例这是假的groundatom集合，也不出现在K中。它们由UN B � R表示。图1说明了这些预测的细分。0图1：预测集P B � R可以分为标记（KP B � R）和未标记（U B �R）的例子。此外，U B � R可以细分为未知正例（UP B �R）和未知负例（UN B � R）。0基于上述划分，规则的置信度可以计算为：supp ( B � R ) + | UP B� R |0我们的洞察力是，估计规则的置信度只需要知道集合UP B �R的大小。也就是说，计算置信度得分不需要准确地知道知识库K中不出现的哪些groundatom是真实的，只需要知道有多少是真实的。因此，计算规则的置信度可以简化为估计该集合的大小。我们提出了一种新的估计UP B �R大小的方法，它只依赖于知识库中可用的信息，并在评估规则时加以考虑。我们需要解决两个关键问题来估计这个集合的大小，即：（1）规则覆盖的已知和未知正例比例之间的关系是什么？我们在3.1小节中介绍了这个关系假设。（2）对于给定关系的未标记数据的百分比预计是正例？我们在3.2小节中讨论了计算这个数量的两种方法，我们称之为β。然而，在3.3小节中，我们详细介绍了几种可能的弱点。0当使用β来得到未知正例数量的最终估计时，我们必须处理的一些细微差别。0我们的关键假设是，规则覆盖的正例比例对于标记和未标记的例子是相同的。我们称之为覆盖关系假设（rc），其定义如下：0其中 UP R 表示关系 R 的所有真实事实的集合，这些事实在KB K中不出现。直观地说，如果在 K 中出现的 R 的实例是完全随机地从 R的所有真实事实的集合中选择的，那么这个假设将成立。0我们的目标是估计 UP B � R 的大小，如果我们知道 rc ( B � R ) 和| UP R | ，我们就可以做到这一点。计算 rc 是直接的。计算 | UP R| 则更加棘手。03.2 确定 β0我们使用 β来表示属于正类的所有未标记示例的比例。这个未知的真实值 β是：0其中 U R 表示关系 R 的所有事实的集合，这些事实在 K中不出现。现在我们讨论估计这个比例的几种选择。估计 β的一个明显的解决方案是随机抽样一些关系的实例，检查哪些是真实的，并使用这个来估计 β。这可能需要大量的工作，因为每个关系都需要获得手动标签。因此，我们提出了两种不同的、数据驱动的方法来估计 β，这些方法只依赖于KB中保证可用的信息（例如，不依赖于类型约束的可用性）。一种可能性是通过进行部分完整性假设来估计 β。这导致了以下定义：0然而，在许多情况下，这可能是一个过高的估计。例如，考虑关系isPoliticianOf。相对而言，政治家的人数非常少。使用方程式14将假设政治家代表整个人群的比例，因此会高估整体人口中的政治家比例。因此，更好的可能性是根据每个规则定义 β 。0其中 X B � R 和 Y B � R 的定义如下：02 这是PU学习中的标准假设[10]。0Track: 网页内容分析，语义和知识 WWW 2018，2018年4月23日至27日，法国里昂UPR = βR x, yxXBR, yYBRKR .(18)XoldYold={R(x, y) | x ∈ (XB⇒R ∩ XR), y ∈ (YB⇒R ∩ YR)},XoldYnew={R(x, y) | x ∈ (XB⇒R ∩ XR), y ∈ (YB⇒R \ YR)},XnewYold={R(x, y) | x ∈ (XB⇒R \ XR), y ∈ (YB⇒R ∩ YR)},XnewYnew=R x, yxXBRXR , yYBRYR.fX(R)=1 − HMx∈XR |{y|R(x, y) ∈ K|}(19)fY(R)=1 − HMy∈YR�1x R x, yK�(20)UPXY=XoldYnewβBRfX Rrc BR ,|newnew3.4The Final RC Metric+PXoldYnew | + |UPXnewYold | + |UPXnewYnew ||Pr |.(21)= 0.33(22)0 = 1(23)(24)10760以这种方式设置 β考虑了更大的常量集合（不依赖于类型约束），从而避免了 β PCA的前述缺点。03.3 计算 | UP R |0我们的目标是只使用保证可用的信息来计算 | UP R |。因此，我们不希望使用类型约束，因为它们可能是未知的。因此，计算 | UP R | 的一个初步想法是考虑在 P B � R中使用观察到的常量构建的不在KB中的 R的实例的数量。然后我们可以将这个数量乘以 β ，得到以下计算：0然而，方程式（18）忽略了每个关系在我们预期与每个主体相关联的对象数量方面的差异。例如， bornIn关系是一个函数，因为每个人只出生在一个城市。然而，一个人可以有多个国籍，尽管我们预期这个数量受到一个小常数的限制。为了了解这个问题如何影响计算 | UP R | ，将 U B � R 分成以下四个子集：0例如，如果 R仅将一个对象与每个主体相关联（即，它是一个函数），那么所有新的预测（即，不在KB中的预测）都将落入 X old Y old 和 X old Ynew中，这些预测都是错误的。因此，我们需要分别估计每个子集中的未知正例数量。最棘手的两个子集是 X old Y new 和 X new Y old，因为我们需要缩小这些子集中正例示例的估计数量。为了理解原因，考虑 X old Y new 。在这里，我们需要考虑到每个主体已经在 KR中与一些对象相关联，因此我们期望它与新对象相关联的数量（平均而言）要少于如果该主体未出现在 K R中时的数量。我们通过考虑关系的功能性和逆功能性来实现这一点[12]。我们对过去的工作[12]进行了轻微修改，定义了 f X ( R ) 和 f Y( R ) ：0其中 HM是谐波平均数。这些函数返回一个介于零和一之间的值。如果关系是一个函数（逆函数），则 f X ( R ) ( f Y ( R ) )的值为零。最后，与PCA一样，我们忽略 X old Y old并假设所有这些预测都是错误的。我们使用这些数据来计算推导出 UP B � R的大小所需的信息，因此对于这些数据的任何估计都可能过于乐观。我们估计剩余三个子集的未知正例数量如下：03 唯一的变化是在谐波平均数前面插入了 1 − ，我们在后面的符号简化中进行了简化。0| UP X new Y old | = | X new Y old | × β B � R × f Y ( R ) × rc (B � R ) ,03.4 最终的 RC 指标0这导致了我们的规则置信度得分，对于规则 r : B � R 的定义如下：0置信度 RC ( r )=03.5 比较不同的评估指标0为了说明CWA、PCA和RC之间的差异，我们将使用表1和规则（5）中的KB：0r : 居住于 ( x , y ) � 是政治家 ( x , y ) .0这个规则产生了三个预测： isPoliticianOf ( Ava , Paris ) ，isPoliticianOf ( Emily , London ) 和 isPoliticianOf ( Emily , Paris) 。这些预测中只有一个出现在KB中。因此，supp ( livesIn ( x , y ) � isPoliticianOf ( x , y )) =1。现在，让我们考虑这个规则的各种置信度得分。CWA。因为isPoliticianOf ( Emily , London ) 和 isPoliticianOf ( Emily , Paris)在表1的KB中没有出现，CWA意味着这些预测被认为不是真实的。因此，这个假设下的置信度为：0置信度 CW A ( r) = 10PCA。PCA假设会假设 Ava 和 Bob在任何其他城市都不是政治家。然而，因为 Emily 在 isPoliticianOf 关系中没有出现，它对 Emily是否是政治家不做任何假设。因为PCA没有产生任何在预测集中的负例，PCA的置信度度量为：0Conf PCA（r）=10这条规则的PCA置信度为1.0，尽管显然并非每个城市的居民都是该城市的政治家。RC。在计算RC置信度时，我们希望估计剩余的2个未标记预测中有多少也是正例。Xr有两个元素（Ava，Emily），Yr也有两个元素（Paris，London），因此真实地面化比例的估计值为：0βr = 02×2 = 10接下来，我们将Ur分成4个子集：0X old Y old = {(Ava，Paris)}，0X old Y new = {(Ava，London)}，0X new Y old = {(Emily，Paris)}，0X new Y new = {(Emily，London)}，0跟踪：Web内容分析，语义和知识WWW 2018年4月23日至27日，法国里昂= 3(25),(26)= 36,(27)= 136,(28)= 12.(29)+ 136 + 112)3= 0.38(30)10770计算还必须考虑关系的属性，其中0fX（isPoliticianOf）= 1-20表明一个人可以在不同的城市担任政治家。同样，我们还计算fY（isPoliticianOf）= 103.使用rc假设的定义，我们计算关系为：0rc（r）0| K isPoliticianOf | =10在下一步中，我们计算每个子集中的正例的估计数量：0| UP X old Y new | =1 × 104×103×10| UP X new Y old | =1 × 104×103×10| UP X new Y new | 1 × 104×10最后，我们可以计算规则的置信度度量：0Conf RC（r）= 1 +（104实证评估0我们将在推断要包含在KB中的新事实的背景下评估我们提出的置信度度量。具体而言，我们的目标是回答以下问题：（1）使用AMIE+系统时，使用我们提出的RC置信度得分是否比使用PCA置信度得分更准确？（2）类型约束对预测的精度有什么影响？（3）置信度度量如何估计规则的精度？（4）βr与βPCA相比如何？（5）所提出的方法与子图特征提取方法（SFE）[13]相比如何？为了回答这五个问题，我们将比较以下算法：RC +types：使用βB�R和RDF类型约束的RC置信度PCA +types：使用PCA置信度和RDF类型约束的PCA置信度RC：使用βB�R的RC置信度和无类型约束PCA：PCA置信度和无类型约束RC_PCA +types：使用βPCA和RDF类型约束的RC置信度04.1方法论0我们使用AMIE+ [12]系统在YAGO2 [16]和WikidataKB上学习规则（参见第2.3节）。我们使用原始论文中的相同参数设置，并设置minHC = 0.01（支持阈值）和maxLen =3，分别得到137和1515个学习到的规则。在找到满足支持阈值的所有规则之后，AMIE+系统仅保留那些还满足PCA置信度阈值的规则，我们将其设置为0.1，与AMIE+论文中的YAGO2KB相同。因此，YAGO2KB的最终规则集由最初137个规则中的69个规则组成0满足此阈值。由于在WikidataKB中满足支持阈值的规则要多得多，我们使用了更高的PCA置信度阈值0.6，从1515个初始规则中选择了456个规则。使用我们提出的置信度得分时，自然只考虑那些既满足支持阈值又满足RC置信度得分阈值的规则。然而，当比较PCA和RC置信度时，我们希望避免由于每个置信度得分导致选择不同数量的规则而导致的性能差异。因此，为了确保两种置信度度量之间的公平比较，我们选择使用RC置信度的阈值来选择规则。我们根据RC置信度指标对满足支持阈值的规则列表（YAGO2为137个，Wikidata为1515个）进行排序。然后，我们选择YAGO2 KB的前69个规则和WikidataKB的前456个规则，根据RC置信度选择规则。因此，使用每个置信度得分选择的规则集中包含不同的规则，但规模相同。使用所选的规则，我们生成了所有预测，并为每个预测分配了置信度。由于某些预测可以从多个不同的规则中推导出来，我们使用Galarraga等人的方法[12]计算了每个基本原子的置信度得分：0score（R（x，y））= 1 -0n �0i = 1（1 - Conf *（ri）），（31）0其中ri，i∈{1，...，n}是预测R（x，y）的规则集，Conf*是适当的置信度度量。该公式为从多个规则派生的基本原子分配了更高的置信度值，这在直观上是有意义的。在考虑类型约束的情况下，我们使用YAGO3 KB[22]的rdf：type约束，Wikidata属性的类型约束和类型检查NELL约束。在这种情况下，违反约束的任何预测都将被丢弃。为了评估预测的质量，我们基于score（R（x，y））对所有关系生成了一个排名。根据置信度得分，我们将预测分成宽度为0.01的桶（例如，第一个桶包含得分在1到0.99之间的预测，第二个桶包含得分在0.99到0.98之间的预测，依此类推）。我们计算了第一个桶的精度，使得累计地进行了1万次预测。然后，我们评估了每个后续的桶，使得额外进行了5万次预测。然后，像Galarraga等人[12]一样，我们通过从当前桶中随机抽样100个未标记的预测来估计累积精度，这些预测的置信度得分范围等于或高于当前桶。对于YAGO2KB上的预测，我们检查每个选定的预测是否出现在YAGO3KB中，如果是，则将其标记为正确。如果它没有出现在YAGO3KB中，我们会手动检查该事实。我们手动标记了WikidataKB上的所有选定事实。为了将我们的方法与子图特征提取方法（SFE）[13]进行比较，我们使用了NELL KB [5]。SFE是Path RankingAlgorithm（PRA）[17]的增强版，为每个关系学习了一个单独的模型，并为每个关系单独生成预测。我们使用了Gardner和Mitchell[13]和Gardner等人[14]中使用的相同数据，重点关注NELLKB中已知实例数量最多的10个关系。我们使用SFE算法获取了所有10个关系的预测集，并根据SFE概率度量[14]将它们放入桶中。我们还使用了与之前提到的相同的支持阈值在NELL数据上运行了AMIE+系统。然后，我们仅保留了139个规则，其中一个规则的头是10个考虑的关系之一。我们根据PCA和RC置信度对所有规则进行了排序，并使用先前的过程使用每个规则集进行预测。YAGO2，Wikidata和使用的NELL KB子集的特征如表2所示。0跟踪：Web内容分析，语义和知识WWW 2018年4月23日至27日，法国里昂10 relations in the NELL KB with the largest number of knowninstances. We obtained the set of predictions for all 10 relationsusing the SFE algorithm and placed them into buckets based onthe SFE probability measure [14]. We also ran the AMIE+ systemon the NELL data using the same support threshold as previouslymentioned. Then, we only kept the 139 rules that had one of the10 considered relations as the head. We ranked all rules accordingto both the PCA and RC confidences, and employed the previouslyprocedure to make predictions with each rule set.The characteristics for the YAGO2, Wikidata, and the used subsetof the NELL KBs are provided in Table 2.YAGO2948K33Wikidata8.4M430NELL3.4M520isMarriedTo x, yhasChild x, zhasChild y, zdiedIn(x, y) ∧ isLocatedIn(y, z) ⇒ isPoliticianOf(x, y)livesIn x, yisLocatedIn y, zisPoliticianOf x, z .livesIn(x, y) ∧ isLocatedIn(y, z) ⇒ isPoliticianOf(x, z).Track: Web Content Analysis, Semantics and KnowledgeWWW 2018, April 23-27, 2018, Lyon, France10780表2：实验评估中考虑的每个知识库的特征。0知识库 # 事实 # 关系04.2 结果04.2.1 RC vs. PCAConfidence.为了回答第一个问题，我们在YAGO2和WikidataKB上比较了使用RC和PCA置信度（带有和不带有类型约束）选择的规则集。图2显示了所有方法的精度。无论进行了多少次预测，无论在哪个KB上，RC置信度都能达到更高的精度。在开始时，当只进行了少量预测时，两种方法的性能相似。然而，随着预测事实的增加，差异开始显现。现在我们将更详细地讨论在YAGO2KB上的结果。使用RC置信度时，精度在图中的第一个点之后增加。该度量将以下规则排名为第一：0首先，这条规则在逻辑上是相关的，但是相对于hasChild关系，YAGO2KB相当完整。因此，这条规则最终会产生一些描述继子关系的预测，这导致了排名列表顶部的精度稍微降低。使用PCA置信度时，随着预测数量的增加，精度下降。该度量将以下规则排名为第二和第三：0一般来说，这些规则是不成立的，因此会产生大量高排名但不正确的预测。04.2.2类型约束的影响。如预期的那样，图2显示包含类型约束可以提高两种度量的性能。然而，在YAGO2KB上，使用没有类型约束的RC置信度的性能与带有类型约束的PCA置信度相当或稍微更好，并且在WikidataKB上性能更好。此外，没有类型约束的RC置信度优于没有类型约束的PCA置信度。这些结果进一步证明，以更复杂的方式推理未标记数据（如RC置信度度量所做的）可能是有益的。0这些结果进一步证明，以更复杂的方式推理未标记数据（如RC置信度度量所做的）可能是有益的。04.2.3 逐条规则比较。我们选择了在YAGO2KB上学习到的九条规则，并将PCA和RC（都带有类型约束）的置信度与在手动标记数据上估计的规则置信度进行了比较。选择的规则根据至少一个评分函数进行了高排名，或者反映了它们之间的差异。我们通过对每条规则进行100次随机预测来估计置信度。在YAGO3KB中出现的预测被标记为正确，其他预测由人工评估。结果如表3所示。对于每条规则，表格给出了PCA和RC置信度度量以及规则在所有学习到的规则中的排名。它还包括每条规则进行的未出现在KB中的预测的数量（即UB�R的大小）和在手动标记数据上估计的精度。RC置信度倾向于系统地低估规则的精度。这可能是因为βB�R低估了未标记数据中真实事实的比例。在使用RC置信度估计精度时，我们根据主语和客体在KB中的先前出现情况将未标记预测集合划分为子集。RC置信度倾向于更高地排名其中一个（或多个）子集为空的规则。当fX(R)和fY(R)都等于零时，会出现空的子集。考虑每个关系的特点可以使RC置信度表现更好。RC置信度还倾向于对那些在KB之外进行的预测较少的规则进行更高的排名。相反，PCA置信度根据规则的特点过高或过低地估计精度。例如，当计算具有每个主语的多个客体的关系（例如dealsWith）的置信度时，PCA置信度倾向于低估精度。当一个主语的每个客体接近（或完全）等于一个客体时，它对精度的估计更好。虽然置信度估计可能不太准确，但它们倾向于产生良好的排名。关于通过后处理校准估计的广泛文献（例如[6,33]），可以将这些技术调整到我们的设置中。04.2.4 比较不同的β值。图3显示了在YAGO2KB上使用βB�R和βPCA的比较。显然，使用βB�R会获得更好的性能。使用βPCA的主要问题是在几种情况下它往往会过高估计置信度。即，当规则头中的关系包含一个参数，而只有一个小子集的实体会出现在涉及该关系的真实groundatom中时，它就会遇到困难，例如以下规则：04.2.5 与SFE的比较。最后，我们将AMIE+与Subgraph FeatureExtraction（SFE）方法[13]进行了比较，该方法是一种近期广为人知的知识库补全方法。图4显示了在NELLKB的描述子集上使用PCA和RC置信度的SFE算法和AMIE+之间的比较。SFE获得了最高的精度。PCARCisMarriedTo(x, y) ⇒ isMarriedTo(diedIn(x, y) ∧ isLocatedIn(y, z) ⇒ isPoliticianOf(x, z)130380.8520.03670.36created(x, y) ∧ produced(x, y) ⇒ directed(x, y)10180.5980.5050.13isMarriedTo(x, y) ∧ hasChild(x, z) ⇒ hasChild(y, z)26430.5890.5910.51bornIn(x, y) ∧ isLocatedIn(y, z) ⇒ isPoliticianOf(x, z)335590.57110.01830.33hasChild(x, y) ∧ hasChild(z, y) ⇒ isMarriedTo(x, z)19710.41200.5040.86livesIn(x, y) ⇒ isPoliticianOf(x, y)14515

下载后可阅读完整内容，剩余1页未读，立即下载