从知识图谱流中学习时间规则

55 浏览量更新于2023-09-05 收藏 934KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

−→→∧从知识图流中学习时态规则Pouya Ghiasnezhad Omran，Kewen Wang，Zhe Wang澳大利亚格里菲斯大学pouya. griffithuni.edu.au，{k.wang，zhe.wang} @ griffith.edu.au摘要知识图是一种流行的数据管理方法，近年来得到了广泛的应用。虽然已经提出了几种方法来学习- ING模式信息的形式的逻辑规则的KG，他们是不适合KG与不断发展的数据。本文提出了一种从KG流中学习时态规则的方法，首次尝试解决这个问题。学习的时间规则可以应用于KG流上的链路预测和事件预测。基于所提出的方法，一个系统StreamLearner已经实现。我们的实验结果表明，流学习器是有效的和高效的学习时间规则在现实生活中的数据集，并显着优于一些国家的最先进的系统，不占时间的知识或不断变化的数据。介绍知识图（KGs）已被证明是一种灵活而强大的数据管理方法，是新一代信息系统的基础。在许多方法中，KG被表示为RDF三元组的集合，并且因此也被称为RDF图。KG通常非常大，因此需要自动化和可扩展的方法来创建、维护和使用KG。另一方面，它将是必不可少的，从幼儿园提取模式信息。因此，近年来，已经开发了许多系统用于从KG学习规则（Gala'rraga等人，2015;Omran，Wang和Wang 2018）。例如，它们能够学习playsFor（x，y）形式的规则。来自KG YAGO 2（Suchanek，Kas-1）的isAffiliatedTo（x，y）neci和Weikum 2007）。越来越多的知识库正在出现，除了实体之间的静态关系外，模型事件随着时间的推移而发生然而，现有的规则学习系统习惯性地假设知识库是静态的，并且不适合于具有不断演变的数据的知识库。包含不断演变的数据的KG可以被视为KG在一系列时间点上的快照流。图1示出了这样的版权归作者所有。以. Martin，K. Hinkelmann，A. Gerber，D.Lenat，F.van Harmelen，P.Clark（Eds.），AAAI 2019春季研讨会将机器学习与知识工程相结合斯坦福大学，帕洛阿尔托，加利福尼亚州，美国，2019年3月25日至27日。KG流，其涉及四个实体和在不同时间点在它们之间发生的一些实体e0，e1和e2是三个国家，e3是导弹。过去发生了三件事：e0国在时间点τ4试射导弹，然后在时间点τ-3与e1国建立军事合作，并对 e2国实施制裁。除了经典的链接预测问题，例如图1：KG流的示例。“除了e 0，还有哪些国家试验过导弹？”或者将预测问题与诸如还有一些模式层次的问题也很有趣，如这带来了一些研究挑战。首先，这需要在模式信息中表达时间知识。例如，上述问题可以表示为时态规则测试（x，missile，t）imposeSanc（x，y，t+1）攻击（x，y，t+k），其中k范围超过整数。用spe学习时态规则Cifick和最高置信度表示对上述问题的回答事实上，我们的实验表明，使用时间规则也提高了KG流上经典链接预测的准确性（见第节）。此外，现有的规则学习器不能直接用于学习时间规则。最后，仍然缺少一个用于时序规则的流学习和推理的框架在实际问题中，我们面对的是这类动态数据，忽略了它们的时间特性，使得得到的模型不准确或不可预测。例如，ICEWS（Trivedi et al. 2017）是一个旨在协助美国政策专家的预警系统。通过这个系统，分析师预测了一系列国际联系我们联系我们{|∈−−≥≥危机在本文中，我们第一次尝试解决这个问题，通过开发一种方法，从KG流的时间规则的学习在我们提出的方法中，现有的规则学习KG是用来提取静态规则，从一个初始的数据集，这是事实的集合在前几个时间点。这些静态规则被称为结构规则，用于构建候选时态规则的空间。然后，我们提取时间规则从这个规则空间generalising静态规则的主要质量措施，以temporal规则。基于这种方法，我们实现了一个名为StreamLearner的系统。实验结果表明，该方法是可行的。我们的实验表明，StreamLearner优于最先进的静态KG学习器，包括HOLE（Nickel，Rosasco和Poggio2016）和TransE（Bordes et al.2013）关于流传输场景中的链路预测我们还表明，（时间）规则学习KG数据流和相应的链接预测可以有效地和高效地进行各种配置的流。例如，它可以以可接受的准确度预测未来不同时间点的事件。背景知识图（KGs）关注实体，如人和地点，以及它们之间的二元关系KG由RDF三元组（e，P，e’）的集合组成，其中的每一个例如强调实体e通过以下方式与另一实体e’关系P.这样的KG是静态的，在这个意义上，时间信息不被考虑。在本文中，我们考虑流的幼儿园。KG流由（e，P，e′，k）形式的四元组的（可能无限的）集合组成，其中的每一个表示关系P在时间点k将实体e与实体e′相关联的事件。为了方便起见，这样的事实也称为事件。在会议之后--在知识表示中，我们将这样的事件表示为P（e，e′，k），其中P是三元谓词，e和e′是实体，k是时间点常数。考虑KG流S和两个整数i，j，其中0ij时，S的[i，j]-段S[i，j]是由时间点在i和j之间并且包括i和j的所有事件组成的S的子集。即，S[i，j]= P（e，e’，k）P（e，e’，k）S，ikj。当i=j时，它可以简化为S[i]。注意，S可以被视为KG S[0]、S[1]、. 我的天我的天.有时我们想通过省略事件中的时间点来考虑事实，S*表示通过用事实P（e，e′）替换每个事件P（e，e′，k）而从S获得的静态KG。封闭路径规则（或CP规则）的类已经引起了关注，在社区的KG，因为它提供了一个平衡的表达能力之间的挖掘规则的KG和规则挖掘的效率。这样的句法限制现在是一个广泛采用的语言偏见的文献中的规则挖掘知识库。例如，CP规则是路径排名算法（Gardner和Mitchell 2015 ）、规则嵌入（ Yang et al. 2015 ）、（Wang和Li 2015）和ScaleKB（Chen et al. 2016）。CP规则（或简称规则）r具有以下形式P1（x，z1）∧ P2（z1，z2）∧... ∧ Pn（z n−1，y）→P（x，y）。（一）这里x，y和zi直观地说，规则r表示如果P1（x，z1），P2（z1，z2），…，Pn（zn1，y）成立，则P（x，y）也成立。原子P（x，y）是r的头，表示为head（ r ），并且原子的集合 P1 （ x ， z1 ）， P2 （ z1 ，z2），…Pn（z n1，y）是r的体，记作body（r）。它被称为闭合路径，因为规则体中的谓词序列形成了从主语参数到头谓词的宾语参数注意，CP规则允许递归，即，头部谓词可以出现在主体中。在本文中，我们考虑以下形式的时间CP规则（或简称时间规则）γP1（x，z1，t）∧P2（z1，z2，t）∧... ∧Pn（zn−1，y，t）-P（x，y，t + k）。（二）这里t是时间点变量，k是整数。规则读取如果规则主体在时间点t保持，则规则头部在时间点t+k保持。显然，时间CP规则的类别可以更一般，例如，对于规则中的不同原子可以允许不同的时间点。我们对时间CP规则的定义是表达式的平衡规则挖掘算法的能力和效率。特别是，在从数据流中学习规则时，我们感兴趣的是基于当前数据流进行预测。时态规则学习现有的规则学习方法通常涉及两个组成部分：一种是学习规则的结构（例如，通过搜索和细化），另一种是通过某些质量度量来过滤掉低质量规则我们的临时规则学习也涉及这样两个组件。考虑KG流S，为了学习规则的结构，我们的方法使用流S*[0，n]（n0）的初始片段中的事实，其由从时间点0到n的事实组成，作为结构训练数据。静态规则学习器，如RLvLR（Omran，Wang和Wang 2018）可以可以用来学习一组CP规则R。这样的CP规则被称为结构规则。也就是说，结构规则是从结构训练数据学习的给定形式（1）的规则r，对于每个整数k0，我们获得形式（2）的时间规则r（k）P1（x，z1，t）∧P2（z1，z2，t）∧... ∧Pn（zn−1，y，t）-P（x，y，t +k）。然后，为了评估候选时间规则的质量，我们采用标准度量，即支持度、标准置信度和头部覆盖率，这些度量用于规则学习文献（Chenetal. 2016;Ga la´ rra g aetal.2015）。对于时间规则r（k），r（k）在时间点τ的支持度自然地被定义为r（k）的头部在时间点τ具有实例化并且r（k）的主体在时间点τ具有实例化的实体对的数目。−−≥−∧ −××∧→≥τk。形式上，一对实体（e，e’）在时间点τ处满足具有τ 0的r的主体，表示为主体（r，e，e’，τ），如果存在实体e1，…，e n1，使得P1（e，el，τ），P2（el，e2，τ），… Pn（eN1，e′，τ）是S[τ]中的事件。并且（e，e′）在时间点τ满足r的头部，记作head（r，e，e′，τ），如果P（e，e′，τ）是S[τ]中的事件。则r（k）在时间点τ的支持度定义为时态规则的SC和HC概括了那些具有时态色彩的标准概念，但它们特别地，时间规则在一个时间点处的SC和HC独立于在其他时间点处的SC和HC。另一方面，KG流中的时间点处的时间规则的质量应当聚合先前时间点处的对应（SC和HC）值因此，动态标准（k）.0，’如果τk’时间点τ处的时间规则γ的置信度（DSC）为supp（r，τ）=#（e，e）：head（r，e，e，τ）body（r，e，e′，τ k），否则（三）定义如下： .SC（γ，τ），若τ= 0- ×−注意，由于在静态情况下只有一个时间点0时，支持的标准概念是其中τ=k=0。DSC（γ，τ）=（1 α） DSC（γ，τ 1）+α SC（γ，τ），否则（六）为了规范支持度，提出了标准支持度的概念已经引入了分别对应于标准准确率和召回率的置信度和头部覆盖率时间规则r（k）在时间的标准置信度点τ是在τ处的支撑度与所述数量之间的比率在时间点τ−k满足身体的实体对的ber：其中0<α1是调整权重先前聚合的DSC的DSC和当前的SC的DSC的DSC的DSC的DSC的时间点以类似的方式定义动态头部覆盖（DHC）.HC（γ，τ），如果τ= 0- ×−SC（r（k），τ）=超p（r（k），τ）#（e，e′）：body（r，e，e′，τ−k）（四）DHC（γ，τ）=（1 α） DHC（γ，τ1）+α HC（γ，τ），否则（七）类似地，我们定义时间规则r（k）是支持度与在时间点τ满足头部的实体对的数量之间的比率：超p（r（k），τ）我们使用DSC和DHC分数来选择高质量的速度-在每个时间点的规则。注意，虽然结构规则的集合总是相同的，并且候选时间规则也是相同的，但是在每个点处的所选择的时间规则的集合通常是不同的，这是由于时间规则的DSC和DHC得分的变化。HC（r（k），τ）= #（e，e′）：head（r，e，e′，τ）（五）时间的规则。在下面的示例中，我们说明了时态规则生成的过程和上面定义的质量度量。实施例1如下考虑KG流S中的前三个S[0]={P1（e3，e2，0），P1（e2，e1，0），P1（e1，e3，0），P2（e3，e1，0）}S[1]={P1（ e2，e2，1），P1（e2， e1，1），P2（e1，e3，1），P2（e2，e1，1），P2（e2，e3，1），P2（e3，e3，1），P（e1，e1，1），P（e1，e3，1）}S[2]={P1（ e1，e3，2），P2（e2， e2，2），P2（e3，e1，2），P2（e2，e1，2），P2（e3，e3，2），P（e1，e3，2），P（e1，e1，2）}设r：P1（x，z）P2（z，y）P（x，y）是CP规则.考虑k = 0，1，2，并且我们具有基于r的以下候选时间规则：r（0）：P1（x，z，t）∧P2（z，y，t）→P（x，y，t）（一）结合流学习和推理在本节中，我们提出了我们的算法，结合了学习和推理的时间规则，在一个动态的方式，纳在KG流。我们的算法将KG流S（即，四元组的流），对于该四元组，存储直到时间点n的初始段中的所有事实，S*[0，n]和两个整数l，m0作为最小值和最大值发音距离它会产生一股电磁波-poral规则集和派生事件流特别地，我们使用来自以上部分的方法来获得候选时间规则的集合：r（l），r（l+ l），. 我的天我的天，r（m）。然后，在每个时间点，我们使用其DSC和DHC分数选择质量时间规则并应用所选择的规则来导出关于当前和未来时间点的事件。对于KG流S上的规则质量度量计算和规则应用，需要移位窗口我们假设在每个时间点τ，只有大小为w的S的一段S[τ−w+1，τ]用于计算。这里r：P1（x，z，t）∧ P2（z，y，t）→P（x，y，t+1） w≥1是一个称为窗口大小的整数，它可以变化r（2）：P1（x，z，t）∧P2（z，y，t）→P（x，y，t+2）在时间点τ=2处，这些规则的质量可以被评估如下：sup（r（0），2）=2，SC（r（0），2）=1， HC（r（0），2）=1supp（r（1），2）=0，SC（r（1），2）=0，HC（r（1），2）=0supp（r（2），2）=1，SC（r（2），2）=0。5，HC（r（2），2）=0。5在时间点上。不仅出于存储器空间考虑，而且由于流处理的注意，结构规则可以离线学习，而时态规则过滤和规则应用需要在线执行。在时间点τ处，为了评估候选节奏规则r（k）的质量，显然，如果τk，则DSC（r （k），τ）=DHC（r（k），τ）=0;否则，我们假设DSC（r（k），τ-·≤−你们−−×−×−联系我们≥\−∪∪≥≥∅ ∅∅≤ ≤∈1）已从先前时间点获得。通过（3）然而，我们只能访问移位窗口中的事件，即仅S[τ w+1，τ]中的事件。在这种情况下，如果k w1，则我们具有所需的事件，并且质量度量可以如（3）-（7）中那样计算明智地，我们设置DSC（r（k），τ）=βDSC（r（k），τ1）和HC（r（k），τ）=βHC（r（k），τ其中0<β<1用于调整先前聚合的DSC的权重，这是由于在当前时间点不可评估的规则质量。在时间点τ，为了导出在时间点τ + k的新事件，其中l钾m（记住，m是最大预测值。距离），我们将形式r（k）的选定时间规则应用于S[τ]中的事件。获取置信度(CD)对于衍生事件，我们调整score*（）函数（1）A.B. A.B. A.2015）通过聚集所有的DSC来可以以Noisy-OR方式导出事件的时间规则。直觉是由更多规则导出的事件应该具有更高的置信度。形式上，对于事件ξ=P（e，e’，τ）和可以从KG流导出ξ的时间规则集合Γ，ξ的CD被定义为如下：CD（ξ）= 1 − （1− DSC（γ，τ））。γ∈Γ图2：流学习和推理。在图2中，我们示出了流的一个快照，其中当前点是τ，w=4，并且m=2。在这个例子中，我们考虑一个结构规则r。在这个时间点，我们从当前和先前的时间点学习DSC，同时我们使用这个时间点作为规则的主体，这些规则被激发并被执行。预测当前时间点和未来时间点的新事件。算法1显示了我们的系统的时间规则学习和推理KG流的数据流和主要组成部分。在第2行中，我们使用静态规则学习器StaticLearner（例如RLvLR）在结构训练数据S*[0，n]上获得一组结构规则R。这是脱机执行的。然后，在行3中，获得形式r（k）的候选时间规则的集合Γ，其中最大k为m。在线流学习和推理从第4行开始。在行5中，读入时间点τ处的当前事件，并且在行7中，忘记移位窗口之外的过去事件。因此，W由当前移位窗口中的所有事件组成。在第9行中，基于候选时间规则在时间点τ处的DSC和DHC得分来过滤候选时间规则。所述算法1KG流学习和推理输入：KG流S和两个整数m、n0输出：时间规则集和事件集在每个时间点τ01：W：=，τ：=0，τ：=，τ：=2：R：=StaticLearner（S*[0，n]）3：Γ：=候选构造（R，m）4：环5：W：=W S[τ]6：如果τ w，则7：W：=W S[τ w]8：如果结束9：r：=滤波器r（r，W）10：流出IT11：f或每个lk，m和每个r（k）r，do12：Sτ+k：=Sτ+k应用（r（k），S[τ]）13：结束14：流出15：τ：=τ+116：端环之前，这涉及聚合先前的DSC和DHC分数，并且受W在当前的转移风中可用的事件的限制。在过滤之后，所选择的规则集rt可以被流输出。所选择的时间规则然后可以用于推理。在第12行中，将每个规则r（k）应用于当前事件S[τ]以导出未来时间点τ+k中的事件。注意在时间点τ处的事件是从一个se递增地导出的。过去时间点的顺序一旦在时间点τ处的所有学习的时间规则已经被应用，在τ处的导出事件将不会改变并且可以被流出。实验我们已经实现了一个系统，StreamLearner，基于上述算法，并进行了几个实验来评估它。在我们的实现中，RLvLR（Omran，Wang和Wang 2018）被部署用于学习结构规则。我们的实验被设计成证明时间规则是捕获时间知识的有效模型，并且因此可以提供比一些现有的统计模型（诸如 TransE （ Bordes et al. 2013 ）和 HOLE（Nickel，Rosasco，and Poggio 2016），不考虑时间知识或不断变化的数据。我们的目标不是与时间统计模型（如Know-Evolve（Trivedi et al. 2017）。为了分析在流推理中具有时间规则超过静态规则的益处，我们还使用了StreamLearner的具体而言，我们的实验结果旨在验证以下观察结果：1. StreamLearner在链接预测的准确性方面明显优于基线方法StreamLearner-S，TransE和HOLE2. 可以有效地执行通过时间规则的当尺寸- -结构训练数据的增加，预测精度也增加，而没有显着牺牲的效率。3. 链路预测的准确性通常随着移位窗口的大小的增加或最小预测距离的减小而增加。StreamLearner在小窗口大小和长最小预测距离的情况下仍然优于StreamLearner-S。在我们的实验中，我们使用了综合危机预警系统（ICEWS）数据集（Trivedi et al. 2017），其基于历史事件，包括社会政治代理之间的交互（即，个人、协会、组织、部门和民族国家之间的合作或对抗行动）。这些事件被自动识别并从新闻中提取出来。它包含2014年的事件，每两个辅助时间点之间间隔24小时（即总共365个时间点ICEWS是我们实验的理想基准，因为在这个基准中的代理的行为具有复杂的交互模式。我们不知道类似类型的任何其他基准我们还采用了ICEWS-500，如（Trivedi et al. 2017年），其中包含一小部分ICEWS，有500个实体。我们包括这个小子集来检查数据大小对不同系统的表1中示出了关于两个数据集的一些统计数据，包括实体的数量、事件的数量、谓词的数量和时间点的数量。表1：数据集统计数据集#实体#事件预测数量T点数量ICEWS公司简介12498500668080445665260260365365我们进行了两组实验。在第一组实验中，我们使用来自前 50 天的事实（即，S*[0，50]）作为学习结构规则的训练数据。我们注意到，数据集的大小比用于从流学习的其他approaches中的初始数据集小得多。自静态规则学习器RLvLR学习关于规则头中指定谓词的静态规则，称为目标谓词，我们随机选择了20个目标谓词。在第50天后，我们每两周评估一次链接预测的准确性即，规则结构训练后的23个对于这些时间点k中的每一个，我们将数据集分成70%的训练和30%的测试，如大多数文献中所述。链接预测任务是为每个目标谓词P和每个实体e识别实体e’，使得P（e，e’，k）是KG流中发生的事件;或者在一个实施例中，为了针对每个目标谓词P和每个实体e识别实体e’，使得P（e’，e，k）是流中的事件如文献中所述，通过过滤的平均递归秩（MRR）和命中率@10来测量预测准确度（Bor des et al.2013）。在本实验中，移动窗口的大小固定为10天，最大预测距离也为10天。对于每个时间点k，SteamLearner应用学习时间规则到 S[k] 中的训练数据，以及作为S[k10，k1]，以导出k处的缺失事件，而StreamLearner-S将所有结构规则应用于S[k]中的训练数据。TransE和HOLE从S[k]中的训练数据获得它们各自的统计模型。表 2 显示的性能关于StreamLearnerStreamLearner-S、TransE和HOLE。我们报告了时间规则的数量（#R）、结构规则的数量（#SR）、MRR和Hits@10（H@10）得分，这些得分是所有选定时间点和目标谓词的平均值实验结果表明，StreamLearner显著优于基线系统。特别是，StreamLearner在Hits@10上的准确度比TransE和 HOLE 高约 4 倍，在 MRR 上的准确度高约 5 倍。StreamLearner还表现出优于其静态版本的性能，这清楚地表明了时间规则优于静态规则的流响应。实际上，时态规则的平均数量仅是结构规则的3倍考虑到候选时态规则的数量（结构规则的10倍），表明时态规则可以更精细、更精确地建模事件之间的关联。图3显示了Stream-Learner和基线系统的详细性能，从中我们可以看到StreamLearner在一段时间内始终表现出卓越的性能。与统计模型相比，时间规则的主要益处在于它们的含义是人类可理解的，并且因此所学习的时间规则本身包含关于该领域的有价值的时间知识。虽然ICWEC数据集中的实体和谓词被混淆，因此难以评估学习的时间规则的含义，但不难对一些常见模式背后的时间知识进行为了说明的目的，我们提出了以下两个时间规则，其谓词名称被替换为ICEWS字典中有意义的术语0。05：rejectMaterialCooperation（y，x，t）→threatenWithSanctions（x，y，t）.0。15：rejectMaterialCooperation（y，x，t）-threatenWithSanctions（x，y，t +1）.每个规则前的数字是对应的DSC。这两条规则表明，如果y国拒绝与x国进行实质性合作，那么y国不太可能在同一天以制裁威胁x国。但这更有可能发生在第二天。学习的时间规则的质量和它们在链路预测中的性能受到与KG流相关的几个因素的影响，包括结构训练数据的大小、窗口大小和（最小和最大）预测距离。对于第二组实验，我们评估这些因素如何影响临时规则的质量和性能结构训练数据的大小影响结构规则的数量和质量，进而影响时态规则的学习。特别是，它影响StreamLearner的效率。表3显示了不同大小n的结构训练的StreamLearner表2：链接预测中的时间规则数据集StreamLearner#TR MRR H@10StreamLearner-S#SR MRR H@10TransEMRR H@10孔MRR H@10ICWEC17480.350.485680.240.300.050.120.070.10公司简介17280.370.545350.220.310.050.140.050.09图3：KG流上的链路预测的性能比较。dataS*[0，n]，并将其性能与StreamLearner-S进行比较。我们报告了结构规则的数量（#SR）、流学习和推理时间（时间，以秒为单位）。onds）、MRR和Hits@10（H@10）评分，在所有选定时间点和目标等同器械上取平均值表3：不同大小的结构学习数据的性能大小SR数量StreamLearner时间MRR H@10StreamLearner-S时间MRR H@1010270.80.190.250.10.020.02501233.30.220.300.20.060.111002627.00.270.370.40.100.191503559.60.260.380.60.120.2125055114.10.300.440.80.140.24总的来说，允许更大的结构学习数据提供了更多的结构规则，并导致StreamLearner和StreamLearner-S上更好的预测准确性。然而，在时间效率和预测准确性之间存在权衡，并且随着结构学习数据的大小增加，StreamLearner的处理时间比StreamLearner-S的处理时间增加得更显著，这是由于可didate时态规则的数量。然而，Stream- Learner的处理时间仍然可以接受（14.1秒），即使在KG流的显著大部分（365个中的250个）用作结构训练数据。虽然Stream-Learner在所有情况下再次显著优于StreamLearner-S，但有趣的观察是，当用于规则结构学习的可用数据较小时，使用时态规则优于静态规则的好处这指示何时可用的结构知识（即，事实之间的关联，以结构规则和时间规则表示以时间规则表示的事件之间的关联）在预测中起更重要的作用。窗口大小和最大预测距离都决定了可以用于学习和预测的历史数据量，从而影响我们系统的性能。为了简单起见，在以下实验中，我们将窗口大小设置为随时间固定并且等同于最大预测距离。图 4 显示了StreamLearner在窗口大小从1到15范围内的性能同样，我们使用StreamLearner-S作为基线，其性能不受窗口大小的影响，并且MRR和Hits@10得分在所有选定的时间点和目标谓词上取平均值。一般来说，StreamLearner的性能随着窗口大小的增加而提高。它还揭示了一些局部最优点，即窗口大小3和10。Al-−图4：不同窗口大小下的性能。尽管对于小于10的窗口大小，可以观察到命中率@10的轻微改善，但是MRR似乎是平坦的。这表明，在现实生活中，在流中更远的地方发生的事件往往与当前事件更松散地相关联，并且在实践中，使用小窗口大小（如3或10）可能是有效的最小预测距离也影响学习和预测，并且可能更多地影响预测。在之前的实验中，我们将最小预测距离设置为0，这允许从当前数据导出事件。显然，随着最小预测距离增加，系统面临着在距离上最终确定导出事件的挑战。例如，如果最小预测距离被设置为3，则学习的时间规则具有r（3）、r（4）、r（5）、r（6）、r（7）、r（8）、r（9）、r（这意味着，所有的事件在时间在时间点τ3处获得点τ（ττ）。这是有效的需要预测至少提前3天发生。在以下实验中，我们使用StreamLearner-S作为基线，评估了最小预测距离对Stream-Learner性能注意，如果最大预测距离保持相同，则最小预测距离的增加将减少候选时间规则的数量为了通过距离预测将该因子图5显示了StreamLearner在最小预测距离范围从0到10时的性能。再次，对值进行平均。图5：不同最小预测距离的性能。StreamLearner的性能随着预测距离的增加而下降。一个有趣的观察结果是，准确度的下降并不像人们预期的那样剧烈特别是，提前一天或两天的预测与“预测”今天的准确性相当此外，7被证明是局部最佳点，这可能表明事件关联中的每周模式。讨论和结论我们工作的主题是流推理和流学习的交叉点已经有一些方法来解决这两个问题，但分开。数据流中的知识表示和推理已经在（ Beck ， Dao-Tran 和 Eiter 2018;Marx，Kroützsch，andThost2017;ChekolandPirr2017 ） . 例如，（ Marx ， Kro¨tzsch 和Thost2017）提出了一种多属性关系结构（MARS）来呈现以下规则：x，y，z1，z 2，z 3：spouse（x，y）@{start：z 1，loc：z2，end：z 3} →spouse（y，x）@{start：z1，loc：z 2，end：z 3}但他们没有研究如何从数据流中提取这样的规则。在KG社区中，已经提出了一些用于从给定（静态）KG学习规则的方法最近，从表示学习中嵌入的方法被应用于（静态）KG的规则学习（Omran，Wang和Wang2018; Yang，Yang和Cohen 2017），这已被证明非常有效。有许多关于通过采用嵌入方法进行链接预测的工作，例如（Trivedi et al. 2017; Sadeghian等人2018）。我们的方法从KG规则学习是不同于他们的，而我们的方法也可以应用于链接预测。这是因为我们专注于以一阶规则的形式学习结构信息。还有一些方法可以从关系数据流中学习基于逻辑的模型，例如（Katzouris，Artikis和Paliouras 2015; Mitra和 Baral 2016 ）。在（ Katzouris 、 Artikis 和 Paliouras2015）中提出了一种用于自动提取事件定义的方法。他们的系统基于时态事件信息数据集逐步细化事件的逻辑定义。由于该方法基于归纳逻辑编程中的细化算子，因此所得系统对于处理KG而言不可扩展。在本文中，我们提出了一种方法，学习时间规则的数据流的知识图（KG）的格式。这样的规则可以用于推理不同时间点上的事件。特别地，时间规则对于KG数据流的设置中的链接预测和事件预测是有用的。该方法本质上是一个框架，从KG数据流的规则学习，通过扩展现有的规则学习KG。基于目前最先进的知识库规则学习器RLvLR，我们实现了一个StreamLearner系统，它可以从知识库数据流中学习时间规则，完成动态知识库并为它们预测事件。我们的实验表明，StreamLearner显着优于基础系统。它能够处理大型幼儿园和一个有前途的方法·创建、维护和使用KG格式的数据流。今后的工作仍有一些有趣的问题我们计划开发一个框架来处理更复杂的事件，例如具有开始和终止时间的事件或具有发生标签的位置的事件。引用Beck，H.;Dao-Tran，M.;和Eiter，T.2018年。LARS：基于逻辑的流分析推理框架。人工智能261：16-70。Bordes ， A.;Usunier ， N.;Weston ， J.;Yakhnenko ，O.;Garcia- Duran，A.;Weston，J.;和Yakhnenko，O.2013年。为多关系数据建模转换嵌入神经信息处理系统。Chekol，M.W. 和Pirr，G.2017年。知识图谱中的不确定性在AAAI 2017（第31届人工智能会议论文集），88Chen，Y.;黛西，. Wang，Z.; Goldberg，S.;陈湾，澳-地Y.; Wang，中国山杨D.运动D.;和Goldberg，S. 2016.ScaLeKB：大型知识库上的可扩展学习和推理。国际超大型数据库杂志25：893-918.Gal a´ rra g a ， L.;Teflioudi ， C.; Hose ， K.和Suchanek，F. 先生2015. AMIE+在本体知识库中的快速规则挖掘The International Journal on Very Large DataBases24（6）：707-730.Gardner，M.和Mitchell，T. 2015.使用子图特征提取的高效表达的知识库完成。在自然语言处理经验方法会议上，9月号。Katzouris，N.; Artikis，A.;和Paliouras，G. 2015.用归纳逻辑程序设计学习事件定义. Machine Learning100（2-3）：555-585.Marx ， M.;K r¨ tzsch ， M.;和 Thost ， V. 2017 年。MARS上的逻辑在IJ- CAI。Mitra，A.，和Baral，C. 2016.通过结合统计方法和归纳规则学习和推理来解决问题。在AAAI。镍，M.; Rosasco，L.;和Poggio，T. 2016.知识图谱的全息嵌入。在AAAI。Omran，P. G.; Wang，K.;和Wang，Z. 2018.通过学习表示的可扩展在IJCAI。Sadeghian，A.; Miguel，R.;黛西Z W.;和Anthony，C.2018.事件知识图上的时间推理。在知识库构建、推理和挖掘的第一次研讨会上，第2065卷，54Suchanek ， F.M.; Kasneci ， G.; 和 Weikum ， G.2007 年Yago：语义知识的核心。万维网国际会议，697Trivedi ， R.; Dai ， H.; Wang ， Y.; 和 Song ， L. 2017.Know-Evolve ： Deep Temporal Reasoning for DynamicKnowledge Graphs.在ICML中。Wang，Z.，和Li，J. -运动2015. RDF2Rules：通过挖掘频繁谓词循环从RDF知识库中学习规则。计算机研究库。Yang，B.; Yih，W. t.; He，X.; Gao，J.;和Deng，L.2015.在知识库中嵌入用于学习和推理的实体和关系。在国际会议上学习的代表性。Yang，F.; Yang，Z.;和Cohen，W.水渍2017.知识库推理中逻辑规则的可微分学习。在NIPS。

下载后可阅读完整内容，剩余1页未读，立即下载