论逻辑张量网络的演绎推理能力

135 浏览量更新于2023-09-05 收藏 675KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

→∀逻辑张量网络的演绎推理能力研究费德里科·比安奇，1，2帕斯卡·希茨勒，21米兰比可卡大学2赖特州立大学federico. disco.unimib.it，pascal. wright.edu，摘要神经符号集成是将经典符号知识机制与神经网络相结合的一个领域这样做是为了从网络侧提供令人满意的计算能力，并利用符号推理的描述能力逻辑张量网络（LTNs）是一种深度学习模型，可用于将数据与模糊逻辑相结合，以提供对数据的推断和推理机制。虽然长期网络已被证明是有效的，在某些情况下，没有详细的分析，他们的演绎逻辑推理的能力进行。在这篇文章中，我们探讨的能力和限制的LTNs在演绎推理。介绍神经符号学习和推理（Garcez，Lamb和Gabbay 2008;Besold等人2017）涉及将标准逻辑推理与神经网络集成，目的是提供快速和强大的计算方法来对数据进行推理和解释。逻辑张量网络（LTNs）是一种来自神经符号领域的深度学习模型：它将逻辑和数据集成在神经网络为神经符号学习和推理提供支持（Serafini和Garcez 2016）。LTNs使用一阶模糊逻辑来表达关于世界的知识：在经典的一阶逻辑上使用模糊逻辑允许我们使用区间[0，1]中的连续值来表示真度来表示真值。对LTN的输入是（模糊）一阶谓词逻辑上的数据和公理，例如，parent（Ann，Susan），x，y：parent（x，y）ancestor（x，y）.逻辑张量网络的两个关键组成部分是公式的基础和最佳可满足性学习。对于公式接地，我们指的是公式到向量空间的映射。例如，常数被映射到n维向量，而函数符号被映射到线性函数。神经网络可以用于计算给定公式的真度，考虑常数和符号的嵌入表示。版权归作者所有。以. Martin，K. Hinkelmann，A. Gerber，D.Lenat，F.van Harmelen，P.Clark（Eds.），AAAI 2019春季研讨会将机器学习与知识工程相结合斯坦福大学，帕洛阿尔托，加利福尼亚州，美国，2019年3月25日至27日。深度学习模型（ Goodfellow 、 Bengio 和 Courville2016）通常通过优化函数来学习;在LTNs中，此任务被最佳可满足性任务替换：该模型必须以使每个公式的可满足性最大化的方式来优化每个原子、函数和谓词的表示。通过这种方式，网络学习最好的参数来表示数据和公理。长期信托的主要优点如下：i）可以使用数据上的逻辑公理来表达知识ii）可以处理和解决标准机器学习任务（例如，分类）和iii）在训练的网络上使用模糊逻辑提供解释。实际上，在训练之后，可以对数据进行模糊推理以获得关于某些谓词的真实度。该模型在简单推理任务（Serafini和Garcez 2016）和语义图像解释（Donadello，Serafini和d'Avila Garcez 2017）上进行了测试，结果令人鼓舞在众所周知的吸烟者朋友和癌症数据集上对LTNs的推理能力进行了初步探索（Serafini和Garcez 2016）。数据集包含关于两组人的数据，给出了这两组人的朋友关系和吸烟习惯，而仅给出了第一组人是否患有癌症的事实。与吸烟性质有关的公理（即，吸烟意味着癌症）被给予网络。该网络学习预测第二组中的人是否患有癌症，已经学习了第一组中存在的模式。最近，LTNs被用于语义图像解释任务，在该任务中，它们学会了在背景知识的帮助下对图像的边界框进行分类（Donadello、Serafini和然而，对LTNs的演绎推理能力的深入分析仍有待完成。在这项工作中，我们探讨了LTNs的推理任务的背景下，显示的见解和属性的模型。我们介绍了两个简单的数据集，包含的关系，我们定义额外的公理在这些数据集。这两个数据集用于评估演绎推理能力。我们还进行了一些实验的计算时间，需要学习模型参数。我们的研究结果表明，LTNs是一个很好的模型，可以很好地拟合数据，并能够做简单的演绎推理。∈⟨⟩→T[1：k]T→→GG∀∧∧普普该模型的真正附加价值在于它有助于解释，因为它允许我们对数据进行训练后的模糊推理。然而，该模型产生一些错误，特别是当多跳的推断是要得出，因此，一些改进的一般模型可能需要改善的结果。本文的其余部分组织如下：在第2节中，我们描述了LTNs的基本定义和学习过程，在第3节中，我们介绍了我们的实验设置，我们描述和评估我们的实验结果。第4节包含其他相关工作。最后，我们在第5节结束了本文的一些结论和未来的工作。逻辑张量网络LTNs使用一阶模糊逻辑（Petr 1998），并将原子，函数和谓词嵌入到向量空间中。LTN受到神经张量网络（Socher et al.2013），已被证明是有效的自然逻辑推理任务（鲍曼，波茨和曼宁2015）。在下面的章节中，我们将简要介绍逻辑张量网络及其学习方法。有关LTNs的更多详细信息，请参见首次介绍LTNs的论文（Serafini and Garcez 2016）。为了描述LTNs，我们将遵循Serafini和Garcez给出的定义。逻辑LTN在称为实逻辑的逻辑上实现，实逻辑由包含一组常数C、一组函数符号F和一组谓词P的语言L描述。在这种语言中，模糊逻辑的规则适用，连接词被解释为[0，1]中实数的二进制运算。例如，t-范数被用来代替经典逻辑中的连接。t-范数是一个运算[0，1]2[0，1]，并且存在不同版本的运算（Lukasie wicz，Gödel和乘积t-范数是一些可能的例子）。一旦选择了t-范数，就可以关于它定义其他连接。因此，使用t-范数和其他模糊连接词允许我们对区间[0，1]中的实值进行操作。接地语言L的每个元素都在向量空间中扎根。常数被映射到Rm中的向量，而函数符号被映射到向量空间中的函数。一个n元函数符号映射到一个n元函数Rk·nRm.P谓词被映射到在[0，1]中具有余域的函数：Rm*n[0，1];谓词被映射到一个模糊子集，该模糊子集定义了给定谓词参数的真度（集合的隶属度）。网络常数的向量的维数是模型的超参数常量映射到向量，而函数和谓词映射到向量空间上的实际操作。我们将使用（f）及（P）来识别函数和谓词的基础。函数符号实现为线性函数：给定f元数m和V1，. . .，v，m，Rn是m项的基，则符号函数f的基可以表示为：G（f）（v1，. 我的天我的天，vm）=M fv + B f（1）其中v = v1，. 我的天我的天，vm，Mf是变换矩阵，Bf是偏置。该操作可以被编码到一层神经网络中。相反，谓词映射到神经张量操作（ Socher et al.2013），神经张量网络的输出在sigmoid的输入中给出，使得谓词的最终输出是区间[0，1]中的值。张量操作如下：G（P）（v）=σ（u（tanh（v）Wv+VPv+BP）（2）σ是S形函数，而W、V、B和u是要由网络学习的参数，而k对应于张量的层大小并且是网络中的超参数。模糊逻辑中的量词是用聚合函数（如min）定义的：这应该考虑无限数量的实例上的聚合，使得计算变得不可能。因此，量词被实现为域空间Rk的子集上的聚合操作。可以使用不同的可能实现来实现全称量词的聚合，例如mean、min和hmean（调和平均值）。学习满足公式LTNs将学习问题简化为最大饱和度问题：任务是找到使给定公式的可满足性最大化的原子、谓词和公式的基础。例如，给定公式parent（Susan，Ann），其描述了Susan是Ann张量层中的参数）以及Susan和Ann的基础（即，它们各自的两个矢量），使得公式的真度接近1。因此，这些基础既是原子的嵌入表示，也是网络中代表函数和谓词的参数;这些分量的值可以通过使用反向传播来学习（ Goodfellow， Bengio 和Courville 2016）。学习过程的输出是可满足性得分（在区间[0，1]中），其可以被认为类似于标准深度学习设置中的损失函数的值。我们展示了一个例子，接地和可满足性相结合。为了简洁起见，在这个例子中，我们将用G作为下标来标识每个元素的基础：给定公式P（x，y）R（w，z），检索常数x、w、z和y的基（用xG表示）。P和R接地至各自的操作：P G（x G，y G）R G（w G，z G）。两个预测的输出是[0，1]中的实值，其可以通过使用t范数来聚合LTNs将学习以最终值接近1的方式优化接地（即，满足公式）。\−→蛇鳄鱼蜥蜴秃鹰事爬行动物利尔伯德银行公司组织代理鸟鹰动物鱼鲨鱼人哺乳动物蓝鱼狗猫松鼠海豚猫三会一二我小时克电子楼普研究问啊国米我的实验在本实验部分中，我们旨在获得以下问题的答案：i）LTNs可以学习什么以及ii）LTNs学习阶段有多为了便于重复我们的实验，我们将首先描述我们使用的数据集，然后我们将介绍我们在实验期间遵循与特定实验相关的细节将在相关部分中给出对于我们的实验，我们使用作者提供的原始LTNs TensorFlow实现1（Ser-afini和Garcez 2016）。数据集、代码和结果都可以在网上找到，并附有关于如何重复我们实验的具体说明2。我们在此简要总结了我们进行的四个实验：实验1和2将集中于知识库完成任务，在该任务中，我们将仅向网络提供真谓词和一些公理;实验3将LTNs与简单的深度学习基线进行比较，以提供有关模型的强度和限制的见解;实验4将显示与使用LTNs学习的实验相关的计算时间。定义通过KBS，我们表示输入（起始）知识库，并且KB将表示对应的完成的知识库（即，添加了所有相关的逻辑结果）。KB_T表示不在KB_S中的所有推断的集合，即， KBT=KB KBS在实验中，我们通常会通过将与KBT相关的结果放在括号内来显示KB和KBT数据集我们主要使用两个数据集用于我们的实验，第一个，称为数据集A，表示主要包含类的层次结构的分类法（受DBpedia On-tology3的启发）。分类法包含25个节点。除了一个节点（根）之外的每个节点都具有到其超类的外出边（即，猫连接到猫）。图1显示了实验中使用的分类法。第二数据集P是包含17个节点的父-祖先数据集边将父母连接到一个或多个孩子，总共22个父母关系。图2显示了父母关系。我们将在任务中测试这两个数据集，在这些任务中，我们将有严重不平衡的类（负面示例比正面示例更多）。虽然我们的数据集与目前用于知识库完成任务的数据集相比很小（Bordes et al. 2013），我们认为我们的实验结果可以指出LTNs的有趣功能：LTNs可以在这些简单的数据集上执行演绎推理吗？此外，使用这些小数据集，可以手动检查结果，以更好地了解在哪里以及如何进行1https://github.com/logictensornetworks2http://dbpedia.orghttps://github.com/vinid/ltns-experiments图1：表示A的内容的分类数据集图2：P数据集中这些模型不能产生正确的答案，这是一项在大知识库中更困难的任务。方法给定一个数据集，我们定义了一组公理，我们测试一个知识库完成任务，显示超参数的细节。LTN将在以下表格下接收输入数据的谓词（例如，父（Ann，Susan））和公理（例如， x，y：parent（x，y）ancestor（x，y））;网络将学习所有参数的基础，在测试阶段，我们将分析数据的预测。由于超参数的不同配置是可能的，因此我们运行多个模型，并且我们多次重新运行每个模型（以检查由于随机初始化引起的变化）。经过第一阶段的尝试和错误后，我们将以下内容设置为静态参数：优化器RMSprop，偏差 1e−5，学习率0。01，衰减0。9. 我们测试了三种不同的聚合函数-用于全称量词的两个张量层大小（10和20），用于张量网络的两个张量层大小（10和20）以及用于常数的两个嵌入大小（10和20维）。···一• ∈ ∧→∈→为了评估模型，我们使用平均绝对误差（MAE）、马修斯相关系数（Matthews 1975）（当类不平衡时通常被认为是稳定的）、F1得分、精确度和重新调用。当我们计算MAE时，我们将计算模糊预测与实际真值之间的绝对距离;这将使我们有可能了解具有连续误差值的模型有多好。当计算其他测量值时，我们将以仅比较二进制分数的方式将分数四舍五入到最接近的整数。我们将高于0.5的预测值视为1，反之亦然。虽然这是一个强有力的近似程度的真实性模糊逻辑，它仍然是有用的，以了解该模型的性能。我们还将报告准确性，以便在必要时总结模型的性能。一般来说，我们通过考虑具有最高F1分数的模型来选择每个实验的最佳模型。实验1：分类推理对于A数据集，我们要求LTNs学习以下公理：• a，b，c ∈A：（sub（a，b） ∧sub（b，c））→sub（a，c）• a∈A： ¬sub（a，a）• a，b：sub（a，b） → ¬sub（b，a）其中 sub 标识数据集中的子类关系（例如， sub（Cat，Feline））。这个实验的目的是看看LTNs是否可以使用公理从数据集开始生成传递闭包包含在A数据集中的数据是我们的KBS，而生成传递闭包所需的边将是我们的KBT。我们将LTNs的预测（计算为给定x，y的sub（x，y）上的预测）与图的实际传递闭包进行我们记得KBS仅包含真谓词（例如，sub（Cat，Feline）），而我们要求模型也对假的预测执行推断（例如，我们评估sub（Feline，Cat），期望值接近0）。表1显示了表现最好的模型和表现最差的模型之一的知识完成任务的结果：表现最好的模型的可满足性等于0.99，而表现最差的模型之一的可满足性为0.56.性能最好的模型被初始化为张量网络中的层大小为20，嵌入的维度等于20;最好的通用聚合器是平均聚合器。KB上的最佳模型能够很好地拟合数据，因为F1度量在整个知识库上显示出良好的性能（F1 = 0.64）。LTNs容易产生假阳性：该模型相对于55个真阳性产生36个假阳性，相对于459个真阴性产生26个假阴性。当我们仅考虑 KB测试元素时，性能下降（ F1 =0.51），这意味着在这种情况下，LTNs不能捕获一些更复杂的推断。尽管如此，该方法还是比二进制随机基线更好。具有最佳可满足性的模型的准确度为0.89，而仅预测零的朴素分类器将已经达到等于0.85的精度这一点很重要，因为这两个类是不平衡的。定性分析分析LTNs的预测，我们发现在某些情况下，该模型正确地预测了多跳逻辑推理（例如，sub（Cat，Animal）接近1），但在其他简单推断上失败（例如，sub（Cat，Bird）接近1）。当没有关于两个元素之间的关系的足够信息时猫和鸟）模型很难预测正确的答案。结果摘要• 长期趋势预测模型对数据拟合较好;• 多跳推理往往更加困难;• 正如预期的那样，性能随着满意度的提高而提高实验二：祖先推理对于P数据集，我们使用以下公理训练LTN• a，b ∈P：parent（a，b） →ancestor（a，b）a、b、c P：（ancestor（a，b）parent（b，c））ancestor（a，c）• a∈P： ¬parent（a，a）• a∈P： ¬ancestor（a，a）• a，b ∈P：parent（a，b） → ¬parent（b，a）• a，b ∈P：祖先（a，b） → ¬祖先（b，a）因此，我们将这些公理的知识与父母关系的数据。我们区分该数据集父数据集中的两个不同关系（即，parent（x，y）表示x是y的父代）和祖先（即，ancestor（x，y）表示x是y的祖先KBS仅包含图2中所示的亲本关系（例如，parent（C，I））。我们将测试的任务是推断祖先谓词的完整知识库，我们将其称为KBa;因此，我们希望LTNs仅从公理和父数据中了解两个给定节点的祖先关系是真还是假。祖先谓词的表示应该从公理中的知识中生成，因为没有提供关于它的数据。我们还将测试模型如何在需要推断多跳推断的祖先公式集合上执行（即，那些不能直接从a，b推断出来的P：亲本（a，b）祖先（a，b）），我们将其称为 KBT：那些父母对为假的祖先对（例如，祖先（C，S））。如前所述，我们记得KBp仅包含真谓词（例如，parent（C，I）），同时我们要求模型对祖先数据集（KBa）执行推断，该祖先数据集也包含应该被推断为假的谓词（例如，祖先（I，C））。我们这样做是为了了解LTNs是否能够将信息从父谓词传递到祖先谓词，以及这是否足以使网络有可能做出与祖先链相关的更复杂的推断。在KBa上执行此任务的最佳模型（具有hmean，10维嵌入，10个神经张量层）一一• ∈ ∧→• ∈ ∧→→ ¬表1：A数据集上的性能测量圆括号外的值是在整个KB上计算的，而圆括号内的值仅在KB中不属于初始数据集的部分上计算。MAE Matthews F1 Precision Recall0.990.12（0.12）0.58（0.45）0.64（0.51）0.60（0.47）0.68（0.55）0.560.51（0.52）0.09（0.06）0.27（0.20）0.20（0.11）0.95（0.93）随机0.50（0.50）0.00（0.00）0.22（0.17）0.14（0.10）0.50（0.50）0.450.400.350.300.250.200.150.56 0.57 0.58 0.63 0.65 0.67 0.7 0.81 0.85 0.89 0.94 0.99满足性等于10;最好的通用聚集器是Hmean聚集器。结果表明，新的公理是有益的网络，这是实际上能够很好地学习的关系。尽管如此，KB T上的精度增加了0。19分（括号内的结果之间的差异）。关于这一点的一个有趣的结果是，网络能够从公理中学习祖先定性分析LTNs允许我们在训练后进行模糊推理。该模型能够回答关于图3：在四舍五入的满意度水平上，祖先任务的平均MAE。MAE随着满意度的增加而减小。F1得分为0.77。如果我们不考虑可以从公理（KBT）直接推断的祖先谓词，则模型正确地推断出22个祖先，同时产生25个假阳性：F1等于0.62。同样，网络似乎能够很好地拟合数据，但它仍然会在多跳推理中产生错误。作为另一个关于可满足性的实验，在图3中，我们显示了在KBa上计算的MAE与可满足性水平之间的关系。为了绘制该图，我们使用LTNs进行了多次实验，并通过将可满足性水平汇总到2位小数来计算平均MAE。很明显，误差随着可满足性水平的增加而减小，因此LTNs能够学习和推断一些知识。这再次证明了该模型能够从数据和规则的组合中学习到最初未知的祖先与附加公理的比较为了更好地理解这个实验，我们决定在前面的集合中添加两个公理。这两个公理明确地陈述了父母和祖先之间的关系：a，b，c P：（ancestor（a，b）ancestor（b，c））ancestor（a，c）a，b，c P ：（parent（a，b）parent（b，c））ancestor（a，c）表2示出了在祖先数据集上不具有新公理（六个公理）和具有新公理（八个公理）的方法之间的比较性能计算的两个模型具有最高的满意度（均约0.99）。六个公理和八个公理的表现最好的模型都是用张量网络中的层大小为10和嵌入的维度来初始化的原始训练数据中没有的模糊公式。例如，a，b：ancestor（a，b）parent（b，a）在我们的实验中通常具有接近1的值。结果摘要可满足性与模型的性能密切相关：可满足性越高，误差越低;LTNs学习非常有效地传递信息（父（x，y）上的信息传递给祖先（x，y））。尽管如此，一些更复杂的推论是困难的;• 更多的公理提高了模型的性能。实验3：与多输入网络的比较在这个实验中，我们想在一个共同的任务上将LTNs与一个简单的深度学习架构进行比较。从家长和学生的完整知识库开始，我们将数据随机分为训练集和测试集。训练数据由100个父谓词（真和假）和100个祖先谓词4（真和假）组成;测试集包含189个父谓词和189个祖先谓词5。因此，我们通过考虑可以使用深度学习模型解决的分类设置来解决这个问题我们构建了一个简单的多输入架构，其将原子对和谓词的三个独热编码表示（例如， Susan ， Ann ，parent）.这不是解决此任务的最优化架构，但与经典深度学习方法相比，了解LTNs的性能是有用的。我们使用二进制交叉熵和RMSprop梯度优化算法在5，000个epoch上训练网络为了减少过拟合的可能影响，我们使用4注意，训练集包含很少的正面例子5我们测试了训练和测试的不同随机子集，但结果往往相似平均绝对误差··一→ ¬∀∀∀∀表2：具有不同数量的公理的祖先完成任务。括号外的值在完整KBa上计算，而括号内的值在KBT上计算。MAE型Matthews F1 Precision Recall六公理0.16（0.17）0.73（0.61）0.77（0.62）0.64（0.47）0.96（0.92）八大公理0.14（0.14）0.83（0.69）0.85（0.72）0.80（0.66）0.89（0.79）苏珊安母致密层t层与量词结合使用以使用网络未被训练的新公理对数据进行推断（例如， x，y：父级（x，y）祖先（y，x）具有高真值）。正如最近关于语义图像解释的LTNs的工作所示，成功的一个关键因素可能是在深度学习架构上使用LTNs（Donadello，Ser- afini和结果摘要图4：基线多输入架构L2正则化（我们通过实验发现，使用它的结果比不使用它的结果更好我们在图4中示出了这种架构，其中我们还示出了层的维度。该网络被训练以检测给定两个常数的谓词是真还是假（二元结果）。LTNs接受了相同任务的直接培训：我们在给定输入数据和前面设置中使用的六个公理的情况下，通过最佳可满足性训练网络。模型的性能计算超过189祖先测试谓词。我们忽略了这个设置中的父谓词，因为几乎没有关于如何从数据集中预测测试集中的父关系是真还是假的知识结果表明，多输入网络实现了等于0.84的准确度，而LTNs的准确度约为0.89;虽然准确度相当，但与其他措施的深入分析显示，多输入的召回率一个只预测零的简单模型（因为类是不平衡的）将达到等于0.84的准确度。多输入架构在大多数类为0的任务中往往过拟合无论如何，重要的是要注意，多输入架构很难理解任务，而LTNs则受到公理的帮助。然而，结果表明，虽然LTNs是好的学习逻辑规则，其准确性仍然是由神经网络获得的。此外，多输入架构将需要对过拟合的更多控制，而在LTNs中使用的逻辑公理似乎提供了一种自然的方式来定义向量空间上的一些约束然而，具有不同参数集的不同深度学习架构可能会产生更好的结果。使用经典的神经网络，我们失去了定义数据的高级语义例如，LTN可以结果表明，在这个简单的任务上的性能是可比较的幼稚网络;在LTNs公理似乎提供了一个有用的方法来定义的解决方案，可能会减少过度拟合的可能性的空间上的约束;LTN的主要优点在于在训练后进行推断的可能性。实验4：时间学习在最后一个实验中，我们研究了LTNs在学习环境中的速度。我们考虑以下实验设置：我们产生一系列的N常数和N预测，并评估它们的不同组合。我们通过考虑以下的一元、二元和三元谓词将该实验分为三个：x：predn（x），x，y：predn（x，y），x，y，z：predn（x，y，z），因此我们仅测试普遍量化的谓词我们计算了5,000个训练时期来学习4，8，12，20，30个常量，带有4，8，12，20，30个（通用量化）谓词，其特征为1，2和3：这意味着在具有4个常数和8个谓词的arity 3的设置中，我们在模型中引入4个常数（a，b，c，d）和8个谓词（pred1，pred2，. 我的天我的天，pred8），并且每个谓词被普遍量化（例如，x，y，z：pred1（x，y，z））。本实验中嵌入表示的大小为10。实验使用编译版本的Tensorflow在i7机器上运行。分析图5、6、7示出了完成每个设置的学习阶段所虽然很明显常数对计算时间有影响（因为它们是训练数据），但我们也可以说谓词及其arity对学习阶段有显着的计算影响。具有低数量的常数和预测值（例如，4)训练时间在所有设置中没有太大的不同，但是一旦常数的数量增加，模型就需要更多的时间来学习。pred-icates的arity似乎是对学习时间具有较高影响的元素：这是预期的结果，因为通用o输出3维密集层（乙状结肠）级联5个维度5个维度2维[0，1，0....，0，0][0，0，0....1，0][1，0]英普···∀¬量词在三元情况下必须覆盖多个元素由于实验是在CPU上运行的，我们预计GPU6上的训练时间会更短。结果摘要学习参数的时间受到谓词的arity的高度影响;其他实验注释在本节中，我们将简要介绍社区感兴趣的其他实验虽然下面的断言是从经验实验中得出的，但它们对想开始使用LTNs的读者可能仍然有用。像所有深度学习模型一样，LTNs也存在优化问题：在我们的实验中，我们经常发现模型会达到局部最小值。全局优化工具可能有助于更好的参数优化搜索。在我们的实验中，LTNs经常预测类别Cat是类别Bird的子类。此错误可能是由于知识库中缺少知识。网络无法理解两者之间的差异，因为它们来自分类法的不同分支一般来说，LTNs似乎预测了许多假阳性，而它们在检测真阴性方面更好。这似乎是由于我们的实验中的真否定可以直接从公理中推断出来的事实：例如，a：ancestor（a，a）为模型提供了大量关于谓词祖先的两个参数中出现的每个常数都应该生成负值的信息如果模型太好地拟合数据（即，它过拟合）测试集上的性能降低。虽然这是机器学习模型的常见事件，并且有技术可以防止这种情况，但将这些应用于LTNs并不那么直接：交叉验证将要求我们向训练集提供完整性信息，这将使推理任务产生偏差。我们测试了不同的超参数集，并在线发布了测试任务的结果。虽然这不是本文的主要范围，但评估超参数的影响以全面评估该方法仍然很重要。然而，我们根据经验发现，增加张量网络的层数和嵌入的大小使模型更难以优化。论文验收后，原作者发布了新版本的LTNs：最后一个版本更容易优化，并且在性能上比F1测量值略有提高。相关工作在本节中，我们总结了在现有技术中已经引入的一些相关方法。我们指的是Garcez、Lamb和Gabbay; Besold等人进行讨论6为了显示不同谓词之间的有效比较，我们决定显示使用CPU计算的结果：使用GPU时，更难突出这些实验之间的差异文献中提出的不同神经符号方法：在本节中，我们将仅讨论这些方法中的一些，并且我们还将描述一些相关的方法。在过去的几十年里，人工社区讨论的一个要点与神经网络相关）人工智能（Min-sky 1991）。近年来，深度学习方法已经显示出强大的计算能力（Goodfellow，Ben-gio和Courville 2016），但这些方法仍然没有实现与符号方法相同的推理和知识转换能力。另一方面，符号人工智能遭受计算限制和知识获取瓶颈，即，需要生成高质量的知识库，这通常是手动完成的在这个群体中，一个不同的声音来自神经符号领域，其任务是将符号人工智能和神经网络的两个世界结合在一起（Garcez，Gabbay和Broda 2002;哈姆-默和希茨勒2007;Garcez，Lamb，and Gabbay 2008; Garcez等人2015）。在目前的工作中，我们只探讨了长期信托，但有不同的方法，在该领域已被引入。神经-符号集成的最著名的方法之一是基于知识的人工神经网络（KBANN）（Towell和Shavlik 1994）。KBANNs是第一个将命题子句与数据整合的方法之一，与密切相关的命题核心方法同时发展（H？lldobler和Kalinke 1994）。然而，将这些结果提升到一阶逻辑已经被证明是困难的，并且仅限于玩具大小的知识库（Hitzle r，H ¨ lldoble r，andSeda2004;Gust ， K¨hnbe r ge r ， andGeibel2007;Bader，Hitzle r，andH ¨ lldobler2008）。另一方面，存在来自统计关系学习领域的其他方法，其不将神经网络与逻辑集成，而是通过还组合统计信息以符号方式解决问题该类别的示例是ProbLog（De Raedt和Kimmig 2015），其是概率逻辑编程语言的示例，并且马尔可夫逻辑网络（MLN）是统计关系学习模型，其已被证明对各种各样的任务有效（ Richardson 和 Domingos 2006; Meza-Ruiz 和 Riedel2009）。MLN和LTN背后的直觉是相似的，因为它们都基于逻辑语言的方法。MLN定义公式的权重，并通过在概率观点下考虑它来解释世界，而LTNs使用模糊逻辑与神经架构相结合来生成它们的推断。结论和未来工作结论当满足最优可满足性条件时，LTNs可以在推理任务上获得良好的结果这是-十难以达到和使用的模型与低程度的可满足性可能会产生坏的推论。尽管如此，LTNs显示出有趣的能力，它们混合逻辑和数据的能力可能被证明是一种有价值的资源。LTNs·2.6 2.7 2.8 3 3.43.7 3.9 4.2 4.6 5.15.1 5.3 6 6.1 6.5888.4 8.9 9.911 12 12 13 14谓词数量（arity 2）谓词数量（arity 3）四四12八八10一二八十二206203043015041258100七五一二五十二十25306000450030001500四八十二二十三十常数数量图5：以秒为单位的计算时间（元1和常量的四八十二二十三十常数数量图6：以秒为单位的计算时间，用于元数为2的谓词和常量四八十二二十三十常数数量图7：以秒为单位的arity 3和常量谓词的计算时间很好地拟合了数据，并且可以用于进行一些简单的推断。更复杂的推断（多跳）更难以在模型中捕获。在我们的实验中遇到的主要问题涉及由LTNs生成的错误预测和可扩展性问题。我们认为前一个问题可以通过更准确地使用逻辑约束来解决：例如，在祖先实验中，添加关于“兄弟姐妹”的概念可能有助于网络更好地执行。而更有效地利用计算资源可以帮助减少我们遇到的后一个问题。今后工作虽然结果表明，LTNs能够捕获向量空间中的逻辑语义，但它们也应该与其他统计关系学习方法（如MLNs）进行比较。另一个可能的下一步是在现有技术中定义的更大的知识库上应用LTNs（Bordes et al. 2013）。我们期望在训练模型上进行模糊推理的能力在知识库上的链接预测任务中有很大的帮助。这项工作的一个有趣的进展可能是评估生成的接地：LTN中的常数具有相关联的向量，因此可以计算常数之间的向量空间中的相似性。这在知识图嵌入的上下文中可能是有趣的（Bordes et al. 2013）：知识图的实体和关系的矢量表示。确认我们感谢Luciano Serafini和Artur我们衷心感谢NVIDIA公司的支持，捐赠了用于本研究的Titan Xp GPU。引用Bade r，S.; Hitzle r，P.; 和Ho¨lldoble r，S. 2008年连接主义模型生成：一阶逼近。神经计算71（13-15）：2420-2432。Besold ， T. R.; d'Avila Garcez ， A. S.; Bader ， S.;Bowman，H.; 多明戈斯山口M.; Hitzle r，P.; Kühnberge r，K.; 羔羊肉法律 C.; Lowd ， D.; 利马，下午五 .; de Penning ， L.;Pinkas，G.; Poon，H.;和Zaverucha，G. 2017.神经符号学习和推理：调查和解释。CoRRabs/1711.03902。Bordes，A.; Usunier，N.; Garcia-Duran，A.; Weston，J.;和Yakhnenko，O. 2013.为多关系数据建模翻译嵌入。神经信息处理系统，2787Bowman，S. R.; Potts，C.; Manning，C.学位2015. 学习自然逻辑推理的分布式单词表示在人工智能促进协会春季研讨会（AAAI）的会议记录中，10De Raedt湖和Kimmig，A. 2015.概率（逻辑）编程概念。Machine Learning100（1）：5-47.多纳代洛岛Serafini，L.;和d'Avila Garcez，A. 2017.用于语义图像解释的逻辑张量网络。在IJCAI，1596Garcez，A.; Besold，T. R.; DeRaedt，L.; Fo ¨ ldiak，P.;Hit-zle r，P.; Icard，T.; Kuhnbe r ge r，K.- U.; 兰姆湖C.;Miikku-lainen，R.;Silver，D.法律2015年。神经符号学习和推理：贡献和挑战。在AAAI知识表示和推理春季研讨会上：集成符号和神经方法，斯坦福大学。Garcez，A.美国d.; Gabbay，D. M.;和Broda，K.芽孢2002. 神经符号学习系统：基础和应用。 Berlin ，Heidelberg.Garcez，A. S.;兰姆湖C.;和Gabbay，D.先生2008. 神经符号认知推理。施普林格科学商业媒体。古德费洛岛Bengio，Y.;和Courville，A. 2016. 深度学习北京：清华大学出版社.Gust，H.; K ühnber ge r，K.; 和Geibel，P. 2007年基于topos理论的谓词逻辑神经网络学习在Hammer，B.和Hitzler，P. 编辑，神经元符号整合的观点，计算智能研究第77卷。斯普林格233-264。3.3 4.5 7.5 14 285.1 17 31 566.5 9.6 18 33 669.7 15 27 511e+0214 21 37 741.5e+026.8 24 64 2.6e+02 8.5e+0211 39 1.1e+025.1e+02 1.7e+0315 56 1.6e+027.3e+02 2.5e+0323 88 2.6e+021.2e+034.1e+0334 1.3e+024.1e+022e+036.5e+03谓词数量（arity 1）Hammer，B.，和Hitzler，P.编辑2007. Perspectives ofNeural-Symbolic Integration ， Volume 77 ofStudies inComputational Intelligence.斯普林格Hitzle r，P.; H？lldoble r，S.; 和Seda，A. 克雷2004年逻辑程序和连接网络。J. Applied Logic2（3）：245-272.H？lldoble r，S.，和Kalin ke，Y. 一九九四年 Einmass ivparallelesmodellfur¨ rdielogikprogrammierung.InWLP ，89-92.马修斯湾水渍一九七五年t4噬菌体溶菌酶二级结构的预测和观察比较Biochimica et Biophysica Acta（BBA）-Protein Structure405（2）：442- 451.梅萨-鲁伊斯岛和Riedel，S.2009年用马尔可夫逻辑联合识别谓词、自变量和义项在NAACL，155计算语言学协会。Minsky，M.法律1991.逻辑对类比，符号对联结，整洁对邋遢。AI maga-zine12（2）：34.Petr，H. 1998.模糊逻辑的元数学，卷。4 of trends inlogicstudia logica library.Richardson，M.和Domingos，P. 2006.马尔可夫逻辑网。机器学习62（1-2）：107-136。塞拉菲尼湖和Garcez，A.美国学位2016年。逻辑张量网络的学习和意大利人工智能协会会议，334-348。斯普林格Socher，R.; Chen，D.;曼宁角D.;和Ng，A. 2013.用神经张量网络进行推理以完成知识库。神经信息处理系统进

下载后可阅读完整内容，剩余1页未读，立即下载