基于神经符号推理的概率图模型在视觉关系检测中的应用

198 浏览量更新于2023-10-25 收藏 14.86MB PDF 举报

概率图模型

可解释性

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

wearholdhashaspersonhorseshirthat106090基于神经符号推理的概率图模型的视觉关系检测0Dongran Yu 1, 2, Bo Yang 1, 3‡, Qianhao Wei 1, 3 and Anchen Li 1, 3, Shirui Pan 4,1中国教育部符号计算与知识工程重点实验室，中国吉林大学人工智能学院，中国吉林大学计算机科学与技术学院，澳大利亚莫纳什大学IT学院数据科学与人工智能系0yudran@foxmail.com，ybo@jlu.edu.cn，{weiqh20，liac20}@mails.jlu.edu.cn，shirui.pan@monash.edu0摘要0本文旨在利用符号知识来提高视觉关系检测（VRD）模型的性能和可解释性。现有的基于深度学习的VRD方法存在标记示例不足和缺乏可解释性的问题。为了克服上述弱点，我们将符号知识与深度学习模型相结合，提出了一种称为BPGR的双层概率图推理框架。具体而言，在高层结构中，我们将VRD模型检测到的物体和关系作为隐藏变量（推理结果）；在BPGR的低层结构中，我们使用马尔可夫逻辑网络（MLNs）将一阶逻辑（FOL）投影为观察变量（符号知识），以纠正错误的推理结果。我们采用变分EM算法进行优化。实验结果表明，我们的BPGR改善了VRD模型的性能。特别是，BPGR还可以提供易于理解的洞察力，以展示可解释性。01. 引言0视觉关系检测（VRD）的目标是检测物体及其彼此之间的关系，表示为（主语，谓语，宾语）三元组。如图1（a）所示，一个三元组是（人，拿着，马）。作为基础的视觉识别任务，VRD可以在许多高级图像理解任务中受益，如场景图生成[38,43]、图像字幕[15,17]和视觉问答[3,4]等。因此，VRD在过去几年中已经成为一个重要的研究课题。最近的大多数基于深度学习的方法都基于0‡通讯作者。0（a）（b）0图1.视觉关系检测示例和数据集统计。（a）不同颜色的块与连接主语和宾语的线表示不同的关系。在图像中检测到了三个三元组（人，戴，帽子），（人，穿，衬衫）和（人，拿着，马）。（b）VRD和VG200是长尾分布。水平轴表示关系的数量，垂直轴表示关系实例的数量。0已经提出了许多方法，包括LS-VRU [46]、GPS-Net[21]、UVTransE[13]等。然而，这些方法主要依赖于实体的语言先验（语义信息）来帮助关系检测，存在一些限制。首先，这些方法需要大量标记的示例才能获得良好的性能，这与图1（b）中的数据集特点相矛盾。其次，它们是黑盒子，缺乏可解释性，这对许多应用非常重要。期望的解决方案是神经符号系统，它结合了神经网络的优秀感知能力和符号系统的认知能力[41]。0最近的一些研究尝试将符号知识与VRD模型相结合，以提高检测性能。LENSR[37]使用合取范式（CNF）[8]或决策确定性可分解否定范式（d-DNNF）[9]公式构建每个命题逻辑的图，并采用106100图神经网络以将它们编码为模型。DASL[33]将逻辑规则编码到深度学习模型的结构中进行训练。尽管与纯深度学习方法相比，这些方法通常丰富了灵活性，但它们仍然存在不明显的缺陷。首先，在LENSR中它只捕捉到局部信息，即它们为每个命题逻辑构建了一个独立的图，并且只编码了命题逻辑中节点之间的交互信息。其次，在DASL中它是一个隐式推理过程，即DASL将一阶逻辑编码为神经网络结构，然后神经网络将完成下一步工作。为了弥补上述缺陷，我们采用马尔可夫逻辑网络（MLNs）[31]来表示一阶逻辑（FOL）并将逻辑与深度模型结合在概率图模型中。MLN可以为所有FOL构建全局依赖图，并获得所有groundatoms的联合概率分布。此外，MLNs可以用作连接逻辑AI和统计AI的通用框架，并且可以捕捉不确定性。概率图模型通过概率推理方式解决模型，反映了显式的推理过程。因此，我们提出了一个双层概率图推理框架（BPGR）来将符号知识编码到VRD模型中。BPGR包括两个部分：视觉推理模块和符号推理模块。视觉推理模块提取图像中对象的特征，并推理对象和关系。符号推理模块使用符号知识来指导视觉推理模块的推理方向，起到纠正错误的作用。具体而言，符号推理模块是一个双层概率图，包含两种类型的节点：一种是VRD模型（视觉推理模块）在高层结构中的推理结果，另一种是低层结构中逻辑规则的groundatoms。当构建概率图模型时，模型可以在变分期望最大化（EM）框架中高效地进行端到端训练。特别是，BPGR在视觉关系检测数据集[23]和场景图数据集[38]上实现了卓越的性能，并且在推理结果方面也具有可解释性。我们的方法的总体框架如图2所示。我们的贡献可以总结为三个方面：0•我们提出了双层概率图推理（BPGR）框架，这是一种基于神经符号系统的新型VRD模型，旨在提高检测性能并提供结果的可解释性。我们的BPGR使用符号知识来指导模型，以改进性能并纠正错误的推理结果。0• 我们提出了一个联合框架来建模符号0知识和VRD模型。我们的框架可以捕捉逻辑规则中的全局符号知识，并保持显式的推理过程，而不同于现有的神经符号方法，因为它应用马尔可夫逻辑网络（MLN）作为知识表示，并通过概率推理进行集成。0•实验结果表明，与最先进的方法相比，BPGR在两个视觉关系检测数据集上表现更好。我们提供可视化结果以展示其有效性和可解释性。02. 相关工作0神经符号系统。最近，神经符号推理已成为热门话题。它可以结合神经网络和符号的优势，不仅减少数据需求，还能实现可解释的人工智能，例如pLogicNet [30]，ExpressGNN[48]，DGP [14]，CA-ZSL [24]，VAI-SC[1]等。这些方法使用逻辑规则或知识图来提高知识图推理或图像分类或生成视频描述的能力，与本文中的VRD任务有很大不同。0马尔可夫逻辑网络。智能系统必须能够处理现实世界的复杂性和不确定性。MLN将FOL和概率图模型统一到一个表示中。由于其在多种推理任务中的概率模型和有效性，它已经得到广泛研究，包括知识图推理[30, 48]，语义解析[29,36]，社交网络分析[47]等。MLN可以捕捉关系数据中的复杂性和不确定性。然而，MLN中的推理和学习在计算上是昂贵的，因为构建基础MLN的成本是指数级的，并且存在NP难的优化问题。这阻碍了MLN在大规模应用中的应用。许多文献中的工作都是为了提高原始MLN的准确性[25,34]和效率[6, 16, 30, 35, 48]。例如，相关工作[30,48]用神经网络替换了传统的推理算法。0视觉关系检测。视觉关系检测涉及检测图像中出现的对象以及理解它们之间的相互作用。换句话说，它需要从图像中识别关系。大多数这些方法可以分为三个主要类别。第一组方法使用结构化预测技术通过三元组变量之间的消息传递来考虑三元组的依赖关系[7, 19, 38,49]。这些方法通过对象和谓词标签之间的消息传递来考虑三元组的依赖关系。第二组方法应用基于排名的损失函数，以鼓励学习特征中相似关系彼此靠近。∀(I, Y ) F(I, R) → Y,(1)P(y, R) = 1Z exp{�yi∈y,Aj∈Aϕb(yi, Aj) +�r,Arϕl(Ar)}, (2)P(A) =1Z(w) exp{�r∈Rwr�Arϕl(Ar)},(3)106110空间[18,46]。第三类方法引入额外的信息，可以是对象标签的词向量嵌入形式，也可以使用来自大型语料库或逻辑的知识。我们的方法可以归类为第三类，即旨在添加额外的信息。与上述方法相比，BPGR在框架中具有一致的概率模型，并且可以将符号知识纳入逻辑规则中。此外，BPGR在捕捉丰富的外部信息的同时提供了可解释性。03. 双层概率图推理框架0在神经符号系统中，最终目标是找到一个模型F，可以有效地将数据I和符号知识R（逻辑规则）映射到地面真相Y。在本文中，模型定义如公式（1）。0基于模型的定义，我们的BPGR包括两个主要组件：视觉推理模块Pθ1(y | I)和符号推理模块Pθ2,w(y,R)，其中y是视觉推理模块的初步推理结果，θ1和θ2是参数，w表示逻辑规则的权重。图2显示了BPGR的框架。前者旨在从图像中获得对象和关系的分数。后者将视觉推理模块的结果作为高层节点，将逻辑规则作为概率图模型的低层节点。在训练过程中，我们通过变分EM算法最小化视觉推理模块的损失，并最大化符号推理模块的联合概率分布。在测试过程中，我们将图像输入视觉推理模块以推断结果，然后将推断结果从高层结构传播到低层结构，以匹配逻辑规则作为决策依据。下一节详细描述了整个模型。03.1. 视觉推理模块0在本节中，基于LS-VRU[46]，我们开发了我们的视觉推理模块（VRM）。VRM的主要思想是最小化对象和关系的视觉特征与语义特征之间的距离。具体来说，输入一张图像，输出对象得分矩阵SO ∈RT × O和关系得分矩阵SR ∈ RM ×Re。同时，保存对象的特征MO ∈ RT ×D作为符号推理模块的输入。T表示图像中对象的数量。O表示数据集中对象类别的数量。M表示对象对的数量。Re表示数据集中关系类别的数量。D表示视觉特征的维度。上述符号是图2中VRM部分使用的。视觉推理模块的目标是推断图像中对象和关系的得分。0实验中，推理模块采用word2vec [ 26 ]作为语义特征。03.2. 符号推理模块0符号推理模块 (SRM)是使该模型与现有方法不同的关键组件。VRM的推理结果可能是错误的，我们受到图像去噪方法的启发[ 5]，设计了一个概率图模型来结合VRM和SRM。因此，这个概率图模型可以纠正错误的推理结果并实现端到端的训练。逻辑规则是一种人们容易理解的常识知识。在本文中，我们考虑以逻辑规则形式描述知识的FOL语言，它具有很强的表达能力[ 10 ]。在图2中，SRM包括两种类型的节点和团。令 y 为高级节点集合，令 A为由逻辑规则中的基本事实组成的低级节点集合。令 { y i ,A j } 为表示两个层级之间相关性的团。令子集 A r = { A1 , ∙ ∙ ∙ , A m } 为由逻辑规则 r中的基本事实组成的团，通过为其参数分配常量。让SRM的每个节点表示一个随机变量，概率图模型表示变量之间的联合概率分布，其为因子的乘积，公式如下：0其中 Z 是一个称为分区函数的归一化常数， ϕ b是层级之间的潜在函数，它表示鼓励高级节点和低级节点取相同值的分布。 ϕ l是低级的潜在函数。在高级结构中，节点表示推理结果，节点之间没有边。为了获得团 { y i , A j }，我们根据它们的标识符建立高级节点和低级节点之间的连接，这些标识符是根据对象区域和谓词维度定义的。具有相同标识符的节点相连。在低级结构中，节点是FOL中的基本事实 A j，边是由MLN构建的。MLN是一个无向图模型，其中节点由所有基本事实生成，并且如果两个相应的基本事实在至少一个基本FOL中共现，则在两个节点之间出现边。给定相同的MLN和不同的常量集合 C，可以形成不同的基本MLN。基本MLN的规模由常量集合C的大小确定。基本MLN可以定义为以下联合分布：0其中 Z ( w ) 是对所有基本事实 A 进行求和的分区函数。 ϕ l是一个由逻辑规则的潜在函数表示的潜在函数，其具有以下形式：........CNNFCFCG…𝑀𝑂𝑆𝑅𝑆𝑂𝑦𝑅= Pθ1(y I) + Pθ2,w(y, R)Lcro,(4)Pθ2,w(y, R) =1Z(w) exp{�yi∈y,Aj∈Aϕb(yi, Aj)+�r∈Rwr�Arϕl(Ar)},(5)LEBLO = EQθ2 [log Pw(y, R)] − EQθ2 [log Qθ2(y | R)], (6)Qθ2(y|R) =�Ai∈AQθ2(Ai),(7)106120视觉推理模块 (VRM)0输入0符号推理模块 (SRM)0物体特征0物体得分矩阵0关系得分矩阵0物体提议0更新0高级0逻辑规则0床(x) ∧ 旁边(x,y) � 灯(y)0低级0床 ( )0床 ( )0灯 ( )0灯 ( )0旁边 ( , )0旁边 ( , )0床( ) 灯( ) 靠近( , )0图2.提出的BPGR。为了引入逻辑规则并纠正VRD模型的错误推理结果，我们设计了一个双层概率图推理框架，其中高级结构用于接受视觉推理模块的推理结果，而低级结构是逻辑规则的基本事实，用于纠正高级结构中的错误，例如将“near”更正为“beside”。该模型经过训练，可以根据符号知识输出视觉推理模块的推理结果。注意，G 表示接地运算符。实线表示真实边缘，虚线表示伪边缘。0逻辑规则为真的次数。w r 表示逻辑规则 r的权重。权重越大，逻辑规则的置信度越高。03.3. 训练损失0我们的模型是端到端训练的。最终的训练损失包括：VRM的损失 P θ 1 ( y | I ) ，SRM的损失 P θ 2 ,w ( y, R )，以及观测变量的交叉熵损失 L cro。因此，我们通过以下目标函数来训练模型：0P θ 1 ( y | I ) 包括三个项：三元组损失 L T，三元组softmax损失 L S 和视觉一致性损失 L C。由于篇幅有限，请参考[46]。SRM的损失函数是方程（2），可以改写为方程（5）。观测变量的交叉熵损失 L cro在第3.4节中给出。03.4. 优化0我们需要最大化 L 来训练整个模型。然而，由于计算分区函数Z ( w ) 的要求，直接优化这个目标函数是困难的。0函数 Z ( w )的计算是不可行的，因此直接优化这个目标函数是困难的。与[22]不同，我们引入变分EM算法，并优化变分证据下界（ELBO）：0其中 Q θ 2 ( y | R )是变分后验分布。通常，我们可以使用变分EM算法[11]来优化ELBO，在E步中最小化变分后验分布 Q θ 2 ( y | R )与真实后验分布 P w ( y | R )之间的KL散度。由于变量之间的复杂图结构，精确推理是计算上的难题。因此，我们采用均场分布来近似真实后验分布。在均场变分分布中，变量之间是独立推断的，推断方式如下：0与传统的使用多层感知机（MLP）作为推理网络的推理方法不同[48]，我们采用逻辑张量网络（LTN）[32]，它可以学习关系数据的表示。推理过程如图3所示。在E步中，我们的L ELBO ( Q θ 2 , P w ) 在方程（6）中可以被表示为：LELBO(Qθ2, Pw) =�r∈Rwr�ArEQθ2 [ϕl(Ar)] − log Z(w)+�yi∈y,Aj∈Aϕb(yi, Aj) − EQθ2 [�Ai∈AQθ2(Ai)],(8)Lcro =�Ai∈AQθ2(Ai) log Y,(9)L = αPθ1(y|I) + βLELBO(Qθ2, Pw) − γLcro,(10)𝑀𝑜𝑖𝑝(𝑅𝑒𝑖 (,))++𝑀𝑂𝑖𝑇12𝑀𝑜𝑗𝑀𝑜𝑖𝑀𝑜𝑗𝑀𝑂𝑗𝑇𝑀𝑂𝑖𝑇𝑀𝑂𝑗𝑇𝑀𝑜𝑖𝑀𝑜𝑗𝑅𝑒106130改写为如下形式：0方程（4）改写为：0其中 α ， β 和 γ 是权衡因子，其取值范围在 [0, 1] 之间。0张量层标准层0偏置0推理网络0�20图3. 推理网络，输入对象对的特征嵌入，输出从属关系的概率。0在M步中，我们正在学习FOL的权重。由于需要优化权重，方程（5）中的分区函数 Z ( w ) 不再是一个常数。分区函数Z ( w )有指数级数量的项，使得直接优化ELBO变得困难。为了解决上述问题，我们使用伪对数似然函数[31]，定义如下：0P�w(y,R) := EQθ2[0r,Ai ∈ Ar log Pw(Ai|MB Ai)], (11)0其中MBAi是地面原子Ai的马尔可夫毯。对于将Ai连接到其马尔可夫毯的每个规则r，我们通过梯度下降优化权重wr，其导数如下：0▽wrEQθ2[log Pw(Ai|MB Ai)] � YAi − Pw(Ai|MB Ai), (12)0r,Ai ∈ Ar p(Ai|y). (13)03.5. 可解释性0我们提出的模型可以找到用于验证推理结果的相应逻辑规则，以确保结果的可信度。在SRM中，信息在训练过程中从低级结构传播到高级结构，使用逻辑规则来指导VRD模型的学习。受到生产系统的启发，信息从高级结构传播到低级结构，可以找到用于推理结果的相应逻辑规则。具体而言，根据推理结果匹配低级结构的节点，如果匹配成功，则触发包含节点的逻辑规则（即选择包含节点的团）。我们将根据t-范数模糊逻辑[28]计算触发规则为真的概率。换句话说，整个过程与在给定头实体和尾实体的知识图中找到路径相同。通过实现这个过程，我们可以获得用于推理结果的证据（逻辑规则），并根据后验概率P(R|y)选择前几个证据。方程如下：0高级结构到低级结构，可以找到用于推理结果的相应逻辑规则。具体而言，根据推理结果匹配低级结构的节点，如果匹配成功，则触发包含节点的逻辑规则（即选择包含节点的团）。我们将根据t-范数模糊逻辑[28]计算触发规则为真的概率。换句话说，整个过程与在给定头实体和尾实体的知识图中找到路径相同。通过实现这个过程，我们可以获得用于推理结果的证据（逻辑规则），并根据后验概率P(R|y)选择前几个证据。方程如下：0P(R|y) = �0r,Ai ∈ Ar p(Ai|y). (13)0其中r是一个触发的逻辑规则。p是地面原子为真的概率，并且在第4.6节中给出了说明性的视觉分析。04. 实验0在本节中，我们在两个经典数据集Visual RelationshipDetection（VRD）[23]和Visual Genome with 200categories（VG200）[38]上评估了我们的模型。它们在之前的研究中被广泛使用[21，46]。接下来，我们详细介绍这两个数据集。04.1. 数据集0VRD数据集包含5000张图像，其中4000张为训练集，1000张为测试集。共有100个物体类别和70个谓词（关系）。VRD数据集包含37993个关系注释，其中有6672个唯一关系和每个物体类别平均24.25个关系。该数据集中的1877个关系在测试集中从未出现在训练集中，因此可以用于评估我们的模型在零样本预测中的泛化能力。VG200数据集包含150个物体类别和50个谓词。每个图像的场景图包含大约11.5个物体和6.2个关系。70%的图像用于训练，剩下的30%用于测试。逻辑规则。为了生成逻辑规则，我们使用基于训练集的人工构建的方法。在本文中，逻辑规则编码了主体和多个对象之间的关系。它们根据数据集中的标签文件和视觉关系构建而成。如图4所示，如果三元组包括（人，穿着，夹克）和（人，穿着，滑雪板），则人（x）∧穿着（x，y）�夹克（y）∨滑雪板（y）是一个逻辑规则，原子person（x）为真，如果x是图像中的一个人。VRD和VG200数据集上的逻辑规则数量分别为1642和3435。106140表1.在VRD数据集上与最先进方法的比较。表1比较了VRD数据集上“ReD”和“PhD”中前50/100的召回结果。最佳结果以粗体显示。最先进方法的结果来自原始论文。“-”表示未提供相应的结果。0方法 ReD PhD ReD PhD0自由 k k = 1 k = 70 k = 1 k = 700召回率@50 100 50 100 50 100 50 100 50 100 50 1000Lk distilation [42] 22.7 31.9 26.5 29.8 19.2 21.3 22.7 31.9 23.1 24.0 26.3 29.4 Zoom-Net [40] 21.4 27.3 29.1 37.3 18.9 21.421.4 27.3 28.8 28.1 29.1 37.3 CAI+SCA-M [40] 22.3 28.5 29.6 38.4 19.5 22.4 22.3 28.5 25.2 28.9 29.6 38.4 MF-URLN [44]23.9 26.8 31.5 36.1 23.9 26.8 - - 23.9 26.8 - - LS-VRU [46] 27.0 32.6 32.9 39.6 23.7 26.7 27.0 32.6 28.9 32.9 32.9 39.6GPS-Net [21] 27.8 31.7 33.8 39.2 - - 27.8 31.7 - - 33.8 39.2 UVTransE [13] 27.4 34.6 31.8 40.4 25.7 29.7 27.3 34.1 30.036.2 31.5 39.80BPGR(E) 28.1 34.7 34.7 42.0 24.7 27.9 28.1 34.7 29.9 34.1 34.7 42.0 BPGR(E+M) 29.4 35.3 36.2 43.0 26.2 29.4 29.4 35.332.3 36.4 36.2 43.00表2.VG200数据集上“SGCLS”和“PCLS”的前50/100的比较结果。最佳结果以粗体显示。0召回率@指标SGCLS PCLS0方法 20 50 100 20 50 1000VRD [23] - 11.8 14.1 - 27.9 35.0 Ass-Embedding [27] 18.2 21.8 22.6 47.954.1 55.4 Mess-Passing [38] 31.7 34.6 35.4 52.7 59.3 61.3 Graph-RCNN[39] - 29.6 31.6 - 54.2 59.1 Per-Invariant [12] - 36.5 38.8 - 65.1 66.9Motifnet [43] 32.9 35.8 36.5 58.5 65.2 67.1 LS-VRU [46] 36.0 36.7 36.766.8 68.4 68.4 GPS-Net [21] 36.1 39.2 40.1 60.7 66.9 68.80BPGR ( k = 1 ) 37.0 39.3 39.3 67.8 69.1 70.004.2. 评估指标0对于VRD，我们采用与[46]相同的评估指标，该指标运行关系检测（ReD）和短语检测（PhD），并显示前50/100个结果的召回率（Recall @），每个关系提议有k =1，70个候选关系（或每个对象框对的k个关系预测）之前取前50/100个预测。ReD是输入图像并输出三元组和对象框的标签。PhD是输入图像并输出三元组的标签和框。对于VG200，我们使用[46]中使用的相同评估指标，包括1）场景图分类（SGCLS），即给定真实主体和对象框预测主体、对象和谓词的标签；2）谓词分类（PCLS），即给定真实主体和对象框和标签预测谓词标签。报告了在前20/50/100个预测中的召回率@。对于逻辑规则，我们计算逻辑规则的概率。0真实作为逻辑规则评估的规则。在这里，我们采用了Łukaseiwicz的t-范数模糊逻辑[28]。0主体0对象0三元组：0（人，穿着，夹克）0（人，穿着，滑雪板）0逻辑规则：0person(x) ∧ wear(x, y) � jacket(y) ∨ skis(y)0图4.生成的逻辑规则。我们直接从图像的注释中获取主体、对象和关系。逻辑规则的主体包括基于主体和关系的两个原子。两个原子由“∧”组合。逻辑规则的头部由对象组成。所有这些原子由“∨”组合。04.3. 实现细节0在实验中，我们采用了具有VGG16骨干的Faster-RCNN作为目标检测器，我们的模型在单个NVIDIA TITANRTX上进行了8个时期的训练。前5个时期的学习率为0.001，其余3个时期的学习率为0.0001。对象特征的维度为D =512。视觉推理模块使用在COCO数据集上预训练的权重进行初始化。04.4. 结果和分析0我们首先在VRD数据集的表1中展示了我们的实验结果和最先进的方法。请注意，变量k是计算关系候选数目时的关系候选数目。free kk = 1k = 70k = 1k = 70Recall@501005010050100501005010050100BPGR-SRM27.032.632.939.623.726.727.032.629.032.932.939.6BPGR-VRM28.334.435.041.925.328.228.334.431.034.835.041.9BPGR-OI28.835.035.742.925.428.728.835.031.435.535.742.9BPGR29.435.336.243.026.229.429.435.332.336.436.243.0(a) ReD(b) PhDLS-VRUBPGR (sky, above, person) (person, under, sky)(bike, under, person)(sky, above, person) (person, under, sky)(bike, under, person)personpersonbikeskyskymotorcyclemotorcyclemotorcyclemotorcycle(sky, above, person) (person, under, sky)(bike, under, person)(sky, above, person) (person, under, sky)(bike, next to, person)bikepersonpersonskyskyGT:GT:GT:(motorcycle, next to, motorcycle)(motorcycle, next to, motorcycle)(motorcycle, behind, motorcycle)106150表3. 在VRD数据集上对我们模型进行消融实验。0方法 ReD PhD ReD PhD0图5.VRD数据集上的零样本学习性能。它显示了零样本学习的关系检测和短语检测结果。随着超参数k的增加，结果呈上升趋势。0前50/100。由于并非所有最先进的方法都在实验中指定了k值，我们使用[46]中提出的方法，在“freek”列中报告以k为超参数的结果。最先进的方法基于语言先验。我们的BPGR(E+M)代表推理与学习，BPGR(E)是仅推理，当所有逻辑规则的权重固定为1时。结果表明，BPGR(E)和BPGR(E+M)在大多数情况下都优于最先进的方法。通过学习逻辑规则的权重，BPGR(E+M)实现了最佳性能。原因是BPGR可以利用逻辑规则中的符号知识，优于那些纯粹基于语言先验的方法。与基准LS-VRU相比，BPGR在整体上实现了更好的性能并纠正了错误。表2显示了在VG200上的结果。对于VG200，最先进的方法中的k值并不明确。因此，我们报告了k=1时我们的BPGR的结果。我们可以看到，我们的BPGR在三个Recall @20/50/100的指标中都优于最先进的方法。这清楚地显示了利用逻辑规则中的符号知识的好处。我们注意到PCLS更注重关系识别，我们的BPGR在PCLS评估指标上得分更高。这表明逻辑规则对模型中的关系识别是有益的。在实际场景中，视觉关系检测任务的关系分布是长尾分布。因此，研究模型在训练数据不足的关系上的泛化性能是重要的。我们在VRD数据集上验证了我们的BPGR和基准LS-VRU在零样本环境中的性能，其中训练数据和测试数据是VRD数据集上的不相交关系集合。图5显示了结果。如预期，BPGR的性能优于LS-VRU的前50/100。这显示了LS-VRU在处理稀疏关系时的局限性。相反，BPGR利用逻辑规则中的符号知识和语言先验进行推理，受稀疏关系的影响要小得多。0(摩托车, 旁边, 摩托车) GT :0图6.我们的BPGR与基准LS-VRU在检测结果上的比较。第一行是BPGR的检测结果，第二行代表LS-VRU的检测结果。“GT”是groundtruth。0关系检测任务的关系是长尾分布。因此，研究模型在训练数据不足的关系上的泛化性能是重要的。我们在VRD数据集上验证了我们的BPGR和基准LS-VRU在零样本环境中的性能，其中训练数据和测试数据是VRD数据集上的不相交关系集合。图5显示了结果。如预期，BPGR的性能优于LS-VRU的前50/100。这显示了LS-VRU在处理稀疏关系时的局限性。相反，BPGR利用逻辑规则中的符号知识和语言先验进行推理，受稀疏关系的影响要小得多。04.5. 消融实验0为了研究模型权衡对推理性能的影响，我们设计了三个变体来验证各个组件对BPGR的影响。这三个变体如下所示：shirt( )person( ) ⇒ glasses( ) ∨wear( , )∧⇒laptop( ) on( , ) table( ) ∧106160“主语是人，宾语是玻璃或者衬衫是穿着。”0“主语是笔记本电脑，宾语是桌子，关系是在上面。”0穿戴（，）0穿戴0人0笔记本电脑0眼镜0衬衫0表格0图7.一个示例可以描述图像中推理结果的可解释性。我们的模型可以通过找到表征常识知识的FOL来解释对象之间的推理关系。例如，为什么“人”和“眼镜”或“衬衫”之间存在“穿戴”关系？根据公式（13），模型可以找到最有信心的逻辑规则是people（x）∧wear（x，y）�glasses（y）∨shirt（y）。这表明模型的推理结果与常识一致。0如下：（1）BPGR-SRM（α = 1，β = 0，γ =0）：移除符号推理模块。（2）BPGR-VRM（α = 1/2，β= 1，γ =1）：移除一半的视觉推理模块。（3）BPGR-OI（α =1，β = 1，γ =0）：移除观察变量的交叉熵。我们在VRD数据集上进行测试。结果报告在表3中。观察到SRM、VRM和OI之间的相关性对视觉关系检测有极其积极的影响，而SRM有益于最终结果。这与我们的理论分析结果一致：逻辑规则中的符号知识可以纠正VRM的结果。此外，当减少视觉推理模块的比例时，BPGR-VRM的性能下降，这表明视觉特征是模型性能的重要因素。04.6. 视觉分析0检测结果分析。图6显示了我们的BPGR和基准LS-VRU的推理结果。与LS-VRU相比，BPGR的结果更好。我们可以看到BPGR在纠正错误推理结果方面发挥了重要作用。例如，LS-VRU显示一些结果“（摩托车，后面，摩托车）”，“（自行车，旁边，人）”和“（天空，上面，建筑物）”与真实情况不匹配。然而，BPGR的结果与真实情况相匹配。上述例子还表明逻辑规则中的符号知识可以引导学习模型纠正推理性能的错误结果。可解释性分析。我们在图7中展示了一个可解释性的视觉图像。例如，BPGR的推理结果是图像上的（笔记本电脑，放在，桌子上）。根据公式（13），模型可以提供一些高分逻辑规则。我们可以看到排名第一的逻辑规则是笔记本电脑（x）∧放在（x，y）�桌子（y）。根据这个逻辑规则，我们知道当0主语是“笔记本电脑”，宾语是“桌子”，根据逻辑规则laptop（x）∧on（x，y）�table（y）预测关系为“on”。因此，逻辑规则在一定程度上可以解释模型的推理结果。05. 结论0总结起来，本文为将符号知识与VRD模型相结合提供了一种新的框架。与以往的工作不同，BPGR可以利用概率图模型将逻辑规则编码到VRD模型中，以提高性能并提供可解释性。此外，为了捕捉模型中符号知识的全局信息和不确定性，我们通过MLN对逻辑规则进行建模。我们的实证结果显示了该模型相对于基线的有效性。未来，我们将扩展我们的神经符号思想到其他领域，如推荐系统等。此外，我们将设计更通用的逻辑规则或引入其他符号知识，并设计不同的组合方式。0致谢。本工作得到了中国国家重点研发计划（编号：2021ZD0112501和2021ZD0112502）、国家自然科学基金（编号：62172185和61876069）、吉林省重点科技研发计划（编号：20180201067GX和20180201044GX）以及吉林省自然科学基金（编号：20200201036JC）的支持。0参考文献0[1] Sathyanarayanan Aakur, Fillipe DM de Souza, andSudeep Sarkar. 通过语义上下文化进行更深入的解释:使用语义上下文化解释视频活动. In WACV , pages 190–199,2019. 2106170[2] Sherif Abdelkarim, Aniket Agarwal, Panos Achlioptas, JunChen, Jiaji Huang, Boyang Li, Kenneth Church, and Mo-hamed Elhoseiny. 使用大词汇量探索长尾视觉关系识别. InECCV , pages 15921– 15930, 2021. 30[3] Jacob Andreas, Marcus Rohrbach, Trevor Darrell, and DanKlein. 神经模块网络. In CVPR , pages 39–48, 2016. 10[4] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, MargaretMitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh.Vqa: 视觉问答. In ICCV , pages 2425–2433, 2015. 10[5] Yuichiro Anzai. 模式识别与机器学习 . 2012. 30[6] Stephen H Bach, Matthias Broecheler, Bert Huang, andLise Getoor. Hinge-loss Markov随机场和概率软逻辑. arXivpreprint arXiv:1505.04406 , 2015. 20[7] Bo Dai, Yuqi Zhang, and Dahua Lin.用深度关系网络检测视觉关系. In CVPR , pages 3076–3086,2017. 20[8] Adnan Darwiche.关于可计数的理论模型及其在真值维护和信念修正中的应用.JANCL , 11(1-2):11–34, 2001. 10[9] Adnan Darwiche and Pierre Marquis. 知识编译图. JAIR ,17:229–264, 2002. 10[10] Herbert B Enderton. 逻辑的数学导论 . 2001. 30[11] Zoubin Ghahramani, Matthew J Beal, et al.图模型和变分方法 . 2000. 40[12] Roei Herzig, Moshiko Raboh, Gal Chechik, Jonathan Be-rant, and Amir Globerson.使用置换不变结构化预测将图像映射到场景图. NeurIPS ,31:7211–7221, 2018. 60[13] Zih-Siou Hung, Arun Mallya, and Svetlana Lazebnik.上下文翻译嵌入用于视觉关系检测和场景图生成. TPAMI ,43(11):3820–3832, 2020. 1 , 60[14] Michael Kampffmeyer, Yinbo Chen, Xiaodan Liang, HaoWang, Yujia Zhang, and Eric P Xing.重新思考用于零样本学习的知识图传播. In CVPR , pages11487–11496, 2019. 20[15] Andrej Karpathy a

下载后可阅读完整内容，剩余1页未读，立即下载