基于视觉翻译嵌入网络的视觉关系检测

93 浏览量更新于2023-10-15 收藏 2.09MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1基于视觉翻译嵌入网络的视觉关系检测Hanwang Zhang<$，Zawlin Kyaw Chang<$，Shih-Fu Chang<$，Tat-Seng Chua†哥伦比亚大学新加坡国立大学{hanwangzhang，kzl.zawlin} @ gmail.com;sfchang@ee.columbia.edu;dcscts@nus.edu.sg摘要视觉关系，如“人骑自行车”和“自行车旁边的汽车”，提供了一个全面的场景理解的图像，并已显示出其巨大的效用，在连接计算机视觉和自然语言。然而，由于建模主谓宾关系三元组的挑战性组合复杂性，在定位和预测视觉关系方面做了很少的工作。受知识库的关系表示学习和卷积对象检测网络的最新进展的启发，我们提出了一种用于视觉关系检测的视觉翻译嵌入网络（VtransE）VTransE将对象放置在低维关系空间中，其中关系可以建模为简单的向量transla。问题，即，主语+谓语+宾语。我们提出了一种新的特征提取层，使对象关系知识，以完全卷积的方式进行边缘传输，支持在单个前向/后向通道中进行训练和推理。据我们所知，VTransE是第一个端到端关系检测网络。我们在两个大规模数据集上证明了VTransE相对于其他最先进方法的有效性：视觉关系和视觉基因组。请注意，尽管VTransE是一个纯视觉模型，但它仍然与Lu的多模态模型具有1. 介绍我们正在见证计算机视觉和自然语言的惊人发展，从令人瞩目的成熟视觉检测[16，35]到蓬勃发展的视觉字幕和问答[2，4]。然而，对后一种视觉语言任务的大多数现有努力试图直接桥接视觉模型（例如，CNN）和语言模型（例如，RNN），但在建模和理解对象之间的关系方面存在不足。因此，观察到泛化能力较差，因为这些模型通常在专门的数据集上进行优化，用于图像字幕或图像QA等特定任务。[17、40]。如图1所示，我们从低层视觉视觉相关高级语言图1.我们专注于检测视觉关系（中间层的虚线框）在本文中。与底层视觉和高层语言之间的直接联系不同，视觉关系提供了对对象交互的直接理解，为图像字幕和问答等应用提供了进一步的语义信息。较低级别的对象检测和从较高级别的语言建模后退一步，集中于图像中对象之间的视觉关系。我们称视觉关系为主谓宾三元组 1 ，其中谓语可以是动词（ person 1-talk-person 2 ）、空间（ clock-above-person 2）、介词（car-with-wheel）和比较级（person 1-taller-person 2）[23，27]。视觉关系通过将对象置于对象之间的什么、在哪里以及如何相互连接的语义语境中，自然地连接了视觉和语言。例如，如果我们可以成功地检测 clock-above-person 2和person 2-wear-jacket，则图1中所问问题的答案“gray”背后的推理知识质量保证-1当上下文清楚时，我们总是把普通字体中的对象称为一般对象，把电传打字中的对象称为关系中的尾对象。5532动词空间人与人对话人上时钟介词比较级有轮子的车-人-高-人图像字幕穿红衣服的人正在街上和穿灰衣服的人谈话。目视QA问：钟下面的那个人的夹克是什么颜色的？答：灰色RNNCNN5533船对象自行车马电机大象骑人主题特征空间关系空间图2.一个翻译嵌入用于学习谓词骑的例子。VTransE不是从各种乘坐图像建模，而是在关系空间中学习一致的平移向量，而不管主体的不同外观（例如，人）和物体（例如，马、自行车等）涉及谓词关系（例如，骑）。边缘基[8]，从而允许更好的泛化甚至零拍摄学习[23，41]。在本文中，我们提出了一个卷积定位网络的视觉关系检测被称为视觉translationE嵌入网络（VtransE）。它以端到端的方式从图像中同时检测对象并预测它们的关系我们强调了两个关键的新关系，使VTransE有效，并与其他视觉关系模型[27，36，37]区分开来：翻译嵌入。由于关系是对象和谓词的组合，它们的分布比对象更长尾对于N个对象和R预测，人们必须用很少的例子来解决学习O（N2R）关系的基本挑战[33，37]。一个常见的解决方案是学习对象和谓词的单独模型，将复杂度降低到O（N +1）。R）。然而，这一巨大的外观变化，cates使学习更加具有挑战性。考试-事实上，人骑自行车和人骑大象的外观有很大的不同。为此，受表示大规模知识库的翻译嵌入（transE）的启发[5，25]，我们提出通过在低维空间中映射对象和谓词的特征来建模视觉关系，其中关系三元组可以被解释为向量翻译，例如，人+骑自行车如图2所示，通过避免学习双当主-乘 -宾的形式变化很大时，我们只需要学习关系空间中的乘平移向量，即使主语和/或宾语可以是相当多样的。知识转移关系。认知证据表明，物体及其相互作用的识别是相互的[6，15]。例如，人和自行车检测用作骑行预测的上下文，这又约束两个对象的接合，从而有利于对象检测。受此启发，我们明确地incor- porate对象和谓词之间的知识转移在VtransE。具体来说，我们提出了一种新的特征提取层，提取三种类型的对象特征，用于翻译嵌入：类元（即，类概率），位置（即，边界框坐标和比例）和RoI视觉特征。特别是，我们使用双线性特征插值[13，18]而不是RoI池[11，35]用于不同的坐标。因此，对象和关系之间的知识-置信度，位置和规模-可以通过端到端方式的单个前向/后向传递进行传输。我们在两个最近发布的关系数据集上评估了拟议的VTransE：Visual Relationship [27]有5，000张图片和6，672个独特关系，Visual Genome [23]有99，658张图片和19，237个独特关系。我们在几个最先进的视觉关系模型上显示出显着的性能改进。特别是，我们的纯视觉VTransE甚至可以在检测和检索方面优于具有视觉和语言先验的多模态方法[27]，并且在零射击学习中有点害羞概括而言，我们的贡献如下：1）提出了一种视觉关系检测模型--视觉转换嵌入网络（VTransE），它是一种同时检测对象和关系的卷积网络。据我们所知，这是第一个端到端的关系检测网络;2）我们提出了一个新的视觉关系学习模型VtransE，它结合了翻译嵌入和知识转移; 3）VtransE优于几个强大的基线视觉关系de-translation，通过大的性能增益进行保护2. 相关工作我们的工作落在最近的进展接地组合语义的图像[23，32]。研究表明，高质量的背景提供了更全面的场景理解，这支持了许多视觉语言任务，如VQA [1]，字幕[21]和复杂查询检索[20]。视觉关联检测不仅可以将目标区域与目标进行关联，而且可以描述目标之间的相互作用.特别是，我们的VTransE网络借鉴了关系学习和对象检测方面的最新成果。视觉关系检测。与将关系视为隐变量[42]不同，我们涉及显式关系模型，其可以分为两类：联合模型和分离模型。对于联合模型，三重态被认为是一个独特的类[3，9，33，37]。然而，长尾分布是可伸缩性的固有缺陷。因此，我们遵循单独学习主语、宾语和谓语的单独模型[7，14，36，27]。但是，建模预测的大的视觉变化是具有挑战性的。受TransE在大规模知识库中的关系学习中的广泛应用的启发 [5 ， 25] ，我们的 VTransE 扩展了TransE，通过将主体和对象映射到具有较少方差的低维关系空间来建模视觉关系，并将谓词建模为主体和对象之间的翻译向量。5534p关系预测模块类位...conv位置框视觉Ws特征pers大象人骑象人大象高人对象检测模块壮举…提取-层Wo裤子大象旁边的人配裤子图3. VTransE网络概述。输入图像首先通过对象检测模块，这是一个卷积局部化网络，输出一组检测到的对象。然后，每对对象被馈送到关系预测模块进行特征提取和视觉翻译嵌入。特别地，使用双线性插值从最后的卷积特征映射平滑地提取对象的视觉特征。表示向量连接，并且表示逐元素减法。object.请注意，有一些作品[3，27，33，24]利用语言先验来提高关系检测，但我们只对视觉模型感兴趣。物体检测。VTransE基于由区域建议网络（RPN）和分类层组成的对象检测模块特别是，我们使用Faster- RCNN [35]，它是从其前身[11，12]演变而来的注意，VTransE不能简单地被认为是将关系预测层附加到Faster-RCNN。事实上，我们提出了一种新的特征提取层，允许对象和关系之间的知识转移。该层利用双线性插值[13，18，19]而不是Faster-RCNN中的非平滑RoI池化，因此可以在单个tp∈ Rr（r M）和在TransE2中一样，VTransE学习两个从特征空间到关系空间的投影矩阵Ws，Wo∈Rr× M，即，s=Wsxs和o= Woxo：Wsxs+tp Woxo。（一）不像知识库中的关系一般是事实，在伦敦，视觉关系对于特定的视觉例子是不稳定的，例如，车-高 -人的有效性取决于图像中特定车和人的高度，如果关系注释不完整，则导致有问题的负三元组采样相反，我们建议使用一个简单而有效的softmax来预测损失，只奖励决定性准确的谓词3，而不是特定示例的不可知向前/向后传递。请注意，VTransE可以与任何对象检测网络结合，例如最近的Lrel=Σ（s，p，o）∈R-logsoftmax.ΣtT（Woxo−Wsxs）、（二）[26][27][28][29][29]3. 我们的方法：VTransE网络VTransE是一个端到端的体系结构，同时完成对象检测和关系预测。如图3所示，它建立在对象检测模块（例如，Faster-RCNN），然后将所提出的特征提取层和翻译嵌入用于关系预测。3.1. 视觉翻译嵌入给定任何有效关系，平移嵌入（transE）[5]分别在低维向量s，p和o中表示主语-谓语-宾语，并且关系表示为嵌入空间中的平移：当关系成立时，s + p≠o，并且s +其中softmax是在p上计算的。虽然Eq。（2）学习等式（1）中的平移模型的旋转近似。（1），我们可以通过适当的正则化（如权重衰减）来保留平移属性[30，43，44]。关系检测的最终得分是等式中的对象检测得分和谓词预测得分之和（2）：S s，p，o= S s+S p+S o，其中S s或S o是对象检测得分，S p是关系谓词预测得分。3.2. 特征提取我们在VTransE中提出了一个特征提取层来提取xs和xo。有三种类型的特征可以表征关系中对象的多个方面：克拉西姆它是对象分类概率的（N+1）-d向量（即，N个类和1个背景）。类被广泛用作各种视觉任务中的语义属性[39]。例如，在关系检测中，classeme是用于拒绝的有用先验p/p，否则。 TransE提供了一个简单而有效的链接-表示大型知识数据库中长尾关系的耳模型[31]。设xs，xo∈RM是主、客体的M维特征.除了学习一个关系转换向量2在实验中，我们测试了r∈ {100，200，...，1000}发现，r=500是一个很好的默认值。3事实上，谓词是多标签的，例如，人骑自行车和人骑自行车都是正确的。然而，大多数关系在数据集中是单标签的，例如，58%的VRD [27]和67%的VG [23]。双线性插值框对Softmax缩放缩放FCFCCNN55351616不太可能的关系，如猫骑的人。位置. 它是一个四维向量（tx，ty，tw，th），这是[12]中的边界框参数化，其中（tx，ty）指定尺度不变平移，（tw，th）指定相对于其对应物的对数空间高度/宽度偏移客体或主体。以subject为例：在300个提案上形成具有IoU>双线性插值通过删除VGG-16的最终池化层，我们使用形状为W′× H′× C的最后一个卷积特征图F（图3中的粉红色立方体），其中C=512是通道数，W′=10W×，tx= x−x′w′ ，ty=y−y′whh′，tw=logw′，th=logh′（3）并且H′= H，其中W和H是输入图像的宽度和高度。F编码的视觉外观的其中（x，y，w，h）和（x′，y′，w′，h′）分别是主体和客体的框坐标。位置特征不仅可以用来检测空间关系或介词关系，而且对动词，谓语是ride时主语通常在宾语之上。视觉特征。它是一个从形状X×Y×C的卷积特征变换而来的D-d向量。虽然它与Faster中使用的RoI池功能大小相同，RCNN，我们的特征是从最后一个conv特征图中双线性插值的第3.3节）。总体特征 xs 或 xo 是上述三个特征的加权级联（M=N+D+5），其中权重是可学习的缩放层，因为特征连续性从关系到关系动态变化如图3所示，建议的特征提取层将对象检测模块和关系预处理器耦合，并用于提取视觉特征，目标检测和关系预测。为了实现对象-关系知识传递，关系误差应该反向传播到对象检测网络，从而细化对象。然而，Fast/FasterR-CNN中广泛使用的RoI池化视觉特征不是坐标的平滑函数，因为它需要对提议区域进行离散网格分割，导致从特征提取层反向传播的零坐标梯度为此，我们用双线性插值代替RoI池化层[18]。它是两个输入的平滑函数：特征图F和投影到F上的对象边界框，输出是大小为X×Y×C的特征V(the图3中的橙色立方体）。V中的每个条目值可以是以卷积方式从FW′H′dictionModule.Vi，j，c=ΣΣi′=1j′=1Fi′，j′，ck（i′−Gi，j，1）k（j′-Gi，j，2），⑷3.3. 架构细节VTransE的训练图像标记有列表主语-谓语 -宾语三元组，其中每个唯一的主语或宾语都用边界框注释在测试时，VTransE输入图像并输出一组检测到的对象和每对对象的关系预测分数。目标检测网络。VTransE网络从Faster-RCNN [35]对象检测网络开始，具有VGG-16架构[38]。在训练时，我们对包含Faster-RCNN的RPN生成的256个区域建议框的小批量进行采样，如果每个区域建议框与一些地面真实区域的交集（IoU）至少为0.7，则每个区域建议框都是正的，如果IoU<0.3.肯定的建议被馈送到分类层，其中每个建议输出（N+1）类概率和N个边界框估计。然后，我们对每个类执行非最大抑制（NMS），IoU> 0.4，平均检测到15.6个对象，每个对象只有一个边界框。执行NMS用于对象检测的原因有两个方面：1）我们需要为每个区域指定一个特定的对象类来匹配关系基础事实，2）我们需要对对象进行下采样，以获得合理数量的候选关系。在测试时，我们对IoU> 0.7的RPN生成的300个提案区域进行采样。在分类层之后，我们-其中G∈RX×Y×2记录X×Y在输入边界框中划分网格，并且k（x）=max（0，1-|）是双线性插值核。|) is the bilinear interpolationkernel.注意，网格位置G矩阵是输入框的线性函数因此，来自V的梯度可以反向传播到边界框坐标。优化.我们通过带有动量的随机梯度下降来训练VTransE网络端到端[22]。我们遵循“以形象为中心”的小批量产生于包含许多对象区域和关系的单个图像。损失函数是一个多任务损失，其将对象检测损失Lobj和关系检测损失Lrel组合在等式（1）中。（2）允许对象和关系的交互学习特别是，我们发现一个合理的损失权衡是Lobj+0。4L相对于由于对象检测和关系预测具有不同的样本大小，因此我们通过最小批量大小对Lobj和Lrel进行对于模型初始化，我们对Faster-RCNN进行预训练，关系数据集中的对象初始化对象检测网络，并随机初始化具有高斯权重的VTransE组件。对于端到端训练，我们还用双线性插值替换对象检测网络中的RoI池化层。为了提高效率，我们不会微调VGG-16 CNN。一般来说，我们需要2 - 3个历元使模型收敛。对于已调整大小为720像素长边的单个图像，火车-5536VTransEJointBox图4.在JointBox（第1行）和VTransE（第2行，带有地面实况边界框）模型上，通过乘坐和停放从VRD重新获得的主题和对象的前5个置信区域在Titan X GPU上，使用Caffe和Python的测试运行速度为6.7 fps。请注意，我们可以随时插入更快的对象检测网络，如SSD [26]和YOLO [34]，以进行更有效的训练和测试。4. 实验我们将通过回答以下问题来验证所提出的VTransE网络的有效性。Q1：嵌入关系的想法在视觉领域有效吗Q2：这些特征在关系检测和知识转移中有什么作用？问题3：与其他最先进的视觉关系模型相比，VTransE网络的整体表现4.1. 数据集和指标据我们所知，只有两个大规模的视觉关系检测数据集。我们使用了两者：VRD。它是视觉关系数据集[27]。它包含5，000张图像，包含100个对象类别和70个预测。VRD总共包含37，993个关系注释，每个对象类别有6，672个唯一关系和24.25个谓词。我们遵循与[27]中相同的训练/测试划分，即，4，000张训练图像和1，000张测试图像，其中1，877个关系仅在测试集中用于零拍摄评估。VG.它是最新的Visual Genome Version 1.2关系数据集[23]。与计算机视觉专家，VG是由人群工作人员注释的，因此对象和关系是嘈杂的。因此，我们联系作者进行正式的修剪。例如，我们筛选出了少于5个样本的关系总之，VG包含99，658个图像，具有200个对象类别和100个谓词，导致1，174，692个关系注释，每个对象类别具有19，237个唯一关系和57个谓词。我们将数据分为73，801用于训练，25，857用于测试。在[27]之后，我们使用Recall@50（R@50）和Re-表1.比较两种方法的预测性能方法JointBoxVTransE数据集VRDVGVRDVGR@5025.7846.5944.7662.63R@10025.7846.7744.7662.87图5.来自VRD的JointBox和VTransE的70个同品种模型参数的t-SNE可视化[28]。请放大。call@100（R@100）作为检测的评估指标。R@K计算在图像中的前K个置信关系预测中预测真实关系的时间分数。请注意，精度和平均精度（AP）不是适当的指标，因为视觉关系标记不完整，如果我们没有特定的地面真相，它们将惩罚检测对于关系检索任务（cf.第4.4节），我们采用了召回率@5（Rr@5），它计算在前5名中找到正确结果的次数，以及中位数排名（Med r），这是第一个正确检索图像的中位数排名[20]。事实上，对于具有更完整注释的数据集（例如，VG），即使召回率很低，实际的精确度也可能很高，因为图像中的地面真值的数量通常大于50/100。因此，由Rr@5和Med r测量的检索任务提供了补充评估。4.2. 翻译嵌入评估（Q1）Setup.视觉关系检测需要对象检测和谓词预测。为了研究VTransE是否是一个很好的关系模型，我们需要将其与对象检测隔离开来，并执行谓词预测的任务：在给定具有边界框的地面真实对象的情况下预测谓词。比较方法.我们相比第一章JointBox，一个softmax分类器，将主体和对象关节边界框的图像分类为谓词，以及2）VTransE，将一对主体和对象框的谓词分类。为了公平的比较，我们只使用盒子的RoI池化视觉特征，公园骑5537两种方法请注意，JointBox表示谓词预测中的许多视觉关系模型[9，27，33，37]结果从表1中，我们可以看到，在等式1中公式化的VtransE。（2）优于传统的视觉模型，如JointBox。这是因为VTransE的谓词模型参数--翻译向量--能够捕捉映射到低维关系空间中的两个对象之间的关系的本质含义图4显示了VTransE可以预测具有多样性的正确谓词，而JointBox更可能偏向某些视觉模式。例如，JointBox限制汽车停车，但VTransE可以推广到飞机和公共汽车等其他主题。此外，通过检查图5中谓词参数向量之间的语义关系，我们可以推测JointBox实际上并不对关系进行建模，而是对联合对象同现进行建模。例如，在 JointBox 中， beneath 接近 drive on 和park on的原因很大程度上是由于road-beneath-car 和 car-driveon-road 的共同出现 ; 然而，VtransE更有可能理解beneath的含义，因为它的邻居是below和under，而它远离on和above。4.3. 功能评估（Q2）Setup.我们评估了第3.1节中提出的特征如何影响视觉关系检测。我们执行了相关性检测[27，37]：输入是一幅图像，输出是一组关系三元组和图像中主体和对象的定位，同时与它们的地面实况框重叠至少0.5。比较方法。我们根据使用的不同功能将VTransE消融分为四种方法：1）Classeme，2)位置，3）视觉，和4）所有使用类位，位置，视觉特征，以及上述与缩放层（cf.图3）。请注意，所有上述模型都是端到端训练的，包括对象检测模块。为了进一步研究关系上的谓词性特征，我们将谓词分为四类：动词、空间词、介词和比较词（cf.详细类别列表的补充材料）。结果从图6中，我们可以看到哪些特征擅长检测哪些关系的细节：1）将所有特征与学习的缩放层融合可以在所有类型的关系上实现最佳性能; 2）类位在各种关系中通常优于视觉特征，因为它表征了高级视觉外观（例如，对象看起来像什么）和合成先验（例如，人比猫更可能骑自行车）; 3）对于空间关系，位置特征更好;然而，对于介词关系，所有特征表现相对较差。这是因为介词的空间和视觉线索是不稳定的，如人带表和车带轮。表2.对象检测mAP%之前（Faster-RCNN）和之后从VRD（100个对象）和VG（200个对象）训练VTransE。低mAP主要是由于不完整的对象注释。VRDVG之前后之前后13.3213.986.216.58图6.使用来自VRD（左）和VG（右）的四种消融VTransE方法的四种关系类型的关系检测性能（R@100%）。韦尔塔人篮子椅子总线人袋总线短裤腿numberlogo总线车腿女孩gril到图7.定性对象检测示例之前（红色框和字体）和之后（绿色框和字体）从VRD（顶行）和VG（底行）训练VTransE。表2显示VTransE的端到端训练可以提高对象检测。这主要是由于所提出的特征提取层允许知识转移，使得由关系预测产生的错误可以反向传播到前面的对象检测模块。事实上，改进是可以预期的，因为除了对象标签之外，我们还加入了额外的关系标签如图7所示，与预先训练的Faster-RCNN模块相比，由VTransE训练的对象检测模块通常可以改善边界框，例如轻微的改进，甚至从错误检测的严重错位和校正中恢复。这表明关系将对象放置在上下文场景中。例如，关系可以从错误的检测袋中恢复短裤，即使正确的检测应该是在语义上类似于短裤的裤子。这种修正可能是由人-穿-短裤/裤子的关系引起的。4.4. 与最新技术水平的比较（第三季度）Setup.正如我们将在后面介绍的，一些联合关系模型只能检测整个关系的联合边界框;因此，除了关系检测之外，我们还执行了短语检测[27]：输入是图像，输出是一组关系三元组和每个关系的整个边界框的局部化，其与地面真实联合主体和对象框具有至少0.5重叠。为了进行更广泛的评估，我们还执行了两项额外的任务。1)关系检索：使用关系三元组的查询进行我们首先检测到5538桌上碗桌上碗打领带的人打领带的人VRVG前爪猫前爪猫泰迪熊坐在毯子泰迪熊坐在毯子高层建筑床有毯台灯墙上挂画人3-高-人2个人电话杯上衬衫person1-hold-person2个人穿衬衫专人值守2第二个人有太阳镜人3-高-人1键盘1-坐在旁边-键盘2监视器下的桌子桌面-有-键盘1显示器-高-键盘1键盘-面部-监视器右侧显示器上的人员带垃圾桶人显示器-较高-键盘人-反映在-挡风玻璃人-车外1从车提把手2头人灯饰床床上窗有窗墙灯-小-床男式衬衫屋顶积雪轨道换列车高层建筑表3.在两个数据集上使用各种方法进行短语检测，关系检测，关系检索。“-”表示结果不适用。（参见VRD中不完整注释导致检索性能低下的补充材料。数据集VRD [27][23]第二十三话任务短语检测关系检测检索短语检测关系检测检索度量R@50R@100R@50R@100Rr@5中rR@50R@100R@50R@100Rr@5中r[37]第三十七话0.540.63––3.512043.414.27––11.4218DenseCap [19]0.620.77––4.161993.855.01––12.9513[ 27 ]第二十七话2.242.611.581.852.82211––––––[ 27 ]第二十七话16.1717.0313.8614.708.75137––––––VTransE19.4222.4214.0715.207.89419.4610.455.526.0414.657VTransE-2级18.4521.2913.3014.647.14418.7310.114.975.4812.8212随机0.060.117.14×10−31.43×10−22.954970.040.071.25×10−32.50×10−33.451.28×104图8.关系检测（4个谓词类型的4个前1检测）和检索（前5个图像）的定性示例。我们将我们的VTransE与其最佳竞争对手进行比较：VRD上的Lu's-VLK和VG上的DenseCap。绿色和红色边界表示正确和不正确的结果。在图库中查询（即，测试）图像，然后根据查询关系的平均检测分数对它们进行评分。具有至少一个成功的查询关系检测的图像被认为是命中。该任务是组合语义检索的代表[20];我们选择了前1，000个频繁关系作为查询。2)Zero- shot Learning[27]：在训练和测试中都可以看到单个主语、宾语和谓语，但一些特定的三元组组合只存在于测试集中。由于长尾关系分布，这是一个实际的设置，因为它是不可能收集所有三胞胎的数据。比较方法。我们将VTransE网络与四种最先进的视觉关系检测模型进行了比较。1)VisualPhrase[37]：一个联合关系模型，将每个唯一的关系三元组视为一个关系类。为了公平比较，我们用Faster-RCNN [35]替换了原始的图像对象检测模型[10]; 2）DenseCap[19]：它检测子图像区域并同时生成它们的描述。它是一个端到端的模型，使用双线性插值的视觉特征进行区域定位。我们将其LSTM分类层替换为softmax，预测.因此，它可以被认为是一个联合关系模型; 3）Lu's-V（[ 27 ]中的V-only）：它是一个两阶段分离模型，首先使用R-CNN [ 12 ]进行对象检测，然后采用大边界JointBox模型进行预测分类; 4）Lu's-VLK（[ 27 ]中的V+L+K）：组合Lu' s-V和word 2 vec语言先验的两阶段单独模型[ 30 ]。此外，我们将VTransE与其两阶段训练模型VTransE-2stage进行了比较，VTransE-2stage应用Faster-RCNN进行对象检测，然后使用Q1中的翻译嵌入进行预测。由于我们没有Lu方法的训练源代码此外，由于诸如VisualPhrase和DenseCap的联合关系模型只能从整体上检测关系三元组，因此它们不适用于零镜头学习。因此，我们仅报告了官方1，877个零炮关系的VRD零炮结果（检测和检索）[27]。结果根据表3中的定量结果和图8中的定性结果，我们得到：1) 分离的关系模型，如VtransE和LuVTransEVTransE卢氏-VLKDenseCap5539停车场后面的人里面的人衬衫里面的狗前面的车人过路人-近-柜-瓶-带-人-柜-下-瓶水槽旁柜台人1-近-夹克衫-封面-人1穿夹克的人人1-躺在桌子上狗逐人前车狗人后停车场人-坐在旁边-狗人下沙发人下沙发玩笔记本电脑的人玩笔记本电脑的人图9.在VRD上使用VTransE和Lu's-VLK的零触发关系检测（前4）和检索（前5）的定性示例。绿色和红色边界表示正确和不正确的结果。显著执行VisualPhrase和DenseCap等联合模型，尤其是在VRD上。这是因为所有可能关系的关节模型的分类空间很大（例如，VRD和VG中分别有6，672和19，237个训练关系），导致训练不频繁关系的样本不足。2) 对于单独的模型，更好的对象检测网络，如Faster-RCNN与VTrasnE和Lu的R-CNN用于关系检测。如图8所示，在VRD数据集上，Lu我们相信这是他们的视觉模型Lu's-V被认为比VTransE差的一个重要原因3) 尽管VTransE是一个纯视觉模型，我们仍然可以胜过Lu在R@50和Medr测量的VRD上，我们在短语检测、关系检测和关系检索方面分别相对好20%、2%和230%。首先，类位特征可以充当与语言先验相似的角色第二，区位特征是关系不可或缺的。以图8中的人-衣服-领带关系查询为例，当图像中存在多个人检测时，Lu类似的例子也可以在Lu的VLK的错误检测衬衫杯中找到4) 端到端VTransE优于VTransE-2阶段在两个数据集上的所有任务中。与Q2中的结果一起，它们证明了对象和关系之间相互学习的有效性根据表4中的零发射定量结果和图9中的定性结果，我们得到：1) 我们的方法和比较的方法的性能急剧下降，例如，对于关系检测，VTransE和Lu这是VTransE的关键限制。也许这是因为我们从功能空间到关系空间在方程。（1）过于一般化，尤其是对动词而言，因此无法捕捉特定于关系的视觉变形。例如，VTransE不能区分躺在桌子上的人和坐在桌子旁边的人。一种补救办法是将表4.在VRD上使用各种方法进行零镜头短语检测、关系检测、关系检索请注意，像VisualPhrase和DenseCap这样的关节模型不适用于零激发设置。任务短语检测关系检测检索度量R@50R@100R@50R@100Rr@5中r[ 27 ]第二十七话0.951.120.670.780.54454[ 27 ]第二十七话3.363.753.133.521.24434VTransE2.653.511.712.141.42422随机0.020.047.14×10−31.43×10−20.45499谓词和对象模型[29]，尽管它会将模型复杂度从O（N+R）增加到O（NR），其中N是对象的数量，R是谓词的数量。2) 作为视觉模型，我们的VTransE在零镜头关系预测方面明显优于Lu的V;然而，作为一种多模态模型，Lu的VLK通过利用语言先验知识而超越了VTransE。但是，由于视觉关系对于特定的例子是不稳定的，语言先验并不总是正确的-Lu人下沙发和人玩笔记本电脑中主客体的错位。5. 结论我们专注于视觉关系检测任务，该任务被认为可以为连接计算机视觉和自然语言提供全面的场景理解。针对这一任务，我们引入了VTransE网络，用于同时检测对象和预测关系。VTransE是一种端到端和全卷积架构，由对象检测模块、新型可区分特征提取层和用于谓词分类的新型视觉翻译嵌入层组成。接下来，我们将1）对更高阶的关系进行建模，例如人-扔-球-狗，2）解决零射击关系学习的挑战，以及3）在基于关系推理的VQA系统中应用VTransE确认NExT研究由新加坡总理办公室国家研究基金会在其IRC@SG资助计划下提供支持VTransELu的VLK5540引用[1] J. Andreas，M. Rohrbach，T. Darrell和D.克莱恩使用神经模块网络的深度组合问题回答。在CVPR，2016年。2[2] S. Antol，A.Agrawal，J.卢，M.米切尔，D。巴特拉角LawrenceZit- nick和D.帕里克Vqa：可视化问答。在ICCV，2015年。1[3] Y. Atzmon，J. Berant，V. Kezami，A. Globerson和G.谢奇克学习归纳图像理解中的新构图在EMNLP，2016。二、三[4] R.贝尔纳迪河Cakici、D.埃利奥特，A. Erdem、E. Erdem，N.Ikizler- Cinbis，F. Keller，A. Muscat和B.木板从图像自动生成描述：模型、数据集和评估措施的调查。JAIR，2016. 1[5] A. 博德斯N. 乌斯尼埃A. 加西亚·杜兰J. 韦斯顿，O.亚赫年科为多关系数据建模转换嵌入。在NIPS，2013年。二、三[6] L. L. Chao和A.马丁背流中可操作的人造物体的表示神经影像，2000年。2[7] C. Desai，D. Ramanan和C. C.福克斯多类别物件布局的判别模型。IJCV，2011年。2[8] L. Dong，F.魏，M。Zhou和K.徐使用多列卷积神经网络在freebase上回答问题。在ACL，2015年。2[9] A. Farhadi，M. Hejrati、M. A. Sadeghi，P.扬角拉什奇安J. Hockenmaier和D.福赛斯每张照片都在讲述一个故事：从图像中生成句子。ECCV，2010年。二、六[10] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D.Ramanan使用区分性训练的基于部分的模型进行对象检测TPAMI，2010年。7[11] R.娘娘腔。快速R-CNN。在ICCV，2015年。二、三[12] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。三、四、七[13] K.格雷戈尔岛Danihelka，A.格雷夫斯D. J. Rezende和D.好极了。Draw：用于图像生成的递归神经网络。arXiv预印本arXiv：1502.04623，2015。二、三[14] A. Gupta和L. S.戴维斯超越名词：利用介词和比较形容词学习视觉分类器。ECCV，2008年。2[15] A.古普塔A。Kembhavi和L. S.戴维斯观察人与物体的相互作用：使用空间和功能兼容性进行识别。TPAMI，2009年。2[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。2016. 1[17] A. 贾布里河Joulin和L.范德马滕。重新审视视觉问答基线。在ECCV，2016年。1[18] M. Jaderberg，K. Simonyan、A. Zisserman等人空间Transformer网络。2015年，在NIPS中。二、三、四[19] J. Johnson，A. Karpathy和L.飞飞Densecap：用于密集字幕的全卷积本地化网络。在CVPR，2016年。三、七[20] J. Johnson，R.克里希纳，M。斯塔克湖J. Li，D. A. Shamma，M. S. Bernstein和L.飞飞使用场景图进行图像检索。CVPR，2015。二、五、七[21] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。CVPR，2015。2[22] D. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。4[23] R. Krishna，Y. Zhu，O. Groth，J. Johnson，K. Hata，J. 克拉维茨S. Chen ， Y. 卡兰蒂迪斯湖 J. Li ， D.A. Shamma 等人 Visualgenome ： Connecting language and vision using crowdsourceddense image annotations.IJCV，2016年。一二三五七[24] X.梁湖，加-地Lee和E. P. Xing。用于视觉关系和属性检测的深度变分结构再学习。在CVPR，2017年。3[25] Y.林，Z. Liu，M.太阳，Y.刘，和X。竹学习实体和关系嵌入知识图完成。InAAAI，2015. 2[26]

下载后可阅读完整内容，剩余1页未读，立即下载