少镜头视觉关系协同定位

160 浏览量更新于2023-10-13 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16342--∗少镜头视觉关系协同定位Revant Teotia*，Vaibhav Mishra*，Mayank Maheshwari*，Anand Mishra印度理工学院焦特布尔trevant，mishra.4，maheshwari.2，iitj.ac.in：对论文贡献均等https://vl2g.github.io/projects/vrc/摘要在本文中，给定一小袋的图像，每个包含一个共同的，但潜在的谓词，我们有兴趣在本地化的视觉主宾对连接通过共同谓词在每个图像。我们把这个新问题称为视觉关系协同定位或VRC作为缩写。VRC是一项具有挑战性的任务，甚至比研究充分的对象协同定位任务更具挑战性当仅使用几个图像时，这变得更加具有挑战性，模型必须学习共同定位经由看不见的谓词连接的视觉主体-对象对。为了解决VRC，我们提出了一个优化框架，以选择一个共同的视觉关系，船舶在每个图像的袋子。优化框架的目标是通过学习在几个镜头设置中跨图像的视觉关系相似性来找到最佳解决方案为了获得鲁棒的视觉关系表示，我们利用一个简单而有效的技术，学习关系嵌入作为一个翻译向量，从视觉主体到视觉对象在共享空间。此外，为了学习视觉关系相似性，我们利用了一种经过验证的元学习技术，通常用于少数镜头分类任务。最后，为了解决组合复杂性的挑战，从指数数量的可行的解决方案，我们使用贪婪近似推理算法，选择近似的最佳解决方案。我们广泛地评估了我们提出的框架上的变化袋的大小从两个具有挑战性的公开的数据集，即VrR-VG和VG-150，并实现了令人印象深刻的视觉协同定位性能。1. 介绍定位图像中的视觉关系（主语，谓语，宾语>）是整体场景解释的核心任务[15，37]。通常，这种本地化任务的成功在很大程度上依赖于大规模注释数据集的可用性。我们能通过几个例子来定位图像中的视觉关系吗？在本文件中，为-图1：给定第一行所示的四个图像，你能找到通过公共谓词连接的视觉主体和客体吗？我们在本文中提出的模型自动做到这一点。在该图示中，“咬”谓词存在于第一行中的所有四个图像中。我们提出的模型定位那些视觉主体和对象在每个图像中，通过“咬”连接，如第三行所示。请注意，我们的方法没有提供类别名称“咬”。在这里，绿色和黄色的边界框分别指示使用我们的方法的本地化的视觉主体和对象。[最佳颜色]。为了解决这个问题，我们引入了一个重要的和未探索的任务视觉关系Co-本地化（或简称VRC）。VRC具有以下问题集：给定一组b图像，每个图像包含一个共同的潜在谓词，我们的目标是自动定位那些通过com连接的视觉主宾对。16343mon谓词在每个b图像中。请注意，在训练和测试阶段，唯一的假设是袋子中的每个图像都包含一个公共谓词。然而，其类别，例如咬人是潜伏的考虑图1以更好地理解我们的目标。给定一袋四个图像，每个图像包含潜在的共同预测，例如：在该图示中，我们旨在相对于每个图像中的公共谓词来定位视觉主宾对，诸如（狗，飞盘）、（人，热狗）等。由于以下原因，VRC比充分探索的对象协同定位更具挑战性[11，26，30]：（i）共同的物体通常具有相似的视觉外观。然而，常见的关系在视觉上可以是非常不同的，例如，诸如“狗咬飞盘”和“人咬热狗”的视觉关系在视觉空间中是非常不同的(ii)关系共定位需要对场景的视觉和语义解释此外，VRC也明显不同于视觉关系检测（VRD），视觉关系检测（VRD）旨在从跨训练集和测试集公共的视觉关系的预定义固定集合来估计（主语、谓语、宾语）元组的最大似然应该注意的是，即使在VRC的培训阶段，也不提供测试等同器械。因此，处理VRC的模型必须在测试时间期间解释看不见的视觉关系的语义视觉关系协同定位（VRC）有许多潜在的应用，例如图像自动标注、图像搜索引擎的可解释性、视觉关系发现等。在这项工作中，我们提出VRC作为一个标签的问题。为此，每幅图像中的每一个可能的视觉主体-客体对是共同视觉主体-客体对的潜在标签。为了得到最佳的标签，我们定义了一个目标函数参数化的模型参数，其最小值对应于视觉主体-对象对，通过一个共同的潜在的pred- icate连接在所有的图像。为了很好地概括看不见的预测，我们遵循元学习范式来训练模型。就像一个好的元学习模型在各种学习任务上学习一样，我们在各种袋子上训练我们的模型，每个袋子中有不同的公共潜在谓词，以便模型推广到新的袋子。我们使用一个贪婪的近似算法在推理过程中，分解成小的子问题，并结合贪婪的子问题的解决方案。为了评估所提出的VRC模型的性能，我们使用了两个公共数据集，即VrR-VG [18]和VG-150 [34]。我们的方法实现了令人印象深刻的perfor-曼斯这个具有挑战性的任务。这归因于我们通过定义合适的目标函数和我们基于元学习的方法来优化它的问题的原则性制定。此外，我们提出了几项消融研究，以验证不同成分的有效性我们提出的框架。在袋子大小=4时，我们在VrR-VG[18]数据集的不可见谓词上实现了76.12%的协同定位准确度。本文的贡献有两个方面：（i）我们引入了一个新的任务-视觉关系协同定位（VRC）。VRC有几个潜在的应用，是一个重要的一步，整体场景解释。(ii)最近成功的元学习范式在解决少数拍摄学习任务的启发，我们提出了一个新的框架进行少数拍摄的视觉关系船舶协同定位。我们的框架学习强大的代表性潜在的视觉谓词，是有效的执行视觉关系协同定位只有几个例子。2. 相关工作对象共定位：目标定位[5，12，27，40]是计算机视觉中一个重要且开放的问题。为了定位两个或更多个图像之间的对象重叠，已经引入了对象共定位在早期的工作中，Tang等人。[30]在优化框架中提出了框和图像模型，以解决对象协同定位。在他们的公式中，这两个模型通过帮助选择干净的图像和包含共同对象的框来相互补充。为了解决有限的注释数据问题，最近的作品[11，26]选择了少量学习的路线。Hu等人。[11]跨支持和查询分支本地化公共对象。而Shaban et al.[26]形成图像包，然后在包中的所有图像中找到共同的对象。虽然对象协同定位是一项有趣的任务，但视觉关系协同定位需要对场景的视觉和语义理解据我们所知，少数镜头的视觉关系协同定位还没有在文献中研究。视觉关系检测（VRD）：由于其在全面的场景理解中的实用性，它是计算机视觉中的一个基础性任务。为了得到图像中的预测关系标签，Zhang et al.[37]使用了空间、视觉和语义特征。这种方法限于检测在训练期间可用的那些关系，并且不概括看不见的关系。另一种方法[38]将对象和关系投影到两个不同的高维空间中，并通过使用多个损失来确保它们的语义相似性和独特的亲和力。Zhang等人[39]引入了一种新的图形损失，以改善视觉关系检测。Zellers等人[36]使用堆叠的双向LSTM和卷积层的网络来解析场景图，并在其间检测图像中的各种关系。许多最近的方法也受益于图神经网络的进步[17]。相比16344}×−O我i=1SO我Ju=1我puJ--∈L包在这里，Bu和Bu是视觉上的边界框I j主体和客体。表1显示了本文中使用的主要符号的含义。3.1. VRC作为标签问题我们提出VRC作为一个标签问题。为此，给定一个包含b个图像的包，我们构造一个全连通的图G={V，E}，其中V={Iubu=1是一组顶点表1：本文中使用的符号。视觉关系检测，我们有明显的不同，如本文介绍中所讨论的。Meta学习用于少量学习：少数学习方法[1，4，8，33]正在研究和探索计算机视觉[7，20]和自然语言处理[3，9，22，25，33，35]。有两组主要的方法来解决少数学习问题：（i）基于度量的方法和（ii）基于模型的方法。Siamese Networks [13]使用共享的CNN架构来学习嵌入函数和加权L1距离以进行少量图像分类，匹配网络[32]使用CNN，然后使用LSTM来学习嵌入函数，原型网络[28]使用具有平方L2距离函数的CNN架构和关系网络[29]，其提出取代手动精心设计的距离度量与深度距离度量进行比较使得每个顶点对应于一个图像。的潜力-每个顶点的最终标签集是从相应图像获得的所有可能的对象建议1对的集合。给定这个图和标签集，目标是为图的每个顶点（或等效地为袋子中的每个图像）分配一个标签，使得视觉主体-对象对通过潜在的公共谓词P连接s*o被分配给每个图像。图2中示出了使用说明性示例的用于视觉关系协同定位的标记问题公式化。这里，我们在一个袋子中显示四个图像，即，袋尺寸b=4。每个图像被表示为全连通图G中的一个顶点。为了获得这些顶点中的每个顶点（或等效地每个图像）的标签集，我们首先使用Faster R-CNN [23]获得令B=Bu例如，在图2中，我们得到针对“女人”、“绵羊”、“帽子”、“桶”等的边界框。作为Image-1的对象提案。这里pu是Image-u中对象提议的数量。给定这些，该顶点的标签集将包含对象提议的所有可能的有序对换句话说，这个标签集的基数等于pu（pu1）。此外，对象提议的每个有序对是一致的。通过潜在谓词连接。Image-1中的潜在谓词示例（参考图2）是抚摸、穿戴等这些谓词定义了诸如“女人，抚摸，羊>”、“女人，穿着，帽子>”等视觉关系<<。假设表示对象提议Bu和s o s片段内的图像，是基于度量的方法的示例。基于模型的方法通常取决于它们的模型设计。MetaNet [19]是基于模型的少量学习方法的一个例子，它可以实现快速的Bu的图像-u通过一个隐藏谓词Pso连接。然后，图像-u或等效对应顶点-u的标签集由下式给出：u u通过学习元级知识进行泛化多个任务，并通过快速参数化改变其归纳偏差。我们使用一种基于度量的方法，即。关系网络用于学习视觉之间的相似性Lu={ |s =o且（Bs，Bo）是一个图像中的对象提议的有序对-u和Pso是一个潜在谓词。}（一）关系嵌入在我们的优化框架。3. 方法给定一袋b个图像，{Iu}b，使得每个图像标签lu（s，o）=u 是顶点- u的标签集的实例（或成员）。为了简化符号，我们从这里开始将lu（s，o）写为lut，其中t从1变化到|Lu|. 此外，最优的袋u=1标签，即，连接的视觉主体-客体对Iu包含一个潜在的公共谓词存在于包中的所有图像中，我们的目标是找到集合O，使得O={（Bu，Bu）}b，其中每个元组通过一个“公共”潜在谓词P s * o，图像- u由以下表达式表示：l u * t。在图2中，Ps*o=对应于u个中的对象提议对。中的公共谓词连接的图像1对象建议不应与视觉关系中的对象混淆。符号Lulso∈LuBpu我PsoBu意义图像-u视觉关系的标签集袋尺寸Image-u中的对象建议数i Image-u潜在谓词连接提议Bu和BuSOPsofRθ（·，·）θ公共潜在谓词关系嵌入网络视觉关系相似度模型参数16345ΣΣΣ图2：VRC作为标签问题。给定一袋b个图像（在本图中b=4），我们通过将每个图像表示为顶点来构造一个全连通图。每个图像中的所有对象提议对构造每个顶点的标签集。目标是找到标记，使得为每个图像选择表示共同潜在谓词的标记，例如，我们通过最小化相应的目标函数来解决这个问题更多详情请参见第3[最佳颜色]。关系元组woman，petting，sheep>，man，pet-term Ψu（lut），表示分配标签丁，狗>，人，抚摸，马>，人，抚摸，羊>Iut=年龄，任何主体-客体对被认为是同等可能的。因此，目标函数的该项对优化没有贡献。2（ii）成对项Ψuv（lut，lvt，θ）表示图像-u取a的成本。包包图片s o1标签LUT2=Bu，Pso，Bu>和图像-v取标签<1s o最佳标记的公式化：为了解决la-lvt. =。这里θ是一个可学习的模型2SO在问题中，我们定义以下目标函数，其最小值对应于VRC的最优标记，即，在包的每个图像中定位经由公共潜在谓词连接需要从几个例子中学习的参数。我们使用神经模型来学习这些参数。我们在3.2节中描述了这个神经模型。此外，优化的成对项应当以这样的方式定义，使得当Iut1和Ivt2的隐藏谓词Pso是语义时，它更基本相似，其他方面更高。我们计算这一对-Ψ=u=1minΨu（lut）+不b，u=vv=1min Ψuv（lut1，lvt2，θ）t1， t2.方程6中的项。进一步地，为了成对地2我们将“成本函数的一般形式（一元+成对）”写成（二）在该目标函数中，存在两个项：（i）一元因此，B .16346−u=1u术语，我们需要首先学习给定的一对对象建议Bs和Bo的鲁棒语义编码，其使用边界框坐标、Faster-RCNN fc 6特征和对象类得分的级联来表示。换句话说，我们希望学习视觉关系嵌入如下：3.3. 推理为方程2中的优化函数找到全局最优解的问题是NP难问题。图像的标签集的基数为pu×低点：（三）其中，Pu是图像中的对象提议的数量联合因此，一种强力技术来找到最佳的-flso=fΦ（Bs，Bo），解决这个标记问题需要O。 Qbp2Σ时间。其中，fΦ表示由Φ参数化的视觉关系嵌入网络，并且flso是视觉关系l so的编码。我们使用一个流行的关系编码网络，即。VtransE [37]用于计算关系em-寝具3.2.学习用很少的例子在我们的问题设置中，为了能够很好地概括新袋子，模型应该能够学习视觉关系之间的相似性，即使在一次查看小尺寸袋子时也是如此。这通常被称为少数镜头设置。存在许多学习范例来解决这种设置中的问题。我们选择元学习[10，24]，这是最成功的方法之一。具体来说，我们使用一种基于度量的元学习方法，即。关系网络[29]学习视觉关系之间的相似性，如下所示。给定一对视觉关系li和lj，我们首先使用等式3分别获得它们的表示fli和flj。然后，我们计算这些表示之间的相似性得分，如下所示：我们采用了一个贪婪的推理算法提出的沙班等。[26]由于其已被证明优于可用于解决这些类型的问题[2，14]的其他近似算法。4. 实验和结果4.1. 数据集和实验设置为了定量研究我们提出的方法的鲁棒性，我们使用以下两个公共数据集进行所有实验。(i) VrR-VG[18]：视觉相关关系数据集（简称VrR-VG）是通过去除所有统计和位置偏倚的视觉关系从Visual Genome[16它包含58，983个图像，23，375个视觉关系元组和117个唯一谓词。在这117个谓词中，我们使用随机选择的100个谓词进行训练，其余17个谓词进行测试。(ii) VG-150[34]：为了测试我们方法的鲁棒性，我们进一步展示了VG-150上的结果。该数据集包含150个对象类别和50个谓词类。出Rθ（fli，flj）=wTK（fl，flj）+b，（4）50个谓词，我们分别使用40个和10个进行训练和测试。其中w是可学习的权重矩阵，并且b是偏置向量。此外，K计算如下：K（fl，fl）= tanh（Wl（[fl;fl]）+bl）为了获得图像的对象建议，我们使用在 VisualGenome [16]上训练的Faster R-CNN [23]。然后，我们在执行非最大值抑制后，选择前100个最有信心的对象建议，其中0.5的交集超过i j i jσ（W2[fli;flj]+b2）+（（fli+flj）/2），（5）其中W1、W2是两个可学习的权重矩阵，b1、b2表示偏置向量。此外，tanh和σ分别表示双曲tanh和sigmoid激活函数。在这里，我们不仅使用视觉关系特征的平均值，还添加了一个广泛使用的可学习门控激活[21，31]，以获得更好的特征组合。我们使用情景二元逻辑回归损失来训练关系网络参数。为此，对于每个包，我们创建所有可能的对li和li，使得它们属于包中的不同图像。如果一对li和lj的谓词与袋子的公共潜在谓词相同，则它们是正的;否则，它们是负的。我们终于将成对成本计算为学习到的相似性度量的负数，即，Ψuv（lut1，lvt2，θ）= −Rθ（flut1，flvt2）。（六）我16347×−联合（IoU）阈值。为了创建一个图像的标签集，我们考虑所有可能的有序对对象的建议，该图像作为候选人的共同的视觉关系。由于我们考虑每个图像的前100个对象建议，因此我们得到9900（=100（1001））个候选对象。每个图像中的视觉主体-对象对。此外，我们使用训练谓词来训练VTransE [37]为了创建大小为b的图像包，我们首先选择谓词，然后从数据集中挑选b个图像，使得b个图像中的每一个与所选择的谓词具有至少一个视觉关系。通过这种方式，我们得到一个包，其中所有图像共享一个公共谓词。我们分别使用不相交的训练和测试预测集创建10，000个训练包和性能指标：遵循广泛使用的局部化度量CorLoc [6]，我们使用以下两个性能度量来评估我们的方法的性能：16348我们的方法袋尺寸VrR-VGVG-150Bag-CorLoc（%）VR-CorLoc（%）Bag-CorLoc（%）VR-CorLoc（%）Concat + Cosine相似度255.9072.1650.0071.42431.5770.8624.4065.58830.6576.8518.7567.33VTransE +余弦相似性259.8473.3455.6774.90436.2374.2033.4571.78834.6482.5626.6770.85Concat +关系网络261.7275.6154.5571.85435.2874.0238.6272.19831.2476.3829.1575.55我们最好的模特263.4078.9961.1075.82448.0676.1242.3079.15845.4884.0737.6179.96表2：未看到的谓词的视觉关系协同定位结果。我们观察到，我们最好的模型，它使用VTransE表示视觉关系和关系网络计算关系相似性优于其他变种的显着保证金。通过我们的方法，令人印象深刻的视觉关系协同定位性能验证了关系嵌入和基于度量的元学习方法计算视觉关系相似度的有效性作为我们的方法和整体优化框架的组成部分。注：我们对三组不同的训练袋进行了采样以评估我们的模型，发现VR-CorLoc仅在±2的标准差范围内变化。百分之七。(i) 视觉关系-CorLoc：在图像中，如果视觉关系候选预测的视觉主体和视觉对象定位都是正确的，则该视觉关系候选预测被认为是正确的。3VR-CorLoc被定义为视觉主体-对象对被正确定位的测试图像的分数。(ii) Bag-CorLoc：如果针对所有包图像正确地预测了共同视觉关系，则我们认为该包被正确地预测。Bag-CorLoc被定义为对于其所有图像视觉主体-对象对被正确定位的袋子的4.2. 消融和不同的问题设置VRC是一个新的任务，我们没有任何直接的竞争力的方法来比较我们提出的方法。然而，为了证明我们的方法的不同模块（也被称为我们的最佳模型）的效用并且为了显示对少数拍摄视觉关系定位的稳健性，我们进行以下消融研究：(i) VtransE+余弦相似度：作为第一次消融，为了验证我们用来计算两个关系嵌入fli和flj之间的相似度的关系网络的效用，我们用余弦相似度来替换它(ii) Concat嵌入+关系网络：验证关系嵌入编码器网络在我们3一个目标提案如果大于0.5则被认为是正确的IoU与目标地面实况边界框。最佳模式VTransE中，我们用一个简单的主语和宾语嵌入的连接来代替它，即，其中s和o分别表示主体和对象的Faster R-CNN特征、边界框坐标和对象类概率得分的级联方法的其余部分与我们的相同。(iii) Concat嵌入+余弦相似性：在这种消融中，我们替换了我们方法的重要组成部分VtransE和关系网络，分别采用cocat嵌入和余弦相似度。此外，在VRC的原始问题设置中，仅提供图像袋（无监督）。当我们在这个具有挑战性的设置中进行实验时，我们还在进行附加实验时稍微放松了问题设置，如下所示：(i) 所有图像中的视觉主体都被给出：在该设置中，连同图像袋，我们假设在每个图像中还提供了我们的目标是只共同本地化那些视觉对象，连接给定的主题通过一个共同的谓词在所有的图像包。(ii) 在一个图像中给出两个视觉主体-对象：在该设置中，提供对应于公共潜在谓词的视觉主体和对象边界框两者，但仅针对包的一个图像。考虑到这一点，我们的目标是共同定位的视觉主体和物体的袋子的其余图像。16349→→变化我们的方法→Concat + CosineVtransE+余弦Concat+ Rel. 净我们最好的模特监督↓袋尺寸袋尺寸袋尺寸袋尺寸248248248248没有监督72.1670.8676.8573.3474.2082.5675.6174.0276.3878.9976.1284.07主题固定76.8278.6681.2780.3783.1283.5881.0782.8884.6083.9088.2586.67主客在一个图像77.0380.2079.4283.3382.4084.0779.2981.6981.4587.4484.4686.95表3：监管不力对VRC的影响。我们观察到，仅仅通过给出弱形式的监督，例如，将主体固定在包的所有图像中或将主体和对象固定在包的一个图像中，视觉关系共定位性能（% VR-CorLoc）使用我们的方法显著增加更多详细信息请参见第4.2节和第4.3我们在第4.1节中给出的数据集上显示了这些消融和问题设置变化的结果，并将其与下一节中的最佳模型进行比较。4.3. 结果和讨论我们首先在表2中对我们提出的方法进行定量分析。我们报告了袋尺寸从2到8的Bag-CorLoc和VR-CorLoc（参见第4.1节）（%）。我们观察到，凭借我们的原理优化框架中的视觉关系嵌入技术和基于度量的元学习方法的正确选择，我们的最佳模型在袋子大小 = 8 的 VrR-VG 上实现了 45.48% 的 Bag-CorLoc 和84.07%的VR-CorLoc。这样一个令人印象深刻的视觉关系协同定位验证了我们所提出的方法的有效性。此外，为了证明我们选择VTransE来学习视觉关系嵌入和关系网络来计算视觉关系嵌入之间的相似性如Ta所示-表2，我们的框架具有简单的视觉关系嵌入，例如主体-客体特征和诸如余弦相似性的简单相似性计算实现了合理的性能。这可以归因于我们基于元学习的优化方法。在我们的框架中选择VTransE和关系网络模块（参见我们的最佳模型，最后一行）进一步提高了视觉关系协同定位的性能。我们也注意到VG-150中视觉关系协同定位性能的类似趋势。我们还进行了大量的实验，在VRC的原始设置中进行了轻微的调整，放松了一点。我们已经在表3中示出了VrR-VG数据集上的所有那些实验的VR-CorLoc我们观察到，一旦我们稍微放松了问题设置的严格性，换句话说，通过提供受试者边界框，VR-CorLoc在每次消融时都会显著增加，并且如果我们看到我们的方法用于袋尺寸2和4，则会明显增加分别由78.99%和76.12%提高到83.90%和88.25%。在另一种情况下，我们通过仅为袋子中的一个图像提供主体和对象边界框来放松条件，对于袋子尺寸2和4，VR-CorLoc分数分别从78.99%和76.12%增加到87.44%和84.46%。这些结果表明，通过提供稍微更多的监督（在所有图像中注释对应于公共谓词的主体的边界框，或者在一个图像中注释对应于公共谓词的主体-客体对），我们的方法的视觉关系协同定位显著改善。图3中示出了通过我们的方法选择的视觉关系共定位结果。4这里我们在每一列中显示一个图像包。分别使用绿色和黄色的边界框来示出这些袋子上的主体和对象共同定位。我们观察到，我们的方法成功地共同定位的视觉主体和对象连接通过一个潜在的谓词，只是看，ING到四个图像在袋子里。具体来说，考虑潜在谓词为Following的第四列。我们的方法共定位的主体和对象后，彼此，例如“牛后，另一头牛”在行-1，“羊后，一个人”在行-2，等等。考虑到我们的模型在训练过程中没有看到谓词跟随，并且有不同的主语和宾语组合，这些结果是令人鼓舞的。请注意，图3中显示的所有关系在训练阶段都是作为视觉关系共定位的第一个工作，我们专注于共定位只有一个共同的视觉关系。我们的主数据集VrR-VG不包含视觉上微不足道的关系，例如“汽车有轮子”、“穿衬衫的人”以及随着袋子尺寸的增大（2 48），它自然变得不太可能有一个以上的在“所有”图像中存在的共同谓词对于前-在VrR-VG试验组中，只有68/500、1/500、0/500个规格为2、4、8的袋具有一个以上的共同点4更多视觉结果见补充材料。16350图3：我们展示了我们的方法在VrR-VG数据集上的一些定性结果。每一列都是一个图像包（包大小= 4），在其所有图像中都有一个公共的潜在谓词。公共潜在谓词写在每列的顶部。我们的方法本地化的视觉主宾对在每个图像的袋子，这是通过共同的潜在谓词通过绘制包围盒周围连接。绿色和黄色边界框分别对应于定位的视觉主体和对象。应该注意的是，所有这些谓词在训练阶段从未出现过。[最佳彩色观看和200%放大]。谓词在有多个共同谓词的情况下，例如在VG-150中，我们的方法预测对应于最小成对成本的谓词，并丢弃其他共同谓词。这导致在包含多个共同的和视觉上微不足道的关系，即数据集上的性能略有下降。VG-150与VrR-VG的比较（参见表2）。共同定位多个共同的视觉关系，需要更多的调查，在不同的最佳解决方案的预测。我们将其作为未来的扩展。5. 结论我们提出了一个新的任务，即少镜头视觉关系协同定位（VRC），并提出了一个原则性的优化框架来解决这个问题，提出了一个等价的alent标签问题。我们所提出的模型成功地共同定位许多不同的视觉关系，合理的高精度，只需看几张图像。我们还显示了视觉关系的共同定位在两个更令人兴奋的设置，首先当主题是已知的所有图像，我们必须共同定位的对象。其次，当主体和对象对被标注用于袋中的一个图像时在这两种情况下，我们提出的方法已被发现有效的VRC在视觉关系发现和自动注释的指示效用。我们坚信，本文提出的新任务和基准将开辟未来的研究途径，在视觉关系的解释，从而，整体场景的理解。16351引用[1] Stuart Andrews ， Ioannis Tsochantaridis ， andThomas Hofmann. 多示例学习的支持向量机。InNeurIPS，2002.[2] MartinBe r gtholdt ， Jo？ rgH. Kappes ， Ste fanSchmidt，andChristophSchn oürr. 以完全图为基础之物件类别侦测之研究Int. J. Comput.目视，87（1-2）：93[3] 汤姆湾 Brown ， Benjamin Mann ， Nick Ryder ，MelanieSubbiah ， JaredKaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，GirishSastry ， AmandaAskell ， SandhiniAgarwal ， ArielHerbert-Voss ， GretchenKrueger，Tom Henighan ， Rewon Child ，AdityaRamesh，Daniel M.Ziegler、Jeffrey Wu、ClemensWinter 、 Christopher Hesse 、 Mark Chen 、 EricSigler 、 Mateusz Litwin 、 Scott Gray 、 BenjaminChess 、 Jack Clark 、 Christopher Berner 、 SamMcCandlish、Alec Radford、Ilya Sutskever和DarioAmodei。语言模型是很少机会的学习者。在NeurIPS，2020年。[4] Marc-Andre 'Carbonneau，Veronika Cheplygina，Eric Granger和Ghyslain Gagnon。多实例学习：问题特征和应用的调查。Pattern Recognition，77：329[5] Kai Chen ， Hang Song ， Chen Change Loy ， andDahua Lin.从纪录片中发现和学习新的对象。在CVPR，2017年。[6] 托马斯·德斯勒，波格丹·阿列克谢，还有维托里奥·费拉里.在学习物体外观的同时定位物体。ECCV，2010年。[7] Gary Doran和Soumya Ray支持向量机多实例分类方法的理论和实证分析马赫学习. ，97（1- 2）：79[8] Chelsea Finn，Pieter Abbeel，Sergey Levine.模型不可知元学习，用于快速适应深度网络。ICML，2017。[9] Xu Han，Hao Zhu，Pengfei Yu，Ziyun Wang，Yuan Yao ， Zhiyuan Liu ， and Maosong Sun.Fewrel：一个具有最先进评估的大规模监督少镜头关系分类数据集。在EMNLP，2018年。[10] Timothy M. Hospedales、Antreas Antoniou、PaulMi- caelli和Amos J.史托基神经网络中的元学习：一个调查。CoRR，abs/2004.05439，2020。[11] 胡涛，Pascal Mettes，黄佳宏，Cees GM Snoek。Silco ：显示几个图像，局部化公共对象。在ICCV，2019年。[12] 杰泽群，魏云超，金小杰，冯佳世，刘伟。用于弱监督对象定位的深度自学学习。在CVPR，2017年。16352[13] 格里高利·科赫，理查德·泽梅尔，鲁斯兰·萨拉胡特-迪诺夫.用于一次性图像识别的连体神经网络。在ICML研讨会，2015。[14] 弗拉基米尔·科尔莫戈洛夫。能量最小化的收敛树重加权消息传递。IEEE Trans. 模式分析马赫内特尔，28（10）：1568[15] 放大图片作者：Michael S.伯恩斯坦和李飞飞。提及关系。在CVPR，2018年。[16] Ranjay Krishna，Yuke Zhu，Oliver Groth，JustinJohn- son ， Kenji Hata ， Joshua Kravitz ，Stephanie Chen ，Yannis Kalantidis ，Li-Jia Li ，David A.作者：Michael S.伯恩斯坦和李飞飞。Visual Genome ： Connecting language and visionusing crowdsourced dense image annotations.国际计算机目视，123（1）：32[17] Yikang Li，Wanli Ouyang，Bolei Zhou，JianpingShi，Chao Zhang，and Xiaogang Wang. 可因式分解净值：一个有效的基于子图的场景图生成框架。在ECCV，2018。[18] Yuanzhi Liang ， Yalong Bai ， Wei Zhang ，Xueming Qian，Li Zhu，and Tao Mei. Vrr-vg：重新聚焦视觉相关的关系。在ICCV，2019年。[19] Tsendsuren Munkhdalai和Hong Yu。Meta网络。ICML，2017。[20] Deepak Pathak ， Evan Shelhamer ， JonathanLong，and Trevor Darrell.完全卷积的多类多实例学习。ICLR Workshop，2015年。[21] Prajit Ramachandran，Barret Zoph，and Quoc VLe. Swish ：自门控激活函数。 arXiv 预印本arXiv：1710.05941，7：1，2017。[22] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在ICLR，2017。[23] 任少卿，何开明，Ross B. Girshick和Jian Sun。更快的R-CNN：朝向利用区域建议网络的实时对象检测。InNeurIPS，2015.[24] Adam Santoro ， Sergey Bartunov ， MatthewBotvinick，Daan Wierstra，and Timothy Lillicrap.使用记忆增强神经网络的元学习。InICML，2016.[25] Victor Garcia Satorras和Joan Bruna Estrach。图神经网络的少样本学习。在ICLR，2018年。[26] Amirreza Shaban，Amir Rahimi，Shray Bansal，Stephen Gould，Byron Boots和Richard Hartley。学习在几个图像集合中找到常见对象。在ICCV，2019年。16353[27] Yunhan Shen，Rongrong Ji，Shengchuan Zhang，Wangmeng Zuo，and Yan Wang.生成式对抗学习实现快速弱监督检测。在CVPR，2018年。[28] Jake Snell，Kevin Swersky，and Richard S.泽梅尔用于少镜头学习的原型网络。在neurIPS，2017年。[29] 宋洪，杨永新，张立，陶翔，Philip H.S. Torr和Timothy M.医院学习比较：关系网络用于少量学习。在CVPR，2018年。[30] Kevin Tang ， Armand Joulin ， Li-Jia Li ， and LiFei-Fei. 真实世界图像中的共定位。 CVPR ，2014。[31] A aéronvandenOord ， NalKalchbrenner ， LasseEs-peholt，Koray Kavukcuoglu，Oriol Vinyals，andAlex Graves.用pixelcnn解码器生成条件图像。InneurIPS，2016.[32] OriolVinyals 、 CharlesBlundell 、 TimothyLillicrap、koray kavukcuoglu和Daan Wierstra。一次学习的匹配InNeurIPS，2016.[33] 王亚青，姚全明，James T. Kwok和Lionel M.倪从几个例子中概括：关于小镜头学习的调查。ACM计算监视器，53（3）：63：1[34] 徐丹飞，朱玉科，蔡伯才，李菲菲.通过迭代消息传递生成场景图在CVPR，2017年。[35] 严雷鸣，郑宇辉，曹杰。短文本分类的少样本学习。多用途工具应用程序，77（22）：29799[36] Rowan Zellers 、 Mark Yatskar 、 Sam Thomson 和Yejin Choi。神经基序：全局上下文场景图解析。在CVPR，2018年。[37] Hanwang Zhang、Zawlin Kyaw、Shih-Fu Chang和Tat-Seng Chua。用于视觉关系检测的视觉平移嵌入在CVPR，2017年。[38] 张骥， Yannis Kalantidis ， Marcus Rohrbach ，Manohar Paluri，Ahmed Elgammal和Mohamed El-hoseiny。大规模视觉关系理解。在AAAI，2019年。[39] Ji Zhang ， Kevin J Shih ， Ahmed Elgammal ，Andrew Tao，and Bryan Catan

下载后可阅读完整内容，剩余1页未读，立即下载