没有合适的资源?快使用搜索试试~ 我知道了~
多标签零次学习中的基于空间关系的人-物交互多标记识别方法
8472互动指南针:基于空间关系的人-物交互多标记零次学习东北大学huynh. northeastern.eduEhsan Elhamifar东北大学e. northeastern.edu摘要我们研究了多标签零拍识别问题,其中标签是以人-物体交互(物体上的动作组合)的形式,每个图像可能包含多个交互,并且一些交互没有训练图像。我们提出了一种新的组合学习框架,将交互标签解耦为单独的动作和对象分数,并将两个组件之间的空间兼容性我们结合这些分数来有效地识别可见和不可见的交互。然而,学习动作对象的空间关系,原则上,需要边界框注释,这是昂贵的收集。此外,目前还不清楚如何将空间关系推广到看不见的相互作用。我们通过开发一种交叉注意机制来解决这些挑战,该机制通过预测它们之间的位移(称为相对方向)来从动作位置定位对象,反之亦然。在训练期间,我们将相对方向估计为最大化地面实况交互的分数的方向,所述地面实况交互引导预测朝向兼容的动作对象区域。通过大量的实验,我们表明了我们的框架的有效性,其中我们提高了2.6%的mAP得分和5.8%的召回分数HICO和视觉基因组数据集,分别为最先进的。11. 介绍多标签学习是一项重要而又具有挑战性的任务,它可以识别图像中的所有标签,在人机交互、机器人、辅助技术和监控系统中有着广泛的应用。由于为所有可能的标签收集训练样本的成本很高,多标签零次学习旨在识别没有训练图像的未见过标签[1,2,3]。然而,大多数现有工作集中在每个标签是简单概念的情况对象)并且已经尝试捕获标签间依赖性(例如,对象的共同出现1代码可从https://github.com/hbdat/iccv21_relational_direction获得。图1:传统的多标签零触发识别(顶部)假设交互标签中的动作和对象组件之间的独立性,因此,不能区分背景中的对象(红色)和交互中的对象(黄色)。我们的方法(下图)利用关系方向来引导对兼容对象和动作的预测。更有效的识别。另一方面,图像的更丰富的表示和描述需要更复杂的标签。人-对象交互是标签的一种这样的重要形式,其中每个标签描述在对象上执行的动作(例如,‘holding cup’ or ‘remov- ing wheel’) [然而,现有的多标签学习工作忽略了标签内依赖性,这是动作和对象之间的空间关系的互动标签。这导致缺乏区分背景中的对象和交互中的对象的能力,参见图1,并且对泛化到不可见的交互提出了挑战。[9]中的工作首次尝试将多标签学习推广到零拍摄设置中的人机交互(HOI)识别,其中一些交互没有训练图像。我们的论文在这一任务上取得了进展,通过捕捉动作和对象之间的空间关系(标签内依赖关系),以增强可见和不可见的交互识别,而不需要边界框的位置的动作和对象的图像。以前的工作和挑战。大多数多标签学习工作利用标签相关性来正则化预测[10,11,12,13]。为了进一步提高业绩--Mance,[14,15,16]使用注意力机制来提取标签的区别性视觉特征。 而[17,18,19]预测注意区域循环,[20,21,22,7]建议8473用于对象和动作标签的专门注意模块。然而,这些工作假设每个标签都有训练样本,因此不能推广到看不见的标签。一些工作已经通过利用可见和不可见标签之间的语义信息重叠来解决多标签零激发[23]提出了视觉特征和标签语义之间的非线性嵌入,而[24,2]采用标签图形式的外部知识。最近,[3]提出了标签之间的共享注意力机制,以有效地学习看不见的标签。虽然这些方法可以扩展到解决识别的交互标签,而不是简单的标签,他们不捕捉动作和对象之间的空间依赖关系的互动,这是因为我们显示导致低性能。为了处理看不见的相互作用,[9]提出捕获用于HOI预测的图像上下文。然而,该方法忽略了动作和对象之间的区别性空间关系,这是确定对象是否正在被动作交互所必需的。因此,最近的作品[25,26,27,28,29]检测人和对象边界框以确定其空间兼容性。然而,这些工作需要昂贵的边界框监督的人和对象从看到的互动标签,是难以扩展到数千个互动标签。纸质捐款。 为了解决上述限制,我们提出了一个组合的多标签零拍交互学习框架,该框架在交互中结合了动作对象的空间依赖关系,并且不需要昂贵的边界框注释。为此,我们提出了一个交叉注意模型,学习关系方向,这是预期的位移之间的行动和他们的相应对象,以衡量他们的兼容性。与现有技术相比,我们的框架具有几个优势– 为了学习动作-对象空间关系,我们设计了一种新的交叉注意机制,该机制估计用于定位交互中的对象/动作的关系方向分布。交叉注意力是可区分的,这使得能够通过从相互作用分数反向传播梯度来进行有效训练,而不需要边界框注释。根据关系方向计算的对象/动作得分测量交互标签中对象和动作之间的空间兼容性。– 我们使用的观察,一个动作对象的空间配置往往取决于动作类型。例如,动作“坐下”的对象位置在动作位置下方,而不管对象(例如,椅子、床),见图1。因此,我们在每个交互标签中的动作类型上调节我们的交叉注意预测,这使得能够生成具有类似动作的看不见的标签。– 而不是依赖于昂贵的边界框监督,我们利用交互标签中的动作和对象的视觉注意力的逐点定位能力,这可以泛化到看不见的动作,并扩展到Visual Genome数据集中的数千个标签。2. 相关作品多标签学习解决了图像中所有概念的识别,例如动作,对象和属性标签[30,31]。虽然可以通过为每个标签学习二元分类器来解决[32],但这种幼稚的方法在训练样本不足的许多标签上表现不佳[10,33]。因此,大多数多标签学习工作旨在捕获标签依赖性,以通过标签嵌入[35,36],图[35,36]共享其信息[34,11,12,13]。神经网络[10,37,38,39,40],递归网络[31,41]和注意机制[17,18,19]。然而,它们需要每个标签的训练样本,并且在没有训练样本的情况下不能Zero-Shot Learning的目标是在没有训练样本的情况下识别看不见的概念[42,43,44,45,46,47,48,49]。利用标签语义。一些作品[50,51,52,53,54]进一步使用时间信息来识别视频中的不可见动作。然而,大多数作品只能识别一个单一的看不见的标签每一个图像。[1,55,56,2]将零激发学习扩展到多标签设置。最近,[3]提出通过atten- tion map在标签之间共享空间信息,以专注于看不见的标签,而无需边界框监督。然而,这些作品的目标只有简单的动作/对象标签,因此不建模动作对象的空间关系的互动标签。虽然[9,57,58]识别交互标签,但它们不会捕获和传输从可见交互到不可见交互的空间关系知识。人机交互中的空间关系是交互中动作和对象之间的相对位置[59,60,61,62,63],对交互中的外观变化具有鲁棒性因此,最近的工作集中在通过依赖于每个交互标签的边界框注释来检测动作中的人和对象[6,64,65,66,67,68]。[69,70,71,72]将预测的边界框转换为二元图像以测量其交互性得分,而[8,73,74]从人类区域或人类和对象区域的中心回归对象位置[75]。为了降低注释成本,[26,76,29,28,27,25]提出基于来自可见标签的视觉空间信息来检测不可见的交互标签。然而,这些方法需要边界框注释来检测交互。正交- nal在HOI检测这些作品,我们的方法专注于识别任务的看不见的互动标签,仅使用图像级的监督。弱监督定位[77,78,79]最近由于训练对象检测器[80,81]所需的边界框注释的高成本而获得了[82,83,84]发现可以分析CNN的激活以推断8474CAO联系我们∈C ∪ CCA×O|{A∈O}C A × OC一O联系我们图2:给定输入图像I,我们首先使用注意力机制来估计动作和对象位置la、l〇。然后,我们提出的交叉注意分量估计从动作到对象的关系方向,δ〇 ←a,以及从对象到动作的关系方向,δa← 〇。动作和对象得分sa、so基于注意力位置和关系方向来计算,以捕获动作和对象之间的空间关系。我们计算交互得分sa,o作为动作和对象得分的总和。图像中对象的位置。最近的作品[79,85,86]专注于通过正则化预测来捕获对象的完整空间范围,以防止仅定位最具区分性的部分。然而,这些作品不能本地化的动作和对象的交互标签。此外,它们至少需要图像级监督以用于定位,因此不能推广到看不见的交互。3. 使用空间关系在本节中,我们开发了一个用于捕获空间关系的多标签零激发HOI识别的组合学习框架。我们假设训练图像用它们的交互标签的地面实况列表注释,而没有人类或物体的边界框区域3.1. 问题设置令和分别表示人类动作和对象标签的集合。 两个集合的笛卡尔积,,(a,o)a,o对应于所有可能的交互标记。在本文中,我们使用术语交互组件指动作或对象。在多标签零激发交互学习中,我们有两个集合s、Cu,其中s对应于具有训练样本的可见交互标签,u表示缺少训练样本的不可见交互标签设(I1,Y1),. . . ,(I,N,Y,N)是N个训练样本,其中I i表示训练图像i,并且Yi0,1|一|×个|O|对其地面实况交互进行编码。图像可以包含一个或多个交互,例如,图1中的图像包含多标签零激发HOI识别的目标是对可见和不可见的交互标签(a,o)进行Su仅给出来自以下的训练样本S. 从未见过-交互标签对应于所看到的动作和对象的组合,但是以在训练中不存在的新颖方式。数据或动作和对象的组合,其中至少一个是不可见的。我们使用动作和对象的词嵌入,vta∈A,vtoo∈O,通过利用看不见的和可见的交互组件之间的语义相似性来处理看不见的交互标签的识别。3.2. 拟议框架为了解决多标记零激发HOI识别的问题,我们开发了一种组合框架,其中动作a和对象o之间的交互得分sa ,o被分解为动作sa和对象s 〇的得分之和(参见图2)。正如我们所展示的,这使我们能够将学到的知识从可见的动作和对象转移到不可见的交互标签。为了计算动作和对象得分,有必要将它们定位在图像中。因此,我们使用两个注意力模块,在弱监督设置中,学习选择相关动作和对象区域来提取注意力特征。我们使用的注意力功能来计算动作和对象的视觉分数。然而,考虑到图像可以具有多个动作和对象,组合视觉分数不能捕获哪些动作和对象彼此交互。利用交互组件之间的空间依赖关系,我们提出了一种新的交叉注意机制来学习两个关系方向:一个从动作到对象,它预测的位置的对象的基础上的动作信息,和一个从对象到动作,它预测的位置的动作的基础上的对象信息。我们使用这些方向来计算关系的功能,并随后的动作和对象的关系得分。最后,我们计算的动作/对象得分的视觉和关系的分数,这使我们能够更有效地识别交互标签的组合。例如,当动作和对象存在于图像中,因此具有高视觉分数,但不交互时,关系分数将是低/负的,从而降低交互分数。另一方面,交互中的动作或对象8475r=1R··--·12一O·注意力特征信息量不足(例如,由于遮挡)将具有低视觉分数,而关系特征可以通过产生正关系分数来捕获它们的存在,这增加了交互分数。来自视觉注意力特征的动作EA(HA)和对象EO(HO)视觉分数,sa,o=ea(ha)+eo(ho),(4)ea(h),vTaWeh,eo(h),vToWeh, (5)3.2.1学习动作的视觉表示和其中We、We是用于计算通过注意力模型的对象12为了有效地将知识从可见的交互标签转移到不可见的交互标签,我们使用组合学习范式。我们将学习交互模型分解为学习动作和对象模型,其输出的组合允许我们识别可见和不可见的交互标签。由于缺乏边界框交互符号,并且为了学习从相关图像区域编码信息的动作和对象特征,我们使用软注意[15,16,42]来根据查询动作和对象注意力特征与查询向量va、vo的兼容性。在不结合动作和对象之间的任何关系的情况下,(4)有效地假设动作和对象独立地出现在图像中,因此,不能区分背景对象和交互中的对象(参见图1)。在下一节中,我们开发了一种新的交叉注意机制,该机制估计关系方向和分数,以捕获交互组件之间的空间依赖性,同时保持它们的组合性以进行有效的预测。向量; 设{fr}R为图像的区域特征I,其被划分为R个相等大小的区域。我们计算注意力权重3.2.2基于交叉注意的动作与对象空间关系建模α(f r,v)=exp(vTWαfr)Σ'exp(vTWαfr')、(1)为了捕获交互组件之间的依赖关系,我们使用这样的观察:交互标签中的动作和对象遵循特定的空间配置,这其中Wα是一个可学习的矩阵,用于度量图像区域r与查询向量之间的兼容性v.因此,α指示每个区域相对于v的重要性分数,其通过softmax操作归一化。我们 使用 两 关注 模块, α1()和α2()由Wα和Wα参数化,以选择区域并提取通常取决于动作类型。例如,动作“坐”的对象位置必须在动作位置下方,而不管对象类型如何,例如,‘chair’, ‘bed’ (see因此,我们向我们的模型添加了交叉注意组件,该组件基于对象/动作的位置来预测对象/动作的位置。使用动作查询向量确定动作/对象的位置。1个2个分别用于动作和对象的特征ha,Σα1(fr,va)fr,ho,Σα2(fr,vo)fr. ( 二)RR这里,h_a和h_o分别是通过使用关注分数聚合图像区域特征的动作a和对象o 查询动作向量va,vo我们将使用交叉注意位置来构建动作和对象的视觉关系特征,然后结合(5)来计算交互得分。我们的第一步是估计动作和物体的位置基于由注意力模型选择的图像区域,la,Σαa(fr,va)lr,lo,Σαo(fr,vo)lr,(6)RR并且使用对象来引导两个注意模块。视觉查询。 为了计算查询向量,我们提供-pose以修改动作{vt}的词嵌入和其中lr是区域r的中心的2D坐标,并且1a、1o分别表示动作和对象中心对象ta注意,我们使用位置的和,由at加权-从文本语料库(例如,Wikipedia)转换成合适的可视查询作为va=vt+r(vt),vo=vt+r(vt),(3)注意力分数,因为它是完全可区分的培训。接下来,我们使用动作a的信息来预测对象o的位置,由l〇←a表示,并且使用动作a的信息来预测对象o的位置。a a o o其中r()是计算从视觉查询向量的词嵌入Vt、Vt构造视觉查询向量Va、Vo所需的修改的神经网络。通过对动作和对象查询使用相同的r(),我们有效地在交互组件之间共享知识,将词嵌入细化到合适的查询中,而不是从头开始学习。天真的方法。鉴于动作和对象的注意力特征,多标签HOI识别的一种简单方法是将交互的得分计算为以下各项的总和8476一一来预测动作a的位置,用la←o表示。为此,我们学习两个分量之间的关系方向,δo←a,δa←o。更具体地,给定动作(h,l)和对象(h〇,l〇)的注意力特征和位置,我们的交叉注意力使用高斯分布对从a到〇的δo←a,Σo←a=g1.哈,拉|vaΣ,lo←a=la+δo←a,(7)δa←o,Σa←o=g2.霍,洛|vaΣ,la←o=lo+δa←o,(8)8477Σ··ΣΣ·其中g1(),g2()是两个神经网络,其输出是位移的估计均值(δ)和协方差(Σ)。注意,对象的预期位置lo←a〇使用动作a信息是动作位置la和从动作到对象的平均位移δ 〇 ←a的总和(类似地,对象到动作)。与直接预测动作和对象的绝对位置相比,关系方向δο←α、δα←ο具有捕获相对视觉关系的优点,例如注释1关系方向依赖于动作类型,编码在va中,但不依赖于对象类型,因为动作类型主要规定动作和对象在交互中的相对位置。这使我们的框架,以转移知识边缘的关系方向,从看到看不见的互动标签使用相似的行动,无论对象类型。给定期望位置,l〇←a,la←o,我们计算动作和对象的关系特征,从中计算关系得分。我们假设当a和o的相互作用标签发生时,给定la,关系方向δo←a将指向包含o的图像区域,因此,产生高对象得分eo(对于动作a类似)。另一方面,不相关的动作和对象的预期位置将是具有小的甚至负的分数的不相关区域为了计算相关视觉特征,我们使用图像区域特征的坐标lr的高斯概率基于动作(la←o,Σa←o)和对象(lo←a,Σo←a)的估计参数来对图像区域特征进行加权,如下所示:ho←a, p g(lr|lo←a,Σo←a)f r,(9)Rea(ha),eo(ho)来计算动作的总得分,由sa表示,以及对象的总得分,由so表示,sa(ha,ha←o)=ea(ha)+w1ea(ha←o),(11)so(ho,ho←a)=eo(ho)+w2eo(ho←a),(12)其中w1、w2是调整两项的相对效果的可学习标量这里,关系分数根据动作对象空间关系调节总体分数。当关系方向指向动作/对象的正确区域时否则,对于不兼容(动作、对象)对,关系分数将是小的或负的,从而抑制总体分数。最后,我们将交互得分计算为整体动作和对象得分的总和,s a,o,s a(ha,ha←o)+s o(ho,ho←a).(十三)这使我们能够保持动作和对象之间的组成结构,并重新组合学习到的知识来预测看不见的交互标签的分数。损失函数。为了训练我们的框架的所有组件,对于每个训练图像,我们使用交互得分sa,o与它们对应的地面实况注释ya,o之间的二进制交叉熵损失。L, −ya,olog(σ(sa,o))+(1−ya,o)log(1−σ(sa,o)),(a,o)∈Cs(14)并通过以下方式最小化训练图像上的平均损失ha←o, pg(lr|la←o,Σa←o)fRr,(10)随机梯度下降这里,σ()表示将交互得分转换为预测概率的S形函数。我们最小化关于参数的损失其中p(·)是高斯密度函数。这里动作和对象模型{Wα,We,gi,wi}2得双曲正弦值.Gho←a,ha←o表示关系特征,我们使用(5)中的嵌入函数分别根据这些关系特征计算对象和动作的关系得分为eo(ho←a)和ea(ha←o)注意协方差矩阵-可视化查询模型R.4. 实验i i i=1cesΣo←a,Σa←o捕获关系方向的不确定性,其中大的方差降低区域概率,导致小的关系得分。因此,我们的框架降低了不确定预测的权重。此外,推断δo←a,δa←o的分布使得我们的框架是不同的,因为每个图像区域相对于关系方向的影响平滑地变化,而不是预测特定的图像区域。4.1.1通过视觉表示和空间关系的为了产生最终的预测,我们将相对分数ea(ha←o),eo(ho←a)与视觉分数相8478我们评估我们提出的框架,我们参考作为交互指南针(ICompass),用于HICO [7]和Visual Genome [59]数据集上的多标记零激发HOI识别我们还通过测量动作和对象的预测位置是否在HICO-DET [70]上的地面实况边界框内来分析逐点定位性能[83,3与弱监督对象检测[82,87,88]不同,弱监督对象检测需要每个标签的训练样本,而零拍摄对象检测[89,90,91]需要看到标签的边界框注释,我们的设置在没有边界框监督和训练样本的情况下测量看不见的标签识别的性能。我们首先讨论数据集,评估指标,实施细节和基线。然后我们会承认8479O∩A∩×个×个×个·×× ××··一∪O联系我们和本地化性能。最后,我们展示了估计交互区域的交叉注意的有效性,并进行消融研究以显示每个建议组件的必要性。4.2. 实验装置数据集。在[9]之后,我们报告了HICO [7]和VisualGenome [59]数据集上的零射击识别性能,这些数据集包含人类和物体之间各种交互的图像。HICO有38,116个训练图像和9,658个测试图像,这些图像是从117个动作和80个对象中精心收集的520个交互。另一方面,Visual Genome是由21,256个图像中的520个人类动作和1,422个对象这导致用于训练的6,643个交互和具有至少10个样本的532个交互用于可靠地评估性能。类似于[9],我们将动作集分成两个不相交的集合A,B,使得AB=,并且类似地将对象分成1,2其中12=。 给定这些集合,我们通过下式将交互标记划分为4个集合A1、B1、A2、B2:组 合 来 自 它 们 各 自 集 合 的 动 作 和 对 象 , 例 如 ,A1A×1。我们设置两个评估设置:(1) 可见交互:A1∪B2,不可见交互:B1∪A2,(2) 可见交互:A1,不可见交互:B1∪A2∪B2。注意,设置1测试从可见的交互中重组知识的能力,因为所有的动作和对象都被观察到,而设置2需要外推到不可见的动作和对象。由于大量的相互作用,两个数据集都包含图像中缺失的注释,这些注释被视为负标签,类似于[7,9]。评估指标。在多标签学习的其他工作[7,9,3]之后,我们测量了平均平均精度(mAP),以捕获模型如何为每个交互检索相关样本。我们还报告了排名测量,F1得分,这是每个图像中前10个预测的精确度和召回率之间的调和平均值。请注意,mAP比较不同图像的预测,而F1区分同一图像内的交互,因此,这些测量提供了补充性能信息。基线。我们与GCNCL[9]进行了比较,GCNCL利用基于WordNet的外部知识图在动作和对象之间构建看不见的交互分类器。在[9]之后,我们进一步与仅使用图像级标签的方法进行比较因此,我们采用多标签零拍摄学习作品[92,23,3]通过预测动作和对象得分并将其添加到相应的交互得分中来识别交互标签。具体来说,我们使用DEVISE[92],它学习线性嵌入空间,和Fast0Tag[23],它构造了一个非线性嵌入函数来衡量图像特征与动作或对象的词嵌入之间的兼容性。我们还使用LESA[3]作为最先进的多标签零拍摄学习模型,它学习在相关的动作/对象标签之间共享注意力。为了显示视觉查询细化和空间关系的重要性,我们考虑了双注意基线,由两个独立的软注意模块组成的动作和对象使用词嵌入作为查询,而无需学习空间关系。作为捕获动作对象依赖性的尝试,我们构建了组合注意基线,其通过从由神经网络参数化的视觉特征ha、ho和位置la、lo的级联预测依赖性得分来扩展双重注意由于组合注意力严重依赖于每个交互中的动作和对象注意力预测两者的正确性来计算依赖性分数,因此其对于任一分量中的不正确定位都将不稳健。我们的方法仅依赖于动作或对象位置来推断空间关系并捕获预测不确定性,因此也可以校正定位误差(参见补充材料)。实施详情。为了提取注意力机制的区域特征,我们使用来自大小为W的预训练ResNet-152的最后一个卷积层的特征图H2048,并将其视为一组来自W H区域。我们填充输入图像,使它们具有相等的宽度和高度,并将它们整形为544 544大小和17 17图像区域,这实现了性能和存储器消耗之间的良好权衡。对于每个区域,我们在[1,17] [1,17]的范围内分 配 唯 一 的2D 坐 标 Ir 。 我 们 将 交 叉 注 意 中 的 g1(),g2()参数化为两个神经网络,其中一个隐藏层的大小为300。我们规范化的图像范围内的关系方向和预测的协方差矩阵的正对角矩阵。类似地,对于视觉查询,r()被建模为具有大小为60的一个隐藏层的神经网络我们使用在维基百科文章上训练的GloVe 模型[93] 提取语义向量vta∈A ,vto∈O 我们在PyTorch中实现了所有方法,并使用RM-Sprop [94]进行优化,其默认设置,学习率为0.001,所有数据集上的10个epoch的批量大小为324.3. 实验结果多标记零激发HOI识别。我们报告的性能上只有看不见的相互作用标签(看不见),并在看到和看不见的相互作用标签(所有),分别对应于,零杆和广义零杆设置。表1示出了设置1(A1B2设置)和设置2(A1设置)中所有方法的前10个预测的F1评分和mAP评分。从结果中,我们得出以下结论:8480×个∪×个∪∪∪∪HICO视觉基因组表1:HICO/视觉基因组上的多标记零激发HOI识别性能。* 表示224 × 224图像分辨率输入。方法看到相互作用行动对象动作对象A1A2B1B2所有A1A2B1B2所有A1A2B1B2所有[92][84][95]A1∪ B2A19.75.46.03.99.63.410.82.39.03.811.68.311.62.912.65.018.52.113.64.64.63.14.21.54.61.67.10.95.21.8LESA[3]A1∪ B2A123.623.619.94.018.818.821.81.321.011.924.825.026.34.019.418.825.61.624.012.413.312.915.22.69.810.213.51.013.06.7双重注意A1∪ B2A121.021.616.96.820.615.422.31.420.211.321.623.420.63.420.013.624.00.521.510.210.911.712.52.611.67.714.10.412.35.6组合注意力A1∪ B2A117.917.26.76.520.311.819.82.616.29.513.212.49.32.512.07.912.90.911.95.95.95.53.71.96.74.06.70.85.73.0ICompass(我们的)A1∪ B2A128.628.023.56.128.419.828.11.127.213.732.434.429.75.825.920.033.61.130.415.317.515.918.44.015.911.319.61.017.98.0表2:在HICO-DET数据集中具有靶相互作用标记的图像上的零激发HOI定位(mAP)性能。– 在输入大小为224 2242的GCNCL设置中,对于设置1和2以及Unseen和All交互预测,我们在两个数据集上的表现都明显优于GCNCL因此,在不解耦动作和对象的视觉特征的情况下,GCNCL即使在依赖于外部知识时也无法从可见的交互标签捕获和传递信息在更高的图像分辨率设置544 544,我们进一步提高我们的性能分别为3.6%和1.9%的HICO在A1 B2和A1设置,为看不见的mAP,因为我们的方法可以参加更精细的图像区域。我们在剩余的实验中使用该分辨率,因为它也有利于其他基线,以进行公平的比较。– 在看不见的相互作用上,我们的方法不仅在HICO上超过了2.6%和1.0%的mAP分数,而且在A1、B2和A1设置上分别超过了5.9%和0.5%的召回分数,这表明我们大部分的自信预测是准确的。为了在Visual Genome上进行评估,由于其缺失和嘈杂的标签,我们使用召回,与mAP相比,它不会惩罚未注释的相互作用的预测。我们实现了至少5.8%(A1 B2设置)和1.7%(A1设置)的召回改善和最佳的F1和mAP性能。– 在 所 有 相 互 作 用 中 , 我 们 在 HICO 上 针 对 A1B2(A1)设置将mAP评分提高了2.1%(1.0%),并且实现了与视觉基因组上的现有技术相当的性能。尽管Fast 0 Tag在每个-2由于我们无法从作者那里获得代码,我们使用他们报告的mAP分数来确保报告他们的最佳表现。对于所有相互作用,其低的不可见性能指示基线大多过拟合到可见的相互作用,而没有推广到不可见的相互作用。零次HOI定位。为了进一步分析性能,我们建议仅在目标标签遵循[95]的图像上测量每个交互标签的定位性能,请首选补充材料,以评估所有图像。我们将每个图像中的前10个预测视为阳性预测,并且使用mAP得分[83,3],我们测量地面实况标签是否在顶部预测内并且它们的预测位置3是否在HICO-DET数据集上的地面实况边界框内[70]。我们评估动作定位,对象定位,和动作对象定位模型需要正确地定位这两个组件。在这里,我们使用人类的边界框作为代理的位置,由人类执行的表2显示了支持以下结论的结果:– 总体而言,大多数方法定位对象比动作更好,而动作对象定位是最困难的任务。在A1 B2设置中,与现有技术相比,我们的方法在可见和不可见的交互上实现了最佳的局部化性能,分别在动作、对象和动作-对象定位上得到6.2%、6.4%和4.9%的所有改进。– 在A1设置中,大多数方法在局部-3我们使用类激活图[84]来定位缺乏定位能力的DE-VISE的动作/对象。方法可见的相互作用看不见所有看不见所有R@10F1@10地图R@10F1@10地图R@10F1@10地图R@10F1@10地图GCNCL*A1∪ B2A1----17.07.5----21.411.9----5.42.4----6.64.1ICompass(我们的)*A1∪ B2A178.138.212.79.819.88.976.143.125.214.225.914.752.025.85.74.06.93.447.529.710.26.47.84.7[92]第二十二话A1∪ B2A154.415.88.84.110.73.759.022.619.57.516.98.135.16.33.91.03.01.431.514.06.83.03.72.1[23]第二十三话A1∪ B2A176.841.512.510.719.98.775.848.125.115.926.214.849.125.15.43.87.13.943.933.39.57.28.05.1LESA[3]A1∪ B2A171.129.811.57.721.89.875.040.124.813.328.316.241.67.74.61.26.92.943.214.79.33.28.34.4双重注意A1∪ B2A171.232.511.68.419.19.173.941.424.513.725.815.151.216.45.72.56.13.047.828.110.36.17.54.1组合注意力A1∪ B2A171.127.711.57.114.37.772.038.223.812.622.113.041.918.64.62.94.92.640.828.38.86.15.93.6ICompass(我们的)A1∪ B2A182.742.013.410.824.410.881.646.627.015.430.417.257.026.86.34.17.84.252.131.411.26.88.85.48481∪∪图3:对象/动作注意力图的可视化和通过交叉注意力对看不见的交互标签估计的对象位置分布。图4:左:交叉注意的对象定位分数。右:可学习权重w1,w2在训练迭代中的变化实验在HICO-DET上进行,设置为A1∪ B2与未看见的对象相比,对看见的对象的交互标签进行识别,这表明对象特征对于识别交互是高度有区别的总的来说,我们的方法在动作、对象和动作-对象逐点定位上分别显著提高了1.8%、2.9%、1.3%的mAP分数。– 组合注意力具有低性能,因为它天真地组合动作和对象预测而不考虑定位误差,因此传播误差并降低性能。双重注意的适度表现显示了除了视觉注意之外捕捉动作/物体空间关系的重要性交叉注意力的有效性。为了表明可以从动作的信息中定位对象图5:多标签零激发HOI识别相对于当添加我们的方法的每个组件时,HICO上的LESA。查询可视化的补充材料),它在对象和动作查询之间共享知识,而LESA独立地学习它们。交叉注意在A1B2设置中显著提高了1%的性能,并且在A1设置中在看不见的和所有的交互上都提高了这表明我们的方法成功地将知识从可见的交互转移到不可见的交互。定性结果。 图3显示了注意力图 在HICO-DET数据集上,从交叉注意中获得动作/对象的位置和对象位置分布(lo←a,Σo←a)。我们的方法可以专注于不同的行动,如“骑”和“宠物”的相关区域此外,交叉注意成功地注意到与每个动作相对应的对象。在A1设置中,我们推广到看不见的动作注意,lo←a,在LESA和ICompass中共同关注,位置与我们的交叉注意预测不一致如图4所示(左)。与均匀选择区域(随机猜测)相比,交叉注意在目标定位方面明显更好,从而验证了使用动作信息来估计关系方向的有效性我们还在图4(右)中可视化了跨训练迭代的关系得分(w1,w2)在训练过程中,我们的模型逐渐使用来自动作的关系方向(w2=0)。8)和抑制直接从对象(w1=0. 0)。 因为物体并不意味着-相互作用的剧烈变化,例如, ‘cup’ remains在“倒入”或“饮用”下不变消 融 研 究 。 我 们 在 HICO 数 据 集 上 进 行 识 别 性 能(mAP)的消融研究,以测量与LESA相比,添加我们框架的每个组件时的改进。如图5,我们使用可视化查询观察改进(参见5. 结论我们提出了一种组合式多标签零触发交互动作学习框架,该框架解耦和重组动作和对象知识以识别可见/不可见的交互。我们引入了一种新的交叉注意模型,该模型捕获动作和对象之间的空间关系,以确定它们的 兼 容 性 , 而 无 需 边 界 框 注 释 。 在 HICO 和 VisualGenome数据集上的广泛实验证明了我们能够识别看不见的相互作用,提供相互作用位置的估计并概括为具有看不见的动作的相互作用标签。确认这项工作得到了NSF(IIS-2115110),DARPA青年教师奖(D18 AP 00050),ONR(N 000141812132)和ARO(W 911 NF 1810300,W 911 NF 2110276)的支持。8482引用[1] Y.张湾,澳-地龚,M。Shah,一、二[2] C. W.李,W。芳角,澳-地K.是的,还有Y。C. F.Wang,一、二[3] D. Huynh和E.Elhamifar,一、二、五、六、七[4] E. Elhamifar和D.Huynh,一个[5] E. Elhamifar和Z. Naing,一个[6] S. Gupta和J.马利克,“ 视 觉 语 义 角 色 标 签 , ”ArXiv,2015. 一、二[7] Y. W. Chao,Z.中国地质调查局Wang,Y.他,J.Wang和J.Deng,一、五、六[8] G. 基奥沙里河 B. Girshick,P. Doll a'r和K. 他,一、二[9] K.卡托湾Li和A. Gupta,一、二、六、七[10] D. Huynh和E. Elhamifar,一、二[11] J. 妈妈和Y。刘,一、二[12] J. Li,C. Zhang,P. Zhu,B.吴湖,加-地Chen和Q. Hu,“Spl- mll:为多标签学习选择可预测的地标,“欧洲计算机视觉会议,2020年。一、二[13] J. Ye,J. He,X.彭,W. Wu和Y.乔,一、二[14] M.贾德伯格K.西蒙尼扬A.齐瑟曼 和K. Kavukcuoglu,一个[15] K. Xu,J. Ba,R. Kiros、K. Cho,A. C.库维尔河R.萨拉胡季诺夫河S. Zemel和Y. Bengio,“显示,参加并告诉:神经图像标题生成与视觉注意,“2015。1、4[16] A. 瓦斯瓦尼北沙泽尔,北Parmar,J.乌斯科赖特湖琼斯A. N.戈麦斯湖,澳-地凯泽和我。Polosukhin,1、4[17] Z. Wang,T. Chen,G. Li,G. Li和L. Lin,一、二[18] S. F. Chen,Y.C. Chen C.,马缨丹属K. 是的,还有Y。C. F. Wang,2018年AAAI人工智能会议。一、二[19] T. Chen,Z. Wang,G. Li和L. Lin,2018年AAAI人工智能会议。一、二[20] R. Girdhar和D. Ramanan,1[21] H. Fang,J. Cao,Y.- W. Tai和C. Lu,一个[22] T.肖,加-地范,D. Gutfreund,M. Monfort,A. Oliva和B. Zhou,一个[23] Z. Zhang 和 V. Saligrama , “Zero-shot learning via jointlatent similarity embedding” , IEEE Conference onComputer Vision and Pattern Recognition,2016。二六七[24] T. Mensink,E. Gavves和C. G.斯诺克,“科斯塔:用于零激发分类的共现统计,“IEE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功