没有合适的资源?快使用搜索试试~ 我知道了~
1使用类比检测不可见的视觉关系朱莉娅·佩尔1,2伊万·拉普捷夫1,2科迪莉亚·施密德2,4约瑟夫·西维奇1,2,3摘要我们试图检测图像中的视觉关系的形式的三元组t=(主题,谓词,对象),如“per-son骑狗”,其中训练的例子,个别实体是可用的,但他们的组合是看不见的训练。由于视觉关系的组合性质,这是一个重要的设置:为所有可能的三元组收集足够的这项工作的贡献是三方面的。首先,我们学习了视觉关系的表示,它结合了(i)主语、宾语和谓语的个体嵌入,(ii)表示关系三元组的可视短语嵌入。其次,我们学习如何使用涉及类似对象的关系之间的类比将视觉短语嵌入从现有的训练三元组转移到看不见的测试第三,我们在三个具有挑战性的数据集上展示了我们的方法的好处:在HICO-DET上,我们的模型在频繁和不可见的三元组的强基线上实现了显着的改进,并且我们观察到在COCO-a数据集上检索具有词汇表外谓词的不可见三元组以及UnRel数据集中具有挑战性的不寻常三元组的类似改进。1. 介绍理解物体之间的相互作用是视觉识别的基本问题之一为了检索给定复杂语言查询的图像,例如“a womansitting on top of a pile of books”,我们需要识别场景中的个体实体“woman”和“a pile of books”,以及理解“sitting on top of something”的含义。在这项工作中,我们的目标是识别和定位图像中看不见的交互,如图1所示,其中单个实体(这种能力在实践中是重要的,因为视觉关系的组合性质,我们不太可能获得足够的1De'partement 法国巴黎75005 PSL研究大学,2INRIA3布拉格捷克技术大学捷克信息学、机器人学和控制论研究所4所大学Grenoble Alpes,Inria,CNRS,Grenoble INP,LJK,38000 Greno- ble,France.图1:通过与3.2中描述的模型进行类比来说明迁移。我们将训练集中看到的关系的视觉表示(如“人骑马”)转移所有可能的三元组的训练数据。检测三元组t=(主语,谓语,宾语)形式的视觉关系的现有方法[8,25,28]通常学习每个实体的通用检测 器 , 即 , 为 对 象 学 习 单 独 的 检 测 器 ( 例 如 ,“人”)、对象(例如, 然后在测试时汇总各个检测器的输出这种合成方法可以检测看不见的三元组,其中主语,谓语和宾语被单独观察,但不是在特定的组合中。然而,它在实践中经常失败[31,46],因为视觉交互的外观变化很大,往往严重依赖于所涉及的对象;单个“乘坐”检测器确实难以捕获视觉上不同的关系,例如“人骑马”和“人乘坐公共汽车”。另一种方法[41]是将整个三元组视为单个实体,称为视觉短语,并为每个视觉短语学习单独的例如,将针对关系“person ride horse”和“person ride surfboard”学习单独的检测器虽然这种方法更好19811982处理视觉关系的大的可变性,它需要每个三元组的训练数据,这是很难获得的,因为视觉关系本质上是组合的,并且许多关系在现实世界中是不可见的。在这项工作中,我们解决这两个关键的限制。首先,什么是正确的视觉关系表示,以处理其外观的巨大变化,这取决于所涉及的实体?第二,我们如何处理训练数据的稀缺性不可见的视觉关系三元组?为了解决第一个挑战,我们开发了一个混合模型,结合了成分和视觉短语表示。更准确地说,我们通过学习独立的视觉语言嵌入空间来学习主语、宾语和谓语的组合表示,其中每个实体都被映射为接近于其关联注释的语言嵌入。此外,我们还学习了一个关系三元组嵌入空间,其中视觉短语表示被映射到接近其对应的三元组注释的语言嵌入在测试时,我们汇总组合和视觉短语模型的输出为了解决第二个挑战,我们学习如何使用涉及类似对象的关系之间的类比将视觉短语嵌入从现有的训练三元组转移到看不见的测试例如,如图1所示,我们通过在依赖于用于“狗”和“马”的对象嵌入的变换之后使用用于三元组“人骑马”的视觉短语嵌入来识别不可见的三元组“人骑狗”。因为我们仅从视觉上相似的三元组传输训练数据,所以我们期望传输的视觉短语检测器与用于关系“乘坐”的通用检测器相比更好地表示目标关系捐款. 我们的贡献是三方面的。首先,我们通过学习主语、宾语、谓语和视觉短语的互补其次,我们开发了一个模型,通过类比转移,第三,我们对三个具有挑战性的数据集进行了实验评估,在这些数据集上,我们展示了我们的方法对频繁和不可见关系的好处。2. 相关工作视觉关系检测。学习视觉关系是关于关系推理的一般类问题[4,5,16,23,42],旨在理解实体如何相互作用。在视觉关系检测的更具体的设置中,方法可以分为两个主要组:(i) 组合模型,分别学习主语、宾语和谓语的检测器,并汇总它们的输出;(ii) 和视觉短语模型,其为每个视觉关系学习单独的视觉短语模型,如[41]已经证明了比组合模型更好的鲁棒性的视觉多样性然而,随着具有更大的对象和谓词词汇表的数据集的引入[7,24],视觉短语方法面临着严重的困难,因为大多数关系只有很少的训练示例。组合方法[10,12,18,28,31,34,43]允许在三胞胎之间共享知识,具有更好的扩展性,但不能很好地处理看不见的关系。为了增加通用成分检测器的表达能力,最近的工作已经开发了主语、宾语和谓语之间的统计依赖性的模型,例如使用图形模型[8,25]、语言蒸馏[45]、或语义语境[48]。其他人[2,9,32,39]提出将unigram检测器与高阶复合词(如bigram(主语-谓语,谓语-宾语))相结合。与上述对标签的离散词汇进行建模的方法相反,我们学习了能够扩展到词汇外关系并受益于强大的预先学习的语言模型的视觉语义(语言)嵌入。视觉语义嵌入。 视觉语义嵌入已成功用于图像字幕和检索[19,20]。随着在区域级别注释的数据集的引入[24,33],类似的模型已被应用于将图像区域与句子片段对齐[15,44]。相比之下,学习视觉关系的嵌入在很大程度上仍然是一个开放的研究问题,最近的工作探索,例如,使用主题和对象嵌入之间的变形的关系表示[46]。我们的工作特别涉及模型[47]学习主语、宾语和谓语的独立视觉语义空间然而,与[47]相比,我们还学习了一个视觉短语嵌入空间,以更好地处理视觉关系的外观变化,并开发了一个类比推理模型,以推断不可见三元组的嵌入。看不见的关系和迁移学习。学习视觉短语嵌入的问题是缺乏不可见关系的训练数据。这已经通过学习因式分解的对象和谓词表示[14]或通过从更简单的概念[21,30]组成关系的分类器来解决。相比之下,我们的方法将视觉关系表示从可见的例子转移到不可见的例子,其精神与以前的工作如何处理稀有对象的推断分类器类似[3]。在[35]中,通过对动作的嵌入施加约束,也解决了从可见到不可见的三元组共享知识以补偿训练数据不足的想法不同于这项工作,我们制定的关系三元组之间的类比转移。为了实现这一点,我们建立在[36]中开发的类比计算模型的基础上,但将其扩展到视觉关系的表示。这与[40]有关,他也学习视觉类比作为嵌入空间中的向量运算,但在我们学习联合图像语言嵌入的类比模型1983我vF图2:模型概述。我们的模型由两部分组成:(a)通过优化结合输入视觉x和语言q表示的联合损失Ljoint=Ls+Lo+Lp+Lvp来学习用于主语、宾语、谓语和视觉短语的嵌入空间;(二)在测试时,我们会得到一个新的看不见的三联体(“人骑牛”)。我们发现了相似但见过的三胞胎(用类比变换Γ变换它们的嵌入wvp,以计算三元组“person ride”的嵌入w<$ vp的估计值KuCow3. 模型在本节中,我们描述了我们的模型,用于识别和定位图像中的视觉关系。如图2所示,我们的模型由两部分组成。首先,我们学习主语(s)、宾语(o)、谓语(p)和视觉短语(vp)的不同视觉语言嵌入空间,如图2(a)所示我们将在3.1节中解释如何训练这些嵌入。其次,我们通过类比转换将可见三元组的视觉短语嵌入转换为不可见三元组,如图2(b)所示。在第3.2节中,我们解释了如何训练类比转换,并在测试时形成新的不可见三元组的视觉短语嵌入关系三元组的表示法。训练数据集由N个候选边界框对组成,每个候选边界框由主题候选边界框提案和对象构成。didate边界框建议。设Vs,Vo和Vp分别为主语、宾语和谓语的动词.我们称Vvp=Vs×Vp× Vo为三元组词汇三元组t具有t=(s,p,o)的形式,例如,t=(person,ride,horse).每对候选主体和对象边界框,不同类型的嵌入导致视觉关系的更强大的表示,如第4节所示。详细地说,如图2(a)所示,视觉嵌入的输入ding函数(左)是由其视觉表示xi∈Rdv编码的对象i的候选对。该表示是根据(i)从训练用于对象检测的CNN获得的预先计算的外观特征和(ii)表示构建的。感测对象候选者的相对空间配置。语言嵌入(图2(a)中的右侧)将三元组t作为输入,该三元组t由其语言表示qt∈Rdq编码,该语言表示从预先训练的单词嵌入中获得。我们在4.2中提供了关于这些表示的更多细节。接下来,我们将详细介绍嵌入函数。嵌入函数。我们的网络将视觉特征xi和语言特征qt投射到主语(s)、宾语(o)、谓语(p)和视觉短语(vp)的单独空间对于每个输入类型b∈ {s,o,p,vp},我们将视觉特征和语言特征嵌入到一个公共的使用投影函数的维数为dvb=fb(xi),(1)I vi∈ {1,… N},由向量(yi)t∈V标记,其中yi= 1bbtvptwt=fw(qt),(2)如果第i对盒子可以用关系三元组t,否则yi = 0。 主语、宾语和其中vb和wb是输出的视觉和语言表示的标签。ti t谓词自然地从三元组标签派生。3.1. 学习视觉关系的表征我们在不同粒度级别的联合视觉语义嵌入空间中表示视觉关系:(i)在一元语法层次上,我们使用单独的主语、宾语和谓语嵌入,以及(ii)在三元语法层次上,使用整个三元组的视觉短语嵌入。结合测试(S)人骑马(S)人畜牛视觉短语嵌入(b)第(1)款查询方式:人骑牛火车CNNw2v主题嵌入CNNW2v “马”对象嵌入CNNW2v谓词嵌入CNNw2v(w2v(w2v((a)视觉短语嵌入personridehorsefcx2fcx2fcx2fcx21984和投影函数f b:Rdv→Rd和b :Rdq →Rd是2层感知器,具有ReLU非线性和Dropout,受[44]的启发。另外我们L2规范化输出的语言特征,而输出的视觉特征没有规范化,我们发现在实践中工作得很好。训练损失。我们为每种类型的输入b(即主体,对象,V W...fcx2fcx2fcx2fcx21985不我不t′t′ttt′谓词和视觉短语)通过最大化对数似然ΣNLb=Σ 1我yt=1 日志.Σ11 +e−wbTvb我不i=1t∈VbΣNΣ+1我yt=0 日志.1wbTvbΣ、(3)i=1t∈Vb1 +eti其中第一吸引项将更接近的视觉表示VB推到其正确的语言表示WBI t第二个排斥项将视觉语言对分开,不匹配.如图2所示,我们为每种输入类型设置一个这样的损失,并优化联合损失,图3:同品种器械(p)之间的差异图示(左)单个损失函数L联合 =Ls +Lo +Lp +Lvp.和视觉短语(VP)(右)嵌入。在p空间中,视觉上“人骑马”与“人乘马”的不同关系在[29]中使用了类似的损失函数来学习词表示,而视觉语义嵌入模型[20,44]通常使用三元组排名损失。这两种损失函数都能很好地工作,但我们发现使用log-loss(3)训练的嵌入更容易在不同的输入类型中组合,因为它们的输出被更好地校准。推理。在测试时,我们有一个三元组t形式的语言查询,我们使用等式(1 )将其嵌入为(wb ) b 。(二)、类似地,测试图像中的候选对象框的对i被嵌入为(vb)b,其中等式(一). 然后,我们通过聚合对不同对象的预测来计算三元组查询t和候选对象对i之间的相似性得分St,i。嵌入类型b∈ {s,p,o,vp}为car”映射到由谓词“ride”定义的相同位置。相反,它们被映射到考虑整个关系三元组的视觉短语空间中的不同位置看到“人骑马”的例子如图2(b)所示,这被实现为视觉短语嵌入空间中的分析变换,其中源三元组的表示(例如,“人骑马”)被变换以形成目标三元组的表示(例如,“人骑牛”)。在这个过程中有两个主要步骤。首先,我们需要学习如何执行YSt,i=1 .一、(四)1 +e−wbTvb一个视觉短语嵌入(例如,“人骑马”)到另一个视觉短语嵌入 秒-我不是b∈{s,p,o,vp}嵌入空间的解释。 学习主体、客体、预测和视觉短语的不同嵌入空间的选择是由以下观察激发的:每种类型的嵌入捕获关于所观察的视觉实体的不同信息在图3中,我们说明了学习单独的谓词(p)和视觉短语(vp)嵌入空间的优势。在p空间中,对应于“personride horse”和“person ride car”的视觉实体相比之下,在vp空间中,相同的视觉实体被映射到两个不同的点。vp空间的这种性质对于处理语言多义性(即,“ride”has different visual appearance depending on the ob- jectsinvolved and thus should not be mapped into a single point)3.2. 通过类比变换将嵌入转换为不可见三元组我们建议通过分析推理明确地将知识从训练时看到的三胞胎转移到测试时新的看不见的三胞胎潜在的直觉是,如果我们有其次,我们需要通过类比来识别哪些视觉短语适合于这种迁移。例如,为了形成新关系“person ride cow”的表示,我们想要变换“person ride horse”而不是“personride bus”的表示。我们接下来描述两个步骤。类推转移。为了将源三元组t=(s,p,o)的视觉短语嵌入wvp变换为目标三元组t′=(s′,p′,o′)的视觉短语嵌入w vp,我们学习变换Γ,使得wvp=wvp+ Γ(t,t′).(五)这里,可以将r解释为校正项,其指示如何在联合视觉-语义空间vp中将wvp变换为wvp以计算与源三元组t类似的目标关系三元组t’。这与神经词表示有关,例如[29],其中相似概念的词嵌入可以通过算术运算联系起来,例如“国王”-“男人”+“女人”=“女王”。在这里,我们想执行这样的操作:“人骑马“−“马“+“牛“=“人骑牛“。的形式。 为了将t和t′通过Γ的视觉短语嵌入联系起来,我们利用了将三元组分解为主语、谓语和宾语的1986方法。详细来说1987.u不−′t′t我们使用单个主题的视觉短语嵌入,其中,wbTwb度量嵌入式代表之间的相似性。tt′谓语和宾语来学习如何将三元组的视觉短语嵌入使用这种结构,我们重新定义的类比变换方程。(5)作为表示wb和标量αb是超参数,对模糊主体、客体和预测相似性的关系贡献进行加权。当我们约束bαb= 1时,wvp− wvp′G(t,t′)∈[0,1]. 对于一个targettripl ett′,我们定义为Nt′,s是根据G.wvp=wvp+rwvp−wvp,(6)特普普wvpwvp奥奥其中t=(s,p,o)和t′=(s′,p′,o′)表示源三元组和目标三元组,并且wvp、wvp、wvp是视觉短语学习Γ。通过学习类比法拟合了参数训练数据中的三元组之间的转换。在特别地,我们生成源t和目标t′三元组的训练数据对。根据生成的数据,我们优化s p o主语、谓语和宾语分别嵌入,使用Eq.(2)当wvp=fvp(q[s,0,0])时,wvp=类似于Eq.(3)但使用视觉特征真正的目标三元组和源s w pfvp(q[0,p,0]),wvp=f vp(q [0,0,o])。 这里[s,0,0]表示三重态用类比变换Γ变换。的w o w主题s的word2vec嵌入的连接有两个大小为d的零向量。例如,t=(person,ride,horse)到t′=(person,ride,camel)的类比变换使用等式(1)。(6)导致优化是在w.r.t. 这两个参数嵌入函数的参数。详情见附录[1]。聚合嵌入。在测试时,我们计算wvp=wvp+ rWVP骆驼00。(七)WVP马通过聚合使用类比变换变换的类似的可见三元组t∈ Nu的嵌入,来嵌入不可见三元组u的视觉短语Σ直观地说,我们希望Γ编码通过源对象和目标对象的嵌入wvp,wvp观察到的对象的变化如何影响源和目标w<$vp=t∈NuG(t,u)(wvp+ Γ(t,u)),(10)oo′vp三重嵌入wvp,wvp. 请注意,在这里,我们其中wt是源三元组t的视觉短语嵌入tt′已经显示了一个例子的变换所造成的变化的对象,但我们的配方,由方程。(6)允许以类似的方式改变主语或谓语虽然对Γ的不同选择当然是可能的,但我们选择用Eq.(2),Γ(t,u)是类比变换在源三元组t和由等式计算的看不见的三元组u之间。并且G(t,u)是由等式(8)给出的标量权重。(9)重新加权不同源三元组的贡献为wvp−wvp这一过程如图2(b)所示。SsΓ(t,t′)= MLP wvp− wvp,(8) 4. 实验p′pwvp− wvp奥奥其中MLP是一个无偏置的2层感知器。在第4节中我们还比较了不同形式的Γ。从哪个三胞胎转过来?我们希望仅在相似的三元组之间应用类比变换Γ。直觉是,为了获得一个看不见的目标三元组t′=(人,骑,骆驼)的表示,我们希望只使用类似的三元组,如t=(人,骑,马),而不是三元组,如t=(人,骑,滑板)。为此,我们建议通过查看它们的主语、谓语和宾语之间的相似性来分解三元组t和t′之间的相似性,这些相似性是其动机是,与视觉短语空间相比,主体、客体和预测空间不受有限训练数据的具体地,我们将加权函数G定义为:在本节中,我们将评估我们的模型在三个具有挑战性 的 数 据 集 上 进 行 视 觉 关 系 检 索 的 性 能 :[6][7][10][11][12][13][14][15][16][17][18][19] 具体来说,我们对模型的两个组成部分进行了数值评估:(i)学习的视觉短语嵌入与unigram嵌入和(ii)转移嵌入看不见的三元组的类比变换。4.1. 数据集和评估设置HICO-DET. HICO-DET [7,6]数据集包含具有框级注释的人-对象交互的图像。相互作用是多种多样的:对象的词汇匹配80个COCO [27]类别,有117个不同的谓词。所有可能的三胞胎的数量是1×117×80,但数据集只包含600个三胞胎的阳性例子所有的三胞胎在火车上都至少出现过一次-ing. 作者分离了一组138个罕见的三胞胎,ΣG(t,t′)=αwbTwb,(9)−1988在训练中出现少于10次的三胞胎。 到Btt′b∈{s,p,o}对我们的模型进行进一步的分析,我们还选择了一组25三胞胎,我们视为看不见的,完全排除他们1989查询(Q)/来源(S)最多真阳性最多假阳性(Q)宠物猫(S)宠物狗(S)人宠物长颈鹿(S)宠物牛(S)宠物大象(S)人抓猫图4:在从HICO-DET中排除的不可见三联体上,我们的模型(s+o+vp+转移)的最佳检索阳性(绿色)和阴性(红色)检测。 对于目标三元组(Q)(例如“person pet cat”),我们的模型自动学习选择涉及视觉上相似的对象或谓词(“person petdog”,“personscratch cat”)的有意义的源三元组(S),并通过类比变换Γ来变换它们的视觉短语嵌入。最高的假阳性对应于视觉相关的动作(“feed”)。其他示例见附录[1]。从某些实验中的训练数据,并尝试使用我们的模型在测试时重新测试它们。这些三元组是在非稀有三元组集合中随机选择的,以便具有足够的测试实例来可靠地评估。UnRel. UnRel [31]是一个评估数据集,包含76个不寻常的三元组查询的视觉关系。与HICO-DET和COCO-a相反,交互不一定涉及人,谓词也不一定是动作(可以是空间关系或比较关系)。对象和谓词的词汇表与视觉关系检测数据集的词汇表相匹配[28]。UnRel只是一个评估数据集,所以类似于[31],我们使用视觉关系数据集的训练集作为训练数据。可可 COCO-a数据集[38]是基于COCO数据集[27]的子集,并增加了人-对象交互的注释与HICO-DET类似,对象的词汇表匹配80个COCO类别。此外,COCO-a定义了140个谓词,总共产生了1681个不同的三元组。COCO-a的发布版本包含4413个图像,没有预定义的训练/测试分割。鉴于图像数量相对较少,我们使用COCO-a作为在HICO-DET上训练的模型的评估数据集。这导致了一个非常具有挑战性的设置,有1474个看不见的三元组,其中1048个涉及在HICO-DET中训练时没有看到的词汇表外谓词。评价措施。在所有数据集上,我们在检索设置中评估我们的模型。对于词汇表中的每个三元组查询,我们使用我们的模型对对象绑定框的候选测试对进行总体而言,我们报告了使用[6]在HICO-DET上发布的评价代码和[31]在UnRel上发布的评价代码计算的三重查询集的平均精度(mAP)在COCO-a上,我们使用自己的实现,因为没有发布评估代码。4.2. 实现细节候选人配对。我们使用从对象检测器中预先提取的候选对象对,该对象检测器针对特定于数据集的对象的词汇进行训练。在HICO-DET上,我们使用Detec- tron[11]在COCO训练数据上训练对象检测器。为了与[12]相媲美,我们使用Faster-R-CNN[37]与ResNet-50特征金字塔网络[26]。我们通过移除置信度分数低于0.05的候选检测来对候选检测进行后处理,并应用额外的每类分数阈值来保持每个对象类别的0.3的固定精度。在测试时,我们使用0.3的非最大抑制。对于COCO-a,我们重新训练对象检测器,排除与COCO-a相交的COCO图像。在UnRel上,我们使用与[31]相同的候选对来获得直接可比的结果。视觉表现。在[31]之后,我们首先通过以下外观对候选框对(os,oo)进行编码:主体a(os)、客体a(oo)的外观以及它们的相互空间配置r(os,oo)。从对象检测器的最后一个全连接层中提取主体和对象框的外观特征。空间配置r(os,oo)是一个8维特征,它连接了相对于并集框重新归一化的主体和客体框坐标。候选对的视觉表示是一个1000维的向量,聚合了对象的空间和外观特征(更多细节见附录[1])。对于主题(resp。对象)嵌入,我们只考虑主题的外观(3)没有空间结构。语言代表。对于一个三元组t=(s,p,o),我们计算单词嵌入es(resp. ep,eo)用于主题(resp. predicate,object)与在GoogleNews上训练的Word2vec [29]模型。一个三联体的表示取为词嵌入qt= [es;ep;eo]∈R900的串联。嵌入函数。嵌入投影函数由两个完全连接的层组成,具有ReLU非线性。对于视觉投影功能,我们使用Dropout。对于HICO-DET和COCO-a,联合视觉语言空间的维数被设置为d= 1024对于UnRel,我们使用d=256,因为训练集要小得多培训详情。我们使用Adam opti- mizer [22]训练我们的模型,学习率为0.001。我们首先通过优化L关节学习投影函数的参数,然后激活类比损失LΓ学习转移参数,并对视觉短语嵌入进行微调该hy-用网格搜索法对预参数αs、αo、αp和k进行了优化1990查询(Q)/来源(S)最多真阳性最多假阳性(Q)狗穿的鞋(S)人穿鞋(S)人穿鞋(S)穿滑雪板的人(S)穿裤子的人(S)穿牛仔裤的人图5:在UnRel三联体上,我们的模型(p+vp+转移)的最佳检索阳性(绿色)和阴性(红色)检测。不可见查询三元组(Q)的嵌入是通过类比变换从可见源三元组(S)的嵌入形成的。虽然HICO-DET上的类比迁移通常是通过对象的变化来完成的,但在这里,为了检索看不见的三元组“狗穿的鞋子”,我们的模型对涉及不同主体“人”的源三元组进行采样,与类似对象(例如,“人穿鞋子”,“人穿滑雪板”)。其他结果见附录[1]。在验证集上有关优化和批取样的更多详细信息,请参见附录[1]。4.3. 在看到的三元组上评估视觉短语我们首先验证了我们的模型在训练中检测三胞胎的能力,并与最近的最先进的方法进行了比较。在表1中,我们报告了在[6]定义的默认设置下,在不同的三联体子集(全)、(罕见)、(非罕见)上的MAP-DET的mAP结果,如4.1所述。首先,我们计算模型的三 个 变 量 : ( i ) 使 用 所 有 单 字 项 的 组 成 部 分(s+o+p),其可以被看作是强的完全组成基线,(ii)与对象得分组合的视觉短语部分(s+o+vp),以及(iii)我们的完整模型(s+o+p+vp),其对应于在组成基线之上添加视觉短语表示(第3.1节)。结果表明,我们的视觉短语嵌入是有益的,导致所有三元组上的强组成基线的一致改进,在相对增益方面将当前最先进的技术[10]提高了30%以上我们在附录[1]中提供了消融研究以及结合二元组模块(sr+ro)的实验,从而改善了结果。4.4. 不可见三胞胎的类比转移接下来,我们通过类比来评估迁移的好处,重点是在训练时从未见过的三胞胎的挑战性设置。虽然HICO-DET数据集包含可见(在前一节中评估)和手动检查的不可见三元组(在此处评估),但在本节中,我们考虑仅包含不可见三元组的另外两个数据集充分罕见非罕见Chao [6]7.85.48.5古普塔[13]9.17.09.7[第12话]9.97.210.8GPNN [34]13.19.314.2iCAN [10]14.810.516.1s+o+p18.713.820.1s+o+vp17.711.619.5s+o+p+vp19.414.620.9表1:HICO-DET数据集(mAP)的检索结果。基数与合计数G-r =0 r =线性r =深s+o+p 23.2-s+o+vp+transfer 24.1 9.6 24.8 27.628.6s+o+p+vp+transfer 23.6十二点五 24.5 25.425.7第337章-表2:HICO-DET的25个零激发测试三联体上的mAP,其中我们的模型的变体在训练集上训练,排除了零激发三联体的阳性。第一列显示无类比转换的结果(第3.1节),而其他列显示使用不同形式的类比转换的结果ogy变换Γ(3.2节)。最后一行(监督)是(s+o+p+vp)训练的所有训练实例的性能。特别是,我们使用UnRel来评估检索不寻常的(和看不见的)三胞胎和COCO-a来评估检索看不见的三胞胎与词汇表外的谓词。在HICO-DET上评估看不见的三胞胎。 首先,我们评估我们的模型的转移类比的25个零杆三联体的HICO-DET。在表2中,我们示出了应用于视觉短语嵌入的不同类型的类比变换的结果,以与不使用类比的基础模型进行比较首先,Γ= π对应于源三元组的视觉短语嵌入的聚合,而没有类比变换。然后,我们报告了类比变换的三种变体,其中视觉短语嵌入是用类比损失训练的,并且源三元组的嵌入是(i)在没有变换的情况下聚合(r =0),或者用(ii)线性变换(r =linear)或(iii)2层感知器(r =deep)进行变换。结果表明,如3.2中所述,通过相似的已见三元组的类比转换来形成未见测试三元组的视觉短语嵌入是有益的,最佳模型(s+o+vp+使用Γ=deep的转移)提供了对组成基线的显著改善(从mAP的23.2至28.6),从而部分填补了与完全监督设置(mAP为33.7)的差距。还有趣的是,注意到,当聚合如等式(1)中所述的不同源三元组(10),在聚合之前通过类比变换视觉短语嵌入是必要的,如由perfor的显著下降所指示的1991查询(Q)/来源(S)最多真阳性最多假阳性(Q)人味杯(S)人装杯(S)人嗅杯(S)一个人煮热狗(S)自制花瓶(S)人切苹果图6:使用我们的COCO-a三联体模型(s+o+vp+转移)的顶部检索的阳性(绿色)和阴性(红色)检测。要检索的查询三元组(Q)的嵌入通过类推与源三元组(S)的嵌入形成 为了检索词汇表外的三元组,如“人的味道杯”,我们的模型的类比转移自动采样相关的源三元组涉及类似的谓词和对象(例如,“人闻杯”、“人做瓶”)。其他结果见附录[1]。当 r=0 时 , 在 图 4 中 , 我 们 显 示 了 用(s+o+vp+transfer)模型检索看不见的三联体的定性结果。对于查询三元组(Q),例如“person pet cat”,我们显示了检索到的前3个候选对(绿色)和前1个假阳性(红色)。此外,对于每个靶三联体,我们通过类比示出了在转移中使用的源三联体(S)(等式2)。(10))。我们注意到源三元组似乎与查询相关。在UnRel上评估看不见的(不寻常的)三胞胎。表3显示了在UnRel数据集上检索的数值结果。与[31]类似,我们也不使用主题和对象得分,因为我们发现它们在包含难以检测对象的数据集上没有信息。对于类比转移,我们使用Γ=deep。首先,我们观察到我们的(p+vp+transfer)方法优于所有其他方法,显着改善了该数据的当前最新技术水平[31],并且优于在更大语料库上训练的[17请注意,我们使用与[31]相同的检测和特征,使我们的结果直接可比。其次,结果证实了在完全组成的基线上通过分析(p+vp+transfer)(p)在所有评价指标上持续改进。有趣的是,与HICO-DET相反,使用没有转移的视觉短语嵌入(p+vp)并没有带来比(p)显著的改进。这可能是由于训练数据和测试数据之间存在很大的不匹配,因为用于测试的UnRel数据集包含不寻常的关系,如图5中的定性示例所示。这突出了类推转移模式的重要性。有GT有候选人-联盟subj主题/目标DenseCap[17]-6.26.8-卢[28]50.612.010.07.2Peyre [31] full62.614.112.19.9p62.216.815.212.6VP53.413.211.79.4p+vp61.716.414.912.6vp+transfer53.713.712.09.7p+vp+transfer63.917.515.913.4表3:在IoU=0.3的情况下在UnRel(mAP)上的检索。所有词库外s+o+p4.34.2s+o+vp6.06.2s+o+p+vp5.15.1s+o+vp+转移6.97.3s+o+p+vp+transfer5.25.1表4:对COCO-a(mAP)的不可见三联体的检索。我们展示了所有看不见的三元组(第一列)和看不见的三元组涉及词汇表外的谓词(第二列)的性能评估看不见的(词汇表外的)三元组, 可可最后,我们评估了我们在HICO-DET数据集上训练的模型,以用于在COCO-a数据集上检索看不见的三元组。这是一个非常具有挑战性的设置,因为COCO-a中看不见的三元组涉及到训练数据词汇表表4中所示的结果证明了先前在HICO-DET和UnRel数据集上观察到的视觉短语表示的益处。此外,结果还证明了类比迁移的好处:与完全组成的基线(S+O+P)相比,我们的最佳类比模型(S+O+VP+迁移)在所有方面获得了60%的相对改进,并且在词汇外三元组上获得了超过70%的相对改进。定性结果如图6所示。5. 结论我们已经开发了一种新的方法,结合成分和视觉短语表示的视觉关系检测。此外,我们还提出了一个模型,通过类比能够计算视觉短语嵌入dings从未见过的关系。我们已经证明了我们的方法在三个具有挑战性的数据集上的好处,这些数据集涉及看不见的三胞胎。鸣谢。 这项工作得到了ERC资助Activia(编号307574)、LEAP(编号336845)、Allegro(编号320559)、CIFAR机器脑学习&计划、MSR-Inria联合实验室、Louis Vuitton ENS艺术智能主席、DGA项目DRAAF和IMPACT项目下的欧洲区域 发 展 基 金 的 部 分 支 持 。 ( CZ.02.1.01/0.0/0.0/15003/0000468)1992引用[1] 论文的补充材料(附录) 网址://arxiv.org/abs/1812.05736网站。五六七八[2] Yuval Atzmon,Jonathan Berant,Vahid Kezami,AmirGlober- son,and Gal Alzahik.学习概括图像理解中的新构图。arXiv:1608.07639,2016。2[3] 尤瑟夫·艾塔尔和安德鲁·齐瑟曼。Tabula rasa:用于对象类别检测的模型转移。见ICCV,2011年。2[4] 特拉皮·班萨尔,阿文德·尼拉坎坦,安德鲁·麦卡勒姆.Relnet:实体关系的端到端建模。arXiv:1706.07179,2017。2[5] Peter W. Battaglia , Razvan Pascanu , Matthew Lai ,Danilo Jimeneze Rezegli,and Koray Kavukcuoglu.用于学习对象、关系和物理的交互网络在NIPS,2016年。2[6] Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Huayi Zeng,and Jia Deng.学习检测人机交互。在WACV,2018。五、六、七[7] Yu-Wei Chao , Zhan Wang , Yugeng He , JiaxuanWang,and Jia Deng. Hico:识别图像中人与物体交互的基准。在ICCV,2015年。二、五[8] Bo Dai,Yuqi Zhang,and Dahua Lin.使用深度关系网络检测视觉关系。在CVPR,2017年。一、二[9] Santosh Kumar Divvala,Ali Farhadi,and Carlos Guestrin.学习关于任何事情的一切:Webly监督的视觉概念学习。CVPR,2014。2[10] 高晨,邹玉良,黄家斌。Ican:用于人与物体交互检测的以实例为中心的注意力网络在BMVC,2018年。二、七[11] Ross Girshick、Ilija Radosavovic、Georgia Gkioxari、Piotr Doll a´r和KaimingHe。探测器https://github.com/facebookresearch/detectron,2018年。6[12] Georgia Gkioxari,Ross Girshick,and Kaiming He.检测和识别人机交互。在CVPR,2018年。二六七[13] 索拉布·古普塔和吉坦德拉·马利克。视觉角色语义标注。arXiv:1505.04474,2015年。7[14] 作者:Seong Jae Hwang放大图片作者:Ravi ,ZiruiTao,Hyunwoo J. Kim,Maxwell D.柯林斯和维卡斯·辛格Tensorize、fac- torize和regularize:强大的视觉关系学习。在CVPR,2018年。2[15] Hamid Izadinia , Fereshteh Sadeghi , Santosh KumarDivvala,Yejin Choi,and Ali Farhadi.用于语义分割、视觉蕴涵和释义的分段短语表。在ICCV,2015年。2[16] Rodolphe Jenatton,Nicolas L Roux,Antoine Bordes,and Guillaume R Obozinski.高度多关系数据的潜在因子模型。NIPS,2012年。2[17] 贾斯汀·约翰逊安德烈·卡帕西和李飞飞。Densecap:用于密集字幕的全卷积定位网络。在CVPR,2016年。8[18] Justin Johnson,Ranjay Krishna,Michael Stark,Li-JiaLi,David A Shamma,Michael S Bernstein,and Li Fei-Fei.使用场景图进行图像检索。CVPR,2015。2[19] Andre
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功