没有合适的资源?快使用搜索试试~ 我知道了~
5353⟨⟩看什么和在哪里:语义和空间细化的Transformer,用于检测人与物体的交互ASMIftekhar*†,HaoChen*,Kausta vKundu,Xin yuLi,JosephTighe,Da videModolo加州大学圣巴巴拉分校(Universityof California, Santa Barbara){hxen,kaustavk,-,tighej,dmodolo} @ amazon.com;iftekhar@ucsb.edu摘要我们提出了一种新的基于单级变换器的语义和空间细化变换器(SSRT)来解决人-物交互检测任务,该任务需要定位人和物体,并预测他们的交互。与以前的基于变换器的HOI方法(主要集中在改进最终检测的解码器输出的设计)不同,SSRT引入了两个新模块来帮助选择图像中最相关的对象-动作对,并使用丰富的语义和空间特征来细化查询这些增强导致了两个最流行 的 HOI 基 准 测 试 的 最 新 结 果 : V-COCO 和 HICO-DET。1. 介绍人-物交互(HOI)检测是复杂视觉推理的重要组成部分,例如场景理解[11,51]和动作识别[50,55],其目标是检测每个图像中的所有HOI三元组人,物体,动作。图1示出了HOI检测的示例,其中人(即,人类)用红色边界框表示,运动球(即,对象),并且动作踢是人类正在用该对象执行的动作。HOI文献可分为两阶段和一阶段方法。两阶段方法[1230,31,33,34,39,43,46-对于每个人和对象边界框对,然后在第二阶段中预测交互类。这种顺序过程有两个主要缺点[7,25,26]:(1)现成的对象检测器对于交互的概念是不可知的;以及(2)枚举所有成对的人和对象边界框以预测交互类是耗时且昂贵的。 相比之下,一阶段*同等贡献。†在亚马逊实习期间完成的工作。图1.SSRT的概念工作流程。我们预先选择对象-动作(OA)预测候选项,并将其编码为语义和空间特征,而不是将编码后的图像提供然后,这些特征在解码中细化学习的查询,以使它们能够关注更相关的HOI预测。这些方法以端到端的方式直接检测HOI三重态的所有分量。一些早期的单阶段方法使用基于交互作用点[32,49]和联合框[25]的中间表示来预测这些。然而,当交互的人和对象彼此远离时以及当多个交互重叠时(例如,人群场景)[7,42]。最近,已经提出了基于Transformer架构[5,10,35]的一阶段方法[7,26,42,58]本文属于这类作品(图。1)。在高层次上,这些方法首先使用CNN主干来提取图像特征,然后将它们馈送到编码器-解码器架构中。一些方法使用两个解码器来并行检测实例和交互[7,26]。而其他的遵循简单的设计,其直接预测具有单个解码器的HOI三元组的所有元素[42,58]。虽然成功,但这种设计受到两个限制:(i)并非所有对象-动作对都是有意义的(例如,当比萨饼远离人的位置时人不能5354∈∈∈简单地依赖于单次网络来减少它们可能不是有效的;以及(ii)针对HOI三元组的所有丰富元素来解码每个简单查询(即,人位置、对象类和位置、以及交互类),这是具有挑战性的,特别是考虑到HOI检测如何要求对图像中的复杂关系结构进行推理。我们在工作中解决了这两个限制。为此,我们提出了语义和空间定义的T变换器(SSRT),它通过预测对象-动作对的子集与图像相关,并使用明确的语义和空间信息来支持和指导查询,从而解决了上述限制,使它们可以更可靠地解码,并与最终检测更加一致详细地说,SSRT通过引入两个新模块改进了先前HOI检测器的Transformer设计:支持特征生成器(SFG)和查询细化器(QR)(图2)。前者从一组预先选择的对象动作(OA)对生成语义和空间特征,而后者集成这些特征进行解码。我们的方法在V-COCO [16]和HICO-DET [6]数据集上都取得了最先进的结果,显示了我们的语义和空间指导对HOI检测的重要性和有效性最后,在广泛的消融研究中,我们还评估了我们的模型设计和参数选择,以进一步突出SSRT2. 相关工作两阶段HOI检测网络检测对象,然后在这些检测到的对象中检测HOI。这些网络依赖于现成的对象检测器[41]来本地化对象。为了检测检测到的对象之间的相互作用,这些网络开发了不同的新技术。很少有作品[13,34]将人类和物体视为图网络中的节点另一系列作品[43,46]利用空间和姿态特征来关注图像的显著空间区域。此外,其他工作正在使用基于对象的架构[20,21]来处理HOI检测数据集的长尾分布问题。此外,还有一些作品[19,30]利用对象和交互的组成性质来检测HOI。另一个两阶段工作的范例利用了额外的特征,如人类的3D表示[29],语义上下文[22,34],分割掩码[33]。然而,这些网络的性能高度依赖于对象检测的质量。此外,这些网络难以处理大量的非交互检测对象[57]。为了处理两阶段网络所面临的问题,最近的工作[7,9,26,42,57,58]试图在一个阶段框架中检测HOI。这些网络将图像作为输入,并直接检测和定位这些图像上的HOI。初始一级HOI检测网络[32,49]专注于检测预定义的交互点,以检测交互作用然而,这些基于启发式的方法往往无法找到空间上下文信息。为了获得更丰富的上下文特征,许多最近的一级HOI检测网络[7,26,42,58]适应基于编码器-解码器的转换器[45],类似于从一级对象检测网络DETR [5]中得到启发的架构然而,这些网络并没有考虑到执行对象定位和交互检测这两个相关但不同的子任务的额外复杂性。这些工作的基础网络本质上是一个对象检测器网络,它被扩展用于交互检测。因此,为这些网络提供额外的指导是有益的。此外,这些一阶段网络不利用空间和语义线索,这些线索被证明有利于在少数两阶段工作中检测HOI [22,44,52]。在这方面,我们提出了一个语义和空间细化的Transformer为基础的架构,以检测HOI在一个单一的阶段。我们优越的数值结果,这些国家的最先进的方法证明了我们的方法3. 技术途径当 今 大 多 数 相 反 , 我 们 的 SSRT 方 法 改 进 了Transformer的整体设计。具体来说,它在编码器和解码器之间增加了两个新模块:一个支持端口特征生成器 ( SFG ) ( 第 12 节 ) 。 3.2 ) 和 查 询 再 细 化 器(QR)(第3.2节)。3.3)(图2)。在高层次上,SSRT的工作原理如下:给定一个输入图像,它首先用CNN主干提取其特征,然后使用Transformer编码器对这些特征进行变换。不是将编码特征直接馈送到解码器中,而是将特征发送到SFG以首先生成一组对象-动作(OA)预测能力(没有本地化)。然后SFG使用这些候选生成空间和语义特征,并将它们聚集为支持特征。然后将这些支持特征发送到QR以细化可学习的查询。最后,HOI解码器将输入作为编码的特征和细化的查询,并输出一组嵌入,每个嵌入用于预测HOI输出。3.1. 我们的架构给定一个输入图像xRH0× W0× C0,其中H0,W0,C0表示图像的高度,宽度和颜色通道,SSRT首先使用CNN主干(F)提取特征图RH× W ×C。ResNet-50 [17])。然后将F(x)发送到1x1卷积以将信道维度C减小到更小的值d,并获得Fc(x)RH× W × d。 根据以前的工作[7,26,42,58],我们将一个固定的位置编码p RH× W × d添加到编码器的输入特征中,以补充位置信息。编码器遵循作为堆栈的Transformer的标准体系结构5355∈i=1i=1图2.我们的SSRT网络概览。给定一个图像,我们使用主干提取特征并将其馈送到Transformer Encoder。然后,编码器接下来,聚合的特征被发送到查询细化器(QR)以细化查询。最后,对细化后的查询进行解码:每个查询用于通过具有小FFN的交互头来预测人类边界框、对象边界框、交互向量和对象类向量。多头自注意模块和前馈网络(FFN)。编码的特征图Fe(x)RH×W ×d的计算公式如下:Fe(x)=Encoder(Fc(x),p)(1)除了将Fe(x)仅馈送到HOI解码器,我们还将其发送到SFG模块。这里,我们首先预测K对(对象、动作)类别(即,图像中存在的OA对),并且从它们中选择子集。然后,我们使用OA预测候选者的空间和语义线索来生成支持特征fsupp(x)。SFG模块的细节在第二节中讨论。3.2.支持特征fsupp(x)以及初始查询集Q={qi|qi∈Rd}Nq被馈送到QR模块中。 查询图3. 我们支持特征生成器(SFG)设计。查询四个小前馈网络(FFN)来预测人类边界框bh(x)∈[0,1]4,对象边界-细化器模块是类似解码器的架构,一组细化的查询,Qr(x)={qr(x)|qr(x)∈Rd}Nq,ing boxes bo(x)∈ [0,1]4,交互预测向量也就是说,i ii=1PHOI(x)∈[0,1]N行为,以及对象类预测向量Pobj(x)∈[0,1]Nobj,其中Nact和Nobj是数字,Qr(x)=QR(fsupp(x),Q)(2)QR块的细节在第2节中讨论。三点三编码器输出Fe(x)和细化查询Qr(x)都被发送到HOI解码器以进行最终解码。注意,与标准Transformer体系结构相反,馈送到解码器中的查询是输入图像x的函数。以这种方式对其进行建模的目标是明确地向解码器提供更多指导,使得其可以生成更准确的HOI输出。HOI解码器遵循Transformer的标准架构,作为多头交叉注意单元的堆栈,但没有自注意层。细化查询Qr(x)被变换成 输 出 嵌 入 的 集 合 , K ( x ) ={ki ( x ) |ki ( x )∈Rd}Nq,即:K(x)=解码器(Fe(x),p,Qr(x))(3)其中p是位置嵌入。每个查询被设计为捕获至多一个HOI预测。我们喂养这些5356交互类的BER和对象类的数量 bo、bh和PHOI用sigmoid函数预测,Pobj用softmax函数预测。 像[42]一样,我们用最有信心的对象类预测来衡量我们的最终交互预测向量:PHOI ( x ) =PHOI ( x ) max ( Pobj(x))(4)我们在第二节讨论了如何训练这个网络的细节。三点四分。3.2. 支持功能生成器SFG的目标是为Transformer提供额外的语义和空间线索,因为它们在检测所有丰富的HOI输出方面发挥重要作用。具体而言,语义线索对于帮助捕获人-物体关系很重要[52],而空间线索对于帮助准确定位人和物体很重要[43]。虽然在两阶段解决方案中明确使用这些线索已被证明是有益的[43,52],但在一阶段方法中尚未在这个区块中,我们建议5357W∈i=1××∈∈i=1NQ{1}|}如何生成图像的支持特征fsupp(x),然后可以将其用作查询细化器块as(xoh,yoh,woh,hoh),其中:xoh=xo−xh,Hyoh=yo−yh,并随后传送到解码器。 我们先选K高hhwhhh从编码器特征Fe(x)预测的置信对象-动作(OA)候选,并使用语义和空间嵌入来丰富它们以生成支持特征(图2)。(3)第三章。OA候选采样器。如图3所示,我们在平均池化编码特征Fe(x)之上构建3层FFN g cls以预测对象动作(OA)候选,即,s(x)=σ(gcls(avg-pool(Fe(x),其中s(x)[0,1]Ns,Ns是对象-动作(OA)对的可能集合的数量,σ是S形函数。注意在这个模块中,s(x)如何对应于没有本地化的OA标签。在所有预测中,我们选择具有最高置信度的前K(对象,动作)候选者。令这组选定的候选者由Scand={(y0,i,ya,i)}K表示。语义特征生成器。最近,语言图像模型[23,40]在生成高质量表示方面表现出强大的能力我们相信这样的嵌入应该能够捕获关系结构,并丰富Transformer网络的上下文因此,我们使用CLIP [40]文本编码器来计算每个预选OA候选的语义由于CLIP最适合句子(而不是单个单词),因此我们将每个预测的OA转换为完整的句子,然后将其馈送到CLIP文本编码器。例如,我们将对(phone,talk)转换为句子“A person is talkingon the phone”。转换是按照某些预定义的规则使用脚本自动完成的,只需很少的手动工作。最后,我们通过使用线性投影层将这些语义特征投影到图像特征空间(图3,顶部)。 对于每个OA候选,(y〇,i,ya,i)Scand,我们如下计算语义特征:其中,Emb sem是语义嵌入函数。空间要素生成器。在两阶段HOI方法中,基于来自现成检测器的预测的人和对象边界框生成空间特征[14,43]。由于这些是不可用的一个状态的方法像我们,我们建议使用训练数据统计来估计边界框的位置。我们将相对空间配置(RSC)定义为对象边界框相对于人类边界框的位置,并从训练数据中估计RSC具体地,给定人h和对象o,我们将人边界框表示为(xh,yh,wh,hh),将对象边界框表示为(xo,yo,wo,ho),其中(x,y)是左上点,(w,h)是边界框的宽度和高度。受以前工作[15]的启发,我们定义了RSC然后,我们考虑对于每个相互作用,xoh,yoh遵循二元高斯分布,并且woh,hoh遵循另一个二元高斯分布。我们使用每个OA标签的所有训练样本估计这些变量的基本参数(均值,协方差)。我们以类似的方式估计人物边界框。使用这些分布,然后生成随机样本作为人和物体的边界框来创建空间特征。如图3所示,我们遵循先前的工作[43]来为每个OA标签生成空间图。空间地图为2BB大小的二进制映射,其中在第一通道中,人体边界框的位置是1,而在第二通道中,物体边界框的位置是1。空间地图中的其余位置为零。最后,我们将该空间映射传递到2个卷积层,然后是线性投影层以生成空间特征。对于每个OA候选,(y0 , i,ya , i)∈Scand,我们计算空间特征:fspa(yo, i,ya , i)= Emb spa(yo, i,ya,i)(6)Emb spa是空间特征的嵌入函数。功能聚合。对于每个预先选择的OA可以didate(y o,i,ya,i)Scand,我们具有语义特征fsem(y o,i,ya,i)和空间特征fspa(y o,i,ya,i)。这些功能汇总如下:fagr(y o,i,y a,i)=g agr(f sem(y o,i,y a,i),f spa(y o,i,y a,i))(七)其中gagr是聚合函数。我们将为所有候选者提取的特征fagr(yo ,i,ya ,i)连接起来,并形成支持特征fsupp(x)∈RK×d。3.3. 查询细化器查询细化器被设计为使用预先选择的OA候选和从SFG模块生成的支持特征来细化随机初始化的学习查询。理想情况下,这些预先生成的上下文信号应该能够引导要学习的查询关注更相关的候选项并减少噪声预测。为了实现这一点,我们交叉参加学习查询与支持功能。具体地,如图2所示,查询细化器建立在标准Transformer解码器结构上。随机初始化的查询Q=qiqiRd首先通过自我注意来关注它们自己。然后,这些查询涉及从SFG生成的支持特征fsupp(x)(第二节)。3.2通过交叉注意。这里,支持特征充当注意力架构的键和值。因此,查询具有额外的方向来在编码的图像特征中寻找正确的对象动作。在最后的HOI解码器中,查询涉及编码的图像特征。解码器的输出是上下文感知查询,包含丰富的线索来检测HOI。5358LLLL××3.4. 培训详情为了训练这个网络,我们在交互头的输出,bo,bh,PHOI和Pobj上应用与[42]相同的损失函数。 损失计算由两个阶段组成:预测和地面实况之间的二分匹配阶段,以及匹配对的损失计算阶段。对于二分匹配,我们遵循DETR [5]的训练过程并使用匈牙利算法[28]。然后,基于匹配对计算损失,如下所示:L=λ1Lbox+λ2Liou+λ3Lobj+λ4LHOI,(8)其中box和iou是l1,并且GIoU损失应用于人类和对象边界框两者,obj是用于对象预测的交叉熵损失,并且HOI是用于交互预测的二进制交叉熵损失。 λ1、λ2、λ3和λ4是根据[ 42 ]选择的超参数。此外,我们对s输出使用二进制交叉熵损失,其对应于图像级(对象,动作)对预测。所有这些损失都是在多任务环境中训练的。4. 实验设置数据集我们在两个最流行的基准数据集上评估了SSRT:V-COCO [16]和V-COCO- DET [6]。V-COCO有29个交互类。在[31]之后,我们评估了24个交互类的性能,因为4个交互类没有对象对,1个类的样本很少该数据集包含2,533张训练图像,2,867张验证图像和4,946张测试图像。HICO-DET[6]有600个人机交互类。它由38,117张训练图像和9,658张测试图像组成。我们报告了V-COCO和HICO-DET数据集测试集的平均精度(mAP)。如果预测的人和对象边界框与相应的GT框重叠(IoU大于0.5)并且预测的交互类是正确的,则预测我们遵循[43]中建立的协议来评估V-COCO数据集的结果对于不与任何对象交互的人类场景1考虑了严格的评估标准,其需要预测具有坐标[0,0,0,0]的空边界框,场景2通过忽略用于评估的预测边界框来放松这种情况。我们使用[6]中的协议对HICO-DET进行评估。mAP度量是在三个类别的默认设置中计算的实施详情。架构设计与QPIC [42]相似。我们使用ResNet-50和ResNet- 101主干[17]。网络的参数使用在COCO数据集[42]上训练的DETR [5]进行初始化每个编码器和解码器有6层和8头。Transformer体系结构内部的维度为256。查询总数为100。骨干网络的初始学习速率为10−5,其他网络的初始学习速率为10−3。重量衰减为10−4。学习率在每65个epoch时下降,我们总共训练了150个epoch。我们使用AdamW [36]优化器,批量大小为16。我们使用以下语义特征生成器进行实验:(a)one-hot,(b)GLOVE [37],(c)CLIP [40]。在空间特征生成器中,我们使用26464维二进制空间映射[14,43]。对于人类边界框位置,我们选择(16,16)作为固定的左上角点,因为在评估HOI数据集中,交互人类边界框大多局限于图像的左上角[43]。空间和语义特征都被投影到256维空间。5. 结果在本节中,我们首先将SSRT网络的性能与第二节中的SOTA方法进行比较。第5.1节,随后进行消融研究,以确认第5.1节中的设计选择五点二。最后,我们在SEC中进行了定性分析。五点三。5.1. 与SOTA的在表1和表2中,我们分别在V-COCO [16]和HICO-DET [6]数据集上比较了我们的SSRT模型与SOTA方法的性能。我们将其分为一阶段和两阶段。根据文献,我们报告了具有ResNet-50(R-50)和ResNet-101(R-101)主链的SSRT的数量。结果表明,我们的SSRT在ResNet-50主干的两个数据集上都达到了SOTA性能,而ResNet-101可以进一步提高性能。我们在两个数据集上的表现都优于所有基于DETR的解决方案(HOI-Trans,ASNet,HOTR和QPIC),总体而言,与SOTA相比,我们在V-COCO上实现了约10%的改进,在V-COCO- DET上实现了5%的改进5.2. 消融研究在本节中,我们针对SSRT的不同设计选择进行消融。我们使用ResNet-50主干对V-COCO数据集进行了评估对于每次消融,我们改变一个参数,并将其他参数保持在最佳设置。支持功能生成器模块。在表3a中,我们探索了使用语义和空间特征来为查询细化器块生成特征的好处与QPIC基线(第1行)相比,使用语义特征(第2行)将性能显著提高了+3.9分。这证明了使用语义信息来指导HOI检测的有效性。在此之上,我们探索了两种不同的方法来聚合语义和5359⟨⟩⟨⟩类型方法场景1场景2两级VCL [19]48.3-DRG [13]51.0-Wang等人[47个]52.3-FCL [21]52.4-PD-Net [56]52.6-非加太[27]53.0-FCMNet [33]53.1-SG2HOI [18]53.3-印尼[30]53.360.3GTNet [22]56.260.1萨布拉[24]56.6-一个阶段UnionDet [25]47.556.2Wang等人[49个]51.0-[58]第五十八话52.9-ASNet [7]53.9-GGNet [57]54.7-HOTR [26]55.264.4DIRV [12]56.1-QPIC(R-50)58.861.0QPIC(R-101)58.360.7我们的(R-50)我们的(R-101)63.765.065.967.1表1. V-COCO [16]测试集上的性能比较。 最佳结果用粗体标记,第二佳结果用粗体标记 标有下划线。类型方法充分罕见非罕见两级Wang等人[47个]17.5716.8517.78FCMNet [33]20.4117.3421.56非加太[27]20.5915.9221.98PD-Net [56]20.8115.9022.28SG2HOI [18]20.9318.2421.78VCL [19]23.6317.2125.55DRG [13]24.5319.4726.04萨布拉[24]26.0916.2929.02印尼[30]26.2922.6127.39GTNet [22]26.7821.0228.50ATL [20]28.5321.6430.59FCL [21]29.1223.6730.75一个阶段UnionDet [25]17.5811.7219.33Wang等人[49个]19.5612.7921.58PPDM [32]21.7313.7824.10DIRV [12]21.7816.3823.39[58]第五十八话23.4616.9125.41太平洋标准时间[9]23.9314.9826.60HOTR [26]25.1017.3427.42ASNet [7]28.8724.2530.25GGNet [57]29.1722.1330.84QPIC(R-50)29.0721.8531.23QPIC(R-101)29.9023.9231.69我们的(R-50)我们的(R-101)30.3631.3425.4224.3131.8333.32表2. HICO-DET [6]测试集上的性能比较。 最佳结果用粗体标记,第二佳结果用粗体标记 标有下划线。空间特征:(1)连接(第3行);和(2)元素乘法(第4行)。结果表明,元素乘法提供了最佳性能,我们认为这是因为乘法作为一种门控机制有效地融合了语义和空间信息,正如在其他工作中所观察到的那样[38,43]。语义输入。 表3b探索了可以被编码为语义特征的不同种类的语义输入。对于这个实验,所有种类的语义输入都是由CLIP [40]文本嵌入模型编码的。我们探索以下类型的语义输入:(a)仅动作:仅使用来自编码器的预测动作类别例如,如果OA预测是笔记本电脑,工作,我们只使用预测的动作(即,(b)对象动作(OA):使用前面的例子,语义输入在这里是膝上型计算机、工作元组。(c)语义检索:在该方法中,我们以非参数方式对语义输入建模。使用联合视觉语义嵌入网络[40],我们根据输入的视觉特征检索最近的OA语义元组。在这种情况下,(d)V-COCO标题:由于V-COCO是COCO数据集的子集[8],我们使用相应的标题作为图像的附加输入。 在表的最后一行,我们还尝试了oracle设置,在这里我们作为-valid可以访问地面实况(GT)OA元组。oracle模型的强大性能表明,以这种方式细化查询是引导网络关注更相关候选项的有效方向。非oracle设置中性能最好的方法使用OA元组。在它和使用oracle之间仍然存在重要的差距,这表明仍然存在通过进一步提高预生成的OA元组候选的质量来提高HOI检测准确性的值得注意的是,使用标题作为图像的附加输入并不能提高性能。这可能是由于这样的事实,即与对象动作候选相比,图像标题可能是嘈杂的,并且有时对于任务来说太通用(例如,这张照片有一匹马等)。如预期的那样,仅使用动作方法比使用OA元组实现的性能稍差,因为前者没有关于对象类别的信息。作为语义的预测数。然 后 ,我们消除在表3c中选择作为语义输入的不同数量的OA预测候选。我们使用topK进行测试,其中K=1,2,4,8和13 HOI预测作为语义。我们在K=13处停止,因为每个图像中V-COCO的HOI地面实况的最大数量为了更好地理解结果,我们不仅列出了最终的mAP指标,还在表中添加了预测的精确度和召回率。结果表明,当K=4时,性能最好,当K=4时,性能逐渐下降。5360地图基础(QPIC)58.8碱+Sem.62.7基础+半导体+ Sp. (concat.)62.9基础+半导体+ Sp. (多个) 63.7(a) 支持特征生成器模块。地图仅行动63.1OA63.7语义检索62.7V-COCO字幕62.6Oracle HOI GT 76.1(b) 语义输入。(c) 选择作为语义的HOI预测的数量。Prec. 是 精 确 度 和Rec.CLIP文本嵌入[40]63.7(d) 语义嵌入。图4. SSRT与QPIC相比的定性结果。为每个被召回。mAP多变量参数62.3双变量参数62.0多变量空间地图63.0二维空间图63.7(e) 空间特征设计。表3. 语义和空间特征的设计选择。向任一方向(K=1和K=13)。正如预期的那样,K=1给出最高的预测精度,K=13给出最高的召回率。但最佳性能点(K=4)在中间,表明预测的精确度和召回率之间的权衡是重要的。低查全率对应于使用较少的信息用于查询再细化器块以产生用于解码器的代表性足够的查询低精度会影响输入到细化块的质量,同时增加噪声。语义嵌入。然后我们在表3d中评估不同的嵌入方法。我们用(1)一个测试-来自预测的热矢量;(2)GLOVE [37]编码器,以及(3)CLIP [40]文本编码器。结果表明,所有嵌入都取得了良好的性能,而CLIP实现最好的。这可能是由于CLIP编码器是从大规模图像文本对中学习的,因此为HOI任务生成比其他任务更强的语义嵌入。One-hot结果也提供了良好的性能,这表明使用预先选择的OA候选本身仍然可以提供指导来细化查询。空间特征设计。我们在表3e中评估了不同空间特征设计 的 性 能 。 对 于 第 二 节 中 介 绍 的 相 对 空 间 配 置(RSC)。3.2中,我们认为(xoh,yoh,woh,hoh)要么遵循多变量分布,要么遵循(xoh,yoh)和(woh,hoh)的两个二元分布。与在图像中,SSRT的检测输出标记为绿色,而QPIC的输出标记为红色。预测分数在标题中显示。如果没有检测到匹配的边界框对,则将分数标记为无。我们观察到SSRT在主要两个方面优于QPIC:(1)增加交互预测的置信度分数(样本1-3);(2)成功检测QPIC中完全遗漏的人、物体和交互(样本4-6)。每个分布,我们探索两种类型的特征:(1)仅使用分布的参数作为特征(行1和2)。具体而言,对于多变量分布,我们使用所有组合的平均值、方差和协方差作为特征,对于双变量分布,我们使用所有组合的平 均 值 和 方 差 作 为 特 征 , 加 上 ( x oh , y oh ) 和(woh,h oh)的协方差。我们将它们与语义特征连接起来,因为乘法在这里不是一个选项;(2)我们从分布中生成随机样本3.2.从表3e中我们可以看出,使用空间映射总是优于直接使用参数作为特征,我们认为这是由于空间映射具有比直接参数(14或17)高得多的维度(2 x 64 x 64),可以学习更丰富的空间配置。此外,二元分布生成的空间地图优于多元分布。增加QPIC的参数数量。我们的设计通过增加两个新的模块(SFG和QR)改进了QPIC。为了验证SSRT的性能增益来自其设计,而不是来自其额外的模型容量,我们现在通过增加QPIC的FFN中的参数数量来进行实验,有趣的是,QPIC57.9当其参数从41.1M增加到49.8M时,可能是由于过拟合。 这清楚地表明#预处理Rec.地图185.323.462.9275.141.263.3462.568.663.7地图837.181.563.4One-hot vector 63.01325.189.662.8[37]第37话5361(a)拿着网球拍。评分:SSRT:0.856|QPIC:0.001。(2)吃披萨。评分:SSRT:0.761| QPIC:0.512。(c)在电话里说。评分:SSRT:0.612|QPIC:无。(d)用刀切割。评分:SSRT:0.757| QPIC:无。图5.注意力的可视化。我们从解码器的最后一层提取注意力图在每个子图中,从左到右分别是(1)具有地面真实的原始图像;(2)我们的SSRT的注意力图,以及(3)QPIC的注意力图SSRT性能(63.7 mAP)来自我们的设计。不同的方式来整合信息。最后,我们测试了三种不同的方式来合并语义/空间信息:(i)在主干和编码器之间,(ii)作为解码器的输入,而不是使用额外的交叉注意力,(iii)初始化查询。这些都没有成功地匹配SSRT这表明了正确使用这些信息的重要性在分析这些不成功的设计后,我们发现它们对对象动作(OA)选择的准确性很敏感,只有当使用地面真实OA时,它们的性能才优于QPIC。相比之下,SSRT对OA选择的变化更稳健,这可能是因为它仅通过额外的交叉注意将信息用作支持特征。5.3. 定性结果我 们 展 示 了 SSRT 的 定 性 结 果 , 并 将 其 与 基 线(QPIC)进行了比较。图4示出了从不同交互类中选择的我们发现SSRT在两个方面优于QPIC:(1)增加了动作预测的置信度得分(案例1-3);(2)成功检测到QPIC中完全错过的人,这些改进涉及不同的场景,包括:(1)小的或几乎不可见的对象(样本1、4、5、6);(2)复杂场景(样本2);(3)多个HOI预测(样本3和6)。为了进一步理解网络行为,我们在图5中比较了SSRT和QPIC的注意力图。具体来说,我们提取查询的视觉注意力图,该图预测标记的人和物体边界框,解码器的最后一层。在图5a中,QPIC和SSRT都可以定位人和物体,但是QPIC不能以高置信度预测动作,而SSRT可以。查看注意力地图,我们可以看到来自QPIC的注意力大致正确,但非常粗糙和嘈杂,而来自SSRT的注意力则更加精细,并集中在交互区域(手)上。在图中类似。在图5b中,SSRT比QPIC获得了更高的置信度,因为注意力更精细,并且集中在交互区域(嘴和手)上,而QPIC只关注披萨。对于图5c和图5d中的图像,QPIC完全错过预测,而SSRT检测到完全正确的HOI。我们从注意力地图中看到,当QPIC失败时,SSRT能够总的来说,我们看到SSRT具有更精细和更敏锐的注意力,并且能够在复杂场景中专注于小物体。6. 结论我们提出了SSRT,一个单阶段的语义和空间细化Transformer检测HOI。SSRT基于预先选择的人类对象预测候选生成语义和空间特征,并利用它们不仅丰富上下文,而且引导查询关注更相关的预测。SSRT在V-COCO和HICO-DET数据集上实现了SOTA性能,证明了我们解决方案的有效性。限制. 我们的方法需要完全监督的HOI注释进行训练,然而收集这些注释非常昂贵。在未来,重要的是探索新的HOI解决方案,可以从有限的注释中学习,并且监督较少。许可证我们使用以下数据集:V-COCO(CC BY 4.0许可证),HICO-DET [1]和代码包:QPIC [2],CLIP[3],GLOVE [4]。5362引用[1] http:personal.umich.edu/http://www.example.com8[2] https://github.com/hitachi-rd-cv/qpic网站。8[3] https://github.com/openai/CLIP网站。8[4] https://github.com/stanfordnlp/GloVe网站。8[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中 , 第213Springer,2020年。一、二、五[6] Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Huayi Zeng,and Jia Deng.学习检测人机交互。2018年IEEE计算机视觉应用冬季会议(WACV),第381-389页IEEE,2018年。二、五、六[7] Mingfei Chen,Yue Liao,Si Liu,Zhiyuan Chen,FeiWang和Chen Qian。将hoi检测重构为自适应集合预测。在IEEE/CVF计算机视觉和模式识别会议论文集,第9004- 9013页一、二、六[8] XinleiChen , Hao Fang , Tsung-Yi Lin , RamakrishnaVedan-tam , SaurabhGupta , PiotrDol la´r , andCL awrenceZitnick. Microsoft coco captions:数据收集和评估服务器。arXiv预印本arXiv:1504.00325,2015。6[9] Qi Dong,Zhuowen Tu,Haofu Liao,Yuting Zhang,Vi- jay Mahadevan,and Stefano Soatto.使用组合查询的部分和转换器的可视关系检测。在IEEE/CVF计算机视觉国际会议论文集,第3550-3559页二、六[10] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Syl- vain Gelly,et al. An image is worth16x16 words : Trans- formers for image recognition atscale. arXiv预印本arXiv:2010.11929,2020。1[11] SM Eslami,Nicolas Heess,Theophane Weber,YuvalTassa , David Szepesvari , Koray Kavukcuoglu , andGeoffrey E Hin-ton.注意,推断,重复:使用生成模型快速理解场景。NeurIPS,2016。1[12] 方浩树,谢一晨,邵典,陆策武。Dirv:用于端到端人机交互检测的密集交互区域投票2021年AAAI人工智能会议(AAAI)。1、6[13] Chen Gao , Jiarui Xu , Yuliang Zou , and Jia-BinHuang.Drg:用于人机交互检测的对偶关系图。在proc欧洲计算机视觉会议(ECCV),2020。一、二、六[14] 高晨,邹玉良,黄家斌。ican:用于人-对象交互检测的以实例为中心的注意网络。2018年英国机器视觉会议。一、四、五[15] GeorgiaGkioxari , RossGirshick , PiotrDolla'r ,andKaimingHe.检测和识别人机交互。在IEEE计算机视觉和模式识别会议论文集,第8359-8367页4[16] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv:1505.04474,2015。二、五、六5363[17] Kaiming He,Xiangyu Zhang,Shaoying
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功