没有合适的资源?快使用搜索试试~ 我知道了~
--."#$_$&'--.&$(_$&'--.&$(_)*"--.+,-./_)*"201230GEN-VLKT:简化关联,增强HOI检测的交互理解0Yue Liao 1,3* Aixi Zhang 2* Miao Lu 2 Yongliang Wang 2 Xiaobo Li 2 Si Liu 1,3†01. 北京航空航天大学人工智能研究所 2. 阿里巴巴集团 3.北京航空航天大学杭州创新研究院0摘要0人体-物体交互(HOI)检测的任务可以分为两个核心问题,即人体-物体关联和交互理解。在本文中,我们揭示并解决了传统基于查询的HOI检测器在这两个方面的缺点。对于关联,之前的两分支方法在后处理匹配上存在复杂和昂贵的问题,而单分支方法忽略了不同任务中的特征区别。我们提出了引导嵌入网络(GEN)来实现一个无需后处理匹配的两分支流程。在GEN中,我们设计了一个实例解码器,使用两个独立的查询集来检测人体和物体,并使用位置引导嵌入(p-GE)将处于相同位置的人体和物体标记为一对。此外,我们设计了一个交互解码器来分类交互,其中交互查询由每个实例解码器层的生成的实例引导嵌入(i-GE)组成。对于交互理解,之前的方法存在长尾分布和零样本发现的问题。本文提出了视觉-语言知识传递(VLKT)训练策略,通过从视觉-语言预训练模型CLIP中传递知识来增强交互理解。具体而言,我们使用CLIP为所有标签提取文本嵌入来初始化分类器,并采用模仿损失来最小化GEN和CLIP之间的视觉特征距离。结果,GEN-VLKT在多个数据集上大幅超越了现有技术,例如在HICO-Det上的mAP提高了5.05个百分点。源代码可在https://github.com/YueLiao/gen-vlkt获得。01. 引言0人体-物体交互(HOI)检测是使机器在静态图像中以细粒度的方式理解人类活动的重要任务。在这个任务中,人类活动被表示为一系列的HOI三元组 <人体,0* 同等贡献 †通讯作者(liusi@buaa.edu.cn)0交互0解码器0实例解码器0p-GE0i-GE0人体查询0对象查询0CLIP图像0编码器0CLIP文本编码器0图像0HOI文本0标签0模仿0对象文本0标签0初始化HOI文本0嵌入0对象文本嵌入0(a) GEN的两个分支解码器 (b) VLKT0图1.我们的GEN-VLKT流程。我们提出了GEN,一个基于查询的HOI检测器,具有两个分支解码器,其中我们设计了一个引导嵌入关联机制来替代传统的后处理匹配过程,以简化关联。此外,我们设计了一种训练策略VLKT,通过从大规模视觉-语言预训练模型CLIP中传递知识来增强交互理解。0对象,动词>,因此需要一个HOI检测器来定位人体和物体对并识别它们的交互。HOI检测的核心问题是探索如何关联交互的人体和物体对并理解它们的交互。因此,我们考虑从两个方面改进HOI检测器,并设计了一个统一且优越的HOI检测框架。我们首先回顾传统方法在这两个方面的努力。0对于关联问题,主要可以分为两种范式,即自底向上和自顶向下。自底向上的方法[6, 7,21]首先检测人体和物体,然后通过分类器或图模型关联人体和物体。自顶向下的方法通常设计一个锚点来表示交互,例如交互点[23]和查询[4, 31,46],然后通过预定义的关联规则找到相应的人体和物体。受益于视觉Transformer的发展,基于查询的方法正在引领HOI检测的性能,主要有两个流派,即两个201240分支预测匹配方式[4]和单分支直接检测方式[31,46]。两种分支方式都预测交互然后与人和物体匹配,设计有效的匹配规则和复杂的后处理是一项挑战。单分支方式提出了一种端到端的方法,通过单个查询和多个头部来检测人、物体和相应的交互。然而,我们认为人体检测、物体检测和交互理解这三个任务在特征表示上存在显著差异,人体和物体检测主要关注其对应区域的特征,而交互理解则关注人体姿势或上下文。为了改进这一点,如图1a所示,我们提出保持两个分支结构,同时去除复杂的后匹配。为此,我们提出了引导嵌入网络(GEN),其中我们采用了一个视觉编码器后面跟着两个分支解码器的架构,即实例解码器和交互解码器,并设计了一个引导嵌入机制来预先引导关联。两个分支都采用基于查询的Transformer解码器架构。对于实例解码器,我们为人体和物体检测设计了两个独立的查询集。此外,我们开发了一个位置引导嵌入(p-GE),通过将人体查询和物体查询分配到同一位置作为一对来区分不同的人体-物体对。对于交互解码器,我们设计了一个实例引导嵌入(i-GE),通过特定的人体和物体查询生成每个交互查询来预测其HOIs。因此,GEN可以允许不同的任务使用不同的特征,并在网络前向过程中引导关联而无需后匹配。对于交互理解问题,大多数传统方法直接应用从数据集中拟合的多标签分类器来识别HOIs。然而,由于现实场景中复杂的人体活动和各种交互对象,这种范式受到长尾分布和零样本发现的困扰。尽管最近的方法提出了通过数据增强[14]或精心设计的损失[44]来缓解这些问题,但由于昂贵的HOI注释,性能提升和扩展能力仅限于有限的训练规模。我们可以将目光投向可以轻松从互联网获取的图像-文本数据,而HOI三元组可以自然地转换为文本描述。得益于视觉-语言预训练模型的发展[26, 29,40],特别是CLIP[29],它在约4亿个图像-文本对上进行了训练,并展示了其在约30个任务上的强大泛化能力。因此,CLIP可以覆盖现实生活中的大多数HOI场景,并为理解HOIs带来新的思路。为了改进这一点,如图1b所示,我们设计了一种视觉-语言知识转移(VLKT)训练策略,以提高交互理解而不增加额外的计算成本。我们在VLKT中考虑了两个主要问题。一方面,我们设计了一个以文本驱动的分类器,用于先验知识整合和零样本HOI发现。具体而言,我们首先将每个HOI三元组标签转换为短语描述,然后基于CLIP的文本编码器提取它们的文本嵌入。最后,我们将所有HOI标签的文本嵌入应用于初始化分类器的权重。通过这种方式,我们可以通过将其文本嵌入添加到矩阵中来轻松扩展新的HOI类别。同时,我们还采用了以CLIP初始化的对象分类器来扩展新的物体。另一方面,对于以文本驱动的分类器和视觉特征对齐,我们提出了一种知识蒸馏方法,以引导HOI检测的视觉特征模仿CLIP的特征。因此,基于VLKT,该模型可以很好地捕捉来自CLIP的信息,并在推理过程中轻松扩展到新的HOI类别而不需要额外的成本。最后,我们提出了一种新的统一的HOI检测框架GEN-VLKT,基于上述两个设计。我们在两个代表性的HOI检测基准数据集HICO-Det[28]和V-COCO[9]上验证了GEN-VLKT的有效性。我们的GEN-VLKT在这两个基准数据集和HICO-Det数据集的零样本设置上都显著提高了现有方法的性能。具体而言,与先前的最先进方法QPIC[31]相比,我们的GEN-VLKT在HICO-Det上获得了5.05的mAP增益,在V-COCO上获得了5.28的AP提升。与先前的最先进方法ATL[14]相比,在未见过的物体零样本设置下,它的相对mAP增益提升了108.12%。0策略来将CLIP的知识转移到HOI检测器中,以增强交互理解而不增加额外的计算成本。我们在VLKT中考虑了两个主要问题。一方面,我们设计了一个以文本驱动的分类器,用于先验知识整合和零样本HOI发现。具体而言,我们首先将每个HOI三元组标签转换为短语描述,然后基于CLIP的文本编码器提取它们的文本嵌入。最后,我们将所有HOI标签的文本嵌入应用于初始化分类器的权重。通过这种方式,我们可以通过将其文本嵌入添加到矩阵中来轻松扩展新的HOI类别。同时,我们还采用了以CLIP初始化的对象分类器来扩展新的物体。另一方面,对于以文本驱动的分类器和视觉特征对齐,我们提出了一种知识蒸馏方法,以引导HOI检测的视觉特征模仿CLIP的特征。因此,基于VLKT,该模型可以很好地捕捉来自CLIP的信息,并在推理过程中轻松扩展到新的HOI类别而不需要额外的成本。最后,我们提出了一种新的统一的HOI检测框架GEN-VLKT,基于上述两个设计。我们在两个代表性的HOI检测基准数据集HICO-Det[28]和V-COCO[9]上验证了GEN-VLKT的有效性。我们的GEN-VLKT在这两个基准数据集和HICO-Det数据集的零样本设置上都显著提高了现有方法的性能。具体而言,与先前的最先进方法QPIC[31]相比,我们的GEN-VLKT在HICO-Det上获得了5.05的mAP增益,在V-COCO上获得了5.28的AP提升。与先前的最先进方法ATL[14]相比,在未见过的物体零样本设置下,它的相对mAP增益提升了108.12%。02. 相关工作0HOI检测。传统的HOI检测器主要分为自下而上和自上而下两个方向。自下而上的流程[3, 6, 7, 10, 18, 19, 21, 24, 34,37,45]首先检测所有的人类和物体,然后通过额外的分类器关联人物-物体对并推断它们的HOI类型。这些方法通常组织为两阶段的范式,并致力于改进第二阶段。最近,一些基于图的方法[28, 33, 35, 39,45]取得了令人满意的性能。然而,自下而上的方法由于其串行架构处理大量的人物-物体对时计算消耗昂贵。为了缓解这个问题,自上而下的方法在最近的工作中变得流行起来[4, 16, 17, 23, 31, 36,46]。自上而下的方法主要设计了一个额外的锚点来关联人类和物体,并预测它们的交互。交互锚点从早期的交互点[23, 36]和联合框[16]到最近的交互查询[4, 17, 22, 31,46],随着视觉变换器的发展。最近,CDN[41]提出了一种一阶段的方法#!""##…#'(#'%#)(#)%$'*$)*$+*!!"!#" …!$!"!!%!#%…!$!%!#+(#+%"!&"#& …"$!&Object Queries: !!$,"&Human Queries: !"Position GuidedEmbedding: "#############Element-wise SumConcatenateIn this subsection, we introduce the architecture of ourGuided Embedding Network (GEN). As shown in Figure 2,the GEN is organized as an encoder followed by two-branchdecoders architecture. We first adopt a CNN equipped witha transformer encoder architecture as the visual encoder toextract sequenced visual features Ve. Then, we apply two-branch decoders, i.e., instance decoder and interaction de-coder, to detect HOI triplets. In the instance decoder, basedon Ve, we detect humans and objects through the humanquery set Qh and the object query set Qo individually. Ad-ditionally, we design a position Guided Embedding (p-GE)P q to assign the human and object queries at the same po-sition as a pair. In the interaction decoder, we first dynam-ically generate the interaction queries Qai for each interac-tion decoder layer by computing the mean of the outputs ofhuman and object queries in the corresponding instance de-coder layer. Therefore, the interaction decoder can predictthe corresponding HOI categories under the guidance of hu-man and object queries. Finally, the HOI prediction resultsare generated by the output of decoders.201250视觉编码器0位置编码0Transformer0编码器0CNN0层0层0解码器0层0c …0交互解码器0实例解码器0物体框0"物体得分0交互得分0交互0查询0解码器层0解码器0层0解码器0层0HOI预测0c0输入图像0顺序0视觉特征0<人类,踢,球>实例引导嵌入0图2.我们GEN的框架。GEN组织为一个配备了两个分支解码器的视觉编码器架构。给定一张图像,首先应用视觉编码器提取视觉特征。然后,使用两个分支,即实例解码器和交互解码器,来定位人物-物体对并基于可学习的查询对HOI三元组进行分类。此外,我们设计了一个位置引导嵌入(p-GE)来关联交互的人类和物体,以及一个实例引导嵌入(i-GE)来使交互查询在特定人类和物体查询的指导下预测相应的HOI类别。0通过级联解码器来挖掘上述两个方面的优势。我们的GEN与CDN在三个方面不同。1)解码器的组织:GEN采用了两个分支的流水线,实例和交互解码器一起前进,而CDN将HOI检测分解为两个串行解码器。2)实例查询设计:GEN采用了两个独立的人类和物体查询,并带有位置嵌入,而CDN将人类和物体融合为统一的实例查询。3)动机:GEN旨在用引导式学习方式取代复杂的后处理,而CDN旨在挖掘这两个方面的优势。零样本HOI检测。零样本HOI检测[30]倾向于在训练数据中检测到未见过的HOI。许多方法[1, 11, 13-15,25, 27, 30, 32,38]被研究用于处理零样本HOI检测。具体而言,[1, 11, 30,32]通过对动词和物体进行分解推理,然后在推理过程中生成新的HOI三元组,将人类和物体特征分解。VCL[13]通过将分解的物体和动词特征与成对的图像和图像内部结合,组成新的HOI样本。FCL[15]提出了一个物体制造者,用于为罕见和未见的HOI生成虚假的物体表示。ATL[14]从额外的物体图像中探索物体作用,以发现新的HOI类别。ConsNet[25]将对象、动作和交互之间的关系明确地编码为一个无向图,以在HOI类别及其组成部分之间传播知识。视觉语言模型[27,38]将已见的视觉短语嵌入与先前的语言知识转移到未见的HOI上。03. 方法0在本节中,我们旨在探索HOI检测的两个问题的解决方案,即关联和交互理解。首先,在第3.1节中,我们详细介绍了我们的一阶段两分支HOI检测器的解决方案,即引导嵌入网络(GEN)。然后,在第3.2节中,我们介绍了一种使用大规模视觉语言预训练模型CLIP的视觉-语言知识转移(VLKT)训练策略,以增强交互理解。最后,我们展示了训练和推理流程。0在本小节中,我们介绍了我们的引导嵌入网络(GEN)的架构。如图2所示,GEN由编码器和两个分支解码器组成。我们首先采用一个带有Transformer编码器架构的CNN作为视觉编码器,提取序列化的视觉特征Ve。然后,我们应用两个分支解码器,即实例解码器和交互解码器,来检测HOI三元组。在实例解码器中,基于V e,我们通过人类查询集Q h和物体查询集Qo分别检测人和物体。此外,我们设计了一个位置引导嵌入(p-GE)Pq,将人类查询和物体查询在同一位置上作为一对进行分配。在交互解码器中,我们首先通过计算相应实例解码器层中人类查询和物体查询的输出的均值,动态生成每个交互解码器层的交互查询Q ai。因此,交互解码器可以在人类查询和物体查询的指导下预测相应的HOI类别。最后,解码器的输出生成HOI预测结果。03.1. 引导嵌入网络0视觉编码器。我们遵循基于查询的Transformer检测器[2, 31,46],采用CNN-Transformer组合架构作为视觉编码器。将图像I作为……w$%w&%w'%w((%……v$%v&%v'%v()%…+…%$%%&%%'%%()%&v)*+,201260<骑,马>0<开车,公交车>0<飞,飞机>0<行,船>0一张照片,上面有0人 [动词-ing]0一个 [物体]。0CLIP文本编码器0交互0解码器0交互分类器0交互0视觉0特征权重0初始化0CLIP图像0编码器0池化0模仿0交互得分0图3.交互解码器的VLKT。我们首先将每个HOI标签转换为短语描述,并基于CLIP文本编码器提取其文本嵌入,然后将所有HOI标签的文本嵌入应用于初始化分类器。最后,我们采用CLIP图像编码器提取视觉特征来指导交互视觉特征学习。虚线箭头表示无梯度。0输入,首先使用CNN提取低分辨率的视觉特征V cnn ∈ RH' × W' × C'。然后,我们将视觉特征的通道数减少到Ce,并将特征的大小展平为(H' × W') × Ce。最后,我们将减少的特征与余弦位置嵌入一起输入到Transformer编码器中,并提取序列化的视觉特征V e ∈ R (H'× W') × C e,用于后续任务。0解码器。两个分支中的解码器共享相同的架构,我们遵循基于Transformer的检测器[2,4],采用基于查询的Transformer解码器框架。首先,我们输入一组可学习的查询Q ∈ R N q × Cq,上一层的输出,视觉特征Ve和位置嵌入到N个Transformer解码器层中,并在自注意力和协注意力操作之后输出更新后的查询。然后,通过独立的FFN头,将查询转换为其专用任务的嵌入,即通过第一个和第二个解码器分支分别表示实例和交互表示。对于实例解码器,我们首先初始化两组查询以检测人和物体[5],其中我们将人和物体查询集分别表示为Q h ∈ R N q × C q和Q o ∈R N q × Cq。然后,我们设计了一个额外的可学习位置引导嵌入(p-GE)P q ∈ R N q × Cq,用于将人类查询和物体查询在同一位置上作为一对进行分配,其中我们将P q 添加到0分别为Qh和Qo。最后,我们通过连接添加的查询生成实例解码器的查询集:0Qins=[Qh+Pq, Qo+Pq], (1)0其中Qins∈R2Nq×Cq。我们将Qins输入实例解码器,预测人-对象边界框对(bhi, boi,soi),其中bhi∈Bh,boi∈Bo,soi∈So。0表示人类边界框、对象边界框和对象类别分数。我们提取每个解码器层解码的中间特征作为Vins=[Vh,Vo],用于后续的交互解码器,其中Vins∈RN×2Nq×Cq。交互解码器的目标是预测相应人-对象对的HOI类别。因此,该分支需要将交互查询与人类-对象查询对关联并进行交互分类。在这里,我们介绍了一种实例引导嵌入(i-GE)方法来进行关联,并且下一小节将介绍新的交互分类方式。我们动态生成i-GE作为交互查询,以引导交互查询与人类和对象查询匹配。具体而言,对于第k层交互解码器的输入,交互查询Qak由第k层实例解码器的输出计算得到:0Qak=(Vhk+Vok)/2. (2)0这样,第k层交互解码器将交互查询Qa和编码特征Va^k作为输入,并返回即时的解码特征Va^k和HOI类别。03.2. 视觉-语言知识转移0在本小节中,我们详细介绍了实例解码器和交互解码器的训练流程,以及从大规模视觉-语言预训练模型CLIP[29]中转移知识的方法,即视觉-语言知识转移(VLKT)。在VLKT中,我们首先介绍了如何采用CLIP文本嵌入来对交互和对象进行分类。然后,我们介绍了如何将CLIP图像嵌入的视觉知识转移到交互解码器中。我们在图3中展示了使用VLKT进行交互解码器训练的流程。分类器初始化的文本嵌入。为了生成CLIP文本嵌入,我们首先将HOI三元组标签和对象标签转换为文本描述。例如,给定一个HOI三元组<人类,对象,动词>,我们按照“一张描述了一个人[动词-ing]一个/一种[对象]的照片”的格式生成相应的描述。此外,“无交互”类型表示为“一张描述了一个人和一个/一种[对象]的照片”。对于一个对象标签,我们将其转换为短语“一张描述了一个/一种[对象]的照片”。然后,我们为每个HOI和对象文本标签生成文本嵌入。201270通过预训练的CLIP文本编码器离线进行。最后,得到HOI标签的文本嵌入集合Ea∈Rct×Na和对象标签的文本嵌入集合Eo∈Rct×No,其中Na和No分别表示HOI三元组类别和对象类别的数量,ct表示来自CLIP文本编码器的文本嵌入的维度。在获取文本嵌入之后,我们的目标是在这些文本嵌入的先验知识指导下对交互和对象进行分类。直观的想法是采用这些嵌入来初始化可学习分类器的权重,并以较小的学习率微调分类器以适应特定的数据集。这样,每个输出查询特征在分类过程中与所有微调的文本嵌入计算余弦相似性,并返回一个相似性得分向量。具体而言,我们将交互分类器和对象分类器表示为Ca←Ea。0并分别将 C h ← E h,C o ← E o。以交互分类器 C a = [wa 1,w a 2,...,w a N a] 为例,给定一个输出的交互查询v a i,我们通过以下方式计算相似度得分:0s a i = θ [sim (v a i,w a 1),sim (v a i,w a 2),...,sim (v a i,w a Na)]0其中,sim 表示余弦相似度操作,例如 sim(v a i,w a1)=(v a i ∙ w a 1)/(∥v a i∥∥w a 1∥),θ 是一个根据CLIP [29]设定的逻辑刻度因子。物体分类得分可以以相同的方式获得。否则,我们按照[31]的方法分别应用焦点损失和交叉熵损失来训练交互分类器和物体分类器。视觉嵌入蒸馏。CLIP是在图像-文本对数据上训练的,它将视觉嵌入和文本嵌入对齐到一个统一的空间中。我们设计了一个视觉嵌入模仿机制,通过拉近交互特征与 CLIP视觉嵌入之间的距离,将交互特征拉入这个统一的空间。这里,CLIP充当教师的角色,交互解码器充当学生的角色。我们从全局图像级别设计了知识蒸馏策略,因为 CLIP图像编码器是建立在整个图像上的。我们首先将调整大小和裁剪后的图像输入预训练的 CLIP视觉编码器,并提取教师监督的视觉嵌入 ˆ vclip。通过在所有输出的交互查询特征之间进行平均池化,生成全局学生视觉嵌入。我们使用 L 1损失来拉近学生和教师之间的距离。我们将全局知识蒸馏定义为:0L glo = |ˆ v clip - 10N q0i = 1 v a i |0其中,N q 表示查询的数量。3.3.训练和推理0下面,我们展示训练和推理的过程。训练阶段。在训练阶段,我们遵循基于查询的方法[2,31,46]来分配一个二分图匹配的预测0使用匈牙利算法将预测与每个真实值进行匹配。匹配过程将两个分支解码器的 FFN heads的预测结果进行组合,因为人、物体和交互的查询是一对一对应的。匹配过程的匹配成本和训练反向传播的目标成本采用相同的策略,由框回归损失 L b、交并比损失 L u和分类损失 L c 组成。成本的定义如下:0L cost = λ L b + λ u L0i ∈(h,o)L iλ u L u0j ∈(h,o)+ λ mimic L0k ∈(o,a)λ kc L k c0其中,λ b,λ u和λ k c是调整每个损失权重的超参数。然后,考虑到蒸馏损失,最终的训练损失定义为:0L = L cost + λ mimic L glo0其中,λ mimic是用于蒸馏图像嵌入的超参数权重。此外,我们对每个解码器层的输出应用中间监督。推理阶段。视觉嵌入蒸馏只在训练阶段起作用,在推理阶段我们将其移除。对于每个人-物体边界框对(b h i,b oi),其中物体得分为 s oi(来自实例解码器分支),交互得分被预测为 s ai(来自交互解码器)。然后,我们将 s o i 从 N o维扩展到 N a维,其中特定物体类别的得分将被复制粘贴多次以适应其所有对应的 HOI 类别。HOI 三元组得分为 s a i+ s o i(N a)s o i(N a),而不是 s a i s o i(No),以平衡交互得分和物体得分的权重。置信度得分最高的 HOI 三元组被保留为最终预测。4. 实验0在本节中,我们通过全面的实验展示了我们设计的GEN-VLKT的有效性。4.1.实验设置0数据集。我们在两个公共基准数据集HICO-Det[3]和V-COCO[9]上评估我们的模型。HICO-Det有47,776张图像(其中38,118张用于训练,9,658张用于测试)。它包含了由80个物体类别和117个动作类别构成的600个HOI三元组类别。V-COCO是COCO数据集的一个子集,有10,396张图像(其中5,400张用于训练,4,964张用于测试)。它有29个动作类别,其中包括4个没有与任何物体交互的身体动作。它具有相同的80个物体类别。它的动作和物体形成了263个HOI三元组类别。用于零样本HOI检测的数据结构。对于零样本HOI检测,我们在HICO-Det上进行实验,遵循[1]中的设置:1)未见组合(UC)和2)未见物体(UO)。具体而言,UC设置表示训练数据包含所有的物体和动词类别,但不包含任何未见类别。GEN-VLKTsHICO-DetResNet-50Q33.7529.2535.1036.7832.7537.99GEN-VLKTmHICO-DetResNet-101Q34.7831.5035.7738.0734.9439.01GEN-VLKTlHICO-DetResNet-101Q34.9531.1836.0838.2234.3639.37201280默认已知物体方法 检测器骨干网络 锚点 完整 稀有 非稀有 完整 稀有 非稀有0自底向上方法:0InteractNet [8] COCO ResNet-50-FPN � 9.94 7.16 10.77 - - - GPNN [28] COCO Res-DCN-152 � 13.11 9.34 14.23 - - -iCAN [7] COCO ResNet-50 � 14.84 10.45 16.15 16.26 11.33 17.73 No-Frills [10] COCO ResNet-152 � 17.18 12.17 18.68 -- - PMFNet [34] COCO ResNet-50-FPN � 17.46 15.65 18.00 20.34 17.47 21.20 DRG [6] COCO ResNet-50-FPN � 19.2617.74 19.71 23.40 21.75 23.89 VCL [13] COCO ResNet-50 � 19.43 16.55 20.29 22.00 19.09 22.87 VSGNet [33] COCOResNet-152 � 19.80 16.05 20.91 - - - FCMNet [24] COCO ResNet-50 � 20.41 17.34 21.56 22.04 18.97 23.12 ACP [18]COCO ResNet-152 � 20.59 15.92 21.98 - - - PD-Net [43] COCO ResNet-152-FPN � 20.81 15.90 22.28 24.78 18.88 26.54SG2HOI [12] COCO ResNet-50 � 20.93 18.24 21.78 24.83 20.52 25.32 DJ-RN [19] COCO ResNet-50 � 21.34 18.53 22.1823.69 20.64 24.60 SCG [42] COCO ResNet-50-FPN � 21.85 18.11 22.97 - - - IDN [20] COCO ResNet-50 � 23.36 22.4723.63 26.43 25.01 26.85 ATL [14] HICO-Det ResNet-50 � 23.81 17.43 25.72 27.38 22.09 28.960自顶向下方法:0UnionDet [16] COCO ResNet-50-FPN B 17.58 11.72 19.33 19.76 14.68 21.27 IP-Net [36] COCO Hourglass-104 P 19.5612.79 21.58 22.05 15.77 23.92 PPDM-Hourglass [23] HICO-Det Hourglass-104 P 21.94 13.97 24.32 24.81 17.09 27.12HOI-Trans [46] HICO-Det ResNet-50 Q 23.46 16.91 25.41 26.15 19.24 28.22 GG-Net [44] HICO-Det Hourglass-104 P23.47 16.48 25.60 27.36 20.23 29.48 PST [5] - ResNet-50 Q 23.93 14.98 26.60 26.42 17.61 29.05 HOTR [17] HICO-DetResNet-50 Q 25.10 17.34 27.42 - - - AS-Net [4] HICO-Det ResNet-50 Q 28.87 24.25 30.25 31.74 27.07 33.14 QPIC [31]HICO-Det ResNet-50 Q 29.07 21.85 31.23 31.68 24.14 33.930表1. HICO-Det测试集上的性能比较。我们额外添加了一个标签'Anchor'来表示自顶向下方法的交互锚点类型,其中'B'、'P'和'Q'分别表示边界框、点和查询。0在UC设置中,训练数据包含所有的物体和动词类别,但不包含任何未见类别。我们评估了120个未见类别、480个已见类别和600个完整类别。与[13]类似,Rare First UC(RF-UC)优先选择尾部HOI中的未见类别,而Non-rare FirstUC(NF-UC)则更倾向于头部类别。对于UO设置,我们使用了12个未见物体中的80个物体,形成了100个未见HOI和500个已见HOI。此外,为了更全面地展示我们的方法对新颖HOI的研究,我们提出了一个Unseen Verb(UV)设置,从总共117个动词中随机选择了20个动词,形成了84个未见HOI和516个已见HOI。0评估指标。我们遵循[3]中的设置,使用平均精度(mAP)进行评估。我们将HOI三元组预测定义为真正的正样本,如果:1)预测的人体和物体边界框与GT边界框的IoU大于0.5;2)预测的HOI类别都准确无误。对于HICO-Det,我们评估了三种不同的0类别集:全部600个HOI类别(完全),少于10个训练实例的138个HOI类别(稀有),以及其他462个HOI类别(非稀有)。对于V-COCO,我们报告了两种情况下的角色mAP:S 1 包括29个动作类别,包括4个身体动作,S 2不包括无物体HOI类别的25个动作类别。0实现细节。我们实现了GEN-VLKT的三个版本。GEN-VLKTs的主干是ResNet-50,GEN-VLKT m和GEN-VLKTl的主干是ResNet-101。两个分支的每个解码器的N分别为GEN-VLKT s和GEN-VLKT m的3,GEN-VLKTl的6。HOI类别的数量Na为HICO-Det的600,V-COCO的263。我们将查询的数量Nq设置为64,通道Ce和Cq的数量设置为256。我们使用AdamW优化网络,权重衰减为10^-4。我们训练模型90个epoch,初始学习率为10^-4,在第60个epoch时降低10倍。训练是使用MS-COCO训练的DETR[2]的参数进行初始化的。对于常规的HOI训练,我们微调了CLIP201290方法 锚点 AP S 1 角色 AP S 2 角色0自下而上方法:InteractNet [8] � 40.0 - GPNN [28] �44.0 - iCAN [7] � 45.3 52.4 TIN [21] � 47.8 54.2 VCL[13] � 48.3 - DRG [6] � 51.0 - IP-Net [36] � 51.0 -VSGNet [33] � 51.8 57.0 PMFNet [34] � 52.0 -PD-Net [43] � 52.6 - FCMNet [24] � 53.1 - ACP [18]� 53.23 - IDN [20] � 53.3 60.30自上而下方法:UnionDet [16] B 47.5 56.2HOI-Trans [46] Q 52.9 - AS-Net [4] Q 53.9 -GG-Net [44] P 54.7 - HOTR [17] Q 55.2 64.4QPIC [31] Q 58.8 61.00GEN-VLKT s Q 62.41 64.460GEN-VLKT m Q 63.28 65.580GEN-VLKT l Q 63.58 65.930表2.V-COCO上的性能比较。'B','P'和'Q'分别表示边界框,点和查询。0文本嵌入初始化交互分类器和对象分类器,学习率较小为10^-5。我们在HICO-Det上进行了零样本HOI实验。为了更好地扩展新的HOI类别,我们冻结了CLIP初始化的交互和对象分类器的权重。我们将交互分类器的输出维度设置为训练期间的“已见”类别数量,而在推断期间将此输出维度更新为“完全”600个类别。我们将成本权重λb,λu,λoc和λac设置为2.5,1,1和1,分别遵循QPIC[31]的设置。我们遵循官方的CLIP数据预处理方法,对实时增强的图像进行调整大小和中心裁剪,使其大小为224,并将处理后的图像输入到CLIP视觉编码器中。我们将损失权重λmimic设置为20。我们在8个Tesla V100GPU和CUDA10.2上使用批量大小为16进行所有实验。4.2.常规HOI检测的有效性我们使用官方评估代码计算HICO-Det和V-COCO的mAP。表1和表2显示了GEN-VLKT与最近的自下而上和自上而下HOI检测方法的性能比较。对于HICO-Det,如表1所示,GEN-VLKTs相对于所有现有的自下而上和自上而下方法都有很大的优势。具体而言,与最先进的自上而下方法QPIC[31]相比,GEN-VLKTs的mAP增益相对较大,达到了16.10%,mAP差距为4.68。0方法类型 未见过 已见过 完全0Shen等人[30] UC 5.62 - 6.26 FG [1] UC 10.93 12.6012.26 ConsNet [25] UC 16.99 20.51 19.810VCL [13] RF-UC 10.06 24.28 21.43 ATL [14]RF-UC 9.18 24.67 21.57 FCL [15] RF-UC 13.1624.23 22.010基线 RF-UC 12.52 32.70 28.660GEN-VLKT s RF-UC 21.36 32.91 30.560VCL [13] NF-UC 16.22 18.52 18.06 ATL [14]NF-UC 18.25 18.78 18.67 FCL [15] NF-UC 18.6619.55 19.370基线 NF-UC 18.71 22.53 21.760G0FCL �
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功