没有合适的资源?快使用搜索试试~ 我知道了~
19568基于非纠缠Transformer的人机交互检测周德森1* 刘志超1, 2*<$王健1乐山王1, 2 <$胡涛1丁二瑞1京东王11百度公司计算机视觉技术部(VIS)2上海科技大学{zhoudesen,wangjian33,hutao06,dingerrui} @ baidu.com{liuzhch,wanglsh} @ shanghaitech.edu.cn,wangjingdong@outlook.com摘要人-物交互检测解决了人-物交互的联合定位和分类问题。现有的HOI变换器要么采用一个单一的解码器进行三元组预测,要么利用两个并行的解码器来检测单独的对象和相互作用,并通过匹配过程组成三元组相反,我们将三元组预测解耦为人-物体对检测和交互分类。我们的主要动机是,检测人类对象的实例和分类的相互作用准确地需要学习表示,侧重于不同的区域。为此,我们提出了解纠缠的Transformer,其中编码器和解码器都为了关联解纠缠解码器的预测,我们首先用基本解码器生成HOI三元组的统一表示,然后将其用作每个解纠缠解码器的输入大量的实验表明,我们的方法优于以前的工作在两个公共-李克HOI基准相当大的保证金。代码将可用。1. 介绍人机交互(HOI)检测[11]旨在检测图像中所有的人,动词,物体>三元组近年来,它在计算机视觉界引起了越来越多的关注[8,10]。人-对象交互的准确估计可以使多个下游任务受益,例如人类动作识别[38],场景图生成[25]和图像标题[4]。最近的进展表明,HOI检测可以用集合预测问题来表示[3,17,30,44]。现有的HOI变压器可以分为两种类型:单分支变压器和并联分支变压器。单-*同等贡献。[2]智超和乐山在百度VIS实习时所做的工作。图1. 不同HOI变压器的架构比较。(a) 单分支Transformer [30,44]采用单个解码器来直接检测HOI三元组。(b)单支路Transformer [3,17]利用单独的解码器检测各个对象和交互,然后通过匹配过程组成三元组,这可能会引入额外的分组错误。(c)我们通过实例流和交互流将三元组预测的任务分解为人-对象对检测和交互分类,其中编码器和解码器都被分解。分支Transformer [30,44]采用多任务策略,其中一个查询可用于在单个解码器内预测人、动词、对象>三元组。相比之下,并行分支Transformer [3,17]采用并行解码器分别进行实例检测和交互分类。具体来说,一个实例解码器遵循DETR [1]并检测单个对象,另一个交互解码器估计图像中的交互。为了组成HOI三元组,它生成额外的关联嵌入以匹配交互和实例。由于HOI检测是一个组合问题[13,15],与统一的多任务策略相比,后一种分解策略具有几个优势。首先,两个子任务解码器19569可以通过交叉注意来关注不同的区域,以促进学习,并且还导致更好的可解释性。此外,它具有更好的推广性,特别是对罕见的类别,由于长尾分布的三重组合。然而,现有的并行解码器变换器在复杂场景下存在两个关键缺点i) 交互预测必须在实例解码器中找到它们对应的人和对象实例,这可能由于误分组而引入额外的误差; i i)不管共享编码器如何,解码子任务是相对独立的,并且不考虑实例和交互的联合配置为 了 克 服 上 述 局 限 性 , 我 们 提 出 了 去 纠 缠Transformer(DisTR).我们通过实例流和交互流将三元组预测解耦为人-对象对检测和交互分类,其中编码器和解码器都被解开。我们的和以前的HOI变压器之间的架构比较的插图如图所示。1.一、我们的编码器模块为两个子任务提取不同的上下文信息。在解码过程中,任务解码器基于对应的任务编码器对其表示进行解码。不同于先前的并行解码器变换器[3,17],实例解码器预测单个对象,我们的实例解码器预测一组交互式人-对象对。为了关联任务解码器的预测,我们采用基本解码器首先生成HOI三元组的统一表示,遵循QPIC [30],然后将其用作每个任务解码器的输入特征。然后,任务解码器基于统一表示来细化其表示,从而导致由粗到细的我们进一步设计了一个注意融合模块来在任务解码器之间传递信息,帮助它们相互交流。我们在两个公共基准上评估了我们提出的方法:V-COCO [11]和HICO-DET [2]。我们的方法我们进一步可视化我们的任务解码器中的交叉注意,并观察到我们的任务解码器确实注意到不同的空间区域,证明了我们提出的解纠缠策略的有效性。本文的贡献有三个方面:• 我们提出了一个解开策略HOI检测,其中三元组预测解耦成人-对象对检测和交互分类通过一个实例流和一个交互流。• 我们开发了一个新的Transformer,其中编码器和解码器都是解开的。我们还提出了一个由粗到细的策略,以关联的预测实例解码器和交互解码器,和一个attentional融合块之间的任务解码器的通信• 我们在V-COCO和HICO-DET基准上都达到了最先进的水平2. 相关工作2.1. 两阶段法HOI检测的经典研究分支是基于假设和分类策略,其首先通过对象检测器检测对象实例[9,29],然后对分组的成对人-对象建议进行交互分类[8,10,21,22,26,32]。一些作品还利用图结构来增强对象依赖性[27,28,31,33,40]。另一组两阶段方法是组合方法[13-15,20 ],其通过从制造的组合HOI学习来相比之下,我们的方法通过解开的任务编码器和解码器解开表示,并且其一阶段框架不依赖于预先计算的对象提案。2.2. 一步法近年来,单级或并行HOI引起了广泛的关注,它将交互目标转换为中心点或交互对象,然后采用检测流水线。基于CenterNet [5]的 PPDM [23]检测交互中心以及对象,然后执行分组作为其后处理。IP-Net [35]是类似的。UnionDet [16]使用一种新型的联合级检测器,通过直接捕获相互作用区域来消除这种额外的推理阶段DIRV [6]专注于每个人-物体对在不同尺度上的密集采样交互区域,并引入了一种新的投票策略来取代非最大抑制(NMS)。HOI Transformer最近的HOI变压器遵循DETR [1],但分为两种类型:缠绕变压器和解开Transformer。纠缠变换器,QPIC [30]和HOITrans [44]直接用单个解码器生成给定图像的多个人,物体,动作>三元组相反,解纠缠变换器HOTR [17]和ASNet [3]在并行解码器中预测对象和交互,然后执行对象和交互目标之间的匹配以生成最终预测。最近,Zhang et.al [39]提出在级联过程中将实例解码器和交互解码器分开,将实例解码器视为交互解码器的建议生成器。相比之下,我们的子任务是可解码的,因此可以应用通信。此外,由于编码器解纠缠,我们的解纠缠更完整。19570--一C∈{}联系我们O∈()K()×OKKOOKOQKO【详细】【详细】图2.概述我们的框架。编码器模块针对不同的解码子任务在三个级别上提取全局上下文解码器模块以由粗到细的方式对实例和交互的表示进行解纠缠:基础解码器提取HOI三元组的统一HOI表示,然后实例解码器和交互解码器在解纠缠特征空间中细化统一HOI表示。我们的实例解码器直接估计交互的人-对象实例对,这是与交互预测。注意融合块进一步插入两个任务解码器的每个输出层(不包括最后一层)以执行它们之间的通信。3. 方法3.1. 概述我们采用一阶段的Transformer框架,直接估计所有的人,动词,对象>三元组给定的图像。为了实现这一点,我们首先将HOI三元组与相同的人和对象实例分组。然后,图像的基础真值可以表示为元组集{(xi,xi,ci,ai)|i=1,2,…. ,M},其中M是数字的真实人机交互对,xi,xi∈R4预测之间的匹配问题。具体来说,我们首先生成统一的HOI表示来表示HOI三元组xi,xi,ci,ai ,然后利用实例解码器来细化实例空间中的表示并预测由xi,xi,ci表示的人-对象实例对. 交互作用解码器负责交互作用解纠缠和预测,用i表示。在推理过程中,两个头解码器中相同查询索引的预测直接分组在一起。下面我们介绍我们的详细实施上述k o从粗到细的解缠策略。表示人类实例和对象实例的边界框,c= 0,1C表示对象类别的独热编码,是对象类的数量,0,1A表示交互类的标签。然后,我们部署我们的Transformer网络来预测这样的元组集。形式上,给定图像I,我们的目标是定义一个执行映射的Transformer网络FI−→F{(xi,xi,ci,ai)|i= 1,2,…. ,N},(1)3.2. 网络架构与现有的HOI变换器[3,30]和DETR [1]类似,我们的网络由三个主要模块组成:骨干模块计算图像特征;编码器模块开发自注意机制以进一步提取不同空间区域之间的更高关系上下文;以及DETR。编码器模块从编码器模块提取表示其中,i是查询索引,Nq是用于实例检测的解纠缠子任务的查询在我们的Transformer网络中预定义。xi,xi ∈R4表示相互作用分类。我们的框架概述如下图1中所示的人类实例和对象的预测边界框。二、分别在两种情况下,ci∈(0, 1)C+1是概率估计的-对象分类的一致性,通过softmax函数进行归一化。附加维度指示背景非对象类。 ai0, 1A表示相互作用概率,其通过sigmoid函数归一化。我们采用由粗到细的策略,将物体检测和交互分类分开,3.2.1骨干模块CNN主干用于提取具有形状H、W、C的高级语义特征图,然后使用11卷积层将通道维度从C减少到D。我们将形状(H,W,D)的特征图变平,19571de∈--dededeen∈enendeendedeenF德德恩∈(HW,D)。 我们使用ResNet50 [12]作为我们的骨干,字典 形式上,基本解码器Fb 变换一个集合使用1× 1卷积减少conv-5中的特征图的可学习HOI查询Qkoi∈RNq×D到一组基从C=2048到D=256,骨干视觉特征来自HOI编码器头的HOI表示Fb∈RNq×D表示为F回来 ∈RHW×D。deFb =Fb(0, Fkoi,pen,Qkoi),(2)3.2.2编码器模块我们的编码器模块的目的是在不同的空间区域建模的关系,以提高全球背景下的骨干表示F回。现有的并行解码器变换器[3,17]利用共享编码器,例如检测和交互分类。然而,我们假设不同子任务的图像表示中的关系是不同的,并且编码器表示最好针对特定子任务而设计。因此,我们解开我们的编码器在三个层次上不同的解码子任务:人对象对检测,交互分类和统一表示生成。具体来说,它由一个基本编码器和三个头部编码器组成。基本编码器,其中包括Lb层,增强F回生成一个基本编码器表示Fb。然后,具有Lk层的三个不同的头编码器分别细化基本编码器表示。我们将精化的头部表示记为Fkoi,Fd,Fa,它们用于计算。其 中 零 矩 阵 0 =0Nq×D 表 示 基 解 码 器 的 输 入 特 征 。penRHW×D是编码器表示的位置嵌入。实例解码器我们的实例解码器旨在细化统一的HOI表示Fb,以生成交互式人-对象实例对的分离表示。为了实现这一点,我们利用一个MLP嵌入的统一表示,以产生输入特征的实例解码器。我们的实例解码器d有Lk层,并采用输入特征,以及一组可学习的实例查询QdRNq×d来执行特征细化。我们发现,输入统一表示作为解码器特征比直接利用它作为查询更好,因为解纠缠的解码器将具有强大的初始特征。实例解码器的输出是一组交互的人-对象实例对:恩恩恩在不同的解码器中进行交叉关注:Fkoi用于基础解码器,{(xi,xi,ci)}=Fd(MLP(Fb),Fd,p,Q)。(三)Coder,Fden例如解码器和Fa戈奥德德恩恩德en enfor interaction de-编码器所有编码器表示共享相同的形状:交互解码器与实例解码器类似,Fb, Fkoi,Fd, Fa∈RHW×D。1Lk层交互解码器细化了统一的HOI表示,恩恩de表示到解纠缠的交互特征空间,3.2.3解码器模块我们的解码器模块采用注意力机制,从编码器中提取表征子任务解码。我们以一种由粗到细的方式解开实例和交互的表示,首先利用基本解码器来生成HOI三元组的统一表示,然后利用另外两个解开的解码器来细化实例和交互空间中的统一表示与先前的变换器[3,17]不同,实例解码器预测单个对象而不考虑其交互性,我们的实例解码器估计与交互预测相关联的交互式人-对象实例对。因此,它不需要额外的匹配过程。为了进一步帮助两个任务解码器相互通信,我们提出了一个注意力融合块来传递它们之间的信息。下面我们描述上述组件的详细结构。基本解码器我们的基本解码器具有Lb层,并为解纠缠解码器生成统一的HOI表示,以促进特征细化和关联预处理。1在本节中,生成一组交互预测:{ai}=Fa(MLP(Fb),Fa,pen,Qa),(4)其中QaRNq×D表示查询集,Fa表示交互编码器。类似于实例解码器,在解码期间,所估计的交互与统一的HOI表示以及实例解码器中的人-对象对相关联。注意力融合块我们的解纠缠任务解码器分别执行子任务。然而,由于统一表示的早期分解,两个功能模块没有充分地通信2.为了使各个子任务更好地相互受益,我们在实例解码器和交互解码器之间进行消息传递。具体来说,在每一层的输出中,如果它们与相同的查询索引相关联,则将实例表示融合到交互表示 我们的融合块的设计受到[37]的启发,它利用对象表示和动作表示来估计通道注意力。形式上,我们2在我们的模型中,实例解码器和交互解码器比基本解码器有19572KJ()下一页一S∈()∈()L L L LLendedeK K一一一DKOKOKoenC1i联系我们图3.注意融合阻滞的结构。表示实例表示和交互表示-对于查询i,将其表示为:i,i∈RD。 如图3、我们的提取更好的表征。我们的基本解码器解码统一的HOI表示和预测HOI三元组。解纠缠的解码器预测实例和交互的恢复。由于解纠缠解码器中的表示是从统一表示中提炼出来的,因此我们对解纠缠解码器和基解码器采用不同的预测FFN。而在同一解码器中,FFN参数是共享的。3.4.模型推理给定HOI预测集{(xi,xi,ci,ai)},其中ci∈+A德阿伊伊(0,1),a ∈(0, 1)表示分类概率-注意力融合块首先将注意力d和注意力a连接起来,并利用MLP计算信道注意力β∈ RD对象类和动作类的关系,预测的对象类及其检测得分由argmaxcii i和maxkci,第i个查询中第j个操作的输出HOIβ=a(MLP( Concat([α;βd]),(5)K我 我我由(xk,xo,argmaxkck,j)给出,具有预测得分其中a是sigmoid函数,用于约束max kci·ai. 与之前的工作类似[30],我们只保留一个β到范围0, 1。通道注意力用于增强与元素乘法的交互表示。在实践中,我们发现添加实例功能可以提供额外的改进。因此,输出相互作用表示式R_D具有以下形式:ç˜i=çi+βSçi+MLP(çi),(6)其中指示逐元素乘法。在解纠缠解码器的最后一层中,我们不应用attentional融合,以便使最终表示更具鉴别力。3.3.模型学习我们采用与之前HOI Transformer类似的损耗[30,44]。具体地,实例解码器和交互解码器生成集合预测xi、xi、ci和ai,其中ci0, 1C+1,ai0 , 1A指示对象类概率和交互类概率,它们分别由softmax和sigmoid归一化。然后将具有相同查询索引的预测分组为-一个三元组集合{(xi,xi,ci,ai)}剩下的过程是如果其置信度得分高于阈值,则进行预测4. 实验4.1. 实验装置数据集我们在两个HOI检测数据集上进行了实验:HICO-DET [2] 和 V-COCO [11] 。 V-COCO 源 自 MS-COCO [24],在训练子集和测试子集中分别包含5400和4946张图像。V-COCO标注了80个对象类别和29个动作类,包括25个HOI三元组和4个人体动作。HICO-DET包含38118和9658图像分别用于训练和测试。HICO-DET与MS-COCO一样有80个宾语类别和117个动词类别,所有宾语和动词由600个HOI三元组组成评估根据之前的工作[3,8,30],我们使用平均精度(mAP)。如果人类和物体框与地面真值框的IOU大于0.5,并且预测的物体类别和动词类别需要正确,则认为三元组预测是积极的。为HICO-DET,我们报告mAP超过完全,罕见和非罕见[30]第一次见面的时候利用组合的三元组预测来计算与地面真值三元组的我们用b表示,u,c、a作为边界框L1损失、GIoU损失、对象分类损失和交互分类损失,总损失由下式给出:L=hbLb+huLu+hcLc+haLa,(7)其中hb、hu、hc、ha表示平衡不同损耗分量的权重。辅助损失受DETR [1]的启发,我们添加预测FFN并对每个解码器层采用辅助损失,设置.对于V-COCO,我们报告了场景#1(包括对象)和场景#2(忽略对象)上的mAP。4.2. 实现细节在我们的实现中,基本编码器、头部编码器、基本解码器和头部解码器的层号B= 4,L k=2,Lb=2,Lk=4。查询编号Nq=100。我们将hb,hu,hc,ha的权系数设为2.5,1,1,1。在训练过程中,我们使用COCO数据集上预先训练的DETR [1]初始化模型参数。对于缺失的参数,我们采用了一种预热策略,首先冻结预训练的参数,并调整缺失的参数10个epoch。根据之前的工作[3,30],我们将编码器和解码器中的参数设置为10−4,19573dede方法骨干场景1场景2两阶段法iCAN [8]R5045.3 52.4[22]第二十二话R5047.8 54.2VCL [13]R10148.3-DRG [7]R50-FPN51.0-VSGNet [31]R15251.8 57.0PMFNet [32]R50-FPN52.0-PDNet [41]R15252.6-CHGNet [33]R5052.7-FCMNet [26]R5053.1-[第18话]R15253.2-印尼[20]R5053.3 60.3SCG [40]R50-FPN54.2 60.9一期法UnionDet [16]R50-FPN47.5 56.2IPNet [35]公司简介51.0-[42]第四十二话公司简介54.7-DIRV [6]高效Det-d356.1-HOITrans [44]R10152.9-AS-Net [3]R5053.9-HOTR [17]R5055.2 64.4QPIC [30]R5058.8 61.0我们R5066.2 68.5表1.V-COCO测试集的性能比较方法场景#1默认值(完整)我们66.231.75无编码器解缠65.530.79无注意力融合64.431.24w/o解码器解纠缠58.829.07表2. V-COCO测试集(场景#1)和HICO-DET测试集(默认,全套)上模型组件的消融研究骨干到10- 5。重量衰减设置为10−4。批量设置为16。对于V-COCO,我们冻结主干以避免过度拟合。对于HICO-DET,我们对整个模型进行端到端的微调。包括预热,HICO-DET和V-COCO用80个epoch训练,并且学习率在第65个epoch时下降10倍。我们的实验在8个Tesla V100 GPU上进行。4.3. 与最新技术水平的我们显示了我们的方法与以前的两阶段和一阶段的方法比较表。1和Tab。3 .第三章。我们的方法优于以前的作品在这两个基准。在V-COCO数据集上,与最先进的一步方法QPIC[30]相比,我们的性能优于它,但存在显著差距。与最先进的两阶段方法SCG [40]相比,我们的方法也产生了12.0%mAP的大性能差距。结果表明,无论是一步法还是两步法,本文方法都具有压倒性的优势。特别地,我们的方法在场景#1下以11.0%mAP和12.3%mAP大幅优于先前的并行分支HOI Transformer HOTR [17]和AS-Net [3]在HICO-DET数据集上,与最先进的一阶段方法相比,使用R50主干,我们的方法在默认全设置下比QPIC [30] 高 出 2.68%mAP , 比 AS-Net [3] 高 出2.88%mAP。值得注意的是,在Rare环境下,我们的方法达到了我们的方法也比最近最先进的两阶段方法SCG [38]的性能高出0.42%图。然而,两阶段流水线包括诸如NMS的启发式进程,并且不是端到端的。4.4. 消融研究w/o编码器解纠缠我们的模型采用解纠缠编码器,针对不同的解码子任务在三个级别上提取全局上下文。在我们的完整模型中,我们用同一层的单个编码器替换了去纠缠的编码器二、w/o attentional fusion我们的注意力融合模块提供两个任务解码器之间的通信。如Tab.所示。2、去除了注意力融合块后,在V-COCO和HICO-DET数据集上的性能分别下降了1.8%mAP和0.51%mAP。w/o解码器解纠缠我们的解纠缠解码器是我们框架中的关键。它预测交互式人-对象实例对,而不是像先前的并行分支变换器[3,17]中那样预测单个对象如果没有解码器解纠缠,我们的模型更像QPIC [30]。因此,我们比较了我们的和单分支Transformer的性能在Tab。二、我们可以观察到两个数据集的性能都显着下降。预热策略的效果由于我们的Transformer模型比原始DETR具有更多的参数,因此我们在训练期间采用预热策略。为了验证我们的预热策略的有效性,我们对预热策略进行了消融研究,如表1所示。六、我们注意到预热策略稍微提高了两个数据集的性能基础/头编码器/解码器的不同层我们进一步对基础编码器/解码器和解纠缠头编码器/解码器的不同Transformer层进行烧蚀研究4.第一章为了简化我们的模型和使用预训练的DETR参数,我们将基本层和头部层的总和保持为6,如在原始Transformer中一样。从前三行,我们可以观察到解码器基础层Lb=2和头层Lk=4是最佳比例,并且提供最佳的解码器性能。19574方法检测器骨干充分默认罕见非罕见充分已知对象罕见非罕见两阶段法[第28话]CocoR10113.119.3414.23---iCAN [8]CocoR5014.8410.4516.1516.2611.3317.73DCA [34]CocoR5016.2411.1617.7517.7312.7819.21[22]第二十二话CocoR5017.0313.4218.1119.1715.5120.26RPNN [43]CocoR5017.3512.7818.71---PMFNet [32]CocoR50-FPN17.4615.6518.0020.3417.4721.20FCMNet [26]CocoR5020.4117.3421.5622.0418.9723.12DJ-RN [19]CocoR5021.3418.5322.1823.6920.6424.60印尼[20]CocoR5023.3622.4723.6326.4325.0126.85VCL [13]HICO-DETR5023.6317.2125.5525.9819.1228.03DRG [7]HICO-DETR50-FPN24.5319.4726.0427.9823.1129.43印尼[20]HICO-DETR5024.5820.3325.8627.8923.6429.16SCG [40]HICO-DETR50-FPN31.3324.7233.3134.3727.1836.52一期法UnionDet [16]HICO-DETR50-FPN17.5811.7219.3319.7614.6821.27IPNet [35]CocoR50-FPN19.5612.7921.5822.0515.7723.92PPDM [23]HICO-DET公司简介21.9413.9724.3224.8117.0927.12DIRV [6]HICO-DET高效Det-d321.7816.3823.3925.5220.8426.92HOTR [17]HICO-DETR5025.1017.3427.42---HOITrans [44]HICO-DETR10126.6119.1528.8429.1320.9831.57AS-Net [3]HICO-DETR5028.8724.2530.2531.7427.0733.14QPIC [30]HICO-DETR5029.0721.8531.2331.6824.1433.93QPIC [30]HICO-DETR10129.9023.9231.6932.3826.0634.27我们HICO-DETR5031.7527.4533.0334.5030.1335.81表3.HICO-DET上的性能比较基地头场景 #1场景#21565.667.5解码器234366.264.768.566.55165.667.6编码器432366.265.168.567.1表4. VCOCO测试装置上基本编码器/解码器和分离头编码器/解码器方法VCOCOHico特征分解(建议)66.231.75查询分解64.931.09表5. V-COCO测试集(场景#1)和HICO-DET测试集(默认,完全设置)方法VCOCOHico无预热65.731.49带预热66.231.75表6.预热策略对V-COCO测试集(场景#1)和HICO-DET测试集(默认,完全设置)的影响性能,证明了统一代表的重要性。从下面的三行,我们可以看到,4-具有2层头的层基优于具有3层头的3层基,这意味着在基编码器中对共享全局上下文的建模也是重要的。不同的关联策略与先前的并行分支HOI Transformer[3,30]不同,实例解码器预测图像中的单个对象,我们的实例解码器直接估计一组交互式人-对象实例对。在我们的框架中,我们采用一个基本的解码器来生成一个统一的表示,以关联估计的人-对象实例对和交互。我们注意到可能有不同的联想策略。为了研究我们的粗到细的关联策略(称为特征分解)的有效性,我们用一组可学习的统一HOI查询替换统一表示,然后使用它们来生成两个具有MLP的查询,用于解开解码器(称为查询分解)。我们保持我们的解纠缠编码器和at-tentional融合块进行公平的比较。如Tab.所示5.在V-COCO和HICO-DET数据集上,性能分别下降了1.3%mAP和0.66%mAP,说明我们的关联策略是有效的。4.5. 模型复杂性分析由于我们的模型包括更多的编码器/解码器和融合块,读者可能会关心我们的复杂性。19575(a) 交互解码器手提板-飞机洗车工作机-笔记本扔飞盘(b) 实例解码器图4.交互解码器(顶行)和实例解码器(底行)中相同三元组预测的交叉注意力图的可视化。 左三个样品来自HICO-DET[2],其他样品来自V-COCO [11]。 在最上面一行,我们可以看到 我们的交互解码器关注人与物体的交互区域在最下面的一行中,我们可以看到我们的实例解码器关注对象的末端。模型关注的不同区域意味着交互和实例解码器确实捕获了图像的解纠缠表示。方法骨干AP参数(M)FLOPs(G)QPIC [30]R5058.841.6887.87QPIC [30]R10158.360.62156.18AS-Net [3]R5053.952.7588.86HOTR [17]R5055.251.4188.78HOITrans [44]R10152.960.62156我们R5066.257.3194.23表7.我们的和现有的最先进的HOI变压器之间的模型复杂性比较。模型因此,我们比较了我们的最终模型和以前的HOI变压器的参数和FLOPS。7 .第一次会议。与DETR [1]类似,我们使用Detectron 2 [36]中的工具触发计数运算符计算V-COCO测试集中前100个图像的我们观察到,我们的模型具有可比的参数和FLOPS与以前的HOI变换器相比。特别是,我们的模型仅引入了7%的额外的FLOPS相比,在R50下的单分支QPIC,证明了我们的解开的Transformer的效率和有效性。4.6. 定性分析如图4所示,我们可视化了实例解码器和帧间解码器中相同三元组预测的交叉注意力与DETR类似,站姿注意力图关注物体的末端。不同的注意力地图意味着我们的实例和交互解码器确实捕获了解纠缠的表征。5. 结论在本文中,我们提出了解开Transformer的HOI检测。我们的方法通过一个实例流和一个交互流将三元组预测扩展到人-对象对检测和交互分类中,其中编码器和解码器都被解开。为了关联两个任务解码器的预测,我们采用了一种从粗到精的策略,首先利用基本解码器生成统一的HOI表示,然后在解纠缠的实例和交互空间中进行特征我们进一步提出了一个注意力融合块,以帮助两个任务解码器相互通信。因此,我们的方法能够在V-COCO和HICO-DET基准测试中以相当大的幅度优于先前的HOI变压器和其他方法。任务解码器中的交叉注意力图的可视化也为解纠缠策略提供了很好的解释。潜在负面社会影响我们的算法对社会没有明显的威胁怎么-动作解码器顶行示出了交互解码器的注意力图,我们可以观察到注意力图突出了人-对象实例对之间的交互区域。在最下面一行,我们可以观察到-有人可能会恶意使用我们的方法,例如在军事用途中攻击人或利用监视入侵私人。因此,我们鼓励在采用我们的技术之前进行诚信考虑。19576引用[1] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中 , 第213Springer,2020年。一二三五八[2] Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Huayi Zeng,and Jia Deng.学习检测人机交互。2018年IEEE计算机视觉应用冬季会议(WACV),第381-389页IEEE,2018年。二、五、八[3] Mingfei Chen,Yue Liao,Si Liu,Zhiyuan Chen,FeiWang和Chen Qian。将hoi检测重构为自适应集合预测。在IEEE/CVF计算机视觉和模式识别会议论文集,第9004- 9013页,2021年。一二三四五六七八[4] 陈世哲、秦晋、彭王、齐武。如您所愿:使用抽象场景图对图像标题生成进行细粒度控制。在IEEE/CVF计算机视觉和模式识别会议论文集,第9962-9971页1[5] 段凯文,白松,谢灵犀,齐红刚,黄庆明,田奇.Centernet : 用 于 对 象 检 测 的 关 键 点 三 元 组 。 在IEEE/CVF国际计算机视觉会议论文集,第6569-6578页,2019年。2[6] 方浩树,谢一晨,邵典,陆策武。Dirv:用于端到端人机交互检测的密集交互区域投票arXiv预印本arXiv:2010.01005,2020。二六七[7] Chen Gao , Jiarui Xu , Yuliang Zou , and Jia-BinHuang.Drg:用于人机交互检测的对偶关系图。欧洲计算机视觉会议,第696- 712页。Springer,2020年。六、七[8] 高晨,邹玉良,黄家斌。ican:用于人-对象交互检测的以 实 例 为 中 心 的 注 意 网 络 arXiv 预 印 本 arXiv :1808.10437,2018。一、二、五、六、七[9] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。2[10] GeorgiaGkioxari , RossGirshick , PiotrDolla'r ,andKaimingHe.检测和识别人机交互。在IEEE计算机视觉和模式识别会议论文集,第8359-8367页一、二[11] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv:1505.04474,2015。一、二、五、八[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。4[13] 智厚、彭小江、虞乔、大成涛。用于人-物体交互检测的视觉合成学习欧洲计算机视觉会议,第584-600页Springer,2020年。一、二、六、七[14] 智厚,于宝生,乔玉,彭小江,陶大成。用于人机交互检测的示能迁移学习在IEEE/CVF会议上计算机视觉和模式识别,第495-504页,2021年。2[15] 智厚,于宝生,乔玉,彭小江,陶大成。通过fab-ricated组合学习检测人与物体的交互。在IEEE/CVF计算机视觉和模式识别会议论文集,第14646-14655页,2021年。一、二[16] Bumsoo Kim,Taeho Choi,Jaewoo Kang和Hyunwoo JKim。Uniondet:面向实时人机交互检测的联盟级检测器。欧洲计算机视觉会议,第498-514页Springer,2020年。二六七[17] Bumsoo Kim , Junhyun Lee , Jaewoo Kang , Eun-SolKim和Hyunwoo J Kim。Hotr:使用变压器的端到端人机交互检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第74-83页,2021年。一、二、四、六、七、八[18] Dong-Jin Kim,Xiao Sun,Jinsoo Choi,Stephen Lin,and In So Kweon.利用动作共现先验检测人-对象交互。在欧洲计算机视觉会议上,第718-736页Springer,2020年。6[19] Yong-Lu Li,Xinpeng Liu,Han Lu,Shiyi Wang,JunqiLiu,Jiefeng Li,and Cewu Lu.人与物体交互的详细2d-3d联合表示。在IEEE/CVF计算机视觉和模式识别会议论文集,第10166-10175页,2020年。7[20] Yong-Lu Li,Xinpeng Liu,Xiaoqian Wu,Yizhuo Li,and Cewu Lu. Hoi分析:整合和分解人-物交互。神经信息处理系统的进展,33:5011-5022,2020。二六七[21] Yong-Lu Li,Liang Xu,Xinpeng Liu,Xijie Huang,Yue Xu , Shiyi Wang , Hao-Shu Fang , Ze Ma ,Mingyang Chen,and Cewu Lu. Pastanet:Toward HumanActivity Knowledge Engine.在IEEE/CVF计算机视觉和模式识别集,第3822[22] Yong-Lu Li,Siyuan Zhou,Xijie Huang,Liang Xu,ZeMa,Hao-Shu Fang,Yifeng Wang,and Cewu Lu.用于人-物体交互检测的可转移交互性知识 IEEE/CVF会议论文集计算机视觉和模式识别,第3585- 3594页,2019年。二六七[23] 廖跃,刘思,王飞,陈艳杰,陈倩,冯季石.并行点检测和匹配,用于实时人机交互检测。在IEEE/CVF计算机视觉和模式识别会议上,第482-490页,2020年。二、七[24] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco:上下文中的公共对象。欧洲计算机视觉会议,第740Springer,2014. 5
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功