多尺度Transformer用于人-物体交互检测

124 浏览量更新于2023-10-25 收藏 17.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

195780MSTR：用于端到端人-物体交互检测的多尺度Transformer0Bumsoo Kim *LG AI Research0bumsoo.kim@lgresearch.ai0韩国Kakao Brain公司的JonghwanMun、Kyoung-Woon On和Minchul Shin0韩国高丽大学李俊贤金恩素0计算机科学系0韩国汉阳大学0摘要0人-物体交互（HOI）检测是从图像中识别一组�人，物体，交互�三元组的任务。最近的工作通过端到端训练提出了基于transformer编码器-解码器架构的方法，成功地消除了HOI检测中许多手动设计的组件的需求。然而，它们仅限于单尺度特征分辨率，在包含具有不同尺度和距离的人、物体及其交互的场景中性能不佳。为了解决这个问题，我们提出了一种用于HOI检测的多尺度transformer（MSTR），它由两个名为Dual-Entity attention和Entity-conditioned Contextattention的新型HOI感知可变形注意力模块驱动。虽然现有的可变形注意力在HOI检测性能方面代价很大，但我们提出的MSTR的注意力模块学会了有效地关注对于识别交互至关重要的采样点。在实验中，我们在两个HOI检测基准上实现了新的最先进性能。01. 引言0人-物体交互（HOI）检测是一项任务，用于预测图像中一组�人，物体，交互�三元组[9]。先前的方法通过检测人和物体实例并单独推断每对检测到的实例的交互标签来间接解决这个任务，可以使用神经网络（即两阶段HOI检测器[1, 6-8, 10,16, 18, 19, 21-24, 26, 28-30, 32, 33,35]）或三元组匹配（即一阶段HOI检测器[12, 20,31]）。这种间接推断结构和后处理（例如NMS阶段）带来的额外复杂性导致了性能的下降。0* 本工作在Kakao Brain完成0图1.MSTR对包括：（a）大人和小物体的交互，（b）远距离人和物体的交互，以及（c）小人和大物体的交互的多尺度注意力。顶部行（高分辨率）和底部行（低分辨率）捕捉了不同尺度交互的上下文。最好以彩色查看。0NMS）阶段在HOI检测的推理时间中成为一个主要瓶颈。为了解决这个瓶颈，提出了基于transformer的HOI检测器[4,13, 25,37]，实现了无需上述后处理阶段的端到端HOI检测。这些工作通过直接进行集合级别预测和可以利用人、物体及其交互之间的上下文信息的transformer注意力，展现了在准确性和推理时间方面具有竞争力的性能。0然而，由于使用transformer注意力处理多尺度特征图时产生的巨大计算成本（图像令牌数量约为20倍），当前基于transformer的HOI检测器仅限于使用单尺度特征图。由于这个限制，先前的基于transformer的方法在每对检测到的实例上间接地推断出交互标签，要么使用神经网络（即两阶段HOI检测器）[1, 6-8, 10, 16, 18, 19, 21-24, 26, 28-30, 32, 33,35]，要么使用三元组匹配（即一阶段HOI检测器）[12, 20,31]。这种间接推断结构和后处理（例如NMS阶段）带来的额外复杂性导致了性能的下降。f sgq=Wm�195790尤其是对于包含人、物体及其交互的场景，这种性能表现尤为不佳。在本文中，我们提出了一种基于transformer的多尺度HOI检测器MSTR，它可以利用多尺度特征图进行HOI检测。受先前提出的用于标准目标检测的可变形注意力的启发[36]，我们旨在通过仅关注由查询元素生成的少量采样点来高效地探索多尺度特征图，而不是计算整个空间维度的注意力值。然而，在我们的初步实验中发现，直接应用简单的可变形注意力在HOI检测中会导致严重的性能下降。为了克服这一问题，我们为MSTR配备了两种新型的HOI感知可变形注意力，分别称为Dual-EntityAttention和Entity-conditioned ContextAttention，它们旨在捕捉多分辨率特征图上的复杂人-物体交互语义（见图1）。具体而言，Dual-Entityattention捕捉到人和物体的精确实体级语义，而Entity-conditioned Contextattention则有条件地补偿交互的上下文信息。为了进一步提高性能，我们深入研究了可以有效处理从上述两种HOI感知注意力获得的多个语义的解码器架构。我们的工作的主要贡献有三个方面：0• 我们提出 MSTR，第一个利用多尺度视觉特征图的基于Transformer 的 HOI 检测器。0•我们提出了新的可变形注意力模块，称为双实体注意力和实体条件上下文注意力，有效且高效地捕捉与 HOI查询相关的人、物体和上下文信息。0•我们探索解码器架构，以处理我们提出的可变形注意力捕捉到的多个语义，并进一步提高 HOI 检测性能。02. 初步0在本节中，我们从基于 Transformer 的端到端 HOI 检测器[25]的基本流程开始。然后，我们介绍减少注意力计算成本的可变形注意力模块 [36]，从而使 Transformer能够以多尺度特征图作为输入。然后，我们讨论直接应用多尺度可变形注意力对 HOI 检测不合适的原因。02.1. 基于 Transformer 的端到端 HOI 检测0在使用 Transformer 进行 HOI 检测的多个候选模型 [4, 13,25, 37] 中，我们选择 QPIC [25]作为基线，因为它具有简单的结构和良好的性能。0集合预测。基于 Transformer 的 HOI检测器将任务定义为集合级别的预测问题。它通过利用固定数量的 HOI查询来实现，每个查询生成四种类型的预测：1）人边界框的坐标（即交互的主体），2）物体边界框的坐标（即交互的目标），3）物体类别和4）交互类型。注意，集合级别的预测是使用基于匈牙利匹配和与真值的损失函数进行学习的。0Transformer 编码器-解码器架构。QPIC [25]的架构包括骨干 CNN、Transformer 编码器和Transformer 解码器。给定一张图像，骨干 CNN提取出单尺度的视觉特征图，然后将位置信息添加到特征图中。Transformer编码器接收视觉特征并返回具有自注意力层的上下文化视觉特征。在 Transformer 解码器中，HOI查询首先经过自注意力层处理，然后交叉注意力层将 HOI查询与上下文化视觉特征（由编码器给出）关联起来，以捕捉相关的 HOI 表示。最后，根据各个上下文化的 HOI查询嵌入计算 HOI的预测，如上所述。注意，自注意力和交叉注意力都采用多头注意力。具体而言，给定单尺度输入特征图 x ∈ R C × H× W，其中 C 是特征维度，第 q 个查询特征 zq（对于编码器是图像标记，对于解码器是 HOI查询）的单尺度多头注意力 f sg q = SSAttn(z q, x)计算如下0M0k ∈ Ω k A mqk ∙ W ′ m xk，（1）0可学习的权重 U m，V m ∈ R C v × C，如 exp � z T q U Tm V m x k √ C v �。在本文中，对于注意力模块，我们让 m索引注意力头（1 ≤ m ≤ M），q ∈ Ω q 索引具有特征 z q的查询元素，k ∈ Ω k 索引具有特征 z k 的键元素，而 Ω q和 Ω k 分别指定查询和键元素的集合。W m 和 W ′ m 是第m 个注意力头的可学习嵌入参数，A mqk 规范化为0复杂性。给定输入特征图 x ∈ R C × H × W0和 N 个 HOI 查询，Transformer 编码器和解码器的复杂性分别为O(H^2W^2C) 和 O(HWC^2 +195800NHWC + 2NC2 + N2C）和O(NHWC + 2NC2 +N2C)，其中O(NHWC + 2NC2 +N2C)分别表示计算注意力权重和计算注意力输出的时间复杂度。由于复杂度随着空间分辨率（H，W）的增加而呈二次增长，当利用多分辨率特征图进行计算时，会产生显著的复杂度问题，因为要处理的特征数量约为单一分辨率特征图的20倍。0面向多尺度HOI检测。在HOI检测中，不仅人和物体存在于各种尺度上，而且它们在图像中的相互作用也存在各种距离。因此，利用多尺度特征图{x}Ll=1（其中xl∈RC×Hl×Wl，l索引特征层）来处理各种尺度的物体和上下文，以精确捕捉交互是至关重要的。然而，由于多尺度特征图的元素数量几乎是单一尺度特征图的20倍，计算公式（1）会引发严重的复杂度问题。02.2. 重新审视可变形transformers0可变形注意力模块被提出来解决transformer注意力中的高复杂度问题。其核心思想是通过对每个查询元素采样与感兴趣区域相关的少量空间位置，从而减少注意力模块中关键元素的数量。0可变形注意力的采样位置。给定一个多尺度输入特征图{xl}Ll=1，其中xl∈RC×Hl×Wl，每个注意力头和每个特征层的K个感兴趣的采样位置是从每个查询元素zq∈RC生成的。由于直接预测采样位置的坐标很难学习，因此它被公式化为预测一个参考点rq∈[0,1]2。0和K个采样偏移量∆rq∈RM×L×K×2。然后，通过双线性插值获得采样位置Φmlqk=xl(pmlqk)=xl(ϕl(rq)+∆0第l个特征层中第m个注意力头的第k个查询元素的采样位置由pmlqk=ϕl(rq)+∆rmlqk定义，其中ϕl(∙)是将参考点的坐标重新缩放到第l个级别的输入特征图的函数。0可变形注意力模块。给定一个多尺度输入特征图{xl}Ll=1，对于查询元素zq，使用一组预测的采样位置pq计算多尺度可变形注意力fmsq=MSDeformAttn(zq,pq,{xl}Ll=1)，计算过程如下：0fmsq=0m=1Wm×L×0l=10k=1 Amlqk ∙ W′mΦmlqk，(2)0其中，l、k和m分别表示输入特征层、采样位置和注意力头，而Amlqk表示第l个特征层中第k个采样位置和第m个注意力头的注意力权重。Φmlqk表示第l个特征层中第k个采样位置的采样到的第k个关键元素。0通过双线性插值获得采样位置Φmlqk=xl(pmlqk)=xl(ϕl(rq)+∆rmlqk)，计算第m个注意力头。注意，对于每个查询元素，注意力计算仅在采样的感兴趣区域内进行，采样数量（=LMK）远小于所有关键元素的数量（∑Ll=1HlWl），因此降低了计算成本。0直接应用于HOI检测存在问题。可变形注意力有效地降低了使用transformers来利用多尺度特征的复杂性，使其达到可接受的水平。然而，尽管上述采样过程不会降低标准物体检测的性能，但在HOI检测中却导致性能严重下降（从29.07降至25.53），如表3所示。我们推测这部分原因是由于以下几个原因造成的。首先，与物体检测任务不同，物体查询与单个物体相关联，而HOI查询与多个语义（即人、物体及其交互）纠缠在一起；因此，学习为多个语义与单个HOI查询（尤其是稀疏信息）采样感兴趣区域要比物体检测的对应任务更具挑战性。其次，可变形注意力被学习为仅关注局部化对象附近的采样点；这导致了上下文信息的丢失，而上下文信息是精确的HOI检测的重要线索。下面的章节将描述我们如何解决这些问题并提高性能。03. 方法0在本节中，我们介绍一种新的适用于多尺度HOI检测的可变形变压器架构MSTR。为了解决我们初步描述的问题，MSTR提供了专为HOI检测设计的新的HOI感知可变形注意力，即双实体注意力和实体条件上下文注意力。03.1. HOI感知可变形注意力0我们的HOI感知可变形注意力（双实体注意力和实体条件上下文注意力）的目标是从多尺度特征图中高效有效地提取给定HOI查询的HOI信息。图2显示了（a）文献中的可变形注意力，（b）双实体注意力和（c）实体条件上下文注意力的概念示意图。0人/物体的双实体注意力。在HOI检测中，HOI查询包含多个语义的复杂和纠缠信息：人类、物体和交互信息。因此，从单个HOI查询准确预测适合每个语义的采样位置是具有挑战性的。为了使采样位置更容易，给定一个HOI查询特征z_q，我们的双实体注意力分别识别人类（p_h_q）和物体（p_o_q）的采样位置。首先，我们使用两个线性层对z_q进行投影，得到z_h_q和z_o_q。人类和物体的第k个采样位置在第l个特征层和第m个注意力头中表示为：(3)(4)Entity-conditioned Context attention.In HOI detec-tion, contextual information often gives an important clue inidentifying interactions. From this point of view, utilizingthe local features obtained from near the human and objectregions through the Dual-Entity attention is not sufficient tocapture contextual information (see our experimental resultin Table 3). To compensate for this, we define an attentionwith an additional set of sampling points, namely Entity-conditioned Context attention, that is designed to capturethe contextual information in specific.Given the 2D reference points for the human hq =(hqx, hqy) and the object oq = (oqx, oqy), the referencepoint for Entity-conditioned Context attention is condition-ally computed with the two references. Motivated by ex-isting works [20, 31, 34], we define the reference pointsf cq = MSDeformAttn(zq, pcq, {xl}Ll=1).(5)195810图2.（a）可变形注意力，（b）双实体注意力，（c）实体条件上下文注意力（缩写为EC）的示意图。可变形注意力的采样点是通过将参考点与采样偏移量相结合获得的。在（a）中，参考点r_q = (r_qx, r_qy)和采样偏移量∆r_q = (∆r_qx,∆r_qy)都是从单个HOI查询特征z_q获得的。在（b）中，人类h_q = (h_qx, h_qy)和物体o_q = (o_qx, o_qy)的参考点和采样偏移量∆h_q =(∆h_qx, ∆h_qy)和∆o_q = (∆o_qx,∆o_qy)分别是从z_h_q和z_o_q获得的，而z_h_q和z_o_q是通过z_q（虚线）的线性投影获得的。在（c）中，采样偏移量∆c_q = (∆c_qx,∆c_qy)是从z_q获得的，而参考点是在（b）中根据实体条件获得的。0p_o_mlqk = ϕ_l(o_q) + ∆o_mlqk,0p_h_mlqk = ϕ_l(h_q) + ∆h_mlqk,0f_h_q = MSDeformAttn(z_h_q, p_h_q,{x_l}L_l=1),0其中h_q, ∆h是人类的参考点和采样偏移量，o_q,∆o是物体的参考点和采样偏移量，分别通过线性投影z_h_q和z_o_q获得。然后，基于采样位置，计算人类（f_h_q）和物体（f_o_q）的关注特征：0f_o_q = MSDeformAttn(z_o_q, p_o_q,{x_l}L_l=1).02.注意，我们经验性地观察到，与使用额外的网络预测的参考点相比，这种简单的参考点在性能上具有竞争力，同时速度更快。然后，我们从HOI查询特征中预测采样偏移量∆c_q，得到p_c_mlqk = ϕ_l(c_q) +∆c_mlqk。最后，使用采样位置p_c_q计算上下文信息的关注特征f_c_q如下：03.2.MSTR架构0在本节中，将描述具有我们建议的两个变形注意力的MSTR的整体架构（见图3）。MSTR遵循先前的Transformer编码器-解码器架构，其中编码器对图像特征执行自注意力，而解码器对HOI查询执行自注意力，然后在更新的HOI查询和编码的图像特征之间执行交叉注意力。0编码器。MSTR的编码器采用由骨干CNN给出的多尺度输入特征图，执行一系列变形注意力模块（公式2），最后生成编码的特征图。添加位置编码[2]以保留空间信息，同时嵌入级别。¯zk+1q= SA(f hq (k)) + SA(f oq (k)) + SA(f cq(k)),(6)(uqx, uqy, uqw, uqh) = FFNhbox(f hq ),(7)(vqx, vqy, vqw, vqh) = FFNobox(f oq ),(8)clsq = σ(FFNcls(f oq )),(9)actq = σ(FFNact(f cq)),(10)195820图3.MSTR的整体流程。在用于HOI检测的标准Transformer编码器-解码器架构（即QPIC）之上，我们利用变形采样来处理使用多尺度特征图引起的巨大复杂性，对于解码器的交叉注意力，我们利用三组为我们的双实体注意力（表示为DE采样，DE注意力）和实体条件的上下文注意力（表示为EC采样，EC注意力）采样的关键元素。0图4.基于Transformer的HOI检测器简单的2层解码器架构的比较：(a)QPIC中引入的传统架构，(b)MSTR中的HOI感知架构。实体条件的上下文注意力缩写为上下文注意力。MSTR通过合并自注意力输出来堆叠解码器层，进一步提高性能（见表3）。0添加[36]以表示图像特征来自哪个分辨率。0解码器。通过利用我们的HOI感知变形注意力，MSTR解码器中的交叉注意力层从编码的图像特征中为每个HOI查询提取三种不同的语义（人体、物体和上下文信息）。对于每个解码器层，我们发现通过将先前交叉注意力层[5]获得的多个语义进行求和来构成多个语义可以进一步提高性能。0应用单独的自注意力表现出最佳性能（见表3和附录）。我们HOI感知的变形注意力¯ z k +1q的第(k+1)层的输入表示为：0其中f h q ( k )，f o q ( k )，f c q ( k)分别表示先前(k-1)解码器的多个语义输出，由公式(4)和公式(5)获得。SA表示具有公式(1)的多头自注意力操作[27]，¯z 1 q = SA ( z q ) + SA ( z h q ) + SA ( z o q )。0MSTR推理。给定最终解码器层的交叉注意力结果，其中f hq和f o q由公式(4)获得，f cq由公式(5)获得，MSTR中的最终预测头部使用FFN预测�bbox h q，bbox o q，cls o q，act q�如下：0其中cls q和actq分别表示经过sigmoid函数后的对象类和动作类的预测，最终bbox h q的预测中心点为� σ ( u qx + σ − 1 ( h qx )) ,σ ( u qy + σ − 1 ( h qy )) �，宽度u qw，高度uqh。同样，bbox o q的预测中心点为� σ ( v qx + σ − 1 (o qx )) , σ ( v qy + σ − 1 ( o qy )) �，宽度v qw，高度vqh。σ和σ−1分别表示sigmoid和反sigmoid函数，用于归一化参考点h q，o q和人体框和物体框的预测坐标u q {x,y,w,h }，v q { x,y,w,h } ∈ R。1958304.实验0在本节中，我们展示了我们的模型在HOI检测中的实验结果。我们首先描述了实验设置，如数据集和评估指标。接下来，我们将MSTR与两个不同基准（V-COCO和HICO-DET）上的最新工作进行比较，并为每个组件提供了详细的消融研究。通过实验证明，MSTR成功地将传统的基于Transformer的HOI检测器扩展到利用多尺度特征图，并强调MSTR的每个组件对最终的HOI检测性能的贡献。最后，我们提供了MSTR的广泛定性结果。04.1.数据集和指标0我们在两个广泛使用的公共基准上评估我们的模型：V-COCO（COCO中的动词）[9]和HICO-DET[3]数据集。V-COCO是COCO的一个子集，由5,400个trainval图像和4,946个测试图像组成。对于V-COCO数据集，我们报告了两种情况下25个交互作用的AP角色。HICO-DET包含37,536个训练图像和9,515个测试图像，每个图像都有600个�动词，对象�交互类型的注释。我们遵循先前的设置，并报告两个评估设置（默认和已知对象）下的mAP，每个设置都有三个不同的类别集：（1）HICO中的所有600个HOI类别（完整），（2）少于10个训练实例的138个HOI类别（罕见），（3）10个或更多训练实例的462个HOI类别（非罕见）。有关评估设置的详细信息，请参见附录。04.2.定量结果0我们使用标准的评估代码1，按照先前的工作[4，13，25，37]，计算V-COCO和HICO-DET的度量分数。0与最新技术的比较。我们在表1和表2中与最新技术方法进行比较。在表1中，MSTR在V-COCO数据集上的性能大幅超过了先前的最新方法（AP #1角色增加了3.2个百分点，AP#2角色增加了4.2个百分点）。与此类似，在表2中，MSTR在HICO-DET数据集上获得了最高的mAP，在所有完整、罕见和非罕见类别中分别获得了+2.1个百分点、+3.46个百分点和+1.69个百分点的增益，相对于先前的最新技术。我们使用与QPIC相同的评分函数进行公平比较，没有进行任何修改。请注意，MSTR受益于使用可变形注意力的优势：训练的快速收敛[36]（请参阅附录中的更多细节和收敛图）。01 https://github.com/YueLiao/PPDM0方法骨干AP #1角色AP #2角色0具有外部特征的模型TIN（RP D C D）[19] R50 47.8 -动词嵌入[32] R50 45.9 - RPNN [35] R50 - 47.5 PMFNet[28] R50-FPN 52.0 - PastaNet [18] R50-FPN 51.0 57.5PD-Net [33] R50 52.0 - ACP [14] R152 53.0 - FCMNet[21] R50 53.1 - ConsNet [22] R50-FPN 53.2 -0顺序HOI检测器VSRL [9] R50-FPN 31.8 - InteractNet [8]R50-FPN 40.0 48.0 BAR-CNN [15] R50-FPN 43.6 - GPNN[24] R152 44.0 - iCAN [7] R50 45.3 52.4 TIN（RC D）[19]R50 43.2 - DCA [30] R50 47.3 - VCL [11] R50-FPN 48.3 -DRG [6] R50-FPN 51.0 - VSGNet [26] R152 51.8 57.0 IDN[17] R50 53.3 60.30并行HOI检测器UnionDet [12] R50-FPN 47.5 56.2 IPNet[31] HG104 51.0 - HOI Transformer [37] † R101 52.9 -ASNet [4] † R50 53.9 - GGNet [34] HG104 54.7 - HOTR[13] † R50 55.2 64.4 QPIC [25] † R50 58.8 61.00MSTR（我们的方法）R50 62.0 65.20表1.在V-COCO测试集上的性能比较。AP #1角色，AP#2角色分别表示V-COCO中情景1和情景2的性能。†表示具有Transformer的端到端HOI检测器，这是我们工作的主要基线。04.3.消融研究0我们进行了消融实验，检查了我们提出的双实体注意力、实体条件上下文注意力以及将多个语义的自注意力合并的解码器架构的效果。0基线。在QPIC[25]结构的基础上，我们通过应用MSTR的不同子组件的不同组合来定义几个基线的变体：多尺度特征图（MS），可变形注意力（DA），双实体注意力（DE）和实体条件化上下文注意力（EC）。具体而言，由于可变形注意力也可以应用于单尺度特征图，SS-Baseline表示在变压器中的注意力被DA替换的QPIC。我们的工作可以看作是一个逐步改进得分的过程。(a) QPIC29.07(b) SS-Baseline✓25.53(c) SS-Baseline + DE✓✓27.06(d) SS-Baseline + DE + EC✓✓✓27.70(e) MS-Baseline✓✓27.52(f) MS-Baseline + DE✓✓✓28.30(g) MS-Baseline + DE + EC✓✓✓✓30.14(h) MSTR (Ours)✓✓✓✓31.17itsod-ps,ten-195840默认已知对象0方法检测器骨干特征全部罕见非罕见全部罕见非罕见0顺序HOI检测器Functional Gen. [1] HICO-DET R101 A+S+L 21.96 16.43 23.62 - - - TIN [19] HICO-DET R50 A+S+P22.90 14.97 25.26 - - - VCL [11] HICO-DET R50 A+S 23.63 17.21 25.55 25.98 19.12 28.03 ConsNet [22] HICO-DETR50-FPN A+S+L 24.39 17.10 26.56 30.34 23.40 32.41 DRG [6] HICO-DET R50-FPN A+S 24.53 19.47 26.04 27.9823.11 29.43 IDN [17] HICO-DET R50 A+S 24.58 20.33 25.86 27.89 23.64 29.160并行HOI检测器UnionDet [12] HICO-DET R50-FPN A 17.58 11.72 19.33 19.76 14.68 21.27 PPDM [20] HICO-DETHG104 A 21.10 14.46 23.09 24.81 17.09 27.12 HOI Transformer [37] † HICO-DET R50 A 23.46 16.91 25.41 26.1519.24 28.22 HOTR [13] † HICO-DET R50 A 25.10 17.34 27.42 - - - GGNet [34] HICO-DET HG104 A 28.83 22.13 30.8427.36 20.23 29.48 AS-Net [4] † HICO-DET R50 A 28.87 24.25 30.25 31.74 27.07 33.14 QPIC [25] † HICO-DET R50 A29.07 21.85 31.23 31.68 24.14 33.930MSTR（我们的方法）HICO-DET R50 A 31.17 25.31 32.92 34.02 28.83 35.570表2.HICO-DET的性能比较。检测器列标记为“HICO-DET”，表示对象检测器在HICO-DET训练集上进行了微调。特征列中的每个字母代表A:外观（视觉特征），S:交互模式（空间相关性），P:姿势估计，L:语言先验，V:体积。†表示具有变压器的端到端HOI检测器。请注意，所有没有†的基线模型已经基于多尺度特征图。0方法 MS DA DE EC mAP0表3.HICO-DET测试集中MSTR与我们的基线QPIC及其变体的比较。SS和MS分别表示使用单尺度特征图和多尺度特征图的模型。DE和EC分别表示我们提出的双实体注意力和实体条件化上下文注意力。0通过逐步将MS、DE、EC适应到SS-Baseline，将其与自注意力合并的MSTR的性能优于最先进。MS-Baseline+DE+EC表示MSTR，而不是与自注意力合并，而是简单地将输出的总和传递给下一个解码器层。0HOI感知可变形注意力。在表3中，我们探索了我们提出的HOI感知可变形注意力的效果：双实体注意力和实体条件化上下文注意力。由于可变形注意力也可以应用于单尺度特征图，我们验证了我们提出的可变形注意力在单尺度和多尺度基线上的有效性。正如我们在初步中所描述的，对于“na¨ıve”实现的可变形注意力，我们在上面描述的基线模型上进行了改进。0在QPIC的基础上（对于单尺度），在单尺度和多尺度环境中显著降低了得分（参见（a vs. b）和（a vs.e））。双实体注意力（DE）的使用在单尺度（b vs.c）和多尺度环境（e vs.f）中都能够持续提高得分。此外，当与DE一起使用时，实体条件化上下文注意力（EC）在多尺度环境中起到了作用（SS中增加了0.64p，MS中增加了1.84p）。因此，我们得出结论，将引用（DE）和有条件地补偿上下文信息（EC）逐渐贡献于单尺度和多尺度环境中HOI检测的最终性能，使MSTR能够有效地探索多尺度特征图以实现最先进的性能。0单尺度 vs.多尺度。在表1和表2中，我们证明了我们使用多尺度特征图的方法优于所有先前的方法，包括基于transformer的方法[4, 13, 25, 37]以及已经大量使用多尺度特征图的方法[6, 11,12, 17, 22,34]。为了进一步分析，表3比较了我们基线方法的单尺度版本和多尺度版本（见(b-e)和(e-h)）。在将单尺度特征图转换为多尺度特征图的所有情况下，我们观察到一致的性能提升（见(b vs. e)，(c vs. f)，以及(d vs.g,h)）。当同时使用DE和EC时，性能提升最大。我们在附录中进一步详细分析了MSTR在多尺度环境中的有效性。195850图5.在不同级别的特征图上可视化我们的实体条件上下文注意力（1表示最高分辨率，4表示最低分辨率）。最佳观看颜色和比例。0图6. MSTR对不同尺度的人物和物体的HOI感知注意力的可视化。0解码器架构。我们在表3中验证了图4(b)架构的有效性（gvs.h）。由于MSTR考虑了两个建议的可变形模块的多个语义，因此找到适合的解码器架构来有效地合并这些语义非常重要[5]。根据合并三种语义的可能组合方式，各种类型的解码器架构可以成为解码器架构的候选（在附录中描述）。在我们的附录中，我们经验证明图4(b)架构在所有数据集上显示出最强大和最稳健的性能。04.4. 定性结果0我们对MSTR进行定性分析，观察MSTR如何捕捉交互。图1和图5展示了MSTR在不同特征层次上的注意力图的可视化。有趣的是，我们可以观察到0在更高分辨率的特征图中，采样点捕捉到交互人物和物体的细节，而较低分辨率的特征图倾向于捕捉交互的整体姿势或上下文。在图1和图6中，我们可以观察到MSTR如何关注包含不同尺度的人物、目标物体和距离的测试图像。更多细节以及定量结果将在附录中提供。05. 相关工作0基于Transformer的HOI检测器。人-物交互检测最初在[9]中提出，并分为两个主要流派：顺序方法[1, 6-8, 10, 16,18, 19, 21-24, 26, 28-30, 32, 33, 35]和并行方法[12, 20,31]。然而，由于这些方法需要手工后处理，因此提出了使用transformer的HOI检测器，通过端到端的预测方法消除了后处理步骤[4, 13, 25,37]。然而，由于使用transformer注意力处理多尺度特征图时引起的复杂性，所有这些方法都局限于单尺度特征图。0用于目标检测的可变形Transformer。DETR是最近提出的用于消除目标检测中许多手工设计组件的方法[2]。可变形DETR[36]缓解了DETR的收敛速度慢和复杂度高的问题，并成功地利用了多分辨率特征图。[36]中的可变形注意力模块将一小组采样位置作为预过滤器，从所有特征图像素中选择出突出的关键元素。然而，与目标检测不同，我们观察到这种预过滤器在应用于HOI检测时严重降低了性能。因此，在本文中，我们专注于寻找一种合适的方法，将可变形注意力纳入HOI检测中，以利用多尺度特征图。06. 结论0在本文中，我们提出了MSTR，是基于transformer的HOI检测器中的第一个多尺度方法。MSTR通过名为Dual-Entityattention和Entity-conditioned Contextattention的新型HOI-AwareDeformable注意力来克服将基于transformer的HOI检测器扩展到多尺度特征图的问题。凭借这两个注意力模块和我们的解码器架构，能够有效地从每个注意力中收集多个语义，MSTR在HOI检测的两个基准数据集中实现了最先进的性能。0致谢。本工作部分得到了IITP资助（2020-0-01373）和汉阳大学（HY-202100000003160）的支持。195860参考文献0[1] Ankan Bansal，Sai Saketh Rambhatla，AbhinavShrivastava，RamaChellappa。通过功能泛化检测人-物交互。在AAAI中，第10460-10469页，2020年。1，7，80[2] Nicolas Carion，Francisco Massa，GabrielSynnaeve，Nicolas Usunier，Alexander Kirillov，SergeyZagoruyko。使用transformers进行端到端的目标检测。arXiv预印本arXiv:2005.12872，2020年。4，80[3] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，HuayiZeng，邓佳。学习检测人-物交互。在2018年IEEE冬季计算机视觉应用会议（WACV）中，第381-389页。IEEE，2018年。60[4] Mingfei Chen，Yue Liao，Si Liu，Zhiyuan Chen，FeiWang，ChenQian。将HOI检测重构为自适应集合预测。在IEEE/CVF计算机视觉与模式识别会议论文集中，第9004-9013页，2021年。1，2，6，7，80[5]董琦，涂卓文，廖浩夫，张玉婷，维杰∙马哈德万，斯特凡诺∙索托。使用部分和求和transformers和复合查询进行视觉关系检测。在IEEE/CVF国际计算机视觉会议论文集中，第3550-3559页，2021年。5，80[6] 高晨，徐佳瑞，邹宇亮，黄嘉斌。DRG:用于人-物交互检测的双重关系图。在欧洲计算机视觉会议上，第696-712页。Springer，2020年。1，6，7，80[7] 高晨，邹宇亮，黄嘉斌。ican:用于人-物交互检测的实例中心注意力网络。arXiv预印本arXiv:1808.10437，2018年。1，6，80[8] Georgia Gkioxari，Ross Girshick，Piotr Doll´ar，KaimingHe。检测和识别人-物交互。在IEEE计算机视觉与模式识别会议论文集中，第8359-8367页，2018年。1，6，80[9] Jitendra Gupta，SaurabhMalik。视觉语义角色标注。arXiv预印本arXiv:1505.04474，2015年。1，6，80[10] Tanmay Gupta，Alexander Schwing，DerekHoiem。简单的人-物交互检测

下载后可阅读完整内容，剩余1页未读，立即下载