基于变压器的人-物交互检测蒸馏模型的高效性与准确性

144 浏览量更新于2023-10-25 收藏 12.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

195580使用Oracle查询的基于变压器的人-物交互检测蒸馏0Xian Qu 1 Changxing Ding 1, 2 * Xingao Li 1 Xubin Zhong 1 Dacheng Tao 301 华南理工大学 2 广州琶洲实验室 3 悉尼大学0eequxian.scut@mail.scut.edu.cn, chxding@scut.edu.cn0{eexingao,eexubin}@mail.scut.edu.cn, dacheng.tao@gmail.com0摘要0基于变压器的方法在人-物交互（HOI）检测领域取得了巨大成功。然而，这些模型倾向于采用语义模糊的查询，这降低了变压器的表示学习能力。此外，现有数据集中大多数图像的标记人-物对数量非常有限，这限制了变压器的集合预测能力。为了解决第一个问题，我们提出了一种高效的知识蒸馏模型，名为使用Oracle查询的蒸馏（DOQ），它共享教师和学生网络之间的参数。教师网络采用语义清晰的oracle查询，并生成高质量的解码器嵌入。通过模仿教师网络的注意力图和解码器嵌入，学生网络的表示学习能力得到了显著提升。为了解决第二个问题，我们引入了一种高效的数据增强方法，名为上下文一致拼接（CCS），它在线生成复杂的图像。每个新图像是通过将从多个训练图像中裁剪的标记的人-物对拼接在一起而获得的。通过选择具有相似上下文的源图像，新合成的图像变得视觉上逼真。我们的方法显著提升了基于变压器的HOI检测模型的准确性和训练效率。实验结果表明，我们提出的方法在三个基准测试中始终优于现有方法：HICO-DET，HOI-A和V-COCO。代码可在https://github.com/SherlockHolmes221/DOQ获得。1.引言人-物交互（HOI）检测旨在识别图像中一组有意义的�人，交互，物体�三元组。HOI对于场景和动作理解至关重要，应用包括动作预测[1, 2]，场景图生成[3,4]和视觉问题回答[5,6]。这也是一个非常具有挑战性的任务。这种困难程度的一个原因是该任务是复合的：对于每个三元组，需要确定涉及的人和物体实例的位置、物体类别以及人-物对之间的交互。另一个主要原因在于HOI依赖于推理，这表明视觉上下文在确定交互类别方面很重要[23]。鉴于其利用上下文线索的强大能力，最近的方法已将变压器应用于HOI检测。例如，QPIC [23]和HOI-Trans[25]定义了一组可学习的HOI查询，每个查询表示图像中可能的人-物对。AS-Net [24]和HOTR[26]分别定义了一组可学习的物体和交互查询，以推断物体和交互类别。它们的共同之处在于利用交叉注意力机制来挖掘图像范围的上下文信息，以改善HOI检测。然而，现有基于法的表示学习能力和集合预测能力可能个问题在于0*通讯作者。0图1. QPIC [23]和我们的模型在HICO-DET[48]上的mAP和收敛曲线。我们的模型在更快的收敛速度下实现了更好的mAP准确性。0答案[5,6]。这也是一个非常具有挑战性的任务。这种困难程度的一个原因是该任务是复合的：对于每个三元组，需要确定涉及的人和物体实例的位置、物体类别以及人-物对之间的交互。另一个主要原因在于HOI依赖于推理，这表明视觉上下文在确定交互类别方面很重要[23]。鉴于其利用上下文线索的强大能力，最近的方法已将变压器应用于HOI检测。例如，QPIC [23]和HOI-Trans[25]定义了一组可学习的HOI查询，每个查询表示图像中可能的人-物对。AS-Net [24]和HOTR[26]分别定义了一组可学习的物体和交互查询，以推断物体和交互类别。它们的共同之处在于利用交叉注意力机制来挖掘图像范围的上下文信息，以改善HOI检测。然而，现有基于变压器的HOI检测方法的表示学习能力和集合预测能力可能尚未充分探索。第一个问题在于195590在HOI查询的语义歧义中存在两个问题。每个查询只包含一个可能的人-物对的粗略位置[11,25]；因此，变压器解码器中的交叉注意力操作无法产生精确的注意力图，而这对于从区分性区域获取线索至关重要。因此，表示学习能力受到限制，收敛速度相应变慢。第二个问题是由于现有数据集中大多数训练图像中标记的人-物对数量有限，因此变压器在具有许多人-物对的复杂图像上可能表现出性能下降。因此，我们提出了一种高效的知识蒸馏模型，名为使用Oracle查询的蒸馏（DOQ），以克服第一个问题。该模型采用现有的基于变压器的模型，例如QPIC[23]，作为学生网络。它共享教师和学生网络之间的变压器参数。两个网络之间的差异在于它们的HOI查询和初始解码器嵌入。对于学生网络，HOI查询和初始解码器嵌入被定义为一组可学习的嵌入和零向量。对于教师网络，我们使用标记的人-物对的地面真值位置构建一组oracleHOI查询。我们根据每个标记的人-物对涉及的地面真值对象类别的词嵌入生成初始解码器嵌入。通过这种方式，教师网络获得了每个标记的人-物对的精确语义和位置信息，使其能够产生高质量的表示和精确的注意力图。学生网络的表示学习能力因此得到显著提升，因为它模仿了教师网络的注意力图和表示。此外，在推理阶段，教师网络被丢弃，因此不会引入额外的计算成本。为了解决第二个问题，我们引入了一种高效的数据增强方法，名为上下文一致拼接（CCS），它在线生成包含更多人-物对的图像。更详细地说，每个新图像是通过将从具有相似视觉上下文的多个训练图像中裁剪的标记的人-物对拼接在一起而获得的。这种策略有两个关键优势。首先，每个合成图像包含更多的人-物对，不需要手动标记。其次，通过从具有相似场景的图像中裁剪补丁，新创建的图像变得视觉上逼真，这在我们的实验中被证明是必要的。最后，通过包含合成图像，变压器的集合预测能力得到了充分优化。据我们所知，我们提出的方法是首个明确处理HOI检测中变压器查询的语义歧义问题的方法。0我们创造性地引入知识蒸馏来解决这个问题。我们通过对三个HOI检测基准数据集HICO-DET [48]、HOI-A[29]和V-COCO[49]进行全面实验，证明了我们提出的方法的有效性，并发现我们的方法始终达到了最先进的性能。此外，由于基于oracle查询的知识蒸馏，我们的方法在收敛速度上比现有方法快得多，如图1所示。02. 相关工作人-物交互检测。现有的HOI检测方法可以分为两种范式，即两阶段策略和一阶段策略。两阶段方法[21, 28, 34, 41, 43,44,46]在交互预测之前进行物体检测。大多数两阶段方法采用通用物体检测器，并专注于改进交互预测。可以利用各种类型的特征进行交互预测，包括视觉特征[31,45]、空间特征[32, 33]、人体姿势[35, 42]和语言特征[35,39]。然而，由于它们的顺序结构和冗余的人-物实例组合，两阶段方法经常遇到低效率的问题。一阶段HOI检测方法通常同时进行物体检测和交互预测。在没有明确的物体位置的情况下，这些方法依赖于预定义的交互区域进行交互预测。根据所采用的交互区域的定义，现有方法可以分为（i）基于点的方法，（ii）基于联合区域的方法和（iii）基于空间注意力的方法。基于点的方法将单个交互点[29,30]或点集[22]作为交互区域，而基于联合区域的方法[40]将人-物对的并集框视为交互区域。最近，一些方法预测了每个人-物对的空间注意力图作为交互区域，这是通过在Transformer解码器层中使用交叉注意力操作实现的。空间注意力图可以更灵活地利用全局上下文线索。基于Transformer的方法可以进一步细分为三类：（i）采用一组可学习的HOI查询的方法，每个查询代表一个可能的人-物对[23,25]；（ii）采用两组可学习的查询分别用于物体检测和交互预测的方法[24,26]；（iii）定义了三组可学习的查询，分别代表主体、交互和物体的方法[19]。我们在现有基于Transformer的HOI检测方法中解决了两个未充分探索的问题，即受限的表示学习能力和受限的集合预测能力。通过解决这两个问题，现有基于Transformer的方法的准确性和训练效率得到了显著提升。…��…195600可学习的HOI查询0<人携带背包><人骑自行车>0解码器层10解码器层20解码器层0学生Transformer解码器0K A0参数共享0背包0oracle HOI查询0注意力0注意力机制0解码器层10解码器层20解码器层0教师Transformer解码器0卷积0空空0空0位置编码0零向量0真实对象词嵌入0真实空间特征0交互检测头0推理阶段0VQ0K A0空0FFN0Transformer编码器0图2. 训练阶段中提出方法的概述。QPIC[23]被采用作为学生网络，它包括一个CNN骨干网络，一个transformer编码器，一个transformer解码器和交互检测头。对于教师网络，我们根据标记的人-物（HO）对的真实位置构建了一组oracleHOI查询Qt。我们还根据每个标记的HO对涉及的对象类别的词嵌入生成初始解码器嵌入Dt0。这两个网络共享参数。学生网络的注意力图和表示模拟了教师网络的注意力图和表示。在推理阶段，教师网络被放弃，即不引入额外的计算成本。最佳效果请使用彩色查看。0基于Transformer的目标检测。检测Transformer（DETR）[11]成功地将Transformer应用于目标检测。随后出现了许多提高DETR性能的方法：这些方法可以分为（i）加速训练收敛的方法和（ii）降低计算复杂度的方法。通过将空间先验应用于每个transformer解码器层的注意力图，可以改善训练收敛性[12,14]。这些先验通常根据前一个解码器层估计的对象位置获得。结果可以是与注意力图相同大小的地图[12]或感兴趣区域（ROI）[14]。此外，Meng等人[13]通过将查询中的内容和空间信息解耦来生成注意力图，从而降低了训练难度。为了处理高计算复杂度的问题，Zhu等人[10]提出了可变形注意力模块，它关注一小组被指定为显著关键元素的采样位置，而不是特征图中的所有像素。Jiang等人[15]通过插值可用的低分辨率注意力图获得高分辨率的注意力图，从而大大减少了所需的冗余计算量。与使用估计的对象位置不同，我们选择在训练阶段使用由oracle查询产生的空间注意力图作为空间先验。我们的空间先验对整个注意力图进行监督，包括对象和上下文。在实验中0本节中，我们证明了我们提出的方法更适用于HOI检测。3.方法我们的方法可以应用于许多现有的基于transformer的HOI检测模型[23-26,37]。在本节中，我们以代表性的工作QPIC[23]为例（见图2中的示意图）。我们首先在第3.1节中回顾其架构，然后在第3.2节中介绍了提出的知识蒸馏模型。最后，在第3.3节中描述了数据增强方法。3.1.QPIC回顾QPIC基于DETR[11]构建，并对HOI三元组进行并行预测。它包括一个卷积神经网络（CNN）骨干网络，一个transformer编码器，一个transformer解码器和交互检测头。首先将图像送入CNN骨干网络，生成视觉特征图F ∈RC×H×W；这里，C，H和W分别表示通道数、高度和宽度。然后，将F与位置编码P ∈RC×H×W进行增强，并输入transformer编码器，生成特征图E ∈RC×H×W。transformer解码器在一组可学习的HOI查询Q= {qi | qi ∈Rd}Nqi=1和E之间执行交叉注意力，其中Nq是HOI查询的数量，d表示它们的维度。我们将解码器的操作表示如下：D= fdec(Q, D0, E, P)，(1)q(1 −195610其中，fdec(∙, ∙, ∙, )是一组堆叠的Transformer解码器层。D0= {di0 | di0 ∈ Rd}Nqi=1表示初始解码器嵌入，而D = {di |di ∈Rd}Nqi=1表示最后一个解码器层输出的嵌入。最后，D被馈送到基于前馈神经网络（FFN）的交互检测头部。这四个头部分别负责人体边界框定位、物体边界框定位、物体分类和交互类别预测。03.2. 使用Oracle查询进行蒸馏0D的质量对于可靠的HOI检测至关重要。然而，正如公式（1）所揭示的，它的区分能力受到Q和D0的影响。具体而言，Q对于所有图像都是相同的，而D0是一组零向量，这意味着它们都是语义模糊的。这个问题限制了D的表示能力，并减慢了基于DETR的模型的收敛速度。为了解决这个问题，我们设计了一种高效的知识蒸馏模型，名为使用Oracle查询的蒸馏（DOQ），其整体结构如图2所示。其中涉及两个网络，即教师网络和学生网络。CNN主干、Transformer编码器和解码器以及交互检测头部的参数在两个网络之间共享。它们之间的主要区别在于它们的HOI查询和初始解码器嵌入。更具体地说，教师网络采用了Oracle查询和语义清晰的初始解码器嵌入，使其能够生成精确的注意力图，从而得到有区分度的解码器嵌入。然后，我们模仿教师网络的注意力图和解码器嵌入，以提高学生的表示学习能力。此外，由于教师网络仅在训练过程中存在，因此在推理阶段没有额外的计算成本。Oracle HOI查询。最近的研究[11, 13, 25,26]表明，HOI或对象查询反映了一个可能目标的位置信息。因此，我们根据一个标记的人-物（HO）对的真实位置构建每个OracleHOI查询。通过每个Oracle查询，教师网络中的交叉注意力操作准确地关注一个特定的HO对。更具体地说，我们如下获得一个训练图像的Oracle HOI查询集Qt =tanh(Fq(Ht))，(2)0其中，Ht = {hti | hti ∈R12}Nt0hti 0xsi − xoi, ysi − yoi, wsihsi, woiihoi] T. (3)0Ntq是图像中标记的HO对的数量，Ht表示一组空间特征。hti中的前八个元素分别是第i对的人和物体边界框的中心坐标、宽度和高度。0[xsi − xoi, ysi −yoi]表示两个框之间的相对位置[42]，而最后两个元素分别表示两个框的面积。Fq是一个具有ReLU的两层前馈神经网络，将Ht投影到一个d维空间。我们使用tanh函数进行归一化，确保Qt和P中的元素幅度一致。初始解码器嵌入。OracleHOI查询仅包含框级位置信息，对于我们的目的来说仍然粗糙。在接下来的内容中，我们进一步增强了具有改进的初始解码器嵌入的教师网络的能力。具体而言，我们根据标记的HO对中涉及的真实对象类别的词嵌入生成初始解码器嵌入Dt0 = {dti0 | dti0 ∈ Rd}Ntqi=1。形式上，0Dt0 = Fw(Wt)，(4)0其中，Wt = {wti | wti ∈ R512}Ntqi=1，wti表示第i个词的嵌入。Fw表示另一个具有ReLU的两层前馈神经网络。最后，教师网络中的Transformer解码器的操作可以总结如下：0D t = f dec(Q t, D t 0, E, P)，(5)0其中D t = {d t i | d t i ∈ R d} N tq i =1表示教师网络的输出解码器嵌入。在语义清晰的HOI查询和初始解码器嵌入的帮助下，教师网络可以成功生成精确的注意力图，从而输出高质量的解码器嵌入。蒸馏损失。我们对两个网络之间的输出解码器嵌入和注意力图进行对齐。更具体地说，我们首先在D和Dt之间建立嵌入的对应关系。为了实现这个目标，我们根据[23]中的策略，对每个训练图像，将学生网络的预测与真实值进行二分匹配[61]。然后，我们根据匹配的真实HO对重新排列D中的嵌入，并将匹配的嵌入集合记为Ds。对于教师网络，由于HOI查询和初始解码器嵌入都是语义清晰的，Dt中的每个嵌入严格对应一个真实的HO对。最后，我们施加以下蒸馏损失：0L dis = α 1 L cos + α 2 L KL，(6)0L cos = 10Ntq �0∥ d t i ∥ 2 ∥ d s i ∥2），(7)0L KL = 20N t q l0l �0j = l/ 2+10i = 1（A j t i（ln（A j t i） - ln（Aj s i））），(8)of labeled HO pairs. There are two main reasons for this.First, the number of HO pairs in most images is indeedsmall. Second, some HO pairs in complex visual scenesare ignored due to labeling-associated difﬁculties; this prob-lem constrains the transformer’s set prediction power dueto insufﬁcient training with images that include many HOpairs. In order to address this problem, we propose an efﬁ-cient data augmentation method, named Context-ConsistentStitching (CCS), which automatically generates new syn-thesized images with more labeled HO pairs.Speciﬁcally, in the training phase, we replace each imageI with a synthesized one with probability γ. When an imageis chosen for replacement, we ﬁrst randomly sample threeimages from its K nearest neighbors in the entire trainingset. The K neighbors are determined ofﬂine according todistances between scene features, which are extracted usingan off-the-shelf scene classiﬁcation model released in [55].We then crop the union region of one labeled HO pair thatis randomly selected from each of the four images, i.e., Iand its three neighbors. If one selected HO pair is found tooverlap with other pairs in the same image, we simply ex-tend the union region to include all pairs for which overlapexists. Finally, we stitch these four regions tightly togetherand resize the stitched image to have a size similar to that ofI. We also automatically generate HOI annotations accord-ing to the speciﬁc locations of each HO pair in new image.The strategy described above selects images for stitchingthat are consistent in terms of context, which ensures thatthe synthesized images are visually realistic. In the experi-mentation section, we demonstrate that maintaining contextconsistency is vital for HOI detection. Samples of synthe-sized images are presented in Figure 4. Moreover, statisticson the number of labeled HO pairs with CCS for existingdatabases are shown in Figure 3.It is worth noting that CCS differs from existing copy-and-paste techniques [56–58] used for instance segmenta-tion or object detection, which copy all pixels belongingto selected objects from one image and then paste theminto another image. There are two main differences. First,these methods do not consider context consistency acrossthe complete image [56–58]. Second, they are not designedfor transformer and do not necessarily change the numberof objects in the training images. By contrast, the goal of195620（ � ）（ � ）0��0��0图3.没有CCS的现有数据集中标记的HO对数量统计（蓝色），以及有CCS的数据集中标记的HO对数量统计（橙色）。 (a) HICO-DET [48]。 (b) HOI-A [29]。0其中α 1和α2表示权重，l是解码器层数，根据[23]的设定为6。此外，dt i和d s i分别是D t和D s中的第i个嵌入，而A j t i和A j si分别表示第j个解码器层中d t i和d si的平均注意力图。我们采用KL散度损失来对齐A j t i和A j si，从而鼓励学生网络产生与教师网络一样精确的注意力图。总体损失函数。根据[23]，我们采用相同的目标检测和交互预测损失函数。训练阶段的总体损失函数表示如下：0L = L t + L s + L dis，(9)0其中0L t = λ b L t b + λ u L t u + λ c L t c + λ a L t a，(10)0L s = λ b L s b + λ u L s u + λ c L s c + λ a L s a，(11)0L t和L s分别表示教师网络和学生网络的损失函数。L k b，Lk u，L k c和L k a（k∈{t,s}）分别表示L1损失，GIOU损失[59]用于边界框回归，交叉熵损失用于对象分类，以及焦点损失[60]用于交互预测；这些损失的实现方式与[23]中相同。此外，λ b，λ u，λ c和λa的值设为2.5，1，1，1，与[23]中的值相同。讨论。我们的模型与大多数现有的知识蒸馏方法[7-9]采用了明显不同的方法，这些方法分别训练教师模型和学生模型。在这些工作中，教师模型通常更大，因此性能更好，便于将知识蒸馏到学生模型中。相比之下，我们方法中的教师网络和学生网络共享模型参数；我们的教师网络通过采用oracle查询实现更高的性能。此外，DOQ中的教师网络和学生网络是联合训练的，这简化了训练流程，从而显著降低了训练成本。0图4. 使用CCS合成的图像样本。✓---29.6374.86✓-✓-30.1375.25✓✓--30.2875.41✓✓✓-30.4175.57---✓30.7675.45-✓✓✓30.8276.23✓-✓✓31.2276.57✓✓-✓31.3176.73-30.4175.57HOTR--23.4616.2125.62HOTR✓-25.1724.1525.47HOTR✓✓25.9726.0925.93CDN-S--31.4427.3932.64CDN-S✓-32.2627.7233.62CDN-S✓✓33.2829.1934.50195630CCS旨在通过合成具有更多标记的HO对的图像，提高基于Transformer的HOI方法的集合预测能力。04. 实验 4.1.数据集和评估指标0HICO-DET. HICO-DET[48]是一个大规模的HOI数据集。它包含47,776张图像，其中38,118张用于训练，9,658张用于测试。该数据集包含80个物体类别，117个交互类别和600个HOI类别。在这600个HOI类别中，有138个HOI类别的训练样本少于10个，被标记为“稀有”类别。有两种评估模式：默认模式（DT）和已知物体模式（KO）。HICO-DET使用平均精度（mAP）作为评估指标。HOI-A.人物-物体交互应用（HOI-A）数据集[29]包含11个物体类别和10个交互类别。它包含38,629张图像，其中29,842张用于训练，8,787张用于测试。评估指标与HICO-DET相同。V-COCO.V-COCO数据集[49]建立在MS-COCO数据库[50]之上。它包含10,346张图像（5,400张用于训练，4,946张用于测试），涵盖80个物体类别和26个交互类别。我们使用Scenario1（mAP role）[49]的平均精度作为评估指标。04.2. 实现细节我们分别采用ResNet-50和ResNet-101[51]作为我们的骨干模型。我们使用AdamW[52]优化器，在8个GPU上使用批量大小为16进行实验。初始学习率设置为1e-4，然后在60个epoch后乘以0.1；总的epoch数为80。N q 和 d分别设置为100和256。我们使用在MS-COCO数据库[50]上训练的DETR[11]的参数初始化网络。单词嵌入是由CLIP模型[54]提取的，其维度为512。至于超参数，DOQ中的α1和α2分别设置为1和10；此外，CCS中的K和γ分别经验性地设置为15和0.25。04.3. 消融研究在接下来的研究中，我们对HICO-DET和HOI-A数据集进行了消融研究，以展示DOQ和CCS的有效性。我们的基线是QPIC[23]。所有实验都使用ResNet-50作为骨干网络进行。DOQ的有效性。如表1所示，我们首先引入了教师网络，只是在教师网络和学生网络之间共享变换器参数而没有应用蒸馏损失。这种策略被称为多任务学习（MTL）。实验结果表明，MTL分别在HICO-DET和HOI-A上提高了0.56%和0.76%的mAP，这是因为参数共享隐式地对齐了特征空间。0表1. 我们方法的每个组件的消融研究。0组件 mAP 方法 MTL L cos L KL CCS HICO-DET (DT) HOI-A0基线 - - - - 29.07 74.100增量0一次删除0我们 � � � � 31.55 76.870表2. DOQ和CCS在HICO-DET的DT模式下对HOTR [26]和CDN[37]的有效性。0模型 DOQ CCS 完全稀有非稀有0两个网络。当引入Lcos时，性能进一步提高了0.65%和0.55%的mAP，分别在HICO-DET和HOI-A上。在采用LKL之后，性能进一步提高了0.13%和0.16%的mAP，分别在HICO-DET和HOI-A上。上述实验证明了DOQ的有效性。CCS的有效性。为了方便进行清晰的比较，我们将CCS应用于我们的基线。我们可以观察到，在HICO-DET和HOI-A上，性能分别提高了1.69%和1.35%的mAP。然后，我们同时采用CCS和DOQ。结果显示，在HICO-DET和HOI-A上，性能超过了仅使用DOQ的模型分别提高了1.14%和1.30%。我们进一步评估了CCS中γ的最佳值；实验结果在补充材料中提供。一次删除研究。我们接下来进行一次删除研究，逐个删除每个提出的组件。如表1中的实验结果所示，每个提出的组件都有助于提高HOI检测性能。应用于其他基于Transformer的方法。DOQ和CCS是即插即用的，可以轻松应用于其他基于Transformer的HOI检测方法（例如HOTR[26]和CDN[37]）。在接下来的研究中，我们在HICO-DET数据库上进行实验，以展示DOQ和CCS在HOTR和CDN上的有效性。DOQ的详细网络架构在补充材料中提供。在训练阶段，为了确保公平比较，所有设置与原始论文中的设置保持一致。结果如表2所示。在CDN（HOTR）上，DOQ和CCS分别提高了1.84%（2.51%）、1.80%（9.88%）和1.86%（0.31%）的mAP，DT模式下的完全、稀有和非稀有HOI类别。这些结果表明，DOQ和CCS都是可移植和灵活的。SG2HOI [18]COCOResNet-5020.93 18.2421.78DJ-RN [33]COCOResNet-5021.34 18.5322.18SCG [20]COCOResNet-50-FPN 21.85 18.1122.97ConsNet [39]COCOResNet-50-FPN 22.15 17.1223.65PastaNet [35]COCOResNet-5022.65 21.1723.09IDN [36]COCOResNet-5023.36 22.4723.63DRG [47]HICO-DET ResNet-50-FPN 24.53 19.4726.04IDN [36]HICO-DETResNet-5024.58 20.3325.86One-StageIP-Net [30]COCOHourglass-104 19.56 12.7921.58HOTR [26]COCOResNet-5023.46 16.2125.62ASNet [24]COCOResNet-5024.40 22.3925.01GGNet [22]HICO-DET Hourglass-104 23.47 16.4825.60PST [19]HICO-DETResNet-5023.93 14.9826.60HOI-Trans [25] HICO-DETResNet-10126.61 19.1528.84ASNet [24]HICO-DETResNet-5028.87 24.2530.25QPIC [23]HICO-DETResNet-5029.07 21.8531.23QPIC [23]HICO-DETResNet-10129.90 23.9231.69CND-S [37]HICO-DETResNet-5031.44 27.3932.64iCAN [16]ResNet-5044.23TIN [17]ResNet-5048.64GMVM [62]ResNet-5060.26C-HOI [31]ResNet-5066.04PPDM [29]Hourglass-10471.23AS-Net [24]ResNet-5072.19QPIC [23]ResNet-5074.10195640表3. HICO-DET中DOQ和CCS变体的比较. (a) 神谕HOI查询0方法全部罕见非罕见0绝对位置 30.12 24.16 31.90 我们的方法30.41 25.10 32.000(b) 初始解码器嵌入0方法全部罕见非罕见0零向量 29.70 25.05 31.08 动词类别向量 30.10 24.2331.85 对象嵌入（Word2Vec） 30.28 23.79 32.22对象嵌入（CLIP） 30.41 25.10 32.000(c) 上下文一致性拼接0方法全部罕见非罕见0无上下文一致性 29.93 22.66 32.10 无拼接多样性29.97 22.98 32.05 无增加HO对 29.48 22.1031.67 我们的方法 30.76 24.60 32.6004.4. DOQ和CCS变体的比较在本小节中，我们将DOQ和CCS的性能与一些可能的变体进行比较。所有实验都在HICO-DET的DT模式下进行。结果总结如表3所示。神谕HOI查询。我们根据公式（3）中的hti生成神谕HOI查询。hti是一个包含标记的HO对的两个边界框的绝对位置和相对位置的12维向量。在这里，我们只保留hti中的前八个元素，这意味着我们仅使用两个框的绝对位置构建神谕查询。表3a中列出的结果显示，AP的性能稍低，这告诉我们两个边界框的相对位置和面积对于神谕查询的构建也很重要。初始解码器嵌入。在DOQ中，我们根据每个标记的HO对涉及的真实对象类别的词嵌入使用CLIP[54]生成Dt0。如表3b所示，与使用零向量相比，我们设计的Dt0提高了0.71％的mAP。我们还尝试根据每个标记的HO对涉及的动词类别的标签向量生成Dt0。表3b中的实验结果显示，对象的词嵌入更有效地产生Dt0。进一步显示，使用CLIP [54]提取的词嵌入略优于使用Word2Vec[53]获得的词嵌入；这可能是因为前者在训练时与视觉特征保持一致。上下文一致性拼接。我们在这里研究了CCS实现的三个要素的有效性：（a）上下文一致性策略，（b）将来自不同图像的区域拼接在一起，以及（c）增加标记的HO对的数量。结果如表3c所示。对于（a），我们随机将来自不同图像的联合区域拼接在一起，而不考虑上下文一致性。结果显示mAP下降了0.83％。这可能是因为HOI检测更依赖于视觉上下文；因此，合成的图像应该在视觉上具有逼真性。对于（b），我们简单地将0表4. HICO-DET上的性能比较.0默认模式0方法检测器骨干网络全部罕见非罕见0两阶段0我们的方法（HOTR）COCO ResNet-50 25.97 26.09 25.930我们的方法（QPIC）HICO-DET ResNet-50 31.55 26.75 32.990我们的方法（QPIC）HICO-DET ResNet-101 31.80 25.95 33.550我们的方法（CDN-S）HICO-DET ResNet-50 33.28 29.19 34.500表5. HOI-A上的性能比较。0方法骨干网络 mAP0两阶段0一阶段0我们的方法（QPIC）ResNet-50 76.870从一张图像中选择一个联合区域进行四次。mAP随后下降了0.79%，这表明多样性对提高性能也是有帮助的。对于（c），我们尝试保持一个合成图像中标记的HO对数量与原始图像相等。在这种情况下，mAP下降了1.28%，显示增加标记的HO对数量在提高变压器的集合预测能力方面起着重要作用。04.5.与最先进方法的比较性能比较。如表4所示，我们的方法在HICO-DET上的两阶段和一阶段方法中表现优异。具体而言，当使用ResNet-50作为骨干网络时，我们的方法在DT模式下相对于QPIC基线分别提升了2.48%、4.90%和1.76%的mAP，用于全体、稀有和非稀有HOI类别。此外，我们还将我们的方法应用于HOTR [ 26 ]和CDN [ 37]。结果进一步显示，相对于CDN（HOTR）基线，我们的方法在DT模式下使用ResNet-50骨干网络在全体HOI类别上实现了1.84%（2.51%）的mAP性能提升。DT和KO模式的完整结果见补充材料。此外，HOI-A上的结果见表中所示0MethodBackbonemAProleVSGNet [32]ResNet-15251.8FCL [27]ResNet-50-FPN52.3SCG [20]ResNet-50-FPN53.0FCMNet [45]ResNet

下载后可阅读完整内容，剩余1页未读，立即下载