两阶段人-物交互检测方法的一元-二元Transformer

38 浏览量更新于2023-10-25 收藏 22.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1245367891261718196…0.00060.00030.83030.00010.80380.681859201040一种高效的两阶段人-物交互检测方法：一元-二元Transformer0Frederic Z. Zhang 1 , 3 Dylan Campbell 2 , 3 Stephen Gould 1 , 301 澳大利亚国立大学 2 牛津大学 3 澳大利亚机器人视觉中心0https://fredzzhang.com/unary-pairwise-transformers0摘要0最近，基于Transformer模型的视觉数据处理方法在识别和检测任务中取得了显著的改进。特别是，使用可学习的查询代替区域提议的方法催生了一类新的单阶段检测模型，由DetectionTransformer（DETR）引领。这种单阶段方法的变体后来在人-物交互（HOI）检测中占据主导地位。然而，这种单阶段HOI检测器的成功主要归功于Transformer的表示能力。我们发现，当装备相同的Transformer时，两阶段的HOI检测器在性能和内存效率上更具优势，而且训练时间只需一小部分。在这项工作中，我们提出了一种一元-二元Transformer，它是一种利用一元和二元表示进行HOI检测的两阶段检测器。我们观察到，我们的Transformer网络的一元和二元部分具有不同的特点，前者更倾向于增加正例的分数，后者更倾向于降低负例的分数。我们在HICO-DET和V-COCO数据集上评估了我们的方法，并显著优于现有的方法。在推理阶段，我们的ResNet50模型在单个GPU上实现了实时性能。01. 引言0人-物交互（HOI）检测器在图像中定位交互的人-物配对并对动作进行分类。它们可以分为一阶段和两阶段，与物体检测器的分组方式相对应。以FasterR-CNN[24]为代表的两阶段物体检测器通常包括一个区域提议网络，它以边界框的形式明确地编码了感兴趣区域的潜在位置。然后，这些边界框可以通过下游网络进行分类和进一步回归进行细化。相反，一阶段检测器（如RetinaNet[18]）在网络中保留了对象的抽象特征表示，并在管道的末端将其解码为边界框和分类分数。除了相同的分类约定外，HOI检测器还需要定位每个实例的两个边界框，而不是一个。早期的工作[2, 8, 16,23]使用预训练的物体检测器获取一组人和物体框，然后通过下游网络对其进行配对和交互分类。这种方法与两阶段检测器的方法相一致，并由于高质量的预训练物体检测器的可用性而迅速成为主流方法。第一个一阶段HOI检测器的实例是由0（a）带有人和物体检测的图像。0一元标记0配对标记0（b）带有预测分数的一元和二元标记（骑摩托车）。0图1.我们的一元-二元Transformer分别对人和物体实例进行编码，并以配对的方式进行推理，从而能够以互补的方式处理数据。在这个例子中，我们的网络正确地识别出了动作“骑摩托车”的交互配对，同时抑制了视觉上相似的非交互配对和具有不同关联动作的配对。0抽象特征表示的对象在整个网络中，然后在管道的末端将它们解码为边界框和分类分数。除了相同的分类约定外，HOI检测器还需要定位每个实例的两个边界框，而不是一个。早期的工作[2, 8, 16,23]使用预训练的物体检测器获取一组人和物体框，然后通过下游网络对其进行配对和交互分类。这种方法与两阶段检测器的方法相一致，并由于高质量的预训练物体检测器的可用性而迅速成为主流方法。第一个一阶段HOI检测器的实例是由201050图2.平均精度随训练轮数（左）和训练时间（右）的变化。所有方法的主干网络都使用相同的权重进行初始化，并在8个GeForce GTXTITAN X GPU上进行训练。0表1.现有一阶和二阶HOI检测器之间性能差异主要归因于骨干网络的选择。我们报告了在HICO-DET[2]测试集上的平均精度（×100）。0方法类型检测器骨干网络 mAP0SCG [28]二阶Faster R-CNN R-50-FPN 24.88 SCG[28]二阶DETR R-50 28.79 SCG [28]二阶DETR R-101 29.260QPIC [25]一阶DETR R-50 29.07 QPIC [25]一阶DETR R-10129.900我们的二阶DETR R-50 31.66 我们的二阶DETR R-101 32.310Liao等人[17]。他们将人-物对称作为交互点，表示为人和物体框中心的中点。最近，由于在transformer解码器中使用可学习查询在定位方面取得了巨大成功[1]，一阶HOI检测器的发展取得了很大进展。然而，适应DETR模型的HOI检测器在生成具有区分性特征方面严重依赖于众所周知难以训练的transformer[20]。特别是当使用DETR的预训练权重进行初始化时，解码器默认会关注高物体性的区域。然后，重量级解码器堆栈必须适应关注高交互性的区域。因此，训练这种一阶检测器通常会消耗大量的内存和时间，如图2所示。相比之下，二阶HOI检测器不会重新使用骨干网络，而是将其保持为物体检测器。由于训练开始时流水线的前半部分已经按预期工作，因此可以快速训练后半部分以进行特定的HOI检测任务。此外，由于在训练期间可以将物体检测器与下游交互头解耦，因此可以冻结其权重，并使用轻量级网络进行交互检测，从而节省大量的内存和计算资源。尽管具有这些优势，但二阶检测器的性能仍落后于一阶检测器。然而，这些二阶模型中的大多数使用的是FasterR-CNN[24]而不是更近期的物体检测器。我们0发现仅仅将FasterR-CNN替换为DETR模型在现有的二阶检测器（SCG）[28]中导致了显著的改进，使其与一流的一阶检测器（QPIC）相媲美，如表1所示。我们将这种性能提升归因于transformer和二分匹配损失[1]的表示能力。后者特别重要，因为它解决了训练过程和评估协议之间的不匹配问题。评估协议规定，在与同一真实值相关联的所有检测中，得分最高的是真正的正例，而其他的是假正例。如果没有二分匹配，所有这些检测都将被标记为正例。然后，检测器必须采用非最大抑制等启发式方法来减轻这个问题，导致程序不匹配。我们提出了一个两阶段模型，用额外的transformer层对DETR的输出特征进行细化，用于HOI分类。如图1所示，我们以两种方式编码实例信息：一种是单一编码，其中单独编码人和物体实例；另一种是成对编码，其中编码人-物体对。这些表示提供了正交信息，并且我们观察到它们的相关层具有不同的行为。单一编码器层更倾向于增加正例的预测交互得分，而成对编码器层则抑制负例。因此，这种互补行为扩大了正例和负例得分之间的差距，特别有利于排名指标如平均精度（mAP）。我们的主要贡献是一种新颖高效的两阶段HOI检测器，具有单一和成对编码。我们的次要贡献是展示了如何将成对框位置编码（对于HOI检测至关重要）纳入transformer架构中，使其能够共同推理单一外观和成对空间信息。我们还对两个编码器层的行为进行了详细分析，表明它们具有互补的特性。我们提出的模型不仅优于最先进的方法，而且在训练时消耗的时间和内存要少得多。后者使我们能够使用更多消耗内存的骨干网络，进一步提高性能。02. 相关工作0transformer网络[27]最初用于机器翻译，由于其表示能力、灵活性和通过注意机制实现的全局感受野，最近在计算机视觉中变得无处不在。图像transformerViT[4]将图像表示为一组空间补丁，每个补丁通过简单的线性变换编码为标记。这种将图像标记化的方法迅速引起了关注，并激发了许多后续工作[21]。transformer的另一个关键创新是在解码器中使用可学习的查询，这些查询通过随机初始化并通过交替的自注意力和交叉注意力与编码器标记进行更新。Carion等人[1]在他们的对象检测器中使用这些查询作为对象查询，而不是传统的区域提议。结合二分图匹配损失，这种设计产生了一类新的一阶段检测模型，将检测任务形式化为集合预测问题。此后，它在HOI检测[3, 13, 25, 29]中激发了许多工作。……………………Two-stage HOI detectors have also undergone signiﬁcantdevelopment recently. Li et al. [15] studied the integrationand decomposition of HOIs in an analogy to the superposi-tion of waves in harmonic analysis. Hou et al. explored few-shot learning by fabricating object representations in featurespace [12] and learning to transfer object affordance [11].Finally, Zhang et al. [28] proposed to fuse features of dif-ferent modalities within a graphical model to produce more201060二元框0二维正弦0位置编码0特征补丁0transformer编码器层0× N骨干编码器0transformer解码器层0解码器× N0对象查询0边界框分数0二元框0位置编码0修改后的0transformer编码器层0transformer编码器层0一元标记0多分支融合0二元标记0交互头部0动作逻辑回归0图3.我们的一元-二元transformer的流程图。输入图像经过骨干CNN处理，产生图像特征，这些特征被分割成相等大小的补丁，并通过正弦位置编码进行增强。这些标记被输入到DETR[1]的transformer编码器-解码器堆栈中，为固定数量的可学习对象查询生成新特征。这些特征由MLP解码为对象分类分数和边界框，并作为一元标记传递给交互头部。交互头部还接收从预测的边界框坐标计算得到的二元位置编码。然后，修改后的transformer编码器层使用二元位置编码来优化一元标记。输出标记配对并与相同的位置编码融合，产生二元标记，这些标记由标准transformer编码器层处理，然后由MLP将最终特征解码为动作分类分数。0最近，两阶段HOI检测器也有了重大发展。Li等人[15]研究了HOI的集成和分解，类似于谐波分析中波的叠加。Hou等人通过在特征空间中制造对象表示[12]和学习转移对象效能[11]来探索少样本学习。最后，Zhang等人[28]提出在图形模型中融合不同模态的特征，以产生更多的特征。0为了将DETR模型适应于HOI检测，Tamura等人[25]和Zou等人[29]在transformer中添加了额外的头部，以定位人和物体，并预测动作。至于二分图匹配，为了动作预测，还添加了额外的成本项。另一方面，Kim等人[13]和Chen等人[3]提出了一个交互解码器，与DETR实例解码器一起使用。它专门负责预测动作，同时匹配交互的人-物对。这些前述的一阶段检测器在推动最新技术性能方面取得了巨大成功。然而，它们都需要大量资源来训练模型。相比之下，本工作侧重于利用新颖的思想来产生同样具有区分性的特征，同时保持两阶段检测器的内存效率和低训练时间。0区分性特征。我们在我们的变换器模型中利用了这种模态融合，并展示了它带来的显著改进。03.一元-二元变换器0为了利用基于变换器的检测器的成功，我们使用DETR[1]作为我们的骨干目标检测器，并专注于为HOI检测设计一个有效和高效的交互头，如图3所示。交互头由两种类型的变换器编码器层组成，第一层被修改以适应额外的二元输入。第一层操作一元标记，即单个人和物体实例，而第二层操作二元标记，即人-物体对。根据我们在第4.3节和第4.4节的分析和实验观察，一元层中的自注意力倾向于增加正HOI对的交互得分，而二元层中的自注意力则降低负面对的得分。因此，我们将这些层分别称为合作层和竞争层。03.1.合作层0标准的变换器编码器层接受一组标记作为输入并执行自注意力。位置编码通常是必不可少的，以弥补标记集中缺乏顺序的问题。通常，用位置的正弦函数[27]或可学习的嵌入[1]来实现这个目的。可以将正弦编码扩展到边界框坐标，然而，我们的一元标记已经包含了位置信息，因为它们被解码为边界框。相反，我们将其视为将二元空间信息注入到变换器中的机会，这对于HOI检测任务是有帮助的[28]。具体来说，我们进行如下计算：!×!× 2$ℎ!×!×1!×!× 3$ℎ!×!× $ℎ̸201070修改的注意力修改的注意力修改的注意力0线性线性线性线性线性线性。0线性0a0层归一化。0二元连接。0连接。0线性0复制0层归一化0连接。0图4.修改后的变换器编码器层的架构（左）及其注意力模块（右）。FFN代表前馈网络[27]。“二元连接”指的是将所有标记配对并连接特征的操作。“复制”指的是沿新维度重复特征的操作。0从边界框中计算Zhang等人[28]使用的一元和二元空间特征，包括一元框中心、宽度和高度，以及二元交并比、相对面积和方向，并通过MLP传递这些特征以获得二元位置编码。我们将详细信息推迟到附录中。我们还发现，通常的加法方法对于我们的位置编码效果不佳。因此，我们稍微修改了变换器编码器层中的注意力操作，以允许直接将二元位置编码注入到值和注意力权重的计算中。更正式地说，给定DETR返回的检测结果，我们首先应用非最大抑制和阈值处理。这将留下一个较小的集合{d_i}^n_i=1，其中一个检测d_i=(b_i, s_i, c_i,x_i)包括框坐标b_i∈R^4，置信度得分s_i∈[0,1]，对象类别c_i∈K，一组对象类别K，以及对象查询或特征x_i∈R^m。我们计算上述所述的二元框位置编码{y_i,j∈R^m}^n_i,j=1。我们用X∈R^n×m表示一元标记的集合，用Y∈R^n×n×m表示二元位置编码。修改后的变换器编码器层的完整结构如图4所示。为了简洁起见，让我们假设头的数量h为1，并定义0˙ X ∈ R n × n × m，˙ X i � X ∈ R n × m，(1) ¨ X∈ R n × n × 2 m，¨ x i,j � x i ⊕ x j ∈ R 2 m，(2)0其中 ⊕ 表示向量连接。即，张量˙ X 和 ¨ X是复制和成对连接的结果。然后可以计算等效值和注意权重，如下所示：0V = ˙ X � Y，(3)0W = softmax (( ¨ X ⊕ Y ) w + b )，(4)0其中 � 表示逐元素乘积，w ∈ R 3 m 和 b ∈ R是线性层的参数。然后，注意力层的输出计算如下：W �V。附录中提供了更多细节。03.2. 竞争层0为了计算成对令牌的集合，我们形成所有不同一元令牌的对，并删除第一个令牌不是人类的对，因为对象-对象对超出了HOI检测的范围。我们将结果集合表示为{ p k = ( x i , x j, y i,j ) | i ≠ j, c i = “ human ”}。然后，我们通过多分支融合（MBF）[28]从一元令牌和位置编码计算成对令牌，如下所示：0z k = MBF ( x i ⊕ x j , y i,j )，(5)0具体而言，MBF模块在多个同质分支中融合两种模态，并返回统一的特征表示。完整细节请参见附录。最后，成对令牌集合被馈送到额外的Transformer编码器层，允许网络比较HOI候选项，然后MLP预测每个HOI对的动作分类logits � s。03.3. 训练和推断0为了充分利用预训练的对象检测器，我们将对象置信度分数合并到每个人-对象对的最终得分中。将第k对的动作logits表示为 � s k ，最终得分计算如下：0s k = ( s i ) λ ∙ ( s j ) λ ∙ σ ( � s k )，(6)0其中 λ > 1是在推断过程中用于抑制过度自信对象的常数[28]，σ是sigmoid函数。我们使用focalloss1[18]进行动作分类以解决正负样本不平衡问题。根据数据集指定，我们仅计算每种对象类型的有效动作类别的损失。在推断过程中，无效的动作和对象组合（例如，吃汽车）的得分将被清零。04. 实验0在本节中，我们首先证明了提出的一元-成对Transformer在HICO-DET [2]和V-COCO[7]数据集上实现了最先进的性能，超过了次优方法很多。然后，我们对合作层和竞争层的影响进行了彻底分析。特别是，我们展示了合作层增加了正例的得分，而竞争层抑制了得分。01. 在公式（6）中，最终得分被归一化到[0,1]区间。在训练中，我们恢复归一化之前的比例，并使用带有logits的相应损失来保持数值稳定性。详细信息请参见附录。201080表2. HICO-DET [2]和V-COCO [7]测试集上的HOI检测性能比较（mAP × 100）。每个部分中的最高结果以粗体显示。0HICO-DET V-COCO0默认设置已知对象设置0方法骨干全部稀有非稀有全部稀有非稀有 AP S 1 角色 AP S 2 角色0HO-RCNN [2] CaffeNet 7.81 5.37 8.54 10.41 8.94 10.85 - - InteractNet [6] ResNet-50-FPN 9.94 7.16 10.77 - - - 40.0 - GPNN [23]ResNet-101 13.11 9.34 14.23 - - - 44.0 - TIN [16] ResNet-50 17.03 13.42 18.11 19.17 15.51 20.26 47.8 54.2 Gupta et al. [8]ResNet-152 17.18 12.17 18.68 - - - - - VSGNet [26] ResNet-152 19.80 16.05 20.91 - - - 51.8 57.0 DJ-RN [14] ResNet-50 21.3418.53 22.18 23.69 20.64 24.60 - - PPDM [17] Hourglass-104 21.94 13.97 24.32 24.81 17.09 27.12 - - VCL [10] ResNet-50 23.6317.21 25.55 25.98 19.12 28.03 48.3 - ATL [11] ResNet-50 23.81 17.43 27.42 27.38 22.09 28.96 - - DRG [5] ResNet-50-FPN 24.5319.47 26.04 27.98 23.11 29.43 51.0 - IDN [15] ResNet-50 24.58 20.33 25.86 27.89 23.64 29.16 53.3 60.3 HOTR [13] ResNet-5025.10 17.34 27.42 - - - 55.2 64.4 FCL [12] ResNet-50 25.27 20.57 26.67 27.71 22.34 28.93 52.4 - HOI-Trans [29] ResNet-10126.61 19.15 28.84 29.13 20.98 31.57 52.9 - AS-Net [3] ResNet-50 28.87 24.25 30.25 31.74 27.07 33.14 53.9 - SCG [28]ResNet-50-FPN 29.26 24.61 30.65 32.87 27.89 34.35 54.2 60.9 QPIC [25] ResNet-101 29.90 23.92 31.69 32.38 26.06 34.27 58.861.00我们的（UPT）ResNet-50 31.66 25.94 33.36 35.05 29.27 36.77 59.0 64.5 我们的（UPT）ResNet-101 32.31 28.55 33.44 35.6531.60 36.86 60.7 66.2 我们的（UPT）ResNet-101-DC5 32.62 28.62 33.81 36.08 31.41 37.47 61.3 67.10负例的行为。在推理时，我们的方法使用ResNet50[9]在单个GeForce RTX 3090设备上以24 FPS运行。0数据集：HICO-DET[2]是一个大规模的HOI检测数据集，包含37633个训练图像，9546个测试图像，80个物体类型，117个动作和600个交互类型。该数据集在训练集中有117871个人-物体对的边界框注释，在测试集中有33405个。V-COCO[7]规模较小，有2533个训练图像，2867个验证图像，4946个测试图像，只有24个不同的动作。04.1. 实现细节0我们在训练之前在HICO-DET和V-COCO数据集上微调DETR模型，然后冻结其权重。对于HICO-DET，我们使用公开可访问的在MSCOCO上预训练的DETR模型[19]。然而，对于V-COCO，由于其测试集包含在COCOval2017子集中，我们首先从头开始在MSCOCO上预训练DETR模型，排除V-COCO测试集中的图像。对于交互头部，我们过滤掉得分低于0.2的检测结果，并随机选择至少3个和最多15个人类和0每个，优先选择得分高的物体。对于transformer的隐藏维度，我们使用m =256，与DETR相同。此外，我们在训练期间将λ设置为1，在推理期间设置为2.8[28]。对于焦点损失中使用的超参数，我们使用与SCG[28]相同的值。我们应用了其他检测器中使用的一些数据增强技术[1，25]。输入图像的尺度调整为最短边至少为480像素，最长边限制为1333像素。此外，每个图像以0.5的概率裁剪为至少384像素和最多600像素的随机矩形，然后进行缩放。我们还应用了颜色抖动，亮度、对比度和饱和度的值在0.6到1.4之间进行随机调整。我们使用AdamW[22]作为优化器，初始学习率为10^-4。所有模型训练20个epochs，在第10个epoch时学习率降低10倍。训练在8个GeForce GTX TITANX设备上进行，每个GPU的批量大小为2，有效批量大小为16。04.2. 与现有方法的比较0我们的模型在HICO-DET [2]和V-COCO[7]数据集上与现有方法的性能进行了比较，见表2。在HICO-DET上有两种不同的评估设置。默认设置：检测到的人-物201090表3. 比较合作层和竞争层对交互得分的影响。我们报告了当添加到参考网络的 ∆架构列时，交互得分的变化，对于正例、易负例和难负例，括号中是示例数量。如粗体数字所示，合作层显著增加了正例的得分，而竞争层抑制了难负例。这些层共同扩大了正例和负例得分之间的差距，提高了检测的mAP。0∆ 正例（25391） ∆ 易负例（3903416） ∆ 难负例（510991）0参考 ∆ 架构平均值中位数平均值中位数平均值中位数0我们的无合作层 + 合作层 +0.1487 +0.1078 +0.0001 +0.0000 +0.0071 +0.0000 我们的无竞争层 + 竞争层 -0.0463 -0.0310-0.0096 -0.0024 -0.1080 -0.0922 我们的无两个层 + 两个层 +0.0799 +0.0390 -0.0076 -0.0018 -0.0814 -0.07480(a) 表3第一行0(b) 表3第二行0(c) 表3第三行0图5. 与参考得分相比，交互得分（delta）的变化。（a）添加合作层时得分变化的分布（表3的第一行）。（b）将竞争层添加到模型中时的情况（表3的第二行）。（c）同时添加两个层（最后一行）。为了可视化目的，只有20%的负样本被采样和显示。0如果人体框和物体框之间的最小交并比（IoU）大于0.5，则将一对人体和物体视为与一个真实对匹配。在所有匹配的对中，得分最高的被视为真正的正样本，其他的被视为假正样本。没有匹配到真实对的一对也被视为假正样本。已知对象设置：除了上述标准，该设置假设真实对中的物体类型集合是已知的。因此，检测到的具有集合之外的物体类型的对会被自动移除，从而降低问题的难度。对于V-COCO，我们根据上标S1和S2计算平均精度（AP），以考虑由于遮挡而导致的物体缺失。对于情景1，如果在检测到的对中，由于遮挡而导致的对应真实对的物体框为空，则应预测空的物体框才能被视为匹配。对于情景2，无论是否遮挡，物体框都被假定为匹配。我们报告了我们的模型在三种不同的主干网络上的性能。值得注意的是，即使在每个类别中，我们的最轻量级主干网络的模型性能已经明显优于下一个最好的方法。随着更强大的主干网络，这个差距进一步扩大。特别地，由于主干CNN和物体检测变换器与计算图分离，我们的模型具有较小的内存占用。这使得我们可以通过去除ResNet[9]的第5个卷积块（C5）中的步幅来使用更高分辨率的特征图，这已经被证明可以提高小物体的检测性能。我们将其称为扩张C5（DC5）。0该模型具有较小的内存占用。这使得我们可以通过去除ResNet[9]的第5个卷积块（C5）中的步幅来使用更高分辨率的特征图，这已经被证明可以提高小物体的检测性能。我们将其称为扩张C5（DC5）。04.3. 交互头的宏观效果0在本节中，我们比较了合作层和竞争层对HICO-DET测试集的影响，使用ResNet50[9]作为CNN主干。由于我们的模型中的对象检测器的参数被冻结，所以无论交互头中的任何架构变化如何，下游网络处理的检测结果保持不变。这使我们能够比较我们模型的不同变体在相同的人-物对上的表现。为此，我们收集了测试集上所有人-物对的预测交互得分，并比较添加某些层对它们的影响。在表3中，我们展示了在架构修改时得分变化的一些统计数据。特别地，需要注意的是，收集到的大多数对是得分接近零的简单负样本。为了分析，我们将负样本分为简单和困难两类，其中我们将得分低于0.05的样本定义为简单负样本，这是由“我们没有使用两个层的结果”模型预测的。201100表4. 合作层和竞争层对HICO-DET测试集的影响（默认设置下）。0模型完全稀有非稀有0我们没有使用两个层的结果 29.22 23.09 31.05我们没有使用竞争层的结果 30.78 24.92 32.53我们没有使用合作层的结果 30.68 24.69 32.47我们没有使用成对正向编码的结果 29.98 23.72 31.640我们的模型（1×合作，1×竞争） 31.33 26.02 32.91我们的模型（1×合作，2×竞争） 31.62 26.18 33.24我们的模型（2×合作，1×竞争） 31.66 25.94 33.360对于90%的负样本，我们还展示了得分相对于参考得分的变化分布，如图5所示。这些点自然地被半空间0≤x+y≤1所限制。值得注意的是，添加合作层导致正样本的得分平均增加了0.15，对负样本的影响很小。这可以从图5a中看出，几乎所有正样本的得分变化都大于零。相反，添加竞争层导致难负样本的得分平均降低了0.11，同时也导致正样本的得分略微降低。这个小的降低被合作层所抵消，如表3的最后一行所示。此外，从图5b可以看到，负样本的得分密集地分布在y=-x的直线附近，这表明许多负样本的得分被压制为零。0消融研究：在表4中，我们消除了不同设计决策对性能的影响。单独添加合作层和竞争层分别将性能提高了约1.5个mAP，而同时添加两个层则将性能提高了超过2个mAP。我们还通过从修改后的编码器和多分支融合模块中删除它们来证明了成对位置编码的重要性。这导致了1.3个mAP的下降。最后，我们观察到当添加一个额外的合作层或竞争层时略微改善了性能（0.3个mAP），但是添加更多层没有进一步的改进。由于竞争层的计算成本更高，我们使用了两个合作层。04.4. 交互头部的微观效应0在本节中，我们专注于一张特定的图像，并可视化我们的合作层和竞争层中的注意力效果。在图6中，我们展示了一张带有检测注释的图像及其来自一元（合作）层的注意力图。人-物对（1,4），（2,5）和（3,6）正在进行互动-骑马。除了沿对角线的注意力权重之外，我们可以看到相应的人和马实例彼此关注。0图6.检测到的人和物体实例（左）及其对应的一元注意力图（右）。0图7. 图6中人和物体实例的成对注意力图。0我们假设一对一元标记之间的注意力（例如，1和4）有助于增加相应对的交互分数。为了验证这个假设，我们手动将三个正对组之间的注意力对数设置为负无穷大，从而将相应的注意力权重归零。这样做的效果是三个对之间的交互分数平均减少了0.06（8%），支持这个假设。在图7中，我们可视化了成对（竞争）层的注意力图。值得注意的是，除了交互对本身之外，所有的人-物对都会关注交互对（1,4），（2,5）和（3,6），按照递减的顺序。我们假设这里的注意力作用是让主导对压制其他对。为了调查这个问题，我们手动设置权重，使得这三个交互对也都关注（1,4），权重为1。这导致它们的交互分数减少了0.08（11%）。然后，我们将其余对和（1,4）之间的注意力权重归零，这导致负对的分数略微增加。这些结果共同表明，竞争层中的注意力起到了非最大抑制的软版本作用，不太可能促进交互的对会被关注和被最主导的对所抑制。更多示例请参见附录。201110(a) 站在滑雪板上0(b) 拿着雨伞0(c) 拿着手提箱0(d) 坐在餐桌旁0(e) 坐在长凳上0(f) 驾驶飞机0(g) 拿着冲浪板0(h) 挥舞棒球棒0(i) 骑自行车0(j) 拿着酒杯0图8. 检测到的HOIs的定性结果。互动的人-物对由红线连接，交互分数显示在人框上方。分数低于0.2的对被过滤掉。0(a) 驾驶卡车0(b) 购买香蕉0(c) 修理笔记本电脑0(d) 清洗自行车0(e) 剪断领带0图9. 失败案例通常发生在互动存在歧义的情况下（a），（b），（c）或者缺乏训练数据的情况下（c），（d），（e）。04.5. 定性结果和局限性0在图8中，我们展示了几个成功的HOI检测的定性示例，其中我们的模型准确地定位了人和物体实例，并为交互对分配了高分数。例如，在图8b中，我们的模型正确识别了一个交互的主体（红衣女士），尽管她靠近一个非交互的人（黑衣女士）。我们还观察到在图8a中，当存在重叠和遮挡时，我们的模型变得不太自信。这源于我们的模型中使用了物体检测分数。物体检测器中的混淆通常会导致动作分类中的混淆。我们还展示了我们模型的五个代表性失败案例，说明了其局限性。在图9a中，由于训练集（和现实生活中）中驾驶员的位置不确定，模型难以识别驾驶员。对于图9d，由于缺乏训练数据（1个训练示例），模型无法识别该交互，尽管该动作是明确的。总体而言，动作的歧义性和数据不足是我们模型面临的最大挑战。我们模型的另一个特定局限性是，我们的成对层的计算和内存需求与一元标记的数量呈二次比例关系。对于涉及许多交互人物和物体的场景，这变得非常昂贵。此外，由于我们使用的数据集有限，我们可能在野外数据上表现较差，其中图像分辨率、光照条件等可能较少受控。05. 结论0在本文中，我们提出了一种使用新型Transformer架构的人-物互动的两阶段检测器，该架构利用了人和物体实例的一元和成对表示。我们的模型不仅优于当前的最先进的一阶段检测器，而且在训练时消耗的时间和内存要少得多。通过广泛的分析，我们证明了一元标记之间的注意力可以增加正例的分数，而成对标记之间的注意力则起到非极大值抑制的作用，降低负例的分数。我们展示了这两种效果是互补的，并且共同显著提高了性能。0潜在的负面社会影响：Transformer模型庞大且计算成本高，因此对环境造成了重大负面影响。为了减轻这种影响，我们使用预训练模型和两阶段架构，因为微调现有模型需要更少的资源，而训练一个阶段并固定另一个阶段也需要更少的资源。HOI检测模型也有被滥用的潜力，例如用于未经授权的监视，这会对少数族裔和边缘化社区产生不成比例的影响。0致谢：我们感谢ContinentalAG（D.C.）的支持。我们还要感谢Jia-BinHuang和Yuliang Zou对一些实验结果的再现的帮助。201120参考文献0[1] Nicolas Carion，Francisco Massa，GabrielSynnaeve，Nicolas Usunier，Alexander Kirillov和SergeyZagoruyko。使用Transformer进行端到端的目标检测。在欧洲计算机视觉会议上，2020年。2，3，5，60[2] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，Huayi Zeng和JiaDeng。学习检测人-物互动。在IEEE冬季计算机视觉应用会议上，2018年。1，2，4，50[3] Mingfei Chen，Yue Liao，Si Liu，Zhiyuan Chen，FeiWang和ChenQian。将HOI检测重新制定为自适应集合预测。在IEEE计算机视觉和模式识别会议上，2021年。3，50[4] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold,Sylvain Gelly, Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的Transformer。在国际学习表示会议上，2021年。20[5] Chen Gao，Jiarui Xu，Yuliang Zou和Jia-Bin Huang.DRG：用于人-物交互检测的双重关系图.在欧洲计算机视觉会议上，2020年。50[6] Georgia Gkioxari，Ross Girshick，Piotr Doll´ar和KaimingHe. 检测和识别人-物交互.在2018年IEEE计算机视觉模式识别会议上，2018年。50[7] Saurabh Gupta和Jitendra Malik. 视觉语义角色标记.arXiv预印本arXiv:1505.04474，2015年。4，50[8] Tanmay Gupta，Alexander Schwing和Derek Hoiem.无花样的人-物交互检测：分解、布局编码和训练技巧.在国际计算机视觉会议上，2019年。1，4，50[9] Kaiming He，Xiangyu Zhang，Shaoqing Ren和Jian Sun.用于图像识别的深度残差学习.在2016年IEEE计算机视觉模式识别会议上，2016年。5，60[10] Zhi Hou，Xiaojiang Peng，Yu Qiao和Dacheng Tao.用于人-物交互检测的视觉组合学习.在欧洲计算机视觉会议上，2020年。50[11] Zhi Hou，Baosheng Yu，Yu Qiao，XiaojiangPeng和Dacheng Tao. 用于人-物交互检测的可供性转移学习.在2021年IEEE计算机视觉模式识别会议上，2021年。3，50[12] Zhi Hou，Baosheng Yu，Yu Qiao，XiaojiangPeng和Dacheng Tao. 通过制造的组合学习检测人-物交互.在2021年IEEE计算机视觉模式识别会议上，2021年。3，50[13] Bumsoo Kim，Junhyun Lee，Jaewoo Kang，Eun-SolKim和Hyunwoo J. Kim. Hotr：端到端的人-物交互检测与变压器.在2021年IEEE计算机视觉模式识别会议上，2021年。3，50[14] Yong-Lu Li，Xinpeng Liu，Han Lu，Shiyi Wang，JunqiLiu，Jiefeng Li和Cewu Lu. 用于人-物交互的详细2D-3

下载后可阅读完整内容，剩余1页未读，立即下载