交互提案的结构感知Transformer用于人物-物体交互检测

163 浏览量更新于2023-10-25 收藏 17.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Vanilla TransformerDetectionInteraction ProposalNetworkCNNParametric interaction queriesStructure-aware TransformerCNNNo interactionNo interactionhuman-bathuman-bat human-bathuman-gloveIntra-interaction spatial structureInter-interaction semantic structure195480探索基于交互提案的结构感知Transformer用于人物-物体交互检测�0Yong Zhang†，Yingwei Pan‡，Ting Yao‡，Rui Huang†，Tao Mei‡，和Chang-Wen Chen§0†香港中文大学深圳，‡京东探索学院，§香港理工大学0yongzhang@link.cuhk.edu.cn，{panyw.ustc，tingyao.ustc}@gmail.com，ruihuang@cuhk.edu.cn0tmei@jd.com，changwen.chen@polyu.edu.hk0摘要0最近，高性能的人物-物体交互（HOI）检测技术受到了基于Transformer的物体检测器（即DETR）的很大影响。然而，其中大多数直接通过普通Transformer将参数化的交互查询映射为一组HOI预测，以一阶段的方式进行。这使得丰富的交互结构未被充分利用。在这项工作中，我们设计了一种新颖的Transformer风格的HOI检测器，即基于交互提案的结构感知Transformer（STIP），用于HOI检测。这种设计将HOI集预测的过程分解为两个后续阶段，首先进行交互提案生成，然后通过结构感知Transformer将非参数化的交互提案转化为HOI预测。结构感知Transformer通过额外编码交互提案之间的整体语义结构以及每个交互提案中人/物体的局部空间结构，从而增强HOI预测。在V-COCO和HICO-DET基准测试上进行了大量实验证明了STIP的有效性，并与最先进的HOI检测器进行了比较，取得了优越的结果。源代码可在以下网址找到：0https://github.com/zyong812/STIP01. 引言0人物-物体交互（HOI）检测[5,11]旨在定位图像中的交互人物-物体对并识别其之间的交互，以�人物，物体，交互�三元组的形式给出HOI预测。实际的HOI检测系统在以人为中心的场景下执行。0*本工作是在京东探索学院进行的。0（a）以前的Transformer风格的HOI检测器0（b）基于交互提案的结构感知Transformer（STIP）0图1.现有的Transformer风格的HOI检测器与我们的STIP之间的比较。（a）现有的Transformer风格的HOI检测器通过普通Transformer将参数化的交互查询直接转换为HOI预测，以一阶段的方式进行。（b）STIP采用两阶段解决方案，首先通过交互提案网络生成交互提案，然后将非参数化的交互查询（即交互提案）映射为HOI预测。通过结构感知Transformer进一步利用从交互提案中得出的交互结构和内部交互结构来提升HOI集合预测的性能。0站立，因此对于许多应用具有巨大的潜在影响，例如监视事件检测[1,7]和机器人模仿学习[2]。一般来说，传统的HOI检测器[8-10, 16, 24, 27, 32,38-40]通过将其形式化为人/物/交互的替代回归和分类问题，以间接的方式解决HOI集预测任务。这种间接方法需要通过折叠近似重复的预测和启发式匹配[16, 24,40]进行后处理，因此无法以端到端的方式进行训练，导致了次优解。为了克服次优解的问题，最近的最先进的HOI检测器[6, 17, 36,50]遵循了DETR的基于Transformer的检测器[3]，将HOI检测视为直接的集合预测问题，并采用了“端到端”的理念（图1（a））。10,14,15,22,23,27,28,32,37–39,43,47] mainly adopt two-stage paradigm, i.e., first detect humans/objects via off-the-shelf modern object detectors (e.g., Faster R-CNN [33])and then carry out interaction classification. A number ofschemes have been proposed to strengthen the HOI featurelearning in the second stage for interaction classification.Generally, similar to prior works for visual relationship de-tection [18,29,42,45,46], HOI features are typically derivedfrom three perspectives [4, 9, 10]: appearance/visual fea-tures of humans and objects, spatial features (e.g., the pair-wise bounding boxes of human-object pair), and linguis-tic feature (e.g., the semantic embeddings of human/objectlabels). Various approaches [8, 13, 32, 37, 38, 44] furthercapitalize on message passing mechanism to perform rela-tional reasoning over instance-centric graph structure, aim-ing to enrich HOI features with global contextual informa-tion among human and object instances. The authors in [39]devise contextual attention mechanism to facilitate the min-ing of contextual cues. Moreover, the information about hu-man pose [12, 23, 47], body parts [49] or detailed 3D bodyshape [21] can also be exploited to enhance HOI feature rep-resentation. In [28,41], additional knowledge from externalsource and language domain are further exploited to boostHOI feature learning. Most recently, the ATL scheme [14]constructs the affordance feature bank across multiple HOIdatasets and injects affordance feature into object represen-tations when inferring interactions.One-stage Approaches. The second category schemesmainly construct one-stage HOI detectors [6,16,17,24,36,40,48,50] by directly predicting HOI triplets, which are po-tentially faster and simpler than two-stage HOI detectors.UnionDet [16] is one of first attempts that directly detectsthe union regions of human-object pairs in a one-stage man-ner. Other schemes [24, 40] formulate HOI detection as akeypoint detection problem, and thus enable one-stage so-lution for this task. Most recently, inspired by the success of195490特别地，通常使用基础Transformer以一阶段方式将参数化的交互查询（即可学习的位置嵌入序列）映射为一组HOI预测。然而，这些HOI检测器从具有随机初始化嵌入的参数化交互查询开始HOI集预测。也就是说，参数化交互查询与输出HOIs之间的对应关系（通常通过匈牙利算法进行训练分配）是动态的，即在HOI集预测开始时，每个目标HOI（例如，“人拿着球棒”）对应的交互查询是未知的。这可能会不利地阻碍先验知识（即交互内部或交互间结构）的探索，而这对于HOI集预测中的关系推理将非常有用。具体而言，通过交互内部结构，我们指的是HOIs之间的整体语义依赖关系，可以通过考虑两个HOIs是否共享同一个人或物体来直接定义。这种结构暗示了共同的常识知识，有助于通过利用其与其他HOIs的语义依赖关系来预测一个HOI。以图1中的输入图像为例，“人戴（棒球）手套”的存在为“（另一个）人拿着球棒”提供了强有力的线索。此外，交互内部结构可以解释为每个HOI的局部空间结构，即人和物体的布局，这作为额外的先验知识，可以引导模型在图像区域上关注交互。在这项工作中，我们设计了一种基于Transformer风格的HOI检测器的新方案，即基于交互提案的结构感知Transformer（STIP）。设计创新之处在于将集合预测的一阶段解决方案分解为两个级联阶段，即首先生成交互提案（即可能的交互人-物对），然后基于交互提案进行HOI集预测（图1（b））。通过将来自交互提案网络（IPN）的交互提案作为非参数化交互查询，STIP自然地以更合理的交互查询触发后续的HOI集预测，从而实现了静态的查询-HOI对应关系，能够提升HOI集预测。作为一个有益的副产品，预测的交互提案为构建交互提案之间或交互提案内部的结构化理解提供了丰富的基础。相应地，设计了一种特殊形式的Transformer，即结构感知Transformer，用于编码交互内部或交互间结构，以增强HOI预测。总之，我们做出了以下贡献：（1）所提出的基于Transformer风格的HOI检测器的两阶段实现能够无缝地将潜在的HOI提案之间的交互融入到HOI预测中以0克服了一阶段方法所面临的问题；（2）精心设计的结构感知Transformer能够为利用交互内部和交互间结构提供额外的利用机会，以提高基础Transformer的性能；（3）通过对V-COCO和HICO-DET数据集进行大量实验，验证了所提出的结构感知Transformer方法的潜力，以解决一阶段方法所面临的问题，实现理想的HOI检测。02. 相关工作0人-物交互（HOI）检测任务最初是由[5,11]定义的，最近的HOI检测器的发展可以简要地分为两类：两阶段方法和一阶段方法。两阶段方法。第一类方案[4, 8-Transformer encoder-decoder+...0.90.90.70.60.1......195500自注意力0交叉注意力0无交互0< 人，手套，穿戴>0< 人，蝙蝠，持有>0图像特征图0位置编码0人-蝙蝠人-手套0人-蝙蝠人-蝙蝠0内部交互空间结构间接交互语义结构0互动性0预测0(b) 交互提案网络0交互提案0(c) 基于交互的图0DETR0表示0构建0人-物对0(d) 结构感知Transformer0输入图像0输出HOIs0互动性0分数0(a) 目标检测0图2. 我们提出的STIP框架概述。（a）给定输入图像，我们采用现成的DETR来检测图像中的人和物体实例。（b）基于检测到的人和物体实例，交互提案网络（IPN）构建所有可能的人-物体对，然后预测每个人-物体对的互动性得分。具有最高互动性得分的最具互动性的人-物体对被视为输出交互提案。（c）接下来，通过将所有交互提案作为图节点并利用语义连接作为边，我们构建了一个以交互为中心的图，展示了丰富的交互-交互语义结构和内部交互空间结构。（d）最后，利用结构感知Transformer将非参数化的交互查询（即交互提案）转化为一组HOI预测，并通过从以交互为中心的图中导出的交互-交互结构进一步引导关系推理。0基于Transformer的目标检测器（例如DETR[3]），通过使用Transformer风格的架构，HOI检测的突破性进展一直在持续。特别地，[36,50]中的作者使用单个交互Transformer解码器来预测一组HOI三元组，并且整个架构可以通过匈牙利损失进行端到端的优化。然而，[6,17]中的作者设计了两个并行的Transformer解码器来检测交互和实例，并且输出进一步关联以产生最终的HOI预测。这个方案。提出的STIP也可以被视为一种Transformer风格的架构，它将HOI检测作为一个集合预测问题来解决，从而消除了后处理，并使得架构可以进行端到端的训练。与现有的Transformer风格方法[6, 17, 36,50]不同，这个提出的STIP将这个过程分解为两个阶段：首先，该方案生成高质量的交互提议作为交互查询，然后将它们作为非参数查询触发HOI集合预测。此外，这个STIP方案通过利用结构感知Transformer来利用丰富的交互结构或内部交互结构，从而提高HOI检测的性能。03. 方法0在这项工作中，我们设计了基于结构感知的交互提议变换器（STIP），将HOI检测作为一个两阶段的集合预测问题。同时，该方案通过先验知识提升了HOI集合预测的性能。0对于交互和内部交互结构的知识。图2显示了提出的STIP的概述。整个框架由四个主要组件组成，即用于目标检测的DETR，用于生成交互提议的交互提议网络，用于构建以交互为中心的图的交互中心图构建，以及用于HOI集合预测的结构感知Transformer。具体来说，首先采用现成的DETR[3]来检测输入图像中的人和物体。接下来，基于检测结果，我们设计了交互提议网络（IPN）来选择最具交互性的人-物体对作为交互提议。然后，我们将所有选择的交互提议作为图节点，构建一个以交互为中心的图，揭示交互-交互语义结构和内部交互空间结构。选择的交互提议进一步作为非参数查询，通过利用从交互中心图中导出的结构化先验知识来触发HOI集合预测，从而加强关系推理。03.1. 交互提议网络0在DETR检测到的人和物体实例的条件下，交互提议网络（IPN）旨在生成交互提议，即可能的人-物体交互对。具体来说，我们首先构建所有可能的人-物体对，通过检测到的人和物体之间的成对连接。对于每个人-物体对，IPN通过多层感知器（MLP）进一步预测它们之间存在交互的概率（即“交互性”得分）。只有具有最高交互性得分的前K个人-物体对最终作为输出的交互提议。H1O1i1H2O2i2H1,H2O1i1O2i2H1i1H2O1,O2i2O1,H2H1i1O2i2O1i1H2H1,O2i2H1,H2O1,O2i1,i2disjunctivesame-humanseries-opposingseriessame-objectsame-pairHuman-Object Pairs Construction. Here we connecteach pair of detected human and object instances, yield-ing all possible human-object pairs within the input im-age. Each human-object pair can be represented from threeperspectives, i.e., the appearance feature, spatial feature,and linguistic feature of human and object.In particu-lar, the appearance feature is directly represented as theconcatenation of human and object instance features de-rived from DETR (i.e., the 256-dimensional region fea-ture before final prediction heads). By defining the nor-malized center coordinates of human and object bound-ing boxes as (chx, chy) and (cox, coy), we measure the spa-tial feature as the concatenation of all geometric properties,by encoding the label name of object (one-hot vector) into300-dimensional vector. The final representation of eachhuman-object pair is calculated as the concatenation of ap-pearance, spatial, and linguistic features.Interactiveness Prediction.The interactiveness pre-diction module in IPN takes the feature of each human-object pair as input, and learns to predict the probabilitywhether interactions exist between this pair, i.e., interactive-ness score. We frame this sub-task of interactiveness pre-diction as binary classification problem, and implement thismodule as MLP coupled with Sigmoid activation. Duringtraining, for each input image, we sample at most K human-object pairs, which consist of positive and negative pairs.Note that if both IoUs of predicted human and object bound-ing boxes in one human-object pair w.r.t ground-truths arelarger than 0.5, we treat this pair as positive sample, other-wise it is a negative sample. One natural way to fetch neg-ative pairs is to use randomly sampling strategy. Instead,here we employ hard mining strategy [35] to sample nega-tive pairs with high predicted interactiveness scores, aimingto facilitate the learning of interactiveness prediction. Afterfeeding all the N sampled human-object pairs in a mini-batch into interactiveness prediction module, we optimizethis module with focal loss [25] (FL):FL(ˆzi, zi),(1)42130backgroundhumanunionobjectintersectionbackgroundunionhumanobjectintersection195510图3. 定义了六种相互作用语义依赖关系 � HOI( i 2 ) → HOI( i 1 ) �，即交互 HOI( i 1 ) 和 HOI( i 2 )之间的依赖关系（方块：人/物体实例，圆圈：交互）。0L proposal = 1 ÷ N i =1 z i0N÷0(a) 交互提议 (b) 空间结构 (c) 每个位置的分配标签0图4. 每个交互的内部-交互空间结构定义：(a)图像中的交互提议；(b)空间结构，即该交互中每个组件的布局；(c)图像中每个位置的分配标签。0其中 z i ∈ { 0 , 1 } 表示真值中是否存在交互，ˆ z i为预测的交互性得分。在推理过程中，只有具有最高交互性得分的前K个人-物对被视为交互提议。03.2. 交互中心图0基于通过IPN选择的每个输入图像的所有交互提议，我们接下来介绍如何构建一个完全展开了交互和内部-交互结构丰富先验知识的交互中心图。从技术上讲，我们将每个交互提议视为一个图节点，交互中心完全图通过将每两个节点密集连接而构建。交互间语义结构。直观上，在同一图像中的交互之间存在自然的语义结构。例如，当我们在图像中找到“人类拿着鼠标”的交互时，很可能提到的“人类”与“人类看屏幕”的另一个交互相关联。这激发了我们利用交互间语义结构中蕴含的常识知识来提升HOI检测中的关系推理。形式上，我们将方向性语义连接表示为� HOI( i 2 ) → HOI( i 1) � ，表示交互提议HOI( i 1 )相对于交互提议HOI( i 2)的相对语义依赖。因此，根据两个交互提议是否共享相同的人类或物体实例，定义了六种交互间语义依赖关系，如图3所示。具体而言，如果HOI( i 1 )和HOI( i 2)不共享任何人类/物体实例，则将它们的依赖关系分类为“分离”（类别0）。如果HOI( i 1 )和HOI( i 2)只共享相同的人类/物体实例，则将依赖关系的标签设置为“相同-人类”（类别1）或“相同-物体”（类别2）。当HOI( i 1 )的人类/物体实例正好是HOI( i 2)的物体/人类实例时，将依赖关系分类为“序列-对立”（类别3）和“序列”（类别4）。如果HOI( i 1 )和HOI( i 2)的人类和物体实例都相同，则该依赖关系的标签为“相同-对”（类别5）。内部-交互空间结构。整个交互中心图上的交互间语义结构仅展开了所有交互提议之间的整体语义依赖关系，而未利用每个交互提议内部的人类/物体的局部空间结构。因此，我们使用内部-交互空间结构来表征每个图节点，Scaled dot-product & SoftmaxHOI representation(E.g., human-bat)Image feature mapWeighted sumAdd & NormMulti-head cross-attention+Layout flagsPosition encodingAttention weightsф backgroundhumanunionobjectintersectionLayoutembedding195520可以解释为相应交互提议中每个组件的布局（参见图4）。具体而言，我们首先确定整个图像上每个组件（即背景、并集、人、物体和交集）的空间位置，然后根据相应组件将布局标签lij∈{0，1，2，3，4}分配给该图像中的每个位置。03.3. 结构感知Transformer0有了K个交互提议和以交互为中心的图，我们接下来介绍如何将交互和交互内部结构的先验知识整合到STIP中的关系推理中，以进行HOI集预测。具体而言，我们设计了一种结构感知Transformer，通过结构感知自注意力和交叉注意力模块，以上下文方式对所有交互提议进行编码，并生成用于预测HOI三元组的结构感知HOI特征。初步。我们首先简要回顾了在视觉任务中广泛采用的vanilla Transformer [19, 20,30, 31]，它利用注意机制将一系列查询q =(q1，...，qm)和一组键值对（k = (k1，...，kn)，v =(v1，...，vn)）转换为输出序列o =(o1，...，om)。每个输出元素oi通过加权聚合所有值与注意力加权：oi = �0jαij(Wvvj)，其中每个注意权重0jexp(eij)）。这里，主要的注意权重eij是每个键kj和查询qi之间的缩放点积：0eij = (Wqqi)T(0dkey. (2)0注意，dkey是键的维度，Wq，Wk，Wv是可学习的嵌入矩阵。结构感知自注意力。现有的Transformer类型的HOI检测器通过自注意力模块在vanillaTransformer中进行交互关系推理以进行HOI集预测。然而，vanillaTransformer中的关系推理过程由参数化的交互查询触发，并且未充分利用交互结构的先验知识。作为一种替代方法，我们的结构感知Transformer从非参数化查询（即所选的交互提议）开始进行HOI集预测，并通过结构感知自注意力模块进一步升级传统的关系推理，以获得交互之间的语义结构。具体而言，通过将K个交互提议q作为交互查询、键和值，结构感知自注意力模块在交互之间进行交互结构感知推理，以增强每个交互的HOI表示。受[34]中相对位置编码的启发，我们补充每个键qj0查询0键0值0图5. 结构感知交叉注意力模块。0与其关于查询qi的交互内部语义依赖的编码进行补充，其度量方式为qi和相应语义依赖标签dij∈{0，1，...，5}的连接。通过这种方式，我们通过修改公式（2）将交互内部语义结构纳入注意权重的学习中：0e self ij = (Wqqi)T(Wkqj + 0dkey，(3)0其中，Edep表示语义依赖标签的嵌入矩阵，ψ实现为一个两层的MLP，用于编码交互语义依赖的内部交互。因此，结构感知自注意力模块的输出中间HOI特征ˆq赋予了交互之间的整体语义结构。结构感知交叉注意力。接下来，基于中间HOI特征ˆq，利用结构感知交叉注意力模块（参见图5）进一步增强HOI特征，通过利用交互和DETR中原始图像特征图之间的上下文信息。形式上，我们将K个中间HOI特征ˆq =(ˆq1，...，ˆqK)作为查询，将图像特征图x =(x1，...，xn)作为键和值。结构感知交叉注意力模块在图像特征图上执行交互内部结构感知推理，以增强每个交互的HOI特征。类似于结构感知自注意力模块，每个键xj都与其分配的布局标签lij∈{0，1，2，3，4}的交互内部空间结构的编码进行补充。因此，结构感知交叉注意力模块中的注意权重学习与交互内部空间结构相结合，其度量方式为：0e cross ij = (W ˆq ˆqi)T (W ˆk xj 0d key , (4)0其中 posj 是位置编码，Elay是布局标签的嵌入矩阵，我们将 ϕ实现为一个两层的MLP来编码内部交互空间结构。03.4. 训练目标0在训练过程中，我们将结构感知Transformer的最终输出HOI表示输入到交互分类器（实现为一个两层的MLP）中，以预测每个交互提议的交互类别。目标函数为：N�i=1C195530交互分类的损失使用focal loss来衡量：0L cls = 1 � N i=1 � C c=1 y_ic0c =1 FL(ˆy_ic, y_ic), (5)0其中 C 是交互类别的数量，y_ic ∈ {0, 1} 表示第 i个提议的标签是否包含第 c 个交互类别，而 ˆy_ic 是第 c个交互类别的预测概率。因此，我们的STIP的整体目标是将公式（1）中的交互性预测目标和公式（5）中的交互分类目标整合起来：0L ST IP = L proposal + L cls. (6)04. 实验0在这里，我们在两个常见的HOI检测数据集V-COCO[11]和HICO-DET [4]上进行了实证评估。04.1. 数据集和实验设置0V-COCO是一个用于基准测试HOI检测的流行数据集，它是MS-COCO[26]的一个子集，涵盖了29个动作类别。该数据集包括2,533个训练图像、2,867个验证图像和4,946个测试图像。我们采用[17]中的设置，将平均精度（AProle）作为评估指标，针对25个交互进行评估。根据不同的评分标准，报告了两种AP role，即AP #1 role和AP #2role，用于处理物体遮挡情况。具体而言，在AP #1role的情况下，模型应该能够通过预测其边界框的2D位置为[0,0,0,0]来正确推断被遮挡的对象，同时精确地定位相应的人边界框并识别其之间的交互。相反，在AP #2role的情况下，无需推断被遮挡的对象。HICO-DET是一个更大的HOI检测基准数据集，包含37,536个训练图像和9,515个测试图像。整个数据集涵盖了600个�人，物体，交互�三元组的类别，涵盖了MS-COCO[26]中的80个物体类别和117个动词类别。我们遵循[4]的设置，在两个不同的设置（Default和KnownObject）下报告mAP。其中，Default设置表示mAP是在所有测试图像上计算的，而KnownObject则仅针对包含该对象类别的图像计算每个对象的AP。对于每个设置，我们报告了三个不同的HOI类别集合上的AP，即Full（所有600个HOI类别）、Rare（包含少于10个训练样本的138个HOI类别）和Non-Rare（包含10个或更多训练样本的462个HOI类别）。实现细节：为了与最先进的基线模型进行公平比较，我们采用了在MS-COCO上预训练的相同目标检测器DETR（骨干网络：ResNet-50），并且在DETR中所有可学习参数都被冻结。0方法骨干网络特征 AP #1 角色 AP #2 角色0一阶段方法UnionDet [16] R50 A 47.5 56.2 IPNet [40] HG-104A 51.0 - GGNet [48] HG-104 A 54.7 - HOITrans [50] R50 A52.9 - AS-Net [6] R50 A 53.9 - HOTR [17] R50 A 55.2 64.4QPIC [36] R50 A 58.8 61.00两阶段方法 InteractNet [10] R50-FPN A 40.0 48.0 GPNN [32]R101 A 44.0 - TIN [23] R50 A+S+P 48.7 - DRG [8] R50-FPNA+S+L 51.0 - FCMNet [27] R50 A+S+L+P 53.1 - ConsNet[28] R50-FPN A+S+L 53.2 - IDN [22] R50 A+S 53.3 60.30STIP (我们的方法) R50 A 65.1 69.70STIP (我们的方法) R50 A+S+L 66.0 70.70表1.V-COCO数据集上的性能比较。特征列中的字母表示输入特征：A（外观/视觉特征），S（空间特征[ 9]），L（标签语义嵌入的语言特征），P（人体姿势特征）。0在[ 17]中进行训练。在HICO-DET数据集上，我们还报告了在HICO-DET上微调DETR的结果，以及进一步联合微调目标检测器和HOI检测器的性能。在实验中，我们选择了前32个最可能的人-物交互对作为交互提议网络的输出交互提议。我们提出的结构感知Transformer由6个堆叠层（结构感知自注意力加交叉注意力模块）组成。整个架构在2个Nvidia2080tiGPU上使用AdamW优化器进行训练。小批量大小为8，初始学习率设置为5 × 10−5。最大训练时期数为30。04.2. 性能比较0V-COCO. 表1总结了在V-COCO上以AP #1角色和AP#2角色为指标的性能比较。总体而言，在相同骨干网络（ResNet-50，简称R50）下，我们的STIP相对于现有技术，包括一阶段方法（如UnionDet，AS-Net，HOTR和QPIC）和二阶段方法（如FCMNet，ConsNet和IDN），始终表现出更好的性能。结果通常突出了两阶段HOI集合预测和对相互作用结构的利用的关键优势。特别是，传统的两阶段HOI检测器（如GPNN，TIN，DRG）通常构建基于实例的图来挖掘实例之间的上下文信息。相反，最近的基于Transformer风格的HOI检测器（如HOITrans，AS-Net，HOTR，QPIC）充分利用了纯Transformer来执行实例/相互作用之间的关系推理，从而提高了性能。然而，当仅使用外观特征（A）时，HOTR和QPIC的AP #1角色和AP #2角色our195540方法骨干网络特征默认已知对象0全部罕见非罕见全部罕见非罕见0在MS-COCO上预训练的目标检测器 InteractNet [ 10 ] R50-FPN A 9.94 7.16 10.77 - - - GPNN [ 32 ] R101 A13.11 9.41 14.23 - - - UnionDet [ 16 ] R50 A 14.25 10.23 15.46 19.76 14.68 21.27 TIN [ 23 ] R50 A+S+P17.22 13.51 18.32 19.38 15.38 20.57 IPNet [ 40 ] R50-FPN A 19.56 12.79 21.58 22.05 15.77 23.92 DRG [ 8] R50-FPN A+S+L 19.26 17.74 19.71 23.40 21.75 23.89 FCMNet [ 27 ] R50 A+S+L+P 20.41 17.34 21.5622.04 18.97 23.12 ConsNet [ 28 ] R50-FPN A+S+L 22.15 17.12 23.65 - - - IDN [ 22 ] R50 A+S 23.36 22.4723.63 26.43 25.01 26.85 HOTR [ 17 ] R50 A 23.46 16.21 25.60 - - - AS-Net [ 6 ] R50 A 24.40 22.39 25.0127.41 25.44 28.000STIP (我们的方法) R50 A 28.11 25.85 28.78 31.23 27.93 32.220STIP (我们的方法) R50 A+S+L 28.81 27.55 29.18 32.28 31.07 32.640在HICO-DET DRG [ 8 ]上微调的目标检测器 R50-FPN A+S+L 24.53 19.47 26.04 27.98 23.11 29.43 ConsNet [28 ] R50-F

下载后可阅读完整内容，剩余1页未读，立即下载