视觉关系检测与复合查询中的部分和求和Transformer方法

169 浏览量更新于2023-10-15 收藏 12.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

CNNTransformer Encoder…Structure data predictionPart decoding……Sum decodingPart-Sum InteractionPerson-wear-shirtPerson-Next to-Person…Composite queriesSumPartsSubjectObjectPredicateSubjectObjectPredicate35500使用部分和求和Transformer进行视觉关系检测与复合查询0Qi Dong Zhuowen Tu Haofu Liao Yuting Zhang Vijay Mahadevan Stefano SoattoAmazon Web Services0{ qdon,ztu,liahaofu,yutingzh,vmahad,soattos } @amazon.com0摘要0计算机视觉应用，如视觉关系检测和人体对象交互，可以被形式化为一个复合（结构化）集合检测问题，其中部分（主语、宾语和谓词）和求和（整个三元组）都需要以层次结构的方式进行检测。在本文中，我们提出了一种新方法，称为部分和求和检测Transformer（PST），用于进行端到端的视觉复合集合检测。与现有的Transformer不同，其中查询位于单个级别，我们使用复合查询和注意力模块同时建模部分和求和的联合假设/交互。我们明确地引入求和查询，以更好地建模标准Transformer中缺失的部分和求和关系。我们的方法还使用了基于张量的部分查询和基于向量的求和查询，并建模它们的联合交互。我们在两个视觉任务上进行了实验，即视觉关系检测和人体对象交互，并证明PST在单阶段模型中取得了最先进的结果，同时几乎与定制的两阶段模型的结果相匹配。01. 引言0在本文中，我们研究了视觉关系检测（VRD）和人体对象交互（HOI）等问题，其中需要在图像中检测和定位一个由两级（部分和求和）层次结构组成的复合集合。在VRD和HOI中，输出由一组实体组成。每个实体被称为“求和”，表示由部分组成的三元组结构：在VRD中为（主语，宾语，谓词），在HOI中为（人体，交互，对象）。求和和部分的结构自然形成了一个两级层次的输出，求和位于根级别，部分位于叶级别。在复合集合检测的一般设置中，层次结构由两个级别组成，但部分的数量可以是任意的。在VRD中存在许多现有方法。0部分和求和Transformer解码器0（a）流程概述。0（b）部分和求和Transformer解码器。图1：部分和求和Transformer（PST）进行视觉复合集合检测的概述。0VRD和HOI是基于两阶段过程的，首先检测一些部分（例如VRD中的主语和宾语），然后检测关联（求和）和附加部分（谓词）。VRD和HOI也存在一阶段的端到端学习方法。实际上，两阶段方法能够产生更好的性能，而一阶段方法更容易训练和使用。目标检测器的任务是在输入图像中检测和定位所有有效的对象，使输出成为一个集合。尽管像FasterRCNN这样的目标检测器被认为是端到端可训练的，但它们执行实例级别的预测，并需要使用非极大值抑制进行后处理，以恢复图像中的所有对象集合。Transformer和其在目标检测中的扩展使得通过消除锚点提议和非极大值抑制实现了集合级别的端到端学习。在本文中，我们将视觉关系检测（VRD）和人体对象交互（HOI）作为复合集合（两级层次结构）检测问题，并提出了一种新方法，即部分和求和Transformer（PST）来解决这些问题。PST与现有的检测Transformer不同，每个对象在其中由一个基于向量的查询表示，要么是一个级别的集合。我们展示了建立一个明确的“求和”表示对于同时表示整个三元组的重要性。PredicateSubject, Object,235510(II)分解的SA0CA0SA0总和分支部分分支0CA0(c)复合查询0内部关系SA0跨关系SA(II)分解的SA0(I)部分-总和交互总和查询：0一个关系部分查询：0复合查询0图像内存0CA0SA0CA0(a)基于向量的查询 (b)基于张量的查询0(II)分解的SA0图2：具有复合查询的部分和总和Transformer解码器。我们比较了各种具有不同查询设计的Transformer。注意CA：交叉注意层；SA：自注意层。0模型化/参与部分查询(例如，主语、宾语和谓词)。全局特征和部分特征也在鉴别训练的基于部分的模型(DPM)算法[9]中进行了建模，尽管那里的全局和部分交互仅限于相对空间位置。总之，我们开发了一种新方法，部分和总和Transformer(PST)，通过创建复合查询和复合注意机制来解决复合集合检测问题，以考虑总和(基于向量的查询)和部分(基于张量的查询)表示。通过系统实验，我们研究了总和和部分查询以及Transformer中的内部和跨令牌注意力的作用。所提出的PST算法在VRD和HOI任务中的有效性得到了证明。02. 相关工作0标准的目标检测任务[27]是一个集合预测问题，其中每个元素都指的是一个边界框。如果预测输出是一个多层次的层次结构，例如人→脸→鼻子，那么依赖于从整个窗口提取的特征的标准滑动窗口方法[33]将不再足够。存在进行层次推理的算法[57, 34,38]，但它们不是端到端训练的。在这里，我们研究需要对包括视觉关系检测(VRD)[29, 21]和人物对象交互(HOI)[11,35,4]在内的两级结构集合进行预测的问题。我们旨在开发一种通用的端到端训练的复合集合检测算法，该算法采用了一种新的Transformer设计，与以前的两阶段[29, 16, 30, 54,54, 36, 4, 24, 14, 10]和单阶段方法[50, 49, 15,19]不同。和我们的部分和总和方法相关的总和和最大值的概念[34]，但是这两种方法在许多方面存在很大的差异。在结构建模方面，结构预测问题(或语义标记)在机器学习[22,41]和计算机视觉[37,42]中已经进行了长时间的研究。Transformer[44]最近已经应用于许多计算机视觉任务[7, 39, 40, 48,18]。值得注意的是，0基于Transformer的目标检测器(DETR)[3]已经显示出与基于CNN和NMS的非全可微模型(例如FasterRCNN[33])相当的结果。可变形DETR[58]在保持DETR的端到端可微性的同时，达到了先前最先进的性能。最近的一项尝试[60]也将DETR应用于HOI任务。我们提出的部分和总和Transformer(PST)在算法设计上与之不同，通过开发复合查询和复合注意力来同时建模全局和局部信息以及它们之间的交互。03. 用于视觉关系检测的部分和总和Transformer0在本节中，我们描述了用于视觉复合集合检测的PST公式。我们以VRD为例，该公式可以直接扩展到HOI，假设主体始终是人，谓词是与对象的交互。给定一张图像I，VRD的目标是检测一组视觉关系S = {Ri}Ni =1。每个视觉关系Ri，一个总和，有三个部分：主语、宾语和谓词，即Ri = {si, pi,oi}。对于每个Ri，主语和宾语都有类别标签si和oi以及边界框sbi和obi。谓词有一个类别标签pi。因此，VRD是一个复合集合检测任务，集合中的每个实例都是由三个部分组成的复合实体。03.1. 概述0所提出的PST的概述如图1(a)所示。给定一张输入图像，我们首先从CNN主干网络中获取图像特征图。带有可学习位置嵌入的图像特征进一步通过标准[3]或可变形[58]变压器编码器进行编码/标记化。这些标记化的图像特征和一组可学习的查询被放入变压器解码器中，以推断出每个复合数据的类别和位置。与标准目标检测不同，复合集检测不仅检测所有对象实体，还检测实体级别的结构。fPart(QP ) = SA(QP1 , ..., QPM)= SA(qs1, qp1, qo1, ..., qsM, qpM, qoM)ϕPart(QP , I) = CA([QP1 , ..., QPM], I),(1)fSum(QG) = SA(qG1 , ..., qGM)ϕSum(QG, I) = CA([qG1 , ..., qGM], I)(2)335520为了准确地对复合数据进行建模，我们提出了基于复合查询的部分和总和变压器解码器，以在实体和关系级别上学习每个复合/结构数据，如图1(b)所示。在接下来的章节中，我们详细介绍了PST模型以及训练和推断的相应过程。03.2. 部分和总和变压器（PST）0为了构建PST模型，我们首先描述了用于复合集预测的基于向量的查询、基于张量的查询和复合查询。然后，我们基于复合查询制定了复合变压器解码器层。03.2.1 复合数据的查询设计0基于向量的查询DETR中使用的标准解码器将一组基于向量的查询作为输入，如图2(a)所示。在将这个公式应用于关系检测任务时，可以使用前馈网络（FFNs）直接从每个查询的输出中预测主谓宾三元组。这种直接扩展DETR的方法作为一个合理的基准，但是由于每个查询将部分及其相互作用混合在一个向量中，因此是次优的。这使得部分及其相互作用被隐式地建模，限制了视觉关系模型的表达能力和表示能力。基于张量的查询为了明确地建模部分及其关系（例如主语、谓语和宾语），我们提出了一种使用不相交子向量作为子查询的基于张量的查询表示。具体来说，对于VRD，在基于张量的查询表示中，三个子查询分别表示主语、谓语和宾语。所有查询一起形成一个M×P×D矩阵，其中M是查询的数量，P是关系中实体的数量（P=3），D是子查询的特征维度。这种公式使得变压器解码器可以逐部分解码，如图2(b)所示。从技术上讲，基于向量的查询将每个关系表示为整体/总和，而基于张量的查询将部分分离地建模。查询设计上的差异导致了学习到的上下文的差异：基于向量的查询之间的自注意层挖掘了关系之间的上下文，而基于部分查询之间的自注意层挖掘了部分之间的上下文。复合查询一方面，基于向量的查询能够将关系捕捉为总和/整体，但是部分存在固有的歧义。另一方面，基于张量的查询明确地建模了每个部分，但是它缺乏关系作为总和的知识，这对于主宾关联是重要的。基于上述观察，我们提出了一种复合查询表示。形式上，每个复合查询Qi由0部分查询QP i（张量查询）以及总和/整体查询qGi（基于向量的查询）。在VRD中，每个复合查询Qi由三个子查询表示主语、谓语和宾语；一个总和查询表示关系。Qi= {QP i，qG i}，QP i = {q s i，q p i，q o i}，其中q si，q p i和q oi表示主语、谓语和宾语子查询。假设解码器中有M个复合查询，整体查询是一个M×D×4张量，其中D是子查询的维度。03.2.2 部分和总和Transformer解码器0由于复合查询包括部分查询和总和查询，我们分别解码部分查询QP和总和查询qG。为了实现部分和总和学习的相互利益，我们还建立了部分和总和交互。此外，我们提出了一个分解的自注意力层，以进一步增强部分级别的学习。部分和总和Transformer解码器的架构如图2(c)所示。部分和总和分离解码。PST解码器具有两个流的架构，分别用于部分查询和总和查询的解码。每个解码流包含自注意力层（SA），交叉注意力层（CA）和前馈神经网络（FFN）。让f和ϕ分别表示部分查询的SA和CA层。部分查询的解码可以写成：0其中I表示来自Transformer编码器的分词图像特征。类似地，解码总和查询可以写成：0每个实体通过两个独立的顺序模块FFN（ϕ（f（Q），I））具有部分和全局嵌入。自注意力利用所有查询之间的上下文。部分和总和分离解码有效地模拟了两种不同类型的上下文：部分查询中的自注意力探索了组件之间的上下文，例如，当一个部分查询预测“人”时，它会加强相关的谓词，如“吃”和“拿”；而全局查询的自注意力则利用了相互关系的上下文，例如，一个预测“人读书”的总和查询是推断“人坐”的线索。这些上下文为准确推断结构化输出所需的交互提供了支持。分解的自注意力层。为了使组内部分查询之间的交互更加结构化，我们设计了一个分解的自注意力层，如图2所示。kkG∈ {s, o, p}k∈{s,o,p}qki ),(3)ˆbki = f kbox(qki ), k ∈ {s, o}ˆpki = f kcls(qki ), k ∈ {s, o, p}ˆpspoi= f spocls (qspoi )(4)ˆbGi = gkbox(qGi ), k ∈ {s, o}ˆpGi = gkcls(qGi ), k ∈ {s, o, p}(5)ˆσ = arg minσ∈PM�iCmatch(yi, ˆyσ(i)),(6)Cmatch(yi, ˆyσ(i)) = CPartmatch(yi, ˆyσ(i)) + CSummatch(yi, ˆyσ(i))=�t∈{s,p,o,spo,Gs,Gp,Go}−1{cti̸=∅}ˆptσ(i)(cti)+�t∈{s,p,o,Gs,Go}1{cti̸=∅}Lbox(bti,ˆbtσ(i)).(7)L(y, ˆy) =M�i=1�LPart(y, ˆy) + LSum(y, ˆy)�LPart(y, ˆy) =�t∈{s,p,o,spo}− log ˆptσ(i)(cti) + Lbox(bti,ˆbtσ(i)))LSum(y, ˆy) =�t∈{Gs,Gp,Go}− log ˆptσ(i)(cti)) + Lbox(bti,ˆbtσ(i))(8)435530(b)。与方程1中的所有部分查询进行自注意力不同，分解的自注意力层首先进行内部关系自注意力，然后进行相互关系自注意力。内部关系自注意力层利用部分的上下文来有助于关系预测，例如，主题查询和对象查询分别为“人”和“马”有助于预测谓词“骑”。相互关系自注意力层利用相互关系上下文来增强每个图像的整体关系预测，这对于检测相同主体实体的多个交互特别重要。更多细节请参见补充材料。部分和总和交互。部分查询解码嵌入了更准确的组件信息，而全局嵌入则包含了更准确的组件关联。这两个方面对于结构化输出检测都很重要，并且彼此之间互相有益[8]。因此，我们设计了两个解码流之间的交互，实现部分和总和条件。具体而言，在解码器中的FFN之后，对于每个部分嵌入qki，k∈{s，o，p}，我们将其与总和查询嵌入组合，而对于每个总和查询qGi，我们融合了所有三个部分查询嵌入。部分和总和交互的公式为：0qGi = N(qGi + �0其中N是层归一化[1]。03.3. 模型训练和推断0复合预测。对于每个复合查询Qi ={qGi，qsi，qoi，qpi}，我们预测主体、客体和谓词的类别；以及主体和客体的边界框。具体而言，对于每个部分查询，我们使用一个一层线性层来预测相应的类别，并使用一个浅层MLP头来预测边界框。此外，我们还可以通过连接所有部分查询来构建来自组内部分查询的全局表示，并将其表示为qspoi = [qsi，qoi，qpi]。部分查询预测为：0其中 f � cls是用于主体、客体和谓词分类的前馈神经网络；而 f � box是用于预测主体和客体边界框的前馈神经网络； f spo cls是用于预测关系三元组的前馈神经网络。对于Sum查询的预测，我们从Sum查询 q G i预测所有部分的类别和边界框，即：0其中 g � cls是用于主体、客体和谓词分类的前馈神经网络；而 g � box是用于预测全局级别中主体和客体边界框的前馈神经网络。注意， f cls 中的最后一层是一个Softmax层，而 f box中的最后一层是一个Sigmoid层。复合二分匹配 .我们进行复合的组内二分匹配，即在计算集合间相似度时同时考虑所有属于一个关系的组件。具体来说，对于一个关系，有三个Part查询（主体、客体和谓词），以及一个三元组嵌入。二分匹配算法找到一个排列 σ ，使得 M 个预测值{ ˆ y i } M i =1 的总匹配成本最小：0其中 P 是所有可能的 M 元素排列的集合，而 σ ( i )是排列 σ 的第 i个元素。我们定义如下的匹配成本，用于衡量第 i个真实值 y i 与相应的第 i 个预测值（由排列 σ决定）之间的匹配程度：0其中 ˆ p t σ ( i ) ( c t i ) 是通过公式 4 和 5计算得到的将 t 分类为 c t i 的概率，而 ˆ b t σ ( i )是预测的边界框（G s 和 G o分别表示Sum查询分支中的主体和客体嵌入）。 L box包括GIoU和L1损失，与[ 3]相同。这里我们使用关系中主体和客体的并集框来表示对应谓词的目标框。训练损失 .给定两级Part和Sum输出，我们计算两个级别上的分类损失和边界框回归损失。一旦我们得到最小化 y 和 ˆ y之间总匹配成本的最佳排列 σ，我们可以计算总损失如下：0注意，公式 8 与公式 7非常相似，只是使用了负对数似然损失来训练分类器，以实现更有效的学习。R@50R@100R@50R@100R@50R@100R@50R@100535540表1：在VRD数据集上，基于不同Transformer架构的短语和关系检测结果比较（%）。为了公平比较，所有的Transformer解码器都基于相同的CNN主干和Transformer编码器，使用相同数量的查询。0查询类型 Transformer解码器设计短语检测关系检测数量 Vanilla Tensor Composite Vanilla Part Part-and-Sum k = 1 k = 70 k = 1 k = 700(a) � � 26.17 29.43 27.66 32.71 17.88 19.41 19.97 23.08 (b) � � 26.69 31.46 28.67 34.35 19.36 22.63 21.89 25.89 (c) � � 30.40 34.86 32.29 37.68 23.28 26.30 25.46 29.65 (d) � � 25.70 29.66 28.01 34.11 17.7520.20 20.17 24.53 (e) � � 30.63 33.82 32.55 40.63 23.57 27.63 26.48 31.8304. 实验0我们在两个复合集检测应用上评估了我们的方法：视觉关系检测（VRD）和人物物体交互检测（HOI）。数据集。对于VRD任务，我们在VRD数据集[ 29]上评估了提出的PST，该数据集包含5000张图像，100个实体类别和70个谓词类别。关系被标记为一组<主语，谓词，宾语>三元组，并且关系中的所有主语和宾语实体都用实体类别和边界框进行注释。我们遵循[ 29]的数据划分，使用3700/300/1000张图像进行训练/验证/测试。共有37993个视觉关系实例属于6672个三元组类型，1169个关系类型仅出现在测试集中，用于零样本关系检测。（2）对于HOI任务，我们在HICO-DET数据集[ 4]上进行评估，包括38118张训练图像和9658张测试图像。在该数据集中，有与MS-COCO [ 27]相同的80个物体类别和117个动词类别，对象和动词构成了600个HOI三元组的类别。在该数据集中，一个人可以以多种方式与多个对象同时进行交互。任务设置。对于VRD任务，我们在短语检测和关系检测[ 29 , 54]上测试PST。在短语检测中，模型为每个关系检测一个边界框，并识别关系中的主语、宾语和谓词的类别。在关系检测中，模型为关系中的主语和宾语实体分别检测两个单独的边界框，并对关系中的主语、谓词和宾语进行分类。在这两个任务中，我们考虑两种设置：主语和宾语实体之间的单个和多个谓词，其中k表示一对主语和宾语之间的谓词数量。性能指标。（1）在VRD中，我们使用关系检测的召回率@K作为评估指标，因为真实关系注释是不完整的。根据[ 29]中的评估，对于每个检测到的关系，我们计算主语、谓词和宾语类别预测的联合概率作为该关系的得分，然后对所有检测到的关系进行排名以计算召回率指标。要正确检测到一个关系，需要三个元素都被正确分类，并且预测的边界框与真实边界框的IoU大于0.5。（2）在HOI中，我们使用平均精度作为评估指标。0cision (mAP) [ 11]作为评估指标。只有当动作和物体类别都被正确识别，并且相应的人和物体边界框检测与真实边界框的IoU大于0.5时，HOI检测才被认为是正确的。实现细节。在VRD和HOI任务中，PST共享配置。PST使用标准的ResNet-50网络作为主干，后跟一个具有六个编码器层的Transformer编码器，与Deformable DETR [ 58]相同。提出的PST解码器包含六层提出的两流部分和求和解码器层。所有前馈网络都是两层线性浅网络。我们在每个解码器层之后设置辅助损失，并使用400个复合查询，其中三个部分查询分别表示视觉关系中的主语、宾语和谓词，或者HOI中的人、物体和交互。请注意，在我们的实验中，我们使用了原始的多头自注意模块 [ 44]作为自注意层，并使用了一个可变形的多头交叉注意模块作为交叉注意层。更多细节请参见补充材料。04.1. 部分和总和Transformer分析0部分和总和Transformer解码器首先，我们在VRD上比较和分析了不同的Transformer设计，使用不同的查询类型。各种Transformer设计在图2中进行了比较。基于向量的查询是使用Transformer检测结构化输出的最直接的方法，通过将单个结构实体形式化为向量查询，并将查询输入到一个普通的Transformer解码器[58]中，学习每个关系的嵌入。然后，使用三个一层线性层头来预测主语、宾语和谓词的类别，以及两个三层MLP头来回归边界框。结果比较如表1所示。我们可以看到：（1）在普通Transformer解码器中，基于张量的查询优于基于向量的查询（在（a）与（b）中），在短语和关系检测（k =70）的R@50/100上，边际分别为1.01/1.64%和2.03/2.81%。这是因为向量查询将结构实体作为一个整体建模，并在一个查询中嵌入多个部分。这种设计增加了匈牙利匹配的难度。（2）对于基于张量的查询，部分Transformer优于普通Transformer，差距明显（在（b）与（c）中）。这主要得益于自注意力层中的分解设计和关系级约束（在公式8中）。前者增强了内部关系上下文，减少了实体识别的歧义，例如，主语“人”和宾语“马”是推断谓词“骑”的重要线索。后者将关系作为一个整体学习，减少了实体实例的混淆[54]。（3）尽管复合查询中存在部分和总和的好处，但使用复合查询的普通Transformer性能下降（在（d）与（a）中），与使用普通查询相比。这表明直接混合部分和总和查询不能有益于结构化输出学习，因为每个总和查询包含多个部分，并且一些关系可能共享相同的实体实例，这可能会混淆自注意力模块中的相似性计算。为了有效地利用两级信息和上下文，PST分别解码部分和总和查询，并进行分组的部分-总和交互。通过比较（d）与（e），这种设计在短语和关系检测（k =70）的R@50/100上优于普通Transformer，边际分别为4.54/6.52%和6.31/7.30%。分解自注意力层我们检查了部分查询流中分解自注意力层的有效性。我们在VRD上比较了具有分解自注意力层和具有普通自注意力层的PST的性能，结果如表2所示。结果显示，分解自注意力设计在关系检测（k = 70）的R@50/100上提高了1.18/2.66%。部分-总和交互我们比较了两种部分-总和交互方案：普通自注意力与求和操作。结果如表2所示。从中我们可以看出，部分-总和双向求和优于自注意力交互，主要是由于PST中部分和总和查询之间确定的分组配置。R@50R@100R@50R@100635550注意力层，并且关系级约束（在公式8中）。前者增强了内部关系上下文，减少了实体识别的歧义，例如，主语“人”和宾语“马”是推断谓词“骑”的重要线索。后者将关系作为一个整体学习，减少了实体实例的混淆[54]。（3）尽管复合查询中存在部分和总和的好处，但使用复合查询的普通Transformer性能下降（在（d）与（a）中），与使用普通查询相比。这表明直接混合部分和总和查询不能有益于结构化输出学习，因为每个总和查询包含多个部分，并且一些关系可能共享相同的实体实例，这可能会混淆自注意力模块中的相似性计算。为了有效地利用两级信息和上下文，PST分别解码部分和总和查询，并进行分组的部分-总和交互。通过比较（d）与（e），这种设计在短语和关系检测（k =70）的R@50/100上优于普通Transformer，边际分别为4.54/6.52%和6.31/7.30%。分解自注意力层我们检查了部分查询流中分解自注意力层的有效性。我们在VRD上比较了具有分解自注意力层和具有普通自注意力层的PST的性能，结果如表2所示。结果显示，分解自注意力设计在关系检测（k =70）的R@50/100上提高了1.18/2.66%。部分-总和交互我们比较了两种部分-总和交互方案：普通自注意力与求和操作。结果如表2所示。从中我们可以看出，部分-总和双向求和优于自注意力交互，主要是由于PST中部分和总和查询之间确定的分组配置。0表2：部分-总和Transformer设计的消融研究。我们在VRD上报告了关系检测结果的比较（%）。0关系检测模块 k = 1 k = 700分解SA � 22.14 26.48 25.30 29.17 � 23.57 27.63 26.48 31.830部分-总和交互自注意力 22.04 25.42 23.89 28.87 部分 � 总和 23.57 27.63 26.48 31.830组合预测鉴于部分和总和解码的双流设计，我们从部分和总和级别获得预测结果。因此，我们研究了各种推理方案：从部分查询分支预测结构数据，或从总和查询分支预测结构数据，或将两个分支结合起来。为了将部分和总和查询的预测结果结合起来，对于分类概率，我们对预测结果进行平均处理。01在PST中，复合查询的组件顺序是固定的。例如，在VRD上，第一个部分查询是主语，第二个是宾语，第三个是谓词。部分查询和总和查询之间的分组也是通过设计固定的，即第一个总和查询和第一个部分查询组表示相同的关系实例。0对于组别部分和总和查询，我们计算其预测的概率分布；对于盒子预测，我们只是对左上角和右下角点的预测位置进行平均。结果比较如表3所示，它显示仅部分推理略优于仅总和推理，并且将两个级别的预测组合能够带来轻微的关系检测改进2。0表3：各种推理方案的结果比较。0关系检测推理 k = 1 k = 70 R@50 R@100 R@50 R@1000仅部分 23.57 27.63 26.48 31.83 仅总和 22.06 25.43 25.7630.45 部分-总和 24.34 27.01 27.03 31.9004.2. 视觉关系检测0我们在VRD数据集[29]上将PST与现有的视觉关系检测解决方案进行比较。竞争对手。现有的视觉关系检测解决方案可以分为两类：（I）阶段式方法：这些方法首先使用预训练的检测器检测对象，然后将对象检测器的输出作为关系检测模块的固定输入。具体而言，我们与以下进行比较：（1）VRD-Full[29]，它结合了候选框的视觉外观和语言特征来学习关系。（2）NMP[16]，它构建了一个关系图，并通过节点到边和边到节点的消息传递机制进行优化。（3）CDDN[5]，它提出了一种上下文引导的视觉-语义特征融合方案用于谓词检测。（4）LSVR[53]，它通过对实体和关系级别的特征进行对齐来学习更好的表示。（5）RelDN[54]，它使用对比损失函数学习细粒度的视觉特征。（6）BCVRD[17]，它提出了一种新的盒子级融合方法，以更好地结合视觉、语义和空间特征。（7）HGAT[30]，它提出使用对象级和三元组级推理来改进关系检测。（II）端到端方法：这些方法同时检测对象和关系。具体而言，我们与以下进行比较：（1）CAI [59] -利用主-宾上下文来检测关系。（2）KL distillation [50] -使用语言模型来规范视觉模型的学习。（3）DR-Net [6] -设计了一个全连接网络来挖掘对象对关系。（4）Zoom-Net [49] - 利用多尺度的关系上下文。（5）VTransE [52] -学习将视觉特征映射到关系空间。结果。在VRD数据集上的视觉关系检测比较结果如表4所示。为了清晰起见，阶段式方法分组在第一个块中，端到端方法在第二个块中。我们提出的PST属于第二个块，特别是它是第一个02 为了清晰起见，我们在VRD和HOI实验中仅基于部分查询的推理报告结果。R@50 R@100 R@50 R@100 R@50 R@100 R@50 R@100735560表4：VRD数据集上短语和关系检测结果比较（%）。-表示原始论文中未报告结果。k是与每个主-宾对关联的谓词数量。请注意，在VRD数据集上，谓词的最大数量为k =70。第一个块是阶段式检测方法，第二个块是端到端检测方法。我们的方法属于后者。†：BC-VRD的报告结果基于FasterR-CNN进行公平比较。0方法短语检测关系检测0k = 1 k = 70 k = 1 k = 700VRD-Full [29] 16.17 17.03 20.04 24.90 13.86 14.70 17.35 21.51 LSVR [53] 18.32 19.7821.39 25.65 16.08 17.07 18.89 22.35 BC-VRD [17] † 19.72 20.95 24.47 28.38 15.8716.63 19.91 22.86 MLA-VRD [55] 23.36 28.12 - - 20.54 24.91 - - NMP [16] - - - - 20.1923.98 21.50 27.50 HGAT [30] - - - - 22.52 24.63 22.90 27.73 RelDN-IMG [54] 26.3731.42 28.24 35.44 19.82 22.96 21.52 26.38 MF-URLN [51] 31.50 36.10 - - 23.90 26.80 -- RelDN [54] 31.34 36.42 34.45 42.12 25.29 28.62 28.15 33.910DR-Net [6] - - 19.93 23.45 - - 17.73 20.88 VTransE [52] 19.42 22.42 - - 14.07 15.20 - -CAI [59] 17.60 19.24 - - 15.63 17.39 - - ViP [23] 22.80 27.90 - - 17.30 20.00 - - KLdistilation[50] 23.14 24.03 26.32 29.43 19.17 21.34 22.68 31.89 Zoom-Net [49] 24.8228.09 29.05 37.34 18.92 21.41 21.37 27.30 PST (ours) 30.63 33.82 32.55 40.63 23.5727.63 26.48 31.830整体端到端VRD解决方案（直接输出所有预测的关系而无需任何后处理）。显然，PST在短语和关系检测任务上优于现有的端到端方法，例如，在R@50 /100时，PST在短语检测方面超过了第二好的端到端方法Zoom-Net [51] 5.81％/5.73％的差距，并且在关系检测方面超过了4.65％/6.22％的差距。当k =1时。这表明PST能够有效地学习所有实体之间的关系。与分阶段VRD方法的比较中，PST在关系检测方面超过了第二好的方法HGAT [30]2.8％的差距在R@50处，但在短语和关系检测方面，与最佳方法RelDN[54]相比，差距分别为0.71％和1.32％。我们注意到，RelDN是一种复杂的两阶段方法：（1）利用两个CNN进行实体和谓词视觉特征学习；（2）调整度量学习损失函数中的三个边界的阈值；（3）结合多模态信息（视觉、语义和空间信息）进行关系预测。相比之下，PST仅基于视觉特征预测关系，并且在没有任何后处理的情况下端到端和整体地检测关系。PST是简单的，没有任何手动设计的组件来表示先验知识。04.3. 人体物体交互检测0第一阶段。然后，它们在第二阶段关联检测到的对象并推断HOI预测。两阶段方法依赖于第一阶段良好的对象检测，并主要关注第二阶段，其中可以利用语言先验[13, 31, 28, 20,2, 56, 24, 10]和人体姿势特征[45, 25, 28, 20,24]来促进从检测到的对象推断HOI预测。单阶段方法旨在绕过对象检测步骤，并在一步中直接输出HOI预测。以前的单阶段方法[19,26]不是端到端的解决方案。它们使用多个分支，每个分支输出互补的HOI相关预测，并依赖后处理来解码最终的HOI预测。与我们的方法最相关的是HoiT[60]，它是一个端到端的单阶段解决方案。HoiT采用类似DETR的结构，并从每个向量查询预测一个HOI三元组。结果。表5显示了我们的方法和其他最先进的HOI方法在HICO-DET数据集上的结果。我们看到大多数两阶段模型在HICO-DET测试集上的mAP约为20（默认，完整）。最好的两阶段模型是DRG[10]，其达到24.5的mAP。然而，它是一个复杂的模型，需要三阶段的训练。相比之下，作为端到端的单阶段模型，我们的模型和当代的HoiT[60]模型能够在不使用专用对象检测器或额外的姿势或语言信息的情况下实现20+的mAP。我们的复合查询模型的mAP为23.9，并在单阶段HOI中实现了最先进的性能。04.4.消融研究0我们在这里报告了我们提出的部分和总和变压器模型（PST）的更多组件分析。共享流与独立流解码我们的部分和总和变压器（PST）包括一个独立流解码器，用于部分查询和总和查询，即部分查询和总和查询被输入到不同的自注意力层、交叉注意力层和前馈神经网络中，并且独立解码。我们将这种设计与共享流设计进行比较，其中部分查询和总和查询由相同的层解码。结果如表6所示，独立流设计在关系检测和短语检测任务上优于共享分支设计。我们假设部分查询和总和查询代表关系的不同方面，最好独立解码这两种查询。查询数量和维度的变化我们通过改变查询的数量和维度来展示基于张量的查询策略与基于向量的查询策略的比较。具体而言，我们在PST中使用500个张量查询，每个查询包含256维的三个子向量查询。为了公平比较，我们还使用了500个256×3维的向量查询。注意，增加查询的数量和维度会增加计算成本，但可以提高性能。R@50R@100R@50R@100R@50R@100R@50R@100835570表5：在HICO-DET数据集上与最先进的HOI方法的比较。对于“检测器”，“COCO”指的是在COCO上训练的现成物体检测器。“HICO-DET”表示在COCO预训练的物体检测器上进一步微调。“姿势”指使用人体姿势作为附加特征。“语言”指采用语言先验。0默认已知对象方法骨干网络检测器姿势语言完整↑ 稀有↑ 非稀有↑ 完整↑ 稀有↑ 非稀有↑0Shen等[36] VGG19 COCO 6.46 4.24 7.12 - - - HO-RCNN[4] CaffeNet COCO 7.81 5.37 8.54 10.41 8.94 10.85InteractNet[12] ResNet-50-FPN COCO 9.94 7.16 10.77 - - - GPNN[32] ResNet-101 COCO 13.11 9.34 14.23 - - -iCAN[11] ResNet-50 COCO 14.84 10.45 16.15 16.26 11.33 17.73 PMFNet-Base[45] ResNet-50-FPN COCO 14.9211.42

下载后可阅读完整内容，剩余1页未读，立即下载