视频中人-物关系的时空推理方法

179 浏览量更新于2023-10-14 收藏 15.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

………………81060在视频中检测人-物关系0Jingwei Ji Rishi Desai Juan Carlos Niebles斯坦福大学0{jingweij, rdesai2, jniebles}@cs.stanford.edu0摘要0我们研究了视频分析中的一个关键问题：人-物关系检测。先前的大多数方法仅针对静态图像场景进行开发，没有融入时间动态，而时间动态对于上下文化人-物关系至关重要。我们提出了一种具有内部和外部Transformer的模型，可以对对象、关系和人体姿势的多个视觉概念进行联合空间和时间推理。我们发现，在分布在时空上的特征之间应用注意机制极大地改善了我们对人-物关系的理解。我们的方法在两个数据集ActionGenome和CAD-120-EVAR上进行了验证，并在两个数据集上都取得了最先进的性能。01. 引言0随着我们开发能够更全面理解图像的智能代理，我们解决的计算机视觉研究问题变得越来越复杂。计算机视觉社区已经从对图像进行分类和检测对象，转向检测对象之间的关系和理解对象之间的交互。在现实世界的应用中，我们经常需要从视频中推断出人类行为。在人类中心的应用中，如人机交互、老年护理[36]和医疗保健[19]，理解人与环境的交互至关重要。行动识别的核心问题之一是在视频中检测人-物关系：给定视频的帧，我们希望检测人与物体之间的交互，并对人与物体之间的关系进行分类。与在静态图像上生成场景图不同[29, 53, 58,45]，视频中的人-物关系（HOR）检测侧重于人和活动对象，即人正在积极交互的对象。与人-物交互（HOI）检测[18,7, 39,33]不同，HOR检测不仅分类描述人类动作的动词，还分类人与物体之间的介词，如“在...后面”、“在...下面”和“在...里面”。尽管有许多...0静态图像预测0时空推理：内部和外部Transformer0图1：我们解决了在视频中检测人-物关系的问题。大多数先前的方法只对图像中的人-物关系进行建模，并进行静态图像预测。我们提出了在静态图像预测之上进行额外的时空推理，通过内部和外部Transformer。0动词只与特定对象相关联，而介词通常适用于许多对象类别。与图像中的场景图生成和HOI检测相比，视频中的HOR检测面临着几个挑战。首先，模型需要找出场景中的主角是哪些对象。例如，图1中的剪辑包含许多不相关的背景对象，这些对象不是我们感兴趣的。我们如何准确地只关注活动对象？其次，对象检测器作为检测模型的关键组件，在模型训练过程中会产生困惑，因为视频数据集[24,60]通常只提供关于活动对象的注释。在没有人-物交互知识的情况下，简单的对象检测器会错误地对既坐在椅子上的椅子，又与动作无关的堆叠椅子进行检测。第三，视频通常在某些情况下会模糊。81070帧，静态图像模型难以对模糊帧进行推理。考虑到这些关键问题，我们如何利用相邻帧的信息产生更准确的预测？为了解决这些问题，我们提出了一种用于视频中HOR检测的人-物关系Transformer（HORT）模型。我们的模型分为两个阶段：i）静态图像预测和ii）使用第一阶段的视觉概念识别活动对象及其关系。HORT首先进行静态图像预测，可以从各种场景图生成或HOI检测的现有模型中选择插入。在第二阶段，HORT收集来自第一阶段的编码视觉概念（特别是对象、关系和人体姿势嵌入）并将其馈送到具有内部和外部注意机制的Transformer中。注意机制允许模型整合来自空间和时间上分散的视觉线索的信息，以找出发生的交互。在Transformer模块中，我们还将人体姿势和关系特征的信息传递给对象编码，使对象评分器能够专注于活动对象。为了验证我们的HORT模型，我们在两个视频数据集ActionGenome [24]和CAD-120-EVAR[60]上对其检测性能进行了基准测试。我们的模型在场景图生成和HOI检测方面优于最先进的方法。我们还进行了消融研究，以检查我们模型的每个部分的贡献。02. 相关工作0场景图生成。场景图是图像的符号表示，其中对象被编码为节点，它们的关系被编码为连接的边[26,29]。这种结构化表示已经加强了许多下游图像任务，如图像检索[26,41]、视觉问答[25]、视觉推理[42]和图像字幕[1]。大量的工作集中在改进从单个图像生成场景图。Lu等人[35]提出使用视觉和语言模块生成场景图。Xu等人[52]利用RNN迭代地利用节点和边信息。Zellers等人[57]强调了常用数据库中存在的定期发生的图结构。Li等人[30]展示了上下文在分层区域中的重要性。Yang等人[53]提出了一个关系提案网络来修剪场景图中的边，并使用注意力图卷积网络（GCNs）来整合节点信息。Zhang等人[58]引入了图形对比损失。Guo等人[16]将Transformer应用于对象特征，以探索对象之间的上下文信息。受因果推断的启发，Tang等人[45]解决了偏倚表示的问题。Zareian等人[56]将常识知识图与场景图相结合。然而，所有这些方法都局限于静态图像。0在视频中建模关系的时空动态时，年龄是一个不可忽视的因素。此外，大多数现有的场景图生成模型隐含地假设每对对象之间存在单一类别的关系[29]，然而这并不总是成立，特别是对于人-物关系[24]（例如，<人-看着、拿着、吃着-食物>有三个并发关系）。人-物交互检测。人-物交互（HOI）检测[18,7]旨在理解一个人如何与图像中的物体进行交互。我们的任务，HOR检测，类似于HOI检测，但考虑了更广泛的边缘类别。HOI检测中的关系是动词，如“骑”，“打字”，“拥抱”，通常只与特定的物体类别相关。HOR检测中的关系可以是动词或介词[29,24]，如“在”，“在后面”，“在旁边”，更加通用和与物体类别无关。HOI检测的任务已经产生了一系列的研究[17, 39, 38, 48, 27, 33, 34, 23,11]。我们的模型设计与多流方法的精神相似[7, 12, 50,32]，从人体姿势的知识中受益[51, 31,59]，并在视觉概念之间利用注意机制。我们进一步在我们的内部和外部Transformer模型中建模实例之间的时间依赖性，从而更好地理解人-物互动。视频分析中的Transformer模型。Transformer[49]已经成为自然语言处理中最强大的构建模块之一[9,3]。最近的研究还展示了Transformer在2D图像任务[37, 5,2]和图结构数据[55,4]上的能力。Transformer也被应用于视频分析。Sun等人[44]提出了用于动作分类和视频字幕的VideoBERT。Girdhar等人[15]引入了一种用于动作定位的动作Transformer网络。Gavrilyuk等人[14]使用演员Transformer进行群体活动识别。Garcia等人[13]在视频问答模型中包含了Transformer。在我们的人-物关系Transformer中，我们利用散布在三维时空空间中的人体姿势、物体和关系这三个视觉概念之间的内部和外部注意力的知识。03. 人-物关系Transformer0视频HOR检测问题定义如下：我们希望构建一个模型，该模型以视频剪辑作为输入，在每个帧上输出人的位置、活动物体的位置以及每对人-物体之间的多个关系。最近的场景图生成[53，58，45]和静态图像的HOI检测模型[39，32]由三个模块组成：骨干图像特征提取器、物体检测头和另一个linearlinearTransformerObject Score81080外部Transformer0内部Transformer0外部Transformer0物体头0关系。0头0姿势估计器0{O i,t}0{R j,t}0{P k,t}0三维位置0编码0内部Transformer0输入：0视频剪辑0物体分支0关系分支0F0H O0H R0H P0图2：我们的人-物体关系Transformer（HORT）模型。我们的模型从静态图像模块中提取物体、关系和人体姿势特征。然后，这些特征被馈送到内部和外部Transformer的物体分支和关系分支中。最后，模型通过结合物体检测和关系分类输出生成人-物体关系检测结果。0头用于预测检测到的物体之间的交互或关系。我们的HORT模型（图2）在该框架上添加了一个物体分支和一个内部和外部Transformer模块的关系分支。Transformer模块接收从静态图像中提取的物体、关系和姿势特征的时间序列，沿着空间和时间维度使用注意机制将这些特征整合起来，最后生成更准确的人-物体关系检测结果。03.1. 静态图像上的特征提取0给定一个视频剪辑 V = {I 1，I 2，...，I T}，其中 I t是时间步 t 的RGB帧，我们首先提取每个图像的特征图：x t= F(It)。F是指骨干图像特征提取器，通常实现为完全卷积神经网络。x t ∈ R H' × W' ×C是提取的图像特征图，将由物体和关系检测头共享。我们的物体检测头 H O 遵循Faster R-CNN[40]，包括区域建议网络和框头。它接收图像特征图 x t并生成物体提议的边界框 {b o i}t，每个边界框都带有编码的物体特征向量 O i ∈ R d o和一个提议置信度得分 s i,static ∈ (0，1)：0{O i} t，{b o i} t，{s o i,static} t = H O (x t)，i ∈0其中 N t 是帧 t 上检测到的物体数量。N t通常大于场景中的真实物体数量，因为物体检测器输出许多未被交互的假阳性物体提议。标记 s o i,static表示这些置信度分数仅通过静态图像生成。0s oi，静态图像高度依赖于物体的外观而不是人-物体交互的上下文。关系头 H R 推断 H O检测到的每对人-物体之间的关系。根据许多关系头的设计[53，46，58]，我们将每对人和物体框的并集框 b o视为交互区域 b r，从 x t 中提取一个 ROIAlign特征[20]，然后应用神经网络（例如 ResNet-50[21]）提取一对一关系特征 R j ∈ R d r。H O还将一组物体特征 {O i} t 作为输入，然后输出逻辑值 z j ∈R C R（C R是指关系类别的数量），用于分类静态图像基线方法中第 j对人-物体之间的关系。H R 的功能总结如下：0{Rj}t, {brj}t, {zj}t = HR(xt, {boi}t, {Oi}t) (2)0对于所有的j∈{1, 2, ...,Mt}，其中Mt表示帧t上的人-对象提议对的数量。研究[54,10,31]表明，在静态图像中理解人-对象交互可以从人体姿势的知识中受益。因此，我们认为人体姿势的时态动态对于推断跨时间的人-对象关系是有帮助的。使用姿势估计器P，我们生成人体关键点，并根据[10,31]确定身体部位的边界框：{bpk}t = P(It)，k∈{1, 2, ...,Kt}。Kt表示一个人的身体部位的数量（头部、肩膀、手腕、骨盆、膝盖和脚踝）。然后我们从xt中为每个身体部位提取特征{Pkt}∈Rdp：{Pkt} = HP(xt,{bpk}t)。到目前为止，我们已经提取了三组静态图像特征：对象{Oi,t}，关系{Rj,t}和人体姿势{Pkt}。现在我们将展示如何将这些特征与我们的Transformer模型进行时空整合。PE(∗)2i+1 =(∗/10000∗)PE(˜x, ˜y, t) = concat(PE(˜x), PE(˜y), PE(t))(5)O′i,t = W To Oi,t + PE(boi,t), Wo ∈ Rdo×dT x(6)R′j,t = W Tr Rj,t + PE(brj,t), Wr ∈ Rdr×dT x(7)P ′k,t = W Tp Pk,t + PE(bpk,t), Wp ∈ Rdp×dT x(8)810903.2. 3D位置编码0在循环神经网络[22,8]中，令牌的顺序保持不变，而在时态卷积神经网络[47,6]中，操作的是特征的时态邻域，而Transformer[49]是一个顺序模型，利用全连接的注意力机制，从而消除了位置限制，并允许对任意一对令牌之间的依赖进行建模。然而，在视频分析中，位置的知识仍然至关重要。在将从静态图像中提取的特征输入到Transformer模型之前，我们需要为每个特征向量重构位置信息，即在视频剪辑的三维空间中提取对象/关系/姿势特征。原始的Transformer模型[49]使用正弦编码来表示单词的位置。这种位置编码已经推广到图像应用中的x-y图像平面[37,5]。我们进一步将这种位置编码适应到三个维度，即x、y和时间步长t，以便编码表示每个特征向量在三维空间中的位置。在将x-y坐标归一化为˜x = 2πx/W，˜y =2πy/H后，沿任何维度的正弦位置编码可以写成0PE (�)2i = sin (� / 10000 2i/d�) (3)0其中�可以是˜x，˜y或t。根据Transformer输入的维度dT x =512，我们设置d˜x = 128，d˜y = 128，dt = 256，使得dTx = d˜x + d˜y +dt。通过将空间和时间维度的位置编码进行连接，我们得到了3D位置编码：0注意，对于空间-时间上接近的特征，位置编码是相似的，而对于空间-时间上远离的特征，位置编码是不同的。我们使用每个框bo、br和bp的中心点的(x,y)坐标进行其位置编码。由于由HO、HR和HP输出的特征的维度可能不同，我们应用线性投影将维度对齐为dTx，作为输入到Transformer模型的输入。在添加线性投影的特征和位置编码之后，我们得到了Transformer的输入，如下所示：03.3. 内部和外部Transformer0原始Transformer模型的关键组成部分之一是计算表示的多头自注意力。0表示，即在序列中构建所有特征对之间的注意力图，然后使用该注意力图来整合特征。从数学上讲，注意力函数计算查询特征序列Q和关键特征序列K的缩放内积，生成注意力图A。然后，A用于在值特征序列V中查找。在自注意力或内部注意力设置中，Q、K和V是同一特征序列的线性投影。我们在这里省略了多头细节，并将读者引用到[49]或我们的补充材料中，以获得原始内部注意力变换器模型的更详细描述。在检测视频中的人物-对象关系时，我们不仅需要在每个模态中进行注意力（对象特征{O'i,t}或关系特征{R'j,t}），还需要进行模态间的注意力。姿势和对象特征是分类关系的关键线索；姿势和关系特征有助于确定正在与哪些对象进行交互。我们的变换器分为两个对称分支：对象分支和关系分支（图3）。为简单起见，我们只描述关系分支（图3（b））中的细节。关系分支包括一个内部变换器和两个互相变换器，每个变换器包含一个编码器和一个解码器。内部变换器简单地遵循原始变换器的设计，其中Q、K和V都是关系特征R的线性投影。关系分支中的两个互相变换器之一考虑了人体姿势和关系之间的注意力。直观地说，通过简单地观察人体姿势（特别是它们的时间序列），人们可以对场景中发生的关系有一个合理的印象。以图2为例：姿势表明这个人正在某个地方坐着，可能把某物靠近他的脸。第二个互相变换器利用了所有三个视觉概念之间的注意力：人体姿势、对象和关系。编码器计算姿势和对象特征之间的互相注意力，使模型能够通过观察人体姿势和所有对象的轨迹来确定哪些对象是显著的。编码器输出一个姿势-对象记忆，然后将其作为参考传递给解码器，用于分类关系。现在我们将描述互相变换器的架构。我们通过将每组特征{O'i,t}、{R'j,t}和{P'k,t}沿空间和时间维度展平来准备输入。注意，位置信息已经保留在每个特征向量中，因此展平这些特征不会丢失接近性的知识。我们将每个结果特征矩阵表示为O∈RN×dTx，R∈RM×dTx和P∈RK×dTx，其中N=�0t K t .Q: P(n-1)……P(1)81100IntraTxEnc0R0IntraTxDec0R0InterTxEnc0P0InterTxDec0R R0InterTxEnc0P0InterTxDec0R O0线性线性线性0sigmoid0关系分数0IntraTxEnc0O0IntraTxDec0O0InterTxEnc0P0InterTxDec0O O0InterTxEnc0P0InterTxDec0O R0线性线性线性0sigmoid0对象分数0InterTxEncLayer0问题：P（0）=PK，V0第一层0多头注意力0FFN0添加和规范化0添加和规范化0第 n 层0第 N 层0P (n) ……InterTxEncLayer0P (N)：姿势-X内存0添加和规范化0多头注意力0Q，K，V0FFN0添加和规范化0多头注意力0添加和规范化0线性0InterTxDecLayer0x N0(a)0(b)0(c)0图3：HORT中变压器模型的架构。我们有(a)对象分支和(b)关系分支。每个分支都包含一个内部变压器（IntraTx）和两个互换变压器（InterTx），编码器和解码器的查询、键和值的选择不同（从左到右的输入箭头）。O，R和P分别代表对象、关系和姿势的特征。(c)互换变压器中每个编码器和解码器层的详细信息。编码器以姿势特征P作为初始查询，并通过对象或关系的键和值特征迭代更新它们。编码器生成一个Pose-X内存（X为对象或关系），作为解码器中多头注意力层的键和值。0编码器由一堆相同的层（具有不同的权重）组成。在第一个互换变压器中，第 n 个编码器层将 R作为键和值，并且功能如下：0P (n) = InterTxEncLayer (n) pr (Q = P (n-1), K = V = R), (9)0与初始查询 P 0 = P 相似，第二个互换变压器中的第 n个编码器层将 O作为键和值，并且编码器层迭代地将对象信息集成到姿势节点中：0P (n) = InterTxEncLayer (n) po (Q = P (n-1), K = V = O). (10)0最后一个编码器层输出姿势关系或姿势-0对象内存矩阵，取决于编码器的键和值。我们将此内存矩阵用作解码器中多头注意力层的键和值。互换变压器的其余架构遵循原始的变压器模型[49]。在关系分支中，每个变压器都输出一个新的关系特征矩阵。在为每个相应的特征矩阵计算线性投影之后，我们将它们相加以创建关系分类的逻辑回归。之前的工作[30，53，58，45]隐含地假设每对主体和对象之间只能存在一个关系；因此，对逻辑回归应用softmax函数以获得关系分数。因为我们推断人与对象之间存在多类关系（例如注意、空间和接触关系[24]），所以我们使用sigmoid函数生成每类关系分数sr∈(0，1)M×CR。与关系分支对称的架构，对象分支输出对象提议的对象分数soTx∈(0，1)N。这些分数指示对象在人-对象交互的上下文中是否显著。03.4. 训练和后处理0虽然整个模型可以端到端地训练，但我们选择预训练骨干和对象检测头，固定它们的权重，然后只训练关系头中的特征提取器和变压器模型。这样，我们可以使用相同的骨干和对象检测器公平地比较我们的模型与其他基线方法。在训练我们的模型时，我们使用两个损失函数：用于对象显著性分类的二元交叉熵损失Lo和用于关系分类的二元交叉熵损失Lr。我们将这两个损失相加得到总损失L = Lo +λLr。我们的方法为每个对象生成两个分数：来自静态图像对象检测器的sostatic和来自对象分支的soTx。我们观察到sostatic对对象外观的显著性有很大的偏见，而不是对象是否参与任何人-对象交互。虚假阳性对象通常被赋予非常高的sostatic分数。相反，soTx更加关注交互上下文，因为对象分支已经整合了姿势、对象和关系的时间序列特征；因此，soTx通常在虚假阳性对象提议上较低。我们通过选择最小值将这两个分数组合起来：so = min(so static,soTx)。我们发现这种融合有效地抑制了虚假阳性对象提议。最后，我们计算每个三元组�主体-关系-对象�的总分数：0s = sp * sr * so，(11)0其中sp是姿势估计器生成的人体框的置信度分数。我们根据它们的总分对所有可能的人-对象关系三元组进行排序。81110人0床书0看着0拿着0...前面在...下面0坐在上面0人0床书0看着0拿着0在...前面0盒子0触摸0不看0在...前面0在...旁边0人0床0在...下面躺着0鞋子0不接触不看0在...下面0不看0人0床书0看着0在...前面0人0床0在...下面坐着0鞋子0不接触不看0在...下面0不看0人0床0在...下面坐着0鞋子0穿着看着0在...下面0不看0拿着0不看0坐在上面而不看0坐在上面而不看0图4：Charades/行为基因组数据集中视频剪辑中检测到的人-对象关系示例。检测将每帧上的多个配对关系同时预测为一个多图。（左）当未与之交互时，框不会被检测为一个活动对象。（右）同一人-对象对之间的关系随时间演变。0通过总分对每帧中的关系三元组进行排序。04. 实验结果04.1. 数据集0我们在两个第三人称视角的视频数据库上评估了我们的HORT模型：行为基因组[24]和重新注释的CAD-120-EVAR数据集[28,60]。0行为基因组。行为基因组数据集[24]是基于Charades数据集[43]中的众包视频构建的，该数据集捕捉了日常生活中的室内人类活动和行为。行为基因组提供了476,229个交互对象的边界框和1,715,568个人与对象之间的关系类别的注释，涵盖了234,253帧。行为基因组包含35个对象类别和25个关系类别的标签。行为基因组中的关系可以分为三类：注意力关系，指示一个人是否在看某物；空间关系，例如�椅子-在...下面-人�；接触关系，指示一个人是否与一个对象接触以及接触类型是什么。0CAD-120-EVAR。CAD-120视频数据集[28]包括4个主体执行10种不同的高级家庭活动（例如整理物品，取食物）。每个主体执行每个家庭活动3或4次，总共124个视频序列。在我们的实验中，我们使用了新重新注释的版本，称为CAD-120-EVAR[60]。CAD-120-EVAR包含551个视频剪辑，共32,327帧。这些帧被重新注释以包含对象之间的6类关系（例如持有，包含），对象的属性（例如打开，关闭）以及帧中所有对象的感兴趣区域。04.2. 实现细节0该模型使用PyTorch实现。我们使用ResNet-101[21]作为我们的主干图像特征提取器，并将C4特征作为xt。对于我们在两个数据集上的实验，我们使用VisualGenome[29]上的对象检测任务预训练主干和对象检测头部。对于行为基因组实验，我们进一步在行为基因组的训练集上微调主干和对象头部。除[33]之外，所有基线实验中都共享相同的主干和对象检测器。我们不在CAD-120-EVAR上进行微调，因为“groundtruth”对象边界框是由对象检测器生成的。我们使用现成的KeypointR-CNN[20]来估计所有人体关键点。在我们的行为基因组实验中，我们选择剪辑长度T =5。因为行为基因组的注释采样率为�1FPS，所以我们的剪辑长度平均覆盖了大约5秒的时间。在我们的CAD-120-EVAR实验中，我们将T =10。我们在两个数据集上的训练中使用剪辑批量大小为4。我们的模型在4个Nvidia TITAN XPGPU上进行80,000次迭代训练，学习率从5e-4开始，在第30,000和50,000次迭代时缩小到5e-5和5e-6。对于所有的transformers，dTx =512，使用8个并行头，前馈维度为2048，编码器和解码器都包含2个层。代码将在接受后发布。04.3. Action Genome上的HOR检测0评估指标。我们遵循基于图像的场景图预测的三种标准评估模式[35]，这也是Action Genome[24]提供的评估指标：（1）谓词分类（PredCls），假设给定了真实的对象类别和边界框，并且仅评估每个主体-对象对之间的谓词/关系标签，（2）场景图分类（SGCls），假设给定了真实的对象边界框，评估�主体-关系-对象�的三元组标签，（3）场景图检测（SGDet），评估包括边界框位置和三元组标签在内的所有预测。ActionGenome还提出了这三个指标的视频版本，其中每帧的测量结果首先在每个视频中进行平均，然后在测试集中的所有视频中进行平均。我们报告这些指标的recall@20和recall@50，其中recall@x计算在前x个排名的三元组预测中正确关系的比例。50CAD-120-EVAR does not provide manually labeledground truth of object bounding boxes, so we do not trainand test the object detector on CAD-120-EVAR. Therefore,the task of HOR detection is simplified to classifying therelationship between each pair of objects. The metric usedin [60] is the accuracy of relationship classification, whichis essentially the same as PredCls.We report the classification accuracy of all 6 relation-ship categories in Table 2. Note that only holding, not hold-ing, contacting and apart are human-object relationships,whereas containing and separate are actually relationshipsbetween microwave and other objects. Still, our model canhandle the cases of non-human relationships as well. HORToutperforms both the baseline method reported in [60] anda RelDN [58] baseline we constructed.81120表1：我们将我们的HORT模型与最近提出的HOI检测模型[39, 33]和基于图像的场景图生成模型[35, 52, 30, 53, 58, 46,45]进行比较。请注意，除了PPDM [33]之外，我们为所有基线模型和我们的模型使用相同的目标检测器。AP50代表IoU阈值为50％的平均精度。@20和@50是recall@20和recall@50的缩写。我们的HORT模型在所有指标上的性能都优于所有基线方法。0方法目标检测器 PredCls SGCls SGDet0骨干AP 50 图像视频图像视频图像视频0GPNN [39] ResNet-101 20.7 62.28 68.14 62.50 68.37 40.11 53.25 41.35 54.88 32.15 42.08 33.29 42.60 PPDM [33] Hourglass-104 21.3 63.17 69.7363.28 69.98 41.90 55.73 42.13 55.92 33.93 43.34 34.10 43.490VRD [35] ResNet-101 20.7 49.32 64.10 50.79 64.82 27.66 42.66 27.49 42.11 22.22 33.27 21.97 32.68 IMP [52] ResNet-101 20.7 66.92 73.40 67.3973.58 44.46 58.00 43.73 56.96 35.13 44.70 34.42 43.69 MSDN [30] ResNet-101 20.7 67.22 73.43 67.73 73.60 44.72 58.20 44.12 57.21 35.27 44.7934.65 43.81 Graph RCNN [53] ResNet-101 20.7 67.31 73.60 67.84 73.80 45.02 58.46 44.49 57.46 35.53 45.05 34.95 44.09 RelDN [58] ResNet-10120.7 67.77 73.32 68.31 73.54 45.91 59.78 45.35 58.93 35.80 45.81 35.13 44.87 VCTree [46, 45] ResNet-101 20.7 67.43 73.52 68.06 73.71 45.3158.80 44.68 57.77 35.65 45.30 35.02 44.290Temporal RelDN ResNet-101 20.7 67.88 73.44 68.39 73.59 46.05 59.86 45.42 59.00 35.85 45.83 35.19 44.920HORT（我们的模型）ResNet-101 20.7 71.67 76.16 72.39 76.66 47.68 62.56 47.11 61.61 37.19 47.76 36.51 46.670评估指标。我们遵循基于图像的场景图预测的三种标准评估模式[35]，这也是Action Genome[24]提供的评估指标：（1）谓词分类（PredCls），假设给定了真实的对象类别和边界框，并且仅评估每个主体-对象对之间的谓词/关系标签，（2）场景图分类（SGCls），假设给定了真实的对象边界框，评估�主体-关系-对象�的三元组标签，（3）场景图检测（SGDet），评估包括边界框位置和三元组标签在内的所有预测。ActionGenome还提出了这三个指标的视频版本，其中每帧的测量结果首先在每个视频中进行平均，然后在测试集中的所有视频中进行平均。我们报告这些指标的recall@20和recall@50，其中recall@x计算在前x个排名的三元组预测中正确关系的比例。0基线。我们报告了各种HOI检测和场景图生成方法的性能（表1）。GPNN[39]是唯一一个也适用于视频分析的最新HOI检测方法。PPDM[33]是HOI检测中最先进的模型之一。PPDM使用了与所有其他基线不同的目标检测器。我们使用相同的课程预训练了基于hourglass的目标检测器，该课程与我们的FasterR-CNN检测器相同：首先在Visual Genome上，然后在ActionGenome上。PPDM的目标检测器取得了更好的性能（通过AP50衡量），但在HOR检测中，PPDM的性能不如其他几个场景图生成基线。0在场景图生成模型中，我们与VRD [35]、IMP[52]、MSDN [30]、Graph R-CNN [53]、RelDN[58]和VCTree [46,45]进行比较。当骨干和目标检测器固定且由基线模型共享时，许多模型表现出类似的性能，因为它们仅设计用于静态图像。我们还通过简单地集成时间上下文信息（表1中的TemporalRelDN）扩展了RelDN模型的功能：在训练和测试中预测关系时，通过对该帧周围的5帧时间窗口的logits进行平均，得到该帧的最终logits。0请注意，我们报告的基线方法的测量结果明显高于[24]中的结果。这是因为[24]有一个限制，即在训练和测试期间，每对人和物体之间只能预测一个关系。在这里，我们取消了这个限制，导致所有基线方法的测量结果大大提高。作为参考，我们还在补充材料中报告了具有单关系约束的评估比较。由于内部和外部变换器模型，HORT优于所有基线方法。图4展示了HORT模型输出的预测示例。更多定性结果请参见补充材料。0CAD-120-EVAR没有提供手动标记的物体边界框的真实值，因此我们不在CAD-120-EVAR上训练和测试物体检测器。因此，HOR检测的任务简化为对每对物体之间的关系进行分类。[60]中使用的度量标准是关系分类的准确率，本质上与PredCls相同。我们在表2中报告了所有6个关系类别的分类准确率。请注意，只有持有、未持有、接触和分开是人-物体关系，而包含和分离实际上是微波炉和其他物体之间的关系。尽管如此，我们的模型也可以处理非人类关系的情况。HORT优于[60]中报告的基线方法和我们构建的RelDN[58]基线。04.4. CAD-120-EVAR上的关系分类04.5. 消融研究0我们在ActionGenome上进行了消融实验，以检查每个变换器、物体分支和不同位置编码的有效性。变换器模块。我们的模型中共有6个变换器：用于物体评分和关系分类的两个分支，每个分支包含一个内部变换器和两个内部变换器。我们发现所有的6个变换器都对人-物体关系检测性能有贡献。如表3所示，将每个变换器添加到模型中会导致HOR检测性能的提升，该性能由SGDet测量。结果确实显示了特征的重要性差异。在两个分支中，与其他类型的注意力相比，添加姿态-物体注意力（物体分支中的InterTx-2和关系分支中的InterTx-3）带来的性能提升最大。这一现象是直观的，因为人体姿态的时间动态是决定与哪些物体进行交互的强有力线索。变换器物体评分。从表3中我们还可以看出，变换器物体评分s o Tx至关重要：如果完全去除物体分支，性能会下降。36.2136.4036.8237.1935.5036.0036.5037.0037.5046.3746.7947.2547.7645.5046.0046.5047.0047.5048.0081130表2：CAD-120-EVAR上的关系分类准确率[28,60]。关系类别的缩写：HO-持有；NH-未持有；CTC-接触；AP-分开；CTN-包含；SP-分离。我们的方法在所有关系类别上实现了类似或更好的性能。0方法 HO NH CTC AP CTN SP0EVAR无目标 [60] 0.86 0.91 0.59 0.60 0.93 0.67 EVAR有目标 [60]0.82 0.96 0.80 0.96 0.95 0.96 RelDN [58] 0.88 0.96 0.88 0.95 0.950.940HORT（我们的方法）0.89 0.96 0.98 0.97 0.96 0.970表3：消融研究：不同变换器的有效性。InterTx-2指的是将两组特征作为输入的内部变换器，可以是物体分支中的姿态-物体或关系分支中的姿态-关系。InterTx-3指的是将三种模态作为输入的内部变换器。0IntraTx InterTx-2 InterTx-3 SGDet-Img0物体分支0� 36.03 46.100� � 36.92 47.510� � � 37.19 47.760关系分支0� 35.93 45.960� � 36.36 46.550� � � 37.19 47.760� 货架0（b）之前0无物体分支，有物体分支0� 镜子0图5：在这两对帧中，单帧物体检测器会产生误报的建议，例如货架和镜子。通过变换器物体评分器，我们的模型重新排列物体的重要性，从而删除不活跃物体的建议。06个变换器都对人-物体关系检测性能有贡献。如表3所示，将每个变换器添加到模型中会导致HOR检测性能的提升，该性能由SGDet测量。结果确实显示了特征的重要性差异。在两个分支中，与其他类型的注意力相比，添加姿态-物体注意力（物体分支中的InterTx-2和关系分支中的InterTx-3）带来的性能提升最大。这一现象是直观的，因为人体姿态的时间动态是决定与哪些物体进行交互的强有力线索。变换器物体评分。从表3中我们还可以看出，变换器物体评分s o Tx至关重要：如果完全去除物体分支，性能会下降。0无 t xy xyt0SGDet@200无 t xy xyt0SGDet@500图6：消融研究：我们测量了我们模型在不同类型

下载后可阅读完整内容，剩余1页未读，立即下载