视频场景图生成中的目标自适应上下文聚合方法

184 浏览量更新于2023-10-13 收藏 979KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13688用于视频场景图生成的目标自适应上下文聚合姚腾1王利民1李志峰2吴刚山1南京大学软件新技术国家重点实验室2腾讯人工智能实验室，深圳，中国tengyao19980325@gmail.com，{lmwang，gswu} @ nju.edu.cn，michaelzfli@tencent.com摘要本文讨论了一个具有挑战性的任务，视频场景图生成（VidSGG），它可以作为一个结构化的视频表示的高层次的理解任务。为此，我们提出了一种新的检测到跟踪模式人 ridehorse人值班沙发电视人坐在沙发人站在地板通过将用于关系预测的上下文建模与复杂的低级实体跟踪解耦来完成任务具体而言，我们设计了一种有效的方法，帧级的VidSGG，称为目标自适应上下文聚合网络（TRACE），重点是捕捉时空上下文信息的关系识别。我们的TRACE框架简化了VidSGG管道与模块化的设计，并提出了两个独特的块层次关系树（HRTree）的建设和目标自适应上下文聚合。更具体地说，我们的HRTree首先提供了一个自适应结构，用于有效地组织可能的关系候选人，并指导上下文聚合模块，以有效地捕捉时空结构信息。然后，我们得到一个上下文的特征表示，每个关系候选人，并建立一个分类头识别其关系类别。最后，我们提供了一个简单的时间关联策略来跟踪TRACE检测结果，以产生视频级的VidSGG。我们在两个VidSGG基准上进行实验：ImageNet- VidVRD和Action Genome的实验结果表明，我们的TRACE达到了最先进的性能。代码和模型可在github.com/MCG-NJU/TRACE上获得。1. 介绍视频理解任务，例如动作识别[29，1，38，39]，时间动作定位[47，20，21]，31]，时空动作检测[18，5]，在过去几年中受到了大量的研究关注这些方法中的大多数简单地提供长视频序列中的每个动作实例作者：Correspondent author。(a) （b）帧级视频场景图图1. (a)视频级VidSGG的示例。该图中的主体/对象节点是实体轨迹，并且它们的关系对于该剪辑是恒定的。(b)帧级VidSGG的示例。帧级VidSGG由每个帧的短期信息确定，并且可以随时间变化。然而，一个理想的视频理解系统，预计不仅要识别的动作类型，而且还提供详细的和结构化的解释整个场景，通过解析一个事件到一个序列的不同的视觉实体之间的相互作用。这种结构化的视频表示，称为视频场景图[27]，可以有助于更准确的动作识别[10]，并允许我们的视觉模型处理高级和复杂的推理任务，例如视频字幕[7，36]，视频检索[4，16]和视频问答[33，15]。然而，与图像场景图生成[41，43，17]相比，视频场景图生成（VidSGG）[25，34，22，30如图1所示，VidSGG的现有基准可以根据其图形表示的粒度大致分为两种类型：（1）视频级场景图形生成，其中每个图形节点表示对象轨迹，并且边缘捕获视觉实体之间的关系，该关系对于一个剪辑是恒定的。(2)帧级场景图生成，其中图在帧级被定义，并且关系可以在该短剪辑中随时间改变对于视频级VidSGG，它需要准确地将长视频修剪成短剪辑（例如，30帧）。该设置不能容易地适应于未修剪视频中的真实VidSGG，因为由于时间模糊性，修剪是困难且主观的。相比之下，帧级VidSGG提供了更灵活的机制来用于相对帧间的通信。13689在连续视频流中的视频表示此外，这些帧级VidSGG可以很容易地产生视频级场景图，通过使用时间关联来跟踪相邻的结果。然而，先前关于VidSGG的工作[27，25，22]主要忽略帧级场景图，并且基于对象跟踪的结果直接识别视频级关系。因此，它们都产生高度依赖于跟踪的沉重管道。在本文中，我们的目标是提出一种新的方法来同时解决上述两个任务我们的基本思想是首先利用短时视频信息生成每帧的视频场景图，然后沿着时间维度跟踪每帧的场景图，以获得视频级结果。我们认为，这种检测到跟踪VidSGG范例将解耦的视频关系识别和时间跟踪的任务，使我们的方法更专注于建模时空背景的视频。识别视觉关系的关键是推断视觉实体之间的交互通常需要全面了解视频中的时空上下文信息。例如，识别人是坐在沙发上还是从沙发上站着是基于人相对于沙发的运动随时间的时间变化。因此，我们的目标是设计一种模块化框架，其可以有效地确定和捕获这种复杂的时空上下文信息（例如，时间运动、对象关系、人关系等）用于高效的VidSGG。视频中的时空背景信息比单个图像中的时空背景信息复杂和多样得多为了解决这个问题，我们设计了一个有效的自适应框架来选择和传播视频中的上下文信息，称为TaRget自适应上下文聚合网络（TRACE）。TRACE的关键是用自适应层次关系树（HRTree）组织关系候选，然后在此基础上对每个关系候选进行目标自适应上下文信息聚合HRTree不仅有助于信息聚合，而且能够在有限的内存消耗中有效地处理大量的候选关系。对于有效的上下文信息聚合，我们提出了一个有选择地融合时间信息的注意模块和一个捕获空间结构化信息的定向传播模块。最后，每个候选的目标自适应聚合表示可以为关系分类提供足够的上下文信息。此外，我们采用一个共同的时间关联算法链接到视频级的结果帧级的图形。具体来说，我们利用3D CNN提取时间特征，2DCNN提取中心帧表示，和对象检测网络的对象候选人与他们的视觉特征。基于这些低层次的可视化表示，TRACE通过HRTree构建、上下文聚合和上下文聚合等模块简化了VidSGG管道。关系分类和可选的时间关联。我们在两个数据集上评估了TRACE： Action Genome（AG）[10]和ImageNet-VidVRD （ VidVRD ） [27] 。 AG 是一个全新的帧级VidSGG数据集，仅对图像SGG的方法进行评估，而VidVRD是视频级VidSGG数据集。在AG上，TRACE作为帧级VidSGG的一种新的专用方法，在标准的三种评估模式上实现了最先进的性能：场景图检测（SGDet）、场景图分类（SGCls）和谓词分类（Pred-Cls）。具体而言，对于三种模式的mAPrel[46]和平均召回[32在VidVRD上，通过一个简单的时间链接策略，我们的TRACE在视频级指标下取得了良好的性能。具体地， TRACE 在 mAP 、 Recall@50 和Recall@100下分别比具有地面实况射束和相同关联算法的最佳模型好2.8%、在相同的功能下，TRACE在mAP上的表现也优于最先进的模型2.8%。总而言之，我们的贡献如下：1) 我们提出了一种新的检测跟踪范式的视频级VidSGG，创造为目标自适应上下文聚集网络（TRACE）。这种新的视角将用于关系预测的上下文建模与复杂的低层实体跟踪解耦。有了这个新的范例，我们为VidSGG提供了一个基线方法，并在ImageNet-VidVRD数据集上获得了最先进方法的改进2) 作为一个纯帧级的VidSGG框架，TRACE提出了一个比以往方法更加模块化的时空上下文信息获取框架，并在Action Genome数据集上获得了最佳的3) 在我们的TRACE，我们提出了一个自适应的结构称为层次关系树（HRTree）。通过使用HRTree，能够实现候选者之间的高效上下文信息聚合。此外，我们的实验表明，该模块允许我们节省更多的参数的内存，从而产生比全连接图更好的性能。2. 相关工作场景图生成（SGG）。自从[11]中定义了场景图的概念以来，SGG任务已经成为计算机视觉中的一个重要问题。沿着研究路线，聚集交互对象之间的上下文信息是非常有效的SGG。Xu等人[41]构造了一个原始图，并利用GRU [2]在13690融合特征时间特征对象关系框目标/相关3DCNNROI对齐2D时间分类负责人Avg特征池采样帧段2D对象特征图目标/相关目标盒中心框架特征时间融合模块多头关注ObjHR树构造空间传播模块子/对象框子/对象分支视觉分支融合分支统计科子/对象分σ2D关系特征图对象对象框检测对象/关系框HR树相关时间特征相对中心帧特征融合Rel特征HR树节点视频剪辑2DCNN多头注意文本聚合时间链接扩展关联Rel框Rel中心框架中心框架2DCNNMLP 特征Obj目标中心时间帧特征特征融合对象特征帧级段级视频级VidSGG VidSGGVidSGG嵌入对齐ROI图2. TRACE框架。我们的TRACE框架是由特征提取，层次关系树（HRTree）的建设，上下文聚合，分类头，和可选的时间链接，VidSGG在检测到跟踪的方式。我们的模型将剪辑作为输入，并使用3D CNN生成时空特征表示。中心帧通过对象检测网络和2D CNN进行静态特征提取。基于这些检测结果，我们建立HRTree组织关系候选。特征表示和HRTree通过目标自适应上下文聚合模块来获得每个关系候选的上下文化表示。该上下文中的关系特征用于将每个候选者分类到关系类中。最后，一个简单的时间链接策略是用来关联帧级场景图，以产生视频级的结果。圆头的黑色箭头表示直接传输要素L表示加运算，σ表示S形函数。其节点。Yang等人。[43]利用图卷积网络[13]和注意力机制[42]进行上下文信息聚合。Li等人。[17]通过非最大抑制减少了候选关系的数量[6]。Tang et al. [32]，Yin et al.[44]和Wang et al.[40]从不同角度探讨了树结构在SGG领域的应用。在本文中，我们认为，一个更好的方法，图形建设是很重要的SGG框架。因此，我们建议分层组合关系候选项，并采用树结构直接在对象和关系特征之间传递消息，这是更有效的内存，与[32，44，40]不同。视频场景图生成（VidSGG）。VidSGG的概念首先由Shang 等人提出[27]他们发布了一个名为 ImageNet-VidVRD的数据集。在[27]中，他们使用改进的密集轨迹特征[37]来预测视频片段中的成对关系，然后将这些关系三元组关联到视频级别。随后，一些专注于视频级VidSGG的作品已经发布[25，34，22，30]。然而，所有这些方法都使用跟踪检测范例，并且需要复杂的预处理以将检测链接到管中。因此，它们严重依赖于跟踪结果，并且缺乏在帧级捕获关系以获得更准确结果的灵活性。最近， Ji et al.[10]发布了ActionGenome数据集，该数据集仅关注帧级VidSGG，这促使我们考虑将这些任务统一在一个控制中。cise方式。在本文中，我们提出了一个新的检测跟踪范式的VidSGG，并可用于两个帧-级和视频级任务。实验结果表明，该方法对视频级VidSGG具有很高的灵活性和有效性。3. 技术途径概况 . 如图 2 所示，我们提出了一种用于帧级VidSGG的新方法，称为目标自适应上下文聚合网络（TRACE）。我们的模型的输入是一个密集的采样短剪辑和它的中心帧。我们的TRACE通过特征提取、HRTree构建、上下文聚合、关系分类和可选的时间链接等组件首先，在中心帧中检测对象。通过使用2DCNN提取中心帧中的空间特征，并且使用3D CNN提取剪辑中的时间特征此外，静态对象特征与后续块的字嵌入[24]相结合。其次，层次关系树（HRTree）的建立组织视觉关系候选人在一个紧凑和有效的方式。第三，我们执行目标自适应上下文特征聚合在一个相对较低的内存成本的帮助下的HRTree。具体来说，我们设计了一个时间注意模块的时间特征的融合。然后，定向空间聚合模块负责传播上下文信息。最后，分类模块用于推断每个关系候选的关系类此外，我们的方法可以扩展到一个简单的时间关联策略的13691Σ(a) 方案1.（b）方案2。时间特征图Conv1× 1×1 Conv 3×3时间特征图差异时间特征图差异ROI对齐Conv1× 1× 1ROI对齐Conv1× 1× 13DAvg池3D平均池对象/相对中心帧特征MLP融合对象/关系特征图3.两种方案的HRTree建设。颜色的深浅代表分数，颜色越深表示分数越高。中心的边缘为红色。3.1. 层次关系树构造层次关系树（HRTree）是一种自下而上的层次化关系组织方法。HRTree中的叶节点表示在中心帧中检测到的对象。非叶节点从其子节点导出，并表示它们的复合关系。具体地，基于空间接近度以渐进方式构建HRTree给定一层中节点的空间坐标，我们使用高斯核函数来计算每个节点的成对相似度之和：图4.用于时间融合的时间差分模块。因此，我们遵循使用箱形管提取时间特征的常见做法[5]。我们使用3D CNN来提取时空特征以提供关系候选者的运动信息。具体地，对于每个非叶节点，即，关系候选，我们从3D CNN特征图中提取对应于该关系候选的特征表示。其通过首先沿着时间重复拉伸候选边界框以形成管来实现。然后，通过使用标准RoI Align操作[8]，我们在每个时间点提取特征，并在管中使用相应的所得到的跨时间的特征用于当前关系候选的时间信息聚合。我们得分k =e−fk−fi2，（1）我提出了两种融合时间信息的方法：（1）如图2所示，多头注意机制[35]其中scorek对节点k的相对位置信息进行编码，并且f表示空间坐标。在获得一层中节点的得分后，我们根据它们的得分对节点进行排序，并选择其中的一部分作为中心。然后，其他节点被合并到由它们的空间并集测量的最接近它们的中心因此，更新的中心形成当前层的父层，并且重复该过程直到剩下一个节点。欧氏距离被用作距离的度量.关于每层中中心的选择，如图3所示，我们提出了两种实现方案：（1）从最高到最低分数，每隔一个节点选择一个节点作为中心（2）我们固定要四舍五入的节点的数目为它们的子节点的总数的一半。然后，我们从具有最高分数的部分中选择一半的节点，从具有最低分数的部分中选择其他节点在我们的例子中，vi的数量通常的关系候选是O（n），这意味着与以前的全连通图相比，关系可以大大减少数量，从而节省更多的计算和内存开销用于上下文聚合。3.2. 目标自适应上下文聚合时间融合模块。在介绍了HRTree的结构之后，我们准备描述如何使用该结构来指导上下文信息聚合。首先，我们描述的时间上下文信息融合在这一小节，然后在下一小节的空间上下文聚合。如上所述，时间运动信息对于识别诸如擦拭的一些关系是重要的。以空间特征作为查询，应用于这些时间特征它本质上是3D特征的加权和，并且基于2D特征自适应地学习权重。(2)如图4所示，将时间差操作应用于3D主干的输出以提取运动特征，并且采用简单的平均池化操作进行时间融合。在实验部分（见Sec. 4.3），我们表明这两种时间融合模块对于与运动相关的某些类型的关系是有效的写，携带）。然而，对于一些短期关系识别，其改进并不明显.空间传播模块。在本小节中，我们描述了基于HRTree的空间上下文聚合机制。具体来说，我们采用了一个组树GRU方案的上下文聚合在双向传播的方式。HRTree中的节点的特征被划分为跨特征维度的多个组。然后，每组中的特征被馈送到独立的树GRU [48]中。在每个树GRU中，首先执行自底向上的特征聚合。然后，发生等同于公共GRU [2]的自上而下的特征细化随后，多层感知器（MLP）被应用于特征的级联以产生情境化特征。在实验中，我们观察到，这个空间传播模块是有效的聚合空间上下文信息，以重新位置识别3.3. 分类负责人如图5所示，分类头负责关系推断。它由四个分支和13692子/对象分支子ROI2D对象特征图子/对象框对象对齐视觉分支2D关系特征图子特征对象特征箱联关注CLSσ融合分支Rel FeatConcat相关、子、对象特征统计先验分支子/对象分类CLS对象嵌入子嵌入CLS对齐ROICLSCLS箱头箱头统计先验嵌入MLPMLP图5.分类头的图示。每个分支提供一个结果。分类的最终得分是它们的总和，后跟一个sigmoid函数。视觉分支。通过将ROIAlign [8]应用于2D CNN主干的输出与成对对象提议的联合来生成关系特征图。在获得每个关系特征图之后，主体和对象的特征向量对其降维版本执行注意机制。具体地，首先通过特征图和每个像素上的特征向量的余弦相似性来生成分数图，然后从特征图和post-softmax分数图之间的逐元素乘积导出注意力图。注意地图和特征地图用于分类。融合分支。我们首先将主体和客体分类分数输入到单词嵌入块中[24]。然后，将嵌入的特征向量与来自分类器的空间传播模的上下文化关系特征级联对应于主语和宾语的连接向量的上下文化关系特征属于它们在HRTree中的最小公共祖先。主体/客体分支和统计先验分支。我们采用与[46]相同的主语/宾语结构遵循[46，45]，我们还采用主体/客体分类统计数据作为我们的输入，以获得更好的结果。3.4. 时间链接最后，我们描述的时间链接策略，融合帧级场景图的视频级结果。长视频剪辑首先被划分为重叠的视频片段（例如，一个段30帧，间隔15帧），然后对每个段执行跟踪。从跟踪中获得的对象轨迹用于该链接。对于一个视频片段，我们用帧级场景图对四分之一的帧进行采样以用于链接。如果一个三元组仅出现在一帧中，则为直接以其预测得分计算。对于在多个帧中具有相同预测类别的三元组，如果它们的主体和对象分别属于相同的轨迹，则对于整个视频，两个相邻片段之间的三元组仅在它们的预测类别相同并且它们的主体/对象轨迹的范围低于0.5的阈值时才相关联[27]。视频级别得分可以是平均值[27]或最大值[25]。以贪婪的方式，高分三元组在关联过程中优先于其他三元组4. 实验在本节中，我们展示了两个数据集的实验结果：ImageNet-VidVRD [27]和Action Genome [10]。首先，我们报告评估设置和实施细节。然后，我们展示了消融研究和与最先进方法的比较。4.1. 评估设置ImageNet-VidVRD（VidVRD）. VidVRD [27]关注的是更广泛的关系，而不限于人与物体的相互作用。特别是，VidVRD中的受试者可以是各种类别，而不仅仅是人类。VidVRD包含35个对象类别和132个关系类别。与传统的SGG数据集（例如VG [14]）不同，在Vid-VRD [27]中，主体和对象之间可能发生多个关系。VidVRD的标注最初是与[27，25]不同的是，在我们的工作中，我们为每个帧分配时空注释。在转换之后，每帧中的关系和对象的平均数量分别为9.7和2.5。此外，每个对象对中的关系的数量约为2.0平均来说以与[27，25]相同的方式，使用关系检测的召回和mAP来评估我们的模型。关系标签[27]也被考虑用于比较。此外，与[27]一致，保持每对对象的前20个预测关系以用于评估。将预测框视为命中的阈值为0.5。Action Genome（AG）. AG [10]是桥接人-人动作和人-物关系的数据集。在AG中，关系都是人的行为，所有主体都属于人的范畴。AG建立在Charades [28]数据集上，因此它包含大量的室内场景。AG中对象和关系范畴的数量分别为36和26。类似于VidVRD [27]，子对象和AG中的对象之间可能存在多个关系经过预处理后，平均每帧中关系和对象的数目此外，每个对象对中的关系的数量平均为3.3。此外，具有重叠的主题包围盒和对象包围盒的三元组在AG中超过85%。根据[10]，我们采用13693用于AG评估的三种模式：场景图检测（SGDet）、场景图分类（SGCls）和谓词分类（PredCls）[23]。传统的三种标准模式的具体度量方法是召回。然而，由于关系的不平衡分布，我们向 AG 引入平均召回率（mR）[32]、mAPrel和wmAPrel [46与地面实况框具有至少0.5的IoU的预测框被计为命中。值得注意的是，由于AG中的关系都是人-对象交互，因此我们的基准中的PredCl和SGCl不仅提供了地面实况对象框，而且还提供了潜在相关对。由于多重关系，将每对对象限制为三元组的一个预测的图约束在这里是不合适的。另外，为了避免预测随机命中地面实况三元组的情况，每对对象仅被允许对应于k个预测，并且k被设置为6或7。4.2. 实现细节我们的模型的输入是从视频剪辑及其中心帧中采样的视频片段除了中心帧之外的段由具有时间步长v=4的中心帧的T=8个相邻帧组成。损失损失是关系的二进制交叉熵和对象的交叉熵的加权和。关系的权重为1.0，而对象的权重为0.05.这些关系由分类模块预测，而参与上下文聚合的对象和后续块由分类器预测，该分类器是Faster R-CNN [26]中的分类器的副本值得注意的是，当测试时，该分类器不被激活。训练我们使用RTX 2080ti与11G GPU内存进行训练。与[10，27]一致，首先在每个数据集上训练FasterR-CNN [26]，其中ResNet [9]在COCO [21]上预训练我们利用2D ResNet-50 [9]提取中心帧上的关系特征，并使用在Kinetics [12]上预训练的I3 D ResNet-50 [1]提取时间信息。在训练TRACE时，用于对象特征提取的主干中的所有层都被冻结。我们使用SGD和动量来优化批量为1的TRACEAG和VidVRD的初始学习率分别设置为0.01和0.025前景关系和背景关系之间的比率为1：3，并且具有512个对象的2048个关系用于训练。如果三元组的关系和对象类与地面实况的关系和对象类相同并且其对象具有iou > 0的重叠，则三元组被定义为前景。5与地面真理的分别。其他三胞胎是背景。我们随机选择最多m个前景和k个背景关系。我们将m设为512，并确保m + k = 2048。特别地，对于VidVRD，由于从视频片段到帧的转换，我们从训练集中随机选择15.9%的帧来训练TRACE。试验. 前100个对象建议在对象在每个帧中使用IoU为0.5的每类非最大抑制[6由于AG中的大多数对象彼此接触，在[46]之后，我们仅预测SGDet的具有重叠边界框的成对关系。然而，这个技巧并不适用于VidVRD。4.3. 消融研究我们在VidVRD数据集上进行消融研究。采用再调用和mAP进行评价。除此之外，表1中的每个类别分解实验说明了我们的时间融合模块的有效性。上下文聚合结构的研究我们通过探索TRACE中上下文聚合结构的有效性来开始我们的消融研究。我们实现相当可比的模型，删除此模块，并改变方案的HRTree。然而，由于完全连通图（FC-G）由其两两关系节点构成完全二部图，其存储开销很大，我们降低了FC-G的参数，并报告了它的在表2中，每个方案的具有HRTree的TRACE在三种度量下优于没有融合的模型。由于参数的减少，FC-G的性能远低于该表中的其他性能方案1的具有HRTree的TRACE每批次分别消耗10.5GB和6.6GB GPU存储器用于训练和测试。然而，我们发现，我们的模型与FC-G和完整的参数消耗太多的内存来训练，所以我们减少参数到相同的水平之间的公平比较FC-G和HRTree。表4示出了FC-G的结果与HRTree相当，并且参数的数量是重要的。结果表明，HRTree在不降低性能的前提下，降低了内存开销。此外，我们将没有时间融合模块的模型与表7中的RelDN[46]进行比较。它证明了我们的纯帧级上下文聚合的有效性。时域融合模块的研究。我们比较了不同的时间融合模块的方案。此外，我们还报告了不进行时间融合的TRACE结果.在表3中，在召回时具有方案1的时间融合模块的TRACE的性能优于具有方案2的时间融合的模型和没有时间融合的模型，但在mAP时较差为了进一步的研究，我们进行了每个类别的细分实验。如表1所示，时间融合方案1显著地提高了在诸如写在、躺在和携带的几种关系类别处的性能。然而，对每一种关系的跨时间维度的注意可能会干扰空间信息，从而导致在下面和站在上面的注意减少。方案2没有采用自适应的时间信息聚合，并且每个类别上的增加不显著。探测到跟踪框架研究。我们进行了实验，以显示我们的检测到跟踪的有效性13694温度融合下方账面吃躺在站在感人擦拭writing on-47.6512.5119.9819.5545.4035.394.7125.63146.70（-0.95）14.96（+2.45）20.61（+0.63）26.64（+7.09）44.54（-0.86）36.76（+1.37）6.27（+1.56）26.71（+1.08）247.7（+0.05）13.74（+1.23）19.89（-0.09）19.10（-0.45）46.08（+0.68）35.79（+0.40）5.10（+0.39）27.08（+1.45）表1.AG [10]上部分关系类别的20（%）召回率，每对具有前6个预测除了第一行之外的值的格式是具有不同时间融合方案的模型融合地图 R@50 R@100-29.94 18.0123.56温度-2 29.80 18.0823.23温度-1 29.32 18.4523.85融合R@20 R@50 mR@20 mR@50FC-G*32.32 44.6327.6038.17树-1*32.24 44.6026.9437.60树-133.41 45.6727.5838.61表2. 语境融合结构研究。我们比较了不同的上下文聚合方法的模型组号地图 R@50 R@100229.81 18.5123.72429.32 18.4523.85表5. 研究组号。我们比较了TRACE与不同的组数的上下文聚合结构。表3. 时间融合结构研究。我们比较了不同的时间融合模块的模型模型地图 R@50 R@100VidVRD-C [27] 7.174.365.36[ 22 ]第二十二话14.018.4711.00我们15.067.6710.32表6.框架研究。我们比较的痕迹，以其他模式，只有对象的功能。表4.我们将模型中的树结构与ResNet-50-FPN[19]进行了比较，此时参数在AG上的SGDet处减小。*表示模型参数减小。模型R@20 R@50 R@100RelDN [46] 23.95 35.3942.91我们24.80 36.5245.33表7. 无时态融合的上下文聚合结构研究。我们在VidVRD[27]上的帧级度量下将没有时间融合的模型与RelDN [46]进行VidVRDVidVRD我们我们方法关系检测关系标记mAP R@50 R@100 P@1 P@5 P@10VidVRD gt [27]15.53 12.5116.55 43.50 29.70 23.20大象站在后面人站在旁边人走在旁边大象人走在前面大象站在左边人走在右边大象大象站在后面人站在旁边人走在旁边大象人走在前面大象站在左边人走在右边大象图6.可视化的预测击中地面实况从VidVRD和TRACE。正确的结果以绿色标记。持续时间不完整的关系用红色标记。框架. 由于几乎所有以前的工作都是以跟踪然后检测的方式[27，25，22]，因此我们将TRACE与VidVRD-C[27]和Liu在表6中，没有融合的我们的模型的mAP优于Liu因此，我们的框架的性能是可比的跟踪，然后检测模型，但更灵活。群号选择的研究。分组操作可以降低计算复杂度。在表5中，我们发现组数仅明显影响VidVRD上mAP此外，在训练过程中，我们发现一组版本消耗太多内存而无法运行。4.4. 与最新技术ImageNet-VidVRD（VidVRD）. 如表8所示，不同的条件导致VidVRD上不同的最佳执行模型。地面实况轨迹和表8. VidVRD上各种模型的指标[27]（%）。为了公平比较，我们通过使用对象特征和I3D特征将我们的方法与[22]进行t表示使用基本术语。[27]中提出的平均分数的poral链接，而平均值的意思是使用最大分数。相同的关联算法，我们的模型在mAP，Recall@50和Recall@100分别比最佳方法VRD-GCN [25]高2.8%，1.0%和2.1%此外，在使用[27]提供的轨迹和基本关联[27]的条件下，我们将mAP，Recall@50，Recall@100的性能分别提升到 15.8%， 8.1%和 10.3% 此外，与VRD-GCN [25]中的连体关联一样，我们将基本关联算法中的得分计算从平均值修改为最大值，并在所有度量下得到改进与最先进的方法相比斑马-更高-斑马斑马-更大-斑马斑马-站在右边-斑马斑马-走开-斑马斑马-向左走-斑马融合地图 R@50 R@100FC-G 28.11 16.9621.78-28.62 17.4823.56树-229.28 17.7022.65树-129.32 18.4523.85斑马-更高-斑马斑马-更大-斑马斑马-站在右边-斑马VRD-GCN gt [25] 26.52 17.5021.8062.50 44.20 31.10我们的gt29.3218.4523.8565.50 45.60 33.75[27]第二十七话8.585.546.3743.00 28.90 20.80GSTEG [34]9.527.057.6751.50 39.50 28.23MHRA [3]13.276.827.3941.00 28.70 20.95VRD-GCN† [25] 14.237.438.7559.5040.50 27.85我们的†15.818.0710.3044.5032.95Liu14.819.1411.3955.50 38.90 28.90我们的‡17.579.0811.1561.00 45.30 33.5013695每对的前k个预测方法SGCls SGDet图像视频R@20 R@50 R@20 R@50 R@20 R@50 R@20 R@50 R@20 R@50R@20 R@50表9.在AG上使用ResNet-101 [9]的各种型号的召回率（%）。为了公平比较，我们重现了基于我们的对象检测和相同训练策略的方法，我们的模型比其他模型表现得更好。方法SGCls SGDetmR@20mR@50mR@20mR@50mR@20mR@50方法的性能。具体地，在表10和表1211，TRACE在PredCls和SGCls的mAPrel 处优于RelDN[46] 3.2% 和 0.6% ，在 PredCls 和 SGCls 的 mR 处优于RelDN [46 ]2.0%和1.3%。4.5. 定性结果表10.使用ResNet- 101 [9]的各种模型对AG中所有图像的平均召回率[32]（%）。每帧的三元组数量被设置为50的限制，并且在评估时保留每对的前6个预测。SGCls SGDet我们的定性结果如图6所示。VidVRD在某些场景中检测到很少的关系三元组，并且无法检测到足够的包含运动信息的关系，例如走开和向左走。我们分析了它的时态融合结构无法发现对象的细粒度变化方法mAPr wmAPr mAPr wmAPr mAPrwmAPr在慢动作的场景中的表现。此外，委员会认为，频率先验[45] 33.1065.92 14.29 22.68 9.45G-RCNN [43] 41.2170.8917.6422.5311.76 15.90RelDN [46]50.0872.2620.0723.8812.93 15.94我们53.2775.4520.7124.61十三点四三十六点五六表11.使用ResNet-101 [9]的各种模型在AG中的所有图像上的mAPrel和wmAPrel每帧的三元组数量被设置为50的限制，并且在评估时保留每对的前6个预测mAPr和wmAPr分别指示mAPrel和wmAPrel在mAP时约为2.8%。继[27，25]之后，我们还报告了关系标记[27]的结果，并且TRACE在不同条件下实现了良好的性能。Action Genome（AG）. 结果总结见表9、表10和表11。但在表9中，各种型号在SGDet的表现差异并不明显。我们分析了SGDet的结果严重依赖于对象检测器，而AG中标记的对象远少于标准对象检测数据集中的对象。同时，为了公平比较，我们对所有方法使用相同的检测器，因此差异非常小。该数据集中SGDet召回时的性能趋于饱和。因此，PredCls和SGCls在AG中比SGDet更显著。此外，mAPrel、wmAPrel和mR是比召回更平衡的指标，并且是用于揭示每项指标之间的差距的更好指标在VidVRD中检测到的关系比TRACE持续更短的持续时间。实验结果表明，我们的检测跟踪框架比跟踪再检测框架具有更好的性能，这是由于噪声对跟踪结果的干扰较小。5. 结论在本文中，我们提出了一个模块化的框架，创造了目标自适应上下文聚合网络（ TRACE ）的帧级VidSGG。为了自适应地、有效地获取时空上下文信息，设计了一种新的层次关系树来指导时空信息的融合和空间信息的传播。我们的方法结合一个简单的时间关联策略产生一个模块化的视频级VidSGG基线，获得最佳性能，而不使用复杂的跟踪功能下的视频级指标的ImageNet VidVRD。对于纯帧级VidSGG任务，TRACE仍然在Action Genome的基准上实现了新的最鸣谢。本工作得到了国家自然科学基金项目（ No.62076119号江苏省创新人才和企业家计划、软件新技术与产业化协同创新中心、腾讯人工智能实验室犀牛鸟群研究计划（编号：61921006）、江苏省创新人才和企业家计划、腾讯人工智能实验室犀牛鸟群研究计划（编号：61921006）、腾讯人工智能实验室犀牛鸟群研究计划（编号：61921006）。JR202025）。[45]第四十五话 87.95 93.02 86.01 88.59 45.10 48.87 44.47 46.39 34.41 44.34 32.50 41.11k=7G-RCNN [43] 88.73 93.73 86.28 88.93 45.57 49.75 45.11 47.22 34.28 44.47 32.60 41.29RelDN [46]90.89 96.09 88.77 91.43 46.47 50.31 45.87 47.78 34.92 45.27 33.18 42.10我们91.60 96.35 89.31 91.72 46.66 50.46 46.03 47.92 35.09 45.34 33.38 42.18[45]第四十五话 85.89 89.43 83.33 84.99 44.90 47.15 43.57 44.63 34.47 43.69 32.38 40.24k=6G-RCNN [43] 87.03 90.60 84.02 85.74 45.82 48.31 44.60 45.77 34.60 43.98 32.75 40.65RelDN [46]89.63 93.56 87.01 88.86 46.76 49.11 45.48 46.57 35.22 44.94 33.39 41.64我们90.34 93.94 87.56 89.24 47.00 49.32 45.71 46.79 35.41 45.06 33.59 41.76[45]第四十五话55.1763.6734.3036.9624.8934.07G-RCNN [43] 56.3261.3136.1938.2927.7934.99RelDN [46]59.8163.4739.9241.9330.3939.53我们61.8065.3741.1943.2130.8440.1213696引用[1] J oaoCarreira和Andr e wZisserman。Quovadis，动作识别？新模型和动力学数据集。在CVPR中，第4724-4733页IEEE计算机学会，2017年。1、6[2] Kyungh yunCho，BartvanMerrienboer，CaglarGu¨ lc ehre，Dzmitry Bahdanau，Fethi Bougares，Holger Schwenk，and Yoshua Bengio.使用RNN编码器-解码器学习短语表示用于统计机器翻译。参见EMNLP，第172

下载后可阅读完整内容，剩余1页未读，立即下载