18836VRDFormer:使用Transformer的中国人民大学zhengsipeng@ruc.edu.cn陈世哲shizhe. inria.fr秦晋*中国人民大学qjin@ruc.edu.cn摘要视觉关系理解对于整体视频理解起着至关重要的作用以往的研究大多采用多阶段的视频视觉关系检测框架(VidVRD),该框架无法在不同阶段捕获长时间的时空上下文,效率低下。在本文中,我们提出了一个基于Transformer的框架VRDFormer来统一这些解耦阶段。我们的模型利用基于查询的approach自回归生成关系实例。我们专门设计了静态查询和循环查询,使有效的对象对跟踪与时空上下文。该模型与对象对检测和关系分类联合训练。在两个基准数据集ImageNet-VidVRD和VidOR上进行的大量实验证明了所提出的VRDFormer的有效性,它在关系检测和关系标记任务上 都 达 到 了 最 先 进 的 性 能 。 代 码 发 布 于https://github.com/zhengsipeng/VRDFormer_VRD。1. 介绍视频视觉关系检测(VidVRD)[32]旨在检测视频中的所有关系实例。每个实例包含一个主体、一个客体及其关系,以及主体和客体的空间和时间位置。近年来,这项任务引起了越来越多的关注,因为它是连接基本视觉任务(例如,对象检测[5,12,54]和跟踪[11,47]),具有更复杂的视频语义理解任务(例如,[25]第43话VidVRD [30,32,36]的一种典型方法是将任务分解为多级流水线。如图1所示,这些工作首先采用现成的对象检测器[27,54]来检测和跟踪视频中的对象,然后,每两个对象tracklet进行枚举,并使用时间滑动窗口来获得tracklet对。最后,过滤*秦晋为通讯作者。图1.现有的VidVRD方法采用多级流水线。他们遭受有限的时空上下文,过度采样的轨迹对,和独立优化的模块。排除无效的tracklet对,然后使用从预先计算的CNN特征图中裁剪的感兴趣区域(RoI)特征来预测剩余tracklet的关系类型[3,27]。我们认为,这种多阶段框架存在三大局限首先,时空上下文没有很好地利用tracklet对生成。事实上,时空上下文不仅可以增强模型例如,当发生遮挡时主体/对象的检测可以从时间上下文得到帮助。关系推理可以从空间语境中受益。 虽然上下文已被广泛用于最终的关系分类步骤[39,44],但在视频中的关系实例的检测中尚未得到很好的探索。因此,在这些方法中,对象检测和跟踪可能不是非常准确,导致后续阶段的累积误差。其次,在以前的工作中,每个模块都是独立训练的。而目标检测、跟踪和关系分类三者之间存在高度的相关性,通过联合学习可以相互促进。最后但并非最不重要的是,由于tracklet对是穷举生成的,因此它们中的许多不具有有意义的关系,这不仅损害了视频对象检测&跟踪⋯Tracklet配对一代⋯关系分类dog-move_front-child-watch-dogdog-next_to-pool狗入池18837t1:tnt1:tnt1tn计算效率也影响分类性能。为了解决上述局限性,在这项工作中,我们提出了一个统一的基于transformer的视频视觉关系检测框架VRDFormer。它由视频编码模块和基于查询的关系实例生成模块组成,以自回归的方式检测关系。具体来说,我们采用基于查询的方法来检测和跟踪对象对。我们提出了两种类型的查询对象对生成的视频,即静态和经常性的查询。静态查询在每个帧中检测新的对象对,其可以通过Transformer注意机制聚合空间上下文,而循环查询跨帧聚合时间上下文以跟踪先前检测到的对象对。我们将所有的轨迹对保存在内存中,并使用基于transformer的模型对每个轨迹对的关系进行分类,保留长期的时空历史。整个模型由对象对检测和关系分类任务联合进行端到端的训练。我们在两个基 准 数 据 集 上 进 行 了 大 量 的 实 验 来 评 估 模 型 。VRDFormer在两个数据集上实现了最先进的关系检测和关系标记性能。概括而言,我们的贡献如下:• 我们提出了一个统一的一阶段模型VRDFormer的视频视觉关系检测(VidVRD),它能够同时执行tracklet对生成和关系分类。• 我们设计了静态查询和递归查询来聚集时空上下文,这使得跨帧对象对的时间关联更方便,关系分类更有效。• 我们在两个基准数据集上进行了广泛的实验和分析,并在两个数据集上实现了最先进的性能。而是利用具有基于查询成对检测的Transformer体系结构来受益于全局空间上下文。视频 视觉 关系 检测(VidVRD):VidVRD[7,26,33,34]是一项更具挑战性的任务,ImgVRD,涉及更多样化的关系类型和对象时空定位。大多数现有的工作遵循多阶段流水线[32],例如对象检测,对象跟踪,轨迹对生成和关系分类。这些工作专注于通过利用上下文知识[26,36],相互依赖或长期时间信息[20]来改进关系分类,同时简单地使用现成的模型,如Faster-RCNN [27]用于对象检测或Deep-Sort [41]用于跟踪。 3DRN [1]是 唯一一个基于I3D主干的统一对象检测、跟踪和关系分类的单阶段模型[3]。虽然提高了效率,但与多阶段方法相比,3DRN显示出较差的定位性能,因为它未能利用来自预训练的对象检测器或跟踪模型的丰富的定位知识。变形金刚在视觉上Transformer [37]在视觉任务方面取得了重大进展[13],包括图像分类[8],对象检测[2,53]和图像关系检测[14,35]。一种典型的方法是DETR[2],它通过将对象检测视为集合预测问题来并行地将一组查询解码为对象建议。最近,一些工作探索在视频域中扩展这种基于查询的架构[4,23,40]。其中,Meinhardtet al. [23]提出了一个新的概念,称为跟踪查询,可以随着时间的推移跟踪对象。受变压器在许多视觉任务中的成功启发,我们探索了VidVRD的变压器架构3. 方法视频视觉关系检测(VidVRD)任务旨在检测视频中的所有关系实例每个关系实例表示为(s,r,o,TsOt1:tn),其中s,r,o2. 相关工作表示主语、关系和宾语图像视觉关系检测(ImgVRD)。 关系当Tot1:tn 表示主题的tracklet,在图像理解中起着重要的作用-中的开始和结束时间戳t1和tn之间的视频. Ts由(bs,· · ·,bs)组成,其中bs是因此,ImgVRD的任务已经收到了很多t1:tnt1tnti在时间t1的对象的边界框。同样,近年来,[6,22,45,46]。 早期作品采用两阶段框架[16,17,44,55],首先检测对象,然后预测图像中每对对象的关系。他们主要关注第二个关系预测阶段,例如,采用图神经网络来编码更多的上下文[39],细粒度的姿势特征[38,50]或语言先验[22,49]。然而,这些方法在两阶段处理中遭受累积误差和计算效率低下。最近,ImgVRD的一阶段模型[18]正在出现,以解决这些限制。与之前采用基于CNN架构的作品不同,HOTR [14]和QPIC [35]t1:tn表示为(bo,· · ·,bo)。在下文中,我们首先提出了我们的模型VRDFormer的总体框架然后在3.2节中介绍它关键组成部分,基于查询的关系实例生成。最后,我们在第3.3节和第3.4节分别描述了VRDFormer的训练和推理算法。3.1. 总体框架VRDFormer由视频编码模块和基于查询的关系实例生成模块组成。视频编码模块将视频编码成、T、T18838吻⋯爆震⋯吻⋯爆震⋯吻⋯爆震⋯⋯记忆T(c)关系分类TransTrans⋯反式反式反式反式⋯⋯⋯⋯⋯(a)框架级对象对检测× ×⋯×(b)Tracklet对更新存储器1存储器2× ×⋯ ×⋯×ENCDecENCDecENCDec⋯静态查询⋯递归静态查询查询⋯递归静态查询查询框架1框架2帧Ttransans:Transformer块:高度交互的有效对象对⋯:要过滤掉的无效对象对不 不不