重新定义视频场景图为时间双分图的分类-定位框架

161 浏览量更新于2023-10-25 收藏 14.76MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

…(9.21, 11.21)…(10.10,(9.90, 11.80)(9.21, 11.21)(9.71, 16.62)(17.22, 22.42)(18.82, 22.42)194970分类-然后定位：将视频场景图重新定义为时间双分图0高凯峰†，陈龙‡�，牛玉磊‡，邵健†，肖军†0† 浙江大学，‡ 哥伦比亚大学0{风筝电话，jshao，junx}@zju.edu.cn{zjuchenlong，yn.yuleiniu}@gmail.com0摘要0当今的VidSGG模型都是基于提议的方法，即首先生成大量的主-宾片段作为提议，然后对每个提议进行谓词分类。在本文中，我们认为这种普遍的基于提议的框架具有三个固有的缺点：1）提议的谓词标签部分正确。2）它们破坏了同一主-宾对的不同谓词实例之间的高阶关系。3）VidSGG的性能受到提议质量的上限限制。为此，我们提出了一种新的分类-然后定位的VidSGG框架，可以避免这三个被忽视的缺点。同时，在这个框架下，我们将视频场景图重新定义为时间双分图，其中实体和谓词是具有时间槽的两种节点，边表示这些节点之间的不同语义角色。这种表述充分利用了我们的新框架。因此，我们进一步提出了一种新颖的基于双分图的SGG模型：BIG。它由一个分类阶段和一个定位阶段组成，前者旨在对所有节点和边的类别进行分类，后者试图定位每个关系实例的时间位置。对两个VidSGG数据集的大量消融实验证明了我们框架和BIG的有效性。代码可在https://github.com/Dawn-LX/VidSGG-BIG找到。01. 引言0为了弥合视觉和其他模态（例如语言）之间的差距，我们社区的兴趣激增，开始将视觉数据转换为图结构表示，称为场景图[20]。场景图是视觉引导的图，其中节点和边分别表示对象实例（或实体）和它们的成对视觉关系（谓词）。由于固有的可解释性0� 长陈是通讯作者。这项工作始于LC在浙江大学，YN在南洋理工大学。0后面0朝着0在前面0远离（9.71，16.62）09.21 10.21 12.01 16.62 17.22 18.82 22.42 时间/秒0后面0提议生成0后面0朝着前方0远离0分类0狗（主语）孩子（宾语）0相对于视频范围0在前面，远离0分类0定位0相对于视频范围0b（a）0（b）0基准测试0图1.（a）：基于提议的框架的流程。给定一个视频，首先生成大量的提议（具有不同的时间槽），然后对每个提议进行谓词分类。（b）：分类-然后定位框架的流程。首先根据整个轨迹对进行谓词分类，然后定位所有预测的关系实例。0在许多下游任务中，场景图已被广泛应用于帮助提升模型性能，例如字幕生成[6, 10, 47]，定位[8, 23]和问答[9, 11, 19,26]。视频场景图生成（VidSGG）在近年来取得了显著进展。目前，几乎所有现有的VidSGG模型都是基于提议的1。具体而言，它们可以分为两组：1）基于片段提议：它们首先将视频切分为短片段，并在每个片段中检测物体轨迹以组成片段提议，然后对每个提议中的谓词进行分类，并合并相邻片段之间的所有预测关系三元组（即�主语，谓词，宾语�）[28, 32,33]。然而，由于短片段的限制，它们无法利用视频（或轨迹）中的长期上下文。2）基于轨迹提议：它们直接检测轨迹01 我们使用提案来表示配对的主体-客体轨迹片段。(1.53, 21.55)(1.53, 7.80)(18.42, 21.55)(7.80, 11.04)(7.34, 9.67)(20.22, 21.55)dog(sub.)child(obj.)(1.53, 21.55)(1.53, 21.55)194980通过滑动窗口[22]或置信度分割[13]对整个视频生成轨迹提案，然后对每个提案进行谓词分类。尽管这些基于提案的方法在VidSGG数据集上的性能占主导地位，但值得注意的是，这种普遍的框架存在三个固有的缺点：1.提案的真实谓词标签部分正确。我们所说的“部分”是指真实的谓词标签有时是错误的。具体来说，按照目标检测中的IoU策略，现有的基于提案的模型都根据体积IoU（vIoU）为提案分配谓词标签。如果它们的vIoU小于阈值，这种策略自然会丢弃一些“真实”的谓词。如图1（a）所示，在提案a和提案b内的多个帧中同时发生了behind和towards两个关系，但是对于提案a，分配的谓词标签只有behind（对于提案b是towards）。同时，一旦将谓词标签分配给提案，它们就假设这个关系应该在整个提案中持续存在（即在提案的所有帧中发生）。显然，这个问题的一个负面影响是两个高度重叠的提案（提案a/b）的真实标签可能完全不同，这种不一致会影响模型的训练。2.它们破坏了同一主体-客体对的不同谓词实例之间的高阶关系。由于视频的特性，同一主体-客体对之间总是发生多个关系，而这些关系可以作为关键的上下文（或归纳偏见）来有利于其他关系的预测。例如，behind、towards和away总是在dog和child之间按顺序发生。而基于提案的方法通过预先切割轨迹明确地破坏了这些高阶关系，并在每个提案中独立地对谓词进行分类。3.VidSGG的性能受提案质量的上限限制。VidSGG的性能对于提案生成的启发式规则（例如提案的大小或数量）非常敏感。同时，为了实现更高的召回率，它们总是生成过多的提案，这显著增加了计算复杂性。在本文中，我们提出了一种基于分类然后定位的VidSGG框架，可以避免基于提案的方法中提到的所有缺点。具体而言，我们首先基于整个轨迹进行谓词分类，然后对每个预测的谓词实例进行定位（图1（b））。与基于提案的方法相比，我们将两个轨迹之间发生的所有关系都视为真实的谓词标签（例如，behind、towards、away和in-front-of都是dog和child的真实谓词）。02 对于提案a，它与谓词towards的vIoU < 0.5，与谓词behind的vIoU >0.5。对于提案b，情况相反。3尽管一些基于提案的模型开始采用一些上下文建模技术来弥补这个弱点，但我们认为基于提案的框架本身忽视并破坏了这些高阶关系。01.53 7.80 11.14 18.42 21.55 时间 / 秒0孩子0狗0在...前面0朝向0紧挨着0远离0时间二分图0朝向远离朝向0主体客体0在...前面0孩子（主语）狗（宾语）紧挨着紧挨着0图2.左：一个视频示例及其真实的视觉关系三元组。右：对应的时间二分图。与现有的公式进行比较，详见附录。0child)。我们的框架不仅提供了更准确的真实谓词标签，还保留了利用谓词之间的高阶关系的能力。此外，它避免了多余的建议和启发式规则。在这个框架下，我们提出将视频场景图重新定义为时间双分图，其中实体和谓词是具有时间槽的两种类型的节点，边表示这些节点之间的不同语义角色（即主语和宾语）（图2）。每个实体节点是一个对象轨迹，其时间槽是该轨迹的时间范围。每个谓词节点是两个具有相同谓词类别的实体之间的一组关系实例，其中每个时间槽表示每个关系实例的时间范围（例如，图2中的谓词节点towards有两个时间槽）。因此，每个实体节点可以与多个谓词节点连接，以表示涉及的多个关系，每个谓词节点可以与每个角色的最多一个实体节点连接。这种表述不仅可以轻松扩展到具有更多语义角色的更一般的关系[50]，而且还避免了为谓词预测枚举所有实体对的问题。因此，我们提出了一个基于双分图的模型BIG，它包括一个分类阶段和一个定位阶段。具体而言，前者旨在对所有节点和边的类别进行分类，后者试图定位每个关系实例的时间位置。对于分类阶段，它是一个基于Transformer的模型，其中编码器和解码器的输入分别是轨迹特征和可学习的谓词嵌入。为了区分不同的语义角色，我们还提出了一个角色感知的交叉注意力，将角色区分引入谓词嵌入中。对于定位阶段，我们将每个谓词节点的三元组类别视为一个语言查询（例如，图2中的�dog，towards，child�），并在视频中定位这个语言查询。由于每个关系类别可能在两个轨迹之间发生多次，我们在这个阶段设计了一个多实例定位头。我们在两个具有挑战性的VidSGG基准测试集VidVRD [32]和VidOR[30]上评估了模型。广泛的消融和结果表明了我们新方法的有效性。194990分类-然后定位的框架和BIG模型。总结起来，本文的贡献01.我们提出了一种新的分类-然后定位的VidSGG框架。它避免02.我们将视频场景图重新定义为时间双分图，并充分利用这个新的框架。03. 我们提出了一种新颖的BIG模型，在两个VidSGG数据集上实现了最先进的性能。02. 相关工作0视频场景图生成。当今的VidSGG模型都是基于建议的。它们通常关注以下设计：1）在片段或轨迹建议之间更有效的上下文融合机制，例如GCNs或CRFs [22, 28,37]，组合关系编码[13]或结构上下文聚合[36]；或2）更强的关系关联方法，如MHA[33]或在线关联[28]。相比之下，我们是第一个避免建议生成步骤并以新的分类-然后定位方式解决VidSGG任务的方法。同时，我们通过将图像双分图[50]扩展到视频领域，即为谓词节点分配时间槽，提出了一种新颖的时间双分图表述。因此，我们提出了一种新颖的BIG模型。SGG中的Transformer结构。Transformer结构[38, 39]在开创性工作DETR[4]之后重新引起了视觉社区的关注，DETR将目标检测任务视为集合预测问题。受到DETR的启发，最近的一些工作开始使用Transformer模型进行图像场景图生成[12, 15, 35,53]。类似地，这些模型利用一组可学习的嵌入作为解码器的输入，并基于编码的全局对象特征预测三元组。受到这些工作的启发，我们在分类阶段中也采用了Transformer结构，并设计了一个角色感知的交叉注意力模块，以明确建模时间双分图的不同边缘。视频定位。它旨在定位由语言查询描述的视频片段[16,49]。现有的模型可以大致分为：1）基于锚点的方法[1, 3,41, 44, 46,52]：它们将所有时刻建议与语言查询进行匹配，并选择与最高匹配分数的建议作为预测结果。2）无锚点的方法[7,24, 42, 45,48]：它们直接预测每个帧是否是边界的概率，或直接回归目标时刻的时间位置。在本文中，我们将定位阶段转化为视频定位问题，并在SOTA模型DE-BUG[24]的基础上进行扩展，使其能够输出多个片段。03. 方法0在本文中，我们将视频场景图重新定义为时间二部图。给定实体类别集合 C e 和谓词类别集合 C p，时间二部图形式上定义为 G = ( N e , N p , E ) ，其中N e ， N p 和 E0分别表示实体节点、谓词节点和边的集合。对于每个实体节点e i ∈ N e ，它与一个实体类别 c e i ∈ C e 以及一个时间段 (s e i , e e i ) 相关联。类似地，对于每个谓词节点 p j ∈ N p，它与一个谓词类别 c p j ∈ C p 以及一组时间段 { ( s p j,k ,e p j,k ) } K j k =1相关联。这种多时间段的设置意味着每个谓词节点在同一主体-客体对中具有相同类别的 K j 个实例（发生 K j 次）。E � N e×N p ×C r 是一个将实体-谓词对映射到语义角色（即 N e ×N p → C r ）的映射集合，其中 C r = { 主语，宾语 }是一个语义角色集合。N e 和 N p 的大小分别表示为 n 和m。在这种新的二部图形式化中，我们提出了一种新颖的VidSGG模型：BIG。BIG的概述流程如图 3所示，包括两个阶段：分类阶段（第 3.1节）和基于地面的阶段（第 3.2 节）。03.1. 分类阶段03.1.1 概述0分类阶段旨在对所有节点（即实体和谓词）以及它们之间的边（即语义角色）进行分类。如图 3 (a)所示，分类阶段由四个部分组成：轨迹检测器、编码器、解码器和分类头。轨迹检测器。给定一个视频，我们使用预训练的轨迹检测器来检测视频中的所有轨迹（表示为实体集合N e），以及相应的时空位置、类别和特征。具体而言，对于每个具有长度 l i （帧数）的实体 e i ∈ N e，它由边界框坐标 b i ∈ R l i × 4 ，对象类别 c e i ∈ Ce 以及时间段 ( s e i , e e i )表示。我们将所有检测结果（即 { b i } 和 { c e i }）固定为最终预测结果。每个实体 e i 的轨迹特征 f i是外观特征和空间特征的组合。外观特征 f a i ∈ R l i × da 是基于边界框位置使用RoIAlign [ 29]在每帧提取的。空间特征 f s i ∈ R l i × 8是所有边界框坐标 b i 和偏移量 ∆ b i 的串联，其中 ∆ bi,j 是两个连续帧的边界框坐标偏移量，即 ∆ b i,j = b i,j+1 − b i,j 。然后，实体 e i 的轨迹特征 f i ∈ R l i × d e0f i = Conv [ MLP a ( f a i ); MLP s ( f s i )] , (1)0其中 MLP a 和 MLP s 是两个可学习的MLP，[; ]是一个连接操作，Conv是一个一维卷积层。编码器。给定实体特征 { f i }，编码器旨在对所有实体之间的全局上下文进行编码。因此，我们使用基本的Transformer编码器[ 38]作为我们的编码器，其中每个层由多头自注意力（ MHSA）和前馈网络（ FFN）组成。由于实体特征的大小不同，我们首先使用池化操作将每个特征 f i ∈ R l i × d e 转换为固定大小的特征 f ′ i∈ R l × d e ，并使用MLP将其映射到一个向量 h i ∈………………(2)+�� × �� × �� × �� × ��………195000特征编码器0Transformer0编码器关系解码器0人0汽车0汽车0坐在上面0骑0向左移动0摩托车0停在后面0向前移动0Tracklet检测器0分类头0<摩托车，向前移动，汽车>0谓词查询0视频特征0多实例定位0预测头0时间重叠+0（a）分类阶段0特征提取器0（b）定位阶段（c）视频场景图0NMS0��0��0��0��0��0��0(��, ��)0{(��, ��)}0图3. 所提出的BIG模型的整体流程，包括分类阶段（a）和定位阶段（b）。0Rde。然后，我们将所有实体特征{hi}堆叠成矩阵H∈Rn×de，并将H馈送到编码器中。编码器的输出是上下文特征�H∈Rn×de。解码器。解码器的设计是为了预测图的边缘，并为后续的谓词分类推导出增强的谓词表示。解码器的输入是一组固定大小的m个谓词查询，具有相应的可学习嵌入Q∈Rm×dq。每个查询负责双分图中的一个谓词节点。我们在Transformer解码器的基础上构建，并用Role-awareCross-Attention（RaCA）替换了原始的交叉注意力。因此，每个解码器层可以总结为：0Q′(i) = LNorm(Q(i) + MHSA(Q(i))),0¯Q′(i) = RaCA(Q′(i), �H, �H),0Q′′(i) = LNorm(Q′(i) + ¯Q′(i)),0Q(i+1) = LNorm(Q′′(i) + FFN(Q′′(i))),0其中LNorm是层归一化[2]，Q(i)是第i个解码器层的输入查询嵌入。最后一个解码器层的输出表示为�Q，即增强的查询嵌入。同时，最后一个解码器层的交叉注意力矩阵（RaCA模块内部）表示为�A，可以看作是双分图的软边链接。关于RaCA模块（与原始交叉注意力的区别）的更多细节和讨论在第3.1.2节中。分类头。给定查询嵌入�Q和交叉注意力矩阵�A，分类头的目标是对每个查询（即谓词节点）的类别进行分类。如图4所示，�A有两个通道，对应双分图中的两个不同语义角色。基于�A，我们首先通过在每个通道中选择具有最高注意力分数的实体来为每个谓词节点pj推导出预测的主体和客体，其索引分别表示为js和jo。然后，谓词pj的分类特征fpj是三种类型的拼接0�0× ��0��0�� 02×�×�0��′0××0}0逐实体归一化，逐角色归一化0��0��′0{��}……0图4. Role-aware Cross-Attention模块的示意图。0特征包括：查询嵌入�qj，主/客体实体特征hjs和hjo，以及主/客体实体类别的词嵌入，即fpj=[�qj;hjs;hjo;Π(cej s);Π(cejo)]，其中Π(cei)∈Rdw是对象类别cei的GloVe嵌入[27]。最后，通过以下方式对谓词类别进行分类：0P(cpj) = Softmax(MLPp(fpj) + bcejs,cejo), (3)0其中 MLP p 是一个MLP，b�，�是训练集[36,51]中关系三元组类别的统计先验。03.1.2 Role-aware Cross-Attention（RaCA）0如图4所示，RaCA模块旨在基于交叉注意力矩阵将不同语义角色的实体特征聚合到查询嵌入中。为了区分不同的语义角色（即主语或宾语），我们分别为每个语义角色执行交叉注意力，然后将这些角色特定的特征与两个非线性变换融合。具体而言，令K=V=�H∈Rn×de为键和值矩阵，它们是编码器的输出，Q'∈Rm×dq为查询矩阵，它们是每个解码器层中第一个子网的输出（参见公式（2））。RaCA构造一个二通道注意力矩阵A∈R2×m×n，每个通道的A计算如下：0Ar = (Q'WQr)(KWKr)T / �0d e, (4)04为简洁起见，在本小节中我们省略了下标i，例如，Q'(i)→Q'。………�1950101D Conv0Multimodal0Feature0�� × �� × 20�� × �� × 0��0lassification0egression0confidence0× 401D Conv0× 401D Conv0对于每个实例0left right0foreground/background0centerness0bins0× 10× 10× 10bin_1 bin_20in-front-of in-front-of0dogchild0bin_K0(a)0(b) x K0图5. (a): 多实例接地中的标签分配示意图。 (b):多实例接地头部的概述。0其中WQr，WKr是可学习的权重，r∈{1,2}表示主语和宾语通道。在我们的公式中，由于我们假设每个谓词查询只能链接到每个角色中的一个实体，并且每个实体-谓词对最多具有一种类型的语义角色。因此，我们对A进行了实体轴和角色轴的归一化，即0�Ar,j,i = exp(Ar,j,i) �ni′=1 exp(Ar,j,i′) × exp(Ar,j,i) �2r′=1exp(Ar′,j,i). (5)0然后，我们使用两个角色特定的非线性MLP（F�）将角色区分引入到查询嵌入中。0¯Q' = Fs(�A1V) + Fo(�A2V), F�: Rde �→ Rdq, (6)0其中¯Q'是RaCA模块的输出（参见公式（2）），它从每个实体中聚合了角色感知信息。讨论。与原始Transformer[38]中的普通交叉注意力相比，RaCA明确地基于角色归一化（参见公式（5））和角色感知非线性映射（公式（6）中的F�）学习了二部图的邻接矩阵。否则，普通的交叉注意力模块无法建模邻接矩阵（或边链接）。03.2. 接地阶段0接地阶段的目标是定位每个预测谓词节点的时间位置。到目前为止，对于每个谓词节点pj，分类阶段已经预测了它的类别cpj和两个关联的实体轨迹：主语ejs和宾语ejo。在这个阶段，我们将谓词定位视为一个视频接地问题[16]。具体而言，我们将三元组类别序列(cejs,cpj,cejo)（例如，在图3(a)中的�person,ride,motorcycle�）作为语言查询，并扩展现有的视频接地模型DEBUG[24]以进行多实例谓词定位。如图3(b)所示，这个阶段包括三个部分：特征提取器、特征编码器和多实例接地头部。0特征提取器。对于给定的视频，我们使用预训练的I3D[5]网络提取帧级视觉特征F∈RT×dv，其中T是整个视频帧的数量。对于查询（ces, cpj,cejo）（参考谓词节点pj），我们初始化查询特征Sj =[Π(ces), Π(cpj),Π(cejo)]，即三元组类别的GloVe嵌入。同时，由于每个谓词只发生在其主体和客体的重叠时间内，我们使用这个重叠时间的时间边界作为先验特征来增强Sj，即0Sj = MLPw(Sj) + MLPt([sj, ej]), Sj∈R3×dw，(7)0其中[sj,ej]∈R2是与谓词节点pj相关联的主体和客体的重叠边界。注意，只有那些涉及到重叠主体-客体轨迹的谓词节点在基础阶段中被用于定位。视觉特征F对于所有具有特征{�Sj}mj=1的查询是共享的。特征编码器。该编码器旨在对视频特征F和所有查询特征{�Sj}之间的交互进行建模。具体来说，我们使用与DE-BUG[24]相同的特征编码器，其中包含两个并行的嵌入编码器和一个多模态注意力层。特征编码器的输出是一个融合的多模态特征M∈RT×d。更多细节请参阅DEBUG[24]论文。多实例定位头。与现有的视频定位任务不同，每个查询只引用单个段落，在VidSGG中，谓词类别可以在同一主体-客体对之间多次发生，即每个语言查询可能引用多个段落（参见图2）。由于不同谓词节点的时间槽数量差异很大，直接预测每个查询的可变数量的时间段是困难的。相反，我们为每个语言查询设置K个bin。如图5（a）所示，在训练阶段，我们将整个归一化视频长度均匀地分成K个间隔，即K个bin。然后，每个bin都被分配具有以其间隔为中心的目标时间槽。在测试阶段，所有时间槽的预测都经过NMS处理以减少误报。最后，NMS操作导致三元组查询（csj，cpj，coj）的Kj个时间槽，表示为{(spj,k,epj,k)}Kjk=1。根据DEBUG[24]，我们为定位设计了三个分支网络：分类子网络、边界回归子网络和置信度子网络（参见图5（b））。特别地，我们将最后一个卷积层的输出通道扩展到K用于分类和置信度分支，扩展到2K用于回归分支（对应于K个bin）。03.3. 训练目标0分类阶段。由于我们将检测骨干网络的所有轨迹固定为最终的实体节点预测，我们只考虑边缘和谓词节点的分类训练损失。令ˆNp ={ˆpj}mj=1为预测的m个谓词节点集合，N�p为大小为m的填充了�（背景）的真实谓词集合。我们采用一对一的标签分配，通过在ˆNp和N�p之间找到一个二分图匹配来实现。具体来说，我们通过优化成本来搜索m个元素的排列ˆσ：05虽然多个目标可能仍然落入同一个bin中，但这样的样本只占很小比例（详细信息见附录）。edges and the predicate nodes. Let ˆNp = {ˆpj}mj=1 be thepredicted set of m predicate nodes, and N ∗p be the ground-truth predicate set of size m padded with ∅ (background).We adopt a one-to-one label assignment by ﬁnding a bipar-tite matching between ˆNp and N ∗p . Speciﬁcally, we searchfor a permutation of m elements ˆσ by optimizing the cost:Lmatch(p∗j, ˆpσ(j)) = − 1{cp∗j ̸=∅} log P(ˆcpσ(j) = cp∗j )+ 1{cp∗j ̸=∅}λattLatt(a∗j, ˆaσ(j)),(9)Lc =jLmatch(p∗j, ˆpˆσ(j)) −cp∗j=∅ log P(ˆcpˆσ(j) = ∅). (10)195020ˆσ = arg min σ0�mj=1Lmatch(p�j, ˆpσ(j)). (8)0这个匹配问题可以通过匈牙利算法[25]来高效计算，根据之前的DETR[4]的工作。匹配成本考虑了谓词分类和边缘预测。由于所有实体节点都是固定的，成本可以从谓词节点的视角考虑，实体节点提前分配给它们的真实值（基于vIoU，标准类似于FasterR-CNN[29]）。因此，每个谓词节点可以通过其类别和与主体/客体的两条边来描述。我们表示p�j = (cp�j,a�j)，其中cp�j是谓词类别（可能为空），a�j∈{0,1}2×n是两个通道的A�（真实邻接矩阵）的第j行。注意，当第i个实体没有与之匹配的真实值时，a�j,r,i =0。对于索引为σ(j)的预测谓词，相应的边由ˆaσ(j)∈R2×n描述，它是预测的ˆA的第σ(j)行。根据上述符号，匹配成本定义为：0其中，λ att 是超参数，L att定义为二元交叉熵（BCE）损失，1 {∙} 是指示函数。在获得ˆσ 后，分类阶段的损失 L c 包括（p � j , ˆ p ˆ σ ( j)）对之间的匹配损失，以及其他谓词节点的背景分类损失，即0定位阶段。定位阶段与分类阶段分开训练，我们使用真实的三元组类别进行训练。根据DEBUG[24]的方法，训练目标包括三个分支的损失。总损失在所有K个bin中平均。04. 实验04.1. 数据集和评估指标0数据集。我们在两个基准数据集上评估BIG：1）VidVRD[32]：它包含1,000个视频，涵盖35个物体类别和132个谓词类别。我们使用官方划分：800个视频用于训练，200个视频用于测试。2）VidOR[30]：它包含10,000个视频，涵盖80个物体类别和50个谓词类别。我们使用官方划分：7,000个视频用于训练，835个视频用于验证，2,165个视频用于测试。由于测试集的注释未发布，我们只评估了验证集。评估指标。我们在两个任务上评估BIG：1）关系检测（RelDet）：它检测一组视觉关系三元组以及主体和客体的相应轨迹。如果检测到的三元组与标注的相同三元组一致，并且主体和客体轨迹与标注的相交度（例如0.5）达到足够的IoU，则认为检测到的三元组是正确的。我们使用mAP和Recall@K（R@K，K=50,100）作为RelDet的评估指标。2）关系标记（RelTag）：它只关注视觉关系三元组的精确性，忽略轨迹的定位结果。对于RelTag，我们使用Precision@K（P@K，K=1,5,10）作为评估指标。0验证集，2,165个视频用于测试。由于测试集的注释未发布，我们只评估了验证集。评估指标。我们在两个任务上评估BIG：1）关系检测（RelDet）：它检测一组视觉关系三元组以及主体和客体的相应轨迹。如果检测到的三元组与标注的相同三元组一致，并且主体和客体轨迹与标注的相交度（例如0.5）达到足够的IoU，则认为检测到的三元组是正确的。我们使用mAP和Recall@K（R@K，K=50,100）作为RelDet的评估指标。2）关系标记（RelTag）：它只关注视觉关系三元组的精确性，忽略轨迹的定位结果。对于RelTag，我们使用Precision@K（P@K，K=1,5,10）作为评估指标。04.2. 实现细节0轨迹检测器。我们使用具有ResNet-101[18]骨干的视频物体检测器MEGA [14,17]来获取初始的帧级检测结果，并采用deepSORT[40]生成物体轨迹。将BIG适应于VidVRD。对于VidVRD[32]训练集中的每个关系三元组，我们注意到只有一部分标注的时间段被注释为前景，这使得标注的时间边界不可靠。因此，我们只使用BIG的分类阶段进行VidVRD的训练，称为BIG-C。因此，每个谓词p j的时间槽被计算为其主体和客体的重叠，即（s e j s , e e j s）∩（s e j o , e e j o ），并且K j =1。更多的实现细节留在附录中。04.3. 消融实验0分类-定位的有效性。我们设计了一个基准模型来展示这个框架和两个阶段（分类和定位）的有效性。具体来说，它通过多标签分类直接对所有轨迹对的谓词类别进行分类，基于特征f ′ p j = [ h j s ; h j o ; Π( c e j s ); Π( c e j o)]（参见方程（3）中的f p j），即Base-C。然后，我们将定位阶段应用于Base-C，称为Base。所有结果都在表2中。从这个表中，我们可以观察到，即使没有BIG模型，简单的分类-定位基准（Base）仍然优于SOTA基于提议的模型Sun等人[34]。此外，我们在表2中报告了定位阶段的平均关系候选数（#Cand.），以展示每个阶段的有效性。对于分类阶段，通过将BIG-C与Base-C进行比较，我们可以观察到BIG-C在所有指标上优于Base-C，尤其是在RelTag上有很大的优势，同时具有较少的平均关系候选数（135.4 vs.482.1），这证明了在时态二分图形式下编码器-解码器流水线的优越性。对于定位阶段，我们可以观察到它可以持续改善两个骨干（Base-C和BIG-C）的检测mAP和召回率。RelTag的改进很小，因为它只关注视觉关系三元组的精确性，而不考虑轨迹的定位结果。(7.11, 12.71)(18.89, 26.49)(29.76, 39.64)(29.23, 40.07)(0.0, 2.30)(0.93, 40.57)(0.0, 2.30)(0.0, 2.30)0.93s1.94s7.34s13.25s18.89s37.07s(0.0, 3.44)(10.13, 13.25)(0.0, 26.93)(0.0, 3.87)(3.3, 20.39)(0.0, 35.47)0.0s3.44s9.51s11.48s21.35s.(0.0, 35.47)(0.0, 35.47)(0.0, 26.93)(0.0, 2.30)(0.0, 40.57)(0.93, 40.57)195030模型特征 RelDet RelTag 视觉运动 mAP R@50 R@100 P@1 P@5 P@100VidVRD [32] MM'17 iDT � 8.58 5.54 6.37 43.00 28.90 20.80 GSTEG [37] CVPR'19iDT � 9.52 7.05 8.67 51.50 39.50 28.23 VRD-GCN [28] MM'19 iDT � 16.26 8.07 9.3357.50 41.00 28.50 MHA [33] MM'20 iDT � 19.03 9.53 10.38 57.50 41.40 29.45IVRD [21] MM'21 RoI � 22.97 12.40 14.46 68.83 49.87 35.57 VidVRD-II [31]MM'21 RoI � 29.37 19.63 22.92 70.40 53.88 40.16 Liu等人[22] CVPR'20 RoI+I3D † �18.38 11.21 13.69 60.00 43.10 32.24 Chen等人[13] ICCV'21 RoI+I3D � 20.08 13.7316.88 62.50 49.20 38.450Liu等人[22] CVPR'20 RoI † 14.01 8.47 11.00 56.50 36.70 26.60 TRACE [36]ICCV'21 RoI 15.06 7.67 10.32 — — — BIG-C（我们的方法）RoI † 17.56 9.5910.92 56.50 44.30 32.350Liu等人[22] CVPR'20 RoI+I3D † 14.81 9.14 11.39 55.50 38.90 28.90 TRACE [36]ICCV'21 RoI+I3D 17.57 9.08 11.15 61.00 45.30 33.50BIG-C（我们的方法）RoI+I3D † 17.67 9.63 11.29 56.00 43.80 32.850BIG-C（我们的方法）RoI ‡ 26.08 14.10 16.25 73.00 55.10 40.000表1.VidVRD上SOTA方法的性能（%）。视觉：†表示这些模型使用与Liu等人[22]相同的轨迹和特征，‡表示这些模型使用MEGA生成的轨迹和特征。运动：它指的是实体对的相对运动特征[31]。0狗0在...旁边0手表0在...后面0抚摸0狗0离开0在...前面0孩子0狗0离开0在...前面0在...前面0凳子0图6. VidOR的定性结果。0模型 RelDet（%） RelTag（%） #候选 mAP R@50 R@100P@1 P@50Sun等人[34] 6.56 6.89 8.83 51.20 40.73 —0Base-C 7.05 7.17 9.19 59.01 47.07 482.1 Base 7.197.32 9.50 59.49 47.28 482.1 BIG-C 8.29 7.92 9.6564.42 51.70 135.4 BIG 8.54 8.03 10.04 64.42 51.80135.40表2. VidOR不同阶段有效性的消融实验。0不考虑关系三元组的位置。谓词查询数量。我们在表4中比较了BIG-C在不同谓词查询数量（m）下的性能。可以观察到，更多的谓词查询总是能提高最终的VidSGG性能，但也会导致更多的计算（例如#Cand.）。为了权衡效果和效率，我们将m设置为192进行后续的所有实验。RaCA模块的消融实验。我们分析了RaCA模块中角色归一化（R-norm）和两个角色特定映射（F�）对BIG-C的影响。从表5的结果中，我们可以观察到，R-norm和F�对角色感知信息编码都很重要。特别是当两种技术都被使用时，模型在P@1上取得了最佳结果。多实例基础的消融实验。我们进一步研究了多实例基础中不同数量的bin对性能的影响。由于同一主体-客体的每个谓词类别可能有多个实例，我们将具有相同主体-客体对和谓词类别的关系三元组视为一个样本。每个基本事实样本可以部分命中一个分数召回（fR），即0计算为每个样本的命中关系三元组的比例。为了更精确，我们分别评估了单实例（fR S ）和多实例（fR M）的基本事实样本的fR@K。从表6的结果中，我们可以观察到：1）随着K的增加，单实例和多实例样本的fR@K都增加。2）我们的多实例基础（例如#Bins=5,10）更能提高多实例样本上的谓词fR，例如fR M 的相对增益大于fRS（3.97%（5.53 → 5.75）vs. 0.61%（12.96 →13.04））。04.4. 与现有技术的比较04.4.1 VidVRD上的性能表现0设置。对于VidVRD，我们将我们的BIG-C与几种现有技术进行了比较，可以粗略地分

下载后可阅读完整内容，剩余1页未读，立即下载