语言指代视频目标分割的基于Transformer的框架ReferFormer能有效实现自然目标跟踪

188 浏览量更新于2023-10-25 收藏 19.42MB PDF 举报

视频目标分割

目标跟踪

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

49740语言作为指代视频目标分割的查询0吴建南1，姜毅2，孙培泽1，袁泽焕2，罗平1,301 香港大学 2 字节跳动 3 香港大学-TCL人工智能联合研究中心0摘要0指代视频目标分割（R-VOS）是一项新兴的跨模态任务，旨在在所有视频帧中根据语言表达式分割所指的目标物体。在这项工作中，我们提出了一个简单而统一的基于Transformer的框架，称为ReferFormer。它将语言视为查询，并直接关注视频帧中最相关的区域。具体而言，我们引入了一小组以语言为条件的目标查询作为Transformer的输入。通过这种方式，所有的查询都被强制只找到所指的目标物体。它们最终被转化为动态核，捕捉到关键的目标级别信息，并在特征图上扮演卷积滤波器的角色，从而生成分割掩码。通过在帧之间链接相应的查询，实现了自然的目标跟踪。这种机制极大地简化了流程，与以前的方法有明显的区别。在Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences和JHMDB-Sentences上进行了大量实验证明了ReferFormer的有效性。在Ref-Youtube-VOS上，ReferFormer在没有任何额外操作的情况下，使用ResNet-50作为骨干网络，实现了55.6的J&F，超过了先前最先进的性能8.4个百分点。此外，使用强大的Video-Swin-Base骨干网络，ReferFormer在所有现有方法中实现了最佳的64.9的J&F。此外，我们在A2D-Sentences和JHMDB-Sentences上展示了令人印象深刻的结果，分别达到了55.0的mAP和43.7的mAP，大大超过了以前的方法。代码公开可用于https://github.com/wjn922/ReferFormer。01. 引言0指代视频目标分割（R-VOS）旨在根据自然语言描述在视频中分割目标物体。这个新兴的课题引起了研究界的极大关注，并有望在友好和互动的方式下受益于许多应用，例如视频编辑和视频监控。0图1. 当前指代视频目标分割（R-VOS）流程的比较。 (a)自下而上。 (b) 自上而下。 (c) 我们的方法。0编辑和视频监控。与传统的半监督视频目标分割任务相比，R-VOS更具挑战性[33,46]，因为它不仅缺乏第一帧的地面实况掩码注释，还需要对跨模态源（即视觉和语言）进行全面的理解。因此，模型应具有强大的能力来推断所指的目标，并进行准确的分割。0为了完成这个任务，现有的方法主要可以分为两组：（1）自下而上的方法。这些方法以早期融合的方式结合视觉和语言特征，然后采用FCN[28]作为解码器生成目标掩码，如图1(a)所示。（2）自上而下的方法。这些方法从自上而下的角度解决问题，并遵循一个两阶段的流程。如图1(b)所示，它们首先使用实例分割模型找到每个帧中的所有目标物体。49750在整个视频中，将每个帧中的目标物体分割出来，并将它们关联起来形成轨迹候选集。然后，使用表达式作为准则来选择最佳匹配的目标物体。尽管这两种方法的效果已经得到证明并取得了有希望的结果，但它们仍然存在一些固有的局限性。首先，对于自下而上的方法，它们无法捕捉到关键的实例级别信息，并且不考虑跨多个帧的目标物体关联。因此，这些方法无法为跨模态推理提供明确的知识，并且由于场景变化而导致预测目标物体的差异。其次，尽管自上而下的方法大大提高了性能，但由于复杂的多阶段流水线，它们的工作量很大。此外，对几个子问题进行单独优化会导致次优解。当前方法的这些局限性激发了我们设计一个简单而统一的框架来优雅地解决R-VOS任务的动机。Transformer在目标检测和视频实例分割方面的最新成功证明了一种有希望的解决方案。然而，将这样的模型应用于R-VOS任务并不容易。这些模型使用固定数量（例如100个）的可学习查询来检测图像中的所有目标物体。在这种情况下，由于表达式的随机性，模型很难区分指代的是哪个目标物体。这里提出了一个自然的问题：“是否可能通过统一模型使用查询来确定要查找的位置？”本文通过提出语言作为查询的概念来回答这个问题，如图1(c)所示。我们对所有目标物体查询施加了语言限制，并将这些条件查询作为模型的输入。通过这种方式，表达式将使查询仅关注所指的目标物体，从而大大减少查询数量（例如我们的实验中为5个）。下一个挑战在于如何从查询表示中解码目标物体的掩码。由于查询包含丰富的实例特征，我们将其视为实例感知的动态核，用于从特征图中过滤出分割掩码。统一的框架不仅可以为所指的目标物体生成分割掩码，还可以生成分类结果和检测框。此外，通过跨帧的实例匹配策略，条件查询之间通过实例匹配策略进行链接，从而实现了自然的目标跟踪，无需后处理。我们希望这个框架能够为R-VOS任务提供一个强大的基线。本文的主要贡献如下。0•我们提出了一种用于参考视频对象分割的简单而统一的框架，称为ReferFormer。给定一个视频剪辑和相应的语言表达式，我们的框架以端到端的方式直接检测、分割和跟踪所指对象的所有帧。0我们引入了一小组对象查询，这些查询在文本表达式的条件下仅关注所指对象。这些条件查询在初始状态下在不同帧之间共享，并被转化为动态核以从特征图中过滤出分割掩码。这种机制为R-VOS任务提供了一种新的视角。0•我们设计了跨模态特征金字塔网络（CM-FPN）用于多尺度视觉语言融合，提高了用于准确分割的掩码特征的区分性。0•在Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences和JHMDB-Sentences上进行了大量实验证明，ReferFormer在这四个基准测试中的表现优于以往的方法。例如，在Ref-Youtube-VOS上，使用ResNet-50骨干网络的ReferFormer在没有任何额外技巧的情况下实现了55.6的J&F，相比以往最先进的方法显著提高了8.4个百分点。并且使用强大的Video-Swin-Base视觉骨干网络，ReferFormer实现了64.9的J&F的令人印象深刻的结果。02. 相关工作0视频对象分割。传统的视频对象分割（VOS）旨在将在第一帧中给出的真实对象掩码传播到整个视频。最近的大多数工作[7, 32, 41,49]属于基于匹配的方法，它们通过特征匹配来跟踪目标对象。0参考视频对象分割（R-VOS）使用语言描述而不是掩码注释作为对象参考，因此这是一个更具挑战性的任务。目前的R-VOS方法主要遵循两种流程：（1）自下而上的方法。直观的想法是直接将图像级别的参考方法[8, 14, 29,53]独立地应用于视频帧，例如RefVOS[2]。这种方法的明显缺点是它们未能利用跨帧的宝贵时间信息，导致由于场景或外观变化而产生不一致的对象预测。为了解决这个问题，URVOS[36]将该任务视为图像中的参考对象分割和视频中的掩码传播的联合问题。他们提出了一个统一的参考VOS框架，使用内存注意模块来利用先前帧中的掩码预测信息。（2）自上而下的方法。典型的自上而下方法[20]首先通过将从几个关键帧检测到的对象掩码传播到整个视频来构建详尽的对象轨迹集合。然后，构建语言基准模型来从候选集中选择最佳的对象轨迹。尽管该方法取得了突破性的进展49760图2.ReferFormer的整体流程。它主要由四个部分组成：骨干网络、Transformer、跨模态特征金字塔和分割部分。模型以视频剪辑及其相应的语言表达式作为输入，并在每个帧中输出所指对象的分割掩码。对于Transformer解码器的输入，对象查询是根据语言表达式进行条件约束以找到所指对象。相同颜色表示同一帧中的查询，相同形状表示查询指向同一实例。不同帧的查询顺序保持一致。最佳观看效果为彩色显示。0与之前的方法相比，复杂的多阶段流程计算成本高且不实用。与这两种流程相比，我们提出了一种基于查询的方法，通过简单而统一的框架实现了最强的性能。Transformer[40]最初是在自然语言处理领域中用于序列到序列翻译的，已经在大多数计算机视觉任务[10, 17,26]中取得了巨大的成功，例如目标检测[4, 55]，跟踪[5, 30,37, 47]和分割[6, 15, 54]。DETR[4]引入了一种新的基于查询的范式[38,55]用于目标检测，它使用一组对象查询作为候选，并将其输入到Transformer解码器中。VisTR[43]将该框架扩展到了视频实例分割（VIS）[48]任务，并以直接的端到端并行序列解码方式解决了该问题。SeqFormer[44]将内容查询和框查询解耦，从每个帧中聚合时间信息，并在VIS任务上实现了最先进的性能。受到这些工作的启发，我们的工作也依赖于Transformer的查询机制，但考虑了额外的模态，即语言，作为对象参考。因此，我们提出了语言作为查询的概念，并构建了简单而统一的框架，同时对所指对象进行分割和跟踪。03. 方法0给定一个包含T帧的视频剪辑I = {It}Tt=1和一个指代表达式E ={el}Ll=1，我们的目标是生成所指对象的T帧二进制分割掩码。0对象S ={st}Tt=1，st∈RH×W的端到端方式。为此，我们提出了一个简单而统一的框架，名为ReferFormer，如图2所示。它主要由四个关键组件组成：主干网络、Transformer、跨模态特征金字塔网络（CM-FPN）和实例序列分割过程。引入了一小组基于语言的对象查询来找到所指对象。在推理过程中，我们通过选择平均分数最高的查询作为最终结果直接输出掩码预测。03.1. 主干网络0视觉编码器。我们首先采用视觉主干网络，独立地提取视频剪辑中每帧的多尺度特征图，得到视觉特征序列Fv ={ft}Tt=1。值得注意的是，可以采用2D和3D视觉编码器。0语言编码器。给定具有L个单词的语言描述，我们使用现成的语言嵌入模型RoBERTa[25]提取文本特征Fe ={fi}Li=1。我们还通过池化每个单词的特征来获得句子级特征fse∈RC。03.2. 语言作为查询0关键设计来自于我们使用一组基于语言表达条件的对象查询，称为条件查询，作为Transformer解码器的输入。这些查询被强制聚焦于所指的对象，并产生实例感知的动态核。最终的分割掩码通过执行动态卷积和相应特征图之间的操作得到。ˆsi =�ˆfi ⊛ ωi�where ωi and ˆfi are the i-th dynamic kernel weights and itsexclusive feature map, respectively. We reshape the outputmasks in frame-order sequence, resulting in a set as ˆS ∈RT ×N× H4 × W4 .49770通过形成动态卷积来实现动态核与其对应特征图之间的操作。在这里，我们采用Deformable-DETR[55]作为我们的Transformer模型，因为它对于全局注意力的有效性和效率。0Transformer编码器。首先，对多尺度视觉特征Fv进行1×1卷积，将所有特征图的通道维度减少到C =256。为了丰富视觉特征的信息，我们以乘法的方式将投影的视觉特征与文本特征Fe结合起来，形成新的多尺度特征图。0F′v = �f′t�T0t =1 .之后，将固定的2D位置编码添加到每个帧的特征图中，并将总和特征输入Transformer编码器。为了独立地利用Transformer处理视频帧，我们将空间维度展平，并将时间维度移动到批处理维度以提高效率。最后，Transformer编码器的输出，即编码记忆，输入到解码器中。0Transformer解码器。我们引入N个对象查询来表示每帧的实例，类似于[43]，不同之处在于查询权重在视频帧之间是共享的，以处理长度可变的视频。同时，我们将句子特征fse重复N次以适应查询数量。对象查询和重复的句子特征都作为输入馈送到解码器中。通过这种方式，所有的查询都将使用语言表达作为指导，尝试仅找到所指的对象。这些条件查询被复制为解码器的输入，用于所有帧，并最终被解码器转换为实例嵌入，得到Nq = T ×N的预测结果。需要注意的是，查询在不同帧之间保持相同的顺序，并且我们将相同相对位置的查询称为实例序列（在图2中表示为相同的形状）。因此，通过连接相应的查询，可以轻松实现所指对象的时间连贯性。0预测头。解码器之上构建了三个轻量级头部，进一步转换Nq实例嵌入。类别头输出二进制概率，表示文本句子是否引用了该实例，并且该实例在当前帧中可见。通过简单地改变输出类别数，它也可以修改为预测所引用对象的类别。掩膜头由三个连续的线性层实现。它产生N q 动态卷积核Ω = {ω i}N q i =1的参数，类似于[39]中的条件卷积滤波器。这些参数将被重塑为通道数为8的三个1×1卷积层。盒子头是一个3层前馈神经网络（FFN），除了最后一层外都使用ReLU激活。它将预测所引用对象的框位置和0图3。我们可视化了所有查询的预测框。可以看到，即使视频中有其他物体，这些框也只会定位在所引用的对象附近。0因此，动态卷积核的位置可以由相应框的中心确定。0动态卷积。假设我们现在已经获得了每帧的语义丰富特征图F seg = � f t seg � T t =1（将在第3.3节中讨论），问题是如何执行实例序列分割并从中获取所引用对象的掩膜。由于动态卷积核已经捕获了对象级别的信息，我们将它们作为卷积滤波器应用于特征图以进行实例解码。考虑到动态卷积核的位置先验为所引用对象提供了强大而稳健的参考，我们将特征图F seg与每个动态卷积核的相对坐标进行连接。最后，通过在条件卷积权重和相应特征图之间执行动态卷积来生成二进制分割掩膜:0i = 1 (1)0条件查询的说明。众所周知，Transformer解码器中的解码器嵌入和位置嵌入分别编码内容和空间信息。在我们的框架中，这两部分分别与文本句子特征和可学习的查询参数一起输入，以便所有查询都受到语言表达的限制。如图3所示，即使视频中存在其他物体，这些查询也只会关注所引用的对象。其中一个查询的得分会高得多，而其他查询的得分会被抑制。03.3. 跨模态特征金字塔网络0采用特征金字塔网络（FPN）[22]为视频帧生成多尺度特征图。我们构建了一个4级金字塔，空间步长从4×到32×。具体而言，Transformer内存（空间步长{8，16，32}）和来自视觉主干的4×特征被堆叠以形成分层特征。我们设计了一个跨模态特征金字塔网络（CM-FPN）来进行更精细的多尺度跨模态融合，详见补充材料中的架构图。For the t-th frame,iility scalar indicatingwhether the instance corresponds to the referred object andthis object is visible in the current frame. ˆbti ∈ R4 is the1https://competitions.codalab.org/competitions/291392https://github.com/davisvideochallenge/davis2017-evaluation49780在每个级别中，交互过程是通过视觉语言融合模块实现的。我们以FPN的第l级特征为例来说明这个过程。在这里，我们使用f l v ∈ R T × H l × W l ×C来表示第l级视觉特征，以简化表示。在MHSA模块之前，视觉特征F lv的空间尺寸通过因子σ进行下采样，而时间维度保持不变。因此，自注意力[40]操作的复杂性大大降低，使得融合模块可以插入到FPN的每个级别中。然后，视觉特征的空间尺寸恢复为H l × Wl，以保持细粒度信息。我们将4级特征图的下采样因子设置为[8, 4, 2, 1]。接下来，f lv以交叉注意力的方式与词级特征f e进行交互，其中查询和键分别是视觉和语言特征:0Interact ( f l v , f e ) = Softmax ( f l v W Q ∙ ( f e W K ) T0√ d head ) f e W V0(2) 其中 W Q，W K，W V ∈ R C × d head 是可学习参数。最后，我们在具有空间步长4 的特征图上应用额外的 3 × 3 卷积层，以获得最终的特征图 F seg = � f t seg � T04 × C d .03.4. 实例序列匹配和损失0使用 N 个条件查询，我们生成 N q = T × N个预测集合，可以将其视为 T 帧上 N个实例的轨迹。如前所述，跨帧的预测保持相同的相对位置。因此，我们可以使用实例匹配策略[43]对整个实例序列进行监督。让我们将预测集合表示为 ˆ y = { ˆ y i } N i =1，第i 个实例的预测表示为：0ˆ y i = � ˆ p t i , ˆ b t i , ˆ s ti � T0t =1 (3)04是预测的二进制分割掩码。由于视频中只有一个被引用的对象，因此地面实例序列表示为 y = { c t , b t , s t } T t=1。当地面实例在帧 I t 中可见时，c t 是一个独热值，等于1，否则为0。为了训练网络，我们首先通过最小化匹配成本来找到最佳预测作为正样本：0ˆ y pos = arg min ˆ y i ∈ ˆ y L match ( y, ˆ0L match ( y, ˆ y i )i )0+ λ mask L mask ( y, ˆ y i ) (5)0匹配成本是从每帧计算并通过帧数进行归一化。这里，L cls( y, ˆ y i )是焦点损失[23]，用于监督预测的实例序列参考结果。与框相关的损失总结了 L1 损失和 GIoU损失[35]。而与掩码相关的损失是 DICE损失[31]和二进制掩码焦点损失的组合。这两个掩码损失都在整个视频剪辑上进行时空计算。网络通过最小化正样本的总损失 L match 进行优化，同时让负样本预测 � 类别。03.5. 推理正如前面提到的，ReferFormer可以在单次前向传递中处理任意长度的视频，因为所有帧共享相同的初始条件查询。给定视频和语言表达式，ReferFormer将预测 N个实例序列。对于每个实例序列，我们对所有帧的预测参考概率进行平均，并获得参考分数集合 P = { p i } N i=1。我们选择平均分数最高的实例序列，其索引表示为 σ：0σ = arg max i ∈{ 1 , 2 ,...,N } p i (6)0每帧的最终分割掩码 S = { s t } T t =1 是通过从掩码候选集ˆ S 中选择与 σ索引对应的查询来获得的。由于链接的查询自然地跟踪相同的实例，因此不需要进行关联对象的后处理。04. 实验04.1. 数据集和评估指标0数据集。实验在四个流行的 R-VOS基准上进行。Ref-Youtube-VOS [36]是一个大规模基准，涵盖了 3,978 个视频和约 15K个语言描述。Ref-DAVIS17 [18] 是在 DAVIS17 [34]的基础上提供了每个视频中特定对象的语言描述，并包含90 个视频。A2D-Sentences 和 JHMDB-Sentences是通过在原始 A2D [45] 和 JHMDB [16]数据集上提供额外的文本注释而创建的。A2D-Sentences包含 3,782 个视频，每个视频都有 3-5帧带有像素级分割掩码的注释。JHMDB-Sentences 共有928 个视频，总共有 928 个相应的句子。0评估指标。我们使用Ref-Youtube-VOS和Ref-DAVIS17的标准评估指标：区域相似度（J），轮廓准确度（F）及其平均值（J &F）。对于Ref-Youtube-VOS，由于验证集的注释未公开发布，我们在官方挑战服务器上评估我们的方法[1]。Ref-DAVIS17通过官方评估代码[2]进行评估。Video-Swin-TReferFormer∗62.659.963.3---ReferFormerVideo-Swin-S60.158.661.6---ReferFormer∗63.361.465.2---ReferFormerVideo-Swin-B62.961.364.661.158.164.1ReferFormer∗64.962.867.0---49790方法主干 Ref-Youtube-VOS Ref-DAVIS170J & F J F J & F J F0空间视觉主干 CMSA [50] ResNet-50 34.9 33.3 36.5 34.7 32.2 37.2 CMSA + RNN[50] ResNet-50 36.4 34.8 38.1 40.2 36.9 43.5 URVOS [36] ResNet-50 47.2 45.3 49.251.5 47.3 56.0 ReferFormer ResNet-50 55.6 54.8 56.5 58.5 55.8 61.3 ReferFormer �ResNet-50 58.7 57.4 60.1 - - -0PMINet [9] ResNeSt-101 48.2 46.7 49.6 - - - PMINet + CFBI [9] ResNeSt-101 53.051.5 54.5 - - - CITD � [20] ResNet-101 56.4 54.8 58.1 - - - ReferFormerResNet-101 57.3 56.1 58.4 - - - ReferFormer � ResNet-101 59.3 58.1 60.4 - - -0PMINet + CFBI [9] Ensemble 54.2 53.0 55.5 - - - CITD [20] Ensemble 61.4 60.0 62.7- - - ReferFormer Swin-L 62.4 60.8 64.0 60.5 57.6 63.4 ReferFormer � Swin-L 64.262.3 66.2 - - -0时空视觉主干 MTTR † (ω = 12) [3] Video-Swin-T 55.3 54.0 56.6 - - - ReferFormer †(ω = 5) 56.0 54.8 57.3 - - -0表1.在Ref-Youtube-VOS和Ref-DAVIS17上与最先进的方法进行比较。�表示与Ref-COCO数据集进行联合训练。†表示时空视觉主干从头开始训练。0在A2D-Sentences和JHMDB-Sentences上，模型根据Precision@K、Ovrall IoU、Mean IoU和mAP over0.50:0.05:0.95的标准进行评估。Precision@K衡量测试样本中IoU得分高于阈值K的百分比。按照标准协议，阈值设置为0.5:0.1:0.9。04.2. 实现细节。0模型设置。我们在不同的视觉主干上测试我们的模型，包括：ResNet [12]，Swin Transformer [26]和Video SwinTransformer [27]。文本编码器选择为RoBERTa[25]，其参数在整个训练阶段都被冻结。根据[55]，我们使用视觉主干的最后三个阶段特征作为Transformer的输入，它们对应的空间步长为{8, 16,32}。在Transformer模型中，我们采用4个编码器层和4个解码器层，隐藏维度为C = 256。条件查询的数量设置为5。0训练细节。在训练过程中，我们使用滑动窗口从视频中获取剪辑，每个剪辑由5个随机采样的帧组成。根据[43]，数据增强0数据增强包括随机水平翻转、随机调整大小、随机裁剪和光度失真。所有帧都被降采样，使得短边的尺寸为360，长边的最大尺寸为640，以适应GPU内存。损失的系数设置为 λcls = 2，λ L1 = 5，λ giou = 2，λ dice = 5，λ focal =2。大多数实验都遵循预训练然后微调的过程。为了公平比较，有些模型是从头开始训练的。此外，在Ref-Youtube-VOS上，我们还报告了通过训练来自Ref-Youtube-VOS和Ref-COCO的混合数据的结果[52]。联合训练技术在许多VIS任务中已被证明是有效的[1, 21,44]。请参阅补充材料了解更多信息。0推理细节。在推理过程中，视频帧被缩小到360p。模型接收整个视频帧并直接输出预测的分割掩码，无需后处理。04.3. 主要结果0Ref-Youtube-VOS和Ref-DAVIS17我们在表1中将我们的方法与其他最先进的方法进行了比较。49800方法骨干网络精确度 IoU mAP P@0.5 P@0.6 P@0.7 P@0.8 P@0.9 总体平均0Hu等人[13] VGG-16 34.8 23.6 13.3 3.3 0.1 47.4 35.0 13.2 Gavrilyuk等人[11] I3D 47.5 34.7 21.1 8.0 0.2 53.6 42.119.8 CMSA + CFSA [51] ResNet-101 48.7 43.1 35.8 23.1 5.2 61.8 43.2 - ACAN [42] I3D 55.7 45.9 31.9 16.0 2.060.1 49.0 27.4 CMPC-V [24] I3D 65.5 59.2 50.6 34.2 9.8 65.3 57.3 40.4 ClawCraneNet [19] ResNet-50/101 70.467.7 61.7 48.9 17.1 63.1 59.9 - MTTR (ω = 8) [3] Video-Swin-T 72.1 68.4 60.7 45.6 16.4 70.2 61.8 44.7 MTTR(ω = 10) [3] Video-Swin-T 75.4 71.2 63.8 48.5 16.9 72.0 64.0 46.1 ReferFormer† (ω = 6) Video-Swin-T 76.072.2 65.4 49.8 17.9 72.3 64.1 48.60ReferFormer（ω = 5）Video-Swin-T 82.8 79.2 72.3 55.3 19.3 77.6 69.6 52.8 ReferFormer（ω =5）Video-Swin-S 82.6 79.4 73.1 57.4 21.1 77.7 69.8 53.9 ReferFormer（ω = 5）Video-Swin-B 83.1 80.4 74.157.9 21.2 78.6 70.3 55.00表2. 在A2D-Sentences上与最先进的方法进行比较。†表示我们的模型是从头开始训练的。0CITD [20]和PMINet[9]是2021年Ref-Youtube-VOS挑战赛中的前两名解决方案。可以观察到，ReferFormer在这两个数据集上的所有指标上都优于之前的方法，并且差距很大。在Ref-Youtube-VOS上，使用ResNet-50骨干网络的ReferFormer达到了55.6的整体J＆F，比之前的最先进的URVOS[36]高出8.4个点，甚至击败了使用集成模型和采用后处理的PMINet [9]（55.6 vs 54.2）。使用强大的Swin-Large[26]骨干网络，ReferFormer达到了令人惊讶的64.2的J＆F，明显超过了复杂的多阶段方法CITD[20]的集成结果，并创造了一个相当高的新纪录。此外，我们还测试了Video Swin Transformer[27]作为骨干网络。众所周知，时空视觉编码器具有捕捉空间特征和时间线索的强大能力。为了与MTTR[3]进行公平比较，我们使用Video-Swin-Tiny骨干网络从头开始训练我们的模型。可以看出，我们的方法在所有指标下都优于MTTR，并且窗口大小较小（5 vs12）。通过比较Video-Swin-Tiny骨干网络下的ReferFormer的结果，证明了该模型从预训练阶段和联合训练过程中受益，以解决过拟合问题。在Ref-DAVIS17上，我们的方法在相同的ResNet-50设置下也取得了最佳结果（58.5的J＆F）。并且通过使用更强大的骨干网络，性能持续提升，证明了我们方法的普适性。A2D-Sentences和JHMDB-Sentences我们进一步在A2D-Sentences数据集上评估了我们的方法，并与其他最先进的方法进行了比较。显然，我们的方法在之前的方法上取得了令人印象深刻的改进。与最近的MTTR[3]相比，我们的方法在窗口大小较小（6 vs.10）的情况下展现出明显的性能优势（+2.5mAP）。引入预训练阶段，ReferFormer0组件 J F0基准模型 47.2 (-7.6) 50.1 (-7.2)0无视觉语言融合 53.0 (-1.8) 56.2 (-1.1)0无相对坐标 53.7 (-1.1) 55.9 (-1.4)0完整模型 54.8 57.30表3.ReferFormer组件消融实验。视觉骨干网络为Video-Swin-Tiny。0使用Video-Swin-Base视觉骨干网络实现了55.0的mAP，相比之前的最佳结果提高了8.9个mAP。ReferFormer还通过严格的指标（例如P@0.8为57.9，P@0.9为21.2）展示了其生成高质量掩码的强大能力。我们还在JHMDB-Sentences上进行了模型评估，而无需微调，以进一步证明我们方法的普适性，结果表格放在补充材料中。ReferFormer在所有现有方法上都取得了显著优势，并使用Video-Swin-Base骨干网络实现了43.7的mAP。04.4. 消融研究0在本节中，我们对Ref-Youtube-VOS进行了广泛的消融研究，以研究我们模型中核心组件的影响。所有模型都基于Video-Swin-Tiny视觉主干，并且除非另有说明，否则我们从头开始训练模型。详细分析如下。0组件分析。我们构建了一个简单的Transformer自底向上基线。具体而言，考虑一个包含 T帧的视频剪辑，我们将时间和空间维度展平为一个维度，然后沿长度维度将视觉特征与文本特征进行连接，形成多模态特征图 fm ∈ R ( T × H × W + L ) × C。标准Transformer编码器在视觉和文本特征之间建立全局依赖关系。标准5354.253.2 55.2556.054.8 57.3855.354.1 56.66354.853.6 56.0556.054.8 57.34✓✓54.553.5 55.5✓✓✓56.054.8 57.349810查询数 J & F J F0帧数 J & F J F0类别盒子掩码 J & F J F0(a) 查询数量的影响。 (b) 帧数的影响。 (c) 标签分配方法的影响。0表4. ReferFormer在不同设置下的消融研究。所有模型都使用Video-Swin-Tiny作为视觉主干。0FPN扮演解码器的角色，从编码的视觉特征生成分割掩码。基线方法在训练和推理阶段使用固定长度的5帧视频。我们在表3中报告了基线方法的性能，并研究了核心组件。首先，从表3的第一行可以看出，基线方法只能达到47.2的J和50.1的F。这种较差的行为归因于两个原因：（1）基线方法无法区分靠得很近的相似对象，并倾向于分割最显著的区域。相反，我们的方法仅使用1个条件查询就能很好地完成分割所指对象的任务（见表4（a）），证明动态卷积对于分割所指对象至关重要。（2）我们的方法使用一组共享查询来跟踪所有帧中的实例，并通过每帧的投票得分确定最佳查询。从这个意义上说，我们的模型能够产生可靠的推理结果，并在整个视频中保持时间上的一致性。相反，基线方法可以被视为一种图像级方法，即使模型能够聚合来自其他帧的信息，但仍然独立地预测每帧的结果。其次，将表0从图3中可以看出，标准FPN已经取得了很强的性能，而视觉-语言融合过程进一步帮助提供更准确的分割。这是因为由于光照变化，对象掩码可能不准确，而跨模态融合使用文本作为补充，加强了对象像素特征。另一种技术是使用相对坐标特征，这有助于模型更好地确定所指对象的位置，并导致性能改善，如表3中的第三行所示。0条件查询数。由于条件查询的设计，所有初始对象查询都倾向于仅找到所指对象。在这种情况下，我们只能使用相对较少的查询数量。在表0通过图4（a）可以看出，在所有这些设置下，该模型都取得了相当不错的结果，即使 N = 1。当查询数量增加时，模型能够从更广泛的实例候选中进行判断，这可以更好地处理相似对象聚集在一起的复杂场景。当查询数量达到 N = 5时，性能达到饱和，并且在查询数量进一步增加时略微下降。我们0猜测这是由于标签分配的不平衡造成的，因为每帧只有一个正样本。0训练剪辑帧数。我们在表4（b）中研究了训练剪辑帧数的影响。请注意，在T =1的情况下，模型可以被视为一种图像级方法，度量J和F的性能仅为50.0。当帧数增加到3时，模型的J和F显著提高了4.8。这是因为使用更多的帧来形成剪辑有助于模型更好地聚合时间相关的动作信息。我们默认选择T = 5。0标签分配方法。我们的框架能够预测所引用对象的参考概率、框位置和分割掩模。我们通过最小化方程4中的总匹配成本来找到最佳的正样本。标签分配方法有一些变体，比较实验结果如表4（c）所示。从前两行可以看出，缺乏框或掩模成本都会导致性能下降。采用以分割为中心的设计，掩模成本是优化的最直接指导，而框为动态核心提供了位置先验。因此，分类、框和掩模成本的组合显示出更强的鲁棒性。05. 结论0在这项工作中，我们提出了ReferFormer，一个极其简单和统一的用于引用视频目标分割的框架。该框架为R-VOS任务提供了一种新的视角，将语言视为查询。这些查询仅限于与所引用的对象进行关联，并且通过链接相应的查询轻松实现对象跟踪。给定视频和一个表达式，我们的框架直接在所有帧上生成所引用对象的分割掩模以及检测到的框，无需后处理。我们在Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences和JHMDB-Sentences上验证了我们的模型，它在这四个基准上展现出了最先进的性能。0致谢0PingLuo受到香港研究资助局的资助，编号为No.27208720、No.17212120，以及香港大学-TCL人工智能联合研究中心的支持。49820参考文献0[1] Ali Athar, Sabarinath Mahadevan, Aljosa Osep, LauraLeal-Taixé, and Bastian Leibe. Stem-seg:用于视频实例分割的时空嵌入。在欧洲计算机视觉会议上，页码158-177。Springer，2020年。60[2] Miriam Bellver, Carles Ventura, Carina Silberer, IoannisKazakos, Jordi Torres, and Xavier Giro-i Nieto. Refvos:对于视频目标分割的引用表达更详细的研究。arXiv预印本arXiv:2010.00263，2020年。20[3] Adam Botach, Evgenii Zheltonozhskii, and Chaim Baskin.基于多模态Transformer的端到端引用视频目标分割。arXiv预印本arXiv:2111.14821，2021年。6, 70[4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.基于Transformer的端到端目标检测。在欧洲计算机视觉会议上，页码213-229。Springer，2020年。2, 30[5] Xin Chen, Bin Yan, Jiawen Zhu, Dong Wang, Xiaoyun Yang,and Huchuan Lu. Transformer跟踪。在CVP

下载后可阅读完整内容，剩余1页未读，立即下载