多任务视频分割的TubeFormer-DeepLab模型

77 浏览量更新于2023-10-25 收藏 13.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+139140TubeFormer-DeepLab: 视频掩膜Transformer0Dahun Kim 1,3 � Jun Xie 3 Huiyu Wang 2 Siyuan Qiao 3 Qihang Yu 2 Hong-Seok Kim 30Hartwig Adam 3 In So Kweon 1 Liang-Chieh Chen 301 韩国科学技术院 2 约翰霍普金斯大学 3 谷歌研究0摘要0我们提出了TubeFormer-DeepLab，这是第一个以统一的方式解决多个核心视频分割任务的尝试。不同的视频分割任务（例如，视频语义/实例/全景分割）通常被视为不同的问题。在各自的社区中采用的最先进模型已经分道扬镳，每个任务都有不同的方法主导。相比之下，我们做出了一个重要观察，即视频分割任务通常可以被概括为将不同的预测标签分配给视频管道（管道是通过沿时间轴链接分割掩膜获得的），而这些标签可能根据目标任务而编码不同的值。这个观察激发了我们开发TubeFormer-DeepLab的动力，它是一个简单而有效的视频掩膜Transformer模型，广泛适用于多个视频分割任务。TubeFormer-DeepLab直接预测具有任务特定标签的视频管道（纯语义类别或同时包含语义类别和实例身份），这不仅极大地简化了视频分割模型，还在多个视频分割基准测试中取得了最先进的结果。01. 引言0我们观察到视频分割任务可以被概括为将视频帧分割成具有不同预测标签的管道，其中一个管道包含沿时间轴链接的分割掩膜。根据目标任务，预测的标签可能仅编码语义类别（例如，视频语义分割（VSS）[7,58]），或同时编码语义类别和实例身份（例如，视频实例分割（VIS）[68,77]仅针对前景“物体”，或视频全景分割（VPS）[41,73]同时针对前景“物体”和背景“物质”）（图1）。然而，长期以来，人们一直忽视了几个视频分割任务之间的相似性（即，分配具有预测标签的管道），因此为视频语义、实例和全景分割开发的模型有着根本性的差异。0� 在Google实习期间完成的工作。0TubeFormer-DeepLab0视频输入0N个管道0预测0N个类别0预测0视频分割0语义实例全景0图1.视频分割任务可以被概括为将视频帧（例如，剪辑）分割成具有不同标签的管道（即，沿时间链接的分割掩膜）。TubeFormer-DeepLab直接预测带有类别标签的管道，为视频语义分割（VSS）、视频实例分割（VIS）和视频全景分割（VPS）提供了简单而通用的解决方案。0VSS0VIS0VPS0（a）（b）（c）0图2.我们提出的分层双路径Transformer对VSS、VIS和VPS任务的三个连续输入帧执行注意力操作（a）。全局内存学习了各个管道区域的时空聚类注意力（b），而我们的潜在内存学习了任务特定的注意力（c）。139150基本上分道扬镳。例如，一些VSS方法[26,86]在视频帧之间进行特征变换，而现代的VIS模型[5]预测数百个帧级实例掩膜[31]，然后将它们传播到其他相邻帧。为了使事情更加复杂，最先进的VPS方法[62,74]采用了单独的预测分支，专门用于语义分割、实例分割和物体跟踪。在这项工作中，我们不是加剧视频分割模型之间的分歧，而是退一步重新思考以下问题：我们能否利用视频分割任务之间的相似性，开发一个既有效又普遍适用的单一模型？为了回答这个问题，我们提出了TubeFormer-DeepLab，它基于视频分割的掩膜Transformer[69]，直接预测带有类别标签的管道，其中标签根据目标任务而编码不同的值。具体而言，类似于其他Transformer架构[9,67]，TubeFormer-DeepLab将掩膜Transformer[69]扩展为生成一组成对的预测，每个预测包含一个类别预测和一个管道嵌入向量。管道嵌入向量乘以由卷积网络[45]获得的视频像素嵌入特征，得到管道预测。因此，TubeFormer-DeepLab是第一个在一个通用框架中解决多个核心视频分割任务的尝试，而无需为任何任务特定的设计调整系统。将图像级别的掩膜Transformer[69]直接应用于视频领域并不能得到令人满意的结果，主要是由于学习具有大尺寸空间分辨率的视频剪辑（即多帧）特征的注意力的困难。为了缓解这个问题，我们引入了潜在的双路径Transformer块，负责在视频帧（即单帧）特征和潜在内存之间传递消息，然后是全局双路径Transformer块，学习视频剪辑特征和全局内存之间的注意力。这种分层双路径Transformer框架有助于注意力学习，并显著提高了视频分割结果。有趣的是，如图2所示，我们的潜在内存学习任务特定的注意力，而全局内存学习各个管道区域的时空聚类注意力。此外，我们将全局内存分为两组，物体特定的全局内存和物质特定的全局内存，旨在利用“物体”（可数实例）和“物质”（无定形区域）的不同特性。在推理过程中，我们实际上只能适应一个视频剪辑（即一个短视频序列）进行视频分割。整个视频序列的分割结果是通过应用视频拼接[63]来合并剪辑分割结果获得的。为了确保视频剪辑之间的一致性，我们还提出了一种时间一致性损失，鼓励模型学习一致的预测。0最后，我们提出了一种简单而有效的数据增强策略，通过扩展图像级别的物体特定复制粘贴来实现。我们的方法名为剪辑粘贴（剪辑级别的复制粘贴），随机将视频剪辑中的“物体”或“背景”（或两者）区域粘贴到目标视频剪辑中。为了证明我们提出的TubeFormer-DeepLab的有效性，我们在多个核心视频分割数据集上进行了实验，包括KITTI-STEP（VPS）[73]，VSPW（VSS）[58]，YouTube-VIS（VIS）[77]和SemKITTI-DVPS（深度感知VPS）[63]。我们的单一模型不仅显著简化了视频分割系统（例如，所提出的模型是端到端训练的，不需要任何任务特定的设计），而且在多个基准测试中推动了最先进的性能。特别是，TubeFormer-DeepLab在KITTI-STEP测试集上的STQ上超过了Motion-DeepLab [73]13.1个百分点，在VSPW测试集上的mIoU上超过了TCB[58]21个百分点，在YouTube-VIS-2019验证集上的track-mAP上超过了IFC [37]2.9个百分点，在SemKITTI-DVPS测试集上的DSTQ上超过了ViP-DeepLab [63]3.6个百分点。我们的实验结果验证了TubeFormer-DeepLab在视频分割任务中的普适性。02. 相关工作0视频语义分割（VSS）。将图像语义分割扩展到视频领域需要预测具有不同语义类别的视频中的所有像素。先前的方法通过变形模块利用时间信息。最近，Mao等人引入了一个大规模的VSS基准，称为VSPW（野外视频场景解析），并提出了一个有效的基线，通过将[81]和[84]扩展到时间维度来有效地聚合视频上下文信息。视频实例分割（VIS）。结合多目标跟踪和实例分割，视频实例分割旨在跟踪视频帧中的实例掩码。大多数最先进的VIS方法是基于检测的方法，允许重叠的掩码预测。我们的工作类似于并发工作IFC，它使用内存特征进行视频实例分割。然而，我们的工作不利用内存特征进行帧间通信，并且不需要额外的模块来执行此任务。相反，潜在的内存特征被部署在提出的潜在双路径变换器块中，以促进逐帧分割。最后，LatentGNN还探索了图形神经网络中的潜在特征。视频全景分割（VPS）。最近，全景分割也被扩展到视频领域。视频全景分割试图统一视频语义和实例分割，要求具有时间一致的全景分割结果。与VIS不同，VPS不允许重叠的实例掩码，并要求标记每个像素，包括“物体”和“背景”像素。现有的最先进方法由于VPS的复杂性而采用了复杂的流程。我们的方法通过使用掩码变换器直接预测剪辑级别的掩码分割结果，从而显著简化了当前的流程。最后，我们提出的模型还可以轻松扩展到最近的深度感知视频全景分割（DVPS）任务，该任务在VPS结果之上进一步要求每个像素的深度估计。139160全景分割试图统一视频语义和实例分割，要求具有时间一致的全景分割结果。与VIS不同，VPS不允许重叠的实例掩码，并要求标记每个像素，包括“物体”和“背景”像素。当前最先进的方法由于VPS的复杂性而采用了复杂的流程。具体而言，VPSNet包含多个任务特定的头部，包括MaskR-CNN，可变形卷积和MaskTrack，用于实例分割，语义分割和跟踪，而ViP-DeepLab通过添加另一个下一帧实例分割分支扩展了Panoptic-DeepLab（它采用了特定于语义和实例分割的双ASPP和双解码器结构）。另一方面，我们的方法通过使用掩码变换器直接预测剪辑级别的掩码分割结果，从而显著简化了当前的流程。最后，我们提出的模型还可以轻松扩展到最近的深度感知视频全景分割（DVPS）任务，该任务在VPS结果之上进一步要求每个像素的深度估计。03.方法0在本节中，我们介绍了几种视频分割任务的公式化，然后介绍了启发我们TubeFormer-DeepLab的一般公式化。然后介绍了其模型设计、训练和推理策略。03.1.视频分割公式化0我们用v∈RT×H×W×3表示包含T个视频帧和空间尺寸为H×W的输入视频剪辑（如果内存允许，T可以等于视频序列长度）。视频剪辑用一组带有类别标签的管道进行注释（管道定义为沿时间轴连接的分割掩码）：{yi}Ki=1={（mi，ci）}Ki=1，其中K个地面真实管道mi∈{0，1}T×H×W彼此不重叠，ci表示管道mi的地面真实类别标签。下面，我们简要介绍几个任务。视频语义分割（VSS）通常被公式化为每个视频像素的分类，其中用于分类的像素特征通过从相邻帧中进行扭曲[86]或聚合[58]来丰富。形式上，模型预测每个视频像素在预定义类别集C={1，...，D}上的概率分布：{ˆpi|ˆpi∈∆D}T×H×Wi=1，其中∆D是D维概率单纯形。最终的分割输出ˆy通过取其argmax（即ˆyi=argmaxcˆpi（c），�i∈{1，2，...，T×H×W}）来获得。视频实例分割（VIS）要求在视频中对对象实例进行分割和时间链接。对于视频中检测到的每个前景“物体”i，模型预测一个视频管道（即视频级实例掩码跟踪）0ˆ m i ∈ [0 , 1] T × H × W具有概率分布ˆ pi，仅针对物体类别定义。根据目标数据集或评估指标，模型可能生成重叠的视频管道（例如，Youtbue-VIS[77]采用track-mAP，允许重叠的预测管道，而KITTI-MOTS [68]采用HOTA[57]，不允许重叠）。视频全景分割（VPS）需要对“物体”和“物质”类别的语义和实例分割结果进行时间上的一致性。具体而言，模型预测一组不重叠的视频管道{ˆ y i} N i =1 = {(ˆ m i，ˆ p i（c）)} N i = 1，其中ˆ m i ∈ [0，1] T ×H × W表示预测的管道，ˆ pi（c）表示将类别c分配给属于预定义类别集C的管道ˆ mi的概率，该集合包含“物体”和“物质”类别。深度感知视频全景分割（DVPS）在VPS的基础上，还要求模型估计每个像素的深度值。与VPS输出类似，预测具有以下格式：{ˆy i} N i = 1 = {(ˆ m i，ˆ p i（c），ˆ d i)} N i = 1，其中ˆ di ∈ [0，d max] T × H × W表示估计的深度值，dmax是目标数据集中指定的最大深度值。因此，数据集包含地面真实深度。0一般任务公式化。尽管任务之间存在表面上的差异，但我们发现视频分割任务的潜在相似性可以通常公式化为将不同的预测标签分配给视频管道的问题，而标签可能根据目标任务的不同而编码不同的值。例如，如果仅预测语义类别，则变为视频语义分割。类似地，如果需要同时预测语义类别和实例身份（即每个类别-身份对应一个预测管道），则变为视频实例分割（如果仅考虑前景“物体”类别）或视频全景分割。这激发我们开发一个直接预测带有类别标签的视频分割模型的通用视频分割模型（如果需要，还可以预测深度）。03.2. TubeFormer-DeepLab架构0我们首先介绍TubeFormer-DeepLab-Simple，即我们的视频级基线，它将通过我们提出的潜在双路径Transformer进行改进，最终得到TubeFormer-DeepLab。0TubeFormer-DeepLab-Simple。我们采用每个剪辑的流水线，输入一个视频剪辑并输出剪辑级别的结果。受[69]的启发，我们的TubeFormer-DeepLab-Simple在双路径架构中集成了CNN骨干和全局记忆特征，即全局双路径Transformer。给定输入视频剪辑v，CNN骨干独立处理输入帧，并生成像素特征xv∈RT×H×W×C，其中C是通道数。像素自注意力在帧级别上执行（帧-| |global dual-path transformerlatent dual-path transformerdecoderpixel featureslatentmemoryT×H×W×CL×CN×CglobalmemoryT×H×W×CN×C×NT2FC2FCN tube predictionsN class predictionsFCFCconvL → HWHW, L → LconvF2LL2F, L2LreshapeHW×CL×CL×CHW×CTHW×CN×CHW×CN×CN×CL×CFCFCconvN → THWTHW, N → NconvV2MM2V, M2Mreshapehierarchical dual-path transformer blockcopy T timesHW → HWF2Faxial attentionwN×N×T×H×Wstackxvxl(c)pmxvxmxmxfxlto-frame, F2F) via an axial-attention block [70].Afterwards, the global dual-path transformer operates ina per-clip manner, taking the ﬂattened video pixel featuresxv ∈ RT HW ×C and a 1D global memory xm ∈ RN×C oflength N (i.e. the size of the prediction set). Passing throughthe global dual-path transformer, we expect three attentions:(1) memory-to-video (M2V) attention (in which the videofeatures encode per-clip information to the memory fea-ture), (2) memory-to-memory (M2M) self-attention, and (3)video-to-memory (V2M) attention (in which the video pixelfeatures reﬁne themselves by receiving tube-level informa-tion gathered in the global memory). The global dual-pathtransformer blocks can be stacked multiple times at any lay-ers of the network.On top of the global memory, there are two output heads:a segmentation head and a class head, each composed oftwo Fully-Connected (FC) layers. The global memory ofsize N is independently passed to the two heads, resultingin N unique tube embeddings w ∈ RN×C and N corre-sponding class predictions p(c) ∈ RN×|C|. Note that thepossible classes C ∋ c include “none” category ∅ in casethe embedding does not correspond to any region in a clip.Our video tube prediction ˆm is computed in one shot as adot-product between the decoded video pixel features xv′139170 |0全局双路径Transformer0潜在双路径Transformer0解码器0像素特征潜在记忆0T × H × W × C L × C N × C0全局记忆0× NT02FC 2FC0N个管道预测0N个类别预测0卷积0L → HW HW，L → L0卷积0F2L L2F，L2L0重塑0HW × C L × C0L × C HW × C0THW × C N × C0HW × C N × C0卷积0N → THW THW，N → N0卷积0V2MM2V，M2M0重塑0分层双路径Transformer块0复制T次HW→HW0F2F0轴向注意力0w0N ×0堆叠0xv’0(c) p0m0x v0x m0x m0图3.TubeFormer-DeepLab架构概述。TubeFormer-DeepLab扩展了掩膜Transformer[69]，以生成一组包含类别预测p(c)和管道嵌入向量w的对。将视频像素嵌入特征xv'与卷积网络获得的管道嵌入特征相乘，得到管道预测ˆm。我们引入了一个分层结构，其中潜在的双路径Transformer块负责在帧级特征xf和潜在记忆xl之间传递信息，然后是全局双路径Transformer块，它学习视频剪辑特征xv和全局记忆xm之间的注意力。0和管道嵌入w：0ˆ m = softmax N ( x v ′ ∙ w ) ∈ R N × T × H ×W . (1)0最终的视频剪辑分割{ˆyi}Ni=1 = {(ˆmi,ˆpi(c))}Ni=1可以通过将N个二进制视频管道与它们对应的类别预测组合而得到。0TubeFormer-DeepLab具有潜在的双路径Transformer。在处理高分辨率输入或大量输入帧的视频剪辑（即多帧）特征时，建模视频剪辑中的长程交互尤其困难。为了缓解这个问题并促进注意力学习，我们提出了一种分层结构，允许两个级别的注意力机制：帧级别，然后是视频级别。请注意，视频级别的注意力是由上述全局双路径Transformer执行的。0在全局双路径Transformer之前，我们引入了一个新的潜在双路径Transformer块，负责在帧级特征和潜在记忆之间传递信息。它以并行方式（批处理）处理单个视频帧。我们的潜在记忆受到具有潜在表示的图形模型的启发[37，44，83]，允许对高复杂性的图形相似性进行低秩表示。与IFC[37]同时进行，我们发现潜在特征有助于注意力学习。然而，我们在一个不同的框架中使用它们（例如，双路径Transformer和无跨帧通信）。0具体而言，初始的潜在内存xl ∈ RL×C被每帧复制一次，并与每帧的特征xf∈RHW×C（展平后）配对构成输入。通过潜在双路径变换器，潜在内存首先通过潜在-帧（L2F）注意力从帧特征中收集信息，并在它们之间执行潜在-潜在（L2L）自注意力。然后，通过帧-潜在（F2L）注意力将潜在内存中的每帧知识传播回帧特征。请注意，潜在内存特征是像全局内存特征一样的可训练参数。然而，它们仅在潜在空间（即中间层）中部署，并不会在最终的输出层中使用。如图3所示，我们的分层双路径变换器块由一系列的一个轴向注意力块、潜在双路径变换器和全局双路径变换器组成。多个块的堆叠将交替进行潜在和全局通信，使像素特征能够通过同时关注帧级和视频级内存来自我完善，反之亦然。这进一步丰富了三个路径的特征：像素-、潜在-内存和全局-内存路径，并使其能够学习给定视频剪辑的更全面的表示。3.3. Training Strategy1391803.3.训练策略0具体而言，我们将全局内存分为两个集合：thing-specific和stuff-specific全局内存，以进一步提高分割质量。在[69]中，全局内存以统一的方式处理thing mask和stuffmask。然而，该设计忽略了它们之间的自然差异-图像中可能存在多个相同thing类的实例，但每个stuff类最多只允许一个mask。因此，我们将全局内存中的最后|Cstuff|个元素专门用于预测stuff类。通过将stuff-specific全局内存分配给ground truthstuff类，而不是将其包括在二部匹配中，来强制执行顺序。0VPQ风格损失。为了以统一的方式训练TubeFormer-DeepLab用于各种视频分割任务，我们采用了一种VPQ风格损失，直接优化类别标记的tube集合。类似于图像级别的PQ风格损失[69]，我们从视频全景质量（VPQ）[41]中汲取灵感，并在视频剪辑中近似优化VPQ。首先，可以定义类别标记的ground truth tube yi = (mi, ci)和预测的tube ˆyj =(ˆmj, ˆpj(c))之间的VPQ风格相似度度量为：sim(yi, ˆyj) =ˆpj(ci) × Dice(mi, ˆmj)，其中ˆpj(ci) ∈ [0,1]表示预测正确的tube类别ci的概率，Dice(mi, ˆmj) ∈ [0,1]衡量预测的tube ˆmj与ground truth tubemi之间的Dice系数。我们将预测的tube与ground truthtube进行匹配，并通过最大化总的VPQ风格相似度来优化预测结果。具体实现细节遵循[69]中的PQ风格损失。此外，我们将[69]中使用的辅助损失推广到视频剪辑中，包括tube-ID交叉熵损失、视频语义分割损失和视频实例区分损失。0共享的语义和全景预测。原始的辅助语义分割损失[69]是应用于具有单独语义解码器的骨干特征。相反，我们提出直接将损失应用于解码的结果。0使用线性层对视频像素特征xv'（参见公式（1））进行处理，从而学习更好的分割特征。0时间一致性损失。VPQ风格损失有助于学习输入剪辑内的时空一致性。为了在更长的视频中实现剪辑间的一致性，我们提出在剪辑之间应用时间一致性损失。具体而言，我们最小化两个剪辑的重叠帧预测的N个tubelogits之间的距离。我们使用L1损失作为一致性度量。该损失通过像素特征和N个全局内存特征的点积进行反向传播，影响像素和全局内存路径。TubeFormer-DeepLab因此实现了隐式的多剪辑一致性，使得我们的训练目标对整个视频推理流程（第3.4节）具有对称性。0剪辑级别的复制粘贴。此外，我们提出了一种简单而有效的数据增强策略，通过扩展图像级别的物体特定复制粘贴[24,29]。我们的增强方法名为剪辑粘贴（剪辑级别的复制粘贴），它将来自视频剪辑的“物体”或“物质”（或两者）区域管道随机粘贴到目标视频剪辑中。我们以0.5的概率使用剪辑粘贴。0深度预测分支。为了使TubeFormer-DeepLab能够进行单目深度估计，我们在CNN主干特征xv的顶部添加了一个小的深度预测模块（即ASPP[12]和DeepLabv3+轻量级解码器[15]）。注意，如果我们将深度预测添加到解码的视频像素特征xv'中，性能会稍微下降，这表明在我们的情况下，将深度估计与分割预测共享并不有益。我们应用Sigmoid将深度预测限制在（0,1）范围内，然后将其乘以最大深度。根据[63]，我们使用尺度不变对数误差[22]和相对平方误差[28]的组合作为训练损失。当与其他损失一起训练时，深度损失权重设置为100。03.4. 推理策略0剪辑级别的推理。剪辑级别的分割是通过简单地执行两次argmax来推断的。具体而言，为每个管道预测一个类别标签：ˆci =argmaxcˆpi(c)。然后，为每个像素分配一个管道IDˆzt,h,w：ˆzt,h,w =argmaxiˆmi,t,h,w。在实践中，我们的推理将类别置信度低于0.7的管道ID设置为无效。对于视频实例分割，我们还探索了每个对象查询的逐掩码分配方案[18,80]，该方案将每个对象查询的预测视为一个对象掩码提案。0视频级推理。在剪辑级别上，TubeFormer-DeepLab为T个视频帧输出具有时间一致性的结果。为了获得视频级别的预测，我们对每T个连续帧进行剪辑级别的推理，其中有T-1个重叠帧（即，我们沿着时间轴移动一帧）。Motion-DeepLab [73]752.1959.8145.55HybridTracker654.9955.5455.54slain557.8760.7155.16EffPs MM462.9364.4161.49REPEAT [56]267.1368.4965.81UW IPL/ETRI AIRL [82]167.5564.0471.26TF-DL-B3365.2570.2760.59139190剪辑级别的推理。根据每个推理步骤仅移动一个帧的轴。然后，根据它们的IoU在重叠帧中匹配管道，将剪辑级别的结果拼接在一起，类似于[63]。04. 实验结果0我们提出的TubeFormer-DeepLab是一个通用的视频分割模型。为了证明其有效性，我们在KITTI-STEP [73]、VSPW[58]、YouTube-VIS [77]、SemKITTI-DVPS[63]上进行了实验，用于视频全景分割（VPS）、视频语义分割（VSS）、视频实例分割（VIS）和深度感知视频全景分割（DVPS）。04.1. 数据集0KITTI-STEP[73]是一个新的视频全景分割数据集，还为KITTI-MOTS[68]提供了语义分割注释。它包含19个语义类别（类似于Cityscapes[19]），其中两个类别（“行人”和“汽车”）带有跟踪ID。对于评估，KITTI-STEP采用STQ[73]（分割和跟踪质量），它是SQ（分割质量）和AQ（关联质量）的几何平均值。VSPW[58]是一个最近的大规模视频语义分割数据集，包含124个语义类别。VSPW采用mIoU作为评估指标。YouTube-VIS[77]包含视频实例分割的两个版本；YouTube-VIS-2019包含40个语义类别，而YouTube-VIS-2021是一个改进版本，具有更多的实例和视频。Youtube-VIS采用跟踪mAP进行评估。SemKITTI-DVPS[63]是一个用于深度感知视频全景分割的新数据集，它通过将SemanticKITTI[3]的3D点云全景注释投影到2D图像平面上获得。它包含19个类别，其中8个带有跟踪ID的类别。对于评估，SemKITTI-DVPS使用DSTQ（深度感知STQ），除了STQ之外，还考虑了深度内点度量[22]。04.2. 实现细节0TubeFormer-DeepLab基于MaX-DeepLab [ 69]构建，使用官方代码库[ 72 ]。超参数大多数遵循[ 69]的设置。除非另有说明，我们使用他们的小型模型MaX-DeepLab-S，该模型在最后两个阶段（即第4阶段和第5阶段）使用轴向注意力块[ 70 ]来增强ResNet-50 [ 32]。我们还尝试通过将第4阶段的轴向注意力块堆叠n次来扩展骨干网络[ 14]，并将其称为TubeFormer-DeepLab-Bn。对于VPS，我们在Cityscapes [ 19 ]和COCO [ 51]上预训练模型，而对于其他实验，我们只在COCO上预训练。预训练过程类似于之前的工作[ 5 , 33 , 73]。使用预训练权重，TubeFormer-DeepLab被训练在目标数据集上。0方法排名 STQ SQ AQ0ICCV 2021挑战赛参赛作品0表1. [VPS]KITTI-STEP测试集结果。排名包括未发布的方法。挑战赛获胜作品[56 , 82 ]采用了用于跟踪和分割的单独和集成方法。0使用批大小为16在目标数据集上训练，对于除了YouTube-VIS数据集外的所有数据集，T = 2。我们使用全局内存大小N =128（即输出大小），潜在内存大小L = 16，通道数C =128。我们用'TF-DL'表示结果中的TuebeFormer-DeepLab。04.3. 主要结果0[VPS] 我们在具有挑战性的视频全景分割数据集KITTI-STEP[ 73]上评估TubeFormer-DeepLab，结果见表1。我们的模型在STQ方面取得了最先进的性能，为65.25（SQ为70.27，AQ为60.59）。在单一统一方法中，我们的模型排名第一，与已发表的基线方法Motion-DeepLab [ 73]相比，STQ提高了13.1。我们的模型在不利用额外的3D对象形式、深度信息或伪标签的情况下，甚至不使用用于跟踪和分割的单独和集成方法，与挑战获胜方法[ 56 , 82]相当。然而，我们的模型提供了最佳的分割质量（70.27SQ），展示了我们TubeFormer-DeepLab的分割能力。0[VSS] 我们在视频语义分割数据集VSPW [ 58]上评估TubeFormer-DeepLab。在表2中，我们展示了单一模型单一尺度的验证集结果。在表中，TubeFormer-DeepLab优于所有基于最先进骨干网络（BEiT [ 2 ]，Swin-L [54 ]）和解码器（OCRNet [ 81 ]，Uper-Net [ 75]）的竞争方法。表3显示了测试集结果。我们的单一模型TubeFormer-DeepLab在17个方法中排名第4，与ICCV2021挑战赛获胜者相当，同时不使用模型集成、多尺度推理和伪标签。最后，我们在测试集上比已发表的作品TCB [ 58]获得更好的+21 mIoU。0[VIS]我们展示了TubeFormer-DeepLab足够通用，可以以统一的方式解决实例级视频分割问题。通过将背景区域视为单个“stuff”类别，我们无缝地应用相同的模型、损失和训练过程。在测试中，我们探索了像素级和掩码级的最大值来进行管道ID分配（第3.4节）。表4和表5显示了与最先进方法的比较。TCB [58]37.82 87.8683.99BetterThing [16]57.89--CharlesBLWX [40]61.44--jjRain [33]59.30 90.0786.87TF-DL-B463.16 92.0887.95139200方法 mIoU VC8 VC160ICCV 2021挑战赛参赛作品0表2. [VSS] VSPW验证集结果。比较包括已发表和未发表的方法。0方法排名集成多尺度伪标签 mIoU VC8 VC160TCB [58] 13 35.62 86.21 81.900ICCV 2021挑战赛参赛作品0BetterThing [16] 3 � � 57.35 93.28 90.56 CharlesBLWX [40] 2 � � 57.4491.29 87.70 jjRain [33] 1 � � � 58.85 94.77 92.590TF-DL-B4 4 56.64 90.16 86.380表3. [VSS]VSPW验证集结果。排名包括已发表和未发表的方法。一些方法使用模型集成、多尺度推理或师生伪标签策略来提高测试集上的性能。0在YouTube-VIS2019和2021数据集[77]上与最先进方法进行比较。需要注意的是，TubeFormer-DeepLab对每个对象预测一个唯一的掩码，而其他方法通常生成多个重叠的掩码，这些掩码在AP指标上更受青睐。在端到端方法中，我们的TubeFormer-DeepLab-B4相对于VisTR[71]提高了7.4个AP，相对于IFC[37]提高了2.9个AP。我们的模型在T=5的情况下取得了最高分。此外，我们在AR1方面的收益也是显著的，表明TubeFormer-DeepLab在非重叠分割场景中的优势。我们的模型的性能与Seq MaskR-CNN[50]相当。需要指出的是，TubeFormer-DeepLab是一种近在线的端到端方法，而Seq MaskR-CNN依赖于类似STM[60]的结构来在整个序列中传播掩码提案，因此是离线的（T=36）。0[DVPS]我们在SemKITTI-DVPS数据集[63]上评估TubeFormer-DeepLab进行深度感知视频全景分割。表6显示了测试集结果。将深度预测分支添加到与KITTI-STEP相同的TubeFormer-DeepLab中，优于ViP-DeepLab[63]3.4个DSTQ，并达到了67.0个DSTQ的新的最先进水平。04.4.消融研究0我们在KITTI-STEP验证集[73]上进行了消融研究。为了弥补训练噪声，我们对每个消融研究进行了三次运行的平均值报告。0分层双路径变换器。在表7a中，我们验证了TubeFormer-DeepLab所展示的收益来自于所提出的分层双路径变换器。需要注意的是，我们的基线方法（TubeFormer-DeepLab-Simple）已经使用了轴向注意力和全局注意力。0方法 T AP AP 50 AP 75 AR 1 AR 100MaskTrack [77] 2 31.8 53.0 33.6 33.2 37.6 SipMask [8] 2 33.754.1 35.8 35.4 40.1 STEm-Seg [1] 8 34.6 55.8 37.9 34.4 41.6CrossVIS [78] 2 36.6 57.3 39.7 36.0 42.0 MaskProp [5] 13 46.6 -51.2 44.0 52.6 Seq Mask R-CNN [50] 36 47.6 71.6 51.8 46.356.0 VisTR [71] 36 40.1 64.0 45.0 38.3 44.9 IFC [37] 36 44.669.2 49.5 44.0 52.10TF-DL-B4（每个像素） 5 45.4 66.6 48.8 48.3 56.9TF-DL-B4（每个掩码） 5 47.5 68.7 52.1 50.2 59.00表4. [VIS] YouTube-VIS-2019验证集结果。0方法 T AP AP 50 AP 75 AR 1 AR 100MaskTrack [77] 2 28.6 48.9 29.6 - - SipMask [8] 2 † 31.7 52.534.0 - - CrossVIS [78] 2 † 34.2 54.4 37.9 - - IFC [37] 36 † 36.857.9 39.3 - -0TF-DL-B4（每个掩码） 5 41.2 60.4 44.7 40.4 54.00表5. [VIS]YouTube-VIS-2021验证集结果。†：从他们的Youtube-VIS-2019设置推断出的T。0方法排名 DSTQ0ViP-DeepLab [63] 3 63.360ICCV 2021挑战赛参赛作品0rl lab 5 54.77 ywang26 4 55.99HarborY [46] 2 63.630TF-DL-B4 1 67.000表6. [DVPS]SemKITTI-DVPS测试集结果。排名包括已发表和未发表的方法。0内存。介绍新的潜在内存及其与视频帧特征（F-L注意力：L2F、L2L和F2L）的通信，使STQ提高了1.7个单位。我们还消除了全局内存和潜在内存之间的注意力（M2L和L2M），结果没有改善。这表明帧-潜在（F-L）注意力足以构建潜在内存和全局双路径变换器之

下载后可阅读完整内容，剩余1页未读，立即下载