视频全景分割任务通常需要复杂的后处理和受其他任务失败的影响，因此需要一种新的方法来解决这个问题

37 浏览量更新于2023-10-25 收藏 12.34MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

30930Slot-VPS：面向视频全景分割的对象中心表示学习0Yi Zhou 1，Hui Zhang 1，Hana Lee 2，Shuyang Sun 3，Pingjun Li 1，Yangguang Zhu 1，ByungIn Yoo 2，Xiaojuan Qi 4*，Jae-Joon Han 2*01 Samsung Research China - Beijing (SRC-B) 2 SamsungAdvanced Institute of Technology (SAIT), South Korea 3University of Oxford 4 The University of Hong Kong0{yi0813.zhou, hui123.zhang, hana.hn.lee, byungin.yoo, jae-joon.han}@samsung.com0kevinsun@robots.ox.ac.uk，xjqi@eee.hku.hk0摘要0视频全景分割（VPS）旨在为每个像素分配一个类别标签，一致地分割和识别所有对象实例。经典解决方案通常将VPS任务分解为几个子任务，并利用多个替代方案（例如框和掩码、中心和偏移量）来表示对象。然而，这种分而治之的策略需要在空间和时间领域进行复杂的后处理，并且容易受到替代任务失败的影响。在本文中，受到以对象为中心的学习的启发，该学习可以学习紧凑且稳健的对象表示，我们提出了Slot-VPS，这是第一个端到端的框架。我们使用统一的表示称为全景插槽来编码视频中的所有全景实体，包括前景实例和背景语义。通过提出的视频全景检索器，可以检索和编码全景插槽中的一致的时空对象信息，从而能够以统一的方式定位、分割、区分和关联对象。最后，输出的全景插槽可以直接转换为视频中全景对象的类别、掩码和对象ID。我们进行了大量的消融研究，并在两个基准数据集Cityscapes-VPS（验证集和测试集）和VIPER（验证集）上展示了我们方法的有效性，分别实现了63.7、63.3和56.2的VPQ的最新性能。01. 引言0视频全景分割（VPS）[17, 35,47]旨在对所有前景实例（物品）进行分类，例如汽车、人等，以及无数的背景语义（物品），例如0*通讯作者。0语义头0边界框头0掩码头0跟踪头0全景插槽0视频全景0检索器0位置0嵌入0语义特征0ROI对齐特征0ROI对齐特征0重新嵌入0ROI对齐特征0后处理0图1. 先前工作[17,42]与提出的Slot-VPS之间的比较。VPSNet使用多个表示来表示对象，依赖于多个子网络，并需要复杂的后处理（例如NMS、物品-物品融合、跟踪的相似度分数融合），而我们引入全景插槽来统一表示视频中的全景对象（即物品和物品），从而实现了一个统一的端到端框架。代码将在https://github.com/SAITPublic/SlotVPS上公开。0天空、道路等等，跨越所有帧一致地分割和跟踪所有对象实例。这对于许多高级视频理解任务非常有益，例如视频问答[33]和视频字幕[50]，以及各种实际应用，例如自动驾驶和视频编辑。现有方法[17, 35,47]使用几个子网络（如图1所示）分别对视频中的物体和物品进行建模，包括语义分割[6, 30]、实例分割[2, 14,21]和跟踪[38,46]。在空间（例如物品-物品融合）和时间（例如实例关联的相似度分数融合）领域都需要复杂的后处理。28070057.458.860.261.663.030940融合不同子任务的预测结果以得到最终的VPS结果。然而，这种分解的流程存在一些问题。首先，复杂的后处理过程耗时且需要手动参数调整，很可能产生次优的结果。其次，来自不同分支的错误预测会相互影响并损害整体性能。例如，不准确的边界框也会导致不完整的分割掩码，缺失的中心点会恶化时间跟踪结果，这几乎无法通过后处理进行修正。第三，端到端训练受阻，可能阻碍模型直接学习针对VPS任务进行优化的特征。为了解决上述问题，受物体中心化表示学习的启发，该方法学习物体的紧凑且鲁棒的表示，我们引入了一个统一的端到端框架，Slot-VPS，如图1所示。视频中的所有全景物体（包括物质和物体）都被表示为一个统一的表示，称为全景槽。全景槽是一组可学习的参数，并且可以通过与从视频中提取的特征进行交互来更新。每个全景槽负责视频中的一个物质类别或一个物体实例，使得可以直接以端到端的方式预测每个全景物体的类别、掩码和物体ID。为了将视频级全景物体的时空信息编码到全景槽中，我们引入了Video PanopticRetriever（VPR）。VPR包括一个全景检索器，用于从空间特征中检索位置和外观信息以进行全景物体定位和分割，以及一个视频检索器，用于在不同时间步骤上关联槽以进行时间关联的物体实例。此外，在上述过程中，执行基于softmax的操作，对每个槽的贡献权重进行归一化，以鼓励全景槽之间的竞争并使它们彼此不同，从而抑制槽之间的冗余。最后，具有时空一致性的全景槽，携带物体的空间信息和时间标识信息，可以用于直接预测视频中全景物体的最终结果，即类别、掩码和物体ID。据我们所知，这是第一个完全统一的端到端框架，用于VPS任务。它不依赖于空间和时间领域的任何替代品，因此避免了依赖复杂后处理和受子任务失败影响的缺点。在Cityscapes-VPS [17]和VIPER[17]数据集上的实验结果证明了我们方法的有效性。由于统一的端到端框架和以物体为中心的学习，我们的方法在Cityscapes-VPS的val和test集（63.7，63.3VPQ）以及val集（56.2 VPQ）上优于现有技术[17，35]。0延迟（毫秒）0VPQ（%）0VPSNet（ResNet50-FPN）0SiamTrack（ResNet50-FPN）0我们的（ResNet50-FPN）0我们的（Swin-B-FPN）0我们的（Swin-L-FPN）0图2. Cityscapes-VPSval集上的速度-准确性权衡曲线。延迟是在V100 GPU上测量的。0VIPER具有更高的效率。我们的主要贡献可以总结如下：0•我们提出使用统一的表示（即全景槽）来均匀表示视频中的所有全景物体，并引入Slot-VPS，这是VPS任务的第一个统一的端到端流程。0•为了对物体进行空间定位、分割、区分和时间关联，我们开发了Video PanopticRetriever（VPR），将时空一致的物体信息检索和编码到全景槽中。0•我们的方法在Cityscapes-VPS和VIPER数据集上均优于现有技术[17,35]。此外，如图2所示，我们的模型具有更好的效率。02. 相关工作0全景分割（PS）。将语义分割和实例分割统一到图像级别的PS任务[7, 18-20, 22,48]要求为所有像素分配类别标签并唯一地分割所有对象实例。PS任务中的早期尝试[19]遵循分解流程，分别预测语义和实例分割结果，然后在后期采用物体-物体融合过程。一些工作尝试通过用无参数[48]或可训练的[23]全景头替换后处理的物体-物体融合来简化流程并提高准确性。此外，更多研究人员[24,39]试图放弃分离的分支，构建一个端到端的统一框架。PS任务中的最新趋势[3, 8,43]是将此任务视为集合预测问题，并尝试借助变换器构建简洁的端到端网络。然而，需要注意的是，所有这些统一方法只考虑了空间域上事物和物体的统一性，而排除了时间域。/+/++/+/+/+/+/+/30950× N0帧t0帧t-10掩码；类别；ID0视频全景0检索器检索器0自注意力0检索器0FFN0骨干网络0检索器0FFN0全景检索器0视频检索器0线性线性线性0Softmax on0插槽0查询键值0矩阵乘法0+/ 添加和规范化全景插槽0位置嵌入0掩码；类别；ID0自注意力0检索器0FFN0图3.Slot-VPS的概述。以两个帧（t和t-1）为例，从带有位置嵌入和全景插槽的骨干网络提取的多尺度特征被馈送到视频全景检索器（VPR）模块进行N个阶段，以生成时空一致的全景插槽。全景插槽表示视频中的全景对象，最初在所有帧之间共享。最后，它们直接转换为对象的掩码、类别和ID。请注意，FFN代表前馈网络。0视频全景分割（VPS）。作为PS任务在视频领域的直接扩展，先前在VPS任务中的方法[17, 35]通常将图像级方法[7,48]应用于每个视频帧，并尝试通过使用额外的时间关联头（例如，跟踪头[17,47]，时间中心回归头[35]）等将所有帧的结果关联起来。然而，所有这些方法都使用多个表示（例如，框和掩码，中心和偏移量）来表示对象，需要多个单独的网络来处理VPS的子任务和复杂的后处理（例如，NMS，物体-物体融合，跟踪的相似性融合）在空间和时间域上。据我们所知，这是首次同时讨论空间和时间域中的事物和物体的统一性。0变压器。受到变压器在自然语言处理（NLP）任务中的成功启发，计算机视觉社区也进行了许多研究，例如目标检测[3,52]、全景分割[8, 43]和视频实例分割[26, 45,49]等。在这些流程中，对象被表示为一组包含所有相关信息（如位置、外观等）的向量。变压器中的注意力负责定位和分割对象，基于二分匹配的机制有助于分离不同的对象。借助这些技术，上述任务可以转化为直接的集合预测问题，而无需许多手动设计的组件。与所有这些工作不同的是，我们将插槽竞争机制引入到学习过程中，以增强空间和时间域中对象的可辨识性。共同表示0为了在视频级别上表示全景槽位的物质和物体，我们提出了完全统一的端到端框架，其中空间和时间域中的所有操作都基于全景槽位完成。以物体为中心的学习。物体为中心的表示学习[1, 12, 13, 27,29]主要关注在各种场景中学习稳健、可推广的物体表示，例如无监督物体发现、新视角预测等。在[29]中，Francesco等人提出了SlotAttention，用于从感知表示（例如卷积神经网络的输出）中预测一组任务相关的抽象表示，称为槽位。槽位是可交换的，并且可以绑定到输入中的任何对象。与transformer中的注意力不同，SlotAttention让随机抽样的槽位在迭代学习过程中相互竞争，这进一步有助于对象的区分。然而，SlotAttention主要应用于合成数据集场景，假设槽位服从正态分布。在本文中，受到物体为中心的表示和竞争机制的启发，我们引入了全景槽位和VPR模块，成功将物体为中心的表示学习应用于真实世界数据，并在两个数据集上取得了新的最先进的VPS任务结果。03. 方法03.1. 模型架构0如图3所示，Slot-VPS框架由一个主干（包括Resnet50[15]、FPN [25]、几个可变形卷积[11,48]）组成，用于提取多尺度特征。Ax,y =M(1)(3)30960特征和视频全景检索器（VPR）模块用于N个阶段。每个阶段包含多个VPR模块，负责某个尺度的特征。以输入视频的两个连续帧为例，我们将从主干提取的某个尺度的两帧特征表示为Xt，Xt-1∈RD×C，其中D、C、t分别表示空间尺寸（高×宽）、特征图的通道数和时间索引。VPR将两帧的某个尺度特征（Xt，Xt-1）、位置嵌入（P∈RD×C）和全景槽位（S∈RL×C）作为输入，生成空时一致的全景槽位，其中L、C分别表示槽位和通道的数量。最终的预测头进一步利用输出的全景槽位来预测视频中全景对象的类别、掩码和ID。为了清晰起见，省略了小批量的维度索引，详细的网络结构在补充材料中展示。全景槽位。为了统一视频中的表示，我们定义了全景槽位，一组可学习的参数S∈RL×C，用于表示视频中的所有全景对象（包括物体和物质）。每个槽位对应一个对象，因此槽位数L表示视频中可能的全景对象数量（例如100）。全景槽位被随机初始化，并可以通过与空时信息的交互逐渐优化。03.2. 视频全景检索器（VPR）0VPR由Panoptic Retriever和VideoRetriever组成。对于每个模块i∈{1,...,U}，其中U是网络中VPR模块的总数，PanopticRetriever将输入的全景槽位Sit，Sit-1与每帧的特征相关联，以产生每帧的空间一致的输出全景槽位ˆSit，ˆSit-1。在这个过程中，PanopticRetriever通过名为Retriever的注意力结构从特征中检索对象的信息。然后，VideoRetriever将ˆSit和ˆSit-1作为输入，进一步利用Retriever提取这些全景槽位之间的时间相关性，以获得时间上增强的全景槽位。然后，经过空时精炼的全景槽位被转发到下一个VPR进行迭代精炼。注意，对于第一个阶段，S0t和S0t-1与S0相同。Retriever（RE）。我们引入了Retriever，用于检索与查询相关的信息。该模块可以从两个不同的方面进行建模。对于空间域，它被视为从空间特征到全景槽位的映射学习过程。对于时间域，它可以被视为学习不同时间帧的槽位之间的关联。与经典的点积注意力[40]不同，我们将槽位竞争机制[29]纳入Retriever中，以实现更好的对象区分能力。0考虑到每个对象在空间和时间域中都应该与其他对象有所区别。在这里，我们介绍了Retriever的公式。将Retriever的输入表示为查询Q ∈ R L q × C，键K ∈ R D v × C和值V∈ R D v ×C，如图3所示。Retriever的过程可以通过三个步骤来解释，包括信息转换、相关计算和相关信息检索。首先，首先应用三个线性层将全景槽和目标信息转换为公共空间。我们可以将转换后的槽、键和值表示为Q θ ∈ R L q × C，K ϕ ∈R D v × C，V g ∈ R D v × C。在第二步中，L q个槽和Dv个向量之间的相关性与矩阵乘法操作相关联，得到一个相关矩阵M ∈ R D k × Lq。如果槽所表示的特定对象与特定向量相关，则相关矩阵中的相应值将很高。此外，为了减轻两个槽对应于相同目标向量的现象，我们通过在槽维度上应用Softmax让槽彼此竞争。上述过程可以表示为：0M = K ϕ ∙ Q T θ,0l e M x,l , for x = 1 , ..., D v ; y = 1 , ...,L q ,0其中M x,y，Ax,y分别是相关矩阵M和结果注意力矩阵A在位置（x，y）处的值。在槽维度上应用Softmax的操作将归一化每个槽的贡献权重，因此槽之间将彼此区分开，并且槽之间的冗余将被抑制。在最后一步中，将得到的注意力矩阵应用于值特征Vg以检索相关对象的信息。这可以表示为：0O = A T ∙ V g , (2)0其中O ∈ R L q ×C表示检索到的对象的信息。全景检索器。全景检索器按顺序处理具有位置嵌入和每帧全景槽的特征。自注意力、检索器和前馈网络（FFN）构成了全景检索器。自注意力和FFN分别用于在与空间特征通过检索器关联之前和之后对全景槽进行精炼。以帧t为例，给定某个尺度的特征X t，全景槽S i− 1 t和位置嵌入P，那么全景检索器的过程可以写成：0ˆS i t = S i − 1 t + SA ( S i − 1 t ), ˆS i t = ˆS i t + RE ( ˆS i t , ( X t+ P ) , X t ) , ˆS i t = ˆS i t + FFN (ˆS i t ) ,(4)30970其中SA，RE表示自注意力和检索器。ˆS i t ∈ R L ×C表示通过全景检索器通过空间信息精炼的输出全景槽。在上述过程中，检索器通过将全景槽与空间特征中的每个像素相关联，从空间特征中检索对象的信息（例如位置、外观信息）。单帧中的全景槽（ˆS i t或ˆS i t −1）充当检索器中的查询，而检索器中的K，V基于每帧的空间特征。为了增强空间信息，将位置嵌入添加到空间特征中。检索器的槽竞争机制促使全景槽相互排斥，以便一个全景对象只分配给一个全景槽。视频检索器。视频检索器由检索器和FFN组成。它旨在关联跨帧的全景槽，并帮助这些槽相互精炼彼此的信息。通过这种方式，描述同一对象的全景槽的一致性将得到大大改善。给定来自全景检索器的输出全景槽（ˆS i t，ˆS i t −1），这些全景槽将沿着槽维度进行连接，然后转发到检索器中。随后的FFN用于精炼检索器的输出全景槽。最终精炼的全景槽将重新分配给相应帧的全景槽。视频检索器的过程可以总结如下：0ˆSia = [ ˆSit ,0Sia = ˆSia + RE(ˆSia, ˆSia, ˆSia)，0Sia = Sia + FFN(Sia)，0[ Sit , Sit−1 ] = ˆSia +0其中ˆSia∈R2L×C表示连接的全景槽，RE表示检索器，[∙,∙]表示连接操作，Sia表示经过精炼的连接的全景槽，而Sit，Sit−1∈RL×C表示帧t和t−1的时空精炼输出全景槽。与全景检索器中的检索器不同，连接的全景槽用作检索器中的Q、K和V，它利用槽竞争机制来确保两个特定全景槽在帧之间具有唯一的连接。这也为ID预测头中的ID分配铺平了道路，ID预测头已经可以在不依赖任何其他信息的情况下实现良好的性能，只需时空精炼的全景槽。此外，整个视频检索器的过程是0由于参数仅与槽向量的长度有关，因此对于可变帧数非常友好。预测头。在上述全景检索器和视频检索器操作之后，全景槽将包含每个帧中物体的信息，并且跨帧对应的槽将尽可能一致。为了从全景槽中产生分类、掩码和物体ID预测，我们利用三个预测头，每个预测头由一个FFN（两个线性层）和相应的功能层组成。在分类头中，FFN后面跟随另一个线性层，为每个全景对象输出类别预测。在掩码头中，通过矩阵乘法操作将全景槽应用于特征图，从而获得全景对象的掩码。在ID头中，通过计算当前帧和前几帧之间的全景槽的相似性矩阵来预测全景对象的ID。由于一致的全景槽，所有预测头都可以根据槽信息提供精确的预测，无需复杂的融合操作。04. 实验04.1. 实现细节0Cityscapes-VPS。Cityscapes-VPS[17]是在Cityscapes数据集[9]的验证集上构建的。它为3000帧提供了密集的全景注释，从每个500个视频剪辑中采样六帧，其中单个视频剪辑包含分辨率为1024×2048的30帧，具有19个类别（11个物体和8个物体），还提供了跨帧的实例ID关联。训练、验证和测试集的划分分别为400、50、50个剪辑。我们在其验证集和测试集上报告结果。VIPER。VIPER数据集用于VPS任务[17]，它是基于合成的VIPER数据集[36]重新格式化的，该数据集从GTA-V游戏引擎中提取。重新格式化的VIPER数据集包含184K帧的23个类别（13个物体和10个物体）的全景注释，分辨率为1080×1920。我们按照[17]的公共训练和验证划分进行。对于训练，使用了19个视频，总共41464帧。对于评估，总共有600张图像，包括来自白天场景的10个验证视频的前60帧。评估指标。采用视频全景质量（VPQ）[17]进行评估。作为图像全景质量（PQ）[19]的视频扩展，VPQ旨在评估预测和地面真实全景视频分割之间的时空一致性。对于一个视频序列，将时间窗口大小表示为k∈{0，5，10，15}，可以通过将窗口滑过视频来获得几个片段，并进行片段级IoU、|TP|、|FP|和|FN|的计算，1 2 3430980在数据集级别上，所有这些值是在所有预测的视频和数据集级别上收集的，每个类别计算VPQk结果，并在所有类别上进行平均。最终的VPQ是通过对不同的k值进行平均计算得到的。训练。实现基于MMDetection [4]工具箱。对于大多数实验，ResNet50 [15]和FPN[25]作为骨干网络。除了ResNet50，我们还在其他骨干网络上验证了我们的方法，例如Swin-B，Swin-LTransformer[28]等。训练损失包括四个图像级损失[43]（即PQ损失，像素级实例区分损失，每像素掩码-ID交叉熵损失和语义分割损失）和一个视频级损失作为识别损失。相应的损失权重分别经验性地设置为3.0，1.0，0.3，0.5，0.5。至于Cityscapes-VPS数据集的训练数据，我们发现时间注释不是非常一致，因此我们主要利用图像注释，并通过随机缩放和平移[51]从这些图像生成模拟视频。使用8个GPU进行分布式训练，每个GPU的批量大小设置为1。对于所有数据集，优化器，基本学习率，权重衰减和学习率调度器分别设置为AdamW[31]，0.0001，0.0001和StepLR。对于Cityscapes-VPS，我们训练96个时期，并在第64和第88个时期应用lr衰减。使用Mapillary Vistas[32]和带伪标签的Cityscapes训练序列进行图像全景分割预训练。对于VIPER，我们训练12个时期，并在第8和第11个时期应用lr衰减。在VIPER数据集上采用图像全景分割预训练。其余层，例如视频检索器和ID预测头，通过Kaiming初始化进行初始化。推理。对于Cityscapes-VPS，预测所有30帧视频，但只评估具有地面真实标签的6帧。对于VIPER，预测和评估所有帧。对于所有数据集，采用简单的掩码过滤和删除。在此过程中，使用类别置信度分数为0.85对对象掩码进行过滤，并在物体掩码上应用像素置信度分数为0.4。移除重叠比例大于0.03的物体掩码和面积小于4096的物体掩码。04.2.消融研究0我们首先分析全景槽，然后研究几个方面，讨论不同设置对整体性能的影响。除非另有说明，本节中的实验是在Cityscapes-VPSval上使用ResNet50和FPN进行的。全景槽学到了什么？为了更好地理解全景槽是什么以及全景槽学到了什么，我们在图4中展示了不同阶段的激活图在注意力图上的可视化。0GT Mask原始图像第1阶段第2阶段第3阶段第4阶段0图4.不同阶段的注意力图。基于CAM（类激活图）的可视化，我们可以观察到我们的全景槽在早期阶段只粗略地定位物体，并逐渐更好地匹配物体边界。0Slot-VPS0VPSNet0图5. Slot-VPS（上）和VPSNet[17]（下）之间特征图的定性比较。我们可以发现我们的每个CAM都专注于特定的物体，这证实了学习到的特征是以物体为中心的；而[17]的CAM显示他们的特征无法区分实例，因此需要进一步使用替代物（例如bbox，中心）来定位物体。在放大时最佳观看。0显示图像中特定全景对象的最具贡献区域。它们是使用SEG-GRAD-CAM [41]计算的，这是Grad-CAM[37]到语义分割的扩展。由于Slot-VPS的统一端到端框架，我们可以直接为预测的实例掩码计算损失，并获得其内类别可区分的CAM（类激活图）用于任何特征或注意力图。如图4所示，在早期阶段，多个对象可能一起激活，聚焦区域较大。通过迭代学习过程，场景中的其他无关信息被抑制，目标物体变得越来越清晰可辨。检索器。我们的检索器与经典的注意力[40]之间有两个主要区别。第一个区别是softmax操作执行的维度。我们将softmax应用于槽维度（即查询的维度），而不是特征图的空间尺寸维度（高度×宽度）的维度（即键的维度）。应用5057.4 / 42.7 / 68.18057.6 / 46.4 / 65.710060.5 / 48.4 / 69.320058.7 / 47.6 / 66.730058.2 / 45.7 / 67.41024122256.4 / 40.9 / 67.6222258.9 / 44.7 / 69.2233360.1 / 48.3 / 68.72048111151.6 / 30.1 / 67.2111256.1 / 45.4 / 63.8122260.5 / 48.4 / 69.330990Softmax维度0w/投影 PQ / PQ th / PQ st0槽位 60.5 / 48.4 / 69.3 空间 53.5 /37.5 / 65.1 槽位 � 60.7 / 47.9 / 70.10表1.Retriever的变化。黄色渲染的行是最终设置。0PQ，PQ th，PQst分别是所有/物体/物体类别的平均分数。0编码器w/多尺度 PQ / PQ th / PQ st0DETR [3] � 38.6 / 27.0 / 47.10� � 56.3 / 44.5 / 64.80我们的 58.9 / 44.6 / 69.40� 60.5 / 48.4 / 69.30表2. Panoptic Retriever和DETR[3]的比较。“w/多尺度”表示是否利用多尺度特征。0槽位数量 PQ / PQ th / PQ st0表3. 不同槽位数量的比较。0FFN隐藏维度0尺度/320尺度/160尺度/80尺度/4 PQ / PQ th / PQ st0表4. 多尺度特征上模块数量差异的比较。0将softmax应用于空间尺寸维度可以增强像素级可区分性，从而可以从特征中获取对象的位置和外观信息，但不探索对象级关系，而将softmax应用于槽位维度可以促进对象级竞争，从而增强对象的可区分性。第二个因素是在将注意力矩阵应用于Value特征之后是否有投影层。我们在图像全景分割任务中对Retriever的这两个因素进行了消融研究。如表1所示，我们可以观察到将softmax的应用维度从槽位改变为空间尺寸会大大降低性能，这验证了槽位之间的对象级竞争机制的有效性。添加最终的投影层只会带来轻微的性能提升，因此我们为了整体效率不保留该层。PanopticRetriever与DETR中的变压器的比较。我们的PanopticRetriever受到变压器中解码器结构的启发（例如DETR[3]）。DETR[3]中的变压器由编码器、解码器和全景掩码头组成。具体而言，PanopticRetriever与DETR的变压器结构之间有三个关键差异：（1）DETR中的注意机制沿着空间维度应用softmax，仅区分不同的像素而不是在对象之间进行竞争。我们的PanopticRetriever在槽位维度上应用softmax，以鼓励槽位之间的竞争，使每个槽位的信息成为相互独立的。表1验证了这种竞争机制的有效性。（2）DETR在骨干网络之上高度依赖变压器编码器。变压器编码器带来了巨大的计算成本，并且大大减慢了整个帧的处理速度。0没有编码器的帮助，我们的PanopticRetriever已经取得了良好的性能，并且可以高效地应用。（3）DETR仅使用编码器中的低分辨率特征图，并在额外的全景掩码头中融合多尺度特征，这可能对小物体的建模有害。相反，我们将多尺度特征馈送和融合到PanopticRetriever中，而无需额外的头部。如表2的前两行所示，去除变压器的编码器将导致严重的退化，而我们的网络在没有编码器的帮助下可以表现得更好（第4行）。即使没有使用多尺度特征（第3行），我们仍然可以通过2.6PQ超越具有六个变压器编码器的DETR。注意，利用多尺度特征主要改善了物体的性能。0槽位数量。在这部分中，我们探讨了不同槽位数量的影响，如表3所示。可以观察到，由于槽位是设计用于完全负责单个对象的结构，因此将槽位数量设置为接近场景中可用的全景对象数量（例如在此设置中为100）是理想的。如果槽位数量太小，多个对象更有可能被分配到同一个全景槽位中，导致全景对象之间的混淆。由于槽位不足，一些对象将被忽略。相反，如果槽位数量太大，单个对象可能在竞争过程中分散到多个槽位中，这会导致与理想情况下每个槽位负责一个对象相比，生成的槽位不太可靠。每个阶段的模块数量。为了充分改善具有时空一致信息的槽位，我们使用多尺度特征多次应用VPR模块。我们在两种设置下调查了每个尺度上不同模块数量的影响，将模型中FFN的隐藏维度分别设置为1024和2048。如表4所示，对于两种设置，随着每个尺度模块数量的增加，性能得到了改善。然而，这将带来额外的计算复杂性。默认情况下，我们经验性地将四个尺度特征的模块数量分别设置为1、2、2、2。如图2所示，这样的设置可以在性能和延迟之间取得更好的平衡（59.760.9-31000方法时间窗口大小 k VPQ/VPQ th /VPQ st FPS k =0 k =5 k =10 k =150Cityscapes-VPSval0VPSNet [17] 64.5 / 58.1 / 69.1 57.4 / 45.2 / 66.4 54.1 / 39.5 / 64.7 52.2 / 36.0 / 64.0 57.0 / 44.7 / 66.0 1.30SiamTrack [47] 64.6 / 58.3 / 69.1 57.6 / 45.6 / 66.6 54.2 / 39.2 / 65.2 52.7 / 36.7 / 64.6 57.3 / 44.7 / 66.4 4.60我们 65.7 / 57.9 / 71.4 60.0 / 47.7 / 68.9 57.8 / 44.4 / 67.6 55.5 / 40.2 / 66.7 59.7 / 47.5 / 68.6 4.60Cityscapes-VPStest0VPSNet [17] 64.2 / 59.0 / 67.7 57.9 / 46.5 / 65.1 54.8 / 41.1 / 63.4 52.6 / 36.5 / 62.9 57.4 / 45.8 / 64.8 1.30SiamTrack [47] 63.8 / 59.4 / 66.6 58.2 / 47.2 / 65.9 56.0 / 43.2 / 64.4 54.7 / 40.2 / 63.2 57.8 / 47.5 / 65.0 4.60我们 66.4 / 58.8 / 71.2 60.9 / 48.8 / 68.5 57.5 / 44.2 / 65.9 55.8 / 40.8 / 65.4 60.1 / 48.2 / 67.8 4.60表5. 在Cityscapes-VPS val和test上与ResNet50-FPN最先进方法的比较。VPQ，VPQ th，VPQst分别是所有/Things/Stuff类别的平均分数。0DenseContext AutoAug RFP SSL TTA 骨干网络图像模型 M-adds (B)0valVPQ0测试VPQ0ViP-Deeplab [35]0�0� � � 61.9 -0� � � � � 63.1 62.5062.2 61.6 我们 � Swin-L-FPN 1917 63.7 63.30表6. 在Cityscapes-VPS val和test上与最先进方法[35]的比较。我们列出了两种方法中应用的技巧，包括DenseContext[35]，AutoAugment [10]，Recursive Feature Pyramid (RFP) [34]，具有伪标签的半监督学习（SSL）[5]和测试时数据增强（TTA）[35]。0方法骨干网络 VPQ FPS0SiamTrack [47] ResNet50-FPN 50.2 5.1 VPSNet [17]ResNet50-FPN 51.9 (+1.7) 1.00我们的 ResNet50-FPN 53.2 (+3.0) 4.20Swin-L-FPN 56.2 (+6.0) 2.00表7. 在VIPER val上与最先进方法的比较。0在Cityscapes-VPS val集上以4.6FPS的速度进行VPQ。视频检索器。以前的工作通过估计光流[16]或应用注意机制[44]来利用时间信息。然而，这些技术大多应用于提取的特征，其中包含场景中所有对象的信息。这也导致需要额外的替代物（例如bbox，中心）来从特征中定位对象。相比之下，我们的视频检索器直接应用于以对象为中心的表示，这将消除无关背景噪声的影响，并有利于对象级的相互细化。如图5所示，以VPSNet[17]为例，由于以对象为中心的学习，我们的特征图更加以对象为中心，而[17]的特征图缺乏特定对象的信息。实验证明，当移除视频检索器时，VPQ下降了1.5。04.3. 与最先进方法的比较。0在Cityscapes-VPS上的VPS结果如表5所示。在相同的骨干网络（ResNet50-FPN）下，我们的模型在Cityscapes-VPSval和test上分别比SiamTrack [47]高2.4和2.3VPQ，同时具有最快的推理速度。如表6所示，我们的方法还可以0通过更少的计算和更少的技巧应用，我们的框架在VIPER数据集上的VPS结果如表7所示。在相同的骨干网络（ResNet50-FPN）下，我们的模型在val集上的VPQ比最先进的方法[17]高1.3，FPS为4倍。在更大的骨干网络（Swin-L和FPN）下，我们的性能可以进一步提高3.0VPQ，同时以2倍的速度超过[17]，这要归功于统一的框架和消除了复杂的基于CPU的后处理。在补充材料中将展示定性可视化结果。05. 结论0在本文中，为了减轻VPS任务的分解流程的缺点，我们引入了一个完全统一的端到端框架Slot-VPS，基于物体中心表示学习。视频中的全景对象（包括物体和物体）用统一的表示称为全景槽位。所提出的视频全景检索器（VPR）将视频中的对象的时空信息检索和编码到全景槽位中。最后，时空一致的全景槽位可以用于直接预测视频中全景对象的类别、掩码和对象ID。对VPS任务的两个数据集的实验结果验证了我们方法的有效性。[1] Hossein Adeli, Seoyoung Ahn, and Gregory Zelinsky. Re-current attention models with object-centric capsule rep-resentation for multi-object recognition.arXiv preprintarXiv:2110.04954, 2021. 3[2] Daniel Bolya, Chong Zhou, Fanyi Xiao, and Yong Jae Lee.Yolact: Real-time instance segmentation.In Proceedingsof the IEEE/CVF International Conference on Computer Vi-sion, pages 9157–9166, 2019. 1[4] Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, YuXiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu,Jiarui Xu, et al. Mmdetection: Open mmlab detection tool-box and benchmark. arXiv preprint arXiv:1906.07155, 2019.6[5] Liang-Chieh Chen, Raphael Gontijo Lopes, Bowen Cheng,Maxwell D Collins, Ekin D Cubuk, Barret Zoph, HartwigAdam, and Jonathon Shlens.Naive-student: Leveragingsemi-supervised learning in video sequences for urban scenesegmentation. In European Conference on Computer Vision,pages 695–714. Springer, 2020. 6, 8[6] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos,Kevin Murphy, and Alan L Yuille. Deeplab: Semantic imagesegmentation with deep convolutional nets, atrous convolu-tion, and fully connected crfs. IEEE transactions on patternanalysis and machine i

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

视频全景分割任务通常需要复杂的后处理和受其他任务失败的影响，因此需要一种新的方法来解决这个问题

一种改进的视频分割网络及其全局信息优化方法.docx

语义分割与实例分割和全景分割的区别？

在maskformer出现后，可不可以帮我想几个关于语义分割或实例分割或全景分割或视频方向的分割的论文题目以及创新点研究方向

语义分割相对于实力分割和全景分割的优点

全景视频拼接 opencv

python 视频转全景长图

机器视觉分割任务是什么

lstm用于图像分割问题怎么实现

基于全景图的深度估计方法研究与实现

全景图像处理任务中 对齐问题是什么

全景分割怎么确定label数据的像素值对应类别

视频压缩和全景视频压缩的区别

python 全景视频播放器

deterctron2框架使用自己的coco格式的全景分割的数据集

基于深度学习的全景分割开源源码

python用视频生成全景图像

请问我想要实现从视频中获取全景图片, 需要对视频进行抽帧, 我应该如何确定抽取的视频的帧与前面的帧进行匹配评估

three.js播放全景视频

改善拼接全景图中“黑边”的问题opencvpython

WPF怎么播放全景视频

最新资源

全景图像处理任务中对齐问题是什么