大规模视频全景图像分割数据集的构建与评估

104 浏览量更新于2023-10-25 收藏 2.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

21033大规模视频全景图像分割：一个基准苗嘉旭1、2王晓涵1于武2李伟1张旭1魏云超3杨毅1†1浙江大学CCAI2百度研究院3北京交通大学网址：jiaxumiao@zju.edu.cn，yangyics@zju.edu.cn图1.我们的大规模VIDeo Panoptic Segmentation in the Wild（VIPSeg）数据集的示例摘要在本文中，我们提出了一个新的大规模数据集的视频全景分割任务，其目的是作为符号语义类和跟踪身份的所有像素，一段视频由于这项任务的基础事实很难解释，以前的视频全景分割数据集受到小尺度或场景数量的限制。相比之下，我们的大规模VIdeoP全景分割（VIPSeg）数据集提供了3，536个视频和84，750帧像素级全景注释，涵盖了广泛的真实场景和类别。据我们所知，我们的VIPSeg是第一个尝试通过考虑不同的场景来解决野外具有挑战性的视频全景基于VIPSeg，我们评估了现有的视频全景分割方法，并提出了一种高效和有效的基于剪辑的基线方法来分析我们的 VIPSeg 数据集。我们的数据集可在https://github.com/VIPSeg-Dataset/VIPSeg-Dataset/上获得。1. 介绍全景分割通过为图像中的每个像素分配语义标签和实例ID来统一语义和实例分割任务，这是计算机视觉中的基础研究课题，并且具有许多实际应用，例如详细的动作理解，视频†通讯作者。部分工作是在苗佳旭（Jiaxu Miao）在百度研究院实习时完成的。编辑、自动驾驶和增强现实。近年来，已经提出了许多用于全景分割的方法[15，16，26，27，29，31，34，51，63，68，74]，并且取得了显著的进展。虽然图像全景分割任务已经得到了很好的探索，但视频全景分割[26]（VPS）仍然是一个具有挑战性的问题。VPS模型不仅应该在视频中提供唯一和一致的语义预测，而且还应该跨帧关联同一对象的实例ID。最近，已经提出了一些用于视频全景分割的方法和数据集[26，48，60，61]。然而，现有的VPS基准测试存在着许多局限性.首先，现有的VPS数据集[26，60]由于令人疲惫的标签成本而规模较小。例如，Cityscapes-VPS [26]只包含500个视频，每个视频有6个注释帧。KITTI-STEP [60]和MOTHERE-STEP [60]分别仅包含50和4个由于现有数据集的视频不足[60]和视频长度较短[26]，视频全景分割任务受到现有数据集的限制。其次，现有VPS数据集的多样性受到限制，即，在先前的数据集中仅因此，具有像素级注释的事物的类别是有限的和有偏见的。以前的一些数据集[60]只关注人和车辆。多样性问题使这些数据集在现实世界的应用中无法通用（例如，视频编辑、增强现实），其中包含了我们日常生活中的许多场景和数百件事情。为了推进视频全景分割的研究，我们提出了一个新的数据集，针对大规模视频全景分割在野外（VIPSeg）。21034该数据集包含广泛的真实世界场景（例如232个场景）和类别（例如，124类）。总的来说，我们用像素级全景注释注释了3，536个视频和84，750个帧，包括背景材料的两个语义类别（例如，天空、地面）和前景物体的轨迹标识（例如，人、猫、车）。据我们所知，我们的VIPSeg是第一次尝试，通过考虑不同的场景来解决野外具有挑战性的视频全景分割任务。由于所有像素的语义ID和实例ID都被注释，因此我们的VIPSeg也可以应用于其他视频任务，包括视频对象分割，视频语义分割，视频实例分割等。.注释这样一个大规模的视频全景分割是困难和昂贵的，因为语义类和跟踪标识符的每个像素是必需的。为了克服人类的过度努力，我们提出了一种稀疏到密集的交互式注释策略，通过人类和计算机的协作来有效地注释全景面具。具体地说，我们首先建议以稀疏帧速率（1 fps）为每帧注释实例，并使用跟踪模型[71]和手动校正来关联实例。之后，我们采用视频对象分割模型AOT [71]将帧速率从1 fps扩展到5 fps，并手动优化实例掩码以提高分割质量。我们在VIPSeg上进行了大量的实验，以评估现有的视频全景分割模型。大多数现有的工作[26，48]都是迭代地进行VPS推断预测，其中它们通过将先前的结果作为参考来生成下一帧预测。然而，真实世界的视频会持续很长时间，并且迭代推理在应用中效率较低。因此，我们提出了一个从PanopticFCN [34]扩展的基于剪辑的模型，将视频划分为不重叠的剪辑，并单独为每个剪辑生成预测。基于裁剪的方法可以并行处理视频全景分割，在实际应用中效率更高。我们采用基于剪辑的模型来评估和分析我们的VIPSeg数据集。2. 相关工作全景分割。全景分割[27]是一项综合性的计算机视觉任务，它结合了语义分割和实例分割任务。最近，全景分割任务已经变得越来越流行，并且许多方法[15，16，26，27，29，31，34，51，63，68，74]已被提出来解决这个统一的任务。在[27]中引入的一个简单的基线是分别训练两个子任务，并将结果融合在一起。在此之后，一些方法提出了一个端到端的模型，但仍然利用两个分支来分别处理全景分割任务。例如，Xiong等人 [63]提出UPSNet，它利用两阶段检测模块进行实例分割和逐像素分类模块，用于语义分割。Cheng等人。 [15]通过预测实例中心和像素偏移量设计了一个双分支管道，因此，Li等人。[32]建议在统一的完全卷积管道中表示和预测事物和内容。然而，这种方法仍然以不同的策略对待事物和事物。最近，基于transformer的方法[16，74]通过初始化查询或内核统一考虑事物和内容。视频语义分割与图像语义分割[9- 11，14，21，25，30，35，46，52，57，58，62，66，72，73，75，76]，视频语义分割（VSS）需要为视频序列的所有帧中的每个像素分配类别标签。早期的视频语义分割工作仅利用相邻的RGB帧，而不使用注释来提高分割精度[18，24，38，39，44，45]或通过特征重构来加快推理速度。使用[6，20，23，33，40，49，69，79]。由于视频语义分割的早期数据集[3，17，50]受到小尺度和稀疏注释的限制，因此不进行VSS的时间评估。最近，引入了具有密集时间注释的大规模数据集[43]，这为VSS任务提供了合适的基准。提出了一种时间上下文融合方法[43]，以提高分割质量和时间一致性。视频语义分割与我们的设置不同，因为它不需要区分不同的实例和实例跟踪。视频对象分割。视频对象分割（VOS）[4，13，41，42，44，47，53分割视频序列中的对象，仅给定第一帧上的对象掩码，这是类不可知的。VOS方法大致可分为两类.基于微调的方法[4，42]训练用于前景-背景分割的网络，并在测试时使用第一帧地面实况微调模型。基于简化的方法[53，70，71]将先前帧的结果作为输入以生成当前帧掩码。我们的数据集也可以应用于VOS任务。视频实例分割。视频实例分割（VIS）[2，7，8，12，19，32，65]结合了实例分割和视频对象跟踪，旨在分割和跟踪视频帧中的实例掩码。早期的作品[5，65]分别解决了两个子任务，杠杆老化逐帧实例分割和附加跟踪头来解决VIS问题。最近提出的方法[37，67]考虑了时间信息，以提高分割和跟踪性能。基于剪辑的方法[1，22，59]建议同时利用帧剪辑以获得更高的分割和跟踪精度。例如，IFC [22]提出了存储器来有效地跨帧交换信息，并提高了分割性能。我们的数据集还21035适用于VIS任务。视频全景分割。 Kim等人 [26]首先介绍视频全景分割（VPS）任务，其目的是同时预测视频帧中的对象类、边界框、掩码、实例ID关联和语义分割。VPSNet[26]是VPS的第一个工作，它基于UPSNet [63]。增加像素级融合和对象级跟踪，以将图像全景分割方法UPSNet调整到VPS任务。Woo等人 [61]通过学习跨帧对的时间对应进一步扩展VPSNet。VIP-Deeplab [48]使用从两个帧像素到一个帧中心的中心偏移回归来扩展Panoptic-Deeplab [15这些方法[26，48]中的大多数迭代地推断视频全景分割结果。在本文中，我们提出了一种基于剪辑的方法，以提高时间稳定性和效率。3. VIPSeg：一个大规模视频全景分割数据集在本节中，我们将详细介绍我们的数据集VIPSeg，并将我们的数据集与现有的VPS数据集进行比较，并使用其统计信息分析VIPSeg。此外，我们还描述了VIPSeg数据集的注释管道。3.1. 数据集汇总VIPSeg中共有3，536个视频，其中包含84，750个像素级注释帧。每个视频持续3秒到10秒。我们以5 fps的帧速率采样帧。与现有的仅关注街景场景的VPS数据集[26，60]不同， VIPSeg涵盖了124个类别的232个场景，包括58个事物我们决定一个类别作为东西或东西考虑，如果它是容易分裂成单独的实例。视频中相同对象的实例ID在帧之间仔细例如，如图2所示。3、对于每一只移动的狗，我们提供分割掩码和相关的ID。我们在VIPSeg中总共注释了926，213个实例3.2. 与现有数据集的我们的数据集和现有的相关数据集之间的比较如表1所示。我们主要将我们的VIPSeg数据集与现有的真实世界视频全景分割数据集Cityscapes-VPS [26]、KITTI-STEP [60]和MOTSEG-STEP [60]进行比较。本文将不讨论GTA-5用于VPS任务的合成数据集（VIPER）[26]。与现有的 VPS数据集[26，60]相比，我们的VIPSeg包含超过3，000个视频，比Cityscapes- VPS大约6倍，比KITTI-STEP和MOTSEG-STEP大约60倍。此外，我们的数据集由更多样化的场景组成，包括232个室内和室外场景，而以前的数据集只关注街景场景。我们的数据集包含124个类别，58个事物类和66个东西类，比Cityscapes-VPS和KITTI-STEP大6倍，比MOTSEG-STEP大18倍，使我们的VIPSeg对于现实世界的应用更加实用。由于KITTI-STEP和MOTITLE-STEP是从跟踪数据集扩展而来的，因此只有“人”和“车辆”用跟踪ID进行注释。目前，VIPSeg拥有更多样化的事物类别，包括“人”，“车”，“猫”，“马”等。此外，我们的 VIPSeg 的平均序列长度为 24 ，这比Cityscapes-VPS（每个视频6帧）大得多。实例的较长轨迹长度将引入更多遮挡和外观变化，这更加复杂和具有挑战性。3.3. 数据集统计数据我们用两级层次分类法组织类别图2显示了父类及其子类的实例掩码的直方图。有一个- 即25个父类和124个子类。在每个部分类别中，子类频率的分布是长尾的，这通常在数据集自然收集而没有手动平衡时发现对于物类，对于填充类，“树”和“天空”具有最多的对象掩码。图4（a）展示了不同场景的天体频率也呈长尾分布。带有“人”、“椅子或座位”的场景相比之下，自然景观，如“石窟”或“森林阔叶”包含较少的实例。图图4（b）示出了跟踪长度的实例数的分布大多数实例存在于15个帧（3秒）。不同物类和物类的平均目标面积分布如图所示。4（c）（d）。物体的目标面积比物体的平均面积大得多两种分布都是长尾分布，物体的目标面积差异大于物体的目标面积差异，这表明识别小物体目标更具挑战性。3.4. 注释管道我们将视频语义分割数据集VSPW [43]扩展到我们的视频全景分割数据集。尽管提供了语义标签，但是注释这样的大的视频全景分割数据集仍然是耗时且昂贵的。这是一个繁重的项目，一个- notate和相关的926,213个实例的所有帧从58个类别。最大的困难是如何联系-21036场景东西运河城市窗座石窟灯杆交通灯蝙蝠森林阔叶微波炉鱼缸座便器火车帐篷数据集#场景 #视频帧数 #Thing类 #材料类 #带注释的面具每个视频图2.父类和子类的分级实例掩码的直方图。表1.视频全景分割数据集的比较。城市景观-VPS15003,00081172,1716KITTI-STEP15018,181217126,529381MOTChallenge-STEP142,0751617,232562VIPSeg2323,53684,7505866926,21324图3.关联实例注释的示例。以密集的帧速率正确地跨帧站立。为了节省时间和人力，我们设计了一个稀疏到密集的交互式注释管道，它提供了一种有效的方式来注释和关联跨帧的实例具体而言，我们首先采用稀疏注释和跟踪循环，例如标记和跟踪，稀疏帧速率为1 fps。然后，我们使用密集像素标签循环将注释实例掩码从1 fps传播到5 fps，并手动细化注释以提高质量。为了保证交互式注释管道的注释质量，我们聘请了四位专家注释员来仔细检查机器产生的错误。注释管道如图所示。五、3.4.1稀疏注释和跟踪循环用高帧速率注释视频通常是耗时的并且浪费人力。因此，我们首先要求人类注释者以1 fps的帧速率稀疏地注释实例级分割掩码很难(a)（b）第（1）款事情(c)（d）其他事项图4. （a）不同场景的分级对象频率的分布。（b）父类和子类的实例掩码的直方图。以在注释实例掩码时保持实例ID一致。因此，我们将程序分为两个步骤。首先，注释器只需要为每个帧标记实例掩码，而忽略了视频级别的实例一致性。实例注释和人工审查花费了大约1,200个小时其次，我们采用多对象跟踪模型[71]来关联注释实例。实例掩码及其ID从第一帧开始传播我们计算两个帧的实例之间的Inter-section over Union（IoU），并使用匈牙利算法[28]将实例ID分配给下一帧。一些困难的情况，如遮挡或运动模糊，通常会导致跟踪失败。因此，人类标注器在一个帧中校正错误关联的实例，并且校正的实例作为跟踪器的输入以进一步改善跟踪结果。这个循环是实例数行李提取处电脑室人行横道教室幼儿园室田径场冰雪场自动扶梯瓶杯滑板路障旗球21037×44图5.“稀疏到密集交互式注释”管道，包括两个（a）稀疏注释和跟踪循环。首先，我们手动以1 fps的速度注释实例。视频中的注释实例通过跟踪模型相关联。（b）密集像素标签传播环。我们使用一个视频对象分割模型，从1fps到5fps传播带注释的掩模。生成的掩码由人工注释器进一步检查和细化。直到所有实例都关联。用电脑进行联想大约需要20个小时。3.4.2密集像素标签传播环在这个循环中，我们将关联的实例掩码和ID从1 fps扩展到5 fps。我们采用了一种最先进的视频对象分割方法，AOT [71]，将实例掩码和id从注释帧传播到其相邻的未标记帧，并以5 fps生成掩码。通过计算机传播的实例花费了大约20个小时。由于我们的VIPSeg的场景复杂性，在一些传播掩模中存在缺陷。在生成未标记帧的实例掩码之后，注释器被要求检查分割质量并人为地细化实例掩码。当遇到场景中有许多实例（超过20个）的复杂视频时，传播方法通常会失败。在VIPSeg中，大约28%的视频是复杂的，并且存在故障情况，需要进一步细化。人类注释器的细化时间取决于每个视频的复杂性。少于10个实例的视频需要10分钟或更少。10-30个实例的视频需要20-30分钟，超过30个实例的复杂视频通常需要40-60分钟。反复进行模型传播和人工精化，直到得到满意的结果。4. 方法VPS上的现有作品[26，48]通常构建在迭代框架上，其将相邻帧作为参考以关联视频内的时间信息。为了在视频中保留唯一的跟踪ID，它们必须基于先前的结果生成下一帧预测。然而，真实世界的视频会持续很长时间，激励我们开发一个VPS基线，以非迭代的方式研究和在本文中，我们提出了一种基于剪辑的VPS模型Clip-PanoFCN，它是从基于图像的方法Panop-ticFCN[34]扩展而来的。对于长视频输入，我们将其分成几个非重叠的片段，从而单独预测全景结果，包括物体的跟踪ID。之后，我们执行剪辑级关联和跟踪，以使预测在整个长视频序列中是唯一和一致的它包括两个阶段，即，帧级建模和剪辑级聚合，如图所示。六、4.1. 框架级建模对于输入视频V=（I1，I2，...，I T），I i是空间大小为H W的第i帧，并且视频中的总帧编号为T。我们首先处理每个视频帧I i ，以基于图像级方法PanopticFCN[34]获得帧级内核和高分辨率特征图Fi。生成的内核表示帧中的事物或填充物，而高分辨率特征图维护该帧的空间信息。该模块主要包括三个组成部分， FPN（特征金字塔网络）[36]骨干，内核生成器，特征编码器. 在PanopticFCN之后，对于每个帧Ii，我们首先使用FPN提取特征然后，我们使用卷积层来预测每个对象的中心和每个物品类别的区域，另一个卷积层为每个物品和物品预测生成内核权重。因此，我们可以通过选择事物中心位置处的核权重或通过对类别区域中的核权重进行平均来获得核特征编码器由三个卷积层组成，并将FPN骨干中的特征提取到生成器。迭代推理在应用中效率较低。它将高分辨率特征图F∈RC×1H×1W，我21038--图6.我们的基于剪辑的VPS模型包括两个阶段，帧级建模和剪辑级聚合。帧级建模是从PanopticFCN [34]扩展而来的，用于为每帧的事物和内容生成内核。剪辑级聚合模块融合内核，为剪辑中的每个实例生成单独的内核。frame Ii.给定事物或材料的核，使用Fi，我们可以通过卷积运算生成相应的对象掩码。4.2. 剪辑级聚合为了有效地将图像级的全景分割模型应用到视频级，我们提出了一种非迭代的裁剪级如图在为每个帧生成内核之后，我们可以在c的剪辑大小内聚合这些帧级内核。然后，我们使用卷积操作来生成具有特征映射和裁剪融合内核的实例掩码。最后，我们将片段中的身份轨迹关联起来，为整个视频做出独特而一致的预测。剪辑融合内核。核融合的目的是删除重复的预测和合并核权重具有相同的身份。我们使用平均聚类操作来聚合具有相同预测恒等式的核权重。直觉是，属于相同事物/东西的像素在短剪辑内不会有戏剧性的外观变化。对于事物，我们计算剪辑内每个类别的所有生成的内核的余弦相似性，然后如果它们的相似性高于预定义的阈值，则合并它们。对于素材，我们简单地计算剪辑中所有帧的平均内核池。以这种方式，融合的内核可以被视为事物类的单个对象的嵌入，或者片段中的那些东西类的语义类别。假设-当剪辑中的事物和填充物的总数为N时，我们得到剪辑融合核K∈RN×C。全景掩模预测。在剪辑中生成的事物和填充核K被应用于高分辨率特征Fi，Fi+1，.，Fi+c通过卷积操作生成每个帧中的对象掩码由于一个实例有一个单独的内核来生成片段中的实例掩码，保证了片段内的关联。剪辑间跟踪。基于片段级结果，我们然后关联和合并片段之间的事物的跟踪ID。由于长视频中的内容可能会发生很大变化，因此我们以后处理的方式融合和合并剪辑级预测，而不是内核融合。为此，我们计算每两个相邻的裁剪融合内核之间的相似性。如果预测的裁剪融合内核相似（相似性高于阈值），则合并预测。否则，我们将为这些不同的轨道分配新的标识。该关联是逐片段执行的，以生成视频级全景预测。通过这种方式，我们能够并行推断每个剪辑，然后在主节点上以非常轻量级的成本对剪辑预测进行后处理5. 实验5.1. 数据集拆分VIPSeg的训练集、验证集和测试集分别包含2，806/343/387个视频，66，767/8，255/9，728帧考虑到计算源的限制，我们将VIPSeg中的所有帧调整为720 P（短边的大小调整为720）用于训练和测试。5.2. 评估指标视频全景分割有两种常用的评估指标，VPQ [26]和STQ [60]。用于视频全景分割的视频全景质量（VPQ）[26]基于PQ（全景质量）[27]，并通过在小跨度的帧上使用管IoU匹配来计算平均质量。形式上，VPQ评分210391×−p，g∈TPc，（1）|K + 1 |FP |K + 1 |FN |K |k(a)（b）第（1）款图7.剪辑长度对VPQ和STQ的影响。跨k帧的是成形夹长度的影响。基于剪辑的视频全景分割方法可以并行推理以提高分割效率，剪辑长度是一个重要的超参数。图7（a）示出了剪辑长度C如何影响VPQ和STQ。我们将C从1设置为8。C=1意味着我们通过单帧来预测对于VPQ1评分，即只考虑单帧分割质量，随着剪辑长度C的增长，由于剪辑长度越长的剪辑核融合模块引入的噪声越多，从而影响单帧分割质量，因此性能也相应下降当k >1时，VPQk分数指示全景分割质量和实例关联质量。随着C从1增加到3，VPQ相应地增加，而VPQ1ΣΣN个种类IoU（p，g）当C变得更大时，稍微减小，证明在分割质量之间存在权衡，cc2c2c其中，真阳性（TP）匹配被定义为TP =（p，g）：IoU（p，g）>0。而假阳性（FP）和假阴性（FN）被相应地定义当k=1时，VPQ度量等于图像PQ度量。由于VPQ用于评估稀疏注释的Cityscapes-VPS数据集，每个视频六个帧，因此VPQ的跨度主要设置为k=4。当使用多于四个帧时，3D IoU匹配的难度显著增加然而，我们的VIPSeg的视频长度要长得多。因此，在本文中，我们使用跨度为k=1，2，4，6的VPQ。更长的跨度将花费更多的时间（当k=8时，将花费大约一个小时）。分割和跟踪质量（STQ）[60]被提出来同时测量分割质量和长跟踪质量。STQ由关联质量（AQ）和分割质量（SQ）两个因素组成.AQ旨在测量整个视频中的像素级SQ通过类级别的IoU来衡量语义STQ是AQ和SQ的平衡，STQ=（ AQ SQ）2。 STQ可以衡量整个视频中预测的关联性和语义分割质量。然而，STQ评估了SEG-在使用基于剪辑的模型时，较长的剪辑带来更稳定的关联结果，但引入更多的噪声，损害分割质量。STQ分数表示整个视频的语义分割和像素级关联质量。图7（b）示出了剪辑长度如何影响STQ。一个自然的结论是，对于较长的剪辑，STQ评分较高。这是因为STQ专注于整个视频的质量，当视频长度较大时，较长的剪辑会带来更好的关联结果。追踪策略的影响。表2显示了跟踪策略如何影响细分性能。PanopticFCN [34]是我们基于图像的基线。“+Track”表示使用内核跟踪策略关联实例。“+Clip”表示使用基于剪辑的模型进行对象关联。“+Clip andTrack”表示我们使用基于剪辑的模型进行剪辑内实例关联，使用内核跟踪进行剪辑间实例关联。结果表明，基于裁剪的模型和核跟踪都提高了VPQ2 VPQ6。VPQ1不被改进，因为该度量等于对视频级实例关联不敏感的图像PQ度量。表2.消融跟踪策略。使用语义分割和忽略的每个实例的IoU。5.3. 细分结果和分析我们在VIPSeg数据集上评估了现有的VPS方法，包括VPSNet-FuseTrack [26]，VPSNet-[61]和VIP-DeepLab。此外，我们使用Clip-PanoFCN评估和分析VIPSeg。5.3.1消融研究和分析我们根据Clip-PanoFCN基线进行消融研究和结果分析。VIPSeg的结果分析图8（a）呈现了每个视频的实例的数量如何影响分段和关联性能。每个视频的实例数量与视频的STQ分数负相关，表明具有更多实例的视频执行较低的STQ分数。这是合理的，因为更多的实例意味着更复杂的场景，并引入更多的occlu。VPQk=方法VPQ1VPQ2VPQ4VPQ6VPQPanopticFCN [34]25.721.219.618.521.2+轨道25.622.620.419.722.0+夹子25.723.821.620.022.7+剪辑和跟踪25.724.222.521.223.421040表3.验证集和测试集的比较。(a) 验证集上的结果。方法骨干VPQ1VPQ2VPQ4VPQ6VPQSTQ[48]第四十八话[26]第二十六话[61]第六十一话ResNet-50ResNet-50ResNet-5018.4 |15.6 |20.919.9 |20.9 |19.220.0 |20.9 |19.316.9 |13.9 |19.918.1 |18.5 |17.818.3 |18.8 |17.914.8 |10.8 |18.915.8 |15.2 |16.416.0 |15.5 |16.513.7 |9.2 |18.214.5 |13.6 |15.514.7 |14.0 |15.516.0 |12.3 |18.217.0 |17.0 |17.217.2 |17.3 |17.322.020.821.1Clip-PanoFCNResNet-5024.3 |27.1|21.523.5 |25.8|21.222.4 |24.2|20.621.6 |23.2|20.022.9 |25.0|20.831.5(b) 测试集的结果。方法骨干VPQ1VPQ2VPQ4VPQ6VPQSTQ[48]第四十八话[26]第二十六话[61]第六十一话ResNet-50ResNet-50ResNet-5016.9 |15.3 |18.418.2 |18.4 |18.018.5 |18.6 |18.415.0 |11.8 |18.117.0 |16.5 |17.517.2 |16.7 |17.713.6 |9.7 |17.514.8 |13.2 |16.215.1 |13.2 |17.012.5 |8.2 |16.913.6 |11.7 |15.514.0 |12.0 |16.014.5 |11.3 |17.715.9 |15.0 |16.816.2 |15.1 |17.220.219.019.1Clip-PanoFCNResNet-5023.8 |25.9|21.922.8 |24.3|21.521.5 |22.1|21.020.3 |20.1|20.522.0 |23.1|21.228.7(a)（b）第（1）款图8. （a）每个视频的实例数量对STQ的影响。(b) 平均实例面积对STQ的影响。这使得分割和跟踪物体变得更加困难。图8（b）示出了每个视频的实例的平均面积如何影响STQ分数。虽然实例数越小的视频序列的STQ值越低，但实例数的大小并不是影响分割和跟踪质量的关键因素。图9示出了针对不同剪辑长度的事物类和填充类的对于物类，VPQk（k>1）受到剪辑长度的严重影响。与此相反，对于填充类，VPQk与片段长度的增长相似，表明片段核融合只对实例关联有影响，而不能提高填充类的分割质量。5.3.2结果比较我们报告了基线的定量结果，包括VPSNet-FuseTrack[26]，VPSNet-SiamTrack [61]，VIP- DeepLab [48]和我们的Clip-PanoFCN。我们在这里使用的剪辑长度为8。表3显示了VPQ和STQ基线的结果。Clip-PanoFCN在VPQ 和 STQ 上的表现优于 VP-SNet [26 ， 61] 和 VIP-DeepLab [48]。但由于基础模型的不同，计算结果不能体现Clip-PanoFCN的优越性。Clip-PanoFCN的主要优点是并行处理。(a)（b）第（1）款图9.（a）片段长度对物类分割质量的影响（b）剪辑长度对填充类的分割质量6. 限制建议的数据集包含现实世界中的各种类别。尽管我们的VIPSeg比前VPS数据集大得多，但训练视频的数量仍然不足以支持对各种类别和场景进行精确的全景分割此外，VIPSeg中类别实例的分布是长尾的。建议的Clip-PanoFCN是不强大的少数拍摄类别，而存在大量的尾部类在建议的数据集和现实世界的应用。7. 结论在本文中，我们介绍了一个大规模的视频全景分割数据集，VIPSeg。与现有的小规模或场景数量有限的数据集不同此外，我们评估了现有的视频全景分割方法，并进一步提出了一种有效的基于剪辑的基线方法。详细的分析和实验证明了所提出的视频全景分割基准的意义。线性拟合21041引用[1] Gedas Bertasius和Lorenzo Torresani分类，分割，并跟踪对象实例在视频中与掩模传播。在IEEE/CVF计算机视觉和模式识别会议论文集，第9739- 9748页，2020年。2[2] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. Yolact：实时实例分割。在IEEE ICCV，第9157-9166页，2019年。2[3] Gabriel J. Brostow， Jamie Shotton ， Julien Fauqueur，and Roberto Cipolla.利用运动点云的结构进行分割和识别见ECCV，第442[4] 塞尔吉·凯利斯、凯维斯·科基齐·马尼尼斯、乔迪·庞特·图塞特、劳拉·里尔·塔伊·克雷默斯和吕克·V·安·古尔。单镜头视频对象分割。在IEEE CVPR，第221- 230页，2017年。2[5] JialeCao、Rao Muhammad Anwer、HishamCholakkal、Fa-hadShahbazKhan 、 YanweiPang 和 LingShao 。Sipmask：用于快速图像和视频实例分割的空间信息保存在ECCV中，第1-18页。Springer，2020年。2[6] Joao Carreira 、 Viorica Patraucean 、 Laurent Mazare 、Andrew Zisserman和Simon Osindero。大规模并行视频网络。在ECCV中，第649-666页，2018年。2[7] 陈浩，孙昆阳，田智，沈春华，黄永明，严友良.Blendmask：自上而下与自下而上相结合，用于实例分割。在IEEE ICCV，2020。2[8] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割在IEEE CVPR，第4013-4022页，2018年。2[9] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE TPAMI，40（4）：8342[10] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 2[11] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。参见ECCV，第801-818页，2018年。2[12] Xinle e iChen，RossGirshick，KaimingHe，andPiotrDolla'r. Tensormask：密集对象分割的基础在IEEE ICCV，第2061-2069页，2019年。2[13] Yuhua Chen ， Jordi Pont-Tuset ， Alberto Montes ， andLuc Van Gool.快速视频对象分割与像素级度量学习。在IEEE CVPR，第1189- 1198页，2018年。2[14] Bowen Cheng，Liang-Jieh Chen，Yunchao Wei，YukunZhu，Zilong Huang，Jinjun Xiong，Thomas S Huang，Wen- Mei Hwu，and Honghui Shi. Spgnet：语义预测场景解析的指导。在IEEE ICCV，第5218- 5228页，2019年。2[15] Bowen Cheng，Maxwell D Collins，Yukun Zhu，TingLiu，Thomas S Huang，Hartwig Adam，and Liang-ChiehChen. Panoptic-deeplab：用于自下而上全景分割的简单、强大且快速的基线。IEEECVPR，2020。一、二、三[16] 作者：Alexander G. Schwing，and Alexander Kir- illov.每像素分类并不是语义分割所需的全部在NeurIPS，2021年。一、二[17] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE CVPR，第3213-3223页，2016年。2[18] Raghudeep Gadde，Varun Jampani，and Peter V Gehler.通过表示变形的语义视频cnn在ICCV，第4453-4462页2[19] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE ICCV，第2980-2988页，2017年。2[20] Ping Hu，Fabian Caba，Oliver Wang，Zhe Lin，StanSclaroff，and Federico Perazzi.用于快速视频语义分割的时间分布式网络。在CVPR中，第8818- 8827页，2020年。2[21] 黄子龙，王兴刚，魏云超，黄立超，石汉飞，刘文宇，和托马斯·S.煌Ccnet：Criss-cross attention for semanticsegmentation.IEEE TPAMI，2020。2[22] Sukjun Hwang，Miran Heo，Seeking Wug Oh，and SeonJoo Kim.使用帧间通信变换器的视频实例分割。arXiv预印本arXiv：2106.03299，2021。2[23] Samvit Jain，Xin Wang，and Joseph E Gonzalez. Accel：一个用于视频高效语义分割的校正融合网络。在CVPR中，第8866-8875页，2019年。2[24] Xiaojie Jin，Xin Li，Huaxin Xiao，Xiaohui Shen，ZheLin，Jimei Yang，Yunpeng Chen，Jian Dong，LuoqiLiu，Zequn Jie，et al.具有预测特征学习的视频场景解析。在ICCV，第5580-5588页，2017年。2[25] Tsung-Wei Ke，Jyh-Jing Hwang，Ziwei Liu，and StellaX Yu.用于语义分割的自适应亲和场。ECCV，2018年。2[26] Dahun Kim，Sanghyun Woo，Joon-Young Lee，and InSo Kweon.视频全景分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第9859-9868页，2020年。一二三五六七八[27] Alexander Kirillov ， Ross Girshick ， Kaiming He ， andPiotr Doll a'r. 光学特性金字塔网络工作。在IEEECVPR中，第6399-6408页一、二、六[28] 哈罗德·库恩。指派问题的匈牙利方法。海军研究后勤季刊，2（1-2）：83-97，1955年。4[29] Jie Li ， Allan Raventos ， Arjun Bhargava ， TakaakiTagawa，and Adrien Gaidon.学会融合各种东西。arXiv21042预印本arXiv：1812.01192，2018。一、二21043[30] Xia

下载后可阅读完整内容，剩余1页未读，立即下载