使用时间聚合网络和动态模板匹配的快速视频对象分割

158 浏览量更新于2023-10-24 收藏 12.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

188790使用时间聚合网络和动态模板匹配的快速视频对象分割0Xuhua Huang 1 � Jiarui Xu 1 � Yu-Wing Tai 2 Chi-Keung Tang 101香港科技大学2腾讯0xhuangat@ust.hk jxuat@ust.hk yuwingtai@tencent.com cktang@cs.ust.hk0摘要在视频对象分割（VOS）中取得了显著进展，这是最细粒度的视频对象跟踪任务。虽然VOS任务可以自然地分解为图像语义分割和视频对象跟踪，但在分割方面的研究工作要比跟踪多得多。在本文中，我们将“通过检测进行跟踪”引入VOS中，它可以将分割与跟踪相结合，通过提出一种新的时间聚合网络和一种新颖的动态时空演化模板匹配机制来实现显著改进的性能。值得注意的是，我们的方法完全在线，因此适用于一次性学习，而我们的端到端可训练模型允许在一次前向传递中进行多个对象分割。我们在DAVIS基准测试中实现了新的最先进性能，速度和准确性都没有复杂的花哨，每帧速度为0.14秒，J＆F度量为75.9％。项目页面位于https://xuhuaking.github. io/Fast-VOS-DTTM-TAN/。01. 引言0视频对象分割（VOS）是一个细粒度的标签问题，旨在在给定视频的帧之间找到像素级的对应关系，其具有广泛的应用，包括监视，视频编辑，机器人和自动驾驶。在这项工作中，我们专注于半监督VOS设置，在这种设置中，给定了第一帧中目标对象的真实分割掩码。然后，任务是自动预测其余视频中目标对象的分割掩码。随着深度学习的最新进展和DAVIS数据集的引入[44，45]，在解决这个半监督VOS任务方面取得了巨大进展。尽管如此，现有的最先进方法在设计上严重偏向语义分割，因此它们无法利用优势0�相等的贡献。本研究部分得到了腾讯和香港特别行政区研究资助局的支持，资助号为1620818。0图1. DAVIS验证集上的定性比较。骆驼示例显示了FEELVOS[48]错误地判断了另一个对象的像素。赛车示例显示了PReMVOS[38]在两个连续帧之间切换到另一个对象。FEELVOS和PReMVOS分别是DAVIS基准测试中的前两名。0出色的跟踪解决方案。我们相信VOS任务可以自然地分解为图像语义分割和视频对象跟踪：在语义分割中，大多数工作[8，9，10，11]主要基于全卷积网络[37]。许多VOS流程[29，4，49，1，48，52，41]利用这些架构生成分割图。然而，语义分割不具有实例敏感性。在复杂的场景中，许多不同的实例共享相同的语义（例如，行人，车辆和图1中的案例），这些基于语义分割的方法可能无法一致地跟踪单个对象。这促使我们88800从多目标跟踪（MOT）的角度重新审视整个流程。在MOT中，最近的方法[54，30，47，14，47，14，03，62，56，2]采用了流行的“通过检测进行跟踪”模型，其中对象首先在每个帧中定位，然后在帧之间进行关联。该模型受益于目标检测领域的快速进展[19，46，24，33，35，16，6]，并导致了过去几年中的几个流行基准，即MOT15�17[31，39]。这种分解的流程还使得使用最新的检测技术扩展或升级跟踪系统变得容易。我们的工作受到最近提出的跟踪器[2]的启发，该跟踪器进一步扩展了“通过检测进行跟踪”的模型，而不利用跟踪注释。在半监督设置下，即使给定了第一帧的真实分割掩码，跟踪注释仍然不可用。我们使用第一帧的真实分割掩码对检测器进行微调以进行域适应，其迭代次数与序列的长度成比例，然后通过其余视频进行跟踪。我们进一步通过我们的新颖的时间聚合网络和动态时空演化模板匹配机制扩展了跟踪器，这两种机制使跟踪流程对遮挡和外观变化更加稳健。许多领先的方法依赖于各种过度设计的设计和/或重型模块来改进系统性能，同时牺牲运行时间。例如，PReMVOS[38]，2018年DAVIS挑战赛的获胜者和DAVIS基准测试的现任冠军，采用了四个神经网络，光流和合并机制，结果每段时间约需要38秒。 DyeNet[32]是VOS中的另一种领先方法，它集成了FlowNet[28]以利用光流信息和双向递归神经网络（RNN）以进行掩码传播，导致每帧约2.4秒的速度。尽管其中一些方法可以生成出色的结果，但其长时间运行时间和/或系统的高复杂性阻止了它们在实际部署或随相关技术进步而扩展。在本文中，我们提出了一种简单，快速和高性能的VOS新基准。我们提出将视频对象分割主要作为跟踪问题来解决，以细粒度的分割为基础。所提出的新颖的时间聚合网络和动态时空演化模板匹配可以轻松集成到这个简单的流程中以提高性能。我们的贡献可以总结如下：0•我们通过将“跟踪-检测”模型引入VOS，提出了一种简单易扩展且端到端可训练的VOS任务流程，支持一次前向传递中的多目标分割。据我们所知，我们是第一个将“跟踪-检测”模型引入视频目标分割的研究者；0作为一种具有强大结果和高速度的在线方法，我们在目前的视频目标分割中取得了最新的成果；0•我们提出了一种新颖的时间聚合网络和动态时变模板匹配机制，完全在线并自然地适应一次性学习以提高性能；0•我们在DAVIS基准测试中实现了新的速度和准确性的最新成果，没有复杂的花哨设计，每帧处理速度为0.14秒，J&F平均得分为75.9%。02. 相关工作0语义分割最近，基于全卷积网络（FCN）[37]的最先进的语义分割框架取得了显著进展。Deeplab [8, 9, 10,11]和基于上下文的方法[59, 50, 20, 60,27]在多年来进一步提高了性能。然而，语义分割的基准测试[15,61]用于评估全图像语义标记任务，而VOS属于一个或多个特定目标对象的实例分割。对于语义分割，相同语义的像素被标记为相同的类别，没有实例信息。对于实例分割，需要同时进行实例检测和像素级分割。这两个任务的不对齐表明，语义分割中的设计和方法可能不直接适用于视频目标分割。尽管如此，许多DAVIS基准测试中的领先方法[29, 4, 49,1, 48, 52,41]仍然使用这种流程，并采用语义分割的架构，这导致不同实例容易发生切换和/或漂移，如图1所示。跟踪-检测模型最近的多目标跟踪（MOT）方法大多基于跟踪-检测模型。由于目标检测本身已经得到了很好的研究，MOT的主要重点是数据关联问题。在MOT基准测试[31,39]中，公共检测器在所有领先方法[47,56]之间共享。这使得所有流程设计都可以轻松扩展到最新的检测方法[19, 46, 24, 33, 35, 16,6]。尽管MOT和VOS基准测试在许多方面存在差异，但同样的关键是强大的跟踪能力。然而，令人惊讶的是，只有少数方法使用这种模型来解决VOS问题，并且它们不具备在线设置。虽然PReMVOS[38]可以被认为是一种接近跟踪-检测模型的方法，但其设计非常复杂且繁重，涉及光流、多个网络，且无法端到端训练。我们的方法采用了跟踪-检测模型，明确地将检测和关联引入视频目标分割中。88810图2. 我们的流程概述。0与PReMVOS相比，我们的方法适用于在线设置，易于扩展和端到端训练。视频目标分割视频目标分割（VOS）旨在进行联合分割和跟踪。最近发布的DAVIS基准测试[44, 45,5]在推动相关最新技术的前沿方面做出了重要贡献。然而，正如[48]所指出的，许多方法并未实现设计目标，即具有鲁棒性、简单性、快速性和端到端可训练性。例如，作为DAVIS 2018挑战赛的获胜者[5]，PReMVOS[38]利用4个不同的神经网络并行工作，对图像空间进行光流包装和复杂的合并算法，处理一个给定帧需要超过38秒。第二名的CINM[1]使用马尔可夫随机场（MRF）和迭代推理算法。DyeNet[32]将模板匹配纳入重新识别网络；然而，遮罩网络中使用了光流包装和RNN，使得训练复杂且计算要求高。最近提出的FEELVOS [48]是Mask-Track[43]的扩展，它使用前一帧的预测作为当前帧的输入，这容易在跟踪过程中积累误差。此外，由于缺乏共享设计模型，许多方法的实际应用受到限制，且不易扩展。我们引入和扩展了“跟踪-检测”模型，旨在为视频目标分割建立一个新的、简单而强大的基准。03. 方法0参考图2。通过我们的时间聚合网络（TAN）提取当前帧的特征图，TAN将邻近帧的空间特征在时间上进行聚合，以丰富当前帧的特征。在从TAN聚合的特征图之上，应用区域提议网络（RPN）提取可能包含目标对象的区域提议。在当前帧的区域提议中，使用匈牙利匹配[40]在模板特征库和当前检测到的对象特征之间进行匹配。最初，模板特征只是第一帧的真实对象的特征。匹配后，为每个对象选择最可信的区域提议，并传递给掩码头部进行最终的分割生成。同时，如果出现较大的外观变化，则新的提议将作为未来帧的新模板。0当所选择的提议发生外观变化时，新的提议将作为未来帧的新模板。我们首先介绍如何将跟踪-检测模型纳入视频对象分割任务中。然后我们将介绍我们提出的时间聚合网络和动态时序模板匹配。03.1. 跟踪-检测0视频对象分割（VOS）的目标与多目标跟踪（MOT）类似，即在时间上以细粒度的方式预测多个对象的轨迹。我们用轨迹集合T ={Ti}Ni=1表示，其中第i个对象的轨迹可以由一系列边界框和其中的掩码表示，表示为Ti = {bti, mti}Tt=1，bti = [xti,yti, wti,hti]；xti和yti表示第i个目标在第t帧的中心位置；wti和hti分别表示目标对象i的宽度和高度；mti表示相应边界框内的前景分割掩码。在MOT中通常只需要{bti}Tt=1，而VOS更加细粒度，应该生成{mti}Tt=1。边界框表示在最近的检测流水线中很受欢迎[46,24]，而一些非基于边界框的方法[12]也被提出。我们在本文中主要采用基于边界框的检测流水线，但请注意我们的方法也与非基于边界框的流水线兼容。为了输出分割掩码，我们将一个轻量级的全卷积网络连接到检测器上；在每个检测到的边界框上执行前景/背景分割。为了简化起见，我们忽略了可以从{bti}Tt=1轻松生成的{mti}Tt=1。在DAVIS基准的半监督设置下[44, 45,5]，跟踪目标在第一帧中给出。我们将跟踪目标表示为{ti}Ni=1。我们的方法遵循在线跟踪-检测模型[54]，首先在每一帧中检测多个对象，然后在帧之间关联它们的身份。根据[4,29]，我们首先使用训练集离线训练整个检测器，以使检测器适应DAVIS数据集的领域。在推理之前，使用给定的真实分割进行一次性学习，以减少误报。请注意，我们训练策略的一个优点是不需要特定于跟踪的训练，这意味着我们的方法可以很容易地扩展到各种应用。88820与[2]不同，为了简单起见，我们在推理过程中不使用边界框回归器进行跟踪。相反，采用简单的交并比（IoU）度量。对于基于分割的方法，由于没有明确的边界框或实例，很难将IoU纳入到流水线中。我们的方法首先在每一帧中检测多个对象，然后在帧之间关联它们的身份。在t帧上，置信度得分大于σdet的检测到的边界框表示为{btj}Ntj=1 =Dt。请注意，由于检测器的误报和漏报，Nt不一定等于N。在t=0时，我们的跟踪器从第一帧的边界框{t i}Ni=1 ={b0j}N0j=1 =D0初始化轨迹。在t帧上，基于位置相似度IoU构建二分图，第i个目标和第j个当前检测到的对象之间的权重ωlocij定义为t i和b tj的IoU。执行匈牙利匹配[40]后，如果匹配成功，目标ti将使用b t k进行更新，并添加到Ti中。通过逐帧运行分配过程，可以生成对象轨迹。在半监督视频对象分割设置下，这种简单的跟踪-检测流水线将在以下部分进行扩展。03.2. 时间聚合网络0图3详细说明了时间聚合网络（TAN），下文将对其进行描述。目标跟踪中的许多方法利用时间信息来促进跟踪。然而，大多数方法需要使用光流来获取像素级对齐[64,63]，这可能非常耗费计算资源。受到大规模动作识别基准[7,22]的最新进展的启发，我们提出了一种新颖的时间聚合网络，将图像分类和视频识别中的骨干网络与跟踪检测模型以及图像检测和视频跟踪相结合。图像骨干大多数目标检测方法都利用了ImageNet[17]预训练的骨干网络以加快收敛速度，这在[23]中进行了研究。我们使用ResNet[25]作为标准设置，与其他检测方法类似。我们将第3、4、5阶段的输出分别表示为c3、c4、c5。图像骨干的输入是要检测的关键帧。视频骨干受到人体动作识别[7, 51,18]的最新进展的启发，我们认为3D卷积在利用连续帧之间的时间信息方面是有效的，尽管以前的工作没有尝试利用这种技术来解决VOS任务。需要注意的是，虽然[38,32]中的光流方法利用了显式对应关系，但3D卷积网络可以直接从RGB流中学习时间模式。根据[7]的研究，I3D在其他方法（如CNN+LSTM对应方法）中表现最好。因此，我们在视频骨干中采用了I3D。0图3.时间聚合网络的示意图。尽管在图像骨干的c3、c4、c5中，目标周围的激活较弱，但经过视频骨干的聚合后，最终输出的f3、f4、f5可以在目标周围获得适当的激活。0同时，与[51]类似，为了降低3D卷积的计算成本，我们使用了I3D 3×1×1和I3D1×3×3。我们将第3、4、5阶段的输出分别表示为i3、i4、i5。将前α帧和当前关键帧沿时间轴连接起来，得到一个大小为(α+1)×H×W的3D张量，然后将其输入到视频骨干中。受到Slow-Fast[18]的启发，快/慢视频流的分离和融合是一种利用时间信息并保留关键帧特征的良好实践。与[18]中的conv-add风格一样，新的特征图fi由ci +N(ii)计算得到，其中N表示一个小型CNN，用最大池化来压缩沿时间维度的信息，以使两个分支在每个阶段具有相同的大小。fi将用于后续的检测网络。与基于RNN的方法[32,47]不同，我们的网络是前向传播的，可以联合训练。如实验部分的图5所示，通过结合时间信息，我们的系统可以更好地处理遮挡。03.3. 动态时变模板匹配0显然，基于IoU的简单跟踪算法对大幅度的摄像机移动或物体变形不具有鲁棒性。正如[2,38]所指出的，重新识别对于目标跟踪也是至关重要的。因此，我们提出了一种新颖的动态时变模板匹配（DTTM）来解决重新识别问题。图4总结了该方法。我们不是从RGB图像空间中裁剪边界框区域，而是更喜欢骨干网络产生的特征，因为它具有高级语义含义。设A(bt)表示从帧t的骨干特征图中提取的边界框b的外观特征，它是一个ωappij =A(ti) · A(btj)∥A(ti)∥ ·��A(btj)��(1)88830高维向量。外观相似性权重项定义为0正如[47,56]所指出的，位置线索和外观线索是多目标跟踪中的重要特征。因此，为了考虑到这两个线索，我们构建了二分图，其中 ω ij = ω loc ij + ω app ij，其中 ω loc ij在第3.1节中已经定义。在理想情况下，从第一帧学习到的外观特征足以跟踪后续帧。然而，在实践中，恒定的模板显然不适用，特别是在长期跟踪中，因为目标物体可能由于变形、遮挡等而发生许多外观变化。因此，对于时间演化的模板的合理设计是必不可少的，这导致了我们在线更新模板外观特征的进展。移动平均是跨时间轴更新模板的广泛采用的方法之一。单一的超参数动量控制要更新或保留的特征的比例，这对于不同视频的帧率非常敏感。静态平均过程显然也是次优的，因为会累积误差和特征模糊。我们提出以离散方式更动态地更新模板特征。DTTM完整的算法详细说明了我们的匹配策略，可以在补充材料中找到。最初，每个目标i的模板库被构建为bank i = { t i }。通过计算 ω loc ij + ωappij，在每一帧t上，通过执行线性分配，得到匹配结果，其中t i ∈ ∪ N i =1 bank i 和 b t j ∈ { b t j } N t j=1。给定大于阈值σ conf 的前景置信度分数conf ( b t j)，当 t i 和 b t j 是匹配的，但它们的外观不相似 ω app ij< σapp，这表明出现了剧烈的外观变化，因此在即将到来的帧中很可能丢失跟踪，我们的DTTM将从最新匹配的检测b tj中为目标对象t k初始化一个新的模板，并将其添加到相应的特征库中，从而为未来的分配得到一个扩展的模板库。当模板数量大于某个阈值时，为了避免溢出，最不常使用的模板将从banki中删除。在后续的匹配过程中，初始目标特征和更新的特征都可以被视为模板。因此，我们的系统可以及早检测到潜在的累积误差，并通过使用高置信度的新模板特征进行更新来防止其不良影响。图4展示了DTTM如何有效地解决VOS中的变形问题，其中不仅考虑了最新的模板，还考虑了之前的模板，以便能够很好地处理突然的变形。请注意，这种匹配机制完全是在线和时间演化的，不像[38]，即在我们的DTTM中不需要未来信息，模板库随时间不断演化。0图4.这个图展示了我们的DTTM在处理变形问题上的有效案例。为了可视化，我们在TAN阶段之后使用图像替代特征向量。04. 实验04.1. 数据集和评估指标0我们使用DAVIS基准[44, 45,5]来评估我们的方法。这些基准具有挑战性，场景多样，包含多个异构对象和遮挡，并且被广泛用于评估视频目标分割方法。DAVIS 2016 DAVIS2016总共包含50个序列，3455个标注帧，所有帧都以24fps和Full HD1080p空间分辨率进行捕捉。由于计算复杂性是视频处理的一个主要瓶颈，每个序列的时间范围较短（约2-4秒），同时包含了通常在较长视频序列中找到的所有主要挑战。DAVIS 2017 在发布DAVIS 2016[44]之后，提出了几种强大的方法，在DAVIS2016上取得了最佳性能。DAVIS 2017是DAVIS2016的扩展，是一个更具挑战性的基准。总体而言，新数据集包含150个序列，共计10459个标注帧和376个对象。DAVIS 2017与DAVIS2016的一个主要区别是，在视频目标分割中引入了多目标跟踪。在DAVIS2016中，每帧只有单个对象被标注，而在DAVIS2017中，同一帧中多个目标的掩码被标注，这使得任务更具挑战性，因为多个目标对象之间的复杂交互可能导致遮挡，从而改变拓扑和外观。此外，正如图1所示，许多目标对象属于同一类别，外观非常相似。DAVIS2017的另一个重要挑战是，一个视频中的目标对象类别可能在另一个视频中成为背景，因此跟踪器必须具有高区分能力，以适应不同的目标对象，仅依靠第一帧的注释。请注意，DAVIS 2017也是DAVIS2019挑战赛的数据集，除非另有说明，否则我们将在接下来使用该数据集。res TAN APbboxAPbbox50APbbox75APmaskAPmask50APmask7580045.366.551.135.459.436.9800✓46.3↑1.0 70.9↑4.4 52.3↑1.2 36.7↑1.3 60.9↑1.5 38.1↑1.260045.066.551.035.359.037.2600✓46.3↑1.3 71.0↑4.5 52.5↑1.5 36.2↑0.9 61.0↑2.0 38.0↑0.840044.566.650.935.258.937.5400✓46.6↑2.1 71.2↑4.6 52.9↑2.0 35.8↑0.6 62.9↑4.0 36.9↓0.6888404.2. 实现细节0我们使用Faster R-CNN [ 46 ]作为检测器，ResNet-50 [25]作为我们的默认骨干网络，除非另有规定。空间分支骨干网络使用ImageNet [ 17]分类给出的权重进行初始化，检测器在COCO [ 36]上进行了预训练，与[ 38]中相同。至于时间聚合分支，我们使用Nonlocal Network[ 51]提供的8帧输入I3D基线。为了在跟踪过程中融合多个尺度，我们在骨干网络中采用了特征金字塔网络（FPN）[ 34]，将深层粗特征图中的高级语义信息与浅层细粒度特征图进行融合。按照[ 34]，RPN锚点跨越5个尺度（从FPN输出的不同级别提取特征）和3个宽高比[0.5，1.0，2.0]。由于DAVIS数据集中没有类别分类，R-CNN的最后一个线性分类层被一个简单的全连接层替换，用于前景/背景分类。这种类别不可知的R-CNN更适用于半监督设置，并且对于实际应用更通用。默认情况下，采用Vanilla Fully Convolution Network [ 37]作为分割头。与Fast R-CNN [ 21]一样，如果RoI与真实边界框的IoU至少为0.5，则RoI被认为是正样本，否则为负样本。在训练和测试过程中，只对正样本的RoI进行分割。训练为了克服预训练数据集与DAVIS之间的领域差异，我们首先在DAVIS训练集上训练整个检测网络。输入图像的较短边被调整为800p，与[ 46]中的设置类似，除非另有规定。我们使用8个GPU进行训练，每个GPU上有2个图像（有效的小批量大小为16）。除了骨干网络的c1和c2之外，所有骨干网络的层都与检测注释一起进行联合微调。由于批量大小有限，所有批量归一化层在训练过程中都被冻结，因此均值和方差的统计数据在训练过程中保持不变。我们的实现采用了[ 34]中的端到端训练，这比[ 24]中的RPN的分阶段训练效果更好。所有模型都经过100k次迭代的训练，使用同步SGD进行训练，权重衰减为0.0001，动量为0.9。学习率初始化为0.002，在70k次迭代和90k次迭代后以10的倍数衰减。其他超参数的选择也遵循[ 46]中的设置。推理在测试时，我们大部分遵循[ 34]中Faster-RCNN的设置。首先，在RPN提议上进行边界框预测，然后进行非极大值抑制[ 19]。然后，将分割头应用于仅具有大于阈值σconf的检测边界框。通过对应的边界框置信度分数进行排序，将实例分割结果合并为单个分割图。04.3. 消融研究0消融研究在DAVIS2017数据集上进行。输出被调整为480p进行评估。0图5. 骑自行车的人的消除遮挡。与Ground Truth，PReMVOS [ 38]，FEELVOS [ 48 ]，OSVOS-S [ 4 ]和RANet [ 52]相比，Temporal Aggregation Network的结果。0Table 1. Temporal Aggregation Network(TAN)在DAVIS验证集上的结果。该表格呈现了与基线（即无TAN）相比在不同输入分辨率下的结果。04.3.1时序聚合网络我们报告了标准的目标检测和实例分割COCO指标，包括边界框和分割掩码的AP、AP50、AP75。图5显示，与其他方法相比，我们的时序聚合网络对遮挡更加鲁棒。不同的输入分辨率虽然高分辨率输入明显有利于网络的定位能力，但由于硬件限制，它并不总是适用。表1显示，即使输入分辨率增加时计算成本呈二次增长，性能提升也仅仅是微小的，并且很快饱和（例如，第一列，APbbox/mask在800分辨率下为45.3/35.4，与400分辨率下的AP bbox/mask44.5/35.2相比）。通过聚合时间信息，即使低分辨率输入也可以实现更好的性能（例如，第一列，AP bbox/mask在800分辨率下为45.3/35.4，与400分辨率下的AP bbox/mask46.6/35.8相比，使用TAN）。值得注意的是，在低分辨率设置下，基准方法的性能显著下降，而TAN在不同的输入分辨率下始终实现更高的性能，这表明有效地聚合帧间的时间信息可以在一定程度上弥补由于压缩而导致的分辨率损失。更具挑战性的数据集由于DAVIS数据集中目标对象的数量非常有限（DAVIS 2016中为1个，DAVIS2017中为1到3个），我们还展示了我们的时序聚合网络在更大（3962个训练序列，555个验证序列）和更复杂（30个类别中的1到10个目标对象）的ImageNetVID数据集[17]上的有效性。表2呈现了我们的定量结果。我们的方法的性能与使用更强的主干网络的流行光流特征对齐方法相当。此外，使用连续帧作为输入可以将性能提升2个点，与重复帧相比，这再次证明了我们提出的时序聚合网络有效地利用了时间信息。88850方法光流主干输入 AP bbox 500DFF [64] � ResNet-101 Continuous 73.0 FGFA [63] �ResNet-101 Continuous 76.80我们的 ResNet-50 重复 76.0 我们的 ResNet-50 连续 78.2 ↑2.20表2. 在ImageNetVID验证集上的时序聚合网络（TAN）结果。Duplicate表示简单地将相同帧堆叠以适应网络输入尺寸，而continuous表示当前帧和相邻帧都被输入到TAN中。0APbbox/mask在400分辨率下为44.5/35.2）。通过聚合时间信息，即使低分辨率输入也可以实现更好的性能（例如，第一列，APbbox/mask在800分辨率下为45.3/35.4，与400分辨率下的AP bbox/mask46.6/35.8相比，使用TAN）。值得注意的是，在低分辨率设置下，基准方法的性能显著下降，而从不同的输入分辨率来看，TAN始终实现更高的性能，这表明有效地聚合帧间的时间信息可以在一定程度上弥补由于压缩而导致的分辨率损失。更具挑战性的数据集由于DAVIS数据集中目标对象的数量非常有限（DAVIS 2016中为1个，DAVIS2017中为1到3个），我们还展示了我们的时序聚合网络在更大（3962个训练序列，555个验证序列）和更复杂（30个类别中的1到10个目标对象）的ImageNetVID数据集[17]上的有效性。表2呈现了我们的定量结果。我们的方法的性能与使用更强的主干网络的流行光流特征对齐方法相当。此外，使用连续帧作为输入可以将性能提升2个点，与重复帧相比，这再次证明了我们提出的时序聚合网络有效地利用了时间信息。04.3.2 动态时变模板匹配0除了无匹配和IoU匹配之外，我们还将我们的动态模板匹配与简单的带有动量的移动平均法进行比较，在该方法中，匹配基于A(t_i) = (1 - mnt)A(t_i) +mntA(b_j)，其中t_i和b_j是一次匹配。如表3所示，通过设置θ_conf =0.5并滑动θ_app，我们的动态模板匹配大大优于基线。需要注意的是，对于DTTM模块，如果阈值过低（例如0.3），可能会引入误导性的模板。另一方面，如果阈值过高（例如0.7），可能会滤除有用的模板。无论哪种情况，都会导致性能下降。需要注意的是，即使移动平均法也可以提高性能，但总体上比DTTM差。我们认为，由于DAVIS数据集的高帧率，简单的移动平均法很难建模外观变化，这使得它更容易积累误差。在图6中提供了与主要方法的定性比较。这个例子中呈现了多个主要的跟踪挑战，如拓扑变化、遮挡、相似纹理模式和语义。嵌入和0图6.大变形（前景狗）与一个类似但不同的实例（背景狗）的消失。动态时变模板匹配的结果与Ground Truth、PReMVOS[38]、FEELVOS [48]、OSVOS-S [4]和RANet [52]进行比较。0方法设置J & F -Mean J -Mean F -Mean0IoU匹配 69 . 2 65 . 8 72 . 60移动平均mnt = 0 . 2 70 . 1 ↑ 0 . 9 66 . 8 ↑ 1 . 0 73 . 4 ↑ 0 . 8 移动平均mnt = 0 . 3 70 . 8 ↑ 1 . 6 67 .5 ↑ 1 . 7 74 . 1 ↑ 1 . 5 移动平均mnt = 0 . 5 69 . 4 ↑ 0 . 2 66 . 1 ↑ 0 . 3 72 . 8 ↑ 0 . 20DTTM θ app = 0 . 3 70 . 5 ↑ 1 . 3 67 . 3 ↑ 1 . 5 73 . 7 ↑ 1 . 1 DTTM θ app = 0 . 5 71 . 7 ↑ 2 . 568 . 5 ↑ 2 . 7 74 . 9 ↑ 2 . 3 DTTM θ app = 0 . 7 70 . 6 ↑ 1 . 4 67 . 4 ↑ 1 . 6 73 . 9 ↑ 1 . 30表3.移动平均和动态时态模板匹配（DTTM）在DAVIS验证集上的结果。0基于分割的方法，如[48，4，52]无法区分两只狗，甚至产生了破碎的分割。此外，[38]无法合并跳跃狗的剧烈拓扑（姿势）变化，导致错误的跟踪，而DTTM可以轻松地描绘相似外观的目标并跟踪快速变形的物体。04.3.3分割头0还研究了不同的现成设计选择的分割头。我们部署了两种类型的跳跃连接，级联和连接，其中级联将每个层的输出顺序添加到下一层的输入作为残差，而连接则简单地通过ad-聚合所有层输出288860图7. DAVIS验证集上的定性结果。展示了一些具有挑战性的情况，如遮挡，变形，缩放等，以展示我们方法的鲁棒性。0头部跳跃连接J & F -Mean J -Mean F -Mean0FCN 67 . 9 64 . 2 71 . 50FCN � 级联 68 . 8 ↑ 0 . 9 65 . 4 ↑ 1 . 2 72 . 2 ↑ 0 . 7 FCN � 连接 69 . 2 ↑ 1 . 3 65 . 8 ↑ 1 . 6 72 . 6 ↑ 1 . 10表4.DAVIS验证集上不同类型分割头的结果。这些结果是在不使用TAN和DTTM的情况下产生的。0最终输出为dition。表4显示了不同分割头的结果。请注意，简单的跳跃连接在香草FCN对应物上有显著的改进，这表明我们的方法可以进一步从先进的分割技术中受益。4.4.基准结果表5列出了与领先方法的定量结果的比较，定性结果在图7中呈现。我们在DAVIS基准测试中使用更强大的骨干ResNeXt-101[55]和可变形卷积[16]实现了速度和准确性方面的最新单模型结果，这两者都有助于进一步提高整体性能，这再次证明了我们简单且易于扩展的流水线的优势。尽管DAVIS数据集，许多领先的方法利用YouTube-VOS[57]进行预训练。在表6中，我们证明了我们的方法在没有计算要求的YouTube-VOS预训练的情况下实现了更高的性能。表6中报告的速度（t/s）考虑到DAVIS-2017数据集上平均有2个以上的对象。STM[42]需要单独处理它们，而我们可以一次性检测和跟踪所有目标。我们还在YouTube-VOS上报告了一个合理的结果，73。5％J & F -Mean，而不需要仔细选择超参数。05.结论许多领先的VOS方法过于复杂，利用计算重的模块或高度工程化的流水线，导致实际使用受限。在本文中，我们设计了一个新的强大基线，同时实现了最新的速度和准确性，通过将跟踪-检测模型集成到VOS中。0方法t/s J & F -Mean J -Mean F -Mean0PReMVOS [38] 37 . 6 77 . 8 / 71 . 6 73 . 9 / 67 . 5 81 . 7 / 75 .8 OnAVOS [49] 26 63 . 6 / 52 . 8 61 . 0 / 49 . 9 66 . 1 / 55 . 7FAVOS [13] 1 . 2 58 . 2 / 43 . 6 54 . 6 / 42 . 9 61 . 8 / 44 . 2VideoMatch [26] 0 . 35 62 . 4 / − 56 . 5 / − 68 . 2 / −FEELVOS [48] 0 . 51 71 . 5 / 57 . 8 69 . 1 / 55 . 1 74 . 0 / 60 . 4OSMN [58] 0 . 28 54 . 8 / 41 . 3 52 . 5 / 37 . 7 57 . 1 / 44 . 9RGMP [53] 0 . 28 66 . 7 / 52 . 8 64 . 8 / 51 . 3 68 . 6 / 54 . 40我们的方法 0.14 75.9/65.4 72.3/61.3 79.4/70.30表5. 在DAVIS 2019挑战赛验证/测试集上与最先进方法的比较.t/s表示每帧运行时间（秒）.该表表明我们的方法在速度和准确性方面均达到了最先进的性能.0方法 t/s YV J & F -Mean J -Mean F -Mean0FEELVOS [48] 0.51 69.1/54.4 65.9/51.2 72.3/57.50STM [42] 0.32 71.6/- 69.2/- 74.0/-0我们的方法 0.14 75.9/65.4 72.3/61.3 79.4/70.30表6. 在DAVIS-2017验证/测试集上与最先进方法的比较.YV表示是否在训练过程中使用了YouTube-VOS.0由于VOS可以自然地分解为图像语义分割和视频目标跟踪.有了这个设计, 我们的方法很容易扩展,因为目标跟踪的不断进步可以进一步改进我们的方法.在DAVIS 2017挑战赛中引入了多目标分割后,当时大多数领先的方法都需要额外的修改来支持多目标分割,而我们的方法可以在一次前向传递中处理多目标分割.在我们的设计之上,我们提出了新颖的时间聚合网络（TAN）和动态时变模板匹配（DTTM）, 并通过实验证明了它们的有效性.我们的方法在DAVIS基准测试中取得了新的最先进结果,希望我们快速、实用和易于扩展的流程能够成为未来发展的新基准, 以实现更高的效率、准确性和可扩展性.88870参考文献0[1] Linchao Bao, Baoyuan Wu,和Wei Liu. MRF中的CNN:基于CNN的高阶时空MRF中的视频目标分割.在计算机视觉和模式识别IEEE会议论文集中, 2018年. 1 , 2 , 30[2] Philipp Bergmann, Tim Meinhardt,和Laura Leal-Taixe.无需花哨的跟踪. 在计算机视觉国际会议论文集中, 2019年. 2 , 40[3] Erik Bochinski, Volker Eiselein,和Thomas Sikora.不使用图像信息的高速跟踪-通过检测进行跟踪.在2017年第14届IEEE国际高级视频和信号监控会议（AVSS）中,页1-6. IEEE, 2017年. 20[4] Sergi Caelles, Kevis-Kokitsi Maninis, Jordi Pont-Tuset,Laura Leal-Taix´e, Daniel Cremers,和Luc Van Gool.单次视频目标分割. 在计算机视觉和模式识别IEEE会议论文集中,2017年. 1 , 2 , 3 , 6 , 70[5] Sergi Caelles, Alberto Montes, Kevis-Kokitsi Maninis,Yuhua Chen, Luc Van Gool, Federico Perazzi,和JordiPont-Tuset. 2018年DAVIS视频目标分割挑战赛.arXiv预印本arXiv:1803.00557, 2018年. 3 , 50[6] Zhaowei Cai和Nuno Vasconcelos. Cascade R-CNN:深入研究高质量目标检测.在计算机视觉和模式识别IEEE会议论文集中, 2018年. 20[7] Joao Carreira和Andrew Zisserman. Quo vadis, 动作识别?一种新模型和动力学数据集.在计算机视觉和模式识别IEEE会议论文集中, 2017年. 40[8] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L Yuille.使用深度卷积网络和全连接CRF进行语义图像分割.在计算机视觉和模式识别IEEE会议论文集中, 2016年. 1 , 20[9] Liang-Chieh Chen，George Papandreou，IasonasKokkinos，Kevin Murphy和Alan LYuil

下载后可阅读完整内容，剩余1页未读，立即下载