基于动态记忆网络和自适应对象对齐的视频对象分割方法

138 浏览量更新于2023-10-13 收藏 770KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8065JF基于动态记忆网络和自适应对象对齐的梁淑贤1，2 *，沈旭2，黄建强2，华先胜2†1浙江大学CAD CG国家重点实验室2阿里巴巴集团达摩shuxian. zju.edu.cn，{shenxu.sx，jianqiang.hjq，xiansheng.hxs} @ alibaba-inc.com摘要在本文中，我们提出了一种新的解决方案，基于对象匹配的半监督视频对象分割，在第一帧中的目标对象掩模提供。现有的基于对象匹配的方法集中在当前帧和第一/先前帧的原始对象特征之间的匹配然而，这些基于对象匹配的方法仍然没有解决两个问题。由于视频对象的外观随时间急剧变化，1）当前帧中存在对象的不可见部分/细节，导致第一注释帧中的不完整注释（例如，视图/比例变化）。2）即使对于当前帧中的对象的可见部分/细节，它们的位置也相对改变（例如，姿态变化/相机运动），导致对象匹配的未对准。第一帧不完整的注释中间帧未对准ing.为了获得目标对象的完整信息，我们提出了一种新的基于对象的动态记忆网络，利用所有过去帧的视觉内容。为了解决视觉内容的位置变化所引起的错位问题，我们提出了一个自适应对象对齐模块，通过合并一个区域平移功能，在特征空间中的模板对齐对象的建议我们的方法在最新的基准数据集DAVIS 2017（验证集上的81.4%和87.5%）和YouTube-VOS（验证集上的总得分为82.7%）上实现了最先进的结果，具有非常有效的推理时间（ DAVIS 2017 验证集上的 0.16 秒 /帧）。代码可在 https://github.com/liang4sx/DMN-AOA获得。1. 介绍半监督视频对象分割（VOS）是在视频中在像素级上将目标对象与其背景区分开的任务，其中，*本文是作者在阿里巴巴实习时完成的。†通讯作者。模板对应w/alignment对应w/o alignment图1.基于对象匹配的虚拟操作系统需要解决的两个问题。在前两种情况下，由于视图/比例变化，查询对象的相应部分（红色）未出现在第一帧中。下面的两种情况显示了由姿态变化和相机运动引起的未对准问题我们的方法解决了这些问题，开发对象特定的内存和调整对象自适应。在第一帧中提供对象。然后，任务是从其余视频帧预测分割掩模。VOS的主要挑战之一是，由于对象移动、相机移动和遮挡，目标对象的外观可能在帧之间急剧变化针对半监督视频对象分割领域，本文将基于像素匹配的视频对象分割算法（PVOS）和基于对象匹配的视频对象分割算法（OVOS）作为两个研究课题并行研究。PVOS方法基于跨帧像素相关性（例如，[7、20、28、35]）。OVOS方法通过将当前帧的建议对象与历史帧的模板对象（例如，[4，11，29，36]）。现有的OVOS方法集中在当前帧中的提案的原始对象特征与第一/先前帧中的模板构成运动视图规模8066[2、4、11、26、29、36]。然而，这些方法仍然没有解决两个问题（如图1所示）。具体地，由于视频对象的外观随时间急剧变化，首先，当前帧中存在的对象的不可见部分/细节，导致第一帧中的不完整信息（例如，第二帧中的不完整信息）。视图/比例变化）。例如，在前两种情况下，在第一帧中不提供关于人的背部的信息和车辆侧面的细节（其是当前帧所需要的）。第二，对于当前帧中的对象的所见部分/细节，它们的位置相对改变（例如，姿态/相机运动），导致对象匹配的未对准例如，在底部的两种情况下，第一帧中的一些对象部分在空间上对应于背景（舞者观众的头部）或其他不同的车辆因此，现有的OVOS方法不如最先进的（SOTA）PVOS方法那么强大，特别是利用具有存储器网络的所有过去帧的PVOS方法[12，13，16，20，24]。OVOS利用所有过去的帧并超越PVOS的关键挑战在于两个方面：a）用于PVOS的存储器模块是直接的，其中直接存储原始帧的特征图就足够了。而对于OVOS，我们需要一个特殊的内存模块来存储特定的对象特征，这在OVOS中仍然没有解决（现有的OVOS方法中没有使用内存[4，11，29，36]）。b）不是像PVOS中那样直接计算帧之间的像素到像素相似性，模板和建议之间的对象特征的匹配面临由跨帧的对象变形引起的未对准问题，OVOS仍然没有解决具体来说，[4]对齐对象大小，而不是变形的对象外观。其他作品通过未对齐的像素到像素距离[29]或全局平均池化特征来计算对象相似性，而无需空间信息[4，36]。为了解决上述两个挑战，我们提出了一种新的动态内存网络和一个新的自适应对象对齐模块OVOS。通过从所有可用资源读取相关对象以这种方式，具有对象掩码的过去帧形成动态存储器，并且作为查询的当前帧用于解码表示对象的当前外观的利用动态存储器网络，对使用的帧的数量没有限制，并且可以容易地在存储器中累积给定帧的新对象信息为了解决在目标对象的视觉内容的位置变化所造成的错位问题，我们提出了一个自适应的对象对齐操作，通过将一个非局部区域的翻译功能，重组区域的对象模板的基础上的对象特征的建议。具体而言，对象模板和该方法首先将目标提案投影到一个共享的特征空间中，然后利用它们之间的密集对应关系将目标提案向特征空间中的模板进行平移。配备建议的动态内存网络和自适应对象对齐模块，我们设计了一个易于扩展的框架OVOS。首先，对于测试帧，通过预先训练的实例分割模型生成对象建议。其次，当前帧特征和来自前一帧的对象边界框被组合作为对动态存储器网络的查询输入，该动态存储器网络生成用于帧的对象模板，该对象模板包括来自存储器帧的对象信息。第三，基于自适应对象对齐模块和可区分的匹配层[36]，生成模板和建议之间的对象匹配分配最后，将目标匹配结果输入到掩模细化网络中进行输出分割。我们的贡献可归纳如下：我们提出了一种新颖的和易于扩展的对象匹配框架的VOS任务。我们提出的OVOS模型在社区中首次优于所有SOTA PVOS方法，为OVOS的发展铺平了我们是第一个将视频中的所有帧都用于OVOS的公司。具体来说，我们引入了一个动态的记忆网络，计算时空注意力的对象特征的所有过去的帧，每个查询帧，以获得当前帧表示的目标对象。我们提出了一种新的自适应对象对齐模块，以解决对象propos- als和模板之间的错位。详细地说，我们设计了一个区域翻译功能，重组模板样区域与建议对象的功能。2. 相关作品在半监督视频对象分割领域，本文将基于像素匹配的视频对象分割算法（PVOS）和基于对象匹配的视频对象分割算法（OVOS）作为两个研究课题进行了并行研究。在这一节中，将介绍这两个主题的经典方法和SOTA方法关于无匹配方法的额外讨论在我们的补充材料中。基于像素匹配的VOS（PVOS）。PVOS方法基于跨帧像素相关性提供分割线索经典的PVOS方法[3，7，25，28]将当前帧像素与来自第一/先前帧的像素进行匹配。STM [20]通过结合键值记忆网络扩展了与中间帧的像素匹配···8067一A ∈−[18 ]第10段。最近的一些工作改进了内存网络，使其具有空间位置感知[24]，用图形网络[12]开发它，保持固定大小的内存表示[12]，并为内存帧添加合并和过时方案[13]。PVOS的其他最新发展包括对比前景-背景特征[35]和开发有效的转导方法[39]。尽管PVOS方法实现了良好的性能，但它们严重依赖于历史像素，并且大多很少使用对象级语义特征。因此，这些方法可能容易受到累积误差和附近干扰物对象的影响。基于对象匹配的VOS（OVOS）。OVOS方法通过将当前帧的建议对象与历史帧的模板对象相关联来获得线索。DyeNet [11]使用模板重新识别和掩模传播迭代地估计对象掩模。FAVOS [4]跟踪对象的部分区域，并通过模板匹配将部分掩模聚合成对象掩模。DMM-Net[36]提出了一个可区分的和匈牙利算法一样的对象匹配层。最近的工作开发了OVOS，其方法包括状态可切换跟踪[2]、基于tracklet的动态编程[29]、3D卷积和基于规则的模板库[8]以及演员-评论家强化学习[26]。对象级相关性赋予分割网络高级别的对象估计。然而，所有现有的OVOS方法都未能以可优化和动态的方式学习对象模板，并且忽略了模板和提议之间的误对准。因此，它们不如SOTA PVOS方法强也就不足为奇了（参见第4.2节）。我们的方法属于OVOS主题。我们的方法和以前的OVOS方法的区别在于两个方面。首先，我们的模板是通过记忆网络以动态方式生成的，而在其他情况下，模板是固定的，使用第一帧中的注释，具有/不具有前一帧的预测。第二，模板和建议之间的错位是解决我们的自适应对象对齐模块的第一次。3. 方法为了简单起见，在第3.1、3.2和3.3节中，我们在单对象VOS的情况下介绍所提出的方法在第3.4节中，我们将介绍如何将所提出的方法用于多目标VOS。3.1. 框架概述我们的框架概述如图2所示。在视频处理期间，我们将具有对象掩模（在第一帧中给出或在后续帧中估计）的过去帧视为存储器帧，并且将没有对象掩模的当前帧视为查询帧。我们的框架是易于扩展的，因为模块化设计5个模块（基本特征提取器、对象建议生成器、对象模板生成器、对齐匹配器和掩模细化网络）中的每一个都可以独立地修改或替换。同时，除了预训练的对象提议生成器之外，所有4个模块都是端到端训练的这些模块介绍如下。基本特征提取器。基本特征提取器将帧作为输入。我们使用ResNet-50 [6]作为我们的骨干。主干的第2级到第4级（res2、res3、res4）的输出特征被用作我们的基本特征。为了降低特征的维度，我们在每个阶段的最后一层上添加瓶颈层。通过使用相应的边界框对基础特征执行ROI池化来提取对象特征。对象建议生成器。对象提案由针对每个帧的现成实例分割模型独立地生成。我们通常使用COCO-预训练的Mask R-CNN [5]和ResNeXt-101-FPN [14，32]作为此任务的骨干默认情况下，我们收集前30个输出实例（包括边界框和遮罩）作为每个帧的对象建议，以确保高召回率。对象模板生成器。对象模板生成器将过去帧的对象特征和对象掩码作为记忆，并将当前帧的目标对象特征作为查询。使用存储器和查询，为当前帧自适应地生成对象模板，然后将其用于对象匹配。在这项工作中，我们使用建议的动态记忆网络作为一个有效的和高效的对象模板生成器。模块的详细信息将在第3.2节中介绍。对齐匹配器。匹配器将所有对象建议的特征和对象模板的特征作为输入。从建议到模板的距离通过它们的特征之间的余弦相似度来计算。以距离作为输入，采用可微匹配层[36]来生成分配矩阵R1×n，其中n是对象提案的数量。目标对象的粗略掩模通过求和（由以下项加权）来生成：）的所有对象建议的掩码。在这项工作中，为了避免未对准，我们使用所提出的自适应对象对准模块来在共享特征空间中将建议对准模板。结果，计算对准的提议和模板之间的上述距离模块的详细信息将在第3.3节中介绍。掩模细化网络（RefineNet）。第一帧、前一帧和当前帧的基本特征（res2res4）和对象掩码作为输入被馈送到RefineNet中对于两个参考帧（第一帧和先前帧），我们使用输出（或给定）概率掩码。对于查询帧，我们使用上述粗掩码。值得注意的是，为了处理对象跨帧的空间漂移，参考帧的特征是8068×××V ∈K ∈FF对象建议生成器上一个框形框架建议输出掩码口罩盒特征提取器RefineNet粗糙面具建议对象特定查询对齐匹配器模板emory网络）生成的模板对象模板生成器（动态M特定对象记忆...基地帧掩码帧掩码...查询：具有对象建议和上一个对象框的当前帧记忆：过去的帧与对象遮罩图2.概述我们的框架。我们使用建议的动态记忆网络（DMN）作为我们的对象模板生成器。具体地，DMN获取具有对象实例（对象特征和掩码）的过去帧以形成对象特定的存储器，并且获取当前帧的特征和前一帧的对象框以构造对象特定的查询。使用存储器和查询，DMN动态地生成用于当前帧的对象模板。然后，模板匹配的所有建议，建议的自适应对象对齐方法。从匹配结果产生粗掩模，然后由掩模细化网络（RefineNet）进行细化以与AOA相同的方式对准当前帧的特征，然后将其馈送到RefineNet。RefineNet的架构与[20，24，31]中相同，其中包含3个块。该网络的每个块将对应的当前特征（res-i）、对应的参考特征（res-i）和来自前一个块的输出特征（空间上采样2）作为最后一个块的输出特征图通过11卷积层被减少到2通道特征图。通过在这些2通道特征图上应用softmax来获得最终的概率掩模。3.2. 动态内存网络➚×W××W×��×查询编码器内存编码器位置编码位置编码Concat��×中文（简体）如图3所示，建议的DMN模块由存储器编码器、查询编码器和模板×W××W��×��译码器现介绍如下。内存编码器。存储器编码器将存储器帧的对象特征和对象掩码作为输入。假设我们有一个过去的帧m，它的对象特征和它的对象掩码作为一个新的内存帧。的对象的功能和对象掩码沿通道维度级联，并通过两个平行的3 - 3卷积层编码成对键和值的值得注意的是，为了在后面的步骤中使用，所有存储器帧的关键特征图和值特征图沿着时间轴堆叠到4D张量。这里我们将关键特征图表示为RT×H×W×C/4，值特征映射为RT×H×W×C，其中T为存储帧数，H、W和C为目标特征的高、宽和通道数。查询编码器。查询编码器获取目标ob-图3.动态记忆网络。c和m是对象分别是当前帧C和存储帧M的特征。是m的对象遮罩。将当前帧的特征作为输入。值得注意的是，目标对象特征是通过使用来自前一帧的对象框在当前帧的基础特征上进行ROI池化来获得的目标对象特征通过3×3卷积层编码为查询特征图。这里，我们将查询特征图表示为Q ∈RH×W×C/4。模板解码器。模板解码器将所有存储器帧的K和V以及当前帧的Q作为输入。由于Q是对象在当前帧中的出现的粗略表示具体地，Q模板解码器MatMul（W）×（ W）SoftMax（W）×（ W）规模（W）×（ W）MatMul（W）×��8069. √ΣT◦VVKTPT ∈×S ∈TPT ∈ P ∈.Σ·雷克P∈TPΣTP）��×➚��×�� ×��分配（P））��×P��×�� ×��需要很强的先验知识，例如人员重新识别中的部件-部件对齐[40]。此外，视频中的对象由于对象移动、相机移动和遮挡而遭受巨大的外观变化这些变化可能涉及复杂的非刚性变形，使得像仿射变换的常规对准方法不适用。所提出的自适应对象对准方法通过将对象提议转换为与特征空间中的给定模板对准来工作（图4中所示）。假设我们有一个模板特征图T ∈RH×W×C和一个建议特征图P ∈RH×W×C。首先，两个特征图4.自适应对象对齐模块。模板特征图和建议特征图被投影到具有C/D维度的共享特征空间。在特征空间中，使用它们的投影特征图之间的非局部对应关系，将建议转换为与模板对准。并且被密集地计算以确定何时何地进行检索。通过由相关性得分加权的求和，对应的时空位置的值被组合为模板特征图RHXWXC，如下所示：=softmaxQ◦K，（1）C/4其中，n表示矩阵乘法。值得注意的是，所有4D通过两个并行卷积块（即，投影仪）。每个投影仪const- sists的两个3 - 3卷积层和它们之间的非线性层。两个投影仪的输出特征图表示为′RH×W×CD和′RH×W×CD，其中CD是投影特征图的通道数。其次，我们使用区域转换函数来对齐提案，使其看起来像模板。具体地说，采用非局部余弦相似度来计算所有位置之间的稠密对应’和’。受[37，38]启发，对应图RHW×HW由参数α和软最大运算锐化：在执行矩阵乘法之前，张量被变换为2D矩阵解码过程可以被视为缩放的点积注意力的实例化[27]。Si，j=Σexp αcos（i，j）exp. α·cos（i，k）ε，（二）这个操作可以在现代深度学习库中使用张量操作有效地实现[21]。值得注意的是，为了赋予DMN时间感知，我们在记忆/查询编码之前向对象特征添加位置嵌入[27]具体地，位置嵌入使用相对位置（即，其中i是模板特征图的位置索引j是建议特征图的位置索引，并且cos（i，j）是位置i in′和位置j in′的特征之间的余弦相似性得分。对齐后的建议特征图ΓRHXWXCD的位置i的特征向量最终通过以下方式获得：偏移）的存储器/查询帧w.r.t.第一帧。在所提出的对象DMN模块和记忆网络Pi′′=S日i、j·Pj′（3）在PVOS中（例如，[20，24]）。首先，我们的内存编码和查询编码进行对象为中心的功能，而不是一个完整的内存框架的功能。因此，我们消除了大量的冗余信息，同时保留高分辨率的对象语义。其次，在我们的工作中的基础特征计算只有一次，这帧的所有对象特征提取通过ROI池共享的基础特征。这种设计使我们的模型比以前的作品更有效，其中n个不同对象的基本特征重复计算n次。3.3. 自适应目标对齐（AOA）对象对齐的主要挑战是VOS任务中的对象具有弱先验知识。结果，难以应用不需要校准的对准方法。在特征图’和’’之间进行最终匹配。此外，区域平移函数（等式（2）和（3））可以使用现代深度学习库中的矩阵乘法高效计算[21]。3.4. 多目标分割我们的框架的描述是基于在视频中有然而，在VOS基准测试[22，33]中，模型需要处理多个对象。在我们的框架中，RefineNet之前的所有步骤都支持在单个前向传递中多个对象。因此，唯一的额外操作是为每个对象单独执行掩模细化一旦我们获得了细化的掩模，我们就采用[20，31]中的软聚合方法来合并所有对象的预测匹配MatMul（）×（）×%��SoftMax（）×（）锐化（）×（）非局部余弦相似性��×模板投影仪提案投影仪自适应对象对齐8070GJF−4. 实验在本节中，我们将在DAVIS 2017[22] 和 YouTube-VOS 2018 （ YTVOS ） [33] 基准。DAVIS有60个培训视频、30个验证视频和60个测试视频。DAVIS中的每个视频都是24fps，每帧都有注释，包含单个或多个对象。YTVOS是一个规模较大的VOS数据集，拥有3471个训练视频和474个验证视频。YTVOS中的每个视频都是30fps，每5帧注释一次，包含单个或多个对象。对于每个基准测试，我们在其训练集上训练一个单独的模型。在评价时，我们使用了经典的VOS度量：区域相似度、轮廓准确度及其平均值。为了进行公平的比较，除了所提出的模块引入的必要修改，我们的框架的所有其他模块使用相同的架构，在以前的作品。具体来说，Base Feature Extractor使用与STM（ResNet-50）[20]相同的主干，或者可选地使用与CFBI（ResNet-101）[35]相同的主干。对象建议生成器来自DMM-Net [36]。DMN的存储器编码器和查询编码器使用与STM中的两个编码器相同的架构。模板解码器的工作方式与STM中的内存读取模块相同。 Aligned Matcher 的匹配层来自 DMM-Net 。RefineNet的结构来自STM。4.1. 实现细节图像预训练。为了公平比较，我们对图像采用了与以前的作品类似的预训练策略[12，13，16，20，24，29，34]。由于我们的方法不一定需要长视频进行训练，因此我们通过对来自COCO数据集的静态图像应用随机仿射变换来模拟视频剪辑[15]。每个预训练剪辑包含用于参考的注释的第一帧和用于分割的三个后续帧。主要培训视频。我们的模型首先从预训练的权重初始化，然后在VOS基准上训练在这两个基准测试中，训练剪辑是生成的-通过以从1到5的随机跳跃步幅从每个训练视频中采样4个时间排序的帧来产生。并且第一帧是带注释的参考帧并且随后的帧将被分段。培训详情。我们将预训练的批大小设置为12，主训练的批大小设置为4。为了避免由小批量大小引起的性能下降，我们保持骨干的批量归一化层[9]冻结，并对所有其他模块使用组归一化（G=32）[30使用AdamOptimizer [10]的交叉熵损失进行优化。在预训练中，初始学习速率对于骨干设置为1e-5，对于其余设置为1e-4在主训练中，它们分别被设置为1e−7和1e−6。采用2颗NVIDIA Tesla V100 GPU，我们的预训练阶段需要5天30个时期。主要培训0。DAVIS上150个epoch需要5天，YTVOS上40个epoch需要2天生成对象建议。在[36]之后，我们在YTVOS上微调COCO预训练的对象建议生成器。批量大小设置为8，学习率为设为1e六、由于培训视频数量较少在DAVIS上，我们省略了它的微调阶段，以避免过拟合-婷在将提案输入到我们的VOS框架之前，非最大抑制（NMS）[19]的比率为0。4被用于移除具有高重叠的提议。推理。在这两个数据集上，在我们的方法中允许将所有过去的帧编码到内存中，这要归功于高效的动态内存网络。然而，为了与最先进的PVOS模型进行公平的比较，我们遵循与[20，24]中相同的内存帧采样策略。具体地，总是使用第一帧和先前帧，并且以步长5对其他过去帧进行采样。4.2. 与最新方法的DAVIS 2017. 我们的方法和SOTA方法的结果示于表1中。在验证集和测试开发集上，我们的方法都以显著的优势优于所有这些方法。值得注意的是，我们的方法的推理时间比像GraphMem [16]和CFBI [35]这样的SOTA方法要少得多。这主要是因为在我们的方法中，基础特征图仅针对每帧计算一次，并且帧中的所有对象的特征通过在该共享基础特征图上的ROI池化来提取。DAVIS 2017上的可视化案例可以在补充材料中找到YouTube-VOS 2018（YTVOS）. YTVOS的验证集总共包含474个视频，其中65个可见对象类别和26个不可见对象类别。在这个数据集上，我们的模型是预先训练的，但没有在线微调。我们的方法和SOTA方法的结果示于表2中。我们的方法再次优于所有的SOTA方法- ODS具有显着的利润率。在这个大规模数据集上的优异性能验证了我们的方法比现有方法更好地推广。4.3. 消融研究在本节中，我们分析了DAVIS 2017验证集上不同设置下的方法。这些设置可分为四类：架构、内存采样、训练和对象建议生成器调整。消融结果如表3所示。值得注意的是，完整模型（F0）是我们方法的最佳变体，它使用以下四种设置：（a）使用DMN和AOA两者，（b）连续地应用预训练和主训练，（c）始终使用第一帧和先前帧作为记忆帧，并且以步长5对其它过去帧进行采样，以及（d）对象建议8071G型号BackboneOL Pre YVJvalFvalGvalJtest FtestGtestt/s FRTM [23]（CVPR20）R101CC--76.7- 0.09DMM-Net [36]（ICCV19）R101 68.1 73.3 70.7 - 0.12FEELVOS [28]（CVPR19）DL3+C69.1 74.0 71.5 55.2 60.5 57.8 0.54SAT [2]（CVPR20）R50 68.6 76.0 72.3-0.03TVOS [39]（CVPR20）R50 69.9 74.7 72.3 58.8 67.4 63.10.03TAN-DTTM [8]（CVPR20）R50 72.3 79.4 75.9 61.3 70.3 65.4 0.14CFBI [35]（ECCV20）R101C79.1 84.6 81.9 71.1 78.5 74.8 0.37†GC [12]（ECCV20）R50C69.3 73.5 71.4 - 0.08AFB-URR [13]（NeuIPS20）R50C73.0 76.1 74.6-Siam R-CNN [29]（CVPR20）R101C C69.3 80.2 74.8 57.3 66.9 62.1 1.0STM [20]（ICCV19）R50C69.2 74.0 71.6 - 62.1 0.32†STM [20]（ICCV19）R50C C79.2 84.3 81.8 69.3 75.2 72.2 0.32†GraphMem [16]（ECCV20）R50C C80.2 85.2 82.8 - 0.40†KMN [24]（ECCV20）R50C C80.0 85.6 82.8 74.1 80.3 77.2 0.24†我们的R50C78.6 84.0 81.3 - 0.15我们的R50C C81.0 87.0 84.0- 0.15我们的R101C C81.4 87.5 84.5 74.8 81.7 78.3 0.16表1. DAVIS 2017上的定量结果。R50、R101和DL3+表示ResNet-50、ResNet-101和DeepLabv 3 + [1]。0L指示对第一帧的微调。Pre表示在图像数据集上进行预训练。YV表示额外使用YTVOS进行培训。val和test分别表示验证集和test-dev集t/s表示DAVIS2017验证集上每帧的推断时间（以秒为单位），†表示从DAVIS 2016验证集上的单对象推断时间外推的时间。.60.3 50.6 63.5 57.4 58.0表2. YTVOS验证集的定量结果。 S和U表示训练集中的可见和不可见对象类别。发电机在YTVOS上进行了额外调谐。当研究一种消融设置时，其他设置与完整模型保持架构在表3的（A）中，我们研究了我们提出的DMN和AOA模块的贡献。基本模型将第一帧中的注释作为固定模板。通过用从DMN生成的模板替换固定模板，2. 7%的改善（A1 vs. A2）。这表明，利用对象记忆有助于处理大的外观变化，同时特征而不是对象特征，a 1. 9%的性能下降（A4与F0）。这揭示了对象语义在基于对象的存储器中比基于帧的存储器保留得更好。移除匹配器（即完全不使用AOA和建议），并且来自DMN的解码掩码导致11的显著性能下降。3%（A5 vs. F0）。这是因为该模型没有利用任何PVOS的优点（例如前台-后台集成）或OVOS（例如，建议作为粗略估计）。最后，我们的粗掩模实现了相当好的性能69。2%，并在粗糙掩模上引入RefineNet进一步将此结果提高了12。1%（A6 vs.F0）。内存采样。不同记忆取样策略的结果示于表3的⑶中。第一和†型号DMM-Net [8]JSJUFSFUG对误差累积是鲁棒的。同时，AOA模块引入了1. 1%的性能提升（A1与A3）。这SAT [2]PReMVOS [17]67.171.455.356.570.275.961.756.563.666.9表示物体之间的错位als和模板降低了VOS的性能，TVOS [39]67.163.069.471.667.8尖锐地VOS中的未对准问题未被FRTM [23]72.365.976.274.172.1以前的作品，我们采取了第一次尝试，以阐明一些SiamRCNN [29]73.566.2--73.2此外，组合DMN和AOA导致附加的GC [12]72.668.975.675.773.2功能改善（F0 vs. A2+A3），表示该对象STM [20]79.772.884.280.979.4记忆和自适应对齐相互促进。具体-AFB-URR [13]78.883.174.182.679.6一方面，目标对象GraphMem [16]80.774.085.180.980.2在记忆中编码的物体带来了更精确的对齐，CFBI [35]81.175.385.883.481.4是的。另一方面，更鲁棒的相似性度量KMN [24]81.475.385.683.381.4在模板和对齐的提案之间提供更好的我们的（R50）82.576.286.984.282.5形成的学习前面的模块，包括我们的（R101） 82.676.787.084.882.7DMN。当DMN中的存储器编码器使用帧8072消融设置JFGt/sF0充分78.684.081.30.15(A) 架构A1基地75.280.377.80.13A2含DMN的77.983.180.50.14A3带AOA的76.481.478.90.14A4完整，带FrameMem76.882.079.40.15A5完整，无匹配器67.572.570.00.11A6完全不含RefineNet67.171.269.20.11(B) 内存采样B1仅第一帧77.382.579.90.14B2仅前一帧77.882.680.20.15B3第一帧+前一帧77.783.080.40.15B4的所有过去帧79.284.381.80.19(C) 培训C1仅主要培训70.374.772.50.15C2仅预培训65.870.067.90.15(D) 对象建议生成器调整D1带DAVIS的调谐76.381.779.00.15D2调谐，不带YTVOS77.582.780.10.15表3.DAVIS 2017确认集上的消融结果有关完整模型的详细信息，请参阅第4.3值得注意的是，在消融研究中，我们使用ResNet-50作为主干，而YTVOS数据集不用于训练。相信先前帧为当前帧的对象分割提供了重要与B1和B2相比，前一帧看起来更适用于处理故障情况。除了第一帧和前一帧之外，我们在Full模型中每5帧采样一个新的中间内存帧这些中间帧的利用导致0. 9%（B3与F0）。具有中间帧存储器进一步提高了提供关于对象外观的更多信息的性能此外，一个有趣的观察结果是，B1模型略优于A3模型。两个模型的所有配置和输入都是相同的，除了在前一个模型中使用DMN。这一结果表明，模板解码与内存寻址机制本身是有益的对象匹配。最后但并非最不重要的是，我们的方法是能够利用所有过去的帧由于高效的动态内存网络。通过这样做，稍微好一点的性能（+0。5%），而推理时间大约增加了27%。训练如表3的（C）所示，C1模型下降了8。8%，表明训练视频数据的量不足以发挥我们方法的潜力。然而，以前的作品表现差得多（例如四十三0%[20]vs. 七十二C1的5%）。这验证了我们的方法是相当强大的，以及在各种规模的数据集上的推广 C2模型的结果为67。9%，下降了13。百分之四这是因为BFE OPG OTG AM MRN2019 - 04 - 25 00：00：00表4.我们的方法的5个模块在DAVIS-17验证集上的每帧推理时间（t/s这些模块分别是基本特征提取器（w/ ResNet-50）、对象建议生成器、对象模板生成器、对齐匹配器和掩模细化网络。DAVIS和COCO之间的对象类别有很大的不同最后，通过使用这两种训练策略获得最大性能对象建议生成器调整。如表3的（D）中所示，我们在不同的对象提议生成器调优策略下测试我们的方法的性能。具体而言，在像DAVIS这样的小规模数据集的图像上调整生成器会导致性能下降（ D1vs.F0/D2）。退化主要是由过拟合问题引起的，我们建议不要在小规模数据集上调整生成器。实际上，在大多数情况下，在COCO上预训练的实例分割模型在为我们的方法（D2）生成高召回率对象建议方面效果良好。这意味着我们的方法可以很容易地转移到一个新的数据集上，只在VOS任务上进行端到端的训练。为了进一步提高性能，我们在大规模数据集YTVOS上调整生成器。这种额外的调整带来了1。G改善2%（F0与D2）。推理时间。在DAVIS 2017验证集上，我们独立运行每个模块的推理，详细处理时间如表4所示。我们的方法之所以快速，有三个原因。首先，对象提议生成器模块是高效的，因为它可以针对多个帧同时执行。其次，我们工作中的基本特征针对一帧计算一次，而在以前的工作中[13，16，20，24]，它们针对每个目标对象重复计算最后，DMN模块和AOA模块通过矩阵乘法大大加速。5. 结论在本文中，我们提出了一种新的对象匹配框架工作的半监督视频对象分割。我们的模型通过合并两个关键组件来缓解对象模板和建议之间的不匹配。第一个是一个动态记忆网络，它学习从多个过去的帧中读取相关的对象信息，第二个是一个自适应对象对齐模块，它将建议与特征空间中的模板实验结果表明，我们的方法优于所有国家的最先进的方法VOS基准具有非常有效的推理时间。8073引用[1] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页，2018年。6[2] 陈曦、李作新、叶远、于刚、沈建新、齐东莲。用于实时视频对象分割的状态感知跟踪器。在IEEE/CVF计算机视觉和模式识别会议论文集，第9384- 9393页，2020年。一、三、六、七[3] Yuhua Chen ， Jordi Pont-Tuset ， Alberto Montes ， andLuc Van Gool.快速视频对象分割与像素级度量学习。在IEEE计算机视觉和模式识别会议论文集，第1189-1198页，2018年。2[4] Jingchun Cheng ， Yi-Hsuan Tsai ， Wei-Chih Hung ，Shengjin Wang，Ming-Hsuan Yang.通过跟踪部件快速准确的在线视频对象分割在IEEE计算机视觉和模式识别会议论文集，第7415-7424页一、二、三[5] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页3[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。3[7] Yuan-Ting Hu ， Jia-Bin Huang ， and Alexander GSchwing. Videomatch：基于匹配的视频对象分割。在欧洲计算机视觉会议（ECCV）的会议记录中，第54-70页，2018年。一、二[8] Xuhua Huang，Jiarui Xu，Yu-Wing Tai，and Chi-KeungTang.基于时间聚合网络和动态模板匹配的快速视频对象分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第8879-8889页，2020年。三六七[9] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在机器学习国际会议上，第448-456页。PMLR，2015. 6[10] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[11] 李晓晓和陈昌来。视频对象分割与联合重新识别和注意力感知掩模传播。在欧洲计算机视觉会议（ECCV）的会议记录中，第90-105页一、二、三[12] 余丽、沈卓然、影山。使用全局上下文模块的快速视频对象欧洲计算机视觉会议，第735-750页。Springer，2020年。二三六七[13] 梁永清、李欣、纳维·贾法里、陈秦。视频对象分割与自适应特征银行和不确定区域细化。arXiv预印本arXiv：2010.07958，2020。二三六七八[14] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页，2017年。3[15] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 6[1

下载后可阅读完整内容，剩余1页未读，立即下载