DMM-Net：可微分的视频对象分割掩码匹配网络

183 浏览量更新于2023-10-16 收藏 13.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

139290DMM-Net：可微分的视频对象分割掩码匹配网络0Xiaohui Zeng 1, 2 � Renjie Liao 1, 2, 3* Li Gu 1 Yuwen Xiong 1, 2, 30Sanja Fidler 1, 2, 4 Raquel Urtasun 1, 2, 3, 50多伦多大学1矢量研究所2 Uber ATG多伦多30NVIDIA 4加拿大高级研究所50{xiaohui, rjliao, yuwen, fidler}@cs.toronto.edu li.gu@mail.utoronto.ca urtasun@uber.com0摘要0在本文中，我们提出了可微分的掩码匹配网络（DMM-Net），用于解决视频对象分割问题，其中提供了初始对象掩码。依靠MaskR-CNN骨干，我们从每个帧中提取掩码提议，并将对象模板与一个时间步的提议进行匹配，将成本矩阵作为CNN预测。我们通过展开投影梯度下降算法来提出一个可微分的匹配层，其中投影利用Dykstra算法。我们证明，在温和条件下，匹配保证收敛到最优解。在实践中，它在推理过程中的性能与匈牙利算法相似。同时，我们可以通过它进行反向传播以学习成本矩阵。匹配后，我们利用一个改进头来提高匹配掩码的质量。我们的DMM-Net在最大的视频对象分割数据集YouTube-VOS上取得了竞争性的结果。在DAVIS2017上，DMM-Net在第一帧上没有在线学习的情况下实现了最佳性能。在SegTrackv2数据集上，没有任何微调，DMM-Net的性能与最先进的方法相当。最后，我们的匹配层非常简单易实现；我们在补充材料中附上了PyTorch代码（<50行）。我们的代码已在https://github.com/ZENGXH/DMM_Net上发布。01.引言0视频对象和实例分割问题受到了广泛关注[1, 35,25]，这要归功于最近高质量数据集的可用性，例如YouTube-VOS [45]，DAVIS [29,30]。给定一个输入视频，目标是在像素级别上将对象或实例与背景分离。这是一个基本的计算机视觉任务。0�相等的贡献。0（a）RGMP [43]（b）CINM [2]0（c）PReMVOS [24]（d）我们的图1.在DAVIS2017数据集的soapbox序列的最后一帧上与一些竞争方法的视觉比较。尽管随着时间的推移，视频分割质量通常会下降，但我们的模型仍然提供更好的细节。0由于其广泛的应用范围，包括自动驾驶、视频监控和视频编辑，视频实例分割问题已经受到了重视[29, 30,25]。这个问题的两个主要设置是无监督和半监督，它们在推理过程中是否提供了视频第一帧中对象实例的地面真值注释掩码而不同[29,30]。在本文中，我们专注于半监督设置，即在测试视频的第一帧中提供了实例掩码。然而，即使在测试时有一些注释信息，这个任务仍然非常具有挑战性。例如，算法需要处理的不仅是戏剧性的外观变化、遮挡和变形，还有可能的大幅度摄像机和物体运动。此外，一个好的视频实例分割模型的期望是产生时间上连贯和稳定的预测，这提出了一个额外的挑战。现有的算法通常利用预训练的深度神经网络来预测对象实例掩码。其中一些算法，例如[25]，以一种与帧无关的方式直接预测掩码，并取得了令人惊讶的好结果。39300我们的实验结果验证了深度神经网络的强大迁移能力。许多算法以各种方式利用先前预测的掩码，从而实现随时间的掩码传播。这种策略被证明可以提高时间连贯性和分割质量。此外，通常会在像素级或掩码级别上利用参考帧和当前帧之间的模板匹配来处理对象消失-重新出现现象、遮挡和快速运动。然而，据我们所知，现有的工作中没有一个将最优匹配算法集成到其框架中，这可能部分原因是问题的不可微性。在本文中，我们提出了可微分的掩码匹配网络（DMM-Net）。我们首先以独立于帧的方式通过预训练的MaskR-CNN[13]提取掩码提议。对于每个时间步，我们将提议与参考帧中的模板进行匹配，以便将最多一个掩码提议分配给一个模板实例。模板和提议掩码对之间的匹配成本是基于掩码的交并比（IoU）和由深度卷积神经网络（CNN）预测的特征图的余弦相似度来确定的。我们的论文的关键贡献在于我们引入了一个可微分的匹配层，用于解决线性分配问题。具体来说，我们展开了投影梯度下降算法，其中具有挑战性的投影步骤是通过一种称为Dykstra算法的高效循环投影方法实现的。所提出的双循环匹配算法非常简单易实现，能够收敛，并且在性能上与匈牙利算法[19,26]获得的最优匹配相似。更重要的是，它是完全可微的，可以学习匹配成本，从而更好地处理大变形和外观变化。匹配后，我们采用了一个改进头来改进匹配的掩码。需要注意的是，我们的主要贡献在某种程度上与许多现有工作有所不同，我们的可微分匹配可以与其他网络集成，从而潜在地提高它们的性能。在DAVIS 2017 [30]，SegTrack v2[20]和YouTube-VOS[45]数据集上，我们的模型实现了最先进或可比较的性能。02. 相关工作0过去对视频对象/实例分割问题进行了广泛的研究[35, 1, 29,30]。这个领域的许多算法依赖于模板匹配技术，这在目标跟踪和图像匹配文献中很流行[47, 23, 3,31]。然而，视频对象/实例分割比跟踪更具挑战性，因为它需要像素级的对象/实例掩膜作为输出，而不是边界框。同时，它与匹配也有很大的不同，因为它需要对图像进行语义理解，而不是像颜色、运动等低级线索的相似性。相关文献可以根据问题设置进行分类，即无监督与半监督。无监督类别的方法[5, 12, 42,34]通常利用稠密光流和外观特征来对时空邻域内的像素进行分组。在本文中，我们专注于半监督设置。根据是否执行模板和提案掩膜之间的显式匹配以及匹配在哪个级别执行，我们可以进一步将相关工作分为三个子类。0无显式匹配最近的一些工作直接利用深度神经网络来预测掩膜。在[6,25]中，首先对预训练的CNN进行微调，以预测每帧的分割掩膜和轮廓，然后应用边界捕捉步骤来合并两者的结果。[39]的作者通过引入在线自适应步骤来扩展这项工作，以引导前景对象分割。视频传播网络（VPN）[16]提出了一个双边网络和一个CNN来传播先前预测的掩膜和图像。MaskRNN[14]以递归方式利用光流、图像和掩膜提案来预测每帧的掩膜。Mask-Track[28]使用一个CNN，将上次预测的实例掩膜和当前帧作为输入，并输出精炼的掩膜。空间传播网络（SPN）[8]同时执行前景分割和实例识别，然后使用空间传播模块对实例掩膜进行精炼。基于像素级度量学习（PML）[7]将视频对象分割问题形式化为像素级检索问题，其中嵌入空间由CNN预测并通过三元约束度量学习进行学习。在[2]中，基于光流和空间CNN，构建了一个像素级时空马尔可夫随机场（MRF），通过CNN实现了近似推理。[46]的作者提出了两个子网络，分别计算模板的视觉特征和最后一帧的空间注意力图，以引导掩膜预测。在[43]中，作者依靠U-Net，将当前帧与上次预测的掩膜的串联以及参考帧与模板掩膜的串联相结合，预测当前掩膜。这些工作与我们的工作是正交的，因为我们可以使用其中一些网络作为我们的特征提取器，而我们的匹配层也有可能改进它们的模型。0像素级匹配像素级匹配网络（PLM）[33]首先利用一种连体型CNN提取当前帧和掩膜参考帧的特征。基于这些特征，它计算像素级相似度分数和实例掩膜。VideoMatch[15]分别从参考帧和当前帧中提取特征。参考帧的特征进一步分为前景和背景，通过一个特殊设计的软匹配模块与当前帧的特征计算相似度。特征的相似度加权组合用于预测最终的掩膜。[40]提出了一种基于完全卷积连体网络的方法（SiamMask）。它计算参考帧和当前帧模板特征之间的深度交叉相关。它还包括与MaskR-CNN类似的掩膜、框和分数预测头。尽管这些方法没有解决精确匹配问题，但由可学习的CNN输出的像素级相似度分数对于掩膜预测任务仍然有帮助。然而，由于需要在模板和当前帧之间进行不同像素的互相关，它们在计算和内存上往往是密集的。0掩膜级匹配一些方法，包括我们的DMM-Net，采用掩膜级匹配。基于预先计算的特征图，DyeNet[21]通过迭代使用重新识别和递归掩膜传播模块来检索消失-重新出现的对象，并单独处理姿态和尺度的时态变化。[9]的作者提出在视频中跟踪对象部分，并计算提案和模板部分之间的相似度分数，以处理跟踪丢失和背景噪声。在这些工作中，由于掩膜/部分的数量明显小于像素的数量，匹配计算量较小。然而，它们都利用贪婪解法进行匹配，即对于每个模板，如果得分高于某个阈值，则返回最大得分的分配，否则不返回分配。相比之下，我们通过一个39310通过实验证明，在大多数情况下，迭代求解器比贪婪解法更好。0没有显式匹配最近的一些工作直接利用深度神经网络来预测掩膜。在[6,25]中，首先对预训练的CNN进行微调，以预测每帧的分割掩膜和轮廓，然后应用边界捕捉步骤来合并两者的结果。[39]的作者通过引入在线自适应步骤来扩展这项工作，以引导前景对象分割。视频传播网络（VPN）[16]提出了一个双边网络和一个CNN来传播先前预测的掩膜和图像。MaskRNN[14]以递归方式利用光流、图像和掩膜提案来预测每帧的掩膜。Mask-Track[28]使用一个CNN，将上次预测的实例掩膜和当前帧作为输入，并输出精炼的掩膜。空间传播网络（SPN）[8]同时执行前景分割和实例识别，然后使用空间传播模块对实例掩膜进行精炼。基于像素级度量学习（PML）[7]将视频对象分割问题形式化为像素级检索问题，其中嵌入空间由CNN预测并通过三元约束度量学习进行学习。基于光流和空间CNN，在[2]中构建了一个像素级时空马尔可夫随机场（MRF），通过CNN实现了近似推理。[46]的作者提出了两个子网络，分别计算模板的视觉特征和最后一帧的空间注意力图，以引导掩膜预测。在[43]中，作者依靠U-Net，将当前帧与上次预测的掩膜的串联以及参考帧与模板掩膜的串联相结合，预测当前掩膜。这些工作与我们的工作是正交的，因为我们可以使用其中一些网络作为我们的特征提取器，而我们的匹配层也有可能改进它们的模型。03. 模型0在本节中，我们介绍我们的方法，它由两个关键组件组成：可微分的掩码匹配和掩码细化。我们的模型假设我们可以在每一帧中获得掩码提案。我们首先解释如何获得掩码提案。然后我们描述我们的可微分掩码匹配方法并讨论掩码细化。我们的方法概述如图2所示。我们假设一个视频有T帧。第一帧中的掩码模板表示为R = {ri | i = 1, ...,n}，其中n是整个视频中实例的总数。0掩码提案生成：我们首先使用一个经过COCO预训练的Mask R-CNN（详见第4.1节）在每一帧中独立提取掩码提案。0算法1：用于匹配的投影梯度下降01: 输入: Ngrad, Nproj, X, α, C2: 初始化: X0 = X 3: 对于i =1, 2, ..., Ngrad: 4: Xi = Xi−105: Y0 = Xi, q1 = 0, q2 = 0, q3 = 0 6: 对于j = 1, 2, ..., Nproj: 7: Y1 =P1(Y0 + q1), q1 = Y0 + q1 − Y1 8: Y2 = P2(Y1 + q2), q2 = Y1 + q2− Y2 9: Y3 = P3(Y2 + q3), q3 = Y2 + q3 − Y3 10:011: Xi = Y3 12: Return X� =10Ngrad ∑ Ngradi=1Xi0MaskR-CNN[13]（第4.1节中的详细信息）。我们仅保留基于它们的得分的前50个提案，以确保召回率足够高。这一步是离线执行的，即我们的方法将在这些固定的提案上运行。我们将第t帧中的掩码提案表示为Pt = {ptj | j = 1, ...,mt}，其中mt是时间t时的提案总数。0可微分的掩码匹配主要是为了处理存在大变形、运动和剧烈外观变化的情况。如前所述，当运动较大时，基于提案的匹配通常优于基于光流的方法。此外，我们设计了一个可学习的匹配成本，可以处理剧烈的外观变化和变形。0特别地，在时间步t，我们使用一个卷积神经网络（记为fθ）来提取第一帧中的掩码提案Pt和模板R的特征。这里θ表示可学习参数。特征提取器的详细信息在第4.1节中解释。对于第i个掩码模板ri（第一帧中的真实掩码）和第j个掩码提案ptj，我们分别计算它们的特征fθ(ri)和fθ(ptj)。匹配成本矩阵Ct由特征之间的余弦相似度和掩码之间的IoU计算得到，0Ctij = (λ − 1)cos(fθ(ptj), fθ(ri)) − λIoU(ptj, ri), (1)0其中λ是一个超参数，0 < λ <1。总成本矩阵Ct的大小为n×mt，其中每行和每列分别对应一个模板和一个掩码提案。从现在开始，为了简单起见，我们省略上标t。0现在我们介绍如何解决二分匹配问题。特别地，我们首先将最小成本二分匹配问题形式化为以下整数线性规划问题：39320图2. 我们模型的整体架构。底部的黄色框表示双向匹配的过程和Eq. (8)中描述的相应输出掩码。0min X Tr(CX�)0min X Tr(CX�)0s.t. X1m = 1n0X�1n ≤ 1m X≥ 00Xij ∈ {0, 1} � (i, j) (2)0其中 X ∈ Rn×m是布尔赋值矩阵。1n和1m都是大小为n和m的全1向量。在这里我们稍微滥用了符号，下标i，j表示矩阵的(i,j)元素。我们添加约束X ≥0，这在理解后面介绍的松弛版本时会有帮助。注意，方程(2)中的问题和标准线性分配问题（LAP）略有不同，我们用X�1 ≤ 1代替了X�1 =1。这是因为我们的情况中提案的数量m远大于模板的数量n，即X是一个宽矩阵。要解决这个整数线性规划问题，可以引入虚拟变量使X成为一个方阵，然后使用匈牙利方法来优化标准LAP。然而，这种简单的扩展将时间复杂度增加到O(m^3)，而且不容易进行反向传播。此外，我们可能并不一定需要精确匹配，即实值近似的分配矩阵X可能足够用于后续阶段。因此，我们采用以下线性规划（LP）松弛方法。0min X Tr � CX � �0s.t. X 1 m = 1 n0X � 1 n ≤ 1 m X ≥ 0. (3)0尽管有许多标准的LP求解器，例如单纯形法和内点法，但我们在这里介绍了一种可微分且易于实现的投影梯度下降算法。算法在Alg. 1中给出，其中N grad，Nproj分别是梯度下降（外循环）步骤和投影（内循环）步骤的数量。在每次迭代中，我们根据负梯度方向更新X。主要的挑战在于将更新后的X投影到约束集上。这不是一项容易的任务，因为方程（3）中的约束集是三个闭凸集的交集。为了计算投影，我们采用了一个循环约束投影方法，即Dykstra算法[11,4]，该算法已被证明在有限闭凸集的非空交集上收敛。关键思想是将整个约束集分解为多个简单的子集，以便我们可以轻松找到投影算子。特别地，我们可以将约束集C分割为单独的约束，即C = C1 ∪ C2 ∪ C3，其中0C 1 = { X | X 1 m = 1 n }0C 2 = { X | X � 1 n ≤ 1 m }0C 3 = { X | X ≥ 0 }. (4)0很容易得到每个约束的投影算子，如下所示，0P 1 ( X ) = X − 0m ( X 1 m − 1 n ) 1 � m (5)0P 2 ( X ) = � X if X � 1 n ≤ 1 m X − 10n 1 n ( 1 � n X − 1 � m ) otherwise (6)where ˆX ∈ Rn×m, ˜P ∈ Rm×H×W , ˆP ∈ Rn×H×W , and ⊗indicates the tensor contraction operator along the last andthe ﬁrst dimensions of ˆX and ˜P, respectively. Here H andW denote the height and width of the input image. Eachspatial slice of ˆP denotes the matched mask correspondingto a particular template. This process is shown in the yellowbox of Fig. 2. The matched mask for the template will beused to compute the IoU score, shown in Eq. (1), at the nexttime step. Therefore, we propagate the latest mask informa-tion over time.Given the output mask from matching, we then reﬁne itusing the template of the same instance. In particular, weconstruct the input by stacking multi-scale image featuresfrom the backbone, the matched mask and template mask.The multi-scale features are extracted from the last layer ofthe conv 2-5 blocks in the feature extractor backbone, re-spectively. Inspired by RVOS, we adopt a decoder contain-ing four ConvLSTM [32] layers as the reﬁnement module topredict the masks of all objects at each time step and carryover the memory and hidden states to the next time step.39330P 3 ( X ) = X + (7)0注意，P3只是ReLU运算符。所有这些投影运算符都是可微分且简单的。Dykstra算法通过将修正点迭代地投影到循环顺序中的各个约束集上，然后通过预投影和后投影之间的差异更新修正来工作。最终的解是通过对中间投影分配矩阵进行平均得到的。Dykstra算法的收敛结果在[11, 4,10]中得到了证明。依靠[27]中对凸优化的非精确投影原始一阶方法框架的收敛分析，我们推导出了我们的匹配投影梯度下降算法的以下收敛结果。0定理1. 令r0 = ∥X0 −X�∥F，其中X0和X�分别是初始和最优分配矩阵。令学习率0< α < min(15 r0, r0 / ∥C∥F)。存在一些常数0 ≤ c < 1和ρ> 0，使得在Alg. 1的外循环第i次迭代中，投影误差∥Xi −PC(Xi)∥F ≤ δ = ρc Nproj，其中Xi和PC(Xi)分别是分配矩阵及其在C上的正确投影。此外，对于任意0 < � < 1，存在一个0N proj ≥ log 1 /c �ρ �015 K α� �，使得0δ ≤ α� 15 r 00在最多K次迭代之后，0K = � 6 r 2 00α�0�，0Alg. 1的输出ˆX是�-最优的，即∥ˆX − PC(ˆX)∥F ≤ �0和|Tr � C ˆ X � � − Tr � CX �� | ≤ �。0我们将证明留在补充材料中。在实践中，通常观察到在较大的Nproj和合理的学习率下收敛。整个算法的实现非常简单。请参阅补充材料中使用PyTorch的示例实现（不超过50行）和不同超参数的经验收敛分析。0匹配后，对于每个模板，我们需要输出一个掩码，该掩码将被输入到细化阶段。回想一下，我们获得了最优分配ˆX（如果先前的算法没有运行到收敛，则近似最优），我们可以计算提案掩码的加权组合P。具体来说，我们首先调整掩码提案的大小，使其具有与输入图像相同的分辨率。然后将它们粘贴到空白图像中，以获得0ˆ P = ˆ X � ˜ P (8)04. 实验0在本节中，我们将我们的DMM-Net与YouTube-VOS、DAVIS 2017和SegTrackv2数据集上的一系列最新竞争者进行比较。YouTube-VOS有3,471个训练视频和474个验证视频。在验证集中的91个对象类别中，65个在训练集中出现，而其他26个是未出现的。DAVIS2017有60个训练序列和30个验证序列，平均视频长度约为70。每个序列的平均实例数分别为2.30和1.97。对于SegTrackv2数据集，有14个低分辨率视频（总共947帧），其中包含24个通用前景对象。我们的所有实验都在NVIDIA Titan XPGPU上进行。04.1. 实现细节0我们首先介绍我们模型的实现细节。0掩膜提案生成在掩膜提案生成阶段，我们使用预训练在COCO数据集[22]上的ResNeXt-101-FPN作为骨干网络的MaskR-CNN。ROI头的分数阈值设置为0。我们将输入图像的短边调整为不超过800。我们首先在COCO上训练类别不可知的二进制掩膜提案网络。按照使用的策略39340OL J S J U F S F U G M FPS0OSMN [46] � 60.0 40.6 60.1 44.0 51.2 8.0 SiamMask [41] � 60.245.1 58.2 47.7 52.8 55 RGMP [43] � 59.5 - 45.2 - 53.8 7OnAVOS [39] � 60.1 46.6 62.7 51.4 55.2 - RVOS [37] � 63.6 45.567.2 51.0 56.8 24 S2S [44] � 66.7 48.2 65.5 50.3 57.7 6 OSVOS[6] � 59.8 54.2 60.5 60.7 58.8 - S2S [44] � 71.0 55.5 70.0 61.264.4 - DMM-Net � 59.2 47.6 62.6 53.9 55.8 - DMM-Net+ � 58.341.6 60.7 46.3 51.7 12 DMM-Net+ � 60.3 50.6 63.5 57.4 58.0 -0表1.YouTube-VOS（验证集）上没有在线学习的方法的结果以及推理过程中的每秒帧数（FPS）。'S'和'U'分别表示已见和未见的类别。'OL'：在线学习。'+'表示我们使用ResNet-101作为特征提取器，而不是ResNet-500方法 J M F M G M0MaskRNN [14] 45.5 - - OSMN [46]52.5 57.1 54.8 FAVOS [9] 54.6 61.858.2 VideoMatch [15] 56.5 - - MSK[28] 63.3 67.2 65.3 RGMP [43] 64.868.6 66.7 FEELVOS [38] � 65.9 72.369.1 DyeNet [21] 67.3 71.0 69.1DMM-Net 68.1 73.3 70.70表2. DAVIS 2017数据集验证集上没有在线学习的结果。FEELVOS�还报告了另一个在YouTube-VOS[45]上训练的更好的模型。'-'表示没有公开的结果。0在[41]中，我们将提议网络在COCO和YouTube-VOS的组合上进行微调，学习率为0.02，批量大小为8，训练迭代次数为200,000。0可微分的掩码匹配对于特征提取器fθ，我们使用一个在COCO数据集上预训练的带有ResNet-50-FPN骨干网络的MaskR-CNN。我们还尝试了一个ResNet-101骨干网络，其权重是从RVOS[37]的发布模型初始化的。我们将这个模型称为DMM-Net+。需要注意的是，可以在提议网络和匹配的特征提取器之间共享骨干网络，以使整体模型更紧凑。然而，在我们的实验中，共享骨干网络导致了更差的结果，这可能表明生成良好的提议和学习良好的匹配特征需要不同的表示。在获得每帧的提议之后，我们对每个提议执行ROI池化，从骨干网络中提取多尺度特征，然后在空间上对特征进行平均，得到一个单一的特征向量。与输入到细化层的特征类似，我们从骨干网络的conv2-5块的最后一层获取提议特征。0方法在线mIoU� mIoU†0学习0OSVOS [6] � 61.9 65.4 OFL [36] � 67.5 - MSK[28] � 67.4 70.3 RGMP [43] - 71.1 MaskRNN[14] 72.1 - LucidTracker [17] � - 77.6 DyeNet[21] - 78.3 DyeNet [21] � - 78.7 DMM-Net 76.876.70表3. SegTrackv2数据集的结果。mIoU�是对所有帧进行平均，而mIoU†是对所有实例进行平均。0特征提取器的输入图像被调整大小，使得短边不超过480和800，分别用于DAVIS 2017和SegTrackv2。对于YouTube-VOS，我们将图像调整为255×448，以便与S2S [44]和RVOS [37]进行公平比较。在Eq.(1)中计算匹配成本时，匹配得分权重λ设置为0.3（DAVIS2017和YouTube-VOS）和0.9（SegTrackv2）。对于掩码匹配，我们设置Ngrad = 40，Nproj =5，学习率α =0.1。匹配分配矩阵ˆX获得后，我们还发现通过应用可微分的掩码去除非自信匹配是有帮助的，即ˆX = ˆX ∙ 1[ˆX =max(ˆX)]。0细化网络为了减少计算成本，我们在YouTube-VOS上使用了一个只包含四个ConvLSTM层的轻量级细化网络。权重是随机初始化的，并且与匹配层一起进行端到端训练。训练和推断时，输入图像的大小被调整为255×448。细化网络输出我们的最终预测掩码。在DAVIS2017上训练的模型使用了一个更重的细化网络。我们遵循RGMP[43]的U-Net风格架构，并从他们发布的模型中初始化权重。细化网络也与匹配层一起进行训练。0微调由于我们的DMM-Net是端到端可微分的，我们在YouTube-VOS和DAVIS 2017的训练集上进行微调。我们使用Adam[18]优化器，对于从预训练模型初始化的权重，学习率设置为1.0e-4，对于从随机初始化的权重，学习率设置为1.0e-3。我们将批量大小设置为24，并在YouTube-VOS数据集上总共训练10个epochs。训练过程中应用了随机仿射变换等数据增强。在DAVIS2017上，我们使用相同的优化器，学习率设置为1.0e-7，批量大小设置为1。我们在总共8个epochs中微调模型。39350在线学习对于在线学习，我们使用验证集的第一帧训练提议生成器和DMM-Net以及细化模块。与4.1节相同，我们使用相同的学习率和批量大小，只是在线学习的时候训练轮数增加到了100。0评估对于YouTube-VOS和DAVIS2017，我们遵循[30]，使用区域（J），边界（F）及其平均（G）分数作为评估指标。对于SegTrackv2，现有文献中采用了两种平均IoU。具体而言，可以计算每帧上所有实例的IoU平均值，然后在所有帧上进行平均，如[14]中所示，表示为mIoU�。也可以计算每个实例的IoU，对出现的帧进行平均，然后在所有实例上进行平均，如[21]中所示，表示为mIoU†。我们在该数据集上报告这两个指标。04.2. 主要结果0YouTube-VOS我们在YouTube-VOS上对我们的DMM-Net和提议网络进行微调。我们首先将官方训练集分为训练-训练、训练-验证和训练-测试三个部分。我们的训练是在训练-训练部分进行的，并根据在训练-验证部分的性能选择最佳模型。在官方验证集上报告最终性能，见表1。与最先进的方法S2S相比，我们的模型以双倍速度实现了具有竞争力的分割指标。总体而言，我们在性能和运行时间之间取得了良好的平衡。此外，我们发现使用更强大的骨干网络，即DMM-Net+，可以进一步提升性能。0DAVIS 2017 我们在DAVIS2017的验证集上与一系列最新竞争对手进行比较。对于DAVIS的实验，我们只在DAVIS2017的训练集上对我们的DMM-Net进行微调，并使用在COCO上预训练的提议生成器。没有在线学习的模型列在表2中。从表中可以看出，没有在线学习，我们的方法达到了最先进的性能。在图3中，我们展示了我们的DMM-Net在每个视频序列的不同时间步骤（相对于整个视频长度均匀采样的百分比）上的定性结果。从图中可以看出，随着时间的推移，我们的模型始终保持着非常好的分割质量。我们还在图1中展示了与其他强竞争对手在soapbox序列的最后一帧的视觉比较。显然，我们的模型在细节分割方面做得更好。然而，仍然存在一些失败案例。例如，在图3的第100%列和第4行中，右下角的金鱼的分割效果不理想。0匹配 DMM-Net 提议网络训练-验证0Ft. Unroll Arch. +ytb J M F M0贪婪 - - X101 57.1 68.1 匈牙利 - - X101 57.3 68.4 我们 � - X10157.3 68.3 我们 � 2 R50 58.5 71.4 我们 � 2 X101 59.0 71.7 我们 � 3X101 58.2 71.4 我们 � 2 X101 � 60.2 73.00表4. 在我们的YouTube-VOS训练验证集上进行的消融研究。Prop.Net：掩膜提议网络。'+ytb'：在提议网络训练期间是否使用YouTube-VOS训练集。'Ft.'：微调，'Arch.'：提议网络的架构，'R50'：ResNet-50，'X101'：ResNetXt-101。0SegTrack v2 我们直接在完整的SegTrackv2数据集上测试我们的DMM-Net模型（在DAVIS2017训练集上进行微调）。我们在该数据集上不进行任何微调。此外，为了简化起见，我们再次不采用任何在线学习，以便完全测试我们模型的泛化能力。定量结果列在表3中。从表中可以看出，没有任何微调和在线学习，我们的DMM-Net的性能与最先进的方法相当。我们在图3的底部两行展示了一些视觉示例。我们可以看到，我们的模型在不同时间步骤上始终具有高质量的分割效果。04.3. 消融研究0在本节中，我们进行了彻底的消融研究，以证明我们模型的设计选择和超参数的合理性。0贪婪匹配与匈牙利匹配与我们的匹配层首先，我们在推断过程中将匹配层与使用匈牙利方法的最优匹配和流行的贪婪近似进行比较.为了公平比较，我们使用相同的掩模提案集合，相同的在COCO数据集上预训练的特征提取网络.我们在YouTube-VOS数据集上展示了J和F分数的平均值，如表4所示.从表中可以看出，我们的匹配层在推断过程中具有类似的性能，优于贪婪匹配，接近最优匹配.0端到端微调现在我们研究在YouTube-VOS的训练集上对整个模型进行微调的效果.如表4所示，性能得到了显著提升，验证了端到端训练的好处以及我们的匹配层的可微性.39360（a）0%（b）25%（c）50%（d）75%（e）100% 图3. 在YouTube-VOS、DAVIS 2017和SegTrackv2上不同时间步长（相对于整个视频长度的百分比）的结果可视化. 前2行、中间2行和最后2行分别对应YouTube-VOS、DAVIS2017和SegTrack v2数据集.0掩模提案网络我们还尝试了不同的掩模提案网络骨干，并在YouTube-VOS数据集上对网络进行微调.如表4所示，通过在大规模视频数据集（如YouTube-VOS）上微调提案网络，性能提升非常高.0展开步数最后，我们研究了训练过程中细化网络的展开步数.如表4所示，展开超过2步似乎没有帮助，而且显著增加了内存消耗.需要注意的是，在测试过程中，我们从视频序列的开头展开到结尾.05. 结论0在本文中，我们提出了可微分的掩模匹配网络（DMM-Net）来解决视频对象分割问题.DMM-Net首先依赖于预先计算的掩模提案，通过投影梯度下降方法在提案和模板之间进行掩模匹配，该方法保证收敛性和0完全可微分. 它使得匹配的成本矩阵的学习成为可能.基于模板掩模，我们进一步改进当前匹配的掩模以提高分割质量.我们证明了我们的模型在几个具有挑战性的基准测试中达到了最先进或可比较的性能.在未来，我们希望将我们的可微分匹配层应用于其他骨干网络，以进一步提升性能.此外，探索在更长的时间窗口内进行掩模匹配，即类似于跟踪的多部分匹配问题，将非常有趣.0致谢0我们衷心感谢Vector Institute的支持.RL获得了Connaught国际奖学金、RBC奖学金和NSERC的支持. SF感谢Vector Institute的加拿大CIFAR AI主席奖.这项工作的一部分还得到了NSERCCohesa基金和三星的支持. 我们感谢ReluPatrascu对基础设施的支持.39370参考文献0[1] Vijay Badrinarayanan，Fabio Galasso和RobertoCipolla. 视频序列中的标签传播. 在CVPR，2010年. 1, 20[2] Linchao Bao，Baoyuan Wu和Wei Liu.MRF中的CNN:基于CNN的高阶时空MRF中的视频对象分割.在CVPR，2018年. 1, 30[3] Luca Bertinetto，Jack Valmadre，Joao FHenriques，Andrea Vedaldi和Philip HS Torr.用于目标跟踪的全卷积孪生网络. 在ECCV.Springer，2016年. 20[4] James P Boyle和Richard L Dykstra.一种在Hilbert空间中找到凸集交集投影的方法.在《有序限制统计推断进展》中，第28-47页.Springer，1986年. 4, 50[5] Thomas Brox 和 Jitendra Malik.长期分析点轨迹的对象分割. 在ECCV. Springer, 2010. 20[6] Sergi Caelles, Kevis-Kokitsi Maninis, JordiPont-Tuset, Laura Leal-Taix´e, Daniel Cremers, 和 LucVan Gool. 单次视频对象分割. 在CVPR, 2017. 3, 60[7] Yuhua Chen, Jordi Pont-Tuset, Alberto Montes, 和Luc Van Gool. 基于像素度量学习的快速视频对象分割.在CVPR, 2018. 30[8] Jingchun Cheng, Sifei Liu, Yi-Hsuan Tsai, Wei-ChihHung, Shalini De Mello, Jinwei Gu, Jan Kautz,Shengjin Wang, 和 Ming-Hsuan Yang.学习在视频中分割实例的空间传播网络.arXiv预印本arXiv:1709.04609, 2017. 30[9] Jingchun Cheng, Yi-Hsuan Tsai, Wei-Chih Hung,Shengjin Wang, 和 Ming-Hsuan Yang.通过跟踪部分进行快速准确的在线视频对象分割. 在CVPR,2018. 2, 60[10] Frank Deutsch 和 Hein Hundal.Dykstra的循环投影算法的收敛速度: 多面体情况.《数值函数分析与优化》, 15(5-6):537–565, 1994. 50[11] Richard L Dykstra. 一种受限最小二乘回归的算法.《美国统计协会杂志》, 78(384):837–842, 1983. 4, 50[12] Matthi

下载后可阅读完整内容，剩余1页未读，立即下载