没有合适的资源?快使用搜索试试~ 我知道了~
10010110210310410510610730405060708090with bounding boxes throughout the video; the other aimsfor more fine-grained tracking, i.e. relocalize the objectswith pixel-level segmentation masks, also known as Semi-supervised Video Object Segmentation (Semi-VOS) [48].In this paper, we focus on the latter case, and will refer to itinterchangeably with dense tracking from here on.In order to train such dense tracking systems, most re-cent approaches rely on supervised training with extensivehuman annotations (see Figure 1). For instance, an Ima-geNet [10] pre-trained ResNet [18] is typically adopted as afeature encoder, and further fine-tuned on images or videoframes annotated with fine-grained, pixelwise segmenta-tion masks, e.g. COCO [40], Pascal [13], DAVIS [48] andYouTube-VOS [71]. Despite their success, this top-downtraining scheme seems counter-intuitive when consideringthe development of the human visual system, as infants cantrack and follow slow-moving objects before they are ableto map objects to semantic meanings. With this evidence, itis unlikely the case that humans develop their tracking abil-164790MAST:一种记忆增强的自监督跟踪器0Zihang Lai Erika Lu Weidi Xie Visual Geometry Group,Department of Engineering Science University of Oxford0{ zlai, erika, weidi } @robots.ox.ac.uk0摘要0最近对自监督密集跟踪的兴趣取得了快速进展,但性能仍远远落后于监督方法。我们提出了一种在没有任何注释的视频上训练的密集跟踪模型,其在现有基准测试中显著超过了以前的自监督方法(+15%),并且达到了与监督方法相当的性能。在本文中,我们首先重新评估了用于自监督训练和重建损失的传统选择,通过进行彻底的实验,最终阐明了最佳选择。其次,我们通过关键的记忆组件增强了现有方法。第三,我们在大规模半监督视频对象分割(又称密集跟踪)上进行了基准测试,并提出了一个新的度量标准:泛化能力。我们的前两个贡献产生了一个自监督网络,该网络首次在密集跟踪的标准评估指标上与监督方法竞争。在测量泛化能力时,我们表明自监督方法实际上优于大多数监督方法。我们相信这个新的泛化能力度量标准可以更好地捕捉密集跟踪的真实世界用例,并将激发对这个研究方向的新兴兴趣。代码将在https://github.com/zlai0/MAST发布。01. 引言0尽管人类视觉系统的工作机制在神经生理学层面上仍然有些不明确,但人们普遍认为追踪物体是婴儿在两三个月大时开始发展的一种基本能力。同样,在计算机视觉系统中,追踪在许多应用中起着关键作用,从自动驾驶到视频监控。给定第一帧中定义的任意对象,跟踪算法旨在在整个视频序列中重新定位相同的对象。在文献中,跟踪可以分为两类:第一类是视觉目标跟踪(VOT),其目标是重新定位对象0像素级注释数量(对数刻度)0DAVIS-2017 J&F(平均)0视频着色0CycleTimeCorrFlow0mgPFF0PReMVOS0OSVOS0OnAVO0RGMP0OSMN0FAVOS0FEELVOS 0RANet0VOSwL0AGAME0RVOS0SiamMask0我们的方法0图1:与DAVIS-2017基准测试中其他最新工作的比较,即给定第一帧注释的密集跟踪或半监督视频分割。所提出的方法在自监督方法中明显优于其他方法,并且甚至与在ImageNet、COCO、Pascal、DAVIS、Youtube-VOS上进行重度监督训练的方法相媲美。在x轴上,我们只计算像素级分割。符号说明:CINM [3],OSVOS [6],FAVOS [8],AGAME [28],VOSwL[31],mgPFF [33],CorrFlow [37],DyeNet [39],PReMVOS[41]。OSVOS-S [42],RGMP [44],RVOS [54],FEELVOS[56],OnAVOS [57],Video Colorization [59],SiamMask[61],CycleTime [64],RANet [65],OSMN [73]。09511001001750451400401000255003060020400408064800DAVIS-2017 YouTube-VOS0图2:仅训练一次,测试多个数据集:我们的自监督稠密跟踪模型在DAVIS-2017和YouTube-VOS数据集上的定性结果。左上角的数字表示视频中的帧数。对于所有示例,给出了第0帧的掩码,任务是沿着视频跟踪物体。我们的自监督跟踪模型能够处理具有挑战性的场景,如大幅度相机运动、遮挡和消除、大变形和尺度变化。0在视觉系统的早期发展阶段,至少不是以自上而下的方式(由语义监督)进行的。0与基于重度监督的上述方法相比,最近引入的自监督方法[37, 59, 60,64]更符合神经生理学的直觉方向。虽然不需要任何标记数据,但这些方法的性能仍远远不及监督方法(图1)。0我们在自监督方法的基础上提出了一种改进的跟踪器,称为记忆增强的自监督跟踪器(MAST)。与之前的自监督方法类似,我们的模型通过学习特征表示来进行跟踪,从而实现帧之间的像素级对应关系;然后根据这些对应关系将给定的分割掩码传播到后续帧上。我们做出了三个主要贡献:首先,我们重新评估了自监督训练和重构损失的传统选择,通过进行彻底的实验来确定最佳选择。其次,为了解决跟踪器漂移的挑战(即随着物体外观的变化或被遮挡,如果仅从最近的帧传播,每个后续预测都会变得不准确),我们通过关键的记忆组件进一步改进了现有方法。我们设计了一种粗到细的方法,以便有效地访问记忆库:两步注意机制首先粗略搜索候选窗口,然后计算细粒度匹配。我们进行实验证明了我们选择记忆帧的合理性,表明短期和长期记忆对于良好的性能至关重要。第三,我们在大规模视频分割数据集上进行基准测试,并提出了一个新的度量标准,即泛化能力,目标是0衡量跟踪已见和未见类别之间性能差距的方法,我们认为这更能捕捉到类别无关跟踪的真实世界用例。前两个贡献的结果是一个自监督网络,在DAVIS-2017(15%)和YouTube-VOS(17%)基准测试中显著超过所有现有方法,首次与监督方法竞争。我们的结果表明,可以在不使用任何语义注释的情况下学习到强大的跟踪表示,呼应了人类视觉系统的早期发展阶段。除了在现有指标上显著缩小与监督方法之间的差距之外,我们还证明了自监督方法在泛化能力上优于监督方法。在YouTube-VOS基准测试的未见类别中,我们超过了大规模分割数据集上训练的2018年挑战赢家算法PreMVOS[41]。此外,当我们分析已见和未见类别之间的性能下降时,我们发现我们的方法(以及其他自监督方法)的泛化差距明显小于监督方法。这些结果表明,与普遍认为的自监督方法由于性能较弱而尚不实用的观点相反,它们更具泛化能力(由于不会过度拟合标签),实际上在部署在真实世界环境中时更具有可取性,因为领域差异可能是显著的。02. 相关工作0密集跟踪(又称半监督视频分割)通常有两种方法:基于传播和基于检测/分割。where ⟨·, ·⟩ refquery (Q) and key (K) are feature representations computedby passing the target frame It to a Siamese ConvNet Φ(·; θ),i.e. Qt = Kt = Φ(It; θ), At is the affinity matrix rep-resenting the feature similarity between pixel Iit and Ijt−1,value (V) is the raw reference frame (It−1) during the train-ing stage, and instance segmentation mask during inference,achieving reconstruction or dense tracking respectively.A key element in self-supervised learning is to set theproper information bottleneck, or the choice of what inputinformation to withhold for learning the desired feature rep-resentation and avoiding trivial solutions. For example, inthe reconstruction-by-copying task, an obvious shortcut isthat the pixel in It can learn to match any pixel in It−1with the exact same color, yet not necessarily correspondto the same object. To circumvent such learning shortcuts,Vondrick et al. [59] intentionally drop the color informationfrom the input frames. Lai and Xie [37] further show that asimple channel dropout can be more effective.64810以前的方法将密集跟踪任务表述为从第一帧到连续帧的掩码传播问题。为了利用相邻两帧之间的时间一致性,许多基于传播的方法通常尝试建立光流或度量学习的密集对应关系[20,21,29,41,56]。然而,计算光流仍然是一个具有挑战性但尚未解决的问题。我们的方法放宽了光流的一对一亮度恒定性约束和空间平滑性的约束,允许每个查询像素可能与多个参考像素建立对应关系。另一方面,基于检测/分割的方法使用复杂的检测或分割网络来处理跟踪任务,但由于这些模型在训练过程中通常不是类别无关的,因此它们通常需要在目标视频的第一帧上进行微调推断[6,41,42],而我们的方法不需要微调。0近年来,视频的自监督学习产生了丰富的研究成果。由于在线数据的丰富性,已经探索了各种利用视频中的时空信息进行表示学习的方法[1,4,11,14,15,22,24,25,26,27,32,38,43,59,63,67,68]。[14,43,66]利用时空排序来学习视频表示。最近,Han等人[17]通过在原始视频上进行自监督对比学习,学习了强大的视频表示用于动作识别。更相关的是,[37,59]最近利用视频中颜色的自然时间一致性,训练了一个用于跟踪和对应任务的网络。我们在第3.1节中详细讨论了这些工作。在这项工作中,我们提出使用可微分的记忆模块来增强自监督跟踪算法。我们还纠正了它们训练过程中的一些缺陷。0增强记忆的模型是指具有预测存储库的计算架构。这些模型通常涉及在循环过程中隐式更新的内部存储器,例如LSTM[19]和GRU[9],或者可以使用基于注意力的过程进行读写的显式存储器[2,12,16,36,51,53,62,70]。记忆模型已经用于许多应用,包括阅读理解[51],摘要[50],跟踪[69],视频理解[7]以及图像和视频字幕[70,74]。在密集视觉跟踪中,流行的增强记忆模型将关键帧视为记忆[45],并使用注意机制从记忆中读取。03. 方法0提出的密集跟踪系统MAST(Memory-AugmentedSelf-SupervisedTracker)是一个概念上简单的密集跟踪模型,可以通过自监督学习进行训练,即零手动注释。0在训练过程中,只需要第一帧的对象掩码,而在推断过程中,只需要第一帧的对象掩码。在第3.1节中,我们提供了先前自监督密集跟踪算法的相关背景和后续章节中将使用的术语。接下来,在第3.2节中,我们指出了这些工作的弱点,并提出了对训练信号的改进。最后,在第3.3节中,我们提出了记忆增强作为现有自监督跟踪器的扩展。03.1. 背景0在本节中,我们回顾了与本工作密切相关的先前论文[37,59]。一般来说,自监督跟踪的目标是学习能够实现强大的对应匹配的特征表示。在训练过程中,将一个代理任务作为通过线性组合来重建目标帧(It)的任务,其中权重测量像素之间的对应关系的强度。具体而言,对于每个输入帧I t,存在一个三元组({Q t,Kt,Vt}),分别指代查询(Query)、关键(Key)和值(Value)。为了重建第t帧中的像素i(ˆI it),使用注意机制从原始序列中的一部分先前帧复制像素。这个过程被形式化为:0ˆ I i t =j A ij t 0A ij t = exp � Q i t,K j t−1 � / ∑ p exp � Q it,K p t−1 �(2)03.2. 改进的重建目标0在本节中,我们重新评估了以前自监督密集跟踪工作中的选择,并提供了直观的理解。zi(3)zi =64820对于我们的最佳选择,我们在第5节中进行了实证支持。03.2.1 不相关的颜色空间0人类视觉系统的大量实验表明,颜色可以看作是主要颜色(即红色(R),绿色(G)和蓝色(B))的组合。因此,大多数相机和发光颜色显示将像素表示为强度的三元组:(R,G,B)∈R3。然而,RGB表示的一个缺点是通道之间的相关性往往非常高[49],如图3所示。在这种情况下,[37]提出的通道丢失不太可能作为有效的信息瓶颈行为,因为丢失的通道几乎总是可以由剩余的通道之一确定。0(a)RGB散点图(b)Lab散点图0图3:RGB和Lab颜色空间通道之间的相关性。我们从DAVIS数据集的一个序列(snowboard)中随机选择100,000个像素,并绘制RGB通道之间的相对关系。这种现象通常适用于所有自然图像[49],因为所有通道都包含亮度的表示。值已经进行了归一化以进行可视化。0为了克服这个限制,我们假设在不相关的表示(例如Lab)中进行的丢失将迫使模型学习适用于自监督密集跟踪的不变性;即如果模型无法从观察到的通道预测缺失的通道,则它被迫学习更强大的表示,而不是依赖于局部颜色信息。03.2.2 分类与回归0在关于上色和生成模型的最近文献中[46,75],颜色被量化为离散类别并被视为多项分布,因为从灰度图像生成图像或预测颜色通常是一个非确定性问题;例如,一辆车的颜色可以合理地是红色或白色。然而,这种约定对于自监督学习对应关系来说是次优的,因为我们不是试图为每个像素生成颜色,而是估计参考帧中像素的精确重定位。更重要的是,量化颜色会导致信息丢失,这对于学习高质量的对应关系来说可能至关重要。我们推测,直接优化重建帧(ˆIt)和真实帧(It)之间的回归损失将提供更具辨别性的训练信号。在这个0在这项工作中,目标函数 L 定义为Huber损失:0L = 10n0�0其中0� 0 . 5( ˆ I i t − I i t ) 2 ,如果 | ˆ Ii 0| ˆ I i t − I i t | − 0 . 5 ,否则(4)0其中 ˆ I i t ∈ R 3 指的是从参考帧 I t − 1中复制到重建帧中的RGB或Lab范围标准化为[-1,1]的像素,并且 I t 是时间点 t 的真实帧。03.3. 增强记忆的跟踪0到目前为止,我们已经讨论了从单个先前帧传播掩码的直接注意力机制。然而,随着预测的递归进行,由于物体的遮挡和消失引起的错误往往会累积并最终降低后续的预测结果。为了解决这个问题,我们提出了一种基于注意力的跟踪器,它有效地利用了多个参考帧。03.3.1 多帧跟踪器0我们的跟踪模型概述如图4所示。总结跟踪过程:给定当前帧和多个过去帧(内存库)作为输入,我们首先计算当前帧的查询(Q)和所有内存帧的键(K)。在这里,我们遵循先前工作中的一般过程,如第3.1节所述,其中K和Q是从共享权重特征提取器计算得到的,V等于输入帧(在训练期间)或对象掩码(在测试期间)。然后,使用Q与内存中所有键(K)之间计算的关联性来根据V对每个查询像素进行预测。请注意,我们不对参考帧放置任何权重,因为这应该在关联矩阵中编码(例如,当目标和参考帧不相似时,相应的相似性值自然较低;因此,参考标签对目标像素的标记贡献较小)。对于性能好的关键像素的决策非常重要。由于关联矩阵的二次爆炸(例如,[37]的网络为480p视频生成的关联矩阵具有超过10亿个元素),包括先前看到的所有像素计算量过大,为了减少计算量,[37]利用视频中的时间平滑性并应用受限的注意力,仅计算与查询像素位置周围ROI中的像素的关联性。然而,时间平滑性假设仅适用于时间上接近的帧。为了高效处理时间上相距较远的帧,我们提出了一种两步注意力机制。第一阶段涉及与内存库中的帧进行粗略像素匹配,以确定可能包含良好像素的ROI trainingtesting trainingtesting trainingtesting64830关注和检索0编码0Q0当前0I:图像 M:掩码 Enc.:共享权重编码器0I I 或 M0值0编码0K0V0键 值0编码0键 值0编码0测试0训练0目标帧预测(图像或掩码)0过去的帧(内存)0查询0I I I 或 M I I 或 M0图4:MAST的结构。当前帧用于计算查询以从内存中检索(键和值)。在训练期间,我们使用原始视频帧作为自我监督的值。一旦编码器训练完成,我们使用实例掩码作为值。详见第3.3节。0与查询像素匹配。在第二阶段,我们提取ROI并计算细粒度像素匹配,如第3.1节所述。总体而言,该过程可以总结为算法1。0算法1 MAST01:选择m个参考帧Q1,Q2,...Qm2:根据3.3.2(公式5和6)为每个参考帧本地化ROIR1,R2,...Rm 3:计算目标帧Q与每个ROI之间的相似度矩阵Aijt= �Qj,Rit�4:输出:像素的标签通过聚合ROI像素的标签(加权其亲和度得分)确定。03.3.2 ROI定位0ROI定位的目标是从记忆库中非局部地估计候选窗口。直观上,对于短期记忆(时间上接近的帧),不需要扩张,因为视频中自然存在空间-时间一致性;因此,ROI定位变为受限的注意力(类似于[37])。然而,对于长期记忆,我们的目标是考虑到对象可能出现在参考帧的任何位置。我们将这两种情况统一到一个单一的ROI定位框架中进行学习。形式上,对于查询像素i在It中,为了从帧(It-N)中定位ROI,我们首先并行计算Hit-N,x,y,即i与扩张窗口中所有候选像素之间的相似度热图:0Hit-N,x,y = softmax(Qit ∙ im2col(Kit-N, γt-N)) (5)0其中γt-N是在帧It-N中进行窗口采样的扩张率,im2col是将输入特征图基于扩张率转换为矩阵的操作。具体来说,在我们的实验中,扩张率与当前帧与过去帧在记忆库中的时间距离成正比,即γt-N∝N。我们使用γt-N = �(t-N)/15�。0然后可以通过soft-argmax操作计算ROI的中心坐标:0Pix,y 0x,y Hix,y � C (6)0其中Pix,y是查询像素Iit在帧It-N中候选窗口的估计中心位置,C是与窗口中像素对应的网格坐标(x,y),im2col是基于扩张率将输入特征图转换为矩阵的操作。通过从记忆库的不同参考帧动态采样所有候选键,我们仅使用这些局部化的键计算细粒度匹配分数,以非局部方式实现受限的注意力。通过这种设计,模型可以高效地访问高分辨率信息以进行对应匹配,而不会产生大的物理内存开销。04.实现细节0训练:为了公平比较,我们在所有实验中采用与[37]相同的架构(ResNet18)作为我们的特征编码器(如补充材料所示)。该网络生成具有原始图像1/4空间分辨率的特征嵌入。该模型以完全自监督的方式进行训练,意味着模型使用随机权重进行初始化,并且我们不使用除原始视频序列之外的任何信息。我们在两个训练数据集OxUvA[52]和YouTube-VOS(仅原始视频)上报告主要结果。我们报告第一个结果是为了与最先进的方法[37]进行公平比较,第二个结果是为了获得最佳性能。作为预处理,我们将所有帧调整大小为256×256×3。在我们的所有实验中,我们使用I0,I5(仅当当前帧的索引大于5时)作为长期记忆,使用It-5,It-3,It-1作为短期记忆。经验上,我们发现帧数的选择对性能影响很小,但同时使用长期和短期记忆是必要的。在训练过程中,我们首先使用一对64840输入帧,即一个参考帧和一个目标帧作为输入。其中一个颜色通道以概率p =0.5随机丢弃。我们使用批量大小为24进行100万次迭代的端到端训练,使用Adam优化器。初始学习率设置为1e-3,在0.4M、0.6M和0.8M次迭代后减半。然后,我们使用多个参考帧(我们的完整的记忆增强模型)以较小的学习率2e-5进行微调,进行另外100万次迭代。如第3.2.2节所讨论的,模型使用重构和真实帧之间的光度损失进行训练。推理:我们使用训练好的特征编码器计算目标帧中像素与参考帧中像素之间的亲和矩阵。然后,亲和矩阵用于传播所需的像素级实体,例如密集跟踪情况下的实例掩码(算法1)。图像特征对齐:由于内存限制,先前方法中的监督信号都是在双线性下采样的图像上定义的。这导致步幅卷积层和来自朴素双线性下采样的图像之间存在空间错位。我们通过直接在步幅卷积中心进行采样来处理特征嵌入和图像之间的空间错位。这个看似微小的改变实际上对下游跟踪任务带来了显著的改进(表4)。更多实现细节可以在arXiv版本中找到(https://arxiv.org/abs/2002.07793)。05. 实验0我们在两个公共基准上对我们的模型进行了基准测试:DAVIS-2017 [48]和当前最大的视频分割数据集YouTube-VOS[71]。前者包含150个高清视频,超过30K个手动实例分割,后者包含超过4000个90个语义类别的高清视频,总共超过190k个实例分割。对于这两个数据集,我们在官方的半监督视频分割设置(即密集跟踪)上对所提出的自监督学习架构(MAST)进行基准测试,其中给定第一帧的真实实例分割掩码,并且目标是将掩码传播到后续帧。在第5.1节中,我们报告了我们的完整模型和几个消融模型在DAVIS基准上的性能。接下来,在第5.2节中,我们通过在大规模的YouTube-VOS数据集上进行基准测试来分析我们模型的泛化能力。标准评估指标。我们使用区域相似度(J)和轮廓准确度(F)来评估跟踪的实例掩码[47]。泛化能力指标。为了证明跟踪算法在无类别场景中的泛化能力,即训练集和测试集中的类别是不相交的,YouTube-VOS还明确评估了在未知类别上的性能。因此,我们评估了一个泛化差距(Gen.Gap)0在第5.3节中,我们定义了泛化差距,它被定义为已知和未知对象类别之间的平均性能差异:0Gen. Gap = (J seen - J unseen) + (F seen - F unseen)0注意,所提出的度量指标旨在明确惩罚在已知类别上的性能明显优于未知类别的情况,同时在未知类别上的性能高于已知类别时提供奖励。05.1. DAVIS-2017上的视频分割05.1.1 主要结果0在表1中,我们将MAST与DAVIS-2017基准上的先前方法进行了比较。可以观察到两个现象:首先,我们提出的模型明显优于所有其他自监督方法,超过了先前的最先进方法CorrFlow(J & F上的65.5 vs50.3的显著差距)。其次,尽管只使用ResNet18作为特征编码器,但我们使用自监督学习训练的模型仍然可以超过使用更重的架构的监督方法。05.1.2 消融研究0为了检查不同组件的影响,我们通过逐个删除一个组件进行了一系列的消融研究。所有模型都在OxUvA上进行训练(除了对不同数据集的分析),并在DAVIS-2017半监督视频分割(即密集跟踪)上进行评估,无需任何微调。0颜色空间的选择。如表2所示,我们将输入帧转换为不同的颜色空间进行不同的实验,例如RGB、Lab或HSV。我们发现,使用Lab颜色空间训练的MAST模型始终优于其他颜色空间,验证了我们的猜想,即在相关性较低的颜色空间中进行dropout可以得到更好的自监督密集跟踪特征表示,如第3.2.1节所解释的那样。此外,我们将默认设置与使用交叉颜色空间匹配任务训练的模型进行了比较(表3)。这意味着输入和训练目标使用不同的颜色空间,例如输入帧为RGB,损失函数在Lab颜色空间中定义。有趣的是,性能显著下降,我们假设这可能是因为所有的RGB通道都包含亮度的表示,使其与Lab中的亮度高度相关,因此起到了弱信息瓶颈的作用。0损失函数。作为我们训练过程的一个变化,我们尝试了不同的损失函数:对量化颜色的交叉熵损失和带有Huber损失的光度损失。如表2所示,使用实值光度损失的回归明显优于分类。lab-coatbreakdancedrift-chicane64850方法 骨干网络 有监督 数据集(大小) J & F(均值) ↑ J(均值) ↑ J(召回率) ↑ F(均值) ↑ F(召回率) ↑0Vid. Color. [59] ResNet-18 � Kinetics(800小时) 34.0 34.6 34.1 32.7 26.8 CycleTime † [64] ResNet-50 � VLOG(344小时) 48.7 46.4 50.0 50.048.0 CorrFlow † [37] ResNet-18 � OxUvA(14小时) 50.3 48.4 53.2 52.2 56.0 UVC � [72] ResNet-18 � Kinetics(800小时) 59.5 57.7 68.3 61.3 69.8MAST(我们的方法) ResNet-18 � OxUvA(14小时) 63.7 61.2 73.2 66.3 78.3 MAST(我们的方法) ResNet-18 � YT-VOS(5.58小时) 65.5 63.373.2 67.6 77.70ImageNet [18] ResNet-50 � I (1.28M, 0) 49.7 50.3 - 49.0 - OSMN [73] VGG-16 � ICD (1.28M, 227k) 54.8 52.5 60.9 57.1 66.1 SiamMask [61]ResNet-50 � IVCY (1.28M, 2.7M) 56.4 54.3 62.8 58.5 67.5 OSVOS [6] VGG-16 � ID (1.28M, 10k) 60.3 56.6 63.8 63.9 73.8 OnAVOS [57] ResNet-38 �ICPD (1.28M, 517k) 65.4 61.6 67.4 69.1 75.4 OSVOS-S [42] VGG-16 � IPD (1.28M, 17k) 68.0 64.7 74.2 71.3 80.7 FEELVOS [56] Xception-65 � ICDY(1.28M, 663k) 71.5 69.1 79.1 74.0 83.8 PReMVOS [41] ResNet-101 � ICDPM (1.28M, 527k) 77.8 73.9 83.1 81.8 88.9 STM [45] ResNet-50 � IDY(1.28M, 164k) 81.8 79.2 - 84.3 -0表1:DAVIS-2017验证集上的视频分割结果。数据集符号:I=ImageNet,V=ImageNet-VID,C=COCO,D=DAVIS,M=Mapillary,P=PASCAL-VOC,Y=YouTube-VOS。对于数据集的大小,我们报告自监督方法的(原始视频长度),报告有监督方法的(图像级注释数,像素级注释数)。�表示并行工作。†表示原始出版物后报告的最高结果。数值越大越好。0视频上色 TimeCycle CorrFlow 我们的方法 OSVOS(有监督)0真实值0无预测0无预测0图5:我们的方法与先前的自监督方法。其他方法在处理遮挡时存在系统性错误。第1行:舞者自身遮挡较大。第2行:狗被杆子反复遮挡。第3行:三个女人在前景中的男人遮挡后重新出现。0验证我们的猜想,即在颜色量化过程中的信息丢失导致自监督跟踪的表示较差(如第3.2节所述),因为训练信号较少具有区分性。0图像特征对齐。为了评估用于将特征与原始图像对齐的对齐模块,我们将其与CorrFlow[37]使用的直接双线性图像下采样进行比较。表4的结果显示,我们的方法的性能提高了约2.2%。0通过利用更多帧的动态内存。我们将默认网络与仅具有短期内存或长期内存的变体进行比较。结果如表5所示。虽然仅有短期内存或长期内存可以进行合理的预测,但组合模型实现了最高性能。定性预测(图2和图5)也证实了改进来自于减少的跟踪漂移。例如,当发生严重遮挡时,我们的模型能够从时间上相隔较远的帧中关注和检索高分辨率信息。05.2. Youtube视频对象分割0我们还在Youtube-VOS验证集上评估了MAST模型(474个视频,91个对象类别)。由于没有其他自监督方法在该基准上进行测试,我们直接将我们的结果与有监督方法进行比较。如表8所示,我们的方法在性能上明显优于其他自监督学习方法(64.2 vs.46.6),甚至与许多高度有监督的方法达到可比较的性能。05.3. 一般化0作为评估类别无关跟踪的另一个指标,YouTube-VOS数据集方便地对已见和未见的对象类别进行了分别测量。因此,我们可以估计模型在分布不同的样本上的测试性能,以评估其对更具挑战性的未见的真实场景的泛化能力。从最后两列可以看出,我们在未见对象中在所有算法中排名第二。在这些未见类别中,我们甚至比DAVIS2018和YouTube-VOS高3.9%。+2.1+2.3+4.2+4.664860颜色 损失 J(平均) F(平均)0RGB Cls. 42.5 45.3 Reg. 52.7 57.10HSV Cls. 32.5 35.3 Reg. 54.3 58.60Lab Cls. 47.1 48.9 Reg. 61.2 66.30表2:训练颜色空间和损失:我们最终使用Lab颜色空间和回归损失训练的模型在密集跟踪任务上表现优于所有其他模型。数值越高越好。0输入 损失 J(平均) F(平均)0Lab RGB 48.2 52.0 RGB Lab 46.849.90Lab Lab 61.2 66.30表3:交叉颜色空间匹配与单一颜色空间:与单一颜色空间相比,交叉颜色空间匹配显示出较差的结果。0I-F 对齐 J(平均) F(平均)0No 59.1 64.0 Yes 61.2 66.30表4:图像特征对齐:使用改进的图像特征对齐实现改进了结果。数值越高越好。0记忆 J(平均) F(平均)0Only long 44.6 48.7 Only short57.3 61.80Both 61.2 66.30表5:记忆长度:删除长期记忆或短期记忆中的任何一个都会导致性能下降。0传播 J(平均) F(平均)0Soft 57.0 61.7 Hard 61.2 66.30表6:软传播与硬传播:对每个像素的类别概率进行量化(硬传播)相对于传播概率分布(软传播)显示出较大的增益。0数据集 J(平均) F(平均)0OxUvA 61.2 66.3 ImageNet VID 60.0 63.9YouTube-VOS(无注释) 63.3 67.60表7:训练数据集:所有数据集都提供了合理的性能,其中O和Y稍微优越。我们推测这些数据集中的更高质量的视频和更大的对象类别使我们的模型受益。0方法 监督 总体 ↑ 已见 未见 泛化差距 ↓0J ↑ F ↑ J ↑ F ↑0Vid. Color.[59] † � 38.9 43.1 38.6 36.6 37.4 3.9 CorrFlow[37] � 46.650.6 46.6 43.8 45.6 3.9 MAST (Ours) � 64.2 63.9 64.9 60.3 67.7 0.40OSMN[73] � 51.2 60.0 60.1 40.6 44.0 17.75 MSK[30] � 53.1 59.9 59.545.0 47.9 13.25 RGMP[44] � 53.8 59.5 - 45.2 - 14.3 OnAVOS[57] � 55.260.1 62.7 46.6 51.4 12.4 RVOS[55] � 56.8 63.6 67.2 45.5 51.0 17.15OSVOS[6] � 58.8 59.8 60.5 54.2 60.7 2.7 S2S[71] � 64.4 71.0 70.0 55.561.2 12.15 PreMVOS[41] � 66.9 71.4 75.9 56.5 63.7 13.55 STM[45] �79.4 79.7 84.2 72.8 80.9 5.10表8:Youtube-VOS数据集上的视频分割结果。数值越高越好。根据基准测试的评估协议,我们将性能分为“已见”和“未见”类别(“已见”是指训练集)。†表示基于我们的重新实现的结果。未见类别的第一和第二最佳结果分别用红色和蓝色突出显示。2018年视频分割挑战赛冠军PreMVOS[41]是一个复杂的算法,使用多个大型手动标记的数据集进行训练。为了公平比较,我们只在YouTube-VOS训练集上训练我们的模型。我们还以与基线相同的方式重新训练了两种最相关的自监督方法。即使只从所有类别的一个子集中学习,我们的模型也能很好地泛化到未见类别,其泛化差距(即已见和未见对象之间的性能差异)接近零(0.4)。这个差距比任何基线都要小(平均=11.5),这表明与大多数其他使用标签训练的算法相比,我们的算法具有独特的优势。0通过在大量未标记的视频上进行训练,我们学习到了一种有效的跟踪表示,而无需任何人工注释。这意味着学到的网络-0工作不仅限于特定的对象类别(即训练集中的类别),而更有可能成为跟踪的“通用特征表示”。事实上,唯一与我们的方法在泛化能力上可比较的有监督算法是OSVOS(2.7vs.0.4)。然而,OSVOS使用测试序列中的第一幅图像来执行昂贵的领域适应,例如一次性微调。相反,我们的算法不需要微调,这进一步证明了它的零样本泛化能力。请注意,与其他自监督方法相
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功