没有合适的资源?快使用搜索试试~ 我知道了~
30220HODOR:从静态图像中学习的用于视频对象重新分割的高级对象描述符0Ali Athar 1 Jonathon Luiten 1 , 2 Alexander Hermans 1 Deva Ramanan 2 Bastian Leibe 101 德国亚琛工业大学 2 美国卡内基梅隆大学0{athar,luiten,hermans,leibe}@vision.rwth-aachen.de deva@cs.cmu.edu0摘要0现有的视频对象分割(VOS)最先进方法学习帧间的低级像素-像素对应关系以在视频中传播对象掩码。这需要大量密集注释的视频数据,这种注释成本高昂,并且在视频中的帧之间存在很大的冗余。鉴于此,我们提出了HODOR:一种新颖的方法,通过有效利用注释的静态图像来理解对象外观和场景背景来处理VOS。我们将图像帧中的对象实例和场景信息编码为强大的高级描述符,然后可以使用这些描述符在不同的帧中重新分割这些对象。因此,与没有视频注释的现有方法相比,HODOR在DAVIS和YouTube-VOS基准测试上实现了最先进的性能。不需要任何架构修改,HODOR还可以通过利用循环一致性从单个注释的视频帧周围学习视频上下文,而其他方法则依赖于密集的时间一致性注释。源代码:https://github.com/Ali2500/HODOR01. 引言0当前最先进的视频对象分割(VOS)方法学习图像帧之间的“时空对应关系”(STC),即像素-像素对应关系。这些方法[7, 28,47]取得了令人印象深刻的结果,但需要大量密集的时间注释视频进行训练。这些数据集需要大量的人力工作,并且注释在很大程度上是冗余的,因为视频中的图像帧高度相关。最大的公开可用的VOS数据集[46]仅包含几千个视频。相反,存在着数十万个注释图像的单个图像数据集[14,20]。在这项工作中,我们探讨以下问题:是否可以仅使用单个图像注释来学习VOS?为此,我们提出了HODOR:用于对象重新分割的高级对象描述符(我们的方法)。0(a)时空对应关系[6, 7, 19, 23, 28, 32, 33, 36, 47, 48]。0(b)用于对象重新分割的高级对象描述符(我们的方法)。0图1.以往的方法(a)学习低级像素-像素对应关系以传播对象掩码。HODOR(b)学习高级对象描述符以在不同帧中重新分割对象。0D escriptors for O bject Re-segmentation,一种从图像中提取给定对象和背景的强大高级描述符的新颖VOS框架。然后,这些描述符用于在另一个视频帧中查找和分割这些对象,即重新分割它们,即使对象移动或外观发生变化(图1b)。这与STC方法根本不同,后者学习低级的像素-像素对应关系(图1a)。其基本思想是高级对象描述符可以在没有连续视频数据的情况下学习,因为这仅需要理解对象外观,而不需要对运动进行推理。因此,HODOR可以使用仅有的单个图像进行VOS训练,而无需任何视频运动增强(图2a),并且仍然可以应用于视频(图2b)。这在STC方法中是不可能的,因为学习对应关系需要比较多个不同的帧。我们方法的关键在于它强制使对象外观信息通过简洁的描述符传递,即信息瓶颈。这样可以防止描述符轻易地总结对象掩码的形状和位置。因此,网络学会了简洁地编码对象外观,并将描述符与每个像素匹配,以便30230训练图像0特征0HOD OR0参考图像特征0HOD OR0目标图像特征0a) 在静态图像上进行训练(无序列增强):b) 在视频上进行推理:0带注释的帧特征0HOD OR0HOD OR0c) 使用否则未标记的视频中的单个带注释的图像进行训练:0无标签帧特征0图2. HODOR的训练和推理策略。HOD: 高级对象描述符编码器。OR: 对象重新分割解码器。左图:HODOR可以使用单个带注释的图像进行训练(不使用序列增强)。中图:HODOR在视频中运行,通过将来自不同帧的特征输入解码器。右图: 训练HODOR可以利用无标签帧使用循环一致性。0在同一图像中重新分割对象。如果我们在单个图像训练策略中添加序列增强以增加网络的鲁棒性,HODOR在DAVIS[30]和YouTube-VOS[46]基准测试中优于所有使用类似增强图像序列训练的现有方法。这是因为STC方法只能从增强帧中学习简单运动的对应关系,因此无法很好地推广到真实视频的复杂运动。然而,基于高级对象外观和场景上下文的HODOR对这种差异更具弹性。HODOR还可以使用循环一致性在仅有一个帧被注释的视频上进行训练(图2c)。在不修改方法的情况下,我们可以简单地将掩码传播到无标签帧,然后反向传播回标记帧以应用损失。这是通过对软输入掩码进行完全可微的公式化来实现的,这允许梯度通过多个帧预测流动。基于此,我们的网络可以学习更加鲁棒的外观变化,而只需要单个带注释的帧。当前的STC方法无法在这种设置下进行训练。还有两个进一步的优点:编码器可以处理和模拟任意数量的对象之间的相互作用。这提高了性能,并使推理速度在很大程度上独立于对象的数量。这与许多作品[6, 7, 28,47]形成对比,其中网络的一部分需要针对每个对象进行单独的前向传递。(2)解码器可以在推理过程中同时关注多个过去帧上的对象描述符,而几乎没有额外开销。因此,即使该方法只能在单个图像上进行训练,我们仍然可以在推理过程中加入时间上下文。总结一下:我们提出了一个新颖的VOS框架,使用高级描述符在视频中传播对象。这使得我们可以仅使用单个图像进行训练,无论是否有其他无标签的视频帧。我们的模型可以同时处理任意数量的对象,并且可以在推理过程中轻松地融入时间上下文。我们在DAVIS和YouTube-VOS上取得了无需视频注释的方法的最新成果。02. 相关工作0我们将现有的VOS方法分为三类:像素-像素、对象-对象和对象-像素。尽管不是所有的方法都是如此。0尽管这些方法完全符合这个分类法,但将我们的方法与现有的工作进行比较仍然是有用的。0像素-像素对应。这种方法学习像素之间的低级时空对应关系,并使用这些对应关系在视频帧之间传播对象掩码。早期的VOS方法[8, 13, 16,29]使用预计算的光流作为像素-像素对应的度量,FEELVOS[36]是第一个在VOS框架内以端到端方式学习这些对应关系的方法,而STM[28]在此基础上有了显著的改进。几乎所有后续的VOS方法[6, 7, 19, 23, 32, 33, 47,48],包括两个当前的最新方法(STCN [7]和AOT-L[48]),都基于时空对应范式,每个方法都提出了各种新颖的技术来提高速度和性能。HODOR通过学习像素和高级对象描述符之间的对应关系与这一范式不同。0自监督像素-像素对应。一组方法使用无标签视频通过自监督学习学习像素-像素对应关系。为此,一些方法[15,41]通过颜色化和图像重建的训练目标来优化网络。其他方法[12,44]通过将随机图像块在视频序列中传播来学习循环一致性。HODOR也可以通过循环一致性进行训练,但其目标是学习高级对象描述符而不是低级像素对应关系。0对象-对象比较。另一种常见的VOS方法涉及直接比较对象表示[16,18,24,39,49]。这些方法首先为目标图像学习对象提案,然后将这些提案与先前跟踪的对象进行匹配。这种范式受到多目标跟踪方法[1,37,45]的启发,通常涉及空间相似性约束和对象ReID向量[11,16]进行时间关联。这些方法需要在特定的对象类别集上进行提案生成的训练,因此对新颖类别的泛化能力较差。0对象像素比较。与上述像素-像素和对象-对象方法相比,另一种方法是通过学习给定对象集的高级表示,然后通过直接将这些表示与目标帧中的像素特征进行比较,重新对目标帧中的这些对象进行分割。早期的VOS方法遵循这种范式。FeaturesBackbone(1)30240特征0图3.HODOR架构由骨干网络、HOD编码器和OR解码器组成。Q、K和V分别表示查询、键和值。编码器将所有对象和背景单元(此处为2×2)联合编码为描述符,然后解码器将其解码为掩码。某些步骤被简化(最终上采样)或省略(全连接层、跳跃连接)。详见第3节。0通过在给定第一帧对象掩码上进行推理期间微调分割网络[2,25,29,38],将对象表示嵌入到网络的权重中,然后直接应用于后续帧。这种方法非常缓慢,通常效果不佳。与我们的工作最相似的是SiamMask[43]。它为每个对象学习一个向量表示,该向量表示与像素特征直接进行比较,以确定像素是否属于该对象。然而,这种方法在大量带注释的视频数据上进行训练,并且与HODOR和其他现有方法相比,效果不好。据我们所知,该类别的其他方法甚至没有取得竞争性的VOS结果。在线微调方法不再流行后,VOS基准排行榜被基于对象-对象关联的方法[16,24]主导,直到FEELVOS[36]和STM[28]的出现。自那时以来,最先进的VOS方法几乎完全基于像素-像素对应范式。03. 方法0HODOR网络架构由三个组件组成:(1)骨干网络,用于学习多尺度图像特征,(2)高级对象描述符(HOD)编码器,和(3)对象重新分割(OR)解码器。通过HODOR,我们重新审视了学习VOS的对象级描述符的想法,这在大多数情况下已被STC方法取代。为此,我们的网络架构使得对象的本质能够被编码,而无需直接记忆对象掩码的形状或位置。我们还引入了注意力层,允许同时处理多个对象,并允许它们的描述符之间进行交互。这些注意力层还可以使描述符与图像特征(在编码器中)以及图像特征与描述符(在解码器中)相互丰富。该架构如图3所示。给定一个RGB图像I∈ RH × W ×3,骨干网络在4×和8×降采样的输入分辨率尺度上产生一对C维特征图F ={F4,F8}。假设图像I包含O个感兴趣的对象,其中0分割掩码Mf={Mf1,...,fO}。我们首先计算由不属于任何对象的所有像素组成的背景掩码。然后,将这个背景掩码分割成B个单独的掩码Mb={Mb1,...,bB},通过将其分成一个具有B个单元的网格来实现。03.1. 编码器0编码器接受掩码集合Mf∪Mb作为输入0和图像特征图F8作为输入,并产生包含每个前景对象的C维描述符的集合Df={df1,...,dfO},以及包含每个背景补丁的C维描述符的集合Db={db1,...,dbB}。直观地说,这些描述符是它们各自补丁(对象或背景)的简洁潜在表示。每个描述符通过对应补丁的像素特征集合进行平均池化来初始化。然后,它们通过一系列类似于Transformer的层进行迭代和联合优化。每个层由描述符集合Df∪Db之间的多头自注意力组成,然后是多头交叉注意力,其中这些描述符根据掩码Mb∪Mf从特征图F8吸收特定于补丁的信息。为了简化表示,让我们使用D(l)=Df∪Db∈R(O+B)×C来表示编码器第l层的描述符集合和M=Mf∪Mb∈R(O+B)×H×W来表示掩码集合0对于补丁掩码集合,我们的编码器的第l层可以描述如下:0D(l)←−D(l-1)+SelfAttn(D(l-1))0D(l)←−D(l)+MaskedCrossAttn(D(l), F8, M)0D(l)←−D(l)+FFN(D(l))0编码器接受前景掩码集合Mf∪Mb和图像特征图F8作为输入,并产生包含每个前景对象的C维描述符的集合Df={df1,...,dfO},以及包含每个背景补丁的C维描述符的集合Db={db1,...,dbB}。直观地说,这些描述符是它们各自补丁(对象或背景)的简洁潜在表示。每个描述符通过对应补丁的像素特征集合进行平均池化来初始化。然后,它们通过一系列类似于Transformer的层进行迭代和联合优化。每个层由描述符集合Df∪Db之间的多头自注意力组成,然后是多头交叉注意力,其中这些描述符根据掩码Mb∪Mf从特征图F8吸收特定于补丁的信息。为了简化表示,让我们使用D(l)=Df∪Db∈R(O+B)×C来表示编码器第l层的描述符集合和M=Mf∪Mb∈R(O+B)×H×W来表示掩码集合(3)30250从嵌入中获取键和值,但是键和值是从图像特征图F8产生的。我们将这个操作描述为“Masked”,因为我们将像素特征F8与掩码M进行条件化,以使描述符更好地关注其各自的补丁。这可以通过替换描述符D和F8之间的点积亲和度来实现0补丁掩码集合的第l层可以描述如下:0可微分的软注意力掩蔽。我们提出了一个更好的公式,它是可微分的,允许掩码M是非二进制的(即具有软值),并且为网络提供了更多灵活性来关注相关的图像特征。给定掩码M∈[0,1]和可学习的正标量α,我们定义注意力操作如下:0我们为了文本的清晰性而省略了典型的LayerNorm(参见[3])。FFN表示由三个全连接层和ReLU激活函数组成的前馈网络。SelfAttn表示多头注意力[35],其中查询、键和值是通过将输入应用于单独的线性投影而产生的。MaskedCAttn表示多头注意力,其中查询是通过从嵌生的0C0这与Vaswani等人提出的标准注意力操作完全相同,只是多了一个“+αM”的项。在实践中,每个注意力头被分配一个不同的可学习参数α,该参数在训练过程中进行优化。因此,不同的注意力头根据不同的掩码大小关注像素特征。这使得网络能够学习关注其各自补丁特征的描述符,但如果对于训练目标有益的话,也能够捕捉到图像其他部分的场景信息。这受到Press等人在NLP中在时间注意力中使用加性偏移的启发。因此,编码器被设计为学习在对象/背景掩码条件下的描述符。这个公式包含了一个固有的信息瓶颈,它不允许输入掩码的形状或位置直接“泄漏”到描述符中。具体来说,在公式2中,掩码M只能影响softmax(∙)项,即值(V)相加的权重,但M不能直接复制到注意力操作的输出中。03.2. 解码器0编码器通过将图像特征F条件化于补丁掩码M_f∪M_b来生成描述符D_f∪D_b,而解码器则相反:它通过将图像特征F条件化于描述符D_f∪D_b来(重新)生成补丁掩码M_f∪M_b。该架构类似于编码器,由一系列具有多头注意力的变压器层组成。然而,现在图像特征图F_8通过迭代地关注描述符来更新。还有两个额外的区别:(1)交叉注意力不涉及任何掩码。(2)自注意力不能用于具有大空间尺寸的特征图。0由于自注意力的二次内存复杂性,它在处理大尺寸的特征图时会导致内存溢出,因此我们使用3×3的可变形卷积[9]。由于自注意力的目的是通过允许像素与所有其他像素进行交互来丰富像素特征,可变形卷积可以被认为具有类似的效果,其中像素可以与一组学习偏移量的其他像素进行交互。尽管最近的研究[10,51]提出了用于图像特征的高效注意力变体,但我们发现可变形卷积仍然需要更少的内存。让我们用F_8(l)表示解码器的第l层特征图,并用D ∈ R (O + B) ×C表示编码器生成的描述符。第l个解码器层可以描述为(为了简洁起见,省略了LayerNorms):0F_8(l) ←− F_8(l-1) + DeformConv(F_8(l-1))0F_8(l) ←− F_8(l) + CrossAttn(F_8(l), D)0F_8(l) ←− F_8(l) +0对于CrossAttn,线性投影从特征图F_8(l)生成查询,而键和值是描述符D的两个单独的线性投影。出于空间原因,我们在图3中省略了最后的FFN。最终的解码器层输出特征图F_8(L),我们通过双线性上采样2倍后与图像特征图F_4相加。然后,我们应用3×3卷积得到F_4(L),在这个尺度上,基于F_4(L)和描述符D之间的点积计算每个像素的对象logits。然后将得到的logits上采样到输入分辨率,并在描述符维度上应用softmax,得到输出掩码M。形式上,M ∈ R H × W ×(O + B)的计算如下:0F_4(L) ←− Conv(F_4 + upsample2(F_8(L)))0M ←− softmax(upsample4(F_4(L)∙D))03.3. 视频对象分割0到目前为止,我们讨论了解码器如何能够重现输入给编码器的补丁掩码。然而,由于描述符对图像中的对象进行了鲁棒的表示,解码器可以在任何存在这些对象的图像I'中重新分割它们。让我们用I_t、F_t、D_t和M_t分别表示给定视频剪辑的第t帧的图像帧、特征图、描述符和掩码。给定T帧剪辑的第一帧I_1和第一帧中O个对象的分割掩码M_f1,我们可以学习一组描述符D_f1∪D_b1,它们编码了这些对象以及背景(参见第3.1节)。然后,我们可以通过将特征图F_t和第一帧描述符D_f1∪D_b1输入解码器来在另一帧I_t中分割这些对象。然而,这种策略在具有显著场景变化和对象相互遮挡的长视频中不会很好地推广。30260实际上,由于对象相互交叉和遮挡,我们因此按顺序逐帧传播对象掩码:t: 1 −→ 2 −→ ... −→T。在每一帧t,编码器根据前一帧预测的掩码M_t-1创建更新的对象描述符D_f_t∪D_b_t(或者当t-1=1时,使用初始输入掩码)。然后,解码器使用这些更新的描述符在帧t中分割对象。0时间历史。为了减轻视频中的大型对象外观和场景变化,现有的VOS方法[7, 28,47]在预测当前帧的对象掩码时,将多个过去帧的时间上下文结合起来。HODOR也可以高效地实现相同的功能:回想一下,解码器是以集合Df∪Db为条件的0其中包含可变数量的对象/背景描述符。为了在预测第t帧的掩码时纳入时间历史,我们只需取要纳入的过去Tp帧的描述符集合的并集,即Dft−Tp∪Dbt−Tp∪...∪Dft−1∪Dbt−1。在解码器中,特征图F8t将通过同时关注Tp帧历史中的所有描述符进行细化。然后,与描述符的点积将产生一组掩码Mt∈RH×W×Tp×(O+B)。我们在时间维度上进行聚合,以获得每个O +B补丁的掩码(我们在我们的方法中使用max)。这种形式有三个优点:(1)它几乎不会产生计算开销,因为我们只需要每个过去帧的O +B描述符,而不是完整的特征图。(2)我们可以仅使用单个图像进行训练,并在推理过程中仍然纳入时间上下文,而无需进行任何架构更改。(3)我们可以在网络的单次前向传递中分割任意数量的对象。这与几种VOS方法(例如[7,28])形成对比,后者在网络的至少一部分中需要每个对象的前向传递。03.4. 训练0HODOR的问题形式使其对于可以利用的训练数据类型非常灵活。对于基本设置,我们只需要一个带有注释对象掩码的静态图像数据集。然而,如果有可用的带注释的图像序列,可以通过简单地在给定序列上传播对象(和背景)掩码来利用它们。此外,我们的问题形式使得可以对视频中的对象掩码进行顺序传播,以进行端到端的可微分,即使我们只监督给定剪辑的最后一帧预测的掩码,错误也将在整个时间序列中向后传播到第一帧。这使得HODOR也可以在具有任意稀疏和时间不一致的对象ID注释的视频的未标记帧上进行训练。给定包含T帧的训练剪辑,其中只有帧t =1被注释,我们可以将给定的对象掩码从t:1−→T传播,然后在反向传播中进一步传播它们。0时间顺序从t:T−→1。然后,我们可以使用循环一致性原则[12, 44]来监督预测的t =1的掩码与输入掩码相同。我们的方法固有的信息瓶颈使其能够在这种设置下有效地训练,而不是简单地在序列中复制输入掩码。04. 实验评估0数据集。我们在DAVIS'17 [30]和YouTube-VOS 2019[46]基准上评估HODOR。DAVIS数据集包括60个训练序列,30个验证序列和30个测试序列。YouTube-VOS是一个更大的数据集,包括3471个训练视频和507个验证视频。对于这两个基准,任务是在每个视频中分割和跟踪任意数量的对象。每个对象的真实掩码仅在对象首次出现的第一帧中提供。评估指标是J分数(Jaccard指数),F分数(F1分数)以及两者的平均值(J和F)被视为最终指标。0实现细节。我们的骨干网络是SwinTransformer的'Tiny'变体[21],具有特征金字塔网络(FPN),我们的编码器和解码器都由5层组成。对于涉及静态图像的所有训练设置,我们使用COCO[20]数据集。每个序列包含T =3帧。我们在每个图像/序列中提供1到4个随机选择的标记对象。编码器和解码器权重随机初始化,而骨干网络则从经过训练的用于目标检测的现成检查点初始化[20]。模型使用AdamW优化器[22]进行训练,批量大小为8,在4个NvidiaRTX3090GPU上并行化。在推理过程中,我们使用包含7个过去帧的时间历史。推理在NvidiaRTX3090上以�17帧/秒的速度运行,与实例数量无关。描述符的维度C =256。有关更多实现细节,请参见补充材料,例如学习率调度,训练时间。04.1. 训练数据多样性0表1显示了在不同设置下在DAVIS'17验证集上对HODOR的结果。为了比较,我们还报告了STCN[7],当前最先进的VOS方法的结果,适用时。在单个图像上,HODOR达到了61.6的J&F,这与早期的VOS方法[2,38]在在线微调时的水平相当。STCN本质上需要一个图像序列,无法在这种设置下进行训练。在第2行,我们通过重复相同的图像T次而不进行任何增强来训练图像序列。而现有的时空对应方法在这种设置下崩溃,因为它们学会了简单地复制输入掩码,HODOR达到了69.4的J&F。尽管这种设置不提供额外的“信息”给网络,但J&F显著提高(61.6→69.4)。这是因为模型在训练过程中由于顺序传播而遇到了噪声输入掩码,即使中间帧掩码不准确,模型也能够稳健地跟踪视频中的对象,因为它在训练过程中遇到了类似的掩码。在第3行,我们训练了通过对静态图像应用T个随机仿射变换生成的图像序列。在这种设置下,我们的J&F进一步提高到77.5。这是因为这样的增强粗略地近似了视频动作,从而使学习到的对象描述符对对象外观和场景变化更加鲁棒。现有的VOS方法也普遍在这样的增强图像序列上进行训练作为预训练步骤,然而在这种设置下我们的表现优于它们(77.5 vs.75.8)。该模型的定性结果可以在图4和补充材料中看到,包括对对象描述符的分析。然后,我们探索了HODOR如何有效地利用视频序列中的单帧注释。对于接下来的两个实验,我们利用YouTube-VOS [46]和DAVIS[30]的训练集,但假设每个视频(中间帧)只有一个帧被注释(我们只使用了98,797个可用视频帧注释中的3,531个)。在第4行,我们通过类似地增强选定的帧来微调从第3行开始的模型。这进一步将J&F从77.5提高到79.0。另一方面,STCN的表现更差(72.8),可能是因为过拟合。30270图4. DAVIS2017验证集上的定性结果:我们省略了给定的第一帧掩码,只显示其他帧的结果。请注意,鱼、猪、绳子、枪和肥皂盒车在用于训练我们的模型的COCO中没有进行注释。0表1. DAVIS2017验证集上各种训练设置的J&F分数。所有实验中,序列长度T= 3。CC:循环一致性。0训练设置 HODOR STCN [7]01 单个图像 61.6 -02 T×复制的图像(无增强) 69.4 -03 T×复制的图像(带增强) 77.5 75.804 T×复制的视频帧(带增强) 79.0 72.805 T帧,1个注释(带CC) 80.6 -06 时间密集视频 81.3 85.40与第1行相比,J&F显著增加(61.6→69.4)。这是因为模型在这种设置中由于顺序传播而遇到了噪声输入掩码。在推理过程中,即使中间帧掩码不准确,模型也能够稳健地跟踪视频中的对象,因为它在训练过程中遇到了类似的掩码。在第3行,我们通过对静态图像应用T个随机仿射变换生成的图像序列进行训练。在这种设置下,我们的J&F进一步提高到77.5。这是因为这样的增强粗略地近似了视频动作,从而使学习到的对象描述符对对象外观和场景变化更加鲁棒。现有的VOS方法也普遍在这样的增强图像序列上进行训练作为预训练步骤,然而在这种设置下我们的表现优于它们(77.5vs.75.8)。该模型的定性结果可以在图4和补充材料中看到,包括对对象描述符的分析。然后,我们探索了HODOR如何有效地利用视频序列中的单帧注释。对于接下来的两个实验,我们利用YouTube-VOS [46]和DAVIS[30]的训练集,但假设每个视频(中间帧)只有一个帧被注释(我们只使用了98,797个可用视频帧注释中的3,531个)。在第4行,我们通过类似地增强选定的帧来微调从第3行开始的模型。这进一步将J&F从77.5提高到79.0。另一方面,STCN的表现更差(72.8),可能是因为过拟合。0对于第5行,我们从第3行微调模型,但这次使用循环一致性,通过在每个视频中随机采样T-1个未标记的帧围绕单个注释帧。这将J&F从77.5提高到80.6。这比第4行的79.0的J&F更高,表明HODOR可以有效地从未标记的帧中学习视频动作线索。现有的监督STC方法无法使用这种策略进行训练,因为它们缺乏阻止网络简单复制输入掩码所需的信息瓶颈,并且无法通过预测的掩码进行梯度反向传播。最后,我们在具有完全监督的时间密集视频注释上进行训练(第6行),将J&F从77.5提高到81.3。STCN在这里表现更好(85.4的J&F),因为使我们能够在单个图像和循环一致性的未标记帧上进行训练的相同信息瓶颈也限制了网络对细粒度视频动作线索的访问。相比之下,像素对像素对应方法缺乏这样的瓶颈,因此能够更好地利用密集的视频数据。尽管如此,据我们所知,我们是第一个使用不基于像素对像素对应的方法在DAVIS'17上超过81的J&F。还要注意,我们的方法具有更好的扩展性,因为我们每个视频只需要一个帧注释,而不是现有方法所需的密集注释。04.2.与最先进方法的比较0在表2中,我们报告了根据使用的训练数据类型对现有VOS方法进行分类的结果。对于HODOR,我们提供了两种设置的结果:(1)在COCO [ 20]的增强图像序列上训练(参见表1,第3行),(2)在每个训练集视频中只使用一个标记帧进行循环一致性微调后的结果(参见表1,第5行)。我们对所有三个基准测试使用相同的模型检查点。为了完整起见,我们还列出了不需要任何注释的方法的结果,以及在密集注释视频上训练的方法的结果。在“标记图像”类别中,HODOR在COCO上训练后在DAVIS'17上达到了77.5 J & F,超过了所有现有的方法。这包括早期的方法[ 2 , 25 ,OLJ &FJFJ &FJFJ &F JusFusJsFsUI†DINO [4]71.467.974.9--------FEELVOS [36]71.569.174.057.855.260.5-----AFB-URR [19]74.673.076.1---79.674.182.678.883.1e-OSVOS [26]✓77.274.480.064.860.968.671.474.374.371.766.0STM [28]81.879.284.3---79.472.880.979.784.2CFBI [47]81.979.184.674.871.178.581.075.283.080.685.1EG-VOS [23]82.880.285.2---80.274.080.980.785.1KMN [32]82.880.085.677.274.180.381.475.383.381.485.6DMN+AOA [18]84.581.487.578.374.881.782.776.784.882.687.0HMMN [33]84.781.987.578.674.782.582.577.385.081.786.1STCN [7]85.482.288.676.573.179.682.778.285.981.185.4AOT-L [48]85.482.488.481.277.385.184.578.486.784.088.830280表2.DAVIS和YouTube-VOS数据集的定量结果。对于YouTube-VOS,我们关注2019年的验证集,但在只有这些结果可用时,我们使用2018年的验证集结果(稍高,用灰色突出显示)。常见的做法是分别评估Youtube-VOS的未见过(us)和已见过(s)的对象类别,UI †:未标记图像,OL:在线微调,�:我们重新训练。0DAVIS验证集17 DAVIS测试集17 YouTube-VOS验证集18 /验证集190标记图像0OSVOS [ 2 ] � 60.3 61.6 69.1 49.0 45.6 52.5 - - - - - OnAVOS [ 38 ] � 63.6 61.0 66.1 57.7 54.8 60.5 - - - - - OSVOS S [ 25 ] �68.0 64.7 71.3 57.5 - - - - - - - STM(5x Mix) [ 28 ] 60.0 57.9 62.1 - - - 69.1 - - - -0DMN+AOA(COCO)[ 18 ] 67.9 65.8 70.0 - - - - - - - - KMN(5x Mix)[ 32 ] 68.9 67.1 70.8 - - - - - - - - STCN(5x Mix)[ 7] 75.8 73.1 78.6 - - - - - - - - CFBI(COCO)[ 47 ] � 57.6 55.8 59.4 54.0 51.7 56.3 68.4 64.7 70.9 68.2 69.7 STCN(COCO)[ 7] � 55.0 52.3 57.6 51.7 49.5 54.0 69.4 66.4 73.9 67.8 69.30HODOR(我们的,COCO) 77.5 74.7 80.2 65.0 62.6 67.4 71.7 65.5 71.4 73.7 76.00HODOR(我们的,COCO + CC) 80.6 77.8 83.4 66.0 63.6 68.4 72.4 63.9 70.5 75.8 79.30未标记的0视频0MAST [ 15 ] 65.5 63.3 67.6 - - - 64.9 61.5 68.4 64.3 65.3 STC-CRW [ 12 ] 67.6 64.8 70.2 - - - - - - - - MAMP [ 27](使用光流) 70.4 68.7 72.0 - - - 68.2 65.4 73.7 66.3 67.50标记视频029 , 38 ]执行在线微调(最佳得分:68.0 J & F fromOSVOS S [ 25]),还有当前最先进的方法,它们在类似的增强图像序列上进行预训练。其中表现最好的方法是STCN(75.8 J & F),比我们的77.5低1.7 J & F。值得注意的是,虽然DMN+AOA [ 18]使用COCO图像进行这一训练步骤,但STM [ 28 ]、KMN [32 ]和STCN [ 7 ]使用了5个图像数据集的集合[ 5 , 17 , 34 ,42 , 50 ](表中的“5xMix”)。为了验证这种差异不会对其他方法造成不利影响,我们使用它们各自的训练代码在COCO图像上重新训练了STCN和CFBI。这些结果在表中用“ �”标记。我们看到HODOR的表现优于两者,但对于YouTube-VOS来说,差异比DAVIS小。这些方法在这两个数据集上的性能差异较大的一个可能解释是,应用于静态图像的增强方法非常激进,使得物体在帧间发生了显著的运动。这更好地逼近了YouTube-VOS视频,其中物体也经常发生大的运动。相比之下,DAVIS视频中的物体运动较轻微,因为这些0方法学习像素级对应关系,但如果对象运动的性质与训练时遇到的不同,它们在推断时表现不佳。最后,我们还报告了在YouTube-VOS和DAVIS训练集中的每个视频的中间最注释帧上进行循环一致性微调后的结果。这将DAVIS验证集、DAVIS测试集和YouTube-VOS验证集的 J & F分别提高了3.1、1.0和0.7个点。04.3. 割舍0我们进行割舍以调查我们的设计选择,并在表3中报告结果。附录中提供了额外的割舍和失败案例。0多实例。与大多数其他VOS方法不同,HODOR可以在单次前向传递中处理所有对象。这使得它能够有效利用多对象上下文并学习更好的描述符。对于实验(1),我们仅使用一个前景实例进行训练和推断,并通过在YouTube-VOS和DAVIS训练集中的每个视频的中间最注释帧上运行像素级argmax 来合并多次前向传递。30290推断时减少对象逻辑。这将 J & F从77.5降低到71.5,明显突出了我们的多实例方法的好处,该方法还通过消除每个对象的前向传递来增加推断速度。0编码器中的注意力掩码。回顾第3.1节,我们使用我们提出的软注意力机制将描述符与它们各自的补丁掩码相关联。实验(2)展示了没有注意力掩码的结果。因此,描述符专门化到各自目标的唯一线索是它们的初始化(目标像素特征的平均池化);这将 J & F降低到74.4。对于实验(3),我们通过将掩码阈值设为0.5并将注意力操作中的 K T Q 矩阵条目设置为−∞,对掩码为零的像素进行硬注意力掩码。这种策略产生了类似降低的 J &F,为74.5。使用我们学习到的软注意力掩码的性能提升表明它有助于编码器更好地将描述符与给定的对象/背景掩码相关联。0编码器/解码器层。对于实验(4-7),我们割舍了编码器和解码器的深度。将它们中的深度从5减少到3会将 J & F降低约1。对于零层情况,5个编码器层被由3个全连接层组成的单个MLP替换,而5个解码器层则被两个3 × 3卷积替换。对于零层解码器,J & F降低到74.4,而零层编码器将 J & F降低到72.8。这表明虽然两个组件在整体性能中起着重要作用,但编码器的影响更大。一个原因可能是编码器中的自注意力允许对象描述符进行交互,而在解码器中,这种交互不如可变形卷积那样深入。0解码器中的可变形卷积。由于内存限制,我们使用 3 × 3的可变形卷积 [9]代替自注意力操作(参见第3.2节)。在实验(8)中,我们使用常规的 3 × 3 卷积,观察到 J & F从77.5降低到75.1。这凸显了用能够关注远处空间位置的操作替代自注意力的重要性。0背景描述符。我们使用九个背景描述符,通过将图像分成3×3的网格并对每个单元格中的背景像素特征进行平均池化来初始化。这使得HODOR能够更灵活地建模背景。对于实验(9),我们改为使用单个背景描述符,将 J & F从77.5降低到76.2。05. 讨论0局限性。除了我们在密集视频数据上的性能(在第4.1节中讨论)之外,我们方法的另一个局限性是当场景中存在具有相似外观的干扰对象时,HODOR有时会强制它-0表3. DAVIS 2017验证集上的几个消融结果。0设置 J & F J F01 单个前景实例 71.5 69.2 73.902 编码器中没有掩码 74.4 71.5 77.2 3 编码器中的硬掩码 74.571.8 77.104 编码器中的层数:5 → 0 72.8 70.5 75.2 5编码器中的层数:5 → 3 76.6 73.9 79.406 解码器中的层数:5 → 0 74.4 71.7 77.1 7解码器中的层数:5 → 3 76.4 73.6 79.308 解码器中的常规卷积 75.1 72.0 78.209 1x背景描述符 76.2 73.7 78.70HODOR 77.5 74.7 80.20即使对象已经移出视频场景,我们的方法仍然可以分割对象。由于这种情况在YouTube-VOS视频中更频繁出现,这是我们在YouTube-VOS上的J &F分数低于DAVIS的原因之一。在未来的工作中,可以制定改进的训练策略,以更好地优化模型以应对这些具有挑战性的情况。0伦理考虑。与大多数计算机视觉方法一样,双重使用困境不能被忽视。然而,我们的方法不太可能比专门用于这些应用的方法更有效地用于促进负面用例(例如人口跟踪或监视)。另一个重要的伦理方面是,数据集注释通常由剥削劳动力进行,他们没有最低工资和/或法律约束的福利。减少对此类注释的需求因此可以被视为我们方法的一个积极方面。06. 结论0我们提出了一种新颖
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功