全局优化用于无监督视频对象分割

149 浏览量更新于2023-10-16 收藏 2.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5892一种简单而强大的全局优化无监督视频对象分割方法Georgy Ponimatkin1Nermin Samet1Yang Xiao1 Yuming Du1 Renaud Marlet1，2 Vincent Lepetit11LIGM，EcoledesPonts，Uni vGustav eEif fel，CNRS，Marne-la-Valle' e，France2Valeo.ai，巴黎，法国georgy. enpc.fr代码和补充材料：https://ponimatkin.github.io/ssl-vos摘要我们提出了一个简单的，但功能强大的方法，在视频中的非监督对象分割。我们引入了一个目标函数，其最小值表示输入序列上的主要显着对象的掩模。它只依赖于独立的图像特征和光流，这可以使用现成的自监督方法来获得它随序列的长度而扩展，不需要超像素或稀疏化，并且它可以推广到不同的数据集，而无需任何特定的训练。该客观函数实际上可以从应用于整个视频的频谱聚类的形式导出我们的方法在标准基准点（DAVIS 2016，SegTrack-v2，FBMS 59）上实现了与现有技术水平相当的性能，同时在概念上和实际上都要简单得多。1. 介绍虽然两个研究团体致力于非监督视频对象分割[46，1，86，45]和对象发现[71，82，37，62]通常保持分离，它们的共同目标是分割视觉数据中的对象，而不依赖于这些对象的手动标签。这种能力对于自治系统在开放世界中的进化和交互至关重要。这也是计算机视觉的一个基本问题，因为人类有能力在没有指导的情况下学习新的物体。物体的外观和运动是实现这一任务的重要线索。然而，仍然存在许多挑战：Ob-bits可以与背景共享相似的外观，它们的视觉外观可能不统一，不同的部分可以向不同的方向移动。因此，许多方法仍然依赖于某种监督，至少在学习提取视觉特征时是这样。我们在这里提出了一个简单的方法来无监督视频对象分割。它利用了无监督学习的最新进展，在一个简单但强大的，新颖的优化方案的对象我们从(a)(b)（c）第（1）款图1：（a）通过我们的光谱聚类公式在单帧中对DINO[7]的自监督图像特征进行分割（b）使用来自ARFlow[42]的相同自监督图像特征和光流获得的分割，但仍然来自单个帧。（c）在对全帧序列进行优化之后，使用相同的特征和ARFlow估计的光流，用我们的完整方法获得的最终分割自监督特征，如DINO [7]，MoCo-v3 [11]，SWAV [6]或Barlow Twins [89]作为外观线索，以及来自RAFT[68]或ARFlow [42]等方法的光流。DINO，MoCo-v3，SWAV，Barlow Twins和ARFlow方法是1单独使用时，DINO功能已经可以提供令人惊讶的良好对象分割，但仍低于最先进的水平，特别是对于视频。然而，通过我们的优化方案，我们可以达到与更复杂的方法相当甚至更好的性能我们的优化从输入序列的每帧中对象掩码的初始估计开始。然后在整个视频序列上优化掩码。我们表明，我们的优化功能可以来自频谱聚类的视频序列。然而，谱聚类很难对长序列进行处理，因为它需要计算一个巨大质量的特征向量之一为了获得易于处理的问题，基于谱聚类的先前方法依赖于超像素[23]或图稀疏化[35]。然而，超像素可以在-1术语仍在波动，因为DINO方法在原始论文中被称为“自监督”，而ARFlow被称为“非监督”。在整个论文中，我们将在“不使用手动注释”的意义上使用自监督和非监督5893∼×(a)(b)（c）第（1）款图2：对新数据集的泛化。依靠谱聚类而不是学习可以更好地推广到新的数据集。(a)[82]的学习方法在新序列上表现不佳。(b)光谱聚类在相同的光流表现明显更好，即使没有优化。(c)我们完整方法的结果。在物体边界产生伪影，超像素和稀疏化都需要仔细的参数调整。此外，即使使用快速方法提取相关特征向量，如幂迭代聚类（PIC）[40]，这些公式的复杂性在序列长度上也是先验相比之下，我们的方法只需要基于帧的图像特征和光流独立地为每个帧计算特征向量，因此基本上随帧的数量线性缩放。简而言之，我们的方法产生了一个易于处理的近似谱聚类的整个序列。具体地说，在DAVIS2016数据集的视频上[55]，我们的方法平均比我们的全谱聚类方法快170，即，[77]第十七章：重要的是，对于实际应用，我们的方法可以应用于不同的数据集，而无需重新训练。这与基于学习的分割方法相反。如示于图2、它们不能很好地推广到新数据。总之，我们的贡献是从谱聚类中推导出一种新的目标函数，从而为视频中的对象发现和分割提供了一种简单有效的优化方法。此外，我们的方法可以说是第一个纯粹依赖于自我监督的功能，而不需要任何手动符号。尽管如此，它在几个标准的具有挑战性的数据集上优于以前的方法，包括一些只依赖监督训练的方法最后，它可以直接被...应用于不同的数据集，无需任何训练或调整。2. 相关工作我们在这里讨论的工作对象发现和无监督视频对象分割，因为这两个是密切相关的，我们的工作。我们还讨论了无监督特征学习的工作，我们依赖于图像特征提取。2.1. 对象发现对象发现的目的是定位图像或视频中的对象有些作品依赖于包含同一类对象的图像集合，并使用聚类[20]，图像匹配[58，13]，主题发现[59，63]或用于选择区域建议的优化[71]。这些作品的一个限制是，这样的集合可能很难获得，其质量将严重影响性能。Du等人[18]提出了发现和分割对象从看不见的类的基础上的实例掩码预测模型训练只看到类，而我们的方法不需要任何监督。最近，一些作品[44，5，24]采用自底向上的方法，并通过利用像素颜色或斑块特征之间的相似性来分割图像中的对象。这些作品只表现在合成图像上，容易受到图像纹理或色彩的影响。相比之下，我们的方法旨在使用未标记的野外视频发现对象，而无需任何监督。[82，37]和[26]也可以被认为是对象细化方法，因为它们的目标是在给定一些视频序列的情况下分割主要对象。[82，37]提出使用基于注意力的网络来仅从光流计算轨迹嵌入。[82，37]的一个主要限制是光流不足以分割静态对象。此外，即使[82，37]不需要任何标记的数据，他们仍然必须在不同的数据集上使用不同的策略训练他们的网络，这使得它难以推广，如图2所示。正如我们将在第4节中展示的那样，我们的方法不需要任何训练，在所有基准上取得良好成绩。IKE [26]提出了一种迭代细化方法：在第一阶段中，视频首先被馈送到用于掩码初始化的图形模块中。然后，在第二阶段中，初始化的掩码用于训练分割网络，其预测用作第一阶段中的图形模块的初始化。在第一阶段，光流被用来产生长期的时空轨迹。光流可能是非常嘈杂的，因此通常可能难以可靠地获得长轨迹。我们将在实验部分证明，与[26]相比，我们的方法可以实现更好的结果，同时也很简单。一些方法[82，37，85]也被呈现为自监督或无监督，而它们实际上依赖于监督光流方法，如RAFT [68]。相比之下，我们的方法能够实现最先进的性能，同时只使用从视频中学习的自监督光流。2.2. 无监督视频对象分割无监督视频对象分割（UVOS）的目标是在没有任何人为干预的情况下，对视频序列中最显著的对象进行一致的分割和跟踪。UVOS的方法可以分为两类，这取决于它们是否需要标记数据。方法如[46，86，45，1，76，52，39，72，47，54，74，65]使用标记的图像或标记的视频5894^pq每个函数，以及函数×+∈Σ^p+1^ppp+1CE（xp+1，wp+1（xp））表示掩码xp+1与流wp+1对掩码xp的扭曲之间的偏差，以及^xp和xpp来训练他们的网络进行视频分割。此外，一些作品[91，80，84，57，90，83，33，70，12，61，32，70]还利用诸如对象边界之类的低级线索来获得更好的遮罩预测。这些方法的一个主要限制是它们严重依赖于它们的大规模良好注释的训练数据，这在实践中很难获得相比之下，我们提出的方法是完全自我监督的，不需要任何标记数据。也有几个作品[21，14，53，2，4，56，34，50，64，85，75，82，87]，其可以在没有任何标记数据的情况下分割视频中的主要对象。所有这些工作的一个主要限制是，他们都认为视频中的对象上的像素共享相似的运动模式，因此，当对象是静态的或以与背景相同的速度移动时，他们的方法可能会失败，而我们提出的方法结合了外观线索和运动线索，可以在很大程度上缓解这个问题。目前，DyStaB [84]是视频对象分割的最佳非监督方法。该方法由三部分组成：静态模型和动态模型（都基于DeepLab后端[8]），以及基于[85]的inpainter网络。这三个网络通过对抗性损失以迭代的方式联合训练，以获得最终的分割结果，并且利用了通过CRF的显著后处理相比之下，我们的方法不需要训练-除了图像特征和光流，可以获得现成的-而对抗性损失可能很难训练。更重要的是，我们的方法要简单得多，同时实现了与DyStaB相似的性能。2.3. 自我监督学习TokenCut [77]受传统光谱分割方法的启发，DSM [49]首先构建了一个拉普拉斯矩阵，它是颜色信息和自监督Transformer特征的组合。接下来，使用拉普拉斯矩阵的特征向量对图像进行分解。我们的方法类似于这些方法，因为我们的目标也是基于图形公式来检测和分割显著对象。主要区别在于：（1）我们的目标是在视频中而不是静止帧中发现对象，为了保证时间一致性，我们扩展了光流的亲和性，建立了帧间的连通性;(ii)我们介绍了一种新的方法来优化整个视频有效。此外，我们表明，使用幂迭代聚类[40]代替谱聚类的全特征向量分解，可以显著加快运行时间（0.1s/帧vs. 17秒/帧）。3. 方法3.1. 方法概述我们考虑大小为H W的N个视频帧的序列，其中H和W是帧的行数和列数。在每个帧p中，主要显著对象的分割被建模为软的矢量化图像掩模XpRHW。在帧p处的实际图像掩模通过基于xp将像素分成两个聚类来恢复，从而将感兴趣的对象与背景分离。我们假设我们得到一个粗略的掩码估计x，p wp（xp）使用从p到q的光流将帧p中的掩模xp变形到帧q。然后，我们最小化的目标函数是：最近的自监督方法[79，9，17，27，10，25，7]提出使用实例分类管道来训练特征提取网络，其将每个图像视为L（{xp}p）=pλCE（xp，xp）+CE（xp+1，wp+1（xp））+ CE（xp，wp其中CE（·）表示交叉熵。（xp+1）），（一）一个单一的类，并训练网络来区分图像直觉， CE（x，x）表示的偏差是-从大型图像集合中裁剪而成，无需任何手动注释。特别是，DINO [7]引入了一种方法，这使得网络以自我监督的方式训练，吐温掩模ppp是初始掩码估计;学习类特定功能。CE（xp，wp）的计数器（xp+1））;最后，λ是一个con-i-受这种能力的激励，使用自监督特征在图像中发现对象最近受到了关注[77，49，62]。LOST [62]在种子选择和扩展策略中利用自监督功能，并在给定图像的情况下定位主要对象。与LOST密切相关，TokenCut[77]和深度谱方法（DSM）[49]提出了基于图形的方法，这些方法使用自监督Transformer特征来发现和分割显著对象。TokenCut [77]构建了一个图，其中视觉标记是节点，标记之间的相似性得分是加权图的边。他们制定的分割问题作为一个规范化的图形切割，并解决它使用，ing谱聚类与特征分解。类似于恒定权重以平衡两种偏差的显著性（与初始掩码的差异与流量差异）。如图3所示，我们的目标函数可以很容易地解释：优化从序列的每个帧的掩模的第一估计开始;它促使帧p中的掩模在被从帧p到帧p的光流扭曲之后与帧p + 1中的掩模对准。帧p+1，反之亦然，同时保持掩模接近它们的初始化。这种方法实际上可以从谱聚类方面的问题的公式推导出来，它也提供了一种计算初始估计x的方法。我们提出了这个公式和推导我们的方法如下。5895A≥一一W^{A}AAAA一一^×W×一一p：现成的方法：不可学习的块输入视频序列外观特征扩展网络光流预测网络亲和基质建设谱聚类初始化初始掩码全局优化最终面具图3：我们的方法概述。给定一个视频序列，从第一次估计得到的对象掩模的光谱聚类对每个图像独立，我们优化的掩模，使它们保持接近第一次估计，同时与光流一致。我们优化检索的掩模的目标函数可以从应用于视频序列的谱聚类得到。我们的方法只能依赖于自我监督的视觉特征。3.2. 用于分割的Vanilla谱聚类我们首先简要介绍谱聚类，例如在[60，48]中所做的图像分割的背景然后，我们讨论如何将其扩展到视频分割。对光谱聚类的更多细节感兴趣的读者可以参考[73]中的教程。对于谱聚类的图像分割，我们考虑一个亲和矩阵，我们将表示。的每一行和每一列对应于一个图像位置。行i和列j上的系数ij 0应该表示行i的图像位置和列j的图像位置的可能性有多大。列j属于同一簇。在下文中，为了简单起见，我们将用对应的图像位置来标识行索引i和列索引j根据谱聚类理论，可以从归一化亲和矩阵W的第二大特征向量X2获得良好的分割掩码，定义为W=D−1A，（2）其中=diag（jij i）是度矩阵。X2的系数对应于图像位置. 通过脱粒-通过保持它们，可以获得该片段的二进制掩码。为了将这种方法扩展到视频中的对象分割，我们也从亲和矩阵开始。每行和每列对应于视频帧中的图像位置。我们将用（pi）（qj）表示的系数：（pi）是对应于帧p中的图像位置i的行的索引的符号;类似地，（qj）是对应于帧q中的图像位置j的列的索引。系数（pi）（qj）应该表示帧p中的图像位置i和帧q中的图像位置j对应于同一对象的可能性。为此，我们将使用它们的局部图像特征和光流之间的相似性。然而，这导致非常大的矩阵，并且因此也导致非常大的矩阵尺寸NHWNHW，其在标准基准中的典型序列的数量级为109109。这在实践中显然太大了，用于存储和用于特征向量计算。一些方法利用超像素[23]或图稀疏化[35]来降低计算复杂度，但它使方法复杂化;我们的方法更直接，更具可扩展性。另一种方法[48]是用经典问题检索第二大本征向量X2X2=arg maxX<$WX使得<$X <$2=1，（3）其可以使用幂迭代聚类（PIC）近似但有效地计算[40]。然而，它仍然不能缩放为常见的视频长度。尽管如此，如下所述，我们采用该方法：不是建造明确地和挣扎地为了计算其第二大特征向量X2，为了可缩放性，我们通过PIC独立地为每个帧p计算特征向量Xp我们使用的数据，包括帧间信息，以加强时间的一致性，从而导致更大的准确性。这使得我们的初始化方案类似于To- kenCut [77]，除了我们利用近似本征向量提取而不是全谱分解以及包含相邻帧之间的光流连通性。在表1（b）中，我们显示了使用基线TokenCut方法和我们的近似无光流之间的差异。这些初始掩模使用广告帧间一致性约束进行细化，从而产生比原始谱聚类问题更易处理的优化问题。在下文中，我们引入合适的亲和矩阵，我们以两种方式使用：为了有效地计算良好的初始估计xp，并推导出方程中的公式。（1）作为项X的简化，我们希望最大化。3.3. 基于仿射矩阵的视频对象分割我们的亲和矩阵依赖于对象外观特征和光流特征：外观特征。对于这些，我们使用图像特征提取器，该图像特征提取器生成X5896p.，1if i+1p，qp，qpp+1一×一WIj我·Dp2. ..3. .矩阵0的情况。不属于三对角线的矩阵αϕ ⟨ϕ，j⊤∈⌊ ⌉在帧p的位置i处的对象。该想法是，在同一对象的不同位置处的特征应当倾向于看起来相似，而与位于其他对象上或背景上的特征不同。这种外观特征通常可以使用注释的如果光流将一个映射到另一个，则帧P和P+1很可能都属于同一对象，在这种情况下，它们的亲和度Fi，j应该很大，接近1;否则，我们将其设置为0。因此，我们采取：对象，或者像我们的例子一样，使用自监督方法，如DINO [7]或MoCo [11]。i，jp我p，p+10否则，=j、（6）光流特征。我们使用一个图像流提取器，它在帧p和帧q之间的位置i处产生光流R2：在帧p中的位置i处看到的东西也在帧q中的位置j = i + R 2处看到。这样的光流通常可以使用各种基于梯度的公式[22]来获得，或者使用注释流的数据集来学习[68，66，15，30]。在我们的例子中，它也可以使用自监督方法（如ARFlow [42]）来获得。亲和矩阵。我们将亲和矩阵定义如下：1F10. . .0.其中，n是最接近n的整数的向量。Fp同样使用从帧p+1到p的光流来定义。如果x表示矢量形式的2D掩模，则Fpx“几乎“是通过从帧p到帧p + 1的光流进行由方程式（六）、它也适用于Fpx和wp（x）。光谱聚类纯粹主义者可能会注意到，F p和Fp的这种表达式使亲和矩阵不对称。然而，Fp几乎等于Fp;它们略有不同，因为（1）光流并不完全是双射，因为一些像素可以出现或消失，以及（2）预测的F1A2F2. . ...从帧p到p+1的流并不完全是从p+1到p的预测流。在实践中，我们可以考虑A=0F A. . .0.（四）亲和矩阵A是。...FN−1包含矩阵A中的图像位置之间的亲和力，0的情况。. .0FN−1AN每个块都是一个硬件硬件矩阵。它包含了在一帧中的图像位置与同一帧或另一帧中的图像位置之间。我们在下面详述矩阵Ap、Fp和Fp，并证明使用0矩阵的合理性。矩阵A p.的块对角线上的每个矩阵A p包含同一帧p中的两个图像位置之间的亲和力。它不仅基于帧p内的对象外观特征，而且基于来自前帧p-1和后帧p +1的信息。具体来说两个“远”，即非连续帧。在这里，我们-删除外观特征提供的信息和光流，从而得到零矩阵。能够利用外观特征可能会稍微改善最终的分割，但也会使优化的可扩展性明显降低，并且更加复杂。忽略远距离帧之间的光流是一种安全的做法，因为它的估计可能是不可靠的。3.4. 目标函数⊤我们取帧中位置i和j之间的亲和度通过扩展在等式中找到的项XWX（3）、使用pP作为它们的对象AP的以下组合相似性peculiar特征及其向前和向后流动：公式中的归一化亲和矩阵的定义(2)，其第二特征向量的符号X，以及等式中亲和矩阵A(4)，我们得到：Ai，j=1g。α联系我们⊤Σ⊤1pα+2αs.普雷普ΣΣXWX=ΣxpDp Apxp+pΣp其中α和α是相对权重，gs（）是一个阈值函数，它将低于s的值归零。我们使用s>0来保证Ap的系数是正的。矩阵F p和F p。每个矩阵Fp存储帧p中的图像位置与帧p+1中的图像位置之间的亲和力。这里，我们只考虑帧p和p+1之间的光流，而忽略给定外观特征的信息（使用外观特征也可能会改善结果，但它会导致更复杂的优化问题。两个位置i和j其中Dp矩阵在的块对角线上并且本身是对角线。计算这个表达式似乎涉及到矩阵Ap，Fp和向量xp之间的乘积。它将需要大量的内存，并且由于这些矩阵非常大而非常然而，我们表明，我们不需要存储这些矩阵，也不需要计算这些产品估计口罩xp。当独立考虑时，必然导致每帧的谱聚类问题。的F我.联系我们，j⟩、（五）–⊤–p，p+1p，p+1p，p−1p，p−1pxp+1Dp +1Fpxp+=xpDp Fpxp+1，（7）5897^pp⊙JJF^^p^p+1p+1p+1p+1p^pp≈≈第二特征向量xp矩阵Wp=D在实践中，序列和3455帧，在1080p分辨率下捕获，由于结合了物体的外观特征和光流。在补充材料中，我们还表明，当接近x时，则：分辨率为24 FPS，并以480p精确标注主要移动对象。SegTrack-v2[38]是14个序列的密集注释数据集，总共有976帧。它有时在一个视频中包含多个对象，xp pD（x^p）（八）具有多个挑战，例如运动模糊、变形、交互和对象是静态的。 FBMS 59[51，4]是59个序列的数据集，每第20帧是一个-此外，如3.3节所述，Fpx和Fpx是向量x的翘曲的近似，光流，即，F pxw p+1（x）和F pxW（x）。由于矩阵Dp是对角的，我们可以有效地计算等式中的最后两个和。(7)使用xD- 1 F p x p = x。dp+1wp+1（xp），ppppp+1注释，总共产生720个注释帧。的数据集可能涉及多个对象（其中一些可以是静态的）、遮挡和其他具有挑战性的条件。由于SegTrack-v2和FBMS可能在一个场景中具有多个对象，并且由于我们的方法对主要对象分割感兴趣，因此我们将各个对象的分割掩码合并为一个，类似于[31，85，82]。xD-1Fxp+1=x。dpwp（xp+1），其中，dp表示矩阵D-项dp对扭曲的掩码进行加权。我们在实验中注意到，它们的影响非常有限，为了简单起见，我们没有将它们保留在目标函数中此外，虽然谱聚类是一个强大的框架，但它实际上是一种近似，因为它通过寻找Jaccard（）. 对于所有数据集，我们使用Jaccard度量对其进行评估，该度量测量预测掩码和地面真实掩码之间的交集。轮廓精度（）。对于DAVIS2016数据集，我们还报告了轮廓精度。此度量将掩码视为一组闭合轮廓，以计算它们相对于注释的精度和召回率。轮廓精度则取F=2PcRc，其中Pc是轮廓精度。X的系数，而不是二进制的。鼓励优化恢复二进制值，我们使用交叉-Sion和RPc+Rcc是轮廓回忆。熵（最小化它），而不是点积（最大化它）。从Eqs (3)，（7），（8），（9），我们最终得到公式-在Eq.（一）. 在实践中，为了最小化L（{x}），并且计算成本。在Nvidia V100上，我们的初始化和优化平均运行时间为10.5s/帧，其中初始特征向量提取需要10.1 s/帧，优化需要10.4 s/帧。p p优化对于典型的se，因此，最大化流一致性，同时不偏离初始估计太多，我们首先计算特征向量。DAVIS 2016中的序列，以及1020 MFLOPS/帧。并使用它们来初始化向量xp。注意，由于xp向量保持接近xp向量，因此在优化期间X的范数保持近似恒定以及等式中的单位约束（3）近似满足。在最小化的收敛之后，使用K = 2的K均值对软掩模Xp进行离散化，以将感兴趣的对象与背景分离。补充材料中提供了实施细节。4. 实验在本节中，我们首先介绍我们的方法的实现细节然后，我们描述了我们使用的数据集与其他方法进行比较，并在我们的方法中的每个组成部分进行了4.1. 数据集我们在无监督视频对象分割的三个标准基准上评估我们的模型：DAVIS 2016、SegTrack-v2和FBMS 59。DAVIS 2016[55]是一个密集注释的视频对象分割数据集，具有50个4.3. 消融和参数研究为了了解影响我们方法性能的不同因素，我们进行了一系列消融研究。表1报告了管道中不同组件的重要性。请注意，我们在消融实验中没有应用任何后处理来显示我们的方法的直接增益我们评估我们的方法的不同方面，如下所述。仅从外观开始的初始掩码x p。我们只研究了将谱聚类应用于外观特征。我们考虑最近的自我监督功能：[11][12][13][14][15][16][17][18][19][1 表1（a）比较了这些外观特征如何影响我们的结果。我们使用DINO获得最佳性能。事实上，DINO在很大程度上优于其他自我监督的功能，正如[77，49]中所指出的那样，仍然有待理解，但超出了范围。我们还注意到，我们的方法可以利用任何图像特征。未来更好的特征提取器甚至可以进一步改善我们的结果表1（a）还表明，在每种情况下，我们的优化方法都提高了Jmet-（九）4.2. 度量5898F^∼×^^指标，而在F上的表现优于它3.5分，这表明(a) 不同外观特征（J↑）（F↑）（BT [RN-50]+ ARFlow）53.5 30.3（BT [RN-50] + ARFlow）+优化（公式（1）59.5（+6.0）48.2（+17.9）（大部分）无监督方法：（DINO [ViT] + ARFlow）+优化（等式（1）76.8（+4.7）77.0 （+4.5）不同的外观特征自监督方法。(b) 光流和不同光流方法对性能的影响。我们获得所有的初始结果，使用光谱聚类对每个帧独立。“+Optimiza- tion”没有后处理应用于结果。我们的优化方法一致地提高了分割结果的所有外观特征，有或没有初始化掩模的光流。ric的平均值为+5.6%，而metric的平均值为+16.6%。这种消融也显示了我们的方法的一个潜在应用，它可以作为一种基准测试自监督特征的细粒度表示能力的方法[78，19]：给定冻结特征和严格预定义的光流，可以由于它与我们的公式最相似（基于图形），我们还使用相同的DINO功能将TokenCut [77]独立应用于每个帧。在David 2016上，我们从单帧中提取的掩码（即，我们的初始掩码xp）在J上落后TokenCut 1.5点我们的初始化在检测单个图像上的对象边界方面更好更重要的是，我们比TokenCut快170[77]（0.1秒/帧，17秒/帧）。从外观和流的初始掩码x p。我们将谱聚类应用于外观特征和光流的组合，如等式中所示。（五）、我们考虑监督RAFT和自监督ARFlow。在我们的方法中添加光流的效果可以在表1（b）中看到。光流的外观特征的加入大大提高了单帧聚类性能，并为我们提供了一个很好的初始化对象掩模。（两个连续的帧用于计算光流。从不同初始掩码x p优化的掩码xp。表2：我们的方法的结果。我们展示了我们的方法在视频对象分割的三个标准基准（DAVIS 2016，SegTrack-v2和FBMS 59）上的性能，尽管我们的方法实现了最先进的结果。我们还提供了一个比较与一些supervised方法，在那里我们实现了一个性能comparable其中一些没有使用任何监督。请注意，最近的无监督方法（MoSeg，CIS，DyS-taB和IKE）使用监督光流估计器，如RAFT [68]，PWCNet [66]或FlowNet [16，30]。我们在表1中展示了我们的全局优化对不同外观特征和光流的影响。我们的优化比单帧聚类平均提高了+4.9%，在所有情况下都验证了我们的方法。流动步骤数。我们发现（见完整的结果在supp。垫）一个流步骤实现了最佳性能，这支持了我们使用三对角全局亲和矩阵的假设：即使在单个流步骤的情况下，所有帧也通过光流联系在一起。相反，更多的步骤可能使优化复杂化，这是由于更大的位移和附加的遮挡导致的在远帧之间估计的可能更有噪声的流。交叉熵与点积在我们的目标函数中，我们使用交叉熵而不是掩码之间的点积。我们在实验上比较了这两种选择，发现使用交叉熵确实改善了我们恢复的掩模。我们提供完整的re-导致补充材料。4.4. 与最新技术在这里，我们使用最佳配置（ DINO [ViT] +ARFlow + Optimization）。在CIS [85]和DyS-taB [84]之后，我们使用CRF作为后处理步骤。表2给出了我们的方法和几个建立的性能培训全光学DAVISSTv2视频流的FBMS 59方法无人监管的 J↑F ↑J ↑J(SWAV[RN-50]+ ARFlow）48.027.2切割[34]LDOF [3]✓55.255.254.357.2(SWAV[RN-50]+ ARFlow）+优化（公式（1））53.6（+5.6）46.0（+18.8）FTS [53]LDOF [67]✓55.851.147.847.7AMD [43]✓莫赛格[82]✓[68]第68话独联体国家[85]✓PWCNet [66]DS [87][第84话]✓[68]第68话✓PWCNet [66](b)不同光流（J↑）（F↑）我们ARFlow [42]✓80.277.574.970.0迪诺61.265.8监督方法：TokenCut [77]62.762.3NLC [21]SIFTFFlow[41]55.152.367.251.5DINO +优化（方程式（1））66.7（+5.5） 70.4（+4.6）SFL[12]中国移动[16]（DINO + RAFT）70.7 72.9FSEG[31](DINO+ RAFT）+优化（公式（1）75.3（+4.6） 76.2（+3.3）LVO[70] RIMP-Net [69](DINO+ ARFlow）72.1 72.5ARP [36] CPMFlow [28](DINO+ ARFlow）+优化（等式（1）76.8（+4.7）77.0（+4.5）MSGStP [29][66]第66话：我的世界表1：DAVIS 2016上的不同消融实验-DyStaB[84]和PWCNet [66]为帧输入光流和外观特征3DC-Seg[46]美国[81]基于初始化和优化后。蝙蝠侠的影响[88][第68话]67.4六十六点七70.765.3 61.4 68.475.972.1 57.376.270.6 57.2 59.877.6 - 70.1 60.882.480.782.8-74.2 75.884.384.789.290.490.794.2（MoCo-v3 [ViT] + ARFlow）58.035.3（MoCo-v3 [ViT]+ ARFlow）+优化（等式（1））64.2（+6.2）61.1（+25.8）(DINO[ViT] + ARFlow）72.172.55899FJJ列出了最先进的无监督和监督方法。总的来说，我们的方法在DAVIS 2016上的表现与最先进的方法不相上下，并且在STv2数据集上实现了最佳性能。我们的方法也有很高的轮廓精度，这表明我们的方法实现了高质量的边界。在无监督方法中，我们的方法在DAVIS2016和STv2上分别获得80.2和74.9分，优于所有以前的方法。我们的方法优于SOTA方法DyStaB，虽然略有，与一个更简单的approach。还要注意的是，与最近的无监督方法相比，我们的方法在管道中不使用任何监督组件，包括光流。表2显示了我们方法的泛化能力：我们不是在目标数据集上训练，而是利用从在没有监督的大型数据集上预训练的网络中获得的一般图像特征。虽然由于不同的数据分布，在某些情况下可能不是最佳的，但我们在三个不同的基准上实现了出色的性能，而无需训练和重用完全相同的网络进行特征提取和流计算。比较基于ViT和CNN的方法并不简单，因为它们都有自己的优势。尽管其他方法没有利用ViT，但最新的方法确实使用了先进的CNN网络，例如，DeepLabv3（用于DyStaB），用于分段的SOTA架构之一。此外，虽然我们只依赖于预训练的网络，尽管可能是在大型数据集上（例如，ImageNet用于外观，Sintel用于流），许多其他方法（监督或无监督）都是在目标数据集上训练的，因此是在任务本身上训练，并使用更接近测试集的数据分布。请注意，表2中的其他方法也使用了超出评估数据集的额外数据，例如，DyStaB使用ImageNet预训练的权重来初始化其网络，而AMD使用Youtube- VOS（一个大型视频数据集）预训练的权重。图5显示了我们的方法的一些失败案例补充材料中提供了更多的例子。请注意，其中一些失败案例可以通过进一步的后处理来删除，但我们并不使用它来保持我们的方法简单。我们在图4中展示了我们的定性目视检查方法的分割结果示例。5. 结论我们的方法包括最小化的目标函数，是直观的，简单的实现，并可以优化有效。它可以从谱聚类中导出，这给它提供了坚实的理论基础。它还可以用于评估现代自我监督表示的细粒度能力我们希望我们的方法的简单性及其与谱聚类的联系将为其他人提供未来发展的见解。DINO DINO + DINO + Ground Truth ARFlow ARFlow +可选图4：我们的方法获得的定性结果。分割的质量随着每个分量的提高而提高。在第一行中，部分分割的对象被恢复;第二行和第三行显示我们成功地恢复了小的和被遮挡的对象;在第四行中，我们的方法去除了背景残差，最后在第五和第六行中，我们示出了我们的方法恢复和分割多个接近的对象。图5：失效案例。我们的方法有三种主要的失效模式：过度分割通常由场景中的多个相似对象、由于遮挡而导致的不精确掩模以及具有多个对象的场景中的欠分割（其导致主要对象的部分未被分割）引起。在最后一个示例中，请注意，当我们使用DINO特性时，我们的集群倾向于将单个语义类分组，这是对象细化所需的行为因此，这是w.r.t.的失败案例。基准，但不是对象发现的目标。致谢这项工作获得了GENCI分配的2021-AD 011012896项下IDRIS的HPC资源，并得到了Chistera IPalm项目的部分支持5900引用[1] Ali Athar 、 Sabarinath Mahadevan 、 Aljosa Osep 、LauraLeal-Taixe' 和 BastianLeibe 。 Stem-Se g ： Spatia-TemporalEM-beddings用于视频中的实例分割欧洲计算机视觉会议（ECCV），2020年。[2] Pia Bideau和Erik Learned-Miller它在动！运动摄像机视频中因果运动分割的概率模型。欧洲计算机视觉会议（ECCV），2016年。[3] 托马斯·布洛克斯和吉坦德拉·马利克大排量光学流量：变分运动估计中的描述符匹配。IEEE Transactions onPattern Analysis and Machine Intelligence （ PAMI ），2010年。[4] 托马斯·布洛克斯和吉坦德拉·马利克基于点轨迹长期分析的欧洲计算机视觉会议（ECCV），2010年。[5] 克里斯托弗 ·P Burgess 、 Loic Matthey 、 NicholasWatters、Rishabh Kabra、Irina Higgins、Matt Botvinick和Alexan der Lerchner。莫奈：无监督场景分解和表示。在arXiv预印本，2019年。[6] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。神经信息处理系统进展（NeurIPS），2020年。[7] Mathil deCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自监督视觉变换器中的EMerging特性2021年国际计算机视觉会议（ICCV）[8] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、Atrous卷积和全连接CRF进行语义图像分割。IEEE Transactions on Pattern Analysis andMachine Intelligence（PAMI），2017年。[9] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。2020年，国际机器学习会议（ICML）[10] Xinlei Chen，Kaiming He.探索简单的连体表示学习。2021年计算机视觉与模式识别国际会议（CVPR）[11] Xinlei Chen，Saining Xie，and Kaiming He.训练自我监督视觉转换器的实证研究在arXiv预印本，2021年。[12] 程景春，蔡义轩，王胜金，杨明轩。SegFlow：视频对象分割和光流的联合学习2017年国际计算机视觉会议[13] Minsu Cho ， Suha Kwak ， Cordelia Schmid ， and JeanPonce.无监督的对象发现和定位在野外：基于部分的匹配与自下而上的区域提议。2015年计算机视觉与模式识别国际会议（CVPR）[14] Ioa

下载后可阅读完整内容，剩余1页未读，立即下载