SWEM：实时视频目标分割的顺序加权期望最大化方法

58 浏览量更新于2023-10-25 收藏 14.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

………………13620SWEM：基于顺序加权期望最大化的实时视频目标分割0Zhihui Lin 1 � , Tianyu Yang 2 , Maomao Li 2 , Ziyu Wang 3 , Chun Yuan 4 † , Wenhao Jiang 3 , and Wei Liu 301 清华大学计算机科学与技术系，中国北京 2 腾讯AI Lab，中国深圳 3腾讯数据平台，中国深圳 4 清华大学深圳国际研究生院，鹏城实验室，中国深圳0{lin-zh14@mails, yuanc@sz}.tsinghua.edu.cn tianyu-yang@outlook.com0{limaomao07, cswhjiang}@gmail.com wangziyukobe@163.com wl2223@columbia.edu0摘要0基于匹配的方法，特别是基于时空记忆的方法，在半监督视频目标分割（VOS）中明显领先于其他解决方案。然而，不断增长和冗余的模板特征导致了低效的推理。为了缓解这个问题，我们提出了一种新颖的顺序加权期望最大化（SWEM）网络，大大减少了内存特征的冗余。与之前的方法只检测帧之间的特征冗余不同，SWEM通过利用顺序加权EM算法合并帧内和帧间的相似特征。此外，帧特征的自适应权重赋予SWEM表示困难样本的灵活性，提高了模板的区分度。此外，所提出的方法在内存中保持了固定数量的模板特征，确保了VOS系统推理复杂度的稳定性。在常用的DAVIS和YouTube-VOS数据集上进行了大量实验证实了SWEM的高效性（36 FPS）和高性能（DAVIS 2017验证数据集上的84.3%J & F）。01. 引言0近年来，半监督视频目标分割（VOS）在计算机视觉社区引起了极大的兴趣[3, 6, 10, 16, 18, 21, 25, 28, 32, 33, 37,38, 42, 43, 47, 49,51]。它旨在从视频的背景中分割出感兴趣的目标，在测试期间只提供第一帧的掩码注释。一组早期的方法集中在使用第一个带注释的帧进行在线微调[2, 3, 19, 29,30]。然而，这些方法往往会因为目标出现引起的模型退化而受到影响。0*本文作者在腾讯AI Lab实习期间完成†通讯作者0Memory0(a) STM0SWEM0Memory0(b) SWEM0图1. 我们的SWEM与STM [32]和后续方法[6, 16, 37,38]不同，不会将所有过去帧的特征存储为内存，而是顺序更新一个固定大小的紧凑基础集，大大减少了帧间和帧内的冗余。0随着视频的进行，目标的外观会发生变化。此外，基于传播的方法使用在先前帧中计算的掩码来估计当前帧中的掩码[7,33, 45,48]，然而这种方法容易受到遮挡和快速运动的影响。最近0[25, 28, 37, 38, 42, 43, 49,52]已经取得了显著的性能。这些基于匹配的方法首先利用先前的帧构建目标模板，然后计算新帧嵌入和目标模板之间的像素级相关性来进行分割。如图1所示，空时记忆网络（STM）[32]和后续的STM-like方法[6, 16, 37, 38,49]利用内存网络无限制地存储每T帧的模板特征，容易丢失关键帧信息并耗尽内存。此外，鉴于视频特征的帧间冗余会影响匹配的效率，另一组方法AFB URR [25]和Swift[43]利用帧间特征的相似性有选择地更新部分特征。然而，它们都无法通过手工相似度阈值平衡性能和效率。尽管过去的努力取得了有 promising的结果，但我们认为帧间冗余和帧内冗余都是阻碍有效模板的主要障碍。Q(θ, θr−1) =�P(Z|X, θr−1) ln P(X, Z|θ).(1)13630匹配。这里有一个问题，我们能否通过同时考虑帧间和帧内冗余来实现实时的VOS系统？在本文中，我们将探索其可行性。受到期望最大化注意力（EMA）[21]的启发，我们打算通过期望最大化（EM）[9]迭代来构建一组低秩基础特征作为内存特征。这里，基础特征的数量远远小于图像像素的数量。因此，基础特征可以被视为一种更紧凑的表示，可以大大减少帧内冗余。我们没有直接应用EM，而是采用带有预测掩码作为固定权重的加权期望最大化（WEM）在每个帧中显式地构建前景和背景基础特征。此外，我们还提出了一种自适应权重的加权EM，它在生成基础特征时为困难样本分配更大的权重。这里，困难样本指的是那些不能很好地由基础特征表达但对于目标分割很重要的像素。WEM可以有效地处理帧内冗余；然而，帧间冗余仍然未解决。将WEM应用于单个帧是高效的，但如果直接应用于所有增长的内存特征，则计算复杂度将大大增加。为了进一步减少帧间冗余，我们提出了顺序加权期望最大化（SWEM），其中仅有一个帧的特征参与内存更新阶段的EM迭代。内存基础特征将通过相似性与新帧特征进行更新，而不是简单的线性组合。形式上，这个更新过程等价于对所有过去帧特征的加权平均。如图1所示，与将所有历史帧信息保存为对象的内存模板的STM[32]相比，我们的SWEM仅顺序更新一组更紧凑的基础特征，从而大大减少了帧间和帧内冗余。我们的贡献可以总结如下：0•我们提出了一种快速而鲁棒的基于匹配的VOS方法，称为顺序加权期望最大化（SWEM）网络，其中一组紧凑的基础特征被顺序构建和更新，减少了帧间和帧内冗余。0•我们引入了一种自适应权重计算方法来进行加权EM，使基础特征更加关注困难样本。0•SWEM在没有花哨的技巧的情况下，达到了接近最先进性能的水平，同时保持36 FPS的推理速度。02. 相关工作0基于匹配的VOS方法。近年来，视频对象分割领域出现了越来越多的基于匹配的方法。0半监督设置。许多基于匹配的方法[5, 6, 16, 17, 25, 28, 32,37, 38, 43, 44, 47,49]将第一帧或中间帧视为目标模板，然后用于匹配新帧中的像素级特征嵌入。为了获得长期和短期的目标外观信息，FEELVOS [42]和CFBI[52]将当前帧与第一帧和上一帧进行匹配，以获得全局和局部的时间依赖性。此外，STM [32]和后续方法[6, 16, 37,38,49]将所有先前帧的多个内存模板存储为模板，这在匹配过程中是冗余且耗时的。相比之下，我们提出了一种名为SWEM的新方法，它只为每个目标存储一组低秩和更新的基础特征，使目标表示更紧凑和高效。学习快速和鲁棒的VOS。学习快速和鲁棒的模型是一个共同的目标，因为准确性和速度在实际应用中都很重要[4, 23, 36, 44, 47, 53]。RANet[47]只使用第一帧作为目标模板，以获得可接受的速度。作为基于跟踪器的方法，SiamMask [44]和SAT[4]只处理感兴趣区域。TVOS[53]根据嵌入空间中的特征相似性直接传播目标掩码。总的来说，为了实现快速的VOS，以前的方法牺牲了目标表示的完整性，从而大大降低了分割性能。Swift[43]使用一种变化感知的触发模块来计算帧间差异，以更新具有不同动态的帧。此外，只有与内存特征明显不同的部分特征才会被更新。在这项工作中，我们考虑同时减少帧间和帧内冗余。所提出的加权EM通过迭代构建整个帧的紧凑基础特征，大大减少了帧内冗余。为了减少帧间冗余，我们进一步以顺序方式扩展加权EM，可以自适应地更新模型而不增加匹配模板的数量，从而使我们的模型快速而鲁棒。03. 准备工作03.1. 期望最大化算法0期望最大化（EM）[9]是一种基于迭代的算法，可以通过最大化似然函数来估计潜变量模型的参数。该任务是基于观测数据集X和相应的潜变量Z来估计模型参数θ。每次EM迭代包括两个步骤，期望步骤（E步骤）和最大化步骤（M步骤）。在第r次迭代中，E步骤找到后验概率P(Z|X,θr−1)，并计算期望值：θr = arg maxθQ(θ, θr−1).(2)znk =exp(xnµ⊤k /τ)Kj=1 exp(xnµ⊤j /τ).(3)µk =�Nn=1 znkxnNn=1 znk.(4)13640M步骤通过最大化上述数据似然函数来估计参数：0E步骤和M步骤交替执行R次以达到收敛准则。03.2. 期望最大化注意力0期望最大化注意力（EMA）[21]将注意力机制[46]以期望最大化的方式进行建模。具体而言，EMA通过迭代估计每个图像的一组更紧凑的基向量，而不是将所有像素都视为重构基向量。EMA包括三个步骤，即责任估计（RE）、似然最大化（LM）和数据重新估计（DR）。将图像特征表示为X={xn}Nn=1∈RN×C，将随机初始化的基向量表示为M={µk}Kk=1∈RK×C，其中N、C和K分别表示像素数、通道数和基向量数。RE估计隐藏变量Z={znk}N,Kn=1,k=1∈RN×K，其中责任znk表示第n个像素属于第k个基向量的概率：0这里，τ是一个超参数，控制着分布Z的形状。然后，LM通过对特征X应用加权平均来更新基向量M。即，第k个基向量更新为：0注意，RE和LM会迭代执行R次，直到收敛。最后，DR使用˜X=ZM对图像特征X进行低秩重构。由于K远小于N，基向量集M可以被视为图像特征X的紧凑表示。受EMA的启发，我们考虑用更紧凑的基向量替换冗余的记忆特征。03.3. 时空记忆的冗余性0为了更直观地理解视频中特征的冗余性，我们使用STM[32]的图像编码器作为特征提取器，在DAVIS2017[35]验证集上评估了视频特征的帧间和帧内余弦相似度。对于当前帧中的每个像素，我们首先计算其与前一帧中所有像素的最大相似度。这样，可以得到N个最大相似度。在图2中，我们列出了最大相似度的直方图，其中横坐标是相似度范围。大多数相似度大于0.6，近87%的相似度大于0.9，表明存在较高的帧间冗余性。0t t+1 帧间帧内0余弦相似度范围0帧间无EM 帧间有EM0帧内无EM 帧内有EM0图2. 视频特征的帧间和帧内冗余的示意图。0相比之下，计算帧内冗余度量的最大相似度是不合适的，因为空间连续性会使大多数最大相似度超过0.9。因此，我们计算所有两两像素之间的相似度，并统计不同相似度下每帧的平均配对数。图2中的第三行显示了统计结果。图像中两个像素之间的大多数相似度是正值，超过70%的相似度大于0.3，这表明帧内冗余性的普遍存在。为了验证EM算法能否找到图像特征的更紧凑表示，从而抑制帧间冗余性，我们使用基向量集而不是整个图像特征计算帧间和帧内相似度，其中基向量集由经过EM迭代评估得到的256个基向量组成。具体而言，我们计算每个帧特征与前一帧的基向量特征之间的最大相似度。如图2所示，超过99%的帧间相似度大于0.7。也就是说，尽管每帧只有256个基向量，远少于像素数，但仍满足帧间匹配的需求。至于帧内相似度，尽管相似度分布基本与整个图像特征相同，但大相似度的数量显著减少，这表明经过EM迭代后帧内冗余性大大降低。04. 提出的方法0我们首先介绍加权EM，它利用预测的掩码作为权重来明确地分别构建每个帧中的前景和背景基础。此外，自适应权重使模型更加关注难样本，以提高分割性能。然后，本文的核心部分，SWEMP fg(xn) =�Kk=1 K(xn, µfgk )�Kk=1[K(xn, µfgk ) + K(xn, µbgk )],P bg(xn) = 1 − P fg(xn),(6)wfgn = mfgn P bg(xn),wbgn = mbgn P fg(xn).(7)13650解码0SWEM0匹配0δ(')，Δ(')0加密0关键K(')01帧编码分割20记忆化30帧t0加密0值V(')0.m(')0图3.SWEM的基于匹配的流程。主干网络接收第t帧以捕获一般图像特征作为关键K(t)。这些特征用于与特定目标记忆进行匹配。通过匹配过程，得到重新聚合的值和相似度图，作为最终分割的目标特征。多级跳跃连接有助于提炼从低到高分辨率的分割结果。然后，使用预测的掩码与中间图像特征一起更新基础，通过我们的SWEM。0详细介绍了算法，展示了如何将增长的帧特征转换为固定大小的基础。最后，我们描述了所提出的SWEM的基于匹配的流程。04.1. 加权期望最大化0尽管我们已经证明使用EM寻找更紧凑的表示可以减少帧间和帧内冗余，但我们认为在VOS系统中简单地使用EM来学习一组用于内存特征的基础是不合理的解决方案。原因在于内存基础会与前景和背景混合在一起，这对于目标分割是不利的。相反，我们希望分别构建低秩的前景和背景基础。为此，我们利用加权期望最大化（WEM）[1, 13, 14, 27,40]，这在加权数据聚类中被广泛使用。当使用WEM为图像生成基础时，公式（4）将被修改为：0µ_k = � N n = 1 z_nk w_n x_n � N n = 1z_nk w_n，(5)0其中，w_n是x_n的权重。它相当于“看到第n个特征w_n次”[14]。请注意，WEM使得可以为模板匹配构建单独的前景和背景基础，其中对象前景掩码和每个帧的背景掩码可以用作相应的固定权重来替代w_n。通过这种方式，任何不规则的目标区域都可以用一组具有固定大小的基础表示，这大大减少了帧内冗余。使用WEM进行紧凑表示学习的本质是对图像中的所有像素进行聚类，并使不同的基础来表示每个像素。由于基础的数量远远少于像素的数量，构建的分割目标模板在某种程度上会不完整，甚至可能面临目标丢失的情况。在基础集构建过程中，每个像素的表达程度是不同的。一些像素的贡献很小。0对于基础而言，这些像素对于目标分割非常重要，被称为难样本。为了确保在基础集构建过程中，难样本能够被分配更大的权重，我们提出了通过像素自适应调整权重而不是直接使用通过前景和背景掩码计算的固定权重的方法。我们通过前景背景二分类来为每个像素估计置信度分数。具体而言，在WEM迭代的E步骤之后，通过前景或背景基础对每个像素进行分类，可以计算出第n个像素的分类概率为：0其中 µ fg k 和 µ bg k 分别是前景和背景基础。 K ( ∙ )是用于计算两个输入特征相似性的核函数。具体而言， K ( a , b ) = exp( ab � /τ0∥ a ∥∙∥ b ∥ ) . 方程 ( 6 )可以被视为粗分割结果，因为它提供了每个像素对应前景还是背景的结果。此外，可以获得最终分割（即网络解码器的输出），这被认为比粗分割更准确，因为它还受到地面真值注释的限制。如果像素的粗分割与最终分割一致，可以将该像素视为简单样本。否则，它将被视为困难样本。我们认为困难样本的不一致性是因为在基础构建过程中忽略了这些像素，使它们难以达到与最终分割相同的结果。假设 m fg0和 m bg是最终分割的软掩模，自适应权重通过以下方式估计：0粗分割和最终分割的不一致性越大，基础构建的权重越高。µ(t)k=�ti=1�Nn=1 z(t)nkw(t)n x(t)nti=1Nn=1 z(t)nkw(t)n.(8)/fg and bg areomitted for simplicity.*/1 M(t) ← M(t−1)2 w(t)m(t)4z(t)nk ←K(x(t)n ,µ(t)k )Kj=1(x(t)n ,µ(t)j)5α(t)k← α(t−1)k+ �Nn=1 z(t)nkw(t)n x(t)n6β(t)k← β(t−1)k+ �Nn=1 z(t)nkw(t)n7µ(t)kα(t)k /β(t)k8P fg(x(t)n ) ←�Kk=1 K(x(t)n ,µfg,(t)k)�Kk=1[K(x(t)n ,µfg,(t)k)+K(x(t)n ,µbg,(t)k)]9P bg(x(t)n ) ← 1 − P fg(x(t)n )10wfg,(t)n← mfg,(t)nP bg(x(t)n )11wbg,(t)n← mbg,(t)nP fg(x(t)n )13 n = 1, 2, ..., N; k = 1, 2.., KˆV(t)n =2K�k=1K(K(t)n , κ(t−1)k)2Kj=1 K(K(t)n , κ(t−1)j)ν(t−1)k.(9)136604.2. 顺序加权EM0为了减少帧间冗余，先前的方法[ 25 , 43]设置了一个相似性阈值，以忽略或合并帧之间的相似特征。然而，这种手工阈值对分割性能和计算复杂性非常敏感。更糟糕的是，很难找到一个合适的阈值在性能和复杂性之间进行权衡。在本文中，我们以顺序方式扩展了WEM，得到了一种顺序加权EM（SWEM）算法，以减少帧内和帧间的冗余，而无需任何阈值超参数。在时间步骤 t，理想解决方案是将WEM应用于所有先前的 t − 1帧进行基础集构建。然而，计算规模的增长是不可接受的，对于长期分割来说是不可行的。因此，我们在计算基础分配时引入了帧特征的顺序加权平均，其中权重由时间相关的责任 Z ( t )估计。具体而言，我们顺序地扩展了WEM，并将方程 ( 5 )重新定义为：0请注意，我们以递归方式实现方程 ( 8 ) ，即分子 α 和分母 β 由 α ( t ) k = α ( t − 1) k + � N n =1 z ( t ) nk w ( t ) nx ( t ) n 和 β ( t ) k = β ( t − 1) k + � N n =1 z ( t ) nk w (t ) n 计算，然后 µ ( t ) k = α ( t ) k / β ( t ) k。这种顺序计算基础分配的方式实现了更平滑和适应性更强的模型更新。只保留一组适应性基础而不是存储所有帧基础对于硬件来说无疑更友好，也有助于实现实时的VOS系统。算法1显示了我们SWEM在时间步骤 t的详细流程。值得注意的是，SWEM中的基础更新是延迟的。由于 z ( t ) nk 表示 x ( t ) n 与 µ ( t ) k之间的相似度，如果一个基础特征与当前帧有更多相似的特征，它将更快地进行更新。这种延迟更新策略可以帮助SWEM更好地抵抗噪声并防止漂移。另一方面， w ( t ) n也使得困难样本能够更快地进行更新。04.3. 基于匹配的流程0所提出的SWEM网络的概述如图3所示。整个流程主要包括三个阶段，包括1）特征编码，2）分割和3）记忆。编码。与先前基于匹配的具有时空记忆的方法[ 6 , 16 , 23 , 25 ,32 , 37 , 38 , 43 , 49 ]类似，帧被编码为键值对（ K ∈R N × C 和 V ∈ R N × C ′）以进行内存查询和读取。我们采用STCN [ 6]的编码器结构来提取图像特征。0算法1：时间步骤 t 的SWEM0输入：0帧 t 的特征：X ( t ) ∈ R N × C ，帧 t 的掩码：m fg, ( t ) ∈[0 , 1] N 和 m bg, ( t ) ∈ [0 , 1] N0M fg, ( t − 1) ∈ R K × C 和 M bg, ( t − 1) ∈ R K × C，累积分子和分母：α fg, ( t − 1) ，α bg, ( t − 1) ，β fg, ( t − 1) ，β bg,( t − 1)0输0基 M fg, ( t ) 和 M bg, ( t )03 对于 r = 1 到 R，执行以下操作：0// SW- E 步骤，估计责任：0// SW- M 步骤，更新基：0// SW- W 步骤，计算权重：012 结束0关键特征也被重复使用以进行记忆。具体的网络细节在第5.1节中描述。分割。分割阶段包括特征匹配和掩码解码。在时间步骤 t ，关键特征 K ( t ) 被用作查询，从 κ ( t − 1) 和ν ( t − 1) 中读取记忆特征，其中 κ 和 ν是与关键特征和值特征对应的基特征，它们是前景和背景基的连接（ [ κ fg ; κ bg ] ∈ R 2 K × C 和 [ ν fg ; ν bg ]∈ R 2 K × C ′ ）。应用非局部 [ 46 ]形成的匹配过程如下：0ˆ V ( t ) 是使用记忆基进行低秩重构，S(t)nl =�j∈topl(Kfg,(t)n) Kfg,(t)njfg,(t)fg,(t)nj+bg,(t)bg,(t)nj,KFPSDAVIS 2016 valDAVIS 2017 valJ & F ↑JM ↑J & F ↑JM ↑3237.388.487.680.277.76436.888.988.080.978.412836.489.588.681.979.325635.589.588.582.079.413670这对于分割任务非常有帮助。与以前的类似STM的方法不同，我们的记忆基明确地分为前景和背景。因此，相关性 K ( K ( t ) n , κ fg, ( t − 1) k ) 和 K ( K ( t ) n , κ bg, ( t − 1)k )也可以作为重要的分割线索。然而，由于未排序的相关性不适合作为CNN的输入，基特征的秩对于不同的视频是不固定的。为了解决这个问题，我们设计了一个不变排列操作，可以从相关性中产生分割线索。定义 K fg, ( t ) n ∈ R K 和 K bg, ( t ) n ∈ R K0作为 K ( t ) n与所有前景和背景基之间的相关性，可以通过以下方式计算不变特征 S ( t ) ：0(10) 这里 l = 1 , 2 , ..., L 。注意 L ≤ K是一个超参数，用于控制分割线索通道的数量和计算复杂度。此外，topl ( ∙ ) 表示前 l个相关性值。解码器将分割线索 [ ˆ V ( t ) ; S ( t ) ] 作为输入，生成最终的掩码 ˜ m ( t )。还采用了额外的跳跃连接来利用低级外观特征。记忆化。在分割之后，关键特征 K ( t )0被重复使用于记忆阶段。我们采用另一个ResNet-18来重新编码图像-掩码对以获取值特征V(t)。关键基数通过κ(t) =SWEM(K(t), ˜m(t), κ(t −1))来更新，该过程在算法1中描述。为了保持关键基数和值的对齐，更新后的值基数通过ν(t)k = (β(t − 1)kν(t − 1)k +ΣNn=1z(t)nk w(t)n v(t)n) /β(t)k来计算，其中β、Z和w都是在关键基数κ构建过程中产生的。05. 实现细节05.1. 网络结构0我们采用ResNet-50 [ 15]作为主干网络提取帧特征，采用ResNet-18提取值特征。所有批归一化层都被冻结。第4阶段（res4）特征用于记忆和匹配过程。这些特征图与原始图像相比具有16倍的步长。温度超参数τ设置为0.05。每组中的基数特征数量设置为K =128，SWEM算法中的迭代次数R设置为4。我们选择由公式（10）计算的前64个（L =64）相关分数。为了简化和与STM [ 32]进行公平比较，我们使用相同的两级解码器，包含两个细化层，每个层包含两个残差块。0表1. 基数K的消融研究（R = 4）。05.2. 两阶段训练0在静态图像数据集上进行预训练。按照之前的方法[ 25 , 28 ,32 , 37 , 47 ]，我们首先在静态图像数据集[ 8 , 12 , 22 , 26, 39 ]上进行预训练。训练时，输入帧被裁剪为384 ×384。每一步基于单个图像生成三帧，其中应用了随机仿射变换（剪切、旋转、缩放和裁剪）。所有训练过程都采用Adam优化器[ 20]，学习率为1e-5。此外，我们使用交叉熵损失进行最终分割。在视频数据集上进行训练。在图像预训练之后，我们在DAVIS 2017 [ 35 ]和YouTube-VOS 2018 [ 50]的视频数据集上对提出的SWEM进行微调。训练过程与图像预训练类似，主要区别在于我们随机从视频剪辑中选择三帧，而不是单个图像。对于多对象帧，我们随机选择少于3个对象。我们在一块NVIDIA Tesla V100GPU上进行所有实验，批量大小为4。06. 实验06.1. 消融研究0首先，我们分析了基数K和SWEM迭代次数R对模型效率的影响，这两个因素是影响模型效率的关键因素。然后，我们研究了SWEM中自适应权重对模型性能的影响。我们直接在视频数据集上训练所有模型，而不是在图像上进行预训练。模型在DAVIS 2016 [ 34 ]和DAVIS2017验证数据集上进行评估。基数K。表1显示了不同K值下的定量结果和推理速度。性能在K =128时饱和。当减少基数时，性能大幅下降，而这并没有节省太多计算资源，从推理速度可以看出。因此，我们选择相对较大的K =128作为默认设置。SWEM迭代次数R。SWEM迭代次数影响基数构建的效率和收敛性。表3显示了R = 1 �7的结果。推理速度对迭代次数非常敏感。每增加一次迭代，推理速度降低1 � 2AFB-URR [25]NeuralPS 2020✓4---74.673.076.1CFBI [52]ECCV 2020586.185.386.974.972.177.7239.488.788.079.576.9338.388.887.980.878.1436.489.588.681.979.3534.589.188.281.278.4633.089.088.379.877.0731.888.687.879.877.1+=93.4%+=90.5%13680方法 Pub. I FPS DAVIS 2016 val DAVIS 2017 val J & F ↑ J M ↑ F M ↑ J & F ↑ J M ↑ F M ↑0RANet [47] ICCV 2019 � 30 85.5 85.5 85.4 65.7 63.2 68.2 GC [23] ECCV 2020 � 25 86.6 87.6 85.7 71.469.3 73.5 TVOS [53] CVPR 2020 37 - - - 72.3 69.9 74.7 SAT [4] CVPR 2020 39 83.1 82.6 83.6 72.368.6 76.00SWEM 36 88.1 87.3 89.0 77.2 74.5 79.80STM [32]（+YV）ICCV 2019 � 11* 89.3 88.7 89.9 81.7 79.2 84.3 CFBI [52]（+YV）ECCV 2020 � 5 89.4 88.390.5 81.9 79.1 84.6 EGMN [28]（+YV）ECCV 2020 � 5 - - - 82.8 80.2 85.2 KMN [37]（+YV）ECCV 2020 � 890.5 89.5 91.5 82.8 80.0 85.6 SSTVOS [10]（+YV）CVPR 2021 � 7 - - - 82.5 79.9 85.1 RMNet[16]（+YV）CVPR 2021 � 12 88.8 88.9 88.7 83.5 81.0 86.0 LCM [16]（+YV）CVPR 2021 � 9 90.7 89.9 91.483.5 80.5 86.5 JOINT [31]（+YV）ICCV 2021 4 - - - 83.5 80.8 86.2 DMN [24]（+YV）ICCV 2021 � 7 - - -84.0 81.0 87.0 HMMN [38]（+YV）ICCV 2021 � 10 90.8 89.6 92.0 84.7 81.9 87.5 AOT[51]（+YV）NeuralPS 2021 � 19 91.0 89.7 92.3 83.0 80.3 85.70Swift [43]（+YV）CVPR 2021 � 25 90.4 90.5 90.3 81.1 78.3 83.9 STCN [6]（+YV）NeuralPS 2021 � 26* -- - 85.4 82.2 88.60SWEM（+YV）� 36 91.3 89.9 92.6 84.3 81.2 87.40表2.在DAVIS 2016和DAVIS2017验证集上与以前的方法进行比较。'+YV'表示使用来自YouTube-VOS的额外视频进行训练。'I'表示在图像数据集上进行预训练。请注意，我们的SWEM在V100 GPU上以36 FPS的速度实现了接近最先进性能的结果，没有IO时间。这里，'*'表示我们在我们的硬件上重新评估的结果。0FPS. R =4在性能和效率之间取得了最佳平衡。SWEM中的自适应权重。如果不使用自适应权重（Eq.7），我们的性能会大幅下降（81.9% →77.6%），而推理速度的改善则微不足道（36.4 FPS → 38.4FPS）。图4显示了当前帧特征与先前基础之间的最大匹配相似性的分布。尽管具有自适应权重的SWEM具有较少的高相似性，但它具有更多相似性大于0.6的匹配，保证了更少的丢失匹配。0R FPS DAVIS 2016 val DAVIS 2017 val J & F ↑JM ↑ J & F ↑ JM ↑0表3. SWEM迭代次数R（K = 128）的消融研究。0具有自适应权重的SWEM在0.6以上的匹配质量方面优于具有固定权重的SWEM（93.4%对比90.5%），在推理过程中保证了更少的丢失匹配。我们还在图5中展示了两种权重之间的定性比较。与具有自适应权重的SWEM相比，具有固定权重的SWEM更容易丢失匹配，导致漂移问题。0与SOTA的比较0数据集和评估指标。我们使用区域相似度J，轮廓准确度F以及它们的平均值作为评估指标，报告了DAVIS2016、DAVIS 2017和YouTube-VOS2018数据集上的结果。DAVIS 2016和DAVIS2017.表2给出了定量比较。0余弦相似度范围0图4. 当前帧特征与先前基础之间的最大匹配相似性分布。13690固定自适应权重0固定自适应权重0图5.自适应权重和固定权重之间的定性比较。具有固定权重的SWEM（每个样本的第一行）难以区分相似的对象，而具有自适应权重的SWEM（每个样本的第二行）能够很好地解决这个问题。每个样本的权重在第三行可视化，像素越亮，表示越困难。对于中间的人物，相应的背景基础更关注与目标相似的对象（剩余的人物）。0在DAVIS2016和2017验证集上，与最新的视频分割方法进行了定量比较。我们的方法在两个数据集上都取得了最好的J和F值，而且没有在图像数据集或其他视频数据集上进行预训练。具体而言，我们的方法在DAVIS2017上的J和F分数上大幅优于SAT [4]（与我们的速度相似，39FPS），优势为4.9%。在使用来自YouTube-VOS的额外训练数据（+YV）的情况下，我们的SWEM超过了所有其他表现最佳的方法。请注意，STCN[6]在推理过程中使用了一个不断增长的内存库，这会对长期分割产生负面影响，而SWEM保持了固定数量的基础并具有稳定的计算复杂性。我们在我们的硬件和软件环境上重新评估了STM和STCN以供参考。我们的SWEM能够在V100GPU上实现36 FPS的推理速度，在1080ti GPU上实现27FPS的推理速度。YouTube-VOS2018.我们通过官方评估服务器在YouTube-VOS2018上将我们的SWEM与以前的方法进行了比较，结果见表4。请注意，尽管SWEM利用了原始的ResNet-50骨干网络和与STM[32]相同的解码器，但它实现了82.8%的整体得分，非常接近最先进的结果。此外，我们在补充材料中提供了更多的定性和定量比较。0方法 G seen unseen J M ↑ F M ↑ J M ↑ F M ↑0STM [32] 79.4 79.7 84.2 72.8 80.9 AFB-URR [25] 79.678.8 83.1 74.1 82.6 EGMN [28] 80.2 80.7 85.1 74.080.9 KMN [37] 81.4 81.4 85.6 75.3 83.3 CFBI [52] 81.481.1 85.8 75.3 83.4 RMNet [16] 81.5 82.1 85.7 75.782.4 SSTVOS [10] 81.7 81.2 85.9 76.0 83.9 LCM [16]82.0 82.2 86.7 75.7 83.4 DMN [24] 82.5 82.5 86.9 76.284.2 HMMN [38] 82.6 82.1 87.0 76.8 84.6 JOINT [31]83.1 81.5 85.9 78.7 86.5 AOT [51] 83.7 82.5 87.5 77.986.70SAT* [4] 63.6 67.1 70.2 55.3 61.7 TVOS* [53] 67.867.1 69.4 63.0 71.6 FRTM* [36] 72.1 72.3 76.2 65.974.1 GC* [23] 73.2 72.6 75.6 68.9 75.7 Swift* [11]77.8 77.8 81.8 72.3 79.5 STCN* [6] 83.0 81.9 86.577.9 85.70SWEM* 82.8 82.4 86.9 77.1 85.00表4. 与YouTube-VOS2018验证数据集上最先进方法的比较。我们报告了所有的平均Jaccard（J）分数，见和未见类别的边界（F）分数以及总体分数G。此外，我们使用“*”表示那些推理速度>20FPS的方法。注意，SSTVOS，JOINT和AOT是基于Transformer的方法。07. 结论0在本文中，我们提出了一种快速而稳健的半监督视频对象分割模型，称为Sequential WeightedExpectation-Maximum（SWEM）网络，它能够构建具有低冗余度的紧凑目标模板以进行像素级匹配。我们使用加权EM算法分别构建前景和背景特征的基础，并减少帧内冗余。我们还提出在生成基础时计算自适应权重而不是固定权重，这迫使基础更加关注困难样本，以减少匹配缺失。我们将加权EM扩展到顺序加权EM以处理顺序数据，并完全减少帧间冗余。总体而言，我们的方法在36FPS下实现了接近最先进的VOS性能。0致谢0本工作得到了国家自然科学基金委员会项目U1833101、深圳市科技创新委员会项目JCYJ20190809172201639和WDZC20200820200655001，以及腾讯和清华大学联合研究中心的支持。13700参考文献0[1] Margareta Ackerman, Shai Ben-David, Simina Brˆanzei,and David Loker.加权聚类。在AAAI人工智能会议论文集中，卷26，2012年。40[2] Linchao Bao, Baoyuan Wu, and Wei Liu.MRF中的CNN:基于CNN的高阶时空MRF中的视频对象分割。在2018年的IEEE计算机视觉与模式识别会议论文集上，页码5977-5986。10[3] Sergi Caelles, Kevis-Kokitsi Maninis, Jordi Pont-Tuset,Laura Leal-Taix´e, Daniel Cremers, and Luc Van Gool.一次性视频对象分割。在2017年的IEEE计算机视觉与模式识别会议论文集上，页码221-230。10[4] Xi Chen, Zuoxin Li, Ye Yuan, Gang Yu, Jianxin Shen, andDonglian Qi.实时视频对象分割的状态感知跟踪器。在2020年6月的IEEE/CVF计算机视觉与模式识别会议上。2, 7, 80[5] Yuhua Chen, Jordi Pont-Tuset, Alberto Montes, and LucVan Gool.基于像素度量学习的高速视频对象分割。在2018年的IEEE计算机视觉与模式识别会议论文集上，页码1189-1198。1, 20[6] Ho Kei Cheng, Yu-Wing Tai, and Chi-Keung Tang.改进记忆覆盖率以实现高效视频对象分割的时空网络的重新思考。在NeurIPS 2021中。1, 2, 5, 7, 80[7] Jingchun Cheng,

下载后可阅读完整内容，剩余1页未读，立即下载