利用压缩视频加速视频对象分割

103 浏览量更新于2023-10-25 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1342利用压缩视频加速视频对象分割Kai Xu Angela Yao新加坡{kxu，ayao} @ comp.nus.edu.sg摘要我们提出了一个有效的即插即用加速框架半监督视频对象分割，利用压缩比特流视频中的时间冗余具体而言，我们建议一个10090CFBI+[43]80MiVOS[4]STM [20]STCN [5]STCN+CoVOSMiVOS+CoVOS用于以双向和多跳方式将分割掩码从关键帧传播到其它帧的基于运动矢量的扭曲方法。此外，我们介绍了一个基于残差的校正模块，可以修复FRTM-VOS [27]70RGMP [19]STM+CoVOS轨道分段[3]TVOS [44]错误传播的分割屏蔽了噪声或错误的运动矢量。我们的方法是灵活的，可以添加到几个现有的视频对象分割算法的顶部。我们在DAVIS 17和YouTube-VOS上的各种基本型号上取得了极具竞争力的结果，速度大幅提升至3.5倍，交流电压略有下降60OSVOS [2]500 1020FPSCVOS [32]30 40牧师11. 介绍视频对象分割（VOS）的目的是获得视频序列中对象的像素级掩模最先进的方法[17，18，20，23]在分割对象方面非常准确，但它们可能很慢，需要多达0.2秒[20]来分割一帧。更有效的方法[3，27，37]通常会权衡精度和速度。为了最大限度地减少这种权衡，我们建议利用压缩视频加速视频对象分割。今天互联网上的大多数视频都是以压缩格式存储和传输的。视频压缩编码器将原始图像序列作为输入，并利用固有的空间和时间冗余来将大小压缩几个量级[14]。该编码为VOS提供了几个“免费”信息源。首先，比特流P-/B-帧）给出了关键帧的一些其次，在压缩中使用的运动补偿方案提供用作光流的廉价近似的运动矢量1代码：https://github.com/kai422/CoVOS图1.在DAVIS 17数据集上比较VOS方法。我们将STM、MiVOS和STCN的速度提高了一倍，也不降低准确性。另一种压缩视频方法CVOS [32]实现了相当的速度，但准确性显著下降。最后，残差给出了一个强有力的指标，可能需要改进的问题领域。我们的目标是开发一个准确而有效的VOS加速框架。由于我们对加速感兴趣，因此很自然地遵循基于传播的方法，其中（重）现成的基础网络仅应用于关键帧。然后通过将关键帧分割和特征传播到非关键帧来实现加速。在我们的框架中，我们利用来自压缩视频比特流的信息，具体地说，运动矢量和残差，这是一个高效而准确的传播方案的理想选择。运动矢量的获得成本很然而，它们也比光流更具挑战性而光流场是密集的，并在逐像素的基础上定义，运动矢量是稀疏的。例如，在HEVC [30]中，它们仅针对像素块定义，这大大降低了运动信息的分辨率并引入了块JF1343文物此外，在编码比特率限制过低的情况下，编码器可能无法正确估计运动;这通常发生在复杂场景或快速运动下因此，我们提出了一个专用的软传播模块，抑制噪声。为了进一步改进，我们还提出了一个基于码流残差的掩码修正模块.把所有这些放在一起，我们设计了一个新的基于压缩视频的即插即用框架，以加速标准VOS方法[4，5，20]。我们使用这些现成的方法作为基础网络来分割关键帧，然后利用压缩视频我们的运动矢量传播模块和现有的光流传播方法[19，22，23，45]之间的关键区别在于我们的模块是双向的。我们利用运动矢量固有的双向性质，向前和向后传播信息。我们的模块也是多跳的，因为我们可以在非关键帧之间传播掩码。这些功能使我们的传播方案不太容易漂移和遮挡错误。与我们密切相关的工作是CVOS [32]。CVOS旨在开发一个基于压缩视频的独立VOS框架，而我们提出了一个即插即用的加速模块。CVOS的一个缺点是它只考虑了I-和P-帧，而没有考虑B-帧。此设置具有高度限制性且不常见，因为B帧在30多年前被引入MPEG-1标准[14]指定的默认编码设置。相比之下，我们考虑I-，P-和B-帧，使我们的方法更适用于现代压缩视频设置和实用。我们的实验表明，我们的模块在几个基于图像序列的模型上提供了相当大的速度提升（见图1）。1）。作为关键帧选择的副产品，我们的模块还减少了现有内存网络的内存[20，28]，这是一些最快和最准确的最先进的VOS方法。我们将我们的贡献总结如下：• 一种新颖的VOS加速模块，利用来自压缩视频比特流的信息进行分段掩码传播和校正。• 一个软传播模块，作为输入的不准确率和块状运动矢量，但产量高准确率扭曲在多跳和双向的方式。• 掩模校正模块，其基于运动残差来细化传播误差和伪影。• 我们的即插即用模块非常灵活，可以应用于现成的VOS方法，以实现高达3.5倍的速度提升，而精度下降可以忽略不计。2. 相关工作视频对象分割方法是半监督的，其中为视频提供初始掩模，或者是无监督的，其中没有掩模可用。我们在这里将讨论限制在半监督方法上。半监督VOS方法可以进一步分为两种类型：基于匹配和基于传播。基于匹配的VOS方法依赖于有限的应用程序变化来匹配模板和目标帧或学习对象检测器。例如，[2，27，35]使用提供的和估计的具有广泛数据增强的掩码来微调分割网络。其他示例包括存储器网络[4，5，20，28]，其基于从先前帧中提取的特征执行目标对象的参考查询匹配基于注释的VOS方法依赖于时间相关性来传播来自注释帧的分割掩码。一个简单的传播策略是复制先前的掩码[23]，因为从帧到帧的变化有限。其他作品使用来自光流的基于运动的线索[6，10，34]。关键帧传播。信息从关键帧到非关键帧的逐帧传播已用于有效的语义视频分割[13，22，45]，但由于几个原因，很少探索其在有效VOS [15首先，选择关键帧是不平凡的。为了最大限度地提高效率，关键帧应该尽可能少且清晰;然而，如果它们太不同，则间隙变得太大而不能传播通过。因此，现有的作品保守地选择关键帧，采用均匀采样[13，45]或低级别特征变化的阈值[16]。其次，逐帧传播依赖于光流，并且计算精确的流场[11，33]仍然是计算昂贵的。我们提出的框架是基于传播的，但我们不同于类似的方法，因为我们使用压缩的视频比特流进行传播和校正。我们的方法自适应地选择关键帧，它也是第一个使用双向和多跳传播方案。压缩视频已用于各种视觉任务。早期的方法[1，26]使用压缩的比特流来形成用于无监督对象分割和检测的特征描述符。相比之下，我们利用比特流进行传播和校正来加速半监督VOS。最近，压缩视频的使用已经被探索用于对象检测[38]，显着性检测[41]，动作识别[40]以及如前所述的VOS [32]。这些工作利用运动矢量和残差作为运动线索或比特分配作为显着性指标。由于比特流中的特征本质上是粗糙的，与使用完整视频或光流的方法相比，大多数我们的工作是第一个压缩视频的方法，可以填补这一空白。1344∈我× ××∈我不知道3. 预赛3.1. 压缩视频格式原始形式的视频是RGB图像序列;然而，不需要存储所有的图像帧。视频压缩编码器-解码器或编解码器利用帧到帧冗余来最小化存储。我们概述了HEVC编解码器的一些要点[30];其他编解码器如MPEG-4 [29]和H.264 [39]遵循类似的原则。请注意，本节仅介绍与理解我们的框架相关的概念。我们参考[31]进行更全面的讨论。HEVC编码结构由称为图像组（GOP）的一系列帧组成每个GOP使用三种帧类型：I帧、P帧和B帧。I帧是完全独立编码的，而P帧和B帧是基于来自其他帧和残差的运动补偿相对编码的。具体地，P帧和B帧存储运动矢量，其可以被认为是该帧与其参考帧之间的光流的逐块模拟然后将任何差异存储在该帧的残差中。图2示出了两个样本GOP的帧分配。因此，视频解码是确保首先解码参考帧以保留依赖性链的有序过程。图3示出了样本序列中的依赖性。3.2. 压缩视频光流和运动矢量之间的关键区别在于，光流是相对于时间上的相邻帧的密集矢量场，而运动矢量是相对于GOP内的任意参考帧的逐块位移。相关联的块被称为预测单元（PU），并且它们的大小从64 64到8 4或4 8像素。PU可以是单向的，具有来自过去或未来的参考帧，或者双向的，既指过去也指未来。P帧仅具有单向PU，而B帧具有单向和双向PU。在此工作中，我们将PU表示为mi j，其中组成像素（x，y）mi j2，其中i索引帧且j索引帧i中的PU。在一般的双向情况下，Zuij与一对前向和后向运动矢量（Zuvi j，vi j）相关联，其中右向和左向分别表示前向和后向运动。前向运动矢量vij=[u，v，t]由位移给定，和参考框架，其中，<显然，vi j= [u，v，t]表示具有位移[u，v]和参考帧t的后向运动矢量，其中t>i。基于运动矢量，可以从与像素（x，y）xij相同大小的共同定位的块预测像素（x，y）xij2为了简单起见，我们滥用符号，将PU和组成像素都简单地称为pixij。I 形框架0熊：I-，P-帧：23.2%82时间0bmx树：I-，P-帧：37.5%80时间RGB预测残差图2. GOP可视化帧分配和相对帧大小的条形图。“bmx-trees”序列具有更快的移动，因此它具有比“bear”更多的红色箭头标记显示的帧，其特征在于上面的“熊”序列的块效应和下面的“bmx-trees”序列的运动矢量估计失败的示例从参考坐标系It和It。所述重建帧I在框架i的（x，y）处的x，y，对于（x，y）∈ij，是giv en，Ix，y=wIx+u，y+v+wIx+u，y+v，（1）其中，（w，w）是相对于速度的前向运动和后向运动的加权分量，并且w+w=1。在单向PU的情况下，w/v或w将被设置为0，并且对应的w/v或v未定义。在旧的和更严格的编解码器设置中，例如CVOS [32]中使用的编解码器设置，参考帧仅限于I帧。现代编解码器，如HEVC，即。我们在这项工作中考虑的是，允许P帧和B帧参考其他P帧和B帧中的像素这使得在Eq.（1）多跳，这提高了整体编码效率，因为漂移问题可以用较小的时间参考距离来缓解。PU和帧预测的示例在图1中示出。3.第三章。运动矢量是固有的粗糙和噪声，由于其块的性质和编码错误的区域中的快速和突然的运动（见考试，图中的应用2）。因此，RGB图像Ii和帧i处的预测Iii之间的剩余差被存储在残差ei中以恢复像素级细节：Ii=Ii+ei.（二）帧大小帧大小1345∈--×关于我们∈∈联系我们我∈→I B B BP单向PU双向PU参考帧多跳参考前向预测后向预测双向预测安装模块（第4.3）。图4示出了总体框架。与将基础网络应用于序列中的所有帧相比，加速来自传播和校正的计算节省4.1. 问题公式化图3. GOP示意图。虚线表示预测块中的运动补偿。’I’原则上，ei是稀疏的;稀疏性与运动矢量预测的精度直接相关。高效视频编码的关键是平衡对P帧和B帧使用较大PU的存储节省，即，较少的运动矢量，相对于需要较少的稀疏残差来补偿较粗糙的块运动。3.3. 密集逐帧运动表示直接从运动矢量执行逐帧传播可能是麻烦的，因为矢量是根据PU逐块定义的。给定帧中的PU通常在多跳上具有若干（不同）参考。因此，我们计算一个密集的逐帧运动场，作为一个更方便的中间表示。具体来说，我们定义了一个双向运动场为Mi=[Mi，Mi]，其中MiRH×W×3是稠密的帧i的前向运动的逐像素表示，并且由[Uu，Uv，Ut]表示，i. e. 位移和参考系。类似于运动矢量，右箭头和左箭头表示向前和向后运动。分别。因此，M iRH×W×3存储由[u，v，t]表示的帧i的向后运动。通过聚合所有PU来确定运动分量我们将来自长度为T的压缩视频比特流的解码序列表示为（I i，M i，ei），i[1，T]。为了方便起见，我们直接使用运动场Mi-而不是原始运动矢量。注意，在解码之后，我们已经可以访问帧i的RGB图像Ii。对于P帧和B帧，Ii是基于等式（1）从运动预测的帧Ii和残差ei重建的。（二）、为了清楚起见，我们保持两个冗余帧索引n和k用于分别引用非关键帧和关键帧我们将基本网络表示为F，G。第一部分G表示网络的后续部分，其进一步处理Vk以估计分段Pk，即，对于关键帧k，V k=F（I k）， P k= G（V k），（4）其中P kRH×W×O和V kRH×W×C。这里，O是视频序列中对象的数量，C是低级特征的通道数量，H W是预测的空间分辨率。对于非关键帧In，从关键帧k传播分割预测的标准方法[45]是基于光流应用扭曲：Pn=W（OFn，Pk），（5）其中，W是扭曲操作，OFn是两个方向之间的光流，J1... J i，其中J i是中PU的总数，弗雷姆岛I.E.Pn和Pk，P是传播的预测。这种传播形式有两个主要缺点。首先，大多数方案使用仅在两个之间计算的光流阿夫齐沃岛→Mx，y;v阿利，我x为oh→Mi，（x，y）∈ij.（三）帧，这增加了由遮挡引起的可能的误差。其次，精确的光流估计仍然这个赋值过程，表示为，迭代通过帧i的所有空间位置。如果B帧中的给定PU是单向的，则相应地将M帧或M中的相反方向上的元素设置为零。对于其中t或tt指向关键帧的pixels，预测是单跳的;对于其中t或t指向另一非关键帧的pixels，这将是多跳的，因为当前参考链接到另外的参考。4. 方法我们通过将这些方法作为基础网络应用于选定的关键帧来加速现成的VOS方法。4.4）。使用软运动矢量传播模块将关键帧分割传播到非关键帧（第12节）。4.2），并通过残余物为基础的核心，伴随着相当大的计算开销。4.2. 软运动矢量传播模块在本节中，我们概述了运动矢量，具体地，在等式中定义的运动矢量场Mn，（3）对于非关键帧In，可以代替等式（1）中的光流OFn（五）、我们首先介绍了运动矢量扭曲操作，其中Pn和Vn表示运动矢量扭曲的预测和扭曲的特征，即，Pn=WMV（Mn，P），Vn=WMV（Mn，V），（6）其中，P和V分别表示关键参考帧和非关键参考帧的对应分割和特征。扭曲操作W_MV被定义为向后扭曲，其在W_MV的所有空间位置上迭代。1346残差修正关键帧光编码器噪声抑制非关键帧光编码器MV翘曲关键帧基模型预测运动矢量弯曲特征提取跳过连接基地模型光编码器基地模型MV翘曲n.Σ∈2不2阿勒S（V，Vij）ij=σ（Vij·Vij），（10）nnnnn阿勒图4. 总体框架。关键帧分割预测通过抑制不准确运动矢量的软运动矢量传播模块然后，基于残差和特征匹配来校正被放大的掩模框架;框架如果我们用Λ表示项，即Pn或Vn，使得Nn=WMV（Mn，N），则基于等式（1），非关键帧n的在（x，y）处的传播值（一）可定义为：基于输入帧In的低层特征，即，Vn=F（In），以及传播掩码的置信加权版本权项S（Vn，V<$n）∈RH×W 是由相似性定义的-x+ u，y+ v如果在提取的特征Vn∈RH×W ×C和特征向量之间，但现在，t=0，特征V<$n∈RH×W×C. 我们用点积Λx，y=如果t=0，1Λx+u，y+v+1Λx+否则，（七）表示相似性的信道维度，即，其中：[mu，mv，mt，u，v，t]=Mx，y。（八）在Eq中的前两个案例。（7）是用于在时间上向前和向后扭曲单向运动矢量，而第三种情况用于双向运动矢量。注意，在第三种情况下，前向运动矢量和后向运动矢量被相等地加权，并且不根据来自等式（1）的W和W。（一）. 这是因为我们将参考解释为等同地指示目标掩模;而且，w_i和w被调谐用于重构目标RGB像素值。在u、v不是整数的情况下，将在参考图中应用最近邻或双线性插值;为了简单起见，我们在公式中省略了插值。如果参考帧t或tt不是关键帧，则扭曲变为多跳。因此，扭曲过程必须遵循解码顺序，因为参考的非关键帧必须在其可以向前传播为了减轻运动矢量场中噪声和误差的影响，我们提出了一种软道具，一种使用学习的解码器D（·）的生成方案：Pn=D[Pn，Vn，S（Vn，Vn）·Pn]，（9）其中方括号[，]表示连接。解码器是轻量级的，并且对原始传播的其中σ是标准sigmoid函数。相似之处在于-在传播的特征V_n和实际估计的特征Vn用作解码器的置信度指示符，其中传播可能是准确的。在不相似的区域中，运动矢量可能不准确，因此传播的值可能会被抑制并需要更多的去噪。4.3. 基于残差的校正模块我们引入了一个额外的校正模块，以进一步提高传播的分割掩模的质量。由于运动矢量的误差在每帧的残差中固有地被捕获我们选择通过补丁生成和标签匹配明确地对这种校正进行虽然隐式地将残差添加到解码器网络可以实现类似的性能，但它需要相对更多的数据和更重的解码器网络。设eRH×W×3和S3表示残差，其中S_p可以通过取传播预测P_p的rgmax来获得。我们首先将其转换为灰度图像，然后再将其转换为二进制3en和Sn表示完备性，但我们去掉下标n表示城市解码器1347标签匹配解码器nn∩·FJ∗∩残余化妆面具二值化残差扩张关键帧来自软传播的最终掩码输入5. 实验5.1. 实验设置视频压缩。我们使用FFmpeg中的x265库在默认预设下从图像生成压缩视频。为了写出比特流，我们修改了openHEVC的解码器[8，9]，并公开分享了代码，以鼓励其他人使用压缩视频。数据集评价。我们用三个视频对象分割基准进行了实验：[24]第二十四话图5.基于残差的校正模块在传播的掩模中选择要校正的像素;校正方案经由特征匹配方案来替换分割标签。通过阈值化来屏蔽EB。找到正确的ed掩码S通过取eb和S+之间的inters e，一个扩张的ver-和DAVIS 17 [25]，分别是单个和多个对象的50和120个视频的小数据集，以及YouTube-VOS [42]，一个包含3945个多个对象视频的大规模数据集。我们使用原始分辨率的图像对视频进行默认HEVC编码产生平均{37%，36%，27%}初始传播的掩模S的尺寸，即，例如，S=（eb，S+），其中（）表示交集运算，并允许我们仅关注扩张掩模的前景区域，其与阈值残差值一致。S_p提供了对所传播的掩模中的哪些区域将需要校正的指示。F或在帧n处由a表示的S中的每个像素el，我们在时间上最接近的关键帧k中搜索，并在Vn和Vkn之间进行匹配。具体地说，我们定义Wak为Vn中像素a处的特征之间的亲和力，即。Va中的所有像素，以及Vk中的所有像素。然后，通过Pa=WakPk获得像素a处的校正的掩模预测。我们使用L2相似度函数来计算亲和矩阵，并将细节推迟到补充部分。4.4.关键帧基网络选择原则上，任何帧都可以是关键帧。然而，根据压缩帧类型来定义关键帧是很自然的，因为编码器基于视频的动态内容来指定类型。除了I帧，我们还选择P帧作为关键帧。这是因为在默认HEVC编码中，视频序列中少于5%的帧是I帧，这对于准确传播是不够的，所以我们还包括被指定为P帧的15-35%的帧将P帧视为关键帧也有助于提高精度，因为P帧中的运动补偿是严格单向的。否则，到这些帧的传播可能以与光流相同的方式遭受由遮挡引起的不准确性。对于要加速的基础VOS模型，大多数基于匹配的分割模型在第2节中讨论。2是合适的，因为它们仅依赖于目标对象的外观。从初步实验中，我们观察到使用记忆网络的VOS方法，如STM [20]，MiVOS [4]和STCN [5]是加速的理想选择。这是因为使用I帧和P帧作为关键帧的选择自然与内存概念一致，并允许选择（甚至更）紧凑但多样的内存。I/P帧，因此每个序列的关键帧分别用于DAVIS 16、DAVIS 17和YouTube-VOS。我们使用来自[24]的标准标准进行评估：Jac- card指数（具有地面真实掩模的输出分割的IoU）用于区域相似性，以及平均边界分数用于轮廓准确性。此外，我们报告了YouTube-VOS所有可见和不可见类的平均值。传播校正。在我们的传播方案中，我们应用了反向映射的翘曲和最近邻插值内核。软传播中的解码器（Sec. 4.2）是三个残差块的轻量级网络（详见补充）。解码器是从头开始训练的，具有统一的初始化和1 e-4的学习速率，每10 k次迭代的衰减因子为0.1，用于40 k次迭代。对于基于残差的校正，将二进制阈值设置为0。15 255为灰度残差的绝对值。基本模型。我们展示了加速四个基本模型的实验：STM [20]，MiVOS [4]，STCN [4]和FRTM。VOS [27].前三个使用存储库;为了进行公平的比较，我们只允许关键帧存储在内存条中。我们在DAVIS上将内存频率设置为2，在Youtube-VOS上设置为5，因为后者具有更高的帧速率。在实验中，两种设置都减少了内存库的大小。我们参考补充资料进行内存分析。FRTM-VOS基于标记的帧和相关联的增强来微调网络。我们只将关键帧输入网络进行分割和微调。在实践中，这相当于分割时间上缩减的视频。5.2. 不同基础模型上的加速。选项卡. 1将我们在四个基础模型上的加速结果与其他最先进的模型进行了比较。我们的方法在精度和速度之间实现了很好的折衷。在DAVIS 16（约37%的关键帧）上，我们实现了1 .一、3×，2. 1×, 2. 2×，1. 6倍加速，轻微下降抑制1348JFJF× ××JF≈× × ××≈JF--表1.用最先进的方法比较不同基础模型上的加速度。†帧率是在我们的设备上测量的，如果最初没有提供;我们还重新估计了我们的硬件上的STM时间，因为我们获得了比他们报告的值更高的FPS。Youtube-VOS上的FPS是在前30个视频上测量的。方法JDAVIS16F验证JFFPSJDAVIS17F验证JFFPSYouTube-VOS 2018验证G Js FsJuFuFPSCVOS [32]79.180.379.734.557.459.358.431.2------TVOS [44]----69.974.772.33767.867.169.463.071.6-轨道分段[3]82.683.683.13968.676.072.3<3963.667.170.255.361.7-PReMVOS [17]84.988.686.80.0373.981.777.8<0.0366.971.475.956.563.7-SwiftNet [36]90.590.390.42578.383.981.12577.877.881.872.379.5-CFBI+[43]88.791.189.95.680.185.782.9<5.682.081.286.076.284.6-FRTM-VOS [27]--83.521.9--76.714.172.172.376.265.974.17.7FRTM-VOS + CoVOS82.382.282.328.669.775.272.520.665.668.071.058.265.425.3STM [20]88.789.989.3†14.979.284.381.8†10.679.479.784.272.880.9-STM + CoVOS87.087.387.231.578.382.780.523.8------MiVOS [4]89.792.491.016.981.787.484.511.282.681.185.677.786.2†13MiVOS + CoVOS89.089.889.436.879.784.682.225.579.378.983.073.581.745.9STCN [5]90.493.091.726.982.088.685.320.284.383.287.979.087.3†16.8STCN + CoVOS88.589.689.142.779.785.182.433.779.079.483.672.680.457.9&1 .一、二，二。一，一。六二6个关于FRTM-VOS、STM、MiVOS，STCN，分别。在DAVIS17（36%关键帧）上，我们实现了1。五二二，二。三一7加速下降对&4.第一章二一三一七，二。9为同一型号。在YouTube-VOS上（27%的关键帧），我们实现了 3 。三三五、三。 44 级加速八二四四 0 滴FRTM-VOS、MiVOS和STCN分别为&对于不可见的数据，我们在uu上有更大的下降，因为我们的解码器没有在更大的数据集上进行预训练&请注意，YouTube-VOS的视频长度相对较长（>150帧），因此上述方法需要额外的内存或额外的在线微调，这使得我们能够实现更高的速度。此外，YouTube-VOS较低的关键帧百分比也提供了更多的速度提升。我们没有提供STM的结果，因为没有预训练的权重可用。使用STCN基础模型，我们在DAVIS 17上的性能比其他具有可比帧速率的有效方法SwiftNet [36]，TVOS[44]和Track-Seg [3]高1.3至10.1，尽管我们的成功也应该归功于高STCN基础准确性。另一种压缩视频方法CVOS [32]实现了相当的速度，但精度差距很大。5.3. 消融研究我们验证了框架的每个组成部分。除非另有说明，否则所有消融均使用MiVOS [4]作为默认视频编码预设的基础型号传播。我们首先将光流作为一种传播形式进行比较，并考虑使用来自最先进的方法RAFT [ 33 ]（“光流”）的流进行的前向单向流扭曲[7，23，45]。我们还考虑了在[ 21 ]中使用的双向光流扭曲（此外，我们比较了两个运动矢量基线的工作表2.传播方法的比较，†没有给出代码，我们报告了早期工作的结果[32]方法BMSupDAVIS16J FDAVIS17J F光流77.479.271.577.6[21]第二十一话✗85.087.475.981.7MV I至P [32]31.5†---[40]第四十话77.280.269.476.3MV翘曲✗✗85.789.277.284.4MV软支柱✗✗✗89.089.879.784.6无传播[4]89.792.481.787.4压缩视频，CoViAR [40]（CoViAR将运动矢量转换成两帧之间的流，即。对于在（x，y）和帧i处的运动矢量场Mi，（x，y）= [u，v]/[（t i）fps]的M是像素（x，y）在平面i上的单位时间内的运动。CVOS具有进一步简化的运动矢量使用，并且参考来自GOP中的一个I帧的所有运动。我们比较了我们的双向，多跳运动矢量扭曲（“MV软支撑”）和没有（“MV扭曲”）的软传播，它执行进一步的噪声抑制。选项卡. 2验证了我们提出的推广的有效性。双向光流最初用于视频生成[21]，其性能优于单向光流，因为它受遮挡的影响较小。CoViAR [40]是一种压缩视频动作识别系统;它们的传播与光流相当。简化案例在CVOS [32]中，无法传播有意义的分割掩码，因此依赖于大量的细化。我们的双向多跳运动矢量为基础的翘曲，ING优于所有上述方法。我们的带噪声抑制的软传播方案进一步提高了准确性，使得我们的传播掩模1349JFJF≈在没有传播的情况下，在上界和下界的4.0点内，即，通过基础网络应用每个帧。图6示出了不同传播方法的定性结果表3.解码器和掩模校正模块烧蚀。模块DAVIS16J FDAVIS17J FMV翘曲85.789.277.284.4+解码器88.388.879.284.0+抑制88.889.679.684.5+残差修正89.089.879.784.6解码器和掩码校正。选项卡. 图3示出了添加掩码解码器的每个组件如何导致渐进式光流MV到FlowOurs Ground Truth图6.光流传播和运动矢量生成的流都遭受重影效应和遮挡区域中的孔。我们的传播成功地防止了这样的文物。改进的指数和边界分数。为‘MV Warp’由T计算的迭代哪里基础R+（T传播+T校正）·（1−R），框架的原始尺寸。对于解码器，为了速度考虑，我们以1/4的尺寸扭曲预测和低级别特征。因为运动矢量是粗糙的和有噪声的，所以仅输入传播预测和到解码器的低级特征将降低准确度。最显著的增益来自噪声抑制模块，即。通过将被抑制的传播预测馈送到解码器。进一步的残差校正增加了角点情况的鲁棒性。关键帧百分比。为了突出速度-准确性的权衡，我们比较了Tab中关键帧的百分比4通过调整编码器的角度。默认HEVC设置为DAVIS 16和DAVIS 17产生37%的关键帧。如果我们将编码器设置为分配更多的B帧，使其仅具有大约25%和13%的关键帧（ingly。在最快的设置下，我们可以在MiVOS上实现3.7倍的加速，DAVIS16上的J &F分数为82.9，DAVIS17上的J &F分数为73.2。表4.对DAVIS 16和DAVIS 17上不同视频编码的鲁棒性。B帧偏置：B帧分配的更多权重（x265选项：bframe-bias=50）。统一B帧：固定了I/P帧之间的8个B帧。预设关键帧DAVIS16JFFPSDAVIS17JFFPS默认有偏均匀B-框架≈37%≈25%约13%89.485.182.936.848.262.982.280.273.225.536.750.0没有传播-91.016.984.511.25.4. 时序分析为了计算所有表中的FPS值，我们测量了RTX-2080Ti的DAVIS数据集和RTX-A5000的YouTube-VOS的运行时间，因为它需要额外的内存。平均每帧推理时间可以近似为-R表示关键帧的比率。请注意，测量的T基础可能与基础模型的已发布 FPS 值不一致，例如：[ 20 ][21][22][23][24][25]我们的T基数较低，因为我们在内存条中存储的帧较少我们在DAVIS 17上测量了传播时间和校正时间，其总和（传播时间+校正时间）为12ms。6. 结论局限性我们提出了一个半监督的VOS加速框架，通过利用运动矢量和残差的压缩视频比特流的传播。这样的框架可以加速准确但缓慢的基本VOS模型，而分割准确度略有下降。我们的工作的一个限制是可能的延迟引入的多个引用依赖关系。因此，非关键帧的分割结果比它所引用的未来帧晚完成鉴于70%的互联网流量[12]都是用于（压缩）视频的，我们认为我们的加速工作具有广泛的适用性。VOS方法的效率对于诸如视频编辑的应用尤其相关，考虑到更高分辨率视频的增长趋势，例如，4K标准。然而，VOS也可能被滥用来伪造部分视频或创建恶意内容。我们对此保持严谨的态度，同时强调其对内容创作和社区其他可能改进的积极7. 确认这项研究由新加坡国家研究基金会在其NRF人工智能奖学金（NRF-NRFFAI 1 -2019-0001）下支持。本材料中表达的任何观点、发现和结论或建议均为作者的观点，不反映新加坡国家研究基金会的观点。1350引用[1] R Venkatesh Babu，KR Ramakrishnan和SH Srinivasan。视频对象分割：压缩域方法。TCSTV，2004年。2[2] Sergi Caelles ， Kevis-Kokitsi Maninis ， Jordi Pont-Tuset，LauraLeal-Taixe'，DanielCremers和LucVanGool。单镜头视频对象分割。在CVPR，2017年。一、二[3] 陈曦、李作新、叶远、于刚、沈建新、齐东莲。用于实时视频对象分割的状态感知跟踪器。在CVPR，2020年。1、7[4] 何祺郑、戴裕荣和邓志强。模块化交互式视频对象分割：交互屏蔽、传播和差异感知融合。在CVPR，2021年。一二六七八[5] 何祺郑、戴裕荣和邓志强。重新思考具有改进的内存覆盖的时空网络，以实现高效的视频对象分割。在NeurIPS，2021年。一、二、六、七[6] 程景春，蔡义轩，王胜金，杨明轩。Segflow：视频对象分割和光流的联合学习。InICCV，2017. 2[7] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流在ICCV，2015年。7[8] 哈米杜什，迈克尔·劳莱特，还有奥勒·维耶·德·弗格斯。并行SHVC解码器：执行和分析。InICME，2014. 6[9] 哈米杜什，迈克尔·劳莱特，还有奥勒·维耶·德·弗格斯。实时SHVC解码器：实施和复杂性分析。InICIP，2014.6[10] 胡平，王刚，孔翔飞，权健，谭亚鹏.用于视频对象分割的运动引导级联细化网络。在CVPR，2018年。2[11] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变在CVPR，2017年。2[12] 思科视觉网络索引。预测和方法，2016白皮书，思科公开版，2017年。8[13] Samvit Jain，Xin Wang，and Joseph Gonzalez.Accel：一个用于视频语义分割的校正融合网络在CVPR，2019年。2[14] 迪迪埃·勒加尔 MPEG：一种多媒体应用的视频压缩标准。ACM通讯，1991年。一、二[15] Yong Jae Lee，Jaechul Kim，and Kristen Grauman.用于视频对象分割的关键段。见ICCV，2011年。2[16] Yule Li，Jianping Shi，and Dahua Lin.低延迟视频语义分割。在CVPR，2018年。2[17] Jonathon Luiten、Paul Voigtlaender和Bastian Leibe。Pre-mvos：用于视频对象分割的建议生成、细化和合并。在ACCV，2018年。1、7[18] Kevis-Kokitsi Maninis ， Sergi Caelles ， Yuhua Chen ，JordiPont-Tuset ， LauraLeal-Taixe' ， DanielCremers ，andLuc范古尔无时间信息的视频对象分割。TPAMI，2017。1[19] Seoung Wug Oh、Joon-Young Lee、Kalyan Sunkavalli和Seon Joo Kim。参考引导掩模传播的快速视频对象分割。在CVPR，2018年。一、二[20] Seoung Wug Oh，Joon-Young Lee，Ning Xu，and SeonJoo Kim.使用时空记忆网络的视频对象分割。在ICCV，2019年。一二六七八[21] Junting Pan，Chengyu Wang，Xu Jia，Jing Shao，LuSheng，Junjie Yan，and Xiaogang Wang.从单语义标签图生成视频在CVPR，2019年。7[22] Matthieu Paul，Christoph Mayer ，Luc Van Gool，andRadu Timofte.高效的视频语义分割与标签传播和细化。在WACV，2020年。2[23] Federico Perazzi，Anna Khoreva，Rodrigo Benenson，Bernt Schiele，and Alexander Sorkine-Hornung.从静态图像中学习视频对象分割。在CVPR，2017年。一、二、七[24] F.作者：J. Pont-Tuset，B.麦克威廉斯湖Van Gool，M.恶心，A。索金-霍恩视频对象分割的基准数据集和评估方法。在CVPR，2016年。6[25] Jordi Pont-Tuset ， Federico Perazzi ， Sergi Caelles ，PabloAr-bela'ez ， AlexanderSorkine-Hornung ，andLucVanGool. 2017年戴维斯视频对象分割挑战赛。arXiv：1704.00675，2017。6[26] Shuih Porikli，Faisal Bashir，and Huifang Sun.压缩域视频对象分割。TCSVT，2009年。2[27] AndreasRobinson 、 FelixJaremoLawi

下载后可阅读完整内容，剩余1页未读，立即下载