视频传播网络：一种通过视频数据向前传播信息的技术，处理视频帧并在线应用，提高性能和运行时间

106 浏览量更新于2023-10-15 收藏 22.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14510视频传播网络0Varun Jampani 1，Raghudeep Gadde 1，2和Peter V. Gehler 1，201德国图宾根智能系统研究所，2德国图宾根计算神经科学伯恩斯坦中心{varun.jampani,raghudeep.gadde,peter.gehler}@tuebingen.mpg.de0摘要0我们提出了一种通过视频数据向前传播信息的技术。该方法在概念上简单，可以应用于需要基于视频内容传播结构化信息（如语义标签）的任务。我们提出了一种视频传播网络，以自适应的方式处理视频帧。该模型在线应用：在不需要访问未来帧的情况下向前传播信息。具体而言，我们结合了两个组件，一个用于密集和视频自适应滤波的时间双边网络，后面是一个用于改进特征和增加灵活性的空间网络。我们在视频对象分割和语义视频分割上进行了实验，并展示了与最佳先前任务特定方法相比的性能提升，同时具有有利的运行时间。此外，我们还在灰度视频的颜色传播的示例回归任务上展示了我们的方法。01. 引言0在这项工作中，我们专注于在视频帧之间传播结构化信息的问题。这个问题以多种形式出现（例如，语义分割或深度估计），是许多应用的先决条件。图1中显示了一个示例实例。给定第一帧的对象掩码，问题是将该掩码向前传播到整个视频序列。时间传播和视频颜色传播是其他问题实例。视频既具有技术挑战，也具有表现挑战。场景和相机运动的存在导致了光流的困难像素关联问题。与静态图像相比，视频数据在计算上更加复杂。一个朴素的逐帧方法至少会随着帧数线性增长。这些挑战使得使用标准卷积神经网络（CNN）处理视频变得复杂。因此，许多以前用于视频传播的工作使用缓慢的基于优化的技术。我们提出了一种通用的神经网络架构，0视频传播网络（VPN）0双边网络0空间网络0指导0前一帧掩码0当前帧掩码0输入视频帧0第1帧第13帧第22帧第63帧0给定的掩码预测的掩码0图1.使用VPN进行视频传播。端到端训练的VPN网络由双边网络和标准空间网络组成，可用于在帧之间传播信息。这里显示了从第一帧到其他视频帧的前景掩码的示例传播。0在视频帧之间传播信息。主要创新在于使用图像自适应卷积操作，自动适应视频流内容。这产生了可以应用于多种类型信息（例如标签、颜色等）的网络，并且在线运行，即只需要当前和前一帧。我们的架构由两个组件组成（见图1）。一个是执行图像自适应时空密集滤波的时空双边网络。双边网络允许将当前帧和前一帧的所有像素密集连接起来，并将相关的像素信息传播到当前帧。双边网络允许指定视频像素之间的度量，并且允许直接集成时间信息。然后，在双边网络输出上使用标准的空间CNN来改进和预测当前视频帧。我们将这种组合称为视频传播网络（VPN）。实际上，我们将视频自适应滤波与相对较小的空间CNN相结合，从而使得与许多以前的方法相比，运行时间更有优势。VPN具有以下适用于视频的特性4520处理：通用适用性：VPN可以用于在视频帧之间传播任何类型的信息内容，即离散（例如语义标签）和连续（例如颜色）信息。在线传播：该方法不需要未来的帧，可以用于在线视频分析。长程和图像自适应：VPN可以高效处理大量输入帧，并且适应具有长程像素连接的视频。端到端可训练：VPN可以端到端训练，因此可以在其他深度网络架构中使用。有利的运行时间：与许多当前最佳方法相比，VPN具有有利的运行时间，这使得它们适用于使用大型数据集进行学习。我们通过实验证明，尽管是通用的，VPN在视频对象分割和语义标签传播方面的性能优于已发表的方法，同时速度更快。VPN可以轻松集成到逐帧方法中，并且只需要进行小的微调步骤，可以单独执行。02. 相关工作0一般传播技术图像/视频像素之间内容传播的技术主要是基于优化或滤波技术。基于优化的技术通常将传播问题构建为跨视频像素或帧的能量最小化问题。一个经典的例子是来自[46]的颜色传播技术。尽管对于某些情况存在高效的闭式解[47]，但由于视频的大型图结构和/或复杂的连接性，优化往往较慢。全连接条件随机场（CRFs）[41]为保持快速推理提供了一种融合密集和长程像素连接的方式。滤波技术[40, 15,30]旨在通过使用图像/视频滤波器传播信息，从而实现与优化技术相比更快的运行时间。双边滤波[5,73]是一种用于传播远距离信息的流行滤波器。一个流行的应用是联合双边上采样[40]，它使用高分辨率引导图像对低分辨率信号进行上采样。[51, 22, 37, 34, 81,66]的工作表明，可以通过双边滤波操作进行反向传播以学习滤波器参数[37, 34]或在双边空间中进行优化[8,7]。最近，一些工作提出通过学习模仿边缘感知滤波的CNN来进行图像上采样[78]，或直接学习上采样[49,32]。这些工作大多局限于图像，并且对于视频来说要么无法扩展，要么计算成本太高。我们利用了一些先前的工作，并提出了一种可扩展且强大的神经网络方法。0用于视频传播。我们将在第3节中更详细地讨论构成我们方法核心的双边滤波。0视频对象分割先前关于视频对象分割的工作可以广泛地分为两种类型：半监督方法需要手动注释来定义前景对象，而无监督方法则完全自动进行分割。无监督技术，如[25, 48, 45, 55, 77, 80,72,23]使用一些关于前景对象的先验信息，如独特的运动、显著性等。在这项工作中，我们专注于从第一帧传播前景掩码的半监督任务。现有的工作主要使用基于图的优化，在视频上进行图割[9, 10, 69]。其中一些工作[64, 50, 61, 76, 39,33]旨在通过聚类技术（如时空超像素和光流[75]）减少图结构的复杂性。另一个方向是通过使用最近邻场[26]或光流[18]来估计不同帧像素之间的对应关系[4, 6,44]。与我们的技术最接近的是[60]和[53]的工作。[60]提出在跨帧的对象提议上使用全连接CRF。[53]在双边空间中提出了图割。我们不是使用图割，而是在高维双边空间中学习传播滤波器。这导致了一个更通用的架构，并允许与其他深度网络集成。两个当代的工作[14,36]提出了基于CNN的对象分割方法，并依赖于使用给定测试序列的第一帧注释对深度网络进行微调。这可能导致对测试背景过拟合。相比之下，所提出的方法仅依赖于离线训练，因此可以轻松地适应不同的问题场景，如本文所示。0语义视频分割。早期的方法，如[12,70]，使用视频帧上的运动结构来计算几何和/或运动特征。最近的工作[24, 16, 19, 54, 74,43]在视频上构建了大型图模型，并在帧之间强制保持时间一致性。[16]在他们的CRF能量公式中使用了动态时间链接。[19]提出使用具有时空能量项的Perturb-and-MAP随机场模型，[54]通过学习连续帧像素之间的相似性函数，在时间上传播预测结果。近年来，使用CNN进行语义分割的性能有了很大提升[52,17]，但主要应用于图像。最近，[67]提出在滑动图像CNN时保留中间CNN表示。另一种方法是从CNN获取一元预测，然后在帧之间传播语义信息。在这方面，[43]提出了一种优化全连接CRF特征空间的技术。45303. 双边滤波0我们简要回顾一下双边滤波及其扩展，这些扩展将在构建VPN时用到。双边滤波起源于图像去噪[5,73]，并作为一种保边滤波器进行了发展。它已经在许多应用中得到了应用[58]，并最近被引入神经网络架构[81,27]。我们将把这种滤波器作为VPN的核心，并利用图像/视频自适应连接性来应对运动场景。设a、a和A分别表示标量、向量和矩阵。将向量化的图像v∈Rn进行双边滤波可以看作是与滤波矩阵W∈Rn×n的矩阵-向量乘法：0ˆvi = 0j∈n Wi,j vj，(1)0其中滤波器权重Wi,j取决于输入像素索引i,j处的特征Fi,Fj∈Rg和F∈Rg×n。0对于g维特征。例如，高斯双边滤波相当于将W选择为Wi,j=1ηexp(−102(Fi−Fj)�Σ−1(Fi−Fj)，其中η是归一化常数，Σ是协方差矩阵。特征Fi的选择定义了滤波器的效果，以及它如何适应图像内容。如果只使用位置特征，Fi=(x,y)�，双边滤波操作就会简化为一个空间高斯滤波器，其宽度由Σ控制。在保边滤波中，常常选择颜色和位置特征Fi=(x,y,r,g,b)�，以实现图像平滑而不模糊边缘。滤波器的值Wi,j会针对每对像素i,j而变化，并且取决于图像/视频内容。由于图像/视频像素的数量通常很大，对方程1的朴素实现是不可行的。由于这种滤波操作的重要性，已经提出了几种快速算法[2, 3, 57,28]，可以直接计算方程1，而无需显式构建W矩阵。[57]提出了一个自然的观点，将双边滤波操作视为高维空间中的计算。他们的观察是，双边滤波可以通过以下步骤实现：1.将v投影到由特征F定义的高维网格（splatting）；2.在投影信号上进行高维滤波（convolving）；3.在感兴趣点上将结果投影回原始空间（slicing）。高维网格也被称为双边空间/网格。所有这些操作都是线性的，可以写成：0ˆv = S slice BS splat v，(2)0其中，S splat和Sslice表示映射到图像像素和双边网格的操作，B表示双边空间中的卷积（传统上是高斯卷积）。双边空间的维度g与特征Fi相同。这种方法的问题在于，在常规网格上进行标准的g维卷积需要处理指数级数量的网格点。这个问题通过以下方式解决：0特殊的数据结构，即[2]中提出的排列晶格。实际上，排列晶格滤波与维度成线性关系，执行速度快。然后，[37，34]的最新工作将排列晶格中的双边滤波推广，并演示了如何通过反向传播学习它。这使得可以将图像自适应滤波操作构建到深度学习架构中，我们将在此基础上进行构建。有关二维排列晶格的示例，请参见图2。有关使用排列晶格进行双边滤波的更多详细信息，请参见[2]，有关通过反向传播学习一般排列晶格滤波器的详细信息，请参见[34]。04. 视频传播网络0我们的目标是将双边滤波操作调整为跨视频帧向前预测信息。形式上，我们处理一系列h（彩色或灰度）图像S =（s1，s2，...，sh），并用V=（v1，v2，...，vh）表示每帧的输出序列。例如，考虑一个场景中移动物体的前景掩码序列v1，...，vh。我们的目标是开发一种在线传播方法，可以在观察到视频直到帧t并且可能是先前的v1，...，t−1的情况下预测vt。0F（vt−1，vt−2，...；st，st−1，st−2，...）= vt。（3）0如果有完整或部分了解v的训练样本{（Si，Vi）| i =1，...，l}可用，则可以学习F和对于复杂和未知的输入-输出关系，深度CNN是自然的设计选择。然而，任何基于学习的方法都必须面对挑战：场景/相机运动及其对v的影响。由于两个不同视频中的运动不同，CNN的固定大小的静态感受野是不足够的。我们提出通过视频自适应滤波组件解决这个问题，这是对双边滤波在视频中的调整。我们的双边网络（第4.1节）具有适应视频序列的连接性，然后将其输出馈入空间网络（第4.2节），进一步优化所需的输出。该VPN的组合网络布局如图3所示。它是一系列可学习的双边和空间滤波器，高效，可端到端训练，并且适应视频输入。04.1. 双边网络（BNN）0双边滤波的几个特性使其成为视频中信息传播的理想选择。特别地，我们的方法受到两个主要思想的启发，我们在这项工作中进行了扩展：联合双边上采样[40]和可学习的双边滤波器[34]。尽管双边滤波以前已经被用于过滤视频数据[56]，但其使用仅限于固定的滤波权重（例如，高斯）。跨帧的快速双边上采样的思想是将上采样视为“4540Splat0v1，∙∙∙，t−10s1，∙∙∙，t−101×1卷积0= Hello × B0vt0s t切片0图2.用于视频处理的快速双边滤波的示意图。将先前帧的掩码概率v1，...，t−1喷洒到由图像特征F1，F2，...，Ft−1定义的晶格位置上。将喷洒的结果与1×1滤波器B进行卷积，然后将滤波结果切片回原始图像空间以获得当前帧的vt。输入和输出不一定是vt，还可以是任何中间神经网络表示。B通过这些操作进行反向传播进行学习。0过滤操作。使用高分辨率引导图像对低分辨率结果进行上采样。简而言之，给定较少数量的输入点{vi in，Fi in | i =1，...，nin}，例如较低分辨率的分割结果vin以及相应的引导图像特征Fin。然后使用双边滤波操作将其缩放到较多数量的输出点vout以及特征{Fj out | j =1，...，nout}，即计算等式1，其中求和遍历所有nin个点，并且为所有nout个位置计算输出（W∈Rnin×nout）。0我们将使用这个想法将内容从之前的帧（ v in = v 1 ,...,t −1 ）传播到当前帧（ v out = v t ）。方程式 1中的求和现在在所有之前的帧和像素上运行。这在图2中有所说明。我们将所有之前的帧结果 v 1 ,...,t − 1以及在视频帧 s 1 ,...,t − 1 上计算的特征 F 1 ,...,t − 1喷洒到一个晶格中。然后对每个晶格点应用滤波（如下所述），然后使用当前帧 s t 的特征 F t对结果进行切片。这个结果不一定是最终的 v t，事实上我们计算了一个响应的滤波器组，并继续进行进一步的处理，如后面将讨论的。0标准的双边特征 F i = ( x, y, r, g, b ) �用于图像不一定适用于视频。最近的一项工作[43]提出了优化视频的双边特征空间的方法。相反，我们选择简单地添加帧索引 t作为额外的时间特征，从而为每个视频像素产生一个6维特征向量 F i = ( x, y, r, g, b, t ) �。想象一下一个视频，一个物体移动以显示一些背景。物体和背景的像素在空间上 ( x, y ) � 和时间上 ( t )上是接近的，但颜色 ( r, g, b ) �可能不同。因此，它们对彼此没有强烈的影响（在六维双边空间中被分散到远离的位置）。我们可以理解该滤波器对帧间的颜色变化是自适应的，只有静态且颜色相似的像素之间有强烈的相互影响（在双边空间中靠近）。在我们的所有实验中，我们使用时间 t 作为额外的特征。0用于帧间信息传播。除了添加时间 t作为额外的特征外，我们还尝试使用光流。我们利用光流估计（将前一帧相对于当前帧的光流位移向量（ u x , u y ）�）通过将前一帧的像素位置特征（ x, y ）�通过光流位移向量（ u x , u y ）� 变换为（ x + u x , y + u y）�。如果有完美的光流可用，视频帧可以被变换到一个共同的参考帧中。这将解决相应的问题并使信息传播变得更容易。我们将使用修改后的位置特征（ x + u x , y + u y ）� 的VPN 模型称为 VPN-Flow。我们利用排列滤波的另一个特性是输入点不需要位于规则网格上，因为滤波是在高维晶格中进行的。我们随机采样或使用超像素来将数百万像素喷洒到晶格上，并使用这些采样点作为滤波器的输入进行滤波。实际上，我们观察到这样做可以在性能略有下降的情况下获得大的计算优势（详见第5.1节）。可学习的双边滤波器双边滤波器有助于视频自适应信息传播。但是标准的高斯滤波器可能不足够，而且我们希望通过使用滤波器组而不是单个固定滤波器来增加容量。我们建议使用[34]的技术来使用反向传播在排列晶格中学习滤波器组。该过程的工作原理如下。使用输入视频确定在双边空间中喷洒输入点 v i ∈ v 1,...,t − 1 的位置。在一般情况下，v i 不需要是标量，假设 vi ∈ R d 。特征 F 1 ,...,t （例如（ x, y, r, g, b, t ）�）定义了喷洒矩阵 S splat 。这导致一些向量 v splatted =S splat v ，它们位于排列晶格上，具有维度 v i splatted ∈R d。实际上，喷洒操作将接近的点分组在一起，即它们具有相似的 F i ，F j 。现在，对所有晶格点进行滤波。4550双边网络（BNN）空间网络（CNN）0BCL a0BCL b0∥0BCL a0BCL b0∥ C-1 C-3 C-3 C-3 ∥ C-10引导0上一帧掩码0当前帧掩码0BCL a：具有特征ΛaF的双边卷积，C-m：具有m×m滤波器的空间卷积，∥：连接0图3.视频传播网络的计算流程。双边网络（BNN）由一系列交替进行的双边滤波和ReLU非线性组成。BNN中的滤波信息然后传递到一个空间网络（CNN），该网络通过交替进行的卷积层和ReLU非线性来细化特征，从而得到当前帧的预测。0一个滤波器组B∈Rk×d，它在格点上产生k维向量。这些向量被切片回到感兴趣的n个输出点（当前视频帧）。B的值通过反向传播学习得到。[34,37]中的B的一般参数化允许滤波器具有任意的邻域大小。由于在高维空间中构造邻域结构是耗时的，我们选择使用1×1的滤波器以提高速度。这三个步骤的splating、convolving和slicing组成了一个双边卷积层（BCL），我们将堆叠和连接它们以形成一个双边网络。参见图2中的BCL示意图。BNN架构双边网络（BNN）在图3的绿色框中示出。输入是一个视频序列S和相应的预测V直到帧t。这些使用两个BCL（BCL a，BCLb）（每个32个滤波器）进行过滤。对于两个BCL，我们使用相同的特征Fi，但使用不同的对角矩阵进行缩放：ΛaFi，ΛbFi。特征缩放（Λa，Λb）通过验证找到。这两个32维的输出被连接起来，通过ReLU非线性传递，并传递到第二层的两个单独的BCL滤波器，使用相同的特征空间ΛaFi，ΛbFi。第二个滤波器组的输出然后使用1×1的空间滤波器进行降维，映射到原始维度d的v。我们研究了使用指数时间衰减对帧输入进行缩放，并发现在处理帧t时，使用（αvt-1，α2vt-2，α3vt-3...）进行重新加权，其中0≤α≤1，可以稍微提高性能。在实验中，我们还包括了一个简单的BNN变体，在permutohedral空间内不应用滤波器，只是使用两个层BCLa和BCLb进行splating和slicing，并添加结果。我们将这个模型称为BNN-Identity，因为它等价于使用恒等矩阵的滤波器B。它对输入V进行了图像自适应平滑，我们发现这种滤波在我们的实验中已经有了积极的效果。04.2. 空间网络0BNN的设计是为了将信息从前一帧传播到当前帧，尊重场景和物体的运动。然后我们添加一个小型的空间CNN，它有3层，每层有32个大小为3×3的滤波器，与之交替0ReLU非线性。然后将最终结果通过1×1卷积映射到v t的期望输出。这个空间CNN的主要作用是细化帧t中的信息。根据问题和可用训练数据的大小，可以构想其他网络设计。我们在所有实验中使用了与图3中所示的相同的网络架构，以展示VPN的普适性。05. 实验0我们在三个不同的传播任务上评估了VPN：前景掩码的传播、语义标签的传播和视频中的颜色传播。我们的实现在Caffe [35]中使用标准设置运行。我们使用Adam[38]随机优化来训练VPN，使用多项式逻辑损失来进行标签传播网络的训练，并使用欧几里得损失来进行颜色传播网络的训练。我们使用固定的学习率0.001，并选择验证损失最小的训练模型。运行时计算使用Nvidia TitanXGPU和6核Intel i7-5820KCPU（主频3.30GHz）的机器进行。代码可在http://varunjampani.github.io/vpn/上在线获取。05.1. 视频对象分割0我们专注于将给定的第一帧前景掩码传播到所有视频帧的半监督任务。视频中的对象分割对于多个高级任务（如视频编辑、描边等）非常有用。0数据集我们使用最近发布的DAVIS数据集[59]进行实验。它包含50个高质量的视频。所有帧都带有前景对象的高质量逐像素注释。为了进行稳健的评估并在所有数据集视频上获得结果，我们使用5折交叉验证评估我们的技术。我们随机将数据分成5个折，每个折中使用35个视频进行训练，5个视频进行验证，剩下的10个视频进行测试。评估时，我们使用[59]中提出的3个指标：交并比（IoU）分数、轮廓准确性（F）分数和时间不稳定性（T）分数。广泛使用的交并比分数定义为TP / (TP + FN +FP)，其中TP：真阳性，FN：假阴性，FP：假阳性。050010006666.56767.5684560F-1 F-2 F-3 F-4 F-5 全部0BNN-Identity 56.4 74.0 66.1 72.2 66.5 67.0 VPN-Stage1 58.2 77.7 70.4 76.068.1 70.1 VPN-Stage2 60.9 78.7 71.4 76.8 69.0 71.30表1.DAVIS视频分割数据集的5折交叉验证。不同模型在5个折上的平均IoU分数。0IoU ↑ F ↑ T ↓ 运行时间（秒）0BNN-Identity 67.0 67.1 36.3 0.21 VPN-Stage1 70.1 68.4 30.1 0.48VPN-Stage2 71.3 68.9 30.2 0.750使用预训练模型 DeepLab 57.0 49.9 47.8 0.15 VPN-DeepLab 75.0 72.429.5 0.630OFL [75] 71.1 67.9 22.1 > 60 BVS [53] 66.5 65.6 31.6 0.37 NLC [25]64.1 59.3 35.6 20 FCP [60] 63.1 54.6 28.5 12 JMP [26] 60.7 58.6 13.212 HVS [29] 59.6 57.6 29.7 5 SEA [62] 55.6 53.3 13.7 60表2.DAVIS数据集上的视频对象分割结果。不同VPN模型以及最近发表的技术在平均IoU分数、轮廓准确性（F）、时间不稳定性（T）分数和每帧的平均运行时间（以秒为单位）方面的表现。VPN的运行时间还包括超像素计算（10毫秒）。其他方法的运行时间取自[53,60,75]，仅供参考，不能直接与我们的运行时间进行比较。VPN-Stage2的运行时间包括VPN-Stage1的运行时间，而VPN-Stage1的运行时间又包括BNN-Identity的运行时间。VPN-DeepLab模型的运行时间包括DeepLab的运行时间。0TP：真阳性；FN：假阴性；FP：假阳性。其他两个指标的定义请参考[59]。0在这个任务中，我们只能访问第一帧的前景掩码v1。为了方便训练VPN，我们使用BNN-Identity获得初始的预测结果。我们依次在每一帧上应用BNN-Identity，并获得整个视频的初始前景掩码集合。然后，将这些经过BNN-Identity传播的掩码作为输入，训练VPN模型来预测每一帧的细化掩码。我们将这个VPN模型称为VPN-Stage1。一旦训练完成VPN-Stage1，它的细化掩码预测结果被用作训练另一个VPN模型的输入，我们将这个模型称为VPN-Stage2。这进一步改进了前景掩码的质量。进一步训练并没有带来任何改进。相反，可以将VPN视为一个逐帧处理的RNN单元。但是，由于GPU内存限制，我们选择了分阶段训练。根据最近关于视频对象分割的工作[53]，我们使用了F i = (x, y, Y, Cb, Cr, t)�特征，其中YCbCr颜色特征用于双边滤波。为了与最快的最新技术[53]进行比较，我们没有使用任何光流信息。首先，我们通过改变随机采样输入点的数量来分析BNN-Identity的性能。0点数（以千为单位）0分割IoU0图4.随机采样输入点与IoU。在DAVIS数据集上，从前5帧中随机采样点对BNN-Identity的对象分割IoU的影响。采样的点是从≈200万个点中采样的。0图4显示了随着从前一帧采样的点数（200万个点中的一部分）的增加，分割IoU如何变化。在采样了25%的点后，IoU趋于稳定。为了进一步提高计算效率，我们使用了超像素采样而不是随机采样。与随机采样相比，使用超像素略微降低了IoU（0.5），同时将输入点的数量减少了10倍。我们使用每帧的12000个SLIC[1]超像素，使用来自[63]的快速GPU实现计算。作为VPN的输入，我们使用前9帧的掩码概率，因为我们观察到使用更多帧没有改进。我们设置 α =0.5，并在补充材料中给出了特征尺度（Λa，Λb）。表1显示了5个折叠的每个IoU分数，表2显示了不同VPN模型的整体分数和运行时间，以及最佳性能技术。随着新的VPN阶段的添加，性能在所有5个折叠中持续改善。BNN-Identity已经表现得相当不错。在所有性能指标上，VPN在速度上与目前最快的BVS方法[53]相比具有显著的优势，同时在运行时间上可比。VPN在不使用任何光流的情况下，与OFL方法[75]相比性能略好，速度至少快80倍。此外，VPN具有在线处理的优势，因为它只查看先前的帧，而BVS一次处理整个视频。0预训练模型的增强VPN的主要优势之一是它是端到端可训练的，并且可以轻松集成到其他深度网络中。为了证明这一点，我们将VPN架构与标准的DeepLab分割网络[17]进行了增强。我们将DeepLab-LargeFOV模型的最后一个分类层替换为输出2个类别（前景和背景），并将结果低分辨率的概率图双线性上采样到原始图像尺寸。在DAVIS数据集上进行5折微调，结果平均IoU为57.0，其他分数显示在表2中。为了构建一个联合模型，从DeepLab和双边网络（在VPN中）的输出被连接，然后传递给空间CNN。换句话说，双边网络将标签信息从前一帧传播到当前帧，而DeepLab网络对当前帧进行预测。然后将两者的结果组合并通过VPN中的空间网络进行细化。我们将此模型称为“VPN-DeepLab”。我们对该模型进行了端到端训练，并观察到性能有了很大的提升。如表2所示，VPN-DeepLab模型的IoU得分为75.0，这是对已发表结果的显著改进。VPN-DeepLab的总运行时间仅为0.63秒，这也使其成为最快的技术之一。图5显示了更多的定性结果，更多内容请参阅补充材料。可以获得更好的VPN性能IoURuntime(s)4570第5帧第15帧第30帧第50帧0输入视频GTBVSOFLVPNVPN-DLab0第5帧第10帧第20帧第30帧0输入视频GTBVSOFLVPNVPN-DLab0图5.视频目标分割。显示了示例视频中的不同帧与相应的真实标签（GT）掩码，BVS[53]，OFL[75]，VPN（VPN-Stage2）和VPN-DLab（VPN-DeepLab）模型的预测结果。0然后传递给空间CNN。换句话说，双边网络将标签信息从前一帧传播到当前帧，而DeepLab网络对当前帧进行预测。然后将两者的结果组合并通过VPN中的空间网络进行细化。我们将此模型称为“VPN-DeepLab”。我们对该模型进行了端到端训练，并观察到性能有了很大的提升。如表2所示，VPN-DeepLab模型的IoU得分为75.0，这是对已发表结果的显著改进。VPN-DeepLab的总运行时间仅为0.63秒，这也使其成为最快的技术之一。图5显示了更多的定性结果，更多内容请参阅补充材料。可以获得更好的VPN性能0CNN-1 from [79] 65.3 0.38 + FSO-CRF [43] 66.1 > 10 +BNN-Identity 65.3 0.31 + BNN-Identity-Flow 65.5 0.33 + VPN(Ours) 66.5 0.35 + VPN-Flow (Ours) 66.7 0.370CNN-2来自[65] 68.9 0.30 + VPN-Flow（我们的）69.5 0.380表3.CamVid数据集上的语义分割结果。不同模型在测试集上的平均IoU和运行时间（以秒为单位）每帧。运行时间不包括CNN计算，这些计算分开显示。VPN和BNN-Identity的运行时间包括0.23秒的超像素计算（运行时间的大部分）。0通过使用更好的超像素并结合光流，可以改善运行时间。视觉结果表明，学习到的VPN能够在视点和物体尺寸变化较大的情况下保持前景掩码。05.2. 语义视频分割0这是将语义标签分配给每个视频像素的任务。由于相邻帧之间的语义没有发生根本性的变化，直观上，跨帧传播语义应该提高每帧的分割质量。与视频对象分割不同，其中第一帧的掩码是给定的，我们以完全自动的方式处理语义视频分割。具体而言，我们从标准CNN的一元预测开始，并使用VPN在帧之间传播语义。0数据集我们使用CamVid数据集[11]，其中包含4个高质量的视频，以30Hz的频率捕获，而语义标记的11类地面真实值以1Hz的频率提供。虽然原始数据集的分辨率为960×720，但我们使用与[79，43]相同的分辨率640×480进行操作。我们使用与[70]相同的划分，结果为367、100和233帧的训练、验证和测试集的地面真实值。0VPN和结果由于我们已经对每一帧进行了CNN预测，我们训练了一个VPN，它以前一帧和当前帧的CNN预测作为输入，并预测当前帧的细化语义。我们与一种最先进的CRF方法[43]进行比较，我们将其称为FSO-CRF。我们还尝试了在VPN中使用光流，并将该模型称为VPN-Flow。我们使用了快速的DIS光流[42]并修改了前一帧的位置特征。我们使用了Dollar等人计算的超像素作为gSLICr[63]引入了伪影。我们尝试了来自两个不同CNN的预测：一个是使用扩张卷积[79]（CNN-1），另一个是使用额外的视频游戏数据训练的[65]（CNN-2），这是该数据集上的最新技术。对于CNN-1和CNN-2，使用2和3个先前的帧作为VPN的输入被发现是最佳的。VPN的其他参数在补充材料中给出。Input VideoGT-ColorLevin et al.VPN(Ours)4580补充。表3显示了定量结果。仅使用BNN-Identity稍微改善了性能，而训练整个VPN则显著提高了CNN-1的性能，IoU提高了1.2个以上，无论是使用VPN还是VPN-Flow。此外，VPN至少快25倍，并且与基于优化的FSO-CRF相比，使用VPN更简单，FSO-CRF依赖于LDOF光流[13]、长期轨迹[71]和边缘[21]。在VPN中将双边滤波器替换为空间滤波器仅将CNN-1的性能提高了0.3个IoU，显示了视频自适应滤波的重要性。我们进一步改进了最先进的CNN-2[65]的性能，使用VPN-Flow模型。使用更好的光流估计可能会得到更好的结果。图6显示了一些定性结果，更多内容请参见补充材料。0输入GT CNN + VPN（我们的）0图6.语义视频分割。输入视频帧和相应的地面真实值（GT）分割以及CNN [79]和VPN-Flow的预测。05.3. 视频颜色传播0我们还在灰度视频中评估了VPN的回归任务，即传播颜色信息。给定第一个视频帧的彩色图像，任务是将颜色传播到整个视频。对于这个任务的实验，我们再次使用了DAVIS分割数据集[59]，其中包含每个视频的前25帧。我们将数据集随机分为30个训练视频、5个验证视频和15个测试视频。我们使用图像的YCbCr表示和以像素强度、位置和时间特征作为VPN的指导，传播先前帧的CbCr值。使用与对象分割相同的策略，首先使用BNN-Identity获得一组初始的颜色传播结果，然后用于训练VPN-Stage1模型。进一步训练VPN阶段并没有改善性能。我们将前3帧中随机采样的30万个点作为VPN网络的输入。表4显示了PSNR的结果。我们还展示了[46]的基准结果，该方法使用光流进行基于图的优化。我们在基准方法[46]中使用了快速的DIS光流[42]，并且没有观察到使用LDOF光流[13]的显著差异。图7显示了一个视觉结果，更多内容请参见补充材料。VPN的性能可靠地优于[46]。0峰值信噪比(PSNR) 运行时间(s)0BNN-Identity 27.89 0.29 VPN-Stage1 28.15 0.900Levin等人[46] 27.11 190表4. 视频颜色传播结果.DAVIS数据集上不同方法进行视频颜色传播的平均峰值信噪比(PSNR)和运行时间。0而且速度快20倍。[46]的方法在很大程度上依赖于光流，因此颜色会随着不正确的光流而偏离。我们观察到，我们的方法在某些区域也会出现颜色渗透，特别是在视点变化较大时。我们无法与最近的颜色传播技术[31,68]进行比较，因为它们的代码不可在线获取。这个应用展示了VPN在传播不同类型信息方面的普适性。0帧2 帧7 帧13 帧190图7. 视频颜色传播.输入灰度视频帧和相应的真实颜色图像，以及Levin等人的颜色预测和VPN-Stage1模型的颜色预测。06. 结论0我们提出了一种快速、可扩展和通用的神经网络方法，用于在视频帧之间传播信息。VPN使用双边网络从前一帧向当前帧传播信息，然后通过空间网络进行细化。对各种任务的实验表明，尽管是通用的，VPN仍然优于当前最先进的任务特定方法。我们技术的核心是利用和修改可学习的双边滤波在视频处理中的使用。我们使用了一个简单的VPN架构来展示其通用性。根据问题和数据的可用性，使用更多的滤波器或更深的层次将导致更好的性能。在这项工作中，我们手动调整了特征尺度，这可能适合学习。为视频找到最佳且计算速度快的双边特征，以及学习它们的尺度，是一个重要的未来研究方向。0致谢我们感谢VibhavVineet为CamVid数据集提供训练好的图像分割CNN模型。4590参考文献0[1] R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua和S.Susstrunk. SLIC超像素与最先进的超像素方法相比. IEEETransactions on Pattern Analysis and Machine Intelligence,34(11):2274–2282, 2012. 60[2] A. Adams, J. Baek和M. A. Davis.使用排列晶格的快速高维滤波. 在计算机图形学论坛上, 卷29,页753–762. Wiley Online Library, 2010. 30[3] A. Adams, N. Gelfand, J. Dolson和M. Levoy.用于快速高维滤波的高斯kd树. ACM Transactions on Graphics(ToG), 28(3):21, 2009. 30[4] A. Agarwala, A. Hertzmann, D. H. Salesin和S. M. Seitz.基于关键帧的追踪用于动画和动画. ACM Transactions onGraphics (ToG), 23(3):584–591, 2004. 20[5] V. Aurich和J. Weule. 执行边缘保持扩散的非线性高斯滤波器.在DAGM上, 页538–545. Springer, 1995. 2, 30[6] X. Bai, J. Wang, D. Simons和G. Sapiro. 视频快速剪切:使用局部分类器的鲁棒视频对象剪切. ACM Transactions onGraphics (TOG), 28(3):70, 2009. 20[7] J. T. Barron, A. Adams, Y. Shih和C. Hern´andez.用于合成散焦的快速双边空间立体视觉. 在计算机视觉和模式识别,IEEE Conference on上, 页4466–4474, 2015. 20[8] J. T. Barron和B. Poole. 快速双边求解器.在欧洲计算机视觉会议上. Springer, 2016. 20[9] Y. Boykov, O. Veksler和R. Zabih.通过图割进行快速近似能量最小化. IEEE Transactions on PatternAnalysis and Machine Intelligence, 23(11):1222–1239, 2001.20[10] Y. Y. Boykov和M.-P.Jolly。用于nd图像中对象的最佳边界和区域分割的交互

下载后可阅读完整内容，剩余1页未读，立即下载