完全上下文感知的视频预测模型

34 浏览量更新于2023-10-13 收藏 1.23MB PDF 举报

视频预测

架构设计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ContextVP：完全上下文感知的视频预测原民边1， 2， 3， 4，秦王2，Rupesh Kumar Srivastava4和Petros Koumoutsakos21NVIDIA，美国wbyeon@nvidia com2ETH Zurich，苏黎世，瑞士3瑞士人工智能实验室IDSIA，Manno瑞士4NNAISENSE，卢加诺，瑞士抽象。基于卷积网络、递归网络及其组合的视频预测模型通常会导致模糊预测。我们确定了一个在文献中尚未充分研究的不精确预测的重要影响因素：盲点，即，缺乏对过去所有相关信息的访问，无法准确预测未来。为了解决这个问题，我们引入了一种完全上下文感知的架构，该架构使用并行多维LSTM单元捕获每个像素的整个可用的过去上下文，并使用混合单元将其聚合。我们的模型优于由20个递归卷积层组成的强大基线网络，并在三个具有挑战性的现实世界视频数据集（Human 3.6M，Caltech Pedestrian和UCF-101）上获得了最先进的性能。此外，它使用的参数比最近提出的几种模型少，并且不依赖于深度卷积网络，多尺度架构，背景和前景建模的分离，运动流学习或对抗训练。这些结果突出表明，过去的上下文的充分认识是至关重要的视频预测。1介绍无标签视频的无监督学习最近成为一个重要的研究方向。在最常见的设置中，模型被训练来预测以过去为条件的未来帧，并学习一种表示，该表示在没有外部监督的情况下捕获关于视频中对象的外观和运动的信息。这开辟了几种可能性：模型可以用作视频生成的先验，它可以用于基于模型的强化学习[32]，或者学习的表示可以转移到其他视频分析任务，如动作识别[30]。然而，由于对象和背景的多样性、各种分辨率、对象遮挡、相机移动、动态场景和帧之间的光变化，学习用于自然视频的这种预测模型是一个相当具有挑战性的问题因此，基于卷积网络、递归网络及其组合的当前视频预测模型通常导致不精确（模糊）的预测。2W. Byeon，Q.王河，巴西-地K. Srivastava和P.库穆察科斯t方向w方向w+方向h方向h+方向帧t-1帧t帧t-1帧t帧t+1帧t-1帧t帧t+1帧t-1帧t 帧t+1帧t-1帧t帧t+1预测帧t-1帧t框架T-3框架T-2帧T-1帧T帧T+1图1：（左）两个连续帧之间的卷积LSTM（ConvLSTM）上下文依赖性（右）ConvLSTM中帧t=T随时间变化的上下文依赖流。以灰色示出的盲区不能用于预测时间T+ 1处的像素值。越近的时间帧具有越大的盲区。预测框架T-3框架T-2帧T-1帧T帧T+1图2：（顶部）当使用并行MD-LSTM（PMD）单元时，两个帧之间的上下文依赖性有五个方向：t-，w-，w+，h-和h+，其中h，w和t表示高度，宽度和时间维度的当前位置。（底部）所提出的架构中的帧t=T的组合上下文依赖性流。无论输入大小如何，过去帧中的所有可用上下文都被覆盖在单个层即使是在大量数据上训练的非常大，强大的模型也会受到基本限制，导致预测模糊。某些模型的结构可能不适合任务，导致训练困难和泛化能力差。一些研究人员已经提出将运动先验和背景/前景分离纳入模型架构中以解决这个问题。模糊预测基本上是模型不确定性的表现，如果模型未能充分捕获相关的过去信息，则不确定性会增加不幸的是，这种来源的不确定性没有得到足够的重视，在文献中。目前大多数模型的设计并不能确保它们可以正确地捕获所有可能相关的过去上下文。本文试图弥补这一差距。我们的贡献如下：– 我们强调了常见视频预测模式中的盲点问题-els，这表明它们没有系统地考虑来自过去帧的整个时空背景（参见图1-右），并且必须依赖于增加深度来这样做。这增加了关于未来的不确定性，这不能使用特殊的损失函数或运动先验来补救。ContextVP：完全上下文感知的视频预测3– 我们贡献了一个简单的基线模型，优于相当复杂的模型，从最近的文献。由于增加的深度，该基线模型具有增加的捕获相关上下文的能力– 我们提出了一种用于视频预测的新架构，其在每个处理层处系统地且有效地在所有可能的方向（左、右、顶部、底部和时间方向）上聚合每个像素的上下文信息（参见图1B）。2）而不是堆叠层来覆盖可用的上下文。我们还提出了加权上下文混合块和正则化通过定向权重共享所提出的架构。我们获得的性能改进，我们强大的基线，以及国家的最先进的模型，同时使用更少的参数和简单的损失函数。我们展示了各种具有挑战性的视频预测方案的改进：汽车驾驶，人体运动，以及YouTube视频中的各种人类行为。度量的定量改进伴随着高视觉质量的结果，其显示出更清晰的未来预测，减少了模糊或其他运动伪影。由于所提出的模型不需要分离的内容和运动或新的损失函数，以达到最先进的水平，我们发现，全面的上下文意识是高质量的视频预测的关键因素。2相关工作当前的视频分析方法根据模型架构以不同的方式利用不同量的时空信息。一种常见的策略是使用基于3D卷积神经网络（CNN）的模型，该模型使用跨时间和空间维度的卷积来对所有低层进行建模。calcorrelations [28，33]for supervised learning.类似的架构已用于视频预测，以直接生成未来帧中像素的RGB值[22，26，24，35]。Kalchbrenner等人[16]讨论了视频的一般概率模型应该考虑整个历史（所有上下文都在过去帧和当前帧的生成像素），用于生成每个新像素。然而，他们提出的视频像素网络（VPN）仍然使用基于编码器的技术。在卷积层的堆叠上。这些模型的一个固有限制是，由于内核的大小有限，卷积只考虑了短程依赖性。这些架构需要更大的卷积层堆栈，以使用广泛的上下文来降低不确定性。这增加了模型容量，即使可能不需要。递归神经网络通常用于解决有限的上下文Srivastava等人[30]提出了基于长短期记忆（LSTM）[13]的编码器-解码器模型，用于视频预测任务，但canoni-他们使用的cal LSTM架构没有考虑视频数据的空间结构。这激发了基于卷积LSTM（ConvLSTM）的模型的使用Shinging等人[38]提出了降水临近预报设计;其动机是卷积运算将对空间依赖性进行建模，而LSTM连接性将提供增加的时间上下文。4W. Byeon，Q.王河，巴西-地K. Srivastava和P.库穆察科斯Stollenga等人同时提出了LSTM的相同修改。[31]以PyraMiD-LSTM的名义进行体积图像分割，因为它与多维LSTM（MD-LSTM）有密切的关系[12]。最近，ConvLSTM已经成为视频预测模型的流行构建块Finn等人。[6]使用它来设计一个模型，该模型经过训练以预测像素运动而不是值。 Lotter 等人 [21] 开发了受预测编码启发的深度预测编码网络（PredNet）架构，该架构通过合并先前的预测误差来改进其自身对未来帧的预测它也用于MCNet [34]，它学习分别对场景内容和运动进行建模，以及用于双运动GAN [19]，它学习同时产生一致的像素和流预测Wang et.al. [36]最近提出了通过在堆栈中的层之间共享隐藏状态来修改用于视频预测的堆栈ConvLSTM网络。对于大多数静态背景的视频，将移动的前景对象与背景分开显式建模是有帮助的[28，35，6]。另一个积极的研究方向是开发仅学习估计光流并使用它来生成未来帧而不是直接生成像素的架构[25，20]。使用典型损失函数训练的确定性模型可能导致不精确的预测，这仅仅是因为给定过去，未来是模糊的。例如，如果存在多个可能的未来帧，则被训练以最小化L2损失的模型将生成它们的平均帧。在这种情况下，获得精确、自然的帧预测的一种方法是使用基于生成对抗网络[9]的对抗训练[22，35]。另一种方法是使用概率模型对未来帧的分布进行建模，从中可以获得一致的样本，而无需对模式进行平均[39，16]。3其他网络架构如前所述，如果视频预测模型没有充分地捕获过去视频帧中的所有相关信息，则模糊预测可以由视频预测模型产生，所述相关信息可以用于减少不确定性。图图1显示了时间t时像素的循环连接，两帧之间的卷积为3 × 3（左），ConvLSTM的信息流预测时间T + 1时的像素（右）。覆盖上下文随时间（深度）逐渐增长，但也存在无法用于预测的盲点事实上，如图所示。 1（右，用灰色标记），最近过去的帧有较大的盲区。由于这种结构问题，网络无法捕获整个可用的当视频中的对象外观或运动在几帧内发生剧烈变化时，预测最终会失败在CNN中广泛用于图像分析的解决有限上下文的一种可能的方法是通过堆叠多层来扩展上下文（有时具有扩张卷积[40]）。然而，堆叠层仍然将可用上下文限制为网络架构所规定的最大值，并且ContextVP：完全上下文感知的视频预测511电话+11对于高分辨率视频，获得足够的上下文所需的附加参数可能非常大。另一种可以提供帮助的技术是使用多尺度架构，但是固定的尺度因子可能无法推广到所有可能的对象、它们的位置和运动。4方法我们介绍了完全上下文感知的视频预测模型（ContextVP）-一个架构，通过覆盖所有可用的上下文设计，避免盲点其优点是：– 由于每个处理层都覆盖整个上下文，因此增加深度仅用于增加计算能力，而不是增加上下文。也不需要比例因子的先验规范。– 与利用增加的深度来覆盖更大上下文的模型（例如我们的基线20层模型）相比，可以并行化更多的计算。– 与最近文献中的最先进模型相比，它在不使用运动和内容分离、学习光流或对抗训练的情况下改善了性能（尽管与这些策略的组合可能会进一步改善结果）。令x T={x1，…x T}是长度为T的给定输入序列。x t∈RH×W×C是第t个帧，其中t∈ {1，.，T}，H是高度，W是宽度，C是通道数。为简单起见，假设C=1，则X T是由六个平面界定的像素的长方体。任务是预测序列中的P个未来帧，Xt+p={Xt+1，… xt+p}（如果p = 1，则n∈xt-矩阵是可预测的）。我们的目标是为了将来自整个长方体xT的信息集成到在该长方体x T处的表示中t+p平面，其中t=T，其可用于预测xt+1。这是通过使用完全上下文感知的层来实现的，每个层由两个个街区. 第一块由并行MD-LSTM单元组成，这些单元顺序地聚合来自不同方向的信息。第二块是上下文混合块，其组合所有方向的PMD单元的输出。在图2中可视化了针对每个方向使用PMD单元覆盖的上下文（顶部）和来自过去帧的组合上下文（向下）。图中的示意图。 4显示了我们最佳模型的整体架构。4.1并行MD-LSTM单元多维LSTM（MD-LSTM）[12]网络是DAG-RNN [2]的一种特殊化，已被应用于输入是二维的各种问题，如手写识别[11]，2D图像分类[4]和分割[3]。它们由每个维度的两个MD-LSTM块组成，以组合来自所有可能方向的上下文。原则上，MD-LSTM网络可以应用于任何高维域问题（包括视频预测），以紧凑地建模数据中所有可用的依赖关系。然而，该模型的完全顺序性质使其不适合并行化，因此不切实际6W. Byeon，Q.王河，巴西-地K. Srivastava和P.库穆察科斯1t-方向w+方向递归方向h+方向帧t-1帧t帧t-1帧t帧t+1帧t-1帧t帧t+1图3：t−、w+和h+重现方向PMD单元的一个计算步骤的图示。每个单元使用来自前一帧的固定感受野（此处为3×3）的上下文沿其递归方向（蓝色）计算当前位置（红色）处的激活。该计算使用卷积有效地实现更高维度的数据。PyraMiD-LSTM[31]通过将每个MD-LSTM块的递归连接拓扑从长方体重新排列为金字塔形（用于3D数据）来解决这个问题利用卷积运算可以有效地实现。到目前为止，使用LSTM从各个方向聚合信息的想法仅在有限的设置（2D/3D图像分割）中进行了探索。我们将PyraMiD-LSTM架构中使用的并行计算单元简单地称为并行多维（PMD）单元，因为它们以适合并行化的方式对上下文依赖性进行建模。它们在数学上类似于ConvLSTM单元，但我们的术语强调，没有必要像传统那样将卷积运算限制在空间维度，将LSTM连接限制在时间维度。如在图3中可以看到的，PMD单元可以用于沿着长方体中可用的六个方向中的任何一个来示出了三个方向：t-、w+和h+。在每个平面处，每个像素的局部计算独立于同一平面中的其他像素，因此使用卷积运算并行处理所有像素。使用LSTM操作对跨平面的计算依赖性进行建模下面用数学方式解释每个PMD单元的计算对于K个二维平面的任何序列，X K={X1，…x K}，PMD单元使用输入、遗忘、输出门来计算当前单元和隐藏状态ck，sk，并且该形式的单元c~k给出了来自前一平面ck-1，sk-1的单元和隐藏状态ck。ik=σ（Wi*xk+Hi*sk-1+bi），fk=σ（Wf*xk+Hf*sk-1+bf），ok=σ（Wo*xk+Ho*sk-1+bo）ck=tanh（Wcxk+Hcsk-1+bc），ck=fkck-1+ikck，s k= o k⊙ tanh（c k）.（一）这里（*）是卷积运算，（⊙）是元素乘法。W和H是输入-状态和状态-状态的权重重量的大小ContextVP：完全上下文感知的视频预测7矩阵仅取决于核大小和单元数量如果内核大小较大，则考虑更多的本地上下文。如第3节所示，使用ConvLSTM将等效于沿着从k=1到k=T的时间维度运行PMD单元，这将仅整合来自长方体的金字塔形区域的信息并忽略几个盲区。为此，有必要使用四个额外的PMD单元，其调节方向与空间维度对齐，如图12所示。 2（顶部）。我们将在帧T处的五个输出的结果集定义为sd，其中d∈D={h-，h+，w-，w+，t-}表示递归方向。这一集合一起构成了所关注xT. xT−1中其他帧的输出被忽略。1 14.2上下文混合块该块通过在帧T处组合来自所有方向的PMD单元的输出来捕获整个可用上下文。这导致了与传统ConvLSTM的关键区别：上下文方向不仅与时间维度对齐，而且与空间维度对齐。我们考虑两种方法来结合来自不同方向的信息。均匀混合（U-混合）：该策略用于传统的MD-LSTM [10，3]和PyraMiD LSTM [31]。它简单地对沿通道维度的所有方向的输出求和，然后对结果应用非线性变换： Σm=f（（sd）·W+b），（2）d∈D其中W∈RN1×N2和b∈RN2是权矩阵和偏置。N1是PMD单元的数量，并且N2是（混合）块的数量。f是激活函数。加权混合（W-混合）：PMD单元输出的总和在U-混合中，假设来自每个方向的信息对于每个像素同等重要。我们提出了W-混合来消除这一假设，并在训练过程中学习每个方向的相对重要性，与整体模型大小相比，增加了少量的额外权重块从所有方向连接sS=Σst−sh−sh+sw−sw+ΣT（3）向量S的加权如下：m=f（S·W+b），（4）其中W∈R（ 5×N1）×N2（5是方向数）.当量2和Eq。4使用1 × 1卷积实现。我们发现，W混合对于实现视频预测任务的高性能至关重要（见表1）。①的人。8W. Byeon，Q.王河，巴西-地K. Srivastava和P.库穆察科斯4.3定向权重分配（DWS）视觉数据倾向于沿着相反方向具有结构上相似的局部模式。这就是为什么水平翻转是计算机视觉中常用的数据增强技术的原因。我们建议使用一个类似的启发权重共享技术的正则化建议的网络。PMD单元在相反方向上的权重和偏置被共享，即H-和H+的权重是共享的，W-和W+也是共享的。这种策略有几个好处实际上：1）它降低了要学习的参数的数量，2）它将关于结构相似性的知识并入模型中，以及3）它改进了泛化。4.4培训x∈ G=g（m）是运算（输出）层的输出，其中g是输出激活函数.该模型使预测像素和目标像素之间的损失最小化。 Lp损失和图像梯度差损失（GDL）[22]被组合。通过保持损失函数简单，结果反映了加速对所有可用成本的影响。 Lety和x由所述大小和所述预测帧组成。目标函数定义如下：L（y，x¨）=λpLp（y，x¨）+λgdlLgdl（y，x¨）Lp（y，x）=||y−x||pLgdl（y，x）=Σi、j|−|xi，j − x i − 1，j|+的|yi，j − 1 − y i，j|−|xi，j − 1 −x i，j|、|,（五）什么时候|. | isth e absolut e valu e fun c tion,xˆi,jandyi,jar e th e pix e le l e m entsfrom th e fram e xˆandy,r e sp ec tiv e ly. λp和λg是用于访问的新窗口。在我们的实验中，当p=l时，λ gdl被设置为1，当p = 2时，λ gdl被设置为0。λp始终设置为1。我们使用ADAM [18]作为优化器，初始学习率为1e- 3。学习率每5个时期衰减一次，衰减率为0。99. 在使用X向量的归一化的归一化的过程中，权重被归一化5实验我们在具有不同特征的三个现实世界场景中评估所提出的方法：人类运动预测（人类3.6M数据集[14]），车载摄像机视频预测（训练：KITTI数据集[7]，测试：CalTech Pedes- trian数据集[5]，以及人类活动预测（UCF-101数据集[29]）。所有输入像素值被归一化到范围[0，1]。对于人体运动和车载视频，训练模型以使用十个帧作为输入来预测下一帧。对于UCF-101数据集，输入由四个帧组成，以便与过去的工作进行公平比较。基于平均峰值信噪比（PSNR）和结构相似性指数测量（SSIM）对测试集进行定量评价[37]5。这些常用的数字表示-5还报告了车载摄像头视频预测的均方误差（MSE），以与PredNet[21]进行比较。ContextVP：完全上下文感知的视频预测9PMD（t-）PMD（ w- ）PMD（ w+ ）PMD （ h-PMD（t-）PMD（w-）PMD（w+）PMD（h-）PMD（t-）PMD（w-）PMD（w+）PMD（h-）PMD（t-）PMD（w-）PMD（w+）PMD（h-）σPMD1（六十四）将1（六十四）PMD2（128）混合2（128）PMD3（128）混合3（128）PMD4（六十四）混合4（六十四）输出层图4：ContextVP-big（4层）架构：每层包含5个PMD单元，随后是上下文混合块。使用两个跳过连接，其简单地级联两个层（层1 - 3和层2- 4）的输出。输出层使用sigmoid激活函数，该函数输出范围（0， 1）内的值（·）表示每层中隐藏单元的数量。ContextVP-small架构在每一层都有一半的隐藏单元。已知这些不能完全代表人类视觉。因此，我们强烈建议查看图5和图5中的视觉结果。7.第一次会议。网络架构：我们最好的模型架构如图所示。4.第一章它由四个上下文感知层的堆栈组成，具有跳过连接，可直接预测下一帧的缩放RGB值。所有结果均针对所有PMD单元使用3×3卷积核的模型报告，等式中的身份激活函数。 2和Eq。 4并且使用L1（在等式4中p =1）训练。5）GDL丢失。改变为5 × 5大小的内核，使用非线性激活（例如， ReLU [23]或tanh）或混合块中的层归一化[1]不会影响我们实验中的性能。 Finn等人[6]报道，具有GDL损失函数的L1比L2执行得更好，但在我们的情况下，它们的性能非常相似。基线：我们的基线（ConvLSTM20）是一个由20个ConvLSTM层组成的网络，内核大小为3 × 3。层的数量被选择为20以覆盖大的上下文，并且还因为我们的4层模型中的每一层由5个PMD单元组成。还使用了与我们的模型类似的两个跳过连接层的大小被选择为保持参数的数量与我们最好的模型（ContextVP 4-WD-big）相当令人惊讶的是，这个基线在UCF- 101数据集上的表现几乎超过了所有最先进的模型，除了深度体素流[20]注意，与其中可以并行地应用用于不同方向的PMD单元的ContextVP模型5.1人体运动预测（Human3.6M数据集）我们首先在Human3.6M数据集上评估我们的模型[15]。该数据集包括七名人类受试者（三名女性和四名男性）。五个主题用于培训，另外两个用于验证和测试。视频被二次采样到10 fps，下采样到64× 64分辨率。消融研究：使用此数据集，我们评估模型中各个组件的重要性：多个图层、上下文混合类型和DWS10W. Byeon，Q.王河，巴西-地K. Srivastava和P.库穆察科斯表1：Human3.6M数据集的消融研究结果。该模型在10帧上进行训练，并预测下一帧。结果是测试视频的平均值。D表示方向权重共享，U和W分别表示均匀和加权混合。较高的PSNR/SSIM值和较低的MSE值指示较好的结果。名称层数共混型DWSPSNRSSIM#参数ContextVP11均匀（U）N38.10.9900.7MContextVP33均匀（U）N41.20.9921.6MContextVP4-U-big4均匀（U）N42.30.99414.0MContextVP4-W-big4加权（W）N44.80.99614.2MContextVP 4-WD-小型4加权（W）Y45.00.9962.0MContextVP 4-WD-大4加权（W）Y45.20.9968.6M表2：对Human3.6M数据集的下一帧预测的评估所有模型都在10帧上进行训练，并预测下一帧。结果是测试视频的平均ConvLSTM20是我们的基线，包含20个ConvLSTM层。较高的PSNR和SSIM值、较低的MSE值指示较好的结果。我们的最佳模型（ContextVP 4-WD：4层加权混合和DWS）优于我们的基线以及当前最先进的方法，参数数量较少。方法PSNRSSIM#参数时间复制最后一帧32---[22]第二十二话26.7-8.9M-PredNet [21]38.9-6.9M-ConvLSTM2044.10.9959.0M0.153ContextVP 4-WD-小型45.00.9962.0M-ContextVP 4-WD-大45.20.9968.6M0.092正则化选项卡. 1显示结果。我们发现，性能大幅增加的层数，切换到W-混合，并添加DWS。ContextVP 1、ContextVP 3和ContextVP 4-U-big使用U混合并且没有DWS，对应于PyraMiD-LSTM的直接适配用于视频预测。与其他方法的比较：选项卡. 2显示了预测结果与基线ConvLSTM以及PredNet [21]和Be- yondMSE [22]的比较。包括另一个基线Copy-Last-Frame以显示简单复制最后一个输入帧的结果我们不与Finn等人进行比较[6]因为他们的模型没有被训练用于下一帧预测。从Tab。1，可以看出，单层ContextVP已经优于使用3D-CNN的BeyondMSE，并且三层ContextVP网络优于使用ConvLSTM的PredNet。最后，具有W-混合和DWS的四层ContextVP网络优于所有方法，即使具有少得多的参数（ContextVP 4-WD- small）。增加模型大小（ContextVP 4-WD-big）会略微改善最终性能。ContextVP：完全上下文感知的视频预测11输入预测（t=11）地面t=2 t=5 t=8 TruthContextVPConvLSTM PredNet图5：我们的最佳模型（ContextVP 4- WD-big），基线（ConvLSTM 20）和最先进的模型（PredNet）之间的测试集的定性比较在KITTI数据集上给定10个输入帧，所有模型都被训练用于下一帧预测，并在CalTech Pedestrian数据集上进行测试。5.2车载摄像头视频预测（KITTI和CalTech Pedestrian数据集）该模型在KITTI数据集[ 7]上进行训练，并在CalTech Pedes-triandatet[5]上进行测试。对来自“Cityy”、“Residential”和“Rload”视频的每个输入帧进行采样以用于训练，从而产生约41K帧。来自两个数据集的帧被中心裁剪并下采样到128× 160像素。我们使用精确的数据准备作为PredNet [21]进行直接比较。车载摄像机视频是从移动的车辆拍摄的，包括各种各样的运动。与具有静态背景和小运动流的Human3.6M相比为了对这样的视频进行预测，模型不仅需要学习行人的小运动，而且还需要学习周围车辆和背景的相对较大的运动。我们将我们的方法与 Copy-Last-Frame 和 ConvLSTM 20 基线以及BeyondMSE，PredNet和Dual Motion GAN [19]进行了比较，这些模型是该数据集目前最好的模型。请注意，Lotter et al.[21]在九帧上平均（在他们的研究中时间步长为2因此，我们使用训练好的网络重新计算下一帧的PredNet分数。如Tab.所示。3，我们的具有W混合和DWS的四层模型在所有指标上都优于现有技术。再次，较小的ContextVP网络已经匹配基线，同时小得多并且更适合于并行化。提供了测试集的一些预测结果样本12W. Byeon，Q.王河，巴西-地K. Srivastava和P.库穆察科斯表3：在CalTech Pedestrian数据集（在KITTI数据集上训练）上的下一帧预测的评估。所有模型都在10帧上进行训练，并预测下一帧。结果是测试视频的平均值。ConvLSTM20是我们的基线，包含20个ConvLSTM层。较高的PSNR和SSIM值、较低的MSE值指示较好的结果。（+）此分数由[19]提供。（*）在Lottet et al中提供的分数。[21]每个预测帧（在本发明中，时间间隔为2- 10）被预测，因此，我们使用他们训练的网络重新计算了PredNet的分数。我们的最佳型号（ContextVP 4-WD：具有加权混合和DWS的4层）优于基线以及具有较少参数的当前最先进方法。方法−3MSE（×10）PSNRSSIM#参数时间复制最后一帧7.9523.30.779--[22]第二十二话3.26-0.881--*PredNet [21]2.4227.60.9056.9M-[19]第十九话2.41-0.899113M-ConvLSTM202.2628.00.9139.0M0.447ContextVP 4-WD-小型2.1128.20.9122.0M-ContextVP 4-WD-大1.9428.70.9218.6M0.346在图5中。与基线和PredNet相比，我们的模型能够使预测适应当前场景，并做出更清晰的预测。5.3人类行为预测（UCF-101数据集）我们测试的最后一个数据集是UCF-101 [29]，由来自YouTube的视频组成尽管该数据集中的许多视频在帧之间包含小的移动我们的实验设置如下Mathieu等人。[22]第20段。从UCF-101训练集中选择约50万个训练视频，并使用UCF-101测试集的10%进行测试（378个视频）。所有帧的大小都调整为256× 256。注意Mathieu et al.使用从Sports-1 M数据集[17]中随机选择的32× 32个补丁序列进行训练，因为UCF-101数据集中帧之间的然而，我们的模型直接在具有原始分辨率的长度为4的UCF-101子序列上进行训练使用Mathieu等人提供的Epicflow [27]生成的运动掩模。用于验证和测试，因此在计算PSNR和SSIM时，评估集中在具有显著运动的区域。选项卡. 4提供了与基线的定量比较以及过去工作的四个最佳结果：对抗训练（BeyondMSE;[22]），最好的模型从Villegas等人。（MCnet+RES;[34]）和深体素流（DVF;[20]）。结果与以前的数据集相似：即使在更小的尺寸下，四层ContextVP网络的性能也优于基线和其他方法，并且增加模型大小会带来分数的小幅提高然而，在SSIM得分上，它这些结果表明，小ContextVPContextVP：完全上下文感知的视频预测13ContextVP_bigConvLSTM （ 20-L ， kernel3 ） ConvLSTM （ 20-L ，kernel5）MCnet+RES[34]表4：对UCF-101数据集的下一帧预测的评估。模型在四个帧上训练并预测下一帧。结果是测试视频的平均值ConvLSTM20是我们的基线，包含20个ConvLSTM层。（*）Liu等人[20]没有提供参数的数量，但指出他们的模型具有与BeyondMSE相同的参数数量[22]。较高的PSNR和SSIM值、较低的MSE值指示较好的结果。对于UCF-101数据集，较大的内核大小使用较少的参数产生更好的预测。我们的最佳型号（ContextVP 4- WD：具有加权混合和DWS的4层）优于基线以及具有较少参数的当前最先进方法。方法PSNRSSIM#参数时间[22]第二十二话320.928.9M-MCnet+RES [34]310.9114M-DVF [20]33.40.94≈8.9M*-ConvLSTM2032.90.919.0M0.499ContextVP 4-WD-小型34.70.922M-ContextVP 4-WD-大34.90.928.6M0.474320.9030二十八点八五260.80240.7522201 2 3 4 5 6 7 8时间步长0.701 2 3 4 5 6 7 8时间步长图6：UCF 101多步预测的比较：我们的最佳模型（ContextVP），Villegas等人。（MCnet+RES;[34]）和20层ConvLSTM基线。给定4个输入帧，模型被训练用于下一帧预测，并被测试以递归地预测8模型可以捕获相关的时空信息，并使用它在非常不同的环境中做出准确的预测，而不需要对抗性训练。多步预测：图 6比较了我们的模型与基线（ ConvLSTM20 ）、MCnet+RES和BeyondMSE的多步预测结果。给定四个帧，所有网络都被训练用于单帧预测，并通过递归地预测八个帧来对测试集进行评分。根据PSNR，我们的小型和大型模型的表现非常相似，但对于更小的模型，用于进一步预测的SSIM得分更好。定性比较如图7所示。在第一视频中，ContextVP产生对所述视频的面部的清晰预测，且产生对所述视频的面部的部分面部的清晰预测，作为对其它方法的在第二个视频中，ContextVP保留了骑手和马的更多细节。PSNRSSIM14W. Byeon，Q.王河，巴西-地K. Srivastava和P.库穆察科斯输入真实数据和预测t=2 t=4 t=5 t=7 t=9 t=11ContextVPConvLSTMMCnetContextVPConvLSTMMCnet图7：我们的最佳模型（ContextVP 4-WD-big），基线（ConvLSTM 20）和最先进的模型（MCNet）之间的UCF-101测试集的定性比较。给定4个输入帧，所有模型都被训练用于下一帧预测然后测试它们以递归地预测8个未来帧（也参见图1B）。（六）。6结论和未来方向本文确定了当前视频预测模型中缺少上下文的问题，这有助于对未来的不确定预测，并导致生成模糊帧。为了解决这个问题，我们开发了一种新的预测架构，在每一层有效地捕获所有相关的上下文。它在各种场景中的视频预测性能优于现有方法，证明了完全上下文感知模型的重要性。我们没有结合其他最近的想法来改进视频预测，例如显式背景/运动流建模或对抗训练。由于这些以前已经探索了不完整的上下文模型，一个有前途的未来方向是评估它们对完全上下文感知模型的影响我们的工作表明，完整的上下文覆盖应该是任何视频预测基线的必要特征，以排除多个不确定性来源。ContextVP：完全上下文感知的视频预测15引用1. BA J.L. Kiros ， J.R. Hinton ， G.E. ：层归一化。 arXiv 预印本 arXiv ：1607.06450（2016）2. Baldi，P.Pollastri，G.：介绍了大规模递归神经网络算法的原理性设计和递归神经网络算法的实现。 J 〇 urnalofMachineLeamrningResearch4（Sep），5753. Byeon，W.，Breuel，T. M.，Raue，F.，Liwicki，M.：基于lstm递归神经网络的场景标注参见：CVPR（2015）4. Byeon，W.，Liwicki，M.，Breuel，T.M.：基于二维lstm网络的纹理分类。在：模式识别（ICPR），2014年第22届国际会议。pp. 114 4- 1149。IEEE（2014）5. 做吧，PWojek，C.， S.chiele，B.， Perona，P. ：Pedestrianenchmark.在：计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议pp. 304-31102The Dog（2009）6. Finn，C.，古德费洛岛Levine，S.：通过视频预测进行物理交互的无监督学习。在：神经信息处理系统的进展。pp. 647. Geiger，A.，Lenz，P.斯蒂勒角乌尔塔松河：视觉与机器人技术的结合：小猫在那儿。TheInternatinalJour nalofRobti csReserch32（11），12318. Glorot，X.，Bengio，Y.：了解训练深度前馈神经网络的难度。In：Aistats.vol. 第9页。2499. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。In：Advances inneural in Formalin ProocessSystems.pp. 267210. Gr aves，A.， Fernandez，S.， S chmid h u ber，J. ：多个单向网络。第17届国际人工神经网络会议论文集（2007年9月）11. 格雷夫斯，A.，Schmidhuber，J.：基于多维递归神经网络的脱机手写体识别。03 The Dog（2009）12. Gr aves ， A. ，Fernandez ， S. ，S chmid h u ber ， J. ： Multiti-dimemsionalRecurrentNeuralNetworks（2007）13. Hochreiter，S.，Schmidhuber，J.：长短期记忆神经计算9（8），173514. 约内斯库角Papava，D.，Olaru，V.，Sminchisescu，C.：人类3。6m：大规模数据集和预测方法，用于自然环境中的 3D 人体感知。IECTRANSACTIONSONPATTERNANALLYSISANDMACHINEINTELLIGENCE36（7），132515. 约内斯库角Papava，D.，Olaru，V.，Sminchisescu，C.：Human3.6m：大规模数据集和预测方法，用于自然环境中的 3D 人体感知。IEEETransactionPater nAnalysisandMachineIntell i gence36（7），1325- 1339（2014年7月16. Kalchbrenner，N. Oord，A.v.d.，西蒙尼扬，K.，达尼赫尔卡岛Vinyals，O.，格雷夫斯，A.，Kavukcuoglu， K.：视频像素网络。arXiv预印本arXiv：1610.00527（2016）17. Karpathy，A.，Toderici，G.，Shetty，S.，Leung，T.，Sukthankar河李菲菲：用卷积神经网络进行大规模视频分类在：CVPR（2014）18. Kingma，D. Ba，J.：Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980（2014）19. 梁湘，李湖戴，

下载后可阅读完整内容，剩余1页未读，立即下载