基于稀疏运动场的强化学习视频预测

64 浏览量更新于2023-10-12 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

110462SME-Net：通过强化学习台湾国立交通大学计算机科学系{hectorho0409.cs04g@，fountaintin.cs05g@，wpeng@cs.，jingjing963.iie07g @} nctu.edu.tw摘要本文利用一个经典的预测技术，被称为参数重叠块运动补偿（POBMC），在视频预测的强化学习框架。具有显式运动模型的基于学习的预测方法经常遭受必须利用人工规则化来估计大量运动参数。受稀疏运动预测在视频压缩中的成功应用的启发，本文提出了一种基于稀疏运动场的参数视频预测方法。通过在迭代的离散步骤中逐渐改进对未来帧的估计来实现预测。在此过程中，关键像素的识别及其运动估计由两个在强化学习设置下训练的神经网络进行。我们的模型在一步和多步预测测试中在CaltchPed，UCF101和CIF数据集上实现了最先进的性能。它表现出良好的泛化效果，并且能够在较小的训练数据上学习。1. 介绍视频预测是一个具有挑战性的计算机视觉任务。它是通过观察过去帧的序列来预测未来帧。这项任务是复杂的，因为需要解决各种自然视频的运动动态和纹理外观。存在关于基于学习的视频预测的若干现有技术。一类方法[2，9，12，13，22]使用生成模型直接合成未来帧。这些模型通常涉及使用长短期记忆（LSTM）网络从过去的帧中捕获运动动态，以帮助卷积神经网络（ CNN ）生成未来的帧。典型的例子是MCNet[22] ， PredNet [12] 和 BeyondMSE [13] ，其中BeyondMSE [13]还引入了多尺度金字塔生成过程。这些方法的一个常见问题是合成结果模糊，因为原始像素值通常遵循多模态分布，(a) 传统密集运动模型(b) 提出的稀疏运动模型图1：（a）密集和（b）稀疏运动场上的视频预测的比较。需要微妙的训练目标当必须递归地预测未来帧时，多步预测可能会恶化这种缺点另一类方法不是直接生成视频帧，而是通过估计将未来帧的像素值连接到最近过去帧中的像素值的密集运动场[5，10，11，16，17]来明确地对运动动态进行建模，如图所示。第1（a）段。该密集运动场可以根据光流/运动矢量[11，8]、像素自适应内核[5，15]或两者的组合[17]来指定。由于必须对每个目标像素估计运动参数，这些方法需要人工正则化的复杂模型。110463j=1Jj=1j=1受视频压缩的启发，其中视频预测通常在稀疏运动场上有效地进行，我们开发了一种SME-Net，该SME-Net利用了经典的预测技术，称为参数重叠块运动补偿（POBMC）[3]，在强化学习（RL）框架中用于视频预测。如示于图1（b），其基于对由少数关键像素及其估计的运动矢量组成的稀疏运动场执行POBMC[3]，以迭代的离散步骤逐渐细化未来帧的估计。关键像素的识别和运动矢量的估计由两个在RL设置下训练的神经工程来解决。实验结果表明，我们的模型在一步和多步预测测试中，在客观和主观质量方面，在几个常见的数据集上实现了最先进的性能此外，我们的模型的大小至少比大多数竞争方法小一个数量级。它还显示出良好的泛化结果，并且能够在小训练数据上学习得很好。据我们所知，这是第一次尝试在视频预测的学习框架中利用经典的预测技术。本文的其余部分组织如下。第2节简要回顾了相关工作。第3节详细介绍了所提出的方法，第4节详细介绍了我们的网络架构。第5节描述了培训过程。第6节根据几个最先进的基线评估我们的方法。第7节结束了这项工作。2. 相关工作我们所提出的方法的目的是执行参数视频预测稀疏运动场。因此，我们先解决图2：POBMC的图示[3]。SIS质量优于基于流的表示，因为可以学习卷积核以补偿精细运动并抑制视频帧中固有的噪声。然而，由于通常较小的内核大小，它们难以对大运动进行建模。最近，SDC-Net [17]提出为每个目标像素学习运动矢量和卷积核，以获得两种表示的优点。然而，这些密集运动模型面临一个共同的问题，即有过多数量的光流和/或内核要估计，这需要复杂的模型和额外的正则化，特别是因为估计必须仅依赖于偶然信息。稀疏运动模型。基于稀疏运动场的视频帧预测是视频中普遍存在的一种方法，在稀疏运动场中只有少数目标像素具有运动矢量压缩这是预测效率和将运动矢量传送到解码器所需的开销之间的权衡。多年来，压缩社区已经开发出非常有效的预测技术，可以在稀疏运动场上工作一个例子是参数重叠块运动补偿（POBMC）[3]。为目标生成预测I_n（s）像素s=（sx，sy）∈In在时间实例的未来帧In中n，例如图1中的图2中的图1中的图2的图1中的2，它计算加权和与最相关的显式运动模型一起使用In（s）=Kj=1 wjIn−1（s+v（sj））的一般假设，我们的任务和计划。我们还将简要介绍段-度量重叠块运动补偿[3]，一种经典的参数视频预测技术，支持我们的每一个都是未补偿信号In-1（s+v（sj））从最近的过去帧In−1使用运动矢量v（sj）=（vx（sj），vy（sj））∈R2与以下之一相关联：框架.周围的临界像素{sj}K∈In，即蓝色密集运动模型。基于显式运动模型的未来帧的像素生成的这类预测方法通常估计将未来帧的像素值连接到过去帧中的像素值的密集运动场。图中的像素2.在温和的条件下，最佳权重w是以封闭形式计算的，与目标像素s和周围的临界像素sj之间的欧几里得距离r（s，sj）成反比[3]：r（s，sj）−α典型的示例是基于流（也称为基于向量）的模型，诸如深体素流（DVF）[11]和基于向量的模型。wj=Ki=1，j = 1，2，. . . ，K（1）r（s，si）−α空间变换（SPT）[7]。DVF [11]在外推模式下操作时，学习预测未来帧和过去帧之间的光流，而SPT [7]学习从其中α是超参数。从某种意义上说，POBMC [3]是基于内核和基于流的方法的更有效的组合。与基于核的方法一样，它采用卷积核通过一个6参数仿射模型将未来映射到过去{w}K到每个目标像素s（参见等式① ①）。但其j j=1密集运动场也可以以核具有高度可变的支持的形式表示，其被确定为一个像素自适应卷积核，由运动矢量{v（sj）}K的临界像素{sj}K。过去帧来合成未来帧。一个这样的AP-方法是动态神经平流（DNA）[5]。基于内核的表示通常显示出更好的合成，此外，与基于流的方法一样，POBMC [3]需要es-估计运动矢量。然而，这仅针对少数关键像素鉴于这些和许多其他110464nnJnnl=1j=1j=1nn2n从s i处的上下文帧Ic中，并输出关键像素si的估计的运动矢量v（si）。也就是说，v（si）= M（P64（si），P128（si）; θm）.（三）C c在SME的第i次迭代中还产生了一个es-未来框架In的估计数In（i）帧合成：由参数图3：我们模型的整体架构。POBMC的良好性质[3]，它构成了我们预测方法的基础。据我们所知，这是第一次尝试在视频预测的学习框架中利用经典的预测技术。3. 该方法在本节中，我们首先概述了一步情况下基于稀疏运动估计（基于SME）的视频预测，然后将其扩展到多步预测。3.1. 一步预测图3提出了一种基于SME的参数视频预测的总体架构任务是基于N个观察到的过去帧In-1，In-2，.，In来合成一个未来帧In。. . ，In−N，我们统称为上下文帧，并表示为Ic={In-1}N。不像基于流或基于核的预测通常在密集运动场上的一个单一的前向通道中执行基于像素的帧合成，我们给出了K个迭代离散步骤中未来帧In的估计In，对仅由K对{（sj，v（sj））}K组成的稀疏运动场的临界像素sj∈In和它们的估计运动矢量v（sj）。整个过程从SME开始确定这些临界像素{（sj ，v（sj））}K，然后进行参数框架合成。具体而言，在第i次迭代中，SME如下展开：由θp参数化的定位网络P（·;θp）取为参数化帧合成通过考虑已经获得的所有关键像素来相对于最近的过去帧In-1执行POBMC [3]，直到第i次迭代。在符号中，我们有ΣI<$（i）（s）= w<$In−1（s+v（sj）），<$s∈In，（4）j∈N（s）其中，在估计一个tar getpixel在s ∈ In处的值时，我们已经默认地将临界像素的使用限制为在欧几里德距离中仅两个最近的像素sj∈N （s）到s。这种设计选择的动机是普遍观察到，如果目标像素的预测涉及大量假设，则多假设预测方案（如POBMC [3]）可能导致模糊的结果。注意在在这项工作中，关键像素的总数K是可变的，并且可以高达100。在K次迭代之后，In（K ）形成我们对目标帧In的最终预测。通过训练两个网络，期望在均方误差意义上接近In，以最小化L（θp，θm）=E[<$In−I<$（K）<$2]。（五）3.2. 多步预测对于在从n到n+M-1开始的时间点处的多个未来帧的预测，其中M指定要进行预测的时间跨度，可以递归地应用先前描述的单帧（一步）预测算法。例如，给定最后N个上下文帧In-1，In-2，. . .，In−N，我们首先产生第n个未来帧In的估计In。这新预测的帧以及最后N-1个上下文输入上下文帧Ic和的估计I（i−1），帧，即伊坎岛，n−1，的。.. ，我n−N+1 将形成新在先前迭代中获得的未来帧In（s），以及输出的多项分布的位置，第i个关键像素si。也就是说，% s%i%P（% s|Ic，I<$（i−1）;θp）。（二）以θm 为参数的多尺度运动估计网络M（·;θm）将从P（·;θp）中提取的新估计的关键像素 si以及尺寸为64×64和128×128的裁剪的图像块P64（si）、P128（si）110465作为输入用于预测下一个连续的未来帧In+1 的基础。为了准确起见，它的估计In+1 将通过观察从In ，In−1 ，. . . ，In−N+1。从本质上讲，我们的多步预测是建立在基于滑动窗口的单帧预测，措辞4. 网络架构本节详细介绍了我们的设计方案，定位网络和多尺度运动估计网络。110466nnnni=14.1. 定位网络定位网络P（·;θp）是一个6层卷积神经网络，如图1所示。4（a），反复观察上下文之间的时间相干性帧Ic和最新的估计I（i−1）的tar-得到帧In以输出下一个关键像素的位置si这是通过让网络学习预测视频帧沿时间维度的演变来实现的为此，我们将其输入计算为帧通过减去上下文框架In−N而形成的差在来自后续上下文的最早时间实例处(a) 定位网络帧In−N+1 ，In−N+2，的。.. ，我n−1 ，则I=（i-1）。结果-帧差具有W×H的空间分辨率，其中W、H分别表示它们的宽度和高度定位网络不是给出下一个关键像素si的点估计，而是输出一个尺寸为W/4×H/4的二维地图，表示其在允许空间位置上的概率分布。输出被设计为概率分布的原因是我们发现坐标回归难以收敛。此外，输出分辨率仅为输入分辨率的十六分之一;因此，从该分布中提取的S1在用于运动估计和帧合成之前将被按比例放大。此外，在softmax激活层之前放置二进制掩模，以屏蔽先前已识别的关键像素。4.2. 多尺度运动估计网络多尺度运动估计网络M（·;θm）输出针对目标帧In中的所选关键像素si的运动矢量的估计v（si）。该估计的运动矢量在恒定强度下建立，i处的In的像素值满足In （ si ） =In−1 （ si+v （ si ）），（6）其中执行双线性插值以检索In−1（si+v（si）），当si+v（si）不在In−1的采样网格上时。如图4（b），v（si）的估计涉及提取从上下文裁剪的图像块的特征在s i处的帧Ic。这些图像块有两个尺度，64 × 64和128 × 128，以捕捉大的和小的运动。在它们的特征被相同结构的两个单独的卷积网络提取之前，只要适用，它们就通过下采样被调整为64 × 64。然后将在不同尺度下提取的特征连接起来，通过后续的卷积层处理，(b)多尺度运动估计网络图4：（a）定位网络和（b）运动估计网络的架构。在当前的实现中，定位和运动估计网络都只采用灰度输入。然而，它们的输出用于RGB预测。5. 培训对于训练，我们考虑等式中的L（θp，θm）的最小化。(5)对于θp，θ m是一个强化学习问题.如示于图3，我们集体地将第i次迭代中输出的（si，v（si））看作由两个网络P（·;θp），M（·;θm）组成的智能体采取的行动。代理与之交互的环境实现POBMC [3]，并在每个迭代i中基于等式（1）输出预测帧I_i（i）。（4）与上下文帧Ic一起作为下一次迭代的状态然后，该过程重复K次。在本文中，我们采用了延迟奖励机制;也就是说，代理在K次迭代结束之前不会立即获得奖励，在此期间，我们计算整个动作序列的奖励为ers，并全局合并以产生最终估计v（si）。值得注意的是，我们的多尺度运动估计-In之间的均方误差在Eq. （五）、而我（K）则与我们的网络执行运动估计的个人critic-we训练定位和运动估计网络标准像素{si}K本地和独立地基于结合REINFORCE算法[20，14]。代理上下文帧Ic。没有对它们的估计运动矢量v（s，i）施加正则化。此外，在我们的通过将用于运动估计的策略处理为具有平均值的条件高斯分布，110467ni sn由Eq给出。（三）、为了便于探索，我们将熵损失添加到定位网络的训练目标[20]，并应用方差降低策略[14]。为了更好的学习和更快的收敛，我们对定位和运动估计网络进行了超视觉预训练，并使用贪婪像素选择算法和EpicFlow [18]产生的地面实况。前者基于POBMC的预测残差选择关键像素在迭代i中，像素s∈In显示最大-1）预测残差，即s=argmaxI（s）−I（i（s）（a）（b）（a）（b）（c）（a）（b）（c）（b）（c）表2：对Caltech-Ped [4]、UCF 101 [19]和CIF序列[1]的下一帧预测的比较。MSE结果在1 e-3中，#ctx指示上下文帧的数量方法CAltechPedUCF101CIFMSESSIM#ctxPSNRSSIMPSNRSSIM#ctx我们2.650.878330.800.91027.900.8904BeyondMSE [13]2.820.875426.70.82027.540.8994MCNet [22]2.570.878330.290.91328.340.9054DVF [11]6.650.801331.540.91822.750.6534PredNet [12]3.130.8844-----DualGAN [10]2.410.8994-----SDC [17]1.620.9185-----最新资讯5.310.815------被选为关键像素si的地面实况，其运动矢量v（si）又从EpicFlow [18]导出。在这个过程中，我们假设已经完全了解了目标帧。另一点要注意的是，训练仅针对K=20进行。但是，在测试时，关键像素的数量可以高达K=100。6. 实验结果本节针对CaltechPed [4]、UCF 101 [19]和通用中间格式（CIF）[1]数据集的测试分区，针对一步和多步预测，对我们的方法进行了由于视频预测任务没有标准化的通用测试条件，表1总结了我们测试中竞争方法使用的训练集及其模型大小。客观质量测量包括均方误差（MSE）、峰值信噪比（PSNR）、结构相似性指数（SSIM）、学习感知图像块相似性（LPIPS）[23]和Frechet视频距离（FVD）[21]，其中MSE、LPIPS [23]和FVD [21]（参考、PSNR和SSIM）的值越低（分别越高）表示质量越好。LPIPS [23]和FVD [21]都采用CNN特征进行质量评估，并且显示与主观质量的相关性更高。对于需要从长视频中提取足够多的独立子序列特征的 FVD [21] ，我们仅将 FVD [21] 应用于CaltechPed [4]。请注意，所有的方法都是针对单步预测进行训练的。对于具有多步预测的测试，应用第3.2节中的滑动窗口机制。6.1. CaltechPed的比较在这个实验中，我们通过从城市和道路序列中随机选择10000帧来在KITTI [6]数据集上训练我们的模型。培训和测试视频都重新调整了大小表1：竞争方法在CaltechPed [4]，UCF 101 [19]和CIF[1]测试中使用的训练数据集。方法CaltechPedUCF101CIF#param我们KITTIUCF101UCF1011MDVF [11]KITTIUCF101UCF1012.2MBMSE [13]运动1M运动1M运动1M8.9MMCNet [22]运动1M运动1M运动1M6.9MDualGAN [10]KITTIUCF101-113MPredNet [12]KITTI--6.9MSDC [17]战地-1--160M表3：多步预测的FVD [21]比较-我们MCNetBmseDVFCaltechPed132148846819352×288我们通过在相同的重新调整大小的视频上运行具有预训练权重的测试软件（见表 1 ）来获得BeyondMSE [13]和MCNet [22]的结果。对于DVF [11]的结果，我们使用他们的训练软件在KITTI [6]数据集的15k帧上训练模型，并按照相同的协议进行测试。对于其余的方法，包括PredNet [12]，DualGAN [10]，SDC [17]，我们只是在论文中报告了他们的结果。表2的最左侧部分总结了一步预测的客观质量比较。可以看出，只有3个上下文帧和一个几乎小一个数量级的模型大小，我们的模型已经使用MCNet [22]和BeyondMSE [13]进行了验证在这个测试中，它明显优于DVF [11]。图5（a）、5（b）和5（c）分别进一步报告了更具挑战性的五步预测的PSNR、SSIM和LPIPS [23]结果在这个任务中，我们的模型实现了最好的性能。图6中的主观质量比较我们的模型被认为对沿时间维度的误差传播更鲁棒，在未来的时间实例中产生比MC-Net [22]和BeyondMSE [13]更清晰的图像，其中它们的图像变得越来越模糊。还观察到，DVF [11]对错误非常敏感，在稍后的时间实例中呈现几乎无法识别的图像对于FVD [21]测量，我们在CaltechPed [4]中随机选取三个长序列。在这三个序列中的每一个中，从由4个上下文和9个预测帧组成的大部分不重叠的子序列中提取256个特征。结果如表3所示，其中我们的方法略优于MC- Net [22]，并且显著优于其他方法。至于推理时间比较，我们的20个关键像素模型需要约0.43 s，而DVF [11]为0.03 s，MCNet [22]为0.06 s，Be- yondMSE [13]为1.13 s。6.2. 与UCF 101的本实验比较了BeyondMSE [13]，MCNet [22]和DVF [11]在10%的110468(a) CaltechPed（b）CaltechPed（c）CaltechPed（d）UCF101（e）UCF101(f)UCF 101（g）CIF（h）CIF（i）CIF图5：我们的模型，BeyondMSE [13]，MCNet [22]和DVF [11]在CaltechPed [4]（a）（b）（c），UCF 101 [19]（d）（e）（f）和CIF序列[1]（g）（h）（i）上的五步预测结果图6：CaltechPed上五步预测的主观比较[4]：从左到右，t = 1，2，...，五、UCF101测试集[19]。对于训练和测试，我们使用大小为320×240的原始视频。具体来说，我们在12000个随机选择的帧上训练我们的模型，同时按照[11]中的协议在240000个帧上训练DVF[11]我们通过使用预先训练的权重运行他们的测试软件来所有方法都采用4个上下文框架进行预测。从表2（中间部分）中，我们看到DVF [11]实现了一步预测的最佳PSNR和SSIM性能，而我们的排名第二，与MCNet [22]类似，具有兼容的SSIM但PSNR略高。由于UCF 101 [19]只有一小部分运动图像的年龄，我们推测DVF [11]可能已经过拟合到这个数据集。这在一定程度上得到了证实110469图7：UCF 101上五步预测的主观比较[19]：从左到右，t = 1，2，...，五、图8：CIF Mobile上五步预测的主观比较[1]：从左到右，t = 1，2，...，五、CIF数据集上的结果[1]，其中相同的模型表现出较差的泛化能力。图中的多步预测结果。5（d）、5（e）和5（f）再次验证了我们的模型对误差传播的鲁棒性。在这项任务中，我们的客观质量表现与MCNet [22]和DVF [11]接近，并且优于MCNet [22]和DVF [11]。110470BeyondMSE [13] 相当可观。在主观素质方面（见图）。7），我们的模型通过保留更多的纹理细节而显示出优于MCNet [22]和BeyondMSE [13]的明显优势。6.3. CIF比较该实验通过评估CIF数据集[1]上的预测性能来测试不同模型的泛化能力，CIF数据集包含各种视频，这些视频具有通常用于视频编解码器开发的各种运动特征然而，它很少用于预测任务。这是我们选择的主要原因。在这个测试中，我们简单地应用了为之前的UCF101任务训练的模型，而没有任何微调。我们从表2的最右侧部分看到，在一步预测中，MCNet [22]实现了比我们和BeyondMSE [13]略高的然而，值得注意的是，DVF [11]显示出极差的泛化能力，即使它是在与我们相同的UCF 101数据集[19]上训练的。在多步预测中，如图所示。5（g），5（h）和5（i），我们的客观质量表现类似于MCNet [22]，而我们的主观质量明显优于所有其他质量。注意，在图。8，MCNet [22]的颜色失真6.4. 关键像素图9显示了我们的代理选择的关键像素及其运动矢量结果覆盖在EpicFlow [18]给出的（地面实况）光流之上，以验证关键像素的估计运动矢量的准确性我们观察到，关键像素的位置关键取决于视频帧的空间和运动特性。它们大多集中在具有大运动的高度纹理化的区域（见图中的前景物体）。9（a）和9（b）），或与非均匀运动（见背景图。9（c）和9（d））。同样有趣的是，在纹理变化较小的大运动区域中，几乎没有关键像素，例如图2底部的道路区域。9便士在这些区域中，从上一帧中的对应区域复制像素值仍然产生良好的预测结果。6.5. 具有可变临界像素的概化这个实验展示了我们的模型对于可变数量的关键像素的泛化。在训练时，我们的模型最多学习20个关键像素。然后，我们测试其一步预测性能的不同数量的关键像素范围从20到100。从图10，我们的模型表明，提高PSNR和SSIM的关键像素的数量增加时，特别是对那些快速运动序列。唯一的例外情况是，当关键像素较多时，SSIM会略微下降。(a) 警卫（b）移动(c) UCF101（d）CaltechPed图9：关键像素（K=20）及其运动矢量的可视化叠加在EpicFlow [18]给出的地面实况光流之上。(a) PSNR（b）SSIM图10：不同数量的关键像素的CIF序列[1]上的PSNR和SSIM增量。7. 结论在本文中，我们在强化学习框架中利用POBMC来实现稀疏运动场上的视频预测。这样，只有少数关键像素及其运动矢量需要估计用于预测，大大降低了模型的复杂性。关键像素的识别及其运动估计是通过两个简单的神经工程与强化学习训练来解决的我们的模型在几个常见的数据集上实现了最先进的预测性能。它的优势在多步预测中最为明显，在多步预测中，它比其他竞争方法产生主观上更令人满意的结果由于其相对较小的尺寸，我们的模型在小数据上学习时可以更好地泛化。为各个视频帧决定适当数量的关键像素的自动化仍然是一个悬而未决的问题。110471引用[1] ASU视频跟踪库。YUV视频序列。2019年3月22日重新整理，来自环球网：http：//trace.eas.asu.edu/yuv/，2009年。[2] Wonmin Byeon，Qin Wang，Rupesh Kumar Srivastava，and Petros Koumoutsakos. ContextVP：完全上下文感知的视频预测。在Proc.欧洲计算机视觉会议（ECCV），2018年。[3] 陈怡文和彭文孝。不规则运动采样网格上像素自适应时间预测的参数OBMC。IEEE Transactions on Circuitsand Systems for Video Technology，22（1）：113[4] PiotrDolla'r，ChristianWojek，BerntSchiele，andPietroPerona.行人检测：基准。IEEE计算机视觉与模式识别会议（CVPR），2009年。[5] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。在proc 神经信息处理系统进展（NIPS），2016。[6] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术相结合：KITTI数据集。国际机器人研究杂志，32（11）：1231[7] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络神经信息处理系统进展（NIPS），2015年。[8] 蒋怀祖，孙德清，Varun Jampani，杨明轩，Erik G.Learned-Miller和Jan Kautz。Super Slomo：用于视频插值的多个中间帧的高质量估计在proc IEEE计算机视觉和模式识别会议（CVPR），2018年。[9] NalKalchbrenner ， A aéronvandenOord ， KarenSimonyan，Ivo Danihelka，Oriol Vinyals，Alex Graves，andKoray Kavukcuoglu.视频像素网络。在proc 国际机器学习会议（ICML），2017年。[10] Xiaodan Liang，Lisa Lee，Wei Dai，and Eric P Xing.用于未来流嵌入式视频预测的双运动GAN。在proc IEEE国际计算机视觉会议（ICCV），2017。[11] Ziwei Liu ， Raymond A Yeh ， Xiaoou Tang ， YimingLiu，and Aseem Agarwala.使用深度体素流的视频帧合成在 Proc. IEEE International Conference on ComputerVision（ICCV），2017。[12] William Lotter，Gabriel Kreiman，and David Cox.用于视频预测和非监督学习的深度预测编码网络在proc 2017年学习表征国际会议（ICLR）。[13] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测。在proc 2016年国际学习表征会议（ International Conference on LearningRepresentations，ICLR）[14] Volodymyr Mnih ， Nicolas Heess ， Alex Graves ， andKoray Kavukcuoglu.视觉注意的循环模型。神经信息处理系统进展（NIPS），2014年。[15] 尼克劳斯、西蒙、龙迈、风流。基于自适应可分离卷积的视频帧内插。在Proc. IEEE International Conferenceon Computer Vision（ICCV），2017。[16] Patraucean，Viorica，Ankur Handa，and Roberto Cipolla.具有可区分存储器的时空视频自动编码器。在proc 2016年国际学习表征会议（ International Conference onLearning Representations，ICLR）[17] Fitsum A Reda ， Guilin Liu ， Kevin J Shih ， RobertKirby，Jon Barker ，David Tarjan ，Andrew Tao，andBryan Catanzaro.SDC-Net：使用空间位移卷积的视频预测。在proc 欧洲计算机视觉会议（ECCV），2018年。[18] JeromeRevaud，PhilippeWeinzaepfel，ZaidHarchaoui，and Cordelia Schmid. Epicflow：光流对应的边缘保持插值。在proc IEEE Confer-ence on ComputerVision and Pattern Recognition（CVPR），2015年。[19] Soomro，Khurram，Amir Roshan Roshan，and M. Shah.来自野外视频的101个人类动作类数据集。在UCF计算机视觉研究中心（UCF CRCV），2012年。[20] Richard S Sutton ， David A McAllester ， Satinder PSingh，and Yishay Mansour.基于函数逼近的再学习策略梯度方法。神经信息处理系统进展（NIPS），2000年。[21] Thomas Unterthiner ， Sjoerd van Steenkiste ， KarolKurach ， Raphael Marinier ， Marcin Michalski ， andSylvain Gelly.为了准确的视频生成模型：新的度量&挑战。arXiv预印本arXiv：1812.01717，2018。[22] Ruben Villegas，Jimei Yang，Seunhoon Hong，XunyuLin，and Honglak Lee.运动和内容分解用于自然视频序列预测。国际学习表征会议（ICLR），2017年。[23] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。 IEEE 计算机视觉与模式识别会议（CVPR），2018年。

下载后可阅读完整内容，剩余1页未读，立即下载