回溯循环生成对抗网络用于时间上一致视频预测

148 浏览量更新于2023-10-18 收藏 1.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1使用回溯循环GAN权永勋先进相机实验室，LG电子，韩国yonghoon. lge.com朴敏奎韩国电子技术研究所mpark@keti.re.kr摘要深度学习的最新进展显著提高了视频预测的性能，然而，性能最好的算法在尝试预测更远的未来帧时开始生成模糊的预测。在本文中，我们提出了一个统一的生成对抗网络，用于预测准确且时间上一致的未来帧，即使在具有挑战性的环境中也是如此。关键思想是训练一个可以预测未来和过去帧的单个生成器，同时使用回顾性周期约束来执行双向预测的一致性。此外，我们采用两个鉴别器，不仅要识别假帧，而且要区分假包含的图像序列从真正的序列。后一个判别器，序列预测，在预测时间上一致的未来帧中起着至关重要的作用。我们通过实验验证了所提出的框架，使用各种真实世界的视频捕获的车载摄像机，监视摄像机，和任意设备与国家的最先进的方法。1. 介绍视频预测是在给定一组连续帧的情况下生成未来帧的问题，其可用于异常事件检测[17]，视频编码[19]，视频完成，机器人[6]和自动驾驶。这个问题已经被研究了很长时间，最近，深度学习已经大大提高了视频预测算法的性能，基于卷积神经网络（CNN）和生成对抗网络（GAN）等深度架构模型。常规视频预测方法[25]通常计算逐像素运动，然后假设运动的线性来预测未来帧中的像素运动许多基于深度学习的方法[16，29，31]继承了这个想法。他们通过深度网络显式计算像素级运动，FlowNet [18]，然后，运动信息用于生成与训练图像一起的未来帧。虽然想法相似图1.驾驶环境中预测帧的比较[5]。最先进的方法PredNet [17]随着时间步长的增加预测模糊图像，而提出的方法显示相对清晰和准确的图像。在这里，PredNet使用10张图像作为输入，而我们的方法需要4张图像来预测未来。对于传统方法，深度网络在处理动态场景中的复杂运动时显示出令人鼓舞的结果。这种方法的一个主要缺点是，由于照明变化、遮挡和突然的相机运动，计算逐像素运动容易出错许多研究[2，11，13，19，24，32]证实，深度网络可以预测现实的未来图像，而无需显式计算像素运动。他们中的大多数采用CNN来预测未来的帧[2，11，13，19]，然而，基于CNN的方法通常给出模糊的预测，因为它们最大限度地减少了所有训练图像的损失[15]。为了避免模糊的伪影，Byeonet al. [2]开发了卷积长期短记忆（ConvL-STM）来捕获过去和空间上下文，目前在一些数据集上显示出最佳性能另一方面，GAN在预测未来帧方面受到了相当大的关注[16，24，32]，它同时训练一个神经网络和一个发电机网络。18111812n+1个n+1个图2.所提出方法的概述。我们的网络由一个生成器和两个鉴别器组成，即帧生成器G、帧鉴别器A和序列鉴别器B。我们提出了一个回顾性的预测方案，允许发电机预测通过利用预测的未来帧来确定过去帧。此外，我们用反向输入序列训练生成器，并对生成器施加反向输入序列。通过最小化预测帧之间的重建损失，例如，x′而x′′. 的帧同步决定预测帧是真的还是假的，并且序列同步将假包含图像序列与真序列区分开，以生成时间上一致的帧。工作鉴别器将输出图像分类为真实或虚假，而生成器预测欺骗鉴别器的图像。Liang等人[16]提出使用双生成器和双鉴别器，以同时生成未来帧和逐像素运动。受深度网络在图像生成中的成功启发[34，35]，我们提出了一种深度网络架构，用于生成具有以下几个不同特征的未来帧。首先，我们训练一个能够预测未来和过去帧的生成器。我们实验验证，这种前后向兼容的预测产生更好的预测性能。其次，我们在回顾性预测方案的帮助下，在预测帧之间施加周期一致性，如图所示。二、回顾预测的基本思想是，如果预测的未来帧是现实的，则生成器应该给出现实的过去帧，即使预测的未来帧被作为输入给出以上两个特征显著地改善了未来帧预测性能，特别是当如图1B所示提前预测多个帧时。1.一、第三，我们提出了一个序列，它采取假CON-除了区分假帧之外，还将保留的序列作为输入。序列预测算法的目的是提高预测帧的鲁棒性和时间一致性，这对视频预测至关重要。2. 相关工作我们回顾了使用深度神经网络进行视频预测的相关研究CNN和递归神经网络（RNN）在过去几年中获得了巨大的普及，许多研究[2，13，19，33]应用CNN和RNN来预测图像序列中的未来帧。Kalchbren-ner等人[13]提出了视频像素网络，这是一种由分辨率保持CNN编码器和PixelCNN [30]解码器组成的概率推理模型。他们利用卷积LSTM来组合编码器随时间的输出，并使用扩张卷积来实现大的接收域。更多的研究[2，6，19]采用卷积LSTM来考虑空间和时间上下文。Lotter等人[19]引入了预测神经网络，不仅可以预测物体的运动，1813n+1个nnMM：nn+1个n+1个也可以学习内部表示，例如，基于一系列重复堆叠的模块的物体的姿态Byeon等人[2]提出了并行多维LSTM单元和混合单元，以捕获过去和空间上下文，重新定位。Finn等人[6]提出了动作条件卷积LSTM，它可以预测以代理的动作为条件的对象的不同未来，例如，一个机器人，它能抓住物体。Xue等人[33]试图找到强度变化的内在表示，即，差图像，通过条件变分自动编码器。他们使用依赖于图像的卷积核来从单个图像合成可能的未来帧，同时考虑对象的各种运动。Ville- gas等。[31]使用两个单独的编码器进行运动，在论文的其余部分使用。基本上，我们将生成元记为G，将框架表示为DA，将序列表示为DB。输入序列定义为Xm：n={X m，X m+1，.，x n−1，x n} s。t. <（1）第一章其中xi∈ R2是一个图像，m和n是第一帧和最后一帧的索引，序列的长度是n-m +1，帧是按时间顺序排列的。使用Xm：n作为输入，生成器G预测未来帧xn+1。这里，预测帧，即，伪帧表示为x′，带撇号的类似地，反向输入序列被定义为：内容，但同时用多尺度运动内容残差和组合层训练两个编码器。Xm：n={xn ，xn−1、...、Xm+1，xm}s。t.m n.（二）呃。Luo等人[21]提出了一种基于LSTM编码器-解码器方法预测长期3D运动的无监督方法，用于活动识别。使用X<$m：n，生成器预测过去的帧xm−1。我们还将包含伪帧的序列表示为在对抗训练发明之后[8]，许多研究应用该方案来生成图像，fm：n ={xm：n−1<$x′}，（3）图像到图像翻译的文本[10，35]，超分辨率，其中最后一帧是假的，假设x′预测[15]，风格转移[12]和视频预测[17，24]。Mathieu等人[24]采用了图像梯度损失，从x m−1：n−1。类似地，其逆情况定义为：多尺度架构，可显著减少模糊，戒指藏物 Liu等 [17]空间与空间的关系¯fM：n ={x<$m+1：n<$x′{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}（四）除了强度和梯度损失之外，还存在约束。当序列具有假帧，¯fM：n ，是他们通过FlowNet计算光流[18]，给定输入，我们将预测帧表示为x“”或流信息用于预测时间上一致的帧。另一方面，许多研究人员试图广告-′′m−1′m−1，以将它们与预测帧x′没有假框。和vance GAN [1，22，34，35]。例如，WGAN [1]和LSGAN [22]修改了神经网络的损失函数，以提高训练的稳定性Zhu等[35]提出了一种具有两个生成器的网络，一个将源图像作为输入，另一个将目标图像作为输入来预测各自的形象。该方案使培训3.1. 目标函数对于训练，我们最小化以下目标函数，L=L图像+λ1LLoG+λ2L帧+λ3L序列（5）任意一对图像。类似地，Yiet al.[34] I'm sorry.AdvAdv使用两个鉴别器来产生多种类型的输出。有趣的是，Lianget al. [16]采用双生成器和双鉴别器用于未来帧预测。他们的网络同时预测像素运动和未来帧，但它需要地面真实流信息来训练网络。3. 该方法它包括两个重建损失和两个逆，严重的损失。λ1、λ2和λ3是用于平衡四个损失函数的非零权重。3.1.1重建损失这两个重构损失函数用于训练生成器。第一个损失函数由下式表示：Σ我们的框架包括一个生成器和两个判别器，帧和序列判别器，如图所二、发电机预测XX或XXX1814m，nm，n未来和L图像=（p，q）∈Sparirl1（p，q），（6）过去的帧，即使当输入序列包含假帧时。此外，帧识别器单独地区分假帧，而序列识别器区分假帧。判断序列是否包含假帧。其中l1（·，·）代表两个图像之间的L1误差，S对是一组图像对，定义为S对={（xm，x′），（xm，x′′），（x′，x′′），为了解释清楚，我们解释了注释-m，n（xn+1，x′Mm），（xn+1，x′′M），（x′M，x′′）}。（七）n+1个n+1个n+1个n+1个1815n+1个Mn+1个Mn+1个MMn+1个n+1个MMn+1个m，nm+1：n+1MML=Lm+1：n+1M：n第一损失函数（6）最小化图像重建六对不同图像的误差。（xn+1，x′）和（xm，x′）用于最小化前向预测误差和反向。因此，发电机可以预-dict未来帧和过去帧。我们定义错误com-由（xn+1，x′′）和（xm，x′′）作为回溯预因为x′用于预测x′′，而x′是用于预测x′′.换句话说，如果预测图像′n+1个是现实的，生成器也可以取x′作为一个以回顾过去的帧。最后两对，（x′，x′′）和（x′，x′′），起到循环的作用m m n+1n +1约束，因为x是由前向序列而x′′是由后向序列预测的，对于（x′′′n+1个）的情况。我们说这个损失函数是回溯的和循环，因为它利用通过ret生成的帧，前瞻性预测这些对进一步约束伪帧之间的一致性。类似地，我们将第二重建损失函数定义为图3.发电机网络和配电网的网络结构这里，k、n和s分别表示内核大小、特征映射的数量和步幅。生成器网络学习从输入图像序列中预测下一帧，而SVM网络学习在真实或真实图像之间进行分类L日志Σ=（p，q）∈Sparirl1（LoG（p），LoG（q））。（八）从生成器网络生成帧。与帧对抗损失类似，序列对抗-该损失函数在应用高斯拉普拉斯（LoG）[23]运算后计算图像之间的差异，伪损失起到将输入序列分类为真实或虚假的作用，以更好地保留图像边缘。在随后的研究[3]中，它们有效地抑制了低频信息和高频信息。seqAdv=1B（Xm：n，Xm：n+1）+lBfm：n ，Xm：n+1）使用拉普拉斯金字塔的频率噪声，用于结构增强的图像生成。我们使用LoG操作来关注排除噪声的结构相似性。+lB（X<$m+1：n+1，X<$m：n+1）+lB（X<$f其中IB（p，r）取两个序列作为输入，，X<$m：n+1），（十一）lB（p，r）=maxmin[（DB（r）−1）2+（DB（Gc（p）））2].3.1.2对抗性损失GDB（十二）我们提出的方法是用两个对抗性损失来如在（9）中：帧对抗性损失L帧，以及序列ad-这里，生成器G将p作为输入来预测新帧G（p），然后将其与真实图像序列进行; 帧对抗损失将帧分类为真帧或假帧的作用，具体而言，帧对抗性损失确定是否有四个图像，r后连接p和G（p）。为了简单起见，我们将级联序列表示为Gc（p）={pG（p）}，所有的程序都依赖于一个单一的gener-′n+1个′′n+1个，x′，x′′），是真的还是假的如下，阿托尔湾 DB判定G c（p）为假的，如果至少有一个im-c（p）为假的，则DB判定G c（p）为假的。框架A（XM：n ，xn+1）+1Afm：n ，xn+1）（九）年龄是假的。这一系列措施鼓励了tem-因为它比较了+lA（X<$m+1：n+1，xm）+lA（X<$f，xm），序列而不是单个帧。其中，Xm：n，Xf，X<$m+1：n+1，和X得双曲余切值.L（X得双曲余切值.（x（X1816¯fm+1：n+1表示3.2. 网络架构生成器的四个输入序列损失函数，lA（p，q）定义为发电机和消弧线圈网络如图所示。3，我们采用现有的网络架构-lA（p，q）= maxmin[（DA G DA（q）−1）2+（DA（G（p）2]。（十）[12]关于网络的问题。的差异[12]我们的生成器将多个图像作为输入来预测未来的帧。发电机网络包括这里，生成器G取帧序列p并预测未来帧q，DA旨在将q与G（p）区分开。针对对手DA，G旨在生成其中DA不能将其与真实帧区分开的假这个损失函数来自最小二乘GAN [22]。4个卷积层，9个残差块[9]和2个转置卷积层。该网络由5个卷积层组成此外，除了输入图像的数量之外，帧鉴别器和序列鉴别器X1817此外，除了输入和输出层之外，我们对生成器和神经网络的所有层都使用实例规范化方案[44. 实验结果我们用三种不同类型的真实数据评估了所提出的方法，并将我们的结果与最先进的方法进行了比较。我们还进行了消融研究，以分析每个损失项的重要性。4.1. 数据集车载摄像头拍摄的视频：我们使用两个流行的数据集，这些数据集是在使用车载摄像机驾驶时记录的：KITTI [7]和Cal- tech行人[5]数据集。由于它是在驾驶汽车中记录的，因此它涉及与其他数据集一致的相对较大的像素运动。人体动作视频：UCF 101 [28]数据集由13K视频剪辑组成，涵盖101类人类动作，在静态和动态环境中使用各种移动对象捕获。监控录像：监控录像是在固定地点拍摄的。因此，它通常包含静态环境中的移动我们使用CUHK Avenue[26]和ShanghaiTech Campus [20]数据集来评估我们的方法。4.2. 培训详情我们将输入序列N的长度设置为4，归一化强度设置为[-1，1]。我们以0.3的概率水平翻转输入序列以进行数据扩增。我们将Adam优化器[14]用于动量参数β1=0的小批量随机梯度下降法。5和β2=0。999，批量大小为1，学习率为0.0003，每100个epoch线性衰减。为了平衡不同的损失，我们设置λ1= 0。005，λ2=0。003且λ3=0。003. Leaky ReLU的负斜率设置为0.2。为了评估加州理工学院的pedes-trian数据集，我们遵循Pred-Net的实验方案[19]。为了训练网络，我们使用了包含41K图像的KITTI训练数据集，并调整了帧加州理工学院数据集的速率为10 fps。我们将输入图像裁剪为128×160，并将裁剪图像的分辨率调整为256×256。对于UCF 101数据集，我们使用10%的均匀采样图像作为测试集，在以前的研究[2，24]中，用于训练，用于公平竞争。对于监控数据集，我们将图像大小调整为256×256。评价Liu等的方法。[17]，我们通过使用作者提供的预训练模型计算错误。训练过程花了四天时间，在单个 NVIDIA GTX1080ti GPU上使用KITTI数据集训练我们的网络。为表1.使用各种数据集对视频预测算法进行定量评估：加州理工学院行人，UCF 101，和两个监控数据集。MSE乘以1，000以清楚地显示不同算法之间的差异。该表比较了加州理工学院和UCF 101数据集的四种和五种算法分别*表示相应的方法明确地计算来自图像的逐像素运动数字被复制原始论文或引用论文。如果报纸上没有报道，我们就划横线。方法加州理工学院行人UCF101MSEPSNRSSIMMSEPSNRSSIM最后一帧拷贝7.9523.30.7794.0930.20.89PredNet [19]2.4227.60.905---[16]第十六话2.41-0.899---[24]第二十四话3.26-0.881-320.92ContextVP [2]1.9428.70.921-34.90.92[31]第三十一话----310.91[27]第二十七话----31.60.93DVF[36]----33.40.94我们1.6129.20.9191.3735.00.94数据集方法MSEPSNRSSIM中大道Liu等[17]0.5134.80.98我们0.3935.20.98上海科技Liu等[17]0.9331.40.97我们0.6434.10.97表2.根据不同长度的输入序列对所提方法进行了定量评价。我们将输入的长度从2区分为10，并使用在KITTI数据集上训练的加州理工学院行人数据集计算预测误差。图像数量246810PSNR29.167 29.222 29.006 28.940 29.009SSIM0.9193 0.9189 0.9208 0.9197 0.9189在测试中，在单个GPU上预测一个帧大约需要23毫秒。4.3. 定量和定性评价对于定量评估，我们使用三个度量，均方误差（MSE），结构相似性平方误差（SSIM）和峰值信噪比（PSNR），这是经常用于视频预测。MSE越低越好，PSNR和SSIM越高越好。表1描述了现有技术方法和提出的方法的定量评价结果，具有不同的数据集。由于相机的快速运动，加州理工学院的数据集是最具挑战性的数据集，因此，与其他数据集相比，误差往往很高为了处理突然的相机运动，PredNet [19]和ContextVP [2]将十帧作为该数据集的输入，而我们使用四张图像作为输入。尽管如此，我们的方法在MSE和PSNR方面显示出最好的结果，图中显示了一对预测图像。4.第一章1818(a) PredNet [19]（b）ContextVP[2]（c）Ours（d）Ground Truth(e)BeyondMSE [24]（f）MCnet [31]（g）ContextVP[2]（h）Ours（i）Ground Truth(j)Liu等[17]（k）我们的（l）地面真理（m）刘等。[17]第十七话：我的世界图4.在Caltech Pedestrian（a-d）、UCF 101测试集（e-i）、CUHK Avenue测试集和ShanghaiTech测试集（j-o）上对预测帧进行定性比较。每行显示了根据数据集训练的连续序列和网络的预测结果我们的方法减少了快速运动时模糊区域周围的伪影和模糊，并以颜色表示显著区域。（1）这个结果由ContextVP[2]提供。1819对于UCF101数据集，我们比较了五种最先进的方法。与BeyondMSE [24]一样，我们在计算误差中排除了静态区域中的像素。对于这个数据集，许多论文明确地计算逐像素运动，即。 MC- net [31]、EpicFlow[27]和DVF [36]。然而，预测的性能低于直接从输入序列生成未来帧的ContextVP [2]和对于监测数据集，我们比较了所提出的方法与刘等的方法。[17 ]第10段。在这里，平均准确率高于其他数据集，因为监控视频包含大量的静态区域。图4比较了Liu等人的一些结果。以及我们的，其中[17]的方法由于对经历大运动的像素的运动估计的失败而显示出意外的伪像。此外，我们还评估了对输入帧数的敏感性。从PSNR和SSIM的角度来看，最佳输入序列长度分别为4和6。如表2所示，根据输入图像的数量，没有大的差异;然而，有趣的是，使用两个图像显示出比使用八个或十个图像更好的结果。我们假设，在大多数情况下，使用两个图像足以预测下一帧，只要足够量的训练数据用于训练。因此，更大数量的输入对于长期预测是期望的。4.4. 多步预测评价进行多步预测实验，以了解所提出的方法可以预测未来帧的程度，十五帧后。该实验的程序如下。首先，我们从一个输入序列中预测下一帧.四个连续的图像。然后，我们构建通过连接输入序列的最后三个帧和预测帧来生成新的序列。然后，新的序列被用于预测下一帧，重复该过程直到指定帧，例如，15、提前预测。这个实验经常被用来验证预测帧的时间和空间一致性[16，24，36]。表3示出了定量评价结果。虽然预测图像的误差随着我们预测更远的未来而增加，但所提出的方法始终显示出比PredNet [19]更好的结果，后者需要10张图像作为输入。质量，所提出的方法往往会显示失真的图像，如图所示。五、然而，预测图像在捕获未来帧的重要特征时不会遭受模糊伪影，例如，车道和阴影。这些实验验证了所提出的网络架构是良好的预测遥远的未来帧，与回顾性的周期约束和多个鉴别器的帮助。表3.使用PredNet [19]和所提出的方法对多步预测结果进行定量比较T表示时间步长，例如，如果T为1，则预测帧对应于在1个时间步之前的图像。随着T的增加，预测性能方法T= 13691215PredNet [19]PSNRSSIM27.60.9021.70.7220.30.6619.10.6118.30.5817.50.54我们PSNRSSIM29.20.9125.90.8322.30.7320.50.6719.30.6318.40.60表4.对所提出的方法进行了各种损失构形的烧蚀研究。和一个训练器，用于或不用于训练网络。前向和后向，有或没有追溯损失（w/res）。或无保留地）向前（无决议）（w/res.）落后（无决议）（w/res.）L图像L日志L形框架LseqadvPSNRSSIM✔✘✘✘✔✘✘✘26.30.892✔✘✔✘✔✔✘✘26.80.899✔✔✘✘✔✔✘✘26.90.900✔✔✔✔✔✔✘✘27.50.904✔✔✔✘✔✔✔✘28.40.912✔✔✔✔✔✔✔✔29.20.9194.5. 消融研究我们在不同的环境下进行了消融研究，以了解核心思想的影响，如后向预测，框架预测和序列预测。表4比较了不同设置下的定量结果，按PSNR从上到下的升序排列。总体而言，每个模块的缺失降低了预测未来帧的性能。重要的是，不存在后向预测意味着在训练期间消除了与后向预测相关的所有损失项;它将鉴别器的输入图像数量减少了两种不同的设置，前向预测与帧间干扰和双向预测与帧间干扰，显示出接近国家的最先进的性能。使用所有分量，所提出的方法示出了最佳执行结果，这意味着所有分量的组合对于预测未来帧是至关重要的。5. 结论我们提出了一个无监督的框架，用于预测未来的帧，命名为回溯循环GAN，由一个发生器和两个鉴别器。该生成器在训练过程中将前向和后向序列作为输入，并通过回溯循环约束来利用双向预测的一致性此外，我们还利用了两个鉴别器进行对抗性分类。1820图5.多步预测结果的比较。每个图像的第二结果（w/o res. cons.）没有追溯约束。第一个序列是由向前移动的车辆在改变车道时捕获的，第二个序列包含将支配整个道路的投射阴影。该方法可以预测未来帧的重要特征;例如汽车的位置和车道标记以及投射阴影的区域。更多的结果可以在补充材料中找到训练，帧识别器用于类似于常规GAN地辨别假帧。序列判别器在保证时间一致性的前提下，采用伪包含序列来提高预测帧的我们从多个角度实验验证了该方法的优越性，展示了预测未来帧的最新性能。谢谢。这项工作得到了韩国政府（MSIT）资助的韩国国家研究基金会（ NRF ）资助（编号 NRF-2019 R1 C1C1003676）和韩国政府（MSIT）资助的“跨部门Giga KOREA项目”资助（编号GK 19 P0200，基于超现实服务技术的4D重建和动态变形动作模型的开发）的部分支持。我们也要感谢朱洪尹和Yeong Won Kim提供了许多有益的意见和讨论。1821引用[1] Martin Arjovsky、Soumith Chintala和Léon Bottou。Wasserstein gan arXiv预印本arXiv：1701.07875，2017。3[2] Wonmin Byeon，Qin Wang，Rupesh Kumar Srivastava，and Petros Koumoutsakos.Contextvp：完全上下文感知的视频预测。在欧洲计算机视觉会议（ECCV），2018。一、二、三、五、六、七[3] Emily L Denton，Soumith Chintala，Rob Fergus，et al.使用对抗网络的拉普拉斯金字塔的深度生成图像模型。在神经信息处理系统（NIPS）的进展，2015年。4[4] Andrea Vedaldi Dmitry Ulyanov和Victor S. Lempitsky实例规范化：快速样式化缺少的成分。 CoRR ，abs/1607.08022，2016。5[5] Piotr Dollár，Christian Wojek，Bernt Schiele，and PietroPerona.行人检测：对最新技术水平的评价。模式分析和机器智能（PAMI），2012年。一、五[6] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。在神经信息处理系统（NIPS）的进展，2016年。一、二、三[7] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun. Vision meets robotics：The kitti dataset.国际机器人研究杂志（IJRR），2013年。5[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统（NIPS）的进展，2014年。3[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在2016年计算机视觉和模式识别（CVPR）会议4[10] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros. 使用条件对抗网络进行图像到图像翻译在计算机视觉和模式识别会议，2017年。3[11] Xu Jia，Bert De Brabandere，Tinne Tuytelaars，and LucV Gool.动态过滤网络。在神经信息处理系统（NIPS）的进展，2016年。1[12] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议（ECCV），2016。三、四[13] Nal Kalchbrenner、Aäron Oord、Karen Simonyan、IvoDani- helka 、 Oriol Vinyals 、 Alex Graves 和 KorayKavukcuoglu。视频像素网络。在2017年国际机器学习会议（ICML）上。一、二[14] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[15] ChristianLedig ， Lucas Theis ， Ferenc Huszar ， JoseCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew Aitken，Alykhan Tejani，Johannes Totz，ZehanWang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在计算机视觉和模式识别会议（CVPR），2017年。第1、3条[16] Xiaodan Liang，Lisa Lee，Wei Dai，and Eric P Xing.用于未来流嵌入式视频预测的双运动gan。2017年国际计算机视觉会议（ICCV）一二三五七[17] W. Liu，L.Lian W.Luo和S.高.用于异常检测的未来帧在计算机视觉和模式识别会议（CVPR），2018年。一、三、五、六、七[18] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。计算机视觉与模式识别会议（CVPR），2015年。第1、3条[19] William Lotter，Gabriel Kreiman，and David Cox.用于视频预测和非监督学习的深度预测编码网络。国际学习表征会议（ICLR），2017年。一、二、五、六、七[20] Weixin Luo，Wen Liu，and Shenghua Gao.堆叠式rnn架构中以2017年国际计算机视觉会议（ICCV）。5[21] Zelun Luo ， Boya Peng ， De-An Huang ， AlexandreAlahi，and Li Fei-Fei.视频长期运动动力学的无监督学习。计算机视觉和模式识别会议（CVPR）3[22] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。在 2017 年的国际计算机视觉会议（ICCV）上。三、四[23] 大卫·马尔和艾伦·希尔德雷思边缘检测理论程序R长索克B，1980年。4[24] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测2016年国际学习表征会议（ICLR）。一、三、五、六、七[25] Vior i caP apuetraapuetucean ， AnkurHanda ， andRob ertoCipolla. 具有可微分存储器的时空视频自动编码器2016年国际学习代表会议（ICLR）研讨会。1[26] Mahdyar Ravanbakhsh、Moin Nabi、Enver Sangineto、Lu- cio Marcenaro、Carlo Regazzoni和Nicu Sebe。使用生成对抗网络检测视频中的异常事件2017年国际图像处理会议（ICIP）5[27] JeromeRevaud，PhilippeWeinzaepfel，ZaidHarchaoui，and Cordelia Schmid. Epicflow：光流对应的边缘保持插值。在2015年计算机视觉和模式识别会议上。五、七[28] Khurram Soomro、Amir Roshan Zamir和Mubarak Shah。Ucf101：来自野外视频的101个人类动作类的数据集arXiv预印本arXiv：1212.0402，2012。5[29] Sergey Tulyakov，Ming-Yu Liu，Xiaodong Yang，andJan Kautz. Mocogan：分解运动和内容以生成视频。在计算机视觉和模式识别会议（CVPR），2018年。1[30] Aaron vandenOord ， NalKalchbrenner ， LasseEspeholt，Oriol Vinyals，Alex Graves，et al.条件图像生成与pixelcnn解码器。在神经信息处理系统（NIPS）的进展，2016年。21822[31] Ruben Villegas，Jimei Yang，Seunhoon Hong，XunyuLin，and Honglak Lee.用于自然视频序列预测的分解运动和内容。国际学习表征会议（ICLR），2017年。一、三、五、六、七[32] Carl Vondrick Hamed Pirsiavash和Antonio Torralba生成具有场景动态的视频。在神经信息处理系统（NIPS）的进展，2016年。1[33] 薛天凡，吴嘉俊，凯瑟琳·布曼，比尔·弗里曼.视觉动态：通过交叉卷积网络的概率未来帧合成。在神经信息处理系统（NIPS），2016年。二、三[34] 自立一、张浩、谭平、龚明伦。Dualgan：图像到图像翻译的无监督双重学习。2017年国际计算机视觉会议（ICCV）。二、三[35] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。2017年国际计算机视觉会议（ICCV）。二、三[36] Xiaoou Tang Yiming Liu Ziwei Liu，Raymond Yeh andAseem Agarwala.使用深体素流的视频帧合成。2017年国际计算机视觉会议（ICCV）。五、七

下载后可阅读完整内容，剩余1页未读，立即下载