没有合适的资源?快使用搜索试试~ 我知道了~
Beibei Jin1,2, Yu Hu ∗1,2, Qiankun Tang1,2, Jingyu Niu1,2, Zhiping Shi3, Yinhe Han1,2, and Xiaowei Li1,245540探索空时多频分析以实现高保真度和时态一致的视频预测01 中国科学院计算技术研究所计算机体系结构国家重点实验室智能计算系统研究中心 2中国科学院大学 { jinbeibei, huyu, tangqiankun, niujingyu17b, yinhes, lxw } @ict.ac.cn 3首都师范大学0shizp@cnu.edu.cn0摘要0视频预测是一项基于过去帧推断未来帧的像素级密集预测任务。当前模型仍然存在缺失外观细节和运动模糊这两个主要问题,导致图像失真和时态不一致。我们指出探索多频分析来解决这两个问题的必要性。受到人类视觉系统(HVS)的频带分解特性的启发,我们提出了一种基于多级小波分析的视频预测网络,以统一处理空间和时间信息。具体而言,多级空间离散小波变换将每个视频帧分解为具有多个频率的各向异性子带,有助于丰富结构信息和保留细节。另一方面,多级时间离散小波变换在时间轴上进行操作,将帧序列分解为具有不同频率的子带组,以在固定帧率下准确捕捉多频运动。对多种数据集的广泛实验表明,我们的模型在保真度和时态一致性方面显示出显著改进,超过了现有技术的作品。源代码和视频可在https://github.com/Bei-Jin/STMFANet获得。0�通讯作者:胡宇,huyu@ict.ac.cn。本工作部分得到中国国家重点研发计划(2018AAA0102701号)、中国科学院空间智能控制实验室(HTKJ2019KL502003号)和中国科学院计算技术研究所创新项目(20186090号)的支持。0图1. KTH[34]运动序列上的长期预测比较。我们的模型生成的预测比现有技术方法SAVP [22]和VarNet[19]具有更高的保真度和时态一致性。在其他两种方法的预测中,人物逐渐模糊变形,并且在图像中的速度过快或过慢,与真实情况不一致。01. 引言0无监督视频预测在研究界和人工智能公司中越来越受到关注。它旨在基于先前帧的观察来预测即将到来的未来帧。这种前瞻能力在视频监控[11]、机器人系统[12]和自动驾驶车辆[48]等领域具有广泛的应用前景。然而,构建准确的预测模型仍然具有挑战性,因为它不仅需要掌握不同对象的视觉抽象模型,还需要掌握随时间变化的各种运动演变。许多最近的深度学习方法[22, 47, 36, 3, 40, 39, 44,21]在视频预测任务上取得了巨大的发展。然而,它们的预测与地面真实值(GT)之间仍然存在明显差距,如图1所示。与比较方法的预测相比,缺乏高频细节的保留和不足之处。quency band decomposition in temporal dimension. Thesecharacteristics enable the Human Visual System (HVS) toprocess visual content with better discrimination of de-tailed information and motion information. Wavelet anal-ysis [6, 1] is a spatial-scale (temporal-frequency) analy-sis method, which has the characteristic of multi-resolution(frequency) analysis and can well represent the local char-acteristics of spatial (temporal) frequency signal, which isvery similar to HVS.Discrete Wavelet Transform (DWT) is a commonwavelet analysis method for image processing. As shownin Figure 3(B), the Discrete Wavelet Transform in Spatialdimension (DWT-S) ( Figure 3(A)) can decompose an im-age into one low frequency sub-band and three anisotropichigh frequency sub-bands of different directions (horizon-tal, vertical, diagonal).Figure 3(D) shows the DiscreteWavelet Transform in Temporal dimension (DWT-T) (Fig-ure 3(C)) decomposes a video sequence of length four intotwo high-frequency sub-bands and two low-frequency sub-bands on time axis. The frequency on time axis here canbe viewed as how fast the pixels change with time, whichis related to temporal motions. Inspired by the characteris-45550图2.时间轴上的离散小波变换(DWT)可以捕捉较慢汽车和较快卡车之间的不同运动频率。 (a)是长度为六的视频序列。(a)在时间轴上的DWT导致(b)中的子带。(c)是(b)中右侧三个子带的热图,可以清楚地显示它们之间的差异。0运动信息的有效利用不足,导致失真和时间不一致:细节丢失。常常采用下采样来扩大感受野和提取全局信息,但不可避免地会丢失高频细节。然而,视频预测是一个像素级的密集预测问题,没有精细的细节辅助,无法进行锐利的预测。虽然可以使用扩张卷积来避免使用下采样,但会出现网格效应问题,并且对小物体不友好,这限制了其在视频预测中的应用。对时间运动的利用不足。动态场景由多个时间频率的运动组成。在图2中,左侧较小汽车的时间运动较低,右侧较大卡车的时间运动较快。它们具有不同的运动频率。然而,以前的方法通常以固定帧率逐个处理它们。虽然循环神经网络(RNNs)用于记忆动态依赖关系,但它无法区分不同频率的运动,也无法分析时间信息的时频特性。因此,有必要将多频分析引入视频预测任务中。生物学研究[16,4]表明,人类视觉系统(HVS)在空间和时间频率信息上表现出多通道特性。视网膜图像在对数尺度上被分解为具有近似等带宽的不同频带,用于处理[29],其中包括一个低频带和多个高频带。除了空间维度,时间维度上也存在类似的频带分解。这些特性使人类视觉系统(HVS)能够更好地处理视觉内容,更好地区分详细信息和运动信息。小波分析[6,1]是一种空间尺度(时间频率)分析方法,具有多分辨率(频率)分析的特点,可以很好地表示空间(时间)频率信号的局部特征,与HVS非常相似。离散小波变换(DWT)是一种常用的图像处理小波分析方法。如图3(B)所示,空间维度上的离散小波变换(DWT-S)(图3(A))可以将图像分解为一个低频子带和三个各向异性的高频子带(水平、垂直、对角线)。图3(D)显示了时间维度上的离散小波变换(DWT-T)(图3(C))将长度为四的视频序列分解为两个高频子带和两个低频子带。这里的时间轴上的频率可以视为像素随时间变化的速度,与时间运动有关。受到特性的启发0图3. (A):空间维度上的离散小波变换(DWT-S)将图像分解为一个低频子带(LL)和三个不同方向的高频子带(LH, HL,HH),分别代表不同方向的子带(水平、垂直、对角线)。(B):(A)的可视化示例。(C):时间维度上的离散小波变换(DWT-T)将图像序列分解为时间轴上的低频子带和高频子带。(D):(C)的可视化示例。子带以热图的形式可视化。45560通过HVS和小波变换的特性,我们提出了探索多频分析用于高保真度和时间一致性视频预测的方法。主要贡献总结如下:01)据我们所知,我们是第一个提出基于多频分析的视频预测框架,可以以端到端的方式进行训练。02)为了增强空间细节,我们开发了一个多层级空间小波分析模块(S-WAM),将每一帧分解为一个低频近似子带和三个高频各向异性细节子带。高频子带很好地表示边界细节,并有利于增强预测细节。此外,多层级分解形成了一个空间频率金字塔,有助于提取具有多个尺度的对象特征。03)为了充分利用动态场景中物体的多频率时间运动,我们采用了一个多层级时间小波分析模块(T-WAM),将缓冲的视频序列分解为具有不同时间频率的子带,促进多频率运动的描述,并有助于全面捕捉动态表示。04)在多样化数据集上进行的定量和定性实验表明,与最先进的方法相比,我们的模型性能显著提升。我们进行了消融研究,展示了我们模型的泛化能力和子模块的评估。02. 相关工作02.1. 视频生成和视频预测0视频生成是在不需要保证结果的准确性的情况下合成逼真的图像序列。它专注于对视频的动态发展的不确定性进行建模,以产生可能与真实情况不一致但合理的结果。相反,视频预测是进行确定性图像生成。它不仅需要关注每帧的视觉质量,还需要掌握内部的时间特征,以确定最可靠的发展趋势,最接近真实情况。随机视频生成。随机视频生成模型专注于处理预测未来的固有不确定性。它们通过结合随机模型生成多个可能的未来。概率潜变量模型,如变分自动编码器(VAEs)[20,33]和变分递归神经网络(VRNNs)[7]是最常用的方法。0结构[2]提出了一种随机变分视频预测(SV2P)方法,该方法对其潜在变量的每个样本预测了不同的可能未来,这是第一个为真实世界视频提供有效的随机多帧生成的方法。SVG[8]提出了一种生成模型,将下一帧的确定性预测与随机潜在变量相结合,引入了逐步潜在变量模型(SVG-FP)和具有学习先验的变体(SVG-LP)。SAVP[22]提出了一种结合VAEs和GANs的随机生成模型。[5]通过提出一种分层变体,使用每个时间步的多个层级的潜变量,扩展了VRNN的公式。高保真度视频预测。高保真度视频预测模型旨在尽可能接近真实情况生成自然图像序列。主要考虑因素是将真实未来帧与生成的未来帧之间的重构误差最小化。这样的模型可以分为直接预测模型[35, 47, 44, 21, 3,40, 30, 39, 18, 25]和基于转换的预测模型[50, 41, 38,32]。直接预测模型直接预测未来帧的像素值。它们使用前向神经网络和递归神经网络的组合来编码空间和时间特征,然后使用相应的解码网络进行解码以获得预测结果。生成对抗网络(GANs)通常用于使预测的帧更加逼真。基于转换的预测模型旨在对帧之间的变异性源进行建模,并在转换空间中操作。它们专注于学习应用于先前帧以间接合成未来帧的转换核。在我们的模型中,不考虑随机视频生成模型中的潜在变量。这样的模型从可能的未来空间中学习和采样以生成后续帧。尽管通过采样不同的潜在变量可以生成合理的结果,但不能保证与真实情况的一致性。此外,生成结果的质量因样本而异,无法控制。这限制了这些模型在某些需要高度确定性的实际任务中的应用,例如自动驾驶。我们专注于高保真度视频预测,旨在构建一个预测模型,尽可能接近真实情况生成逼真的未来帧序列。为了克服细节不足和运动模糊的挑战,我们提出了基于多频分析的视频预测方法,将小波变换与生成对抗网络相结合。02.2. 小波变换0小波变换(WT)已广泛应用于图像压缩[6]和图像重建[17]。在图像处理中,离散小波变换(DWT)经常被使用。45570图4. 我们网络的流水线架构。请注意,该图以下一帧预测为例。通过将预测帧输入编码器网络,可以进行多帧预测。0在图像压缩[6]和图像重建[17]中,小波变换(WT)被广泛应用。在图像处理中,离散小波变换(DWT)经常被使用。[28]提出了一种使用滤波器组的快速实现方法。小波变换的滤波器组实现可以被解释为计算给定母小波的一组离散子小波的小波系数。根据[28],我们在图3中说明了在图像的空间轴上进行DWT和在视频序列的时间轴上进行DWT的过程。多级DWT可以通过在子带图像上重复类似的过程来完成。DWT的多分辨率(频率)分析与人类视觉系统(HVS)一致,为我们的方法提供了生物学基础。我们建议参考[28]以了解更多关于离散小波变换(DWT)的知识。03. 方法03.1. 问题陈述0我们的目标是通过观察几个起始帧来合成高保真度和时间一致性的未来帧。令X = {xi},(1 ≤ i ≤m)为长度为m的输入。xi ∈ RH × W ×C表示第i帧。H、W和C分别为高度、宽度和通道数。令Y ={yj},(1 ≤ j ≤ n)表示长度为n的未来帧序列的真实值,ˆY ={ˆyj},(1 ≤ j ≤n)表示对Y的预测。目标是最小化ˆY和Y之间的重构误差。我们以下一帧预测为例。03.2. 网络架构0我们采用生成对抗网络作为模型结构。生成器G和判别器D通过竞争目标进行训练:G旨在预测能够欺骗D的帧,而D旨在区分输入样本是真实的(来自训练数据集)还是伪造的(来自G)。图4展示了生成器G的整体块图,用于在时间步t上预测t+1帧。它遵循编码器-解码器架构。编码器旨在0将输入序列转换为隐藏特征张量的编码器,而解码器负责解码特征张量以生成下一帧的预测。编码器由三部分组成:干细胞CNN-LSTM、级联空间小波分析模块(S-WAM)和时间分析模块(T-WAM)。解码器由反卷积和上采样层组成。干细胞编码器是一个“CNN-LSTM”结构。在每个时间步t(t≥1)中,帧xt通过干细胞网络传递,以在不同感受野下提取多尺度空间信息。为了更好地表达外观特征,我们在干细胞结构的设计中参考了[42]提出的残差内残差密集块(RRDB)。它是多级残差网络和密集连接的组合。我们进行了修改:在每个RRDB单元中添加了一个下采样层,以减小特征图的大小。为了保留更多的高频空间细节,考虑到小波变换的多分辨率分析,我们提出了一个空间小波分析模块(S-WAM)来增强高频信息的表示。如图4所示,S-WAM由两个阶段组成:首先,通过空间维度上的DWT将输入分解为一个低频子带和三个高频细节子带(DWT-S);其次,将子带输入到一个浅层CNN中进行进一步的特征提取,并获得与相应的mRRDB单元具有一致通道数的特征。我们级联三个S-WAM来进行多级小波分析。每个级别的S-WAM的输出与mRRDB单元的相应特征张量相加。级联的S-WAM为干细胞网络在多个频率下提供了细节的补偿,促进了对细节的精确预测。另一方面,为了对视频序列中的时间多频运动进行建模,我们设计了一个多级时间小波分析模块(T-WAM)来进行分解。nn� �(3)45580在时间轴上,我们将输入序列进行多级离散小波变换(DWT-T),将其分解为不同频率下的子带。在我们的实验中,我们对输入序列进行多级DWT-T,直到低频子带或高频子带的数量等于2。我们以三级DWT-T为例,如图4所示。然后,我们将这些子带连接起来作为CNN的输入,以提取特征并调整特征图的大小。输出与LSTM单元的历史信息融合,以增强模型对多频运动的区分能力。编码器网络的融合特征张量被馈送到解码器网络,生成下一帧的预测。我们采用了[30]中的鉴别器网络,并训练鉴别器将输入[X,ˆY]分类为类别0,将输入[X, Y]分类为类别1。03.3. 损失函数0我们采用多模块损失,包括图像域损失和对抗损失。图像域损失。我们将L2损失与梯度差异损失(GDL)[30]结合起来作为图像域损失:0L img(Y, ˆY) = L2(Y, ˆY) + L gdl(Y, ˆY),(1)0L2(Y, ˆY) = ||(Y - ˆY)||22 =0i = 1 ∥(yi - ˆyi)∥22.(2)0L gdl(Y, ˆY) =0i = 10i,j0�� | yi,j - yi-1,j | - | ˆyi,j - ˆyi-1,j | �� α0+ �� | y i,j − 1 - y i,j | - | ˆy i,j − 1 - ˆyi,j | �� α,0其中α是大于等于1的整数,|.|表示绝对值函数的操作。对抗损失。对抗训练涉及一个生成器G和一个鉴别器D,其中D学习区分帧序列是来自真实数据集还是由G生成的。两个网络交替训练,直到D无法再区分由G生成的帧序列。在我们的模型中,预测模型被视为生成器。我们将鉴别器D上的对抗损失定义为:0L A D = -logD([X, Y]) - log(1 - D(X, ˆY)),(4)0生成器G上的对抗损失为:0L A G = -logD([X, ˆY]),(5)0因此,我们将之前定义的损失以不同的权重组合起来,用于我们的生成器模型:0L G = λ1 L img + λ2 L A G,(6)0其中λ1和λ2是超参数,用于权衡这些不同的损失。04. 实验04.1. 实验设置0数据集。我们在广泛用于评估视频预测模型的多个数据集上进行实验。KTH数据集[34]包含来自25个人的6种动作。我们使用第1-16个人进行训练,第17-25个人进行测试。模型被训练以基于前10帧的观察来预测接下来的10帧。测试的预测范围扩展到20或40帧。KTH数据集上的损失函数的超参数为:λ1 = 1和λ2 =0.01。BAIR数据集[10]包含一个在桌子上推动物体的随机移动机械臂。由于机械臂运动的高度随机性和背景的多样性,该数据集特别具有挑战性。我们遵循[22]中的设置,BAIR数据集上的损失函数的超参数为:λ1 = 1和λ2 =0.001。此外,根据[24]中的实验设置,我们在车载摄像头数据集(训练:KITTI数据集[14],测试:Caltech行人数据集[9])上验证了我们模型的泛化能力。超参数为:λ1 =1和λ2 =0.001。度量标准。我们基于峰值信噪比(PSNR)和结构相似性指数测量(SSIM)度量标准[46]对准确性进行定量评估。较高的值表示更好的结果。为了衡量预测结果的真实性,我们采用了学习感知图像块相似度(LPIPS)度量标准[49]。我们还采用了Fréchet视频距离(FVD)[37]来评估整个视频的分布。0表1. 基于KTH数据集上10个时间步长的预测20个时间步长(10 →20)和40个时间步长(10 →40)的平均比较结果。每个指标下的最佳结果用粗体标记。0方法KTH 10 → 20 10 → 40 PSNR SSIM LPIPS PSNR SSIM LPIPS0MCNET [39] 25.95 0.804 - 23.89 0.73 - fRNN [31] 26.12 0.771 - 23.770.678 - PredRNN [45] 27.55 0.839 - 24.16 0.703 - PredRNN++ [43]28.47 0.865 - 25.21 0.741 - VarNet [19] 28.48 0.843 - 25.37 0.739 -E3D-LSTM [44] 29.31 0.879 - 27.24 0.810 - MSNET [23] 27.08 0.876 -- - -0SAVP [22] 25.38 0.746 9.37 23.97 0.701 13.26 SAVP-VAE [22] 27.770.852 8.36 26.18 0.811 11.33 SV2P time-invariant [2] 27.56 0.826 17.9225.92 0.778 25.21 SV2P time-variant [2] 27.79 0.838 15.04 26.12 0.78922.480我们的 29.85 0.893 11.81 27.56 0.851 14.13 我们的(无S-WAM) 29.130.872 12.33 26.42 0.805 16.06 我们的(无T-WAM) 28.57 0.839 15.1626.08 0.782 17.45 我们的(无WAM) 27.37 0.821 18.31 24.03 0.72120.0704.2. 定量评估0方法[39, 31, 45, 43, 19, 44, 23, 5]的结果在参考文献[44,19, 23, 5]中报告。45590图5. BAIR数据集上不同预测模型的定量比较。PSNR和SSIM的较高值表示更好的性能。0表2.BAIR数据集上不同方法的定量评估。指标是预测帧的平均值。每个指0方法BAIR0PSNR SSIM LPIPS0SAVP [22] 18.42 0.789 6.34 SAVP-VAE [22]19.09 0.815 6.22 SV2P time-invariant [2] 20.360.817 9.14 SVG-LP [8] 17.72 0.815 6.03Improved VRNN [5] - 0.822 5.500我们的 21.02 0.844 9.36 我们的(无S-WAM)20.22 0.825 11.23 我们的(无T-WAM) 19.870.819 11.72 我们的(无WAM) 18.15 0.78413.130模型[22, 2,8],我们通过运行作者在网上报告的预训练模型来生成结果。表1报告了KTH数据集的定量比较结果。我们可以看到,我们的模型在预测未来20帧和40帧方面的PSNR和SSIM方面取得了最好的结果,这表明我们的结果与真实情况更一致。然而,在LPIPS方面,SAVP及其变体SAVP-VAE的表现优于我们。我们分析,随机生成方法中引入潜在变量更注重生成结果的视觉质量,而不太注重与真实情况的一致性。然而,我们的模型更注重与原始序列的保真度和时间一致性,这与我们的原始意图一致。图5说明了BAIR数据集上每帧定量比较。我们还在表2中计算了平均结果。与KTH数据集上的结果一致,我们在报告的方法中获得了最好的PSNR和SSIM。而Improved VRNN[5]在LPIPS方面取得了最高分。由于BAIR数据集的高随机性,要在保持保真度和时间一致性的同时产生良好的视觉效果是具有挑战性的。0表3.KTH和BAIR数据集上的FVD(越小越好)评估。基线方法未在KITTI和CalT0数据集SVG-FP SV2P SAVP 我们的0KTH 208.4 [37] 136.8 [37] 78.0 [37] 72.3 BAIR 315.5[37] 262.5 [37] 116.4 [37] 159.60通过对比边框的方式,我们采用FVD(Fr´echet视频距离)[37]来评估整个序列的分布。如表3所示,我们的FVD结果在两个数据集上与其他方法竞争力强,这表明预测序列的分布一致性。04.3. 定性评估0我们在KTH数据集和BAIR数据集上报告了可视化示例,见图6和7。第一行是真实情况,初始帧代表输入帧。在图6的第一组中,我们的模型在手拍示例中预测更准确,同时保留了更多手臂的细节。在图6的第二组中,我们预测的行走序列更加与真实情况一致,而其他方法中的人物要么走出了场景(VarNet),要么走得太慢(SAVP和SV2P时不变)。对于BAIR数据集的预测,我们也是最一致的。虽然随机生成的方法似乎生成了更清晰的结果,但它们与真实序列的移动轨迹非常不同。这再次证实了我们的观点,即在模型中引入更多的随机性将会牺牲保真度。从上述实验结果可以看出,离散小波变换的多频率分析确实有助于模型保留更多的细节信息和时间运动信息。04.4. 消融研究0泛化能力评估。与之前的工作一致,用于评估泛化能力的方法。45600图6. 在KTH数据集上基于10帧的未来40个时间步的预测可视化。0图7. 在BAIR无动作数据集上的预测可视化比较。我们的模型对于真实情况的预测更加一致。45610图8. 在KITTI数据集(第一组)和CalTech行人数据集(第二组)上的可视化示例。0表4.在KITTI数据集上训练后,在CalTech行人数据集上进行下一帧预测的评估。所有模型都是通过观察10帧进行训练的。0方法 PSNR SSIM LPIPS #参数0PredNet [27] 27.6 0.905 7.47 6.9M ContextVP [3] 28.70.921 6.03 8.6M DVF [26] 26.2 0.897 5.57 8.9M DualMotion GAN [24] - 0.899 - - CtrlGen [15] 26.5 0.900 6.38 -DPG [13] 28.2 0.923 5.04 - Cycle GAN [21] 29.2 0.830 - -0我们的模型 29.1 0.927 5.89 7.6M 我们的模型(无S-WAM)28.6 0.919 6.90 7.2M 我们的模型(无T-WAM) 28.1 0.9037.56 7.3M 我们的模型(无WAM) 26.8 0.897 7.89 6.9M0我们在KITTI数据集上训练后,在Caltech行人数据集上测试我们的模型,结果见表4。我们取得了最先进的性能。图8展示了在KITTI数据集(第一组)和Caltech行人数据集(第二组)上的可视化示例。我们可以看到,我们的模型清晰地预测了驾驶线和汽车的演变。结果与真实情况保持一致,验证了模型的良好泛化能力。此外,我们在表4中报告了模型的参数数量。与ContextVP [3]和DVF[26]相比,我们的模型在参数更少的情况下取得了更好的结果。0子模块评估。为了评估每个子模块的影响,我们在没有S-WAM和/或T-WAM的情况下进行消融研究。结果表明,子模块S-WAM和T-WAM都对改善预测效果有所贡献。特别是没有S-WAM的模型比没有T-WAM的模型获得了更多的改进。图9中的可视化结果是一致的。我们分析得出,时间运动信息对于长期预测尤其重要,尤其是对于长期预测。改善模型中多频率运动信息的表达是实现高保真度和时间一致性预测的基础。0图9. BAIR失败案例。放大后查看效果最佳。0失败案例分析。如图9所示,在某些历史依赖下的初始运动中,我们的模型预测准确。然而,由于发生了突然的运动(第18-21帧),机器人操纵器的预测变得不正确。由于动作的变异性,BAIR确实具有很高的随机性。我们的T-WAM模块提取了序列的瞬态特征,并将输入分解为不同频率的子带组,以准确捕捉多频率运动。然而,保持高保真度以适应突然的运动是具有挑战性的,即使对于随机模型也是如此,除非添加相应的动作先验知识。05. 结论0我们讨论了当前预测模型中缺失细节和忽略时间多尺度运动的问题,这总是导致模糊的结果。受到人类视觉系统(HVS)中的机制的启发,我们探索了一种基于多频分析的视频预测网络,集成了空间-时间小波变换和生成对抗网络。提出了空间小波分析模块(S-WAM),通过对每帧进行多级分解来保留更多细节。提出了时间小波分析模块(T-WAM),通过对时间轴上的视频序列进行多级分解来利用时间运动。大量实验证明了我们的方法优于最新的方法。45620参考文献0[1] Milad Alemohammad,Jasper R Stroud,Bryan TBosworth和Mark A Foster.用于实时图像压缩的高速全光Haar小波变换。OpticsExpress,2017年。20[2] Mohammad Babaeizadeh,Chelsea Finn,DumitruErhan,Roy H Campbell和Sergey Levine.随机变分视频预测。arXiv预印本arXiv:1710.11252,2017年。3,5,60[3] Wonmin Byeon,Qin Wang,Rupesh Kumar Srivastava和PetrosKoumoutsakos.ContextVP:完全上下文感知的视频预测。在ECCV,2018年。1,3,80[4] Fergus W Campbell和Janus J Kulikowski.人类视觉系统的方向选择性。The Journal ofphysiology,1966年。20[5] Lluis Castrejon,Nicolas Ballas和Aaron Courville.改进的条件VRNN用于视频预测。arXiv预印本arXiv:1904.12165,2019年。3,5,60[6] Honggang Chen,Xiaohai He,Linbo Qing,ShuhuaXiong和Truong Q Nguyen.DPW-SDNet:用于JPEG压缩图像的双像素小波域深度CNN的软解码。在计算机视觉和模式识别会议的论文集中,2018年。2,30[7] Junyoung Chung,Kyle Kastner,Laurent Dinh,KratarthGoel,Aaron C Courville和Yoshua Bengio.用于序列数据的循环潜变量模型。在NeurIPS,2015年。30[8] Emily Denton和Rob Fergus.带有学习先验的随机视频生成。arXiv预印本arXiv:1802.07687,2018年。3,60[9] Piotr Dollar,Christian Wojek,Bernt Schiele和PietroPerona. 行人检测:现有技术的评估。PAMI,2012年。50[10] Frederik Ebert,Chelsea Finn,Alex X Lee和Sergey Levine.带有时间跳跃连接的自监督视觉规划。arXiv预印本arXiv:1710.05268,2017年。50[11] Issam Ela�,Mohamed Jedra和Noureddine Zahid.用于视频监控应用的无监督移动物体检测和跟踪。PatternRecognition Letters,2016年。10[12] Chelsea Finn和Sergey Levine.用于规划机器人运动的深度视觉预测。在ICRA,2017年。10[13] Hang Gao,Huazhe Xu,Qi-Zhi Cai,Ruth Wang,FisherYu和Trevor Darrell.解开传播和生成的纽带进行视频预测。在ICCV,2019年。80[14] Andreas Geiger,Philip Lenz,Christoph Stiller和RaquelUrtasun. 视觉与机器人相遇:kitti数据集。IJRR,2013年。50[15] Zekun Hao,Xun Huang和Serge Belongie.带有稀疏轨迹的可控视频生成。在CVPR,2018年。80[16] RF Hess和RJ Snowden.人类视觉滤波器的时间特性:数量、形状和空间协变性。Visionresearch,1992年。20[17] Huaibo Huang,Ran He,Zhenan Sun和Tieniu Tan.Wavelet-SRNet:基于小波的多尺度人脸超分辨率CNN。在ICCV,2017年。30[18] Huaizu Jiang, Deqing Sun, Varun Jampani, Ming-HsuanYang, Erik Learned-Miller, and Jan Kautz. Super slomo:高质量估计多个中间帧用于视频插值。CVPR,2018年。30[19] Beibei Jin, Yu Hu, Yiming Zeng, Qiankun Tang, Shice Liu,and Jing Ye. Varnet: 探索无监督视频预测的变化. IROS,2018年1月5日0[20] Diederik P Kingma and Max Welling. 自动编码变分贝叶斯.arXiv预印本arXiv:1312.6114, 2013年3月0[21] Yong-Hoon Kwon and Min-Gyu Park.使用回顾循环GAN预测未来帧. 在CVPR中, 2019年1月3日8日0[22] Alex X Lee, Richard Zhang, Frederik Ebert, Pieter Abbeel,Chelsea Finn, and Sergey Levine. 随机对抗视频预测.arXiv预印本arXiv:1804.01523, 2018年1月3日5月6日0[23] Jungbeom Lee, Jangho Lee, Sungmin Lee, and SungrohYoon. 使用分解特征的互相抑制网络进行视频预测. 在BMVC中,2019年5月0[24] Xiaodan Liang, Lisa Lee, Wei Dai, and Eric P Xing.未来流嵌入视频预测的双重运动GAN. 在ICCV中, 2017年5月8日0[25] Wenqian Liu, Abhishek Sharma, Octavia Camps, andMario Sznaier. Dyan: 一种基于动力学原子的视频预测网络.在ECCV中, 2018年3月0[26] Ziwei Liu, Raymond A Yeh, Xiaoou Tang, Yiming Liu, andAseem Agarwala. 使用深度体素流进行视频帧合成. 在ICCV中,2017年8月0[27] William Lotter, Gabriel Kreiman, and David Cox.深度预测编码网络用于视频预测和无监督学习. ICLR, 2017年8月0[28] Stephane G Mallat. 多分辨率信号分解的理论:小波表示.TPAMI, 1989年4月0[29] James Mannos and David Sakrison.视觉保真度标准对图像编码的影响. IEEE信息论交易, 2003年2月0[30] Michael Mathieu, Camille Couprie, and Yann LeCun.深度多尺度视频预测超越均方误差. arXiv预印本arXiv:1511.05440,2015年3月5日0[31] Marc Oliu, Javier Selva, and Sergio Escalera.用于未来视频预测的折叠递归神经网络. 在ECCV中, 2018年5月0[32] Fitsum A Reda, Guilin Liu, Kevin J Shih, Robert Kirby, JonBarker, David Tarjan, Andrew Tao, and Bryan Catanzaro.Sdc-net: 使用空间位移卷积进行视频预测. 在ECCV中, 2018年3月0[33] Danilo Jimenez Rezende, Shakir Mohamed, and DaanWier- stra. 深度生成模型中的随机反向传播和近似推理.arXiv预印本arXiv:1401.4082, 2014年3月0[34] Christian Schuldt, Ivan Laptev, and Barbara Caputo.识别人类动作: 一种局部SVM方法. ICPR, 2004年1月5日0[35] Nitish Srivastava, Elman Mansimov, and RuslanSalakhudi- nov. 使用LSTMs进行无监督学习视频表示. ICML,2015年3月45630[36] Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, and JanKautz. Mocogan: 分解运动和内容进行视频生成. CVPR,2018年1月0[37] T. Unterthiner et al. 实现准确的视频生成模型:一种新的度量标准和挑战. arXiv预印本arXiv:181
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功