没有合适的资源?快使用搜索试试~ 我知道了~
13946∼∼×→STRPM:一种用于高分辨率视频预测的郑昌1,2,张新峰1,王善社3*,马思伟3,高文1,31计算机科学与技术学院,中国科学院大学,中国2中国科学院计算技术研究所,中国北京3视觉技术国家工程研究中心北京大学计算机科学学院changzheng18@mails.ucas.ac.cn,xfzhang@ucas.ac.cn,{sswang,swma,wgao} @ pku.edu.cn摘要虽然许多视频预测方法在低分辨率(64 128)视频中取得了良好的性能,但高分辨率(512 4K)视频的预测模型尚未得到充分的探索,随着人们对高质量视频的需求不断增加,这一点更有意义提供低分辨率视频、高分辨率视频CrevNet(ICLR2020)STRPM地面实况包含更丰富的外观(空间)信息和更复杂的运动(时间)信息。 本文在分析了现有文献的基础上,我们提出了一种用于高分辨率视频预测的时空残差预测模型(STRPM)。一方面,我们提出了一个时空编解码方案,以保留更多的时空信息的高分辨率视频。以这种方式,可以极大地保留每个帧另一方面,我们设计了一个残差预测记忆(RPM),它专注于建模的时空残差特征(STRF)之间的前一帧和未来的帧,而不是整个帧,这可以极大地帮助捕捉复杂的运动信息在高分辨率视频。此外,所提出的RPM可以监督空间编码器和时间编码器提取不同的特征,分别在空间域和时间域。此外,该模型使用具有学习感知损失(LP损失)的生成对抗网络(GAN)进行训练,以提高预测的感知质量实验结果表明,与现有的各种方法相比,STRPM能产生更满意的结果.* 通讯作者:王善社,sswang@pku.edu.cn 这项工作得到了国家自然 科 学 基 金 会 的 部 分 支 持 -中 国 ( 62025101 , 62072008 ,62071449,U20A20184),国家国家重点研发项目(2019YFF 0302703、2021YFF 0900503)和北京大学高性能计算平台,在此表示感谢。图1. SJTU4K数据集(4K:2160 3840分辨率,4帧1帧)上提出的STRPM和最先进的方法CrevNet [29]之间的定性结果。与CrevNet相比,STRPM产生了更好的视觉细节。1. 介绍视频预测是表示学习的关键组成部分,由于其在为自然视频建模有意义的表示方面的强大能力,并且已被应用于各种视频处理应用,例如视频编码[14],降水临近预报[20],机器人控制[6],自动驾驶[2]等。与视频内插[16,17]不同,视频预测(外插)更具挑战性,仅利用来自先前帧的有限信息来预测未知的未来帧。受深度学习技术在提取深度特征方面的优势的激励,近年来,已经提出了各种基于学习的视频预测方法,这些方法可以概括为三种类型。第一类方法[20,22,25-然而,由于标准的基于均方误差的损失函数,基于RNN的方法的预测通常是为了解决这个问题,第二种冰毒-13947∼∼∼ods [1,5,7,23,28]利用深度随机模型来预测不同的未来,而不是不同样本的平均未来,第三种方法[4,8,12,13,15]采用生成对抗网络(GAN)[8]和附加的感知损失函数来增强预测的视觉质量。虽然上述方法取得了较好的效果,但这些方法所使用的视频数据集分辨率通常较低(64 128),在高分辨率(512 4K)视频中的性能仍难以令人满意(如图1所示),影响了它们在实际场景中的适应性和实用性。主要有两个挑战限制预测的分辨率第一个挑战是高分辨率视频通常包含更复杂的视觉细节。然而,受限于计算资源的限制,视频通常被编码为低维特征,然后再解码回视频帧,在此过程中,大量的视觉细节可能被舍弃。第二个挑战是高分辨率视频中的运动信息通常涉及多个对象,这对于传统的预测记忆来说要复杂得多,也难以预测。为了处理高分辨率视频预测中的上述两个问题,需要仔细地重新考虑空间域中的表观信息和时间域中本文提出了一个时空残差预测模型(STRPM)来处理上述两个问题.首先,为了预测每帧更令人满意的外观细节,我们新颖地提出了时空编解码方案,该方案利用独立的编码器在空间和时间域提取深度特征。以这种方式,空间和时间信息两者不再相互影响,并且可以保留更多的其次,为了准确地模拟高分辨率视频中 的 复 杂 运 动 信 息 , 我 们 设 计 了 残 差 预 测 记 忆(RPM),专注于建模帧间时空残差特征(STRF),计算量相对较小,参数较少。此外,由于编码的空间和时间特征将被馈送到RPM中的空间和时间模块中以用于垂直(空间域)和水平(时间域)方向上的转变,所以RPM可以间接地监督空间编码器和时间编码器以提取空间域和时间域中的对应特征。通过联合使用编码的时空特征和STRF,可以预测未来帧的更可靠的时空特征,其将在时空解码器的帮助下被进一步解码此外,在训练阶段,标准MSE损失、对抗损失以及习得的感知损失被联合利用以改善训练过程中的训练效果。预测的视觉质量实验结果表明,与其他方法相比,该模型具有较好的2. 相关工作近年来,许多基于学习的预测模型已被应用于视频预测。[18]首先利用语言建模进行视频预测,[22]使用长短期记忆(LSTM)[9]进一步改进为了提高模型对视觉数据的识别能力,[20]将卷积运算集成到FC-LSTM(ConvLSTM)中,并在Moving MNIST数据集上实现了显着改进。然而,上述工作仅关注帧间时间信息(运动信息)而忽略了帧内空间信息(外观信息)。为了保留视频的外观信息[26]为ConvL-STM(PredRNN)设计了一个外观保持块。[24]通过解决深度预测模型(PredRNN++)中的梯度传播困难并集成3D卷积运算和RECALL门来进一步改进PredRNN,以增强捕获预测模型(E3 D-LSTM)的长期和短期依赖性为了进一步提高预测的视觉质量,[29]提出了一种条件可逆网络(CrevNet)来保留输入的时空信息,[11]利用高频信息来保留视频的视觉细节。然而,由于标准的MSE损失函数,上述工作只能为所有样本为了解决这一问题,已经提出了各种方法。一方面,有些方法针对不同的样本预测不同的期货[1]提出了一种随机变分视频预测(SV2P)方法,该方法基于潜在变量为每个样本预测不同的可能[5,28]提出了视频生成模型,该模型具有针对视频预测的随机潜变量的学习先验[7]提出了一种用于视频预测的随机时间模型,其动力学在潜在空间中由残差更新控制统治另一方面,一些工作旨在改进标准的基于MSE的损失函数。[15]提出了三种不同的和互补的特征学习策略来预测自然主义视频。此外,由于生成自然图像的强大动力,[13]采用生成对抗网络(GAN)来生成逼真的结果,[12]利用CycleGAN [31]进一步提高预测的感知质量虽然在上述工作中已经取得了一些改进,并且在[3,29](256 512)中已经改进了预测视频的分辨率,但是不可接受的计算负载和质量失真阻止了它们预测13948∼···监督时空编码器vOEOP时空解码器OD不vt+1时间编码器TE剩 余 预 测记忆TP时间解码器TD空间编码器SESP空间解码器SDvt+1火车MSE损失鉴别器L鉴别器层k1习得性知觉丧失层k2火车L对抗性损失火车层N层N层1层1图2.提出的时空残差预测模型(STRPM)的结构绿色箭头表示输入信息流,红色箭头表示预测信息流。更高分辨率的视频(512 4K)。为了解决上述问题,我们提出了一个时空残差预测模型(STRPM)的高分辨率视频预测与可接受的计算负载。此外,通过使用所提出的学习感知损失,可以从所提出的方法生成更自然的视频。3. 时空残差预测模型在本节中,我们详细介绍了提出的时空残差预测模型(STRPM)。所提出的模型的整体结构如图2所示。与低分辨率视频不同,高分辨率视频包含了更复杂的纹理细节和更多多变的运动信息,因此,高分辨率视频预测迫切需要解决两个问题:• 如何为每一帧保留更多的视觉细节?• 如何更准确地预测帧间的运动信息?本文提出了时空残差预测模型(STRPM)来解决上述问题。3.1. 时空编解码方案为了减少计算资源,在视频预测中通常使用单个编码器将视频帧编码为低维特征。然而,时间信息和空间信息会相互影响,预测记忆必须进一步提取时间和空间信息来预测未来的帧,在此过程中,可能会丢失大量的时空信息,使得很难为每一帧重建满意的视觉为了解决这个问题(第一个问题),我们新颖地利用多个时空编码器来独立地提取时间域和空间域中的深度特征这样,空间信息和时间信息将不再相互影响,使得预测存储器更容易利用空间时间信息进行视频预测。编码过程可以表示如下,( TE , SE , OE ) = ( EncT ( vt ) , EncS(vt),EncO(vt)),(1)其中vt表示源视频V中的第t帧。EncT()、EncS()、EncO()分别表示时间、空间和时空编码器TE、SE、OE分别表示时间步长t处的编码的低维时间、空间和时空特征特别地,上述编码特征TE、SE、OE13949解码器RPMS2-q:1t-1Hk=2 不H k=2tRPMTk=2t-t:t-1RPM编码器vtT S···⊙ ∗t+1(a)剩余预测记忆的结构:RPM。(b):具有堆叠RPM的STRPM的结构。图3.提出的剩余预测记忆的结构:RPM。时间模块和空间模块可以间接地监督时间编码器和空间编码器在时间域和空间域中提取不同的特征将被馈送到所提出的剩余预测记忆中的相应模块:RPM,这将在第3.2节中详细介绍。通过这种方式,RPM可以直接监督不同的编码器在不同的域中提取不同的特征。并且预测的时空特征可以表示如下,(TP,SP,OP)=RPM(TE,SE,OE,T,S),(2)其中,TP、SP、OP表示在时间步长t处从RPM,req预测的时间、空间和时空特征。是保存下来的时空信息。与编码过程类似,为了解码更多的时空细节,我们还利用多个时空解码器来将预测特征从低维特征空间分别解码回高维时空和空间数据空间,其可以表示如下:(TD,SD,OD)=(DecT(TP),DecS(SP),DecO(OP)),(三)其中DecT()、DecS()、DecO()分别表示TD、SD、OD分别表示解码的高维时间、空间和时空特征。通过联合利用解码的高维特征,在时间步长t的预测帧可以表示如下,vt+1=ODtanh(W1×1[TD,SD]),(4)其中v_t+1表示在时间步长t处的预测帧,表示Hadamard乘积和卷积算子。3.2. 残差预测记忆:RPM当前的预测记忆旨在通过学习整个帧的单个表示来预测未来然而,与低维视频相比,高分辨率视频通常包含更复杂的运动信息。为了处理高分辨率视频中的这种特殊特性(第二个问题),我们设计了残差预测存储器(RPM),通过预测特征空间中当前帧和未来帧之间的时空残差特征(STRF),专注于对帧间运动信息进行建模,如图3(a)所示。此外,与传统的ST-LSTM结构[26]相比,所提出的RPM还受益于更有效的状态到状态转换(更少的门)和更宽的时空感受野(同时利用多个时空状态)。为了进一步提取更有效的深度时空特征,通常将多个RPM堆叠到单个模型中,如图3(b)所示。对于层k中的时间步长t处的RPM,编码特征TE、SE、OE被馈送到RPM的对应模块中。通过这种方式,所提出的RPM可以间接地监督空间编码器和时间编码器提取空间域和时间域中不同的深度特征。特别地,对于k >1,编码的fea-时间模块不ConvTanhATTE不Tkt-t:t-1Tk不HKt-1ConvR不ConvTanhSTRFtOE剩余预测记忆ConvROSTIFtS K-1不Conv俄.西ConvHK不SK输出模块不SConvTanhATTESS k-q:k-1 不空间模块v13950不不不不不不不t−1不ΣΣ不电子邮件Σ不S不不不不t tt不t tt⊙t tt用来自前一层的隐藏状态来表示图,即,T E,S E,O E=H k−1。对于每个RPM,有七个输入:TE,编码时间模块的特征;SE,空间模块的编码特征;OE,编码时空特征。其中Sk表示预测的空间残差状态,并且ATTS表示空间注意力网络。预测的时间残差状态Tk和预测的空间残差状态Sk将进一步聚合到输出模块(灰色块)中的最终隐藏状态:输出模块的隐藏状态;前一时间步;k−1t−1RO=σ(OFk+HFk+WosSk+WotTk),St,来自t t t t t tkSTRFt=ROtanh(W1×1[Tk,Sk]),前一层k−1;T:Tt−τ:t−1,前一τ时间状态;S:Sk−θ:k−1,前一θ空间状态。为了毛皮-t tSTIFt=W1×1[TE,SE],为了改善对视频的局部感知,输入状态是通常使用卷积层进行预处理:(TF k,SF k,OF k)=(W tT E,W sS E,WoO E),H k =STIFk+STRFk,(9)其中R0表示输出残差门,其用于聚合预测的时间和空间残差信息。 Hk表示最终隐藏状态。特别是,(HF k,MF k)=(W hH k,W m<$S k−1),(5)tt t t−1 t其中W表示集成卷积层的参数。TFk、SFk、OFk、HFk、MFk表示隐藏状态Hk由两项组成,其中第一项STIFk表示时空输入特征,第二项STRFk表示预测的时空。t t t t t tt从TE、SE、OE、Hk中提取深度特征,Sk−1,re-先前帧和未来帧之间的poral残留特征。分别为。然后,提取的特征将在层k中的时间步t处馈送到RPM中。对于时间和空间模块,设计了两个残差门来对帧间残差信息进行建模,如下所示,RT=σ(TFk+HFk),3.3. 培训详细信息在训练阶段,为了预测更自然的结果,该模型在GAN的帮助下进行训练,整个模型由两个子模块组成:预测器P,用于生成未来帧;判别器D,用于判断输入帧是否t tRS=σ(SFk+MFk),(6)是真实的还是生成的两个模块t t可以表示如下,其中RT、RS分别表示时间和空间残差门如图3(a)所示,RPM的时间模块(蓝色块)用于捕获帧之间的可靠运动信息。为了从过去保留更多有用的时间信息,RPM联合使用多个时间状态,并且转换可以表示为:T k = R T(tanh(TF k+HF k)+ATT T(T))。(七)预测的时间残差状态T k由两项组成,其中第一项RTtanh(TF k+HF k)表示来自当前输入的编码特征,第二项R T ATT t()表示来自先前τ时间步长的保留的时间信息。以这种方式,可以从更长的过去保留更有用的时间信息。特别地,AT TT(·)表示时间注意不LGAN(D) 为−[log(D(vt))+log(1−D(vt))],t=2TLGAN(P) 为−[log(D(vt)),(10)t=2其中T表示时间步长的总数。v和v′分别表示输入帧和预测帧由于GANs中的鉴别器可以对输入数据的分布(假的或真的)进行建模,因此我们利用来自GANs的层k并且可以指示输入的感知分布的习得感知损失表示如下(图2),不LLP=L2[Dk(vt),Dk(vt)],(11)t=2该网络由卷积层构成,可以帮助将多个时间状态合并为单个时间状态。在空间模块(橙色块)中,通过利用多个空间状态:Sk−θ:k−1,可以联合利用低级纹理信息和高级语义信息,并且与时间模块类似,状态到状态转换可以表示如下,Sk=RS(tanh(SFk+MFk)+ATTS(S)),(8)13951L·其中,Dk表示CJD的第k层(我们的方法中的底层)。2()表示标准MSE损失函数。通过使用附加损失函数,可以预测更自然的结果,并且预测器的最终损失函数可以表示如下,LP=LMSE+λ1LLP+λ2LGAN(P),(12)其中λ1、λ2控制相对重要性。13952输入地面实况t=2 t=4 t=5 t=6 t=8 t=10STRPMCycleGAN(CVPRCrevNet(ICLRE3D-LSTM(ICLR××××××t= 1,3,5,7,9t= 2,4,6,8,10时间特征空间特征输入信息图4.在UCF Sports测试集上生成的示例(4帧→6帧)。4. 实验在本节中,我们在三个高分辨率数据集上评估所有模型,UCF体育数据集(480720)[19],Human3.6M 数据集 (1000 1000)[10]和SJTU4K数据集(2160 3840)[21]。我们堆栈16 RPM的提议STRPM和集成卷积运算设置为内核大小5 - 5。 每个维度的跨距设置为1。我们将先前时空态的数目τ、θ设置为5。STRPM和鉴别器的隐藏状态所有模型都是IM-使用Pytorch实现,并使用Adam优化器进行训练。在训练阶段,模型被训练以预测下一帧,其中4个连续帧作为所有数据集上的输入。在测试阶段,评估模型以预测多个-三角形框架。将平衡重量λ1、λ2设定为0.01,0.001用于UCF Sports和Human3.6M数据集,0.005,SJTU4K数据集为0.0005。4.1. UCF体育数据集UCF Sports数据集包含从各种体育赛事收集的一系列人类活动,通常在广播电视频道(如BBC和ESPN)上捕获。共有150个视频,分辨率为480 720包含在UCF体育数据集中。我们将每帧的大小调整为512512. 6,288个序列用于训练,752个序列用于测试。 图4显示了定性分析结果。从不同的方法产生的结果,其中所提出的方法明显优于其他更自然的预测。在表1中,我们利用峰值信噪比(PSNR)来表示客观质量,残差信息图5.时空编码方案和剩余预测记忆的可视化结果。时间特征和空间特征表示来自时间编码器和空间编码器的编码特征。输入信息和残差信息表示公式9中的ST IF和ST RF。学习感知图像块相似性(LPIPS)[30]来表示感知质量。定量结果表明,该方法实现了最佳的PSNR得分和LPIPS得分。为了进一步评估所提出的时空编码方案和残差预测记忆的效率,我们可视化了时间特征TE、空间特征SE、输入信息和时空残差信息(STRF)。可视化结果如图5所示,其中时间特征包含更宽的运动区域,而空间特征集中在具有更大权重值的人的表观区域时间特征和空间特征之间的差异表明时空编码方案可以分别帮助从时间域和空间域提取不同的特征。此外,与时间特征相比,学习的时空残差特征的权重更大,表明提出的残差结构可以帮助预测记忆更多地关注复杂的运动信息而不是外观信息(外观信息的权重小于空间特征)。4.2. Human3.6M和SJTU4K数据集Human3.6M数据集由360万个3D人体姿势和相应的图像组成,由11个专业人员执行13953→→××表1.UCF Sports(4帧6帧)和Human3.6M(4帧4帧)数据集上不同方法的定量结果较低的LPIPS(10−2)和较高的PSNR(dB)分数表示更好的结果。方法UCF Sports Human3.6Mt=5t=10t=5t=8PSNR↑/LPIPS↓ PSNR↑/LPIPS↓ PSNR↑/LPIPS↓ PSNR↑/LPIPS↓BeyondMSE(ICLR 2016)[15]26.42 /29.0118.46 /55.28--PredRNN(NeurIPS2017)[26]27.17 /28.1519.65 /55.3431.91 /12.6225.65 /14.01PredRNN++(ICML2018)[24]27.26 /26.8019.67 /56.7932.05 /13.8527.51 /14.94SAVP(arXiv 2018)[13]27.35 /25.4519.90 /49.91--SV2P(ICLR 2018)[1]27.44 /25.8919.97 /51.3331.93 /13.9127.33 /15.02HFVP(NeurIPS 2019)[23]--32.11 /13.4127.31 /14.55E3D-LSTM(ICLR2019)[25]27.98 /25.1320.33 /47.7632.35 /13.1227.66 /13.95CycleGAN(CVPR 2019)[12]27.99 /22.9519.99 /44.9332.83 /10.182003年11月28日CrevNet(ICLR 2020)[29]28.23 /23.8720.33 /48.1533.18 /11.5428.31 /12.37MotionRNN(CVPR2021)[27]27.67 /24.2320.01 /49.2032.20 /12.1128.03 /13.29STRPM28.54/20.6920.59/41.1133.32/9.7429.01/10.44PredRNN++(ICML 2018)CrevNet(ICLR 2020)STRPM地面实况图6.在Human3.6M数据集上生成的示例(4帧→1帧)。PredRNN++(ICML2018)CrevNet(ICLR2020)STRPM地面实况图7. SJTU4K数据集上生成的示例(4帧→1帧)。所有的视频都是用4台分辨率为1000 ~ 1000的标定摄像机拍摄的,并进一步调整为1024 ~ 1024。73,404个序列用于训练,8,582个序列用于测试。图6示出了从所提出的方法和其他最先进的方法生成的示例,其中所提出的STRPM显著优于其他方法,并且预测的结果更自然。在表1中,所提出的方法实现了最佳的PSNR和LPIPS分数13954×→→≥与其他最先进的方法相比。SJTU4K数据集由15个超高分辨率4K视频组成,内容丰富。每个视频的分辨率为2160 3840。为了评估超高分辨率视频的性能,输入和输出都是4K视频,没有下采样。3,873个序列用于训练,445个序列用于测试。据我们所知,建议STRPM是第一个预测4K视频。图7示出了来自不同方法的预测的4K视频帧。定量结果总结于表2中。如图7和表2所示,所提出的方法在超高分辨率视频上取得了最好的定性和定量结果,具有令人满意的推理速度。表2. SJTU4K测试集(4帧4帧)上不同方法的定量结果。还总结了10个样本以上的推理时间。方法t =5t=8推理PSNR↑/LPIPS↓PSNR↑/LPIPS↓时间ConvLSTM [20]22.74 / 67.8117.91 / 86.84 39.38秒PredRNN [26]23.25 /66.6018.20 /87.0440.06sPredRNN++[24]23.43 /64.0718.55 /86.3453.11sSAVP [13]23.41 /61.4418.63 /80.45100.23s[29]第二十九话24.35 /62.3119.61 /80.9152.98sMotionRNN23.47 /65.2119.72 /81.3961.87sSTRPM24.37/57.1219.77/66.6839.84s表3.在Human3.6M数据集(4帧4帧)上对所提出的剩余预测记忆和时空编码-解码方案(STEDPSNR和LPIPS评分对所有4个预测进行平均。为了公平比较,所有模型的编码器和解码器具有相同的结构,并且所有存储器的隐藏状态信道的数量被设置为128。我们在每个模型中堆叠了16个内存。所有模型都使用MSE损失函数进行训练浮点运算(FLOPs)记录在1个样本上.方 法 PSNR↑ LPIPS↓ 参 数 FLOPs Casual-LSTM [24]29.61 14.42 131.35M 36.19G表4.不同损失函数下STRPM的烧蚀研究性能分数是所有预测的平均值。UCF运动人体3.6M方法4→64 →4PSNR↑ LPIPS↓PSNR↑LPIPS↓LMSE 24.8938.8131.8111.72LMSE+LGAN23.98 35.01 30.53 10.98LMSE+LGAN+LLP24.3031.5031.0010.114.3. 消融研究在本节中,进行了一系列消融研究表3显示了具有不同结构的不同模型的结果。为了公平的比较,所有没有STED(时空编码解码方案)的模型构建与相同的结构,除了预测存储器。实验结果表明,本文提出的残差预测存储器具有最低的计算量和最少的参数,性能优于其他最先进的存储器.此外,残余结构、加宽的时间感受野(τ >1)和加宽的空间感受野(θ >1)有助于提高RPM的性能。此外,与STED的RPM也有助于改善模型的性能。此外,在表4中总结了使用不同损失函数训练的方法的结果,其中所提出的感知损失可以帮助在客观质量(PSNR)和感知质量(LPIPS)之间获得更好的折衷5. 结论与讨论提出了一种用于高分辨率视频预测的时空残差预测模型(STRPM)我们设计了时空编解码方案和残差预测记忆(RPM)来对高分辨率视频中更为复杂的外观信息和运动信息进行建模。此外,我们提出了一个学习感知损失,以产生更自然的帧相比,标准的MSE损失。实验结果表明,与现有的各种方法相比,该模型能够以最佳的客观和主观质量预测高分辨率视频。虽然模型性能优于现有方法,但实用性仍远不能令人满意,特别是对于超高分辨率(1080p)的视频。此外,对于多步预测,模型效率也需要提高。考虑到上述限制,当前的预测模型可能不足以可靠地应用于需要高精度和实时交互的数据的决策系统,例如自动驾驶、机器人控制等。E3D-LSTM [25]29.9313.23501.37M 128.82G[29]第二十九话30.1312.62114.35M35.07GRPM(不含残差) 30.1112.64108.29M30.55GRPM(θ=1,τ=1)30.1412.5845.95M14.96GRPM(θ=5,τ=1)30.5611.9877.09M22.75GRPM(θ=1,τ=5)30.3212.3177.09M22.75G13955引用[1] MohammadBabaeizadeh 、 Chelsea Finn 、 DumitruErhan、Roy H Campbell和Sergey Levine。随机变分视频预测。在国际会议学习中。代表。,2018年。二、七[2] Apratim Bhattacharyya,Mario Fritz,and Bernt Schiele.不确定条件下交通场景中人的长期车载预测在IEEEConf. Comput.目视模式识别,第4194-4202页,2018年。1[3] 郑昌、张新峰、王善社、马四维、叶延、高文Stae:用于高分辨率视频预测的时空在国际会议上,多媒体和博览会,第1-6页。IEEE,2021。2[4] 陈新元,徐畅,杨小康,陶大成。通过批评和回顾进行长期视频预测。 IEEE Trans. 图像处理。,29:70902[5] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。 在Int. Conf. 马赫学习. ,第11742[6] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的非监督学习。在高级神经信息。过程系统,第64-72页,2016年。1[7] Jean-YvesFranceschi , EdouardDelasalles , MickaeülChen,Sylvain Lamprier和Patrick Gallinari。随机潜在残差视频预测。在马赫国际会议上。学习. 第3233-3246页。PMLR,2020年。2[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在高级神经信息。过程系统,第2672-2680页,2014。2[9] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NeuralComputation,9(8):1735-1780,1997. 2[10] Catalin Ionescu , Dragos Papava , Vlad Olaru , andCristian Sminchisescu. Human3.6m:大规模数据集和预测方法,用于自然环境中的3D人体感知。IEEE传输模式分析马赫内特尔,2014年。6[11] Beijing Jin , Yu Hu , Qiankun Tang , Jingyu Niu ,Zhiping Shi,Yinhe Han,and Xiaowei Li.探索用于高保真度和时间一致性视频预测的时空多频分析。在IEEEConf. Comput. 目视模式识别,第4554-4563页,2020。2[12] 权永勋和朴敏奎使用回顾性周期根预测未来帧。在IEEE Conf.目视模式识别,第1811-1820页,2019年。二、七[13] Alex X Lee 、 Richard Zhang 、 Frederik Ebert 、 PieterAbbeel、Chelsea Finn和Sergey Levine。随机对抗视频预测。arXiv预印本arXiv:1804.01523,2018。二七八[14] Siwei Ma , Xinfeng Zhang , Chuanmin Jia , ZhenghuiZhao,Shiqi Wang,and Shanshe Wang.图像和视频压缩与神经网络:评论。IEEE传输电路系统视频技术,2019年。1[15] Michael Mathieu,Camille Couprie,and Yann LeCun.超越均方误差的深度多尺度视频预测。在国际会议学习中。代表。,2016年。二、七[16] SimoneMeyer、AbdelazizDjelouah、BrianMcWilliams、Alexander Sorkine-Hornung、Markus Gross和Christo-pher Schroers。用于视频帧插值的相位网。在IEEE Conf. Comput.目视模式识别,第498-507页,2018年。1[17] 西蒙·尼克劳斯和凤琉。用于视频帧内插的上下文感知合成。在IEEE Conf. Comput.目视患者记录,第1701-1710页,2018年。1[18] MarcAurelio Ranzato 、 Arthur Szlam 、 Joan Bruna 、Michael Mathieu、Ronan Collobert和Sumit Chopra。视频(语言)建模:自然视频生成模型的基线arXiv预印本arXiv:1412.6604,2014。2[19] Mikel D Rodriguez,Javed Ahmed,and Mubarak Shah.动作识别采用时空最大平均相关高度滤波器。在IEEE会议Comput.目视模式识别,第1-8页6[20] Shi XingShi , Zhourong Chen , Hao Wang , Dit-YanYeung,Wai-Kin Wong,and Wang-chun Woo.卷积lstm网络:降水临近预报的机器学习方法。在高级神经信息。过程系统,第802-810页,2015年。一、二、八[21] 李松,唐训,张伟,杨小康,夏平剑。sjtu 4k视频序列数据集。多媒体体验,第34-35页。IEEE,2013。6[22] Nitish Srivastava,Elman Mansimov和Ruslan Salakhudi-nov.使用lstms的视频表示的无监督学习。在马赫国际会议上。学习. 第843-852页,2015年。一、二[23] Ruben Villegas 、 Arkanath Pathak 、 Harini Kannan 、Dumitru Erhan、Quoc V Le和Honglak Lee。使用大型随机递归神经网络进行高保真视频预测在高级神经信息。过程系统,2019年。二、七[24] Yunbo Wang,Zhifeng Gao,Mingsheng Long,JianminWang , and S Yu Philip. Predrnn++ : Towards aResolution of the deep in-time dilemma in spatiotemporalpredictive learning.在马赫国际会议上。学习. ,第5123-5132页,2018年。二七八[25] Yunbo Wang,Lu Jiang,Ming-Hsuan Yang,Li-Jia Li,Ming-sheng Long,and Li.飞飞Eidetic 3d lstm:一个视频预测模型。 在Int. Conf. 学习. 代表。,2019年。一、七、八[26] Yunbo Wang , Mingsheng Long , Jianmin Wang ,Zhifeng Gao,and S Yu Philip. Predrnn:使用时空lstms进行预测学习的递归神经网络。在高级神经信息。过程系统,第879-888页,2017年。一、二、四、七、八[27] Haixu Wu,Zhiyu Yao,Jianmin Wang,and MingshengLong.Motionrnn:一个灵活的模型,用于时空变化运动的视频预测。 在IEEE会议Comput. 目视患者记录第15435-15444页,2021。1、7[28] Jingwei Xu , Huazhe Xu , Bingbing Ni , XiaokangYang,and Trevor Darrell.通过示例指导进行视频预测。在马赫国际会议上。学习. 第10628-10637页。PMLR,2020年。2[29] Wei Yu , Yichao Lu , Steve Easterbrook , and SanjaFidler.高效和信息保留的未来帧预测和超越。在国际会议学习中。代表。,2020年。一、二、七、八13956[30] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。在IEEE Conf. Comput. 目视模式识别,第586-595页,2018。6[31] Jun-Yan Zhu , Taesung Park , Phillip Isola , Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在国际会议计算中目视,第2223-2232页,2017。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功