没有合适的资源?快使用搜索试试~ 我知道了~
SDC-Net:使用空间位移卷积的菲萨姆河放大图片作者:Reda,Guilin Liu,Kevin J.Shih,RobertKirby,Jon Barker,David Tarjan,Andrew Tao,and BryanCatanzaroNvidia Corporation,Santa Clara CA 95051,USA{freda,guilinl,kshih,rkirby,dtarjan,jbarker,atao,bcatanzaro}@ nvidia.comGT MCNet SDCNet图1.一、YouTube视频帧上的帧预测具有平移相机。从左到右:地面实况,MCNet [34]结果和我们的SDC-Net结果。SDC-Net预测帧更清晰且保留精细图像细节,而色彩失真及模糊在MSNet的预测帧中的真实及精确度中可见抽象。我们提出了一种高分辨率视频帧预测的方法,通过调节过去的帧和过去的光流。先前的方法依赖于由所学习的未来光流引导的对过去的帧进行重采样,或者依赖于像素的直接生成。基于流的重采样是不够的,因为它不能处理非遮挡。生成模型目前导致模糊的结果。最近的方法合成一个像素卷积输入补丁与预测内核。然而,它们的内存需求随着内核大小的增加而增加。在这里,我们提出了用于视频帧预测的空间位移卷积(SDC)模块。我们学习每个像素的运动矢量和内核,并通过在源图像中的位移位置处应用内核来合成像素,该位移位置由预测的运动矢量定义。我们的方法继承了基于向量和基于内核的方法的合并,同时改善了各自的缺点。我们在428K未标记的1080p视频游戏帧上训练模型。我们的方法产生了最先进的结果,在高清YouTube-8 M视频上实现了0.904的SSIM分数,在加州理工学院行人视频上实现了0.918。我们的模型有效地处理大的运动和合成一致的运动清晰的帧关键词:3D CNN,采样核,光流,帧预测2F.A. Reda等人1介绍视频预测是从过去帧的序列推断未来帧的任务。预测未来帧的能力可以在各个领域找到应用-为了使视频预测模型表现良好,它不仅必须准确地捕获对象如何移动,而且还必须准确地捕获它们的位移如何影响周围结构的可见性和外观。我们的工作重点是预测一个或多个立即下一帧是尖锐的,现实的,在高分辨率。视频预测任务的另一个属性是可以在原始未标记视频帧上训练模型。我们在视频游戏序列的大量高分辨率镜头上训练我们的模型,我们发现这提高了准确性,因为视频游戏序列包含大范围的运动。我们证明了所得到的模型不仅在视频游戏画面上表现良好,而且在现实生活中的画面上也表现良好。视频预测是一个活跃的研究领域,我们的工作建立在文献[19,37,33,13,20,35,4,2,3,26,18]的基础上。用于视频预测的先前方法例如,卷积神经网络用于预测像素RGB值,而回流机制用于对时间变化进行建模。Ranzato等人[28]提出将输入序列划分为图像块质心的字典和训练的递归神经网络(RNN),以通过索引字典来生成目标图像。Srivastava等人[31]和Villegas et al.[34]使用以先前帧数据为条件的卷积长短期存储器(LSTM)编码器-解码器架构。类似地,Lotter et al.[17]提出了一种预测编码RNN架构,以对图像中对象的运动动态进行建模,以进行帧预测。Mathieu等人[21]提出了一种多尺度条件生成对抗网络(GAN)架构,以减轻单尺度架构的短程依赖性。然而,这些方法遭受模糊并且不能很好地对大对象运动建模。这可能是由于直接回归到像素值的困难,以及它们的训练数据中的低分辨率另一种流行的帧合成方法是学习变换输入帧。Liang等人[14]提出了一种具有联合未来光流和未来帧流的生成对抗网络(GAN)方法。然而,地面实况光流对于大规模收集而言并非微不足道。利用估计的光流进行训练也可能导致错误的监督信号。Jiang等人[10]提出了一种模型,用于学习用于帧插值的采样的偏移矢量,并且使用由所学习的采样矢量引导的双线性插值来执行帧合成。这些方法在建模大运动中是期望的。然而,在我们的实验中,我们发现基于采样矢量的合成结果经常受到斑点噪声的影响。Niklaus等人提出的一种特殊方法[24,23]和Vondrick等人[36]的帧合成是学习预测适应的采样内核到每个输出像素。然后将像素合成为以像素位置为中心的源块Niklaus等人[24] 23.这是一个SDC-Net:使用空间位移卷积的3对于视频帧内插的相关任务,将预测的采样内核应用于连续帧以合成中间帧。在我们的实验中,我们发现基于内核的方法是有效的,保持对象的完整,因为它们被转换。然而,这种方法不能模拟大的运动,因为它的位移是有限的内核大小。增加内核大小的代价可能非常昂贵。受这些方法的启发,我们提出了一种用于视频帧预测的空间位移卷积(SDC)模块我们为每个像素学习运动矢量和内核,并通过在源图像中的位移位置应用内核来合成像素,该位移位置由预测的运动矢量定义我们的方法继承了基于采样向量和基于内核的方法的优点,同时改善各自的缺点。我们采取大运动的采样矢量为基础的方法的优势,同时减少斑点噪声模式。我们采取干净的对象边界预测基于内核的方法的优势,同时显着减少内核的大小,从而减少内存需求。我们工作的贡献是:– 我们提出了一种深度模型,用于从过去帧的序列进行高分辨率帧预测。– 我们提出了一个空间位移卷积(SDC)模块,通过变换学习进行有效的帧合成。– 我们比较我们的SDC模块与基于内核的,基于向量的和国家的最先进的方法。2方法给定帧序列I1:t(刚刚过去的t帧),我们的工作旨在预测下一个未来帧It+1。 我们制定了一个转换学习问题的问题。. ΣΣI t+1=TGI 1:t,I 1:t,(1)其中G是预测变换参数的学习函数,T是变换函数。在先前的工作中,T可以是由运动向量[10,15]引导的双线性采样操作:.ΣIt+1(x,y)=f It(x+u,y+v),(2)其中,f是双线性插值器[15],(u,v)是由G预测的运动矢量,并且It(x,y)是紧接过去的帧It中的(x,y)处的像素值。我们将这种方法称为基于向量的resource。图3A说明了这种方法。另一种方法是将T定义为卷积模块,其将运动或位移学习和重采样组合成单个操作[24,23,36]:It+1(x,y)=K(x,y)*Pt(x,y),(3)4F.A. Reda等人(u,v)(x,y)+1+1+1(x,y)(x,y)(x+u,y+v)(u,v)(x,y)+1(x,y)=((x+ u,y+v))+1(x,y)=K(x,y)*P(x,y)+1(x,y)=K(x,y)*P(x+u,y+v)(a) 基于向量(b)基于内核(c)基于SDC-based图二、基于采样的像素合成插图。(a)具有双线性内插的基于向量的(b)基于核的,具有中心补丁的卷积(c)我们的基于SDC的方法,与位移贴片的卷积。其中K(x,y)∈RN×N是G在(x,y)处预测的N×N二维核,Pt(x,y)是It中以(x,y)为中心的N×N片。我们将这种方法称为自适应基于内核的重采样[24,23]。图3b示出了这种方法。由于等式(2)在合成中考虑了很少的像素,因此其结果经常因斑点噪声图案而劣化。但是,它可以模拟大位移,而不会显著增加参数计数。另一方面,方程式(3)对于小位移产生视觉上令人满意的结果,但是需要在每个位置预测大的内核以捕获大的运动。因此,基于内核的方法很容易变得不仅推理成本高,而且难以训练。2.1空间位移卷积为了实现两全其美,我们提出了一种混合解决方案SDC使用运动矢量(u,v)和自适应内核K(x,y)两者的预测,但是将预测的内核与在It中的移位位置(x+u,y+v)处的补丁卷积。使用SDC的像素合成被计算为:I t+1(x,y)= K(x,y)* P t(x + u,y + v). (四)因此,预测像素It+1(x,y)是以It中的(x+u,y+v)为中心的N×N区域中的像素的加权采样。斑块Pt(x + u,y + v)在非整数坐标处双线性采样。图图3c示出了我们的基于SDC的方法。将K(x,y)设置为除了中心处的1之外的全零核将SDC简化为等式(2),而将u和v设置为零将其简化为等式(3)。然而,重要的是要注意,SDC与连续应用等式(2)和等式(3)不同如果连续应用,则由K(x,y)采样的N×N斑块将受到方程的再散射效应(2)而不是IT的原始补丁。我们的SDC有效地解耦了位移和内核学习,使我们能够实现基于内核的方法的视觉上令人愉快的结果,同时保持内核大小小。我们还对K(x,y)采用可分离核[24]以进一步降低计算成本。在每个位置处,我们预测一对1D内核,并且(x+u,y+v)(u,v)(x,y)SDC-Net:使用空间位移卷积的5计算它们的外积以形成2D核。这将我们的内核参数计数从N2减少到2N。总的来说,我们的模型为每个像素预测2N +2个参数,包括运动矢量。我们根据经验设定N= 11。1080p分辨率的推理使用174MB的VRAM,这很容易适应GPU内存。我们开发了深度神经网络来学习适应每个输出像素的运动矢量和内核SDC是完全可微的,因此允许我们的模型进行端到端的训练。用于训练的损失被应用于SDC预测的帧。我们还对过去的帧和过去的光流条件我们的模型。这使我们的网络能够轻松捕获学习变换参数所需的运动动态和像素演变。我们将模型公式化为:..ΣΣIt+1 =T G I1:t, F2:t, It,(5)其中变换T是用SDC实现的,并对最近的输入It进行运算,Fi是Ii和Ii−1之间的反向光流(见2.3节)。我们使用最先进的基于神经网络的光流模型计算F [7,9,32]。我们的方法通过递归地将SDC预测的帧再循环回作为输入而自然地扩展到多帧预测It+1:t+D例如,为了提前两步预测帧,我们将SDC预测的帧It+1作为输入再循环到我们的模型以预测It+2。2.2网络架构我们使用完全卷积网络实现G我们的模型采用过去帧I1:t和过去光流F2:t的序列,并输出逐像素可分离的内核{Ku,Kv}和运动矢量(u,v)。我们使用3D卷积来卷积宽度,高度和时间。我们将输入图像的RGB通道连接到两个光流通道,以创建每帧5个通道。我们的架构的拓扑结构从各种V-net类型[7,22,29]中获得灵感编码器的每一层都应用3D卷积,然后是Leaky Rectified Unit(LeakyRectified U)[8]和具有步幅(1,2,2)的卷积来下采样特征,以捕获长距离空间依赖性。在[7]之后,我们使用3x3x3卷积核,除了第一层和第二层,我们使用3x7x7和3x5x5来捕获大位移。每个解码器子部分应用去卷积[16],然后是LeakyRELU,并且在来自收缩部分的对应特征已经被级联之后进行卷积。解码部分还具有若干个头,一个头用于(u,v),并且每个头用于Ku和Kv。Ku和Kv的最后两个解码层使用具有三线性模式的上采样,而不是正常的去卷积,以最小化棋盘效应[25]。最后,我们在每个解码头中应用重复卷积以将时间维度减少到1。2.3光流我们使用FlowNet2 [9]计算输入到模型G的帧间光流,FlowNet2 [9]是一种最先进的光流模型。这让我们可以推断出运动轨迹6F.A. Reda等人00-1-100-1-10-1-1-10-1-1-1t-8It+1v(x,y)图三.我们的模型G将帧序列和成对流估计作为输入,并返回用于SDC模块的参数以将It变 换 为It+1。根据过去的流量信息进行调度 我们计算向后光流,因为我们用向后重采样来建模我们的变换学习问题,即针对I t +1中的每个位置预测I t中的采样位置。重要的是要注意,由我们的模型G在每个像素处预测的运动矢量(u,v)不等同于光流矢量Ft+1,因为对于未被遮挡的像素(由于遮挡而在先前帧中不可见的像素),纯向后光流是未定义的(或零值)。一个示意性的解释,不闭塞的问题是显示在图。4,其中2×2正方形以每步1个像素的速度向右水平移动在t = 1时的地面真实后向光流如图所示。4b.如图在图4c中,使用完美光流在t = 0处对正方形进行重新采样将复制正方形的左边界,因为光流在第二列处为零。为了通过在t= 1处重采样来实现完美的合成,如图1B所示4e,必须使用自适应图4d示出了这样的采样向量的示例,其中a-1用于填充被去除遮挡的区域。学习的方法在这里是必要的,因为它不仅允许去遮挡采样以适应各种程度的运动,而且允许学习的解决方案,对于该解决方案,来自先前帧的背景像素在填充的间隙中看起来最好。(b)(d)其他事项(一)t=0(c)(e)图4.第一章使用后向光流的解遮挡图解顶行中的值指示水平轴中的矢量幅度。(a)(b)在t= 0处的光流(c)使用(b)的重采样(a)的输出;(d)校正采样向量;以及(e)使用(d)对(a)进行重新采样。直接使用光流进行帧预测导致在被遮挡像素中不期望的前景拉伸。不t-2对wt-4t-6Ft->t-2FlowNet 2ItKv(x,y)KhGSDCu(x,y)伊塞弗洛SDC-Net:使用空间位移卷积的7我GL电话+1电话+1122.4损失函数¨g¨我们的主要损失函数是预测图像上的L1损失:L1=¨ It+1− It+1¨1,其中Ig是目标,Ii是预测帧。我们发现L1的损失是赌注-与L2相比,它更擅长捕捉微小的变化,通常会产生更清晰的图像。我们还在高级VGG-16特征表示中纳入了L1规范[30]。具体来说,我们使用了感知和风格损失[11],定义为:L感知= ΣLl=1¨κl¨Ψl(It+1)−Ψl(It+1¨)¨1,(6)和ΣL¨。Σ。Σ。Σ。Σ¨Lstyle=l=1It+1)It+1)-Ψl(Ig)Ψl(Ig)¨。(七)因此,Ψl(Ii)是来自Ii的一个预处理的存储器VGG-16的选择层的一个映射,L是所考虑的层的数量,并且kl是第l个选择层的归一化因子1/ClHlKl(通道、高度、宽度)。我们将感知和风格损失项与RGB上的L1结合使用,如下所示:L微调= wlL1+ wsLstyle+ wpLperceptual。(八)我们发现微调损失在消除棋盘伪影方面是鲁棒的,并且产生比单独的L1更尖锐的预测。最后,我们引入了一个损失来初始化自适应内核,我们发现这可以显着加快训练速度。我们使用L2范数将核Ku和Kv初始化为中间独热向量。也就是说,每个内核中的所有元素都被设置为非常接近零,除了中间的元素被初始化为接近1。当Ku和Kv元素被初始化为中热向量时,我们在等式(4)中描述的位移卷积的输出将与我们在等式(2)中描述的基于向量的方法核损失表示为:ΣWΣH . ¨N ¨2¨N¨2ΣL=¨K(x,y)−12>¨¨<2>¨、(9)内核乌x=1y =1¨+¨Kv(x,y)−1 ¨2 2其中,是中间独热向量,W和H是图像的宽度和高度考虑的其他损失函数包括预测的运动矢量(u,v)和目标光流之间的L1或L2距离。我们发现这种损失导致了较差的结果。如2.3节中所讨论的,优化光流将不能正确地处理去遮挡问题。此外,使用估计的光流作为训练目标引入了额外的噪声。8F.A. Reda等人2.5培训我们使用从许多短序列视频中提取的帧来训练我们的SDC模型。为了让我们的模型能够学习鲁棒的不变性,我们选择了高清视频游戏中的帧,这些帧具有逼真,多样化的内容和广泛的运动范围。我们从GTA-V和Battlefield-1游戏中收集了428 K 1080 p帧每个示例由从全高清序列随机裁剪的五个(t=5)连续256×256帧组成我们在8个V100 GPU上使用128个批处理大小我们使用Adam [12]使用β1= 0进行优化。9,且β2= 0。999没有重量衰减。首先,我们优化我们的模型,使用L1损失学习(u,v),学习率为1e−4,持续400个epochs。仅对(u,v)进行优化就可以让我们的网络更快地捕捉到大而粗糙的运动。接下来,我们固定除了解码头Ku和Kv之外的网络的所有权重,并使用等式(9)中定义的L内核损失来训练它们,以将每个输出像素处的内核初始化为中间独热向量。然后,我们使用L1损失和300个epoch的1e−5学习率来优化深度模型中的所有权重,以联合微调每个像素的(u,v)和(Ku,Kv由于我们在这一步中优化了内核和运动矢量,我们的网络学会了拾取小而微妙的运动,并纠正与遮挡相关的伪影。最后,我们使用Lfinetune以1e−5的学习率进一步微调模型中的所有权重。我们用于合并损失的权重分别为wl、wp和ws我们使用来自VGG-16层relu 12、relu 2 2和relu 3 3的激活用于感知和风格损失项。我们训练的最后一个微调步骤使预测更加清晰,并在我们的视频预测任务中产生视觉上吸引人的帧。我们初始化了FlowNet2模型具有预先训练的权重1,并在训练期间固定它们。3实验我们使用PyTorch实现了所有基于Vector、Kernel和SDC的模型[27]。为了有效地训练我们的模型,我们为我们的SDC模块编写了一个CUDA自定义层。我们将基于内核的模型的内核大小设置为51×51,如[24]中所建议的。我们基于SDC的模型的内核大小为11×11。在1080p下使用我们基于SDC的模型进行推理需要1.66秒,其中1.03秒花在FlowNet2上。3.1数据集和指标我们考虑了包含复杂现实世界场景的两类视频数据集:Caltech Pedestrian[6,5](CaltechPed)车载摄像头视频和从YouTube收集的26个高清视频-8 M [1]。我 们 使 用 指 标 L1 , 均 方 误 差 ( MSE/L2 ) [17] , 峰 值 信 噪 比(PSNR)和结构相似性图像度量(SSIM)[38]来评估预测质量。SSIM和PSNR的值越高表示质量越好。3.2低质量视频1https://github.com/lmb-freiburg/flownet2SDC-Net:使用空间位移卷积的9表1呈现了在CaltechPed测试分区上与BeyondMSE [21]、Pred-Net [17]、MCNet[34] 和 DualGAN [14] 的 下 一 帧 预 测 比较。我们还与CopyLast进行了比较,CopyLast是使用最近的过去帧作为预测的平凡对于PredNet和DualGAN,我们分别在[17]和[15]中直接报告结果。对于BeyondMSE2和MCNet3,我们使用发布的预训练模型进行评估。我们的基于SDC的模型优于所有其他模 型 , 实 现 了 L2 得 分 1 。 62× 10 −3 ,SSIM为0。918,相比之下,最先进的DualGAN模型的L2得分为2。41× 10 −3,SSIM为0。899.表1.在Caltech Pedestrian上的下一帧预测精度[6,5]。L2结果在1 e-3中。.方法L2 SSIMBeyondMSE[21]3.420.847PredNet[17]3.130.884MCNet[34]2.500.879DualGAN[14]2.410.899最新资讯5.840.811我们的基于矢量的2.470.902我们基于内核的2.190.896我们的基于SDC-based1.62 0.918在与我们一样大的数据集上训练的MCNet显示出L2为2的较差结果。50 ×10 −3,SSIM为0。879. CopyLast方法具有显著更差的L2 5。84× 10 −3,SSIM为0。811,使其成为用于下一帧预测的明显不太可行的方法。我们基于向量的方法比基于核的方法具有更高的准确性。由于CaltechPed视频包含稍大的运动,因此在大运动序列中有利的基于矢量的方法预期表现更好。在图5中,我们呈现了对CaltechPed的定性比较。SDC-Net预测帧清晰,锐利,并显示突出显示的汽车(红色框)的最小不自然变形。所有的预测都能够选择正确的然而,BeyondMSE和MCNet通常会在突出显示的汽车上创建更模糊的预测和不自然的变形。GTBeyondMSEMCNet SDCNet图五. Caltech的定性比较(set 006-v001/第506帧)。从左到右:Ground-truth、BeyondMSE、MCNet和SDC-Net预测帧。2https://github.com/coupriec/VideoPredictionICLR20163https://github.com/rubenvillegas/iclr2017mcnet10F.A. Reda等人表2.YouTube-8 M上的下一帧预测精度[1]。YouTube8ML1L2PSNRSSIMBeyondMSE[21]0.02710.0032833.330.858MCNet[34]0.02160.0025535.640.895最新资讯0.02600.0050636.630.854我们的矢量0.01770.0027037.240.905我们的内核0.01860.0030337.330.904我们的SDC0.01740.0024037.150.9113.3高清视频表 2呈 现 了 在 26 个 全 高 清YouTube 视 频 上 与 BeyondMSE、 MCNet 和CopyLast的 我们的SDC-Net模型优于所有其他模型,实现了L2为2。4×10 −3,SSIM为0。911,与L2为2的现有技术MCNet模型相比。55× 10−3,SSIM为0。895.在图6中,SDCNet被示出为提供清晰和锐利的帧,其中运动大多与地面实况帧良好对准由于我们的模型不产生幻觉像素,它们通过利用最后输入帧的图像内容产生视觉上良好的例如,我们的模型不是复制前景对象的边界,而是将其位移到前一帧中的适当位置,并通过将该像素的学习内核与以位移位置为中心的图像补丁进行卷积来合成像素由于我们的方法将FlowNet2 [9]预测的流作为其输入的一部分,因此由我们的深度模型预测的变换参数受到不准确光流的影响。例如,图1中的滑雪板的光流。6(右下)是具有挑战性的,因此滑雪运动以及滑雪者的运动没有被我们的模型预测。图7,我们定性地显示了MCNet的比较,我们的内核,矢量和用于大相机运动的基于SDC的方法MCNet在捕获大运动时显示出明显模糊的结果和无效性MCNet还显著地改变预测帧中的颜色分布。我们的基于核的方法很难预测大的运动,但保留了颜色分布。但是,基于内核的方法通常会不连续地移动组件,导致视觉效果较差。我们的基于矢量的方法更好地捕获大位移,例如该序列中存在的运动然而,其预测遭受像素噪声。我们基于SDC的方法结合了我们基于内核和基于矢量的方法的优点,结合了我们基于矢量的方法预测大运动的能力,以及我们基于内核的方法的视觉效果。3.4多步预测P REVEXPERIMETSDCN e t的P R F R F M E F R I N E X F R I N E R I N E FR I N E F R I N E R I N E D C N et的P R F R F R I N E F R I N E F F R I N EF R I N E N E R I N ED 在实践中,模型用于预测多个未来帧。在这里,我们以五个原始帧为条件,预测五个未来帧。SDC-Net:使用空间位移卷积的11见图6。帧预测方法的比较。从上到下显示的是地面实况图像、MCNet和SDC-Net结果。SDCNet被示出为提供清晰和锐利的帧,其中运动大多与地面实况帧良好对齐另一方面,MCNet结果看起来模糊,人周围有伪影MCNet结果还显示了滑雪板附近和雪背景上的棋盘文物。加州理工学院图8示出了当与先前的方法相比时,SDCNet预测的多个帧是一致有利的,如通过120,725个独特的Caltech Pedestrian帧上的L1、L2、SSIM和PSNR所量化的。图9呈现了示出保留颜色分布、对象形状及其精细细节的SDCNet预测帧的示例五步预测。3.5消融结果我们比较了我们的基于向量的方法和我们的基于SDC的方法。10.我们的基于向量的方法与不遮挡(橙色框)作斗争,如2.3所述。图10,基于矢量的模型避免了完全拉伸手套边界,但仍然留下一些残留的手套像素。基于矢量的方法也可能由于大的运动而产生斑点噪声模式(红色框)。在图10所示的SDC-Net结果中,不遮挡和斑点噪声显著减少MCNetSDCNetGT12F.A. Reda等人全分辨率裁剪见图7。大运动的帧预测比较。预期的变换是向上位移,并略微放大。虽然基于核、基于向量和基于SDC的模型都是用L1训练的,并且用样式损失进行微调另一方面,SDCNet能够在保持清晰度的同时与基于矢量的模型虽然基于内核的结果相对清晰,但它对于预测向上平移是保守的(注意,与矢量和SDC方法相比,图块到帧底部的相对距离)。此外,在基于内核的结果的最右侧图块中存在轻微的重影效果,这在SDC结果中不存在。SDCNet基于向量基于核MCNetGTSDC-Net:使用空间位移卷积的13图8. SDC-Net(蓝色)、MCNet(橙色)、BeyondMSE(灰色)和CopyLast(黄色)的定量五步预测结果SDCNet在120,725个独特的CaltechPed帧上显示出由L1、L2、PSNR和SSIM量化的一致更好的结果图9.第九条。MCNet(顶行)、SDCNet(中间行)和Ground Truth(底行)的定性五步预测结果MCNet和SDCNet都以相同的五帧集合为条件(图中未示出)。基于GT向量的SDC图10个。帧合成操作的比较地面实况帧(左)、基于向量的采样(中)和SDC(右)。一些前景重复(橙色框)和不一致的像素合成(红色框,可能需要放大)存在于基于向量的方法中,但在SDC结果中得到解决。在图11中,我们呈现了使用单独的L1损失对L1训练的基于SDC的模型的定性结果,随后是由等式(8)给出的L微调我们注意到单独使用L1损失会导致稍微模糊的结果,例如图11中的手套(红色框)和围栏(橙色框)。图11(中心列)示出了微调后的相同结果,其中保留了更精细的细节14F.A. Reda等人GTL1型图11个国家。损失函数的比较地面实况(左)、L1损失(中)和具有风格损失的微调结果(右)。使用样式丢失进行微调可以提高结果的清晰度,如在屏障和围栏(橙色裁剪)以及手套(红色裁剪)上呈现的文本中所见感知和风格损失减少了模糊。我们还观察到,损失有助于捕获否则难以捕获的大运动。图图11表示由于快速运动而具有挑战性的示例由于我们的模型依赖于光流,对光流具有挑战性的情况对于我们的模型也是困难的与地面实况(橙色框)相比,预测误差可以在围栏上相对较大的未对准的情况下看到我们的方法在场景转换过程中也失败了,过去的帧与未来的帧不相关目前,我们通过分析光流统计来自动检测场景转换,并跳过帧预测,直到有足够的(五个)有效帧来调节我们的模型4结论我们提出了一个3D CNN和一个新的空间位移卷积(SDC)模块,实现了最先进的视频帧预测。我们的SDC模块有效地处理大的运动,并允许我们的模型预测清晰的未来帧与运动密切匹配的地面实况序列。我们在从游戏画面中收集的428K高分辨率视频帧上训练了我们的模型。据我们所知,这是第一次尝试从系统中迁移学习或恢复视频流。我们的模型的准确性未来的工作将包括研究多尺度架构对快速运动的影响。鸣 谢 : 我 们 要 感 谢 Jonah Alben 、 Paulius Micike-vicius 、 NikolaiYakovenko、Ming-Yu Liu、Xiaodong Yang、Atila Orhon、Haque Ishfaq和NVIDIA应用研究部的工作人员提供的建议和讨论,以及Robert Pottorff捕获用于培训的游戏数据集。SDC-Net:使用空间位移卷积的15引用1. Abu-El-Haija,S.,Kothari,N.,李,J.,Natsev,P.,Toderici,G.,Varadarajan,B.,Vijayanarasimhan,S.:Youtube-8 m:大规模视频分类基准。arXiv预印本arXiv:1609.08675(2016)2. Babaeizadeh,M.,Finn,C.,Erhan,D.,Campbell,R.H.,Levine,S.:随机变化视频预测。arXiv预印本arXiv:1710.11252(2017)3. Byeon,W.,王建奎,Srivastava,R.K.,Koumoutsakos,P.:完全上下文感知的视频预测。arXiv预印本arXiv:1710.08518(2017)4. Denton,E.,Fergus,R.:具有学习先验的随机视频生成。arXiv预印本arXiv:1802.07687(2018)5. 做吧,P Wojek,C., S.chiele,B., Perona,P. :Pedestrianenchmark.在:CVPR(2009年6月)6. 做吧,P Wojek,C., S.chiele,B., Perona,P. :Pedestriandet e tection:最新技术水平的评估。PAMI 34(2012)7. Dosovitskiy,A.,Fischer,P.,Ilg,E.,Hausser,P.,Hazirbas角戈尔科夫van der Smagt,P.,Cremers,D.Brox,T.:Flownet:使用卷积网络学习光流在:IEEE计算机虚拟现实国际会议论文集中。pp. 27588. 他,K.,张,X.,Ren,S.,孙杰:深入研究整流器:在imagenet分类上超越人类水平的性能。In:Proceedings of the IEEE interna-tionalc onfenceo n conc omutervison. pp. 10269. Ilg,E.,Mayer,N. Saikia,T.,Keuper,M.,Dosovitskiy,A.,Brox,T.:流动网络2.0:利用深度网络的光流估计的演进。IEEE计算机视觉与模式识别会议(CVPR)卷2017年第210. 江,H.,孙,D.,Jampani,V.,Yang,M.H.,Learned-Miller,E. Kautz,J.:超级斯洛莫:用于视频插值的多个中间帧的高质量估计。arXiv预印本arXiv:1712.00080(2017)11. Johnson,J.,Alahi,A.,李菲菲:实时风格转换和更新的感知损失。 In:EuropeanConferenceonCom up uterVison。pp. 694-711 Springer(2016)12. 金玛,D.P.,Ba,J.:Adam:随机最佳化的方法arXiv预印本arXiv:1412.6980(2014)13. Leibfried,F. Kushman,N.,霍夫曼,K.:Atari游戏中联合视频帧和奖励预测的深度学习方法。arXiv预印本arXiv:1611.07078(2016)14. 梁湘,李湖戴,W. Xing,E.P.:用于未来流嵌入式视频预测的双运动gan。In:ICCV(2017)15. 刘志,是的R唐,X.,Liu,Y.,Agarwala,A.:使用深体素流的视频帧合成。国际计算机视觉会议(ICCV)。第二卷(2017)16. 朗J Shelhamer,E.,达雷尔,T.:用于语义分段的全卷积网络。在:IEEE计算机视觉和定位会议的会议记录中。pp. 343117. Lotter,W.,Kreiman,G. Cox,D.:用于视频预测和无监督学习的深度预测编码网络。载于:ICLR(2014)18. Lu,C., Hir sch,M., S choülkopf,B. :灵活的部件组合工作,以实现操作预测。在:IEEE计算机视觉和模式识别会议论文集中。pp. 652319. Luc,P.,Neverova,N.库普利角Verbeek,J.,LeCun,Y.:预测语义分割的未来ICCV 2017-计算机视觉国际会议。第10页(2017年)16F.A. Reda等人20. Mahjourian河,Wicke,M.,Angelova,A.:基于几何的单目视频下一帧预测。在:智能车辆研讨会(IV),2017 IEEE。pp. 1700- 1707年。IEEE(2017)21. Michael Mathieu,Camille Couprie,Y.L.:超越均方误差的深度多尺度视频预测学习表征国际会议(2016)22. Milletari,F.,Navab,N.,Ahmadi,S.A.:V-net:用于体积医学图像分割的 全 卷 积 神 经 网 络 。 In : 3D Vision ( 3DV ) , 2016 Fourth Inter nationalConferenceon. pp. 565-571 IEEE(2016)23. 尼克劳斯,S.,迈湖Liu,F.:基于自适应卷积的视频帧内插。IEEE计算机视觉与模式识别会议(2017)24. 尼克劳斯,S.,迈湖Liu,F.:基于自适应可分离卷积的视频帧内插。IEEE International Conference on Computer Vision(2017)25. Odena,A.,Dumoulin,V.,Olah,C.:反卷积和棋盘式伪影。Dis-till(2016).https://doi.org/10.23915/distill.00003,http://distill.pub/2016/deconv-checkerboard26. Oliu,M.,Selva,J.,Escalera,S.:用于未来视频预测的折叠递归神经网络。arXiv预印本arXiv:1712.00311(2017)27. Paszke,A.,格罗斯,S.,Chintala ,S.,Chanan,G.,Yang,E.,DeVito,Z.,林芝,Desmaison,A.,安蒂加湖Lerer,A.:pytorch中的自动区分(2017)28. Ranzato,M.,Szlam,A.,Bruna,J.,Mathieu,M.,科洛伯特河乔普拉,S.:视频(语言)建模:自然视频的生成模型的基线。arXiv预印本arXiv:1412.6604(2014)29. Ronneberger,O.,Fischer,P.,Brox,T.:U-net:用于生物医学图像分割的卷积网络在:国际医学图像计算和计算会议上。pp. 23402TheDog(2015)30. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的深度卷积网络。CoRR abs/1409.1556(2014)31. Srivastava,N.,Mansimov,E.,Salakhutdinov,R.:使用LSTM的视频表示的无监督学习In:ICML(2015)32. 孙,D.,杨,X.,Liu,M.Y. Kautz,J.:Pwc-net:使用金字塔、扭曲和成本体积的光流的Cnns。arXiv预印本arXiv:1709.02371(2017)33. Van Amersfoort,J.,Kannan,A.,Ranzato,M.,Szlam,A.,Tran,D.,Chintala,S.:视频序列的基于变换的模型。arXiv预印本arXiv:1701.08435(2017)34. 维勒加斯河杨杰,Hong,S.,林,X.,Lee,H.:分解用于自然视频序列预测的运动和In:ICLR(2017)35. 冯德里克角Pirsiavash,H.,Torralba,A.:生成具有场景动态的视频In:Ava ncesI nNe urali nProces sinSystems。pp. 61336. 冯德里克角Torralba,A.:用对抗性的变形金刚创造未来。2017年IEEE计算机视觉与模式识别会议(CVPR)299237. Vukotic,V.,Pintea,S.L.,RaymondC.Gravier,G.,vanGemert,J.C. 利用卷积编码器-解码器神经网络的时间相关未来视频帧预测图像分析与处理国际会议。pp. 140第二章(20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功