没有合适的资源?快使用搜索试试~ 我知道了~
1学习从模糊视频中提取完美的慢动作美光金高德邮箱:meiguang.autonavi.com浙江海康威视研究zhe.hu邮件hikvision.com伯尔尼大学paolo. inf.unibe.ch摘要在本文中,我们介绍了一个清晰的慢动作视频给定的低帧率模糊视频的任务我们提出了一种数据驱动的方法,其中训练数据是用高帧率相机捕获的,模糊图像通过平均过程来模拟。虽然可以训练神经网络以从其平均值恢复清晰帧,但是不能保证所形成的视频的时间平滑度,因为帧是独立估计的。为了解决时间平滑性要求,我们提出了具有两个网络的系统:一个是DeburNet , 用 于 预 测 清 晰 的 关 键 帧 , 第 二 个 是InterpNet,用于预测生成的关键帧之间的中间帧。通过使用InterpNet在连续关键帧此外,所提出的方案能够进一步提高帧速率,而无需重新训练网络,通过应用InterpNet递归之间的尖锐帧对。我们评估了几个数据集,包括一个新的数据集与索尼RX V相机捕获的方法。我们还展示了它的性能,提高帧速率高达20倍,对真正的模糊视频。1. 介绍对快速移动物体的理解是一项艰巨的任务,普通人的眼睛只能通过专门的硬件来处理幸运的是,由于技术的最新进步,可以以极慢动作捕捉事件的商业相机已经可用在相机光谱的一端是非常昂贵和高质量的设备,主要由电影制片人使用在频谱的另一端是更便宜的商业产品,目前提供高达240帧每秒(FPS)。后者的相机往往遭受低信噪比。然而,这个问题是一个普遍的挑战,因为帧速率的增加导致曝光的减少,并且因此导致传感器上的光冲击的量的减少,这导致差的信噪比。这些相机的另一个挑战是,巨大的传输带宽和存储空间。此外,随着帧速率的增加,帧共享大量内容,这使得整个捕获过程资源浪费。高帧率和高噪声敏感度硬件解决方案的更便宜且更资源有效的替代方案是使用具有长曝光的低帧率相机,并通过计算增加其帧率。这已经通过开发内插子帧的算法来解决,以便场景中的对象自然移动[17]。然而,使用长时间曝光图像移动对象可能会导致运动模糊。因此,简单地内插低帧速率相机的帧可能导致不切实际的高帧速率模糊视频。为了合成用高帧率相机及其小曝光时间捕获一种直接的解决方案是将现有技术的视频去模糊方法(例如,[24]),其产生对应于每个输入模糊帧的清晰帧,以及用于视频内插的那些帧(例如,[6]),其顺序地生成去模糊帧之间的中间帧。然而,这些方法的简单组合是次优的,因为去模糊过程消除了有用的时间信息。事实上,模糊帧包含关于中间清晰帧的信息(作为它们的平均值),并且一旦去模糊,恢复的帧将仅包含关于中间帧之一的信息。为了解决这些问题,我们提出了图中所示的系统。1.一、该方法通过引入两个神经网络:DeblurNet和InterpNet,将去模糊和插值 第一个网络将四个模糊帧作为输入,并输出五个清晰的关键帧,它们位于两个中 间 输 入 帧 之 间 ( 图 中 以 蓝 色 突 出 显 示 ) 。 1(a))。第二个网络将两个后续关键帧和两个模糊输入作为输入,并在两个关键帧之间生成清晰帧。Interp-Net带来三个好处:1)通过利用存储在输入模糊帧中的运动信息来生成真实的中间帧; 2)它确保输出帧之间的平滑时间过渡(参见图2中的“跨输入的帧”)。1(b))通过使用来自后续模糊帧四元组的关键帧; 3)它允许插入任意的81128113模糊帧关键帧关键帧关键帧S52S72S92S13S53S33DeblurNet时间t-1时间t关键帧跨输入的间隙帧(a)(b)第(1)款图1:(a)DefurNet输出视频的关键帧(b)InterpNet输出关键帧之间的中间帧输出帧速率,通过其递归应用于输出帧对。参照图1,InterpNet也可以应用于成对的后续输出帧(例如,在关键帧S5和插值帧S6之间),2. 相关工作运动去模糊运动去模糊是一个极具挑战性的问题,由于其不适定性。分类-生成新的中间帧。在实验中,我们展示了这些好处,特别是我们的方法能够实现帧速率提高20倍的能力。为了保证训练的成功,就像最近在视频去模糊方面所做的那样,我们建立了一个模糊/清晰图像的合成数据集。通过用高FPS相机捕获视频来获得清晰图像,并且通过平均这些图像并添加噪声来获得对应的模糊帧。我们没有使用现有的数据集,这些数据集是使用智能手机摄像头和Go-Pro拍摄的[7,16,19,24,25],而是使用索尼RX V摄像头收集了一个由250 FPS的1080 P视频组成的新数据集。由智能手机摄像头和Go-Pro捕获的图像往往具有低信噪比。相比之下,由于索尼相机传感器的大像素尺寸,我们的数据集提供了更好的图像质量。我们将向社区发布此数据集,以促进未来对视频去模糊和插值算法的研究。我们的主要贡献总结如下:1. 据我们所知,这是第一个从模糊视频生成清晰慢动作视频2. 我们提供了一种新的高质量视频数据集,它可以用于视频去模糊、视频帧内插以及本文提出和解决的联合问题3. 我们引入了新颖的技术组件,这些组件:1)确保输出序列的时间平滑性;2)利用嵌入在每个运动模糊帧中的运动; 3)能够生成具有任意帧速率的视频; 4)产生比先前工作更高质量的慢动作视频。cal方法用公式表示图像去模糊问题,一个空间不变的模糊模型,并通过引入表征自然图像统计的图像先验/正则化来优化它,以解决不适定性[1,3,8,20,22,27,28]。然而,由于场景中的深度变化以及相机和物镜的非平移运动,真实世界的模糊图像通常包含空间变化模糊[26一些作品通过同时恢复模糊核和场景深度[5,21]或通过场景分割[9]来解决非均匀去模糊问题。最近,卷积神经网络(CNN)已被应用于绕过计算昂贵的内核估计步骤,并取得了令人印象深刻的结果[4,7,16,18,19,25]。这些方法通常会降低低对比度区域的对比度,从而产生卡通效果。为了恢复模糊过程中丢失的高频细节,该方法[13]采用Wasserstein生成对抗网络(GAN)来渲染逼真的去模糊图像。上述工作的扩展是视频去模糊,其中需要将锐化应用于关于同一场景的一系列模糊帧。Cho等人的开创性工作。[2]探索了同一视频帧之间的相似性,并利用了相邻帧的清晰补丁在[11]中,提出了一种集成模型来联合预测散焦模糊、光流和潜在帧。近年来,随着深度学习技术的发展,视频去模糊技术取得了很大的进展. [24]部署了一个U形网结构,它采用五个连续的模糊帧,并重新打开去模糊的第三帧。通过利用递归架构,[10]实现了实时性能。帧插值。帧内插通常用于帧速率转换、图像变形和基于运动的视频压缩。传统的方法通过估计内部和外部之间的光流来解决这个问题。B1B5B2B3B4S5 S7 S9 S1 S3 S5 S7 S92 2 2 3 3 3 3 3S1 S34 4S62 2 2 3 3 3 3 3 4S8S 10S 2S 4S 6S 8S 10S 2模糊帧InterpNetInterpNetS62内插帧S102S43B2B3>>>>>>>><>>>>>>>>:>>>>>>>><>>>>>>>>:8114我我我我1+I2+I2+I3+i放置帧并通过一些给定的图像形成模型[15,31]内插感兴趣的帧这些基于光流的方法能够在输入帧之间的任何位置然而,插值图像的质量在很大程度上取决于光流估计的最近的方法采用数据驱动的方法来估计密集的对应关系,并在端到端CNN中渲染兴趣帧[14,30]。不像基于流的方法,[17]将插值帧的每个像素视为输入帧的两个相应补丁之间的局部卷积,并学习CNN来估计每个像素的空间变化和可分离卷积为了实现多帧内插,提出了一种基于流的CNN,并对遮挡进行了特殊处理[6]。虽然这些基于CNN的插值方法在清晰的输入帧上取得了令人印象深刻的结果,但是当应用于因模糊而退化的输入帧时,它们不能产生准确的结果。据我们所知,本文所描述的问题还没有得到解决。最接近的相关工作是[7],从单个运动模糊图像中提取七帧。因此,为了获得清晰的慢动作视频,可以将他们的方法独立地应用于每个模糊帧。然而,该方法面临两个问题:首先,必须确定每组七个帧内的时间排序,以及其次,必须确定每组七个帧之间的时间平滑度。不保证组内/组间帧。这是由于网络不完全知道过去的处理。即使我们将多个模糊图像作为输入到网络,这个问题仍然存在,因为这个输入会从一个处理到下一个处理而改变。一个可能的解决方案是使用一个循环神经网络,它可以存储过去的状态。然而,训练递归神经网络来生成视频极具挑战性。因此,我们建议通过在几个处理阶段展开和分布帧的提取来近似递归方法。在我们的架构中,来自当前和过去输入的中间输出被组合在一起以生成最终输出(参见图中的“跨输入的帧”)。(b)款。这一步是确保我们的方法中的时间平滑性的基础。3.1. 图像形成和符号我们在曝光时间内将模糊帧近似为离散平均过程,如[7,16,24]中所做的那样。令τ为两个模糊图像捕获之间的离散化清晰帧的数目。还令τ−τ是相机光圈打开进行一次捕获的清晰帧的数量,并且当光圈关闭时为τ 。 然 后 , 我 们 将 清 晰 框 架 表 示 为 St , 其 中 t=1,. . . ,τ表示捕获内的清晰帧,并且指示对应的捕获的模糊图像。最后,我们可以引入模糊的框架B=1τ−St.iτ−τt=1i3. 视频慢动作和去模糊在给定模糊视频的情况下以慢动作提取清晰视频的问题涉及两个方面:一个是图像去模糊,另一个是时间上采样。我们通过去模糊神经网络解决了第一个方面,该网络将多个模糊帧作为输入,并生成一些清晰的帧。我们通过内插神经网络处理第二个方面,该神经网络在两个尖锐输入帧之间生成中间帧(例如,由去模糊网络产生)。输入帧中的运动模糊的存在可能看起来只是一个麻烦,因为它使以慢动作生成高质量视频的任务复杂化。然而,运动模糊携带信息用这种符号,我们称间隙帧为帧St,t=τ−τ+ 1,. . .、τ。在我们的方法中,我们选择τ=10和τ= 1。因此,对于每个第i个模糊图像Bi,我们仅具有一个间隙帧S10。3.2. 问题陈述我们的任务是检索尖锐帧St,其中t=1、. . . ,10从模糊图像B1. 在[7]中,通过将单个模糊图像映射到相应的清晰帧来解决该任务然而,这种映射是模糊的,因为时间顺序是未知的。为了解决这种模糊性,我们使用多个模糊图像作为输入。一个选项是使用两个连续的模糊图像B1+1、B2+1。在这关于视频中的运动,尽管形式模糊,如果我们选择{S}t=5,...,10,{S}}t=1,.,4 作为─并且这在提取精确的和真实的慢动作中非常有用因此,当我们使用插值网络时,我们不仅馈送两个清晰帧作为输入,而且馈送模糊输入作为输入,清晰帧从模糊输入中提取。插值网络仍然受益于模糊帧的事实这因此,网络必须学会利用模糊图像B1+i、B2+i,并专注于两个输入之间的时间转换。另一种选择是使用更模糊的图像,因为它们提供了更多的信息。事实上,我们发现使用四个连续的模糊图像对于当前的网络架构来说是一个很好的计算/准确性权衡因此,我们将我们的任务描述为提取然而,解决方案不能确保时间平滑性。在帧{S}}t=5,...,10,{S}}t=1,.,4从模糊的图像事实上,当网络生成一个新的输出序列时,第一帧可能不显示从第一帧到第二帧的平滑时间过渡B1+ i,B2+ i,B3+ i,B4+ i和对任意i. 为了简单起见,我们对于输入IM使用以下更紧凑的表示法由先前处理产生的最后帧这年龄Bi=.(B1+ i,B2+ i,B3+ i,B4+ i).81153+i3+i12+IJ2+I,S,3+i. e.2+i2+i模糊视频裁剪视频[7] naive?ve constrained TN TNTT图2:消融研究。从左至右:模糊视频、模糊视频的裁剪区域、来自[ 7 ]的视频结果、朴素、约束、TN和TNTT方法。完整版本的视频可以在项目页面1上找到。模糊视频裁剪模糊视频5x慢动作10x慢动作20x慢动作图3:不同输出帧速率下的实际数据结果。5x次结果来自(仅DeburNet),10x来自(DeburNet + InterpNet),20x来自(DeburNet +InterpNet+InterpNet)。完整版本的视频可以在项目页面上找到。3.3. 方法我们训练ρ,使其输出11帧,在本节中,我们将讨论几种可能的公式和网络架构,最后介绍所提出的方法。在实验中,我们比较了traS-5从输入Bi. 通过这样做,S将从输入Bi和Bi+1中提取。然后,我们引入一个新的损失项,该损失项在S5=ei+S5来自Bi,S5=ei+1+S5来自通过消融研究的替代方法。为了避免错误累积,我们专注于端到端的方法。3+i11Bi+1,即,3+iΣ。我i+1。3+i1Σ 11. I.3+i.i+1。天真的方法。一个简单的方法是估计所有的输出帧。我们使用预测输出和地面真实值之间的101在这种方法中,我们考虑训练单个网络ρ。更准确地说,ρj,其中j=1,. . . ,10,表示L约束=哪里.ei=I. e11−e1. 1+j=1。是的。1+。埃吉ρj(Bi)−Sj+4,j=1,. . . 、6.( 二)jρ(B)−Sj−6,j=7,. . . 、11。网络单个视频的损失函数定义为j i3+iLnaive= ΣΣ10 .I.i j=1j1, (1)我们通过实验发现,这种方法在促进时间平滑方面不是很有效(见图1)。2)的情况。到其中,i指示视频帧的index,并且e_i是预测与地面实况之间的.ρ(B)−Sj+4为了确保在运行时的平滑性,网络ρ将需要知道未来的产量,但这是不可用的。建议的方法。在我们的方法中,我们通过两个神经网络分割清晰帧的提取:去模糊ei=ji2+ i, j =1,. . . 、6Net,我们用φj表 示,其中j=1,. . . ,5及以上-jρ(B)−Sj−6,j=7,. . . ,10。j i3+i通过对该损失函数进行训练,该模型能够实现比顺序应用最先进的去模糊和插值更好的性能。然而,这种方法有两个主要局限性。首先,输出帧速率在训练后不能改变其次,不能保证输出帧在时间上是平滑的,因为S≥4S-5独立于把五个清晰的关键帧,和互联网,我们去-并输出两个生成的关键帧之间的帧。关键思想是不同时提取所有输出帧,而是允许某些帧对其他帧有条件地进行扩展。这种延迟允许我们在后续输入生成的帧之间构建更平滑的过渡,即使在运行时也是如此。更准确地说,给定输入Bi,DefurNet输出五个帧Si,,S107、3+i3+iS-19,S1S-3(即,奇数索引的清晰帧)。两个输入Bi和Bi+1。在图2中,我们表明,2+I3+i3+i简单的方法会引入闪烁伪像。在Wards之后InterpNete提取了帧S206ˆ82+I ˆ102+I约束方法。 为了实现时间平滑,S-2(即,偶数索引的锐化帧)条件化一种直观的想法是从连续输入预测重叠帧并约束它们匹配。为此目的在DefurNet的输出上。 然后我们定义损失函数对于单个视频,Σ Σ10 .I.1https://github.com/MeiguangJin/slow-motionL建议=ij=1。ej。第一条、第三条,S8116埃莱2+I3+i埃莱2+I3+i3+i10101010(a)(b)第(1)款图4:(a)去模糊网络的架构和(b)残差密集块。模糊输入[13]+[6][16]+[6][24]+[6]模糊+[6][6]+[13][6]+[16][6]+[24]模糊+流动[13]+流量[16]+流量[24]+流量流量[13]+流量[16]+流量[24] GT+流量TNTT GT图5:间隙帧插值比较。其中误差被定义为最近的超分辨率工作中使用的误差[29]。那个-吉吉e2k−12k−1=φk(Bi)−S2k+3,k=1,2,3=φk(Bi)−S2k−7,k=4,5DeblurNet的架构(见图4a)采用了几个剩余的密集块(RDB)[29](见图。4b),利用ei200万美元2ki2k=(B2+i,φk(Bi),φk+1(Bi),B3+i)−S2k+4,k=1,2,3=<$(B2+i,φk(Bi),φk+1(Bi),B3+i)−S2k−6,K=4=φ(B2+i,φk(Bi),φ1(Bi+1),B3+i)−S2k−6,k=5。所有卷积层的完整分层特征。为了处理具有大运动的插值和去模糊任务朝向如前所述,去模糊网将模糊帧Bi作为输入然而,现在InterpNet也将模糊帧作为输入更准确地说,它使用模糊帧B2+ i和B3+ i,它们直接与所有输出相关。此外,最后为此,我们首先使用像素重排层,该像素重排层在空间坐标和通道坐标之间重新排列张量元素,如在[7]中所做的,并且稍后在其逆层上使用像素重排,也称为[23]中的子像素卷积。在-错误ei是一个鼓励时间平滑terpNet与DeburNet共享相同的结构,只是不同,在训练期间。整体模型如图所示。1.一、所提出的训练显着提高了天真和约束的方法,如表1和2中的定量和定性图。二、表明参数为RDB的数量和输出的数量De-blurNet包括20个RDB并预测五帧,而InterpNet包括10个RDB并估计一帧。除了使用5×5内核的第一个卷积层,训练误差ei必须避免闪烁concat层之后的卷积层使用1×1ker-工件,我们区分我们的方法的两个版本。我们称之为具有时间转换的双网络(TNTT),nels,所有其他卷积层都使用3×3内核,在我们的网络. 在这两个网络中,其中e为在损失函数中使用,简单地说,128,RDB的增长率分别设置为48和5网络(TN)的情况下,没有ei. 建议的archi-在每个RDB中使用卷积层。该架构还允许通过在先前输出序列的相邻帧对之间应用InterpNet来增加运行时的帧速率。这允许通过增加计算次数来使帧速率加倍。由于较低帧速率的帧比较高帧速率的帧更快可用,因此这种安排吸引了以灵活帧速率渲染视频的系统。我们通过5倍帧速率增加(仅De- blurNet)、10倍帧速率增加(De-blurNet + Interp-Net)和20倍帧速率增加(De-blurNet + InterpNet)来演示我们的方法+ InterpNet)在Fig. 3 .第三章。3.4. 模型结构和损失函数DefurNet和InterpNet都是前馈卷积神经网络,我们采用类似的结构,e81173.5. 训练数据根据经验,我们发现使用平均生成的数据进行训练可以很好地推广到真实数据。因此,我们从Sony RXV相机收集了一个新的数据集,其中包含40个250 FPS的高质量视频据我们所知,该数据集是目前最大的高质量,高分辨率和高帧率视频数据集。为了避免在训练过程中对捕获设备的域偏差,我们从作品中包含20个240 FPS的GoPro 720P视频[16],其中每个视频包含900帧。在训练过程中,我们在飞行中合成模糊输入,以便所有帧都可以用于训练。为了进行定性比较,我们使用了一个单独的测试集,包括5个GoPro240 FPS视频8118[24][25][26][27][28] [29][29][13]第16话第24话第26话第27话第28话第29话[24][25][26][27][28] [29][29][13]第16话第24话第26话第27话第28话第29话图6:真实数据的比较:模糊的视频是从我们的索尼相机捕获(全高清视频).完整版本的视频可以在项目页面上找到。从[16],4索尼RX V 250 FPS的视频,我们捕获和真正的模糊视频捕获的索尼相机下25 FPS在全高清模式。3.6. 实现细节该方法是用PyTorch实现我们使用批量大小为4,补丁大小为224×224像素进行训练。通过随机旋转和翻转以及添加1%高斯噪声来增强样本。我们使用Adam优化器[12],并从学习率开始,5·10−5在每20K次迭代之后,学习率除以2,我们总共运行100K次迭代。整个训练大约需要2天,使用两个TITAN X GPU。4. 实验在本节中,我们进行了一些实验,以定量和定性地评估我们的网络的去模糊/插值性能。为了进行定量比较 ,我 们 选 择了 9 个 视频 , 其 中5 个 是来 自 [16]的240FPS的GoPro视频,4个是来自我们自己的250FPS的索尼RX V相机。表1和表2中的#1至#5表示GoPro视频,#6至#9是索尼视频。每个视频包含400个清晰帧,我们平均9帧来合成模糊的输入。在两个模糊帧之间,我们丢弃一个清晰帧。因此,我们从每个视频中总共生成40个模糊帧。去模糊。由于我们的网络能够对输入模糊帧进行去模糊处理并在它们之间进行插值,因此我们将网络去模糊性能与其去模糊+插值性能分开评估。对于去模糊,我们与现有技术的单图像去模糊方法[13,16]和视频去模糊方法[24]进行比较,该方法使用五个模糊输入。由于我们使用四个输入帧,而[13,16]使用单个输入帧,因此我们将[13,16]作为改进的基线方法。PSNR评估,评估显示为每个视频表1。可以看出,我们的网络在两个数据集上的表现都比其他三种方法好得多。两个合成的和真实的对比如图所示。八是质量评价。慢动作和去模糊。我们的网络是能够si-multivariate去模糊和插值九帧给定四个模糊的输入。我们定量评估这九个重建帧的准确性。因为这是一个新的问题,没有现有的算法,我们可以兼容。为了更好地强调我们的贡献,作为替代方法,现有的de-8119表1:在PSNR方面的中间清晰帧上的去模糊性能。方法\视频#1 #2 #3 #4 #5 #6 #7 #8 #9表2:在PSNR方面的9个内插帧上的内插性能。方法\视频#1 #2 #3 #4 #5 #6 #7 #8 #9模糊31.8 31.9 26.8 25.5 22.9 36.527.1 32.8 39.2[第16话]33.0 32.4 27.7 26.2 26.0 35.6 28.0 29.9 35.6苏[24]33.2 32.5 28.0 27.0 26.0 35.9 29.4 32.1 34.4卡宾枪[13]31.6 31.4 26.5 25.3 23.4 33.5 23.8 32.2 34.8天真33.9 34.5 29.3 27.9 26.3 38.3 31.3 35.4 38.6TN33.9 34.5 29.4 27.9 26.3 38.3 31.3 35.5 38.7TNTT33.9 34.6 29.3 28.0 26.3 38.3 31.4 35.5 38.7模糊和插值方法。我们评估了两种方案的性能,插值后去模糊和插值后去模糊。我们考虑高性能的方法[13],[16]和[24]去模糊。对于插值,我们考虑两种方法:一种是应用来自[ 24 ]的基于流的方法,另一种是最先进的视频插值方法[6]。本质上,两种插值方法都涉及两帧之间的光流这使得能够与TNTT进行帧到帧的重构比较。通过将三种去模糊方法[13],[16]和[24]与两种方案下的两种插值技术(前/后去模糊)相结合,我们评估了12种不同的视频重建结果。所有结果示于表2中。我们观察到,TNTT可以比其他替代方法更好地执行请注意,在许多情况下,两步方法往往会在第一步中累积伪影并降低视频质量。这可能产生比简单地内插输入模糊帧更差的性能。为了忽略来自去模糊步骤的伪影,我们还示出了将流方法应用于地面真实锐利帧的插值性能。结果显示在表2的最后一个第二块中。我们可以看到,插值与地面真相帧优于所有其他替代的approaches。但是,TNTT仍然更好。这是因为我们的InterpNet可以利用模糊输入中的运动信息。这也从经验上表明,在两个单独的步骤(去模糊,然后插值)中解决问题是次优的,即使当地面真实(去模糊)是给定的。为了进行定性评估,我们在图中显示了间隙帧的插值结果。五、消融研究。为了了解我们的设计选择的有效性,我们对我们的网络和其他设计选择进行了定量和定性评估。在表1中,我们可以看到,在去中心帧模糊方面,naive和TN方法都达到了非常接近TNTT的性能。然而,TNTT优于其他两种方法considerably在表2中的插值评估。由于光流是运动的指标,我们还用光流测量输出视频的时间平滑度我们将流量估计算法应用于三个连续的210-1-2-31 2 3 4 5 6 7 8像素图7:时间平滑度比较。我们计算从TNTT,朴素,TN方法和地面实况预测帧之间的光流。在纵坐标轴上,我们以对数标度绘制了大于阈值的光流梯度匹配误差的数量。地面实况帧以获得流梯度并将其用作参考。同样,我们对TNTT、naive和TN方法预测的帧进行相同的计算。然后,我们将流梯度与参考流梯度进行匹配。我们对大于阈值(在范围1,. . . 8像素),并以对数标度绘制百分比。结果示于图7 .第一次会议。我们观察到TN方法比朴素方法更好地保持了平滑性,并且TNTT方法实现了最佳性能。我们还展示了这三种方法的定性比较图。二、真正的比较。为了了解我们的网络的泛化能力,我们在用索尼相机拍摄的真实模糊视频上评估了我们的方法请注意,真正的模糊视频是全高清低帧率视频,它们的编码与我们的训练数据集不同。我们将三种去模糊算法[13]、[16]和[24]与两种插值算法相结合,并在图中显示了所有这些结果。六、可以观察到,我们的模型比其他方法生成更逼真的更多的比较可以在补充材料中找到。天真TNTNTT流量梯度误差log(%)[6]第六话29.7 29.9 25.1 24.0 22.1 35.2 26.7 32.3 36.3模糊+流动29.5 29.3 24.9 23.8 22.0 34.6 26.6 32.1 35.4[16]第六届全国政协副主席29.9 30.1 25.1 23.9 24.2 34.6 27.9 30.0 34.4[24]第六届全国政协副主席30.7 30.5 26.0 25.1 24.0 35.0 29.2 32.0 33.4[6]第十三届中国国际航空航天博览会30.1 30.1 25.3 24.2 22.8 33.0 24.0 32.1 34.0[16]第十六届全国政协委员30.6 30.6 25.8 24.5 24.1 34.5 27.7 29.8 34.3[24]第24话:我的世界30.2 30.1 25.6 24.4 23.4 34.8 28.4 32.4 33.7[13]第十三届中国国际航空航天博览会29.7 29.8 25.2 24.1 22.5 32.6 23.8 31.7 33.5NaH [16]+流量30.6 30.3 25.7 24.5 24.1 34.4 27.9 30.1 34.2Su [24]+ flow30.6 30.2 25.9 24.9 24.0 34.6 29.1 32.0 33.2Kupyn [13]+流量29.1 28.1 24.8 23.8 22.4 31.8 23.9 31.4 31.7流动+ Nah [16]29.9 29.9 25.2 24.0 23.5 34.0 27.6 29.7 33.6[24]第二十四话29.6 29.4 25.1 24.2 23.1 34.2 28.2 32.2 33.3[13]第十三话29.3 29.1 24.7 23.7 22.4 32.4 23.7 31.1 33.08120输入库平Nah苏TNTTGTPSNR:34.80PSNR:33.67PSNR:35.18PSNR:34.74PSNR:36.06输入库平Nah苏TNTTGTPSNR:37.51PSNR:34.03PSNR:36.77PSNR:36.58PSNR:38.84输入库平Nah苏TNTT输入库平Nah苏TNTT图8:定性比较:从左列到右列:模糊输入,[13],[16],[24]的去模糊结果第一行和第二行来自GoPro测试集[16],第三和第四行来自我们的索尼测试集。第五到第八行显示了用我们的索尼相机拍摄的两个真实比较(全高清视频)。不同帧率下的慢动作。 如前所述,DefurNet提取5倍慢动作视频。为了证明我们的Interp-Net的有效性,我们递归地应用它并生成10倍和20倍的慢动作视频。我们在一个真实的模糊视频上进行测试,结果如图所示3 .第三章。可以观察到我们的Interp-Net可以生成逼真的20倍慢动作视频。局限性。我们的方法的主要限制是,我们的模型是不强大的非常大的模糊。这是去模糊网络的常见挑战[7]。在这种情况下,预测的视频将显示闪烁伪影。然而,在这种情况下,我们的模型能够获得比其他最先进的去模糊方法更好的去模糊精度。5. 结论在本文中,我们提出了第一种方法,以产生一个清晰的慢动作视频从低帧速率模糊的视频。我们已经表明,这项任务的主要挑战是保持时间平滑。我们提出了一种基于两个网络的方法,它不仅可以解决时间平滑问题,而且可以无限地提高帧速率。我们已经证明,我们的模型可以成功地提取合成和真实模糊视频的慢动作视频。鸣谢。MJ和PF感谢瑞士国家科学基金会对项目200021 153324的支持。8121引用[1] 赵成贤和李承京。快速运动去模糊。ACM Transactions on Graphics,2009。2[2] 赵成贤,王觉,李承京。使用基于补丁的合成的手持相机的视频去模糊。ACM Transactions on Graphics,2012。2[3] 放大图片作者:Robert Fergus,Barun Singh,AaronHertzmann,Sam T. Roweis和William T.弗里曼。从单张照片中消除相机抖动。ACM Transactions on Graphics,2006。2[4] MichalHradi S.P.,JanKotera,PavelZem c'ık,andFilipS. 用于直接文本去模糊的卷积神经网络。 英国机器视觉会议(BMVC),2015年。2[5] 胡哲,李旭,杨明轩。联合深度估计和相机抖动消除单一模 糊图 像。在 IEEE计算 机视 觉和模 式识 别会议(CVPR),2014。2[6] Huaiizu Jiang , Deqing Sun , Varun Jampani , Ming-Hsuan Yang,Erik Learned-Miller,and Jan Kautz.超级斯洛莫:用于视频内插的多个中间帧的高质量估计。在IEEE计算机视觉和模式识别会议(CVPR),2018。一、三、五、六、七[7] Meiguang Jin,Givi Meishvili,and Paolo Favaro.学习从单个运动模糊图像中提取视频序列在IEEE计算机视觉和模式识别会议(CVPR),2018。二三四五八[8] Meiguang Jin,Stefan Roth和Paolo Favaro。归一化盲解卷积。在2018年欧洲计算机视觉会议(ECCV)上。2[9] Tae Hyun Kim,Byeongjoo Ahn和Kyoung Mu Lee。动态场景去模糊。在IEEE国际计算机视觉会议(ICCV),2013年。2[10] TaeHyunKim ,KyoungMuLee ,BernhardSch oülk opf,andMichael Hirsch.基于动态时间混合网络的在线视频去模糊。在IEEE国际计算机视觉会议(ICCV),2017年。2[11] Tae Hyun Kim,Seungjun Nah,and Kyoung Mu Lee.使用局部自适应线性模糊模型的动态场景去模糊。IEEETransactionsonPatternAnalysisandMachineIntelligence,2016。2[12] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。CoRR,2014年。6[13] OrestKupyn、VolodymyrBudzan、MykolaMykhailych 、 DmytroMishkin 和 Jiˇr´ıMatas 。Deblurgan:使用条件对抗网络进行盲运动去模糊。在IEEE计算机视觉和模式识别会议,2018年。二五六七八[14] Ziwei Liu,Raymond Yeh,Xiaoou Tang,Yiming Liu,and Aseem Agarwala.使用深体素流的视频帧合成。IEEE国际计算机视觉会议(ICCV),2017。3[15] Dhruv Mahajan、Fu-Chung Huang、Wojciech Matusik、Ravi Ramamoorthi和Peter Belhumeur。移动渐变:一种基于路径的似然图像插值方法。ACMTransactions onGraphics,2009年。3[16] Seungjun Nah,Tae Hyun Kim,and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。在IEEE计算机视觉和模式识别会议,2017年。二、三、五、六、七、八[17] 西蒙·尼克劳斯、龙迈、风流。基于自适应可分离卷积的视频帧内插。IEEE国际计算机视觉会议(ICCV),2017。第1、3条[18] T M Nimisha,Akash K Singh,and AmbasamuirN Ra-jagopalan. 用于盲去模糊的模糊不变深度学习IEEE国际计算机视觉会议(ICCV),2017。2[19] Mehdi Noroozi,Paramanand Chandramouli,and PaoloFavaro. 运 动 去 模 糊 在 野 外 。 德 国 模 式 识 别 会 议(GCPR),2017年。2[20] 潘金山,孙德清,汉斯佩特·菲斯特,杨明轩.使用暗通道先验的盲图像去模糊。在IEEE计算机视觉和模式识别会议,2016年。2[21] ChandramouliParamanand和AmbasamuillNRa-jagopalan。双层场景的非匀速运动去模糊。IEEE计算机视觉与模式识别会议(CVPR),2013年。2[22] 齐杉、贾娅·贾和阿西姆·阿加瓦拉。高品质的运动,从一 个 单 一 的 图 像 去 模 糊 。 ACM Transactions onGraphics,2008。2[23] 放大图片作者:Wenzhe Shi,Jose Caballero,FerencHuszar , Johannes Totz , Andrew P.Aitken , RobBishop,Daniel Rueckert,and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在IEEE计算机视觉和模式识别会议(CVPR),2016。5[24] Shuochen Su , Mauricio Delbracio , Jue Wang ,Guillermo Sapiro,Wolfgang Heidrich,and Oliver Wang.用于手持相机的深度视频去模糊。在IEEE计算机视觉和模式识别会议(CVPR),2017年。一二三五六七八[25] 陶新,高红云,沈晓勇,王珏,贾继亚.用于深度图像去模糊的尺度递归网络。在IEEE计算机视觉和模式识别会议(CVPR),2018。2[26] Oliver Whyte,Josef Sivic,Andrew Zisserman,and JeanPonce.抖动图像的非均匀去模糊。国际计算机视觉杂志(IJCV),2012年。2[27] 李旭和贾佳雅。用于鲁棒运动去模糊的两阶段核估计。2010年欧洲计算机视觉会议(ECCV)。2[28] Li Xu,Shicheng Zheng,and Jiaya Jia.自然图像去模糊的非自然L0稀疏表示在IEEE计算机视觉与模式识别会议(CVPR),2013年。2[29] Yulun Zhang,Yapeng Tian,Yu Kong,Bineng Zhong,and Yun Fu.用于图像超分辨率的残差稠密网络在IEEE计算机视觉和模式识别会议(CVPR),2018。5[30] Tinghui Zhou,Shubham Tulsiani,Weilun Sun,JitendraMalik,and Alexei A Efros.按外观流查看合成81222016年欧洲计算机视觉会议(ECCV)。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功