没有合适的资源?快使用搜索试试~ 我知道了~
6830让模糊的瞬间鲜活起来KuldeepPurohit 1AnshulShah N. Rajagopalan11印度理工学院印度马德拉斯2马里兰大学帕克分校网址:kuldeeppurohit3@gmail.com,anshulb@cs.umd.edu,网址:www.example.com,raju@ee.iitm.ac.in摘要我们提出了一种解决方案,从单个运动模糊图像中提取视频,以顺序重建由摄像机看到的场景的清晰视图,在暴露的时间。我们首先学习运动表示从尖锐的视频在无监督的方式,通过训练的卷积经常性的视频autoencoder网络,执行视频重建的代理任务。一旦被训练,它被用于模糊图像的运动编码器的引导训练。该网络从模糊图像中提取嵌入的运动信息,结合训练好的递归视频解码器生成清晰的视频作为中间步骤,我们还设计了一个高效的架构,可以实现实时单图像去模糊,并在所有因素上优于计算方法:准确性、速度和紧凑性。在真实场景和标准数据集上的实验表明,我们的框架优于最先进的框架,并且能够生成时间上一致的清晰帧的合理序列。1. 介绍当显示运动模糊的图像时,人类可以自动重建(有时可能是模糊的)场景的时间上连贯的描述,其表示在曝光时间期间发生的事情。然而,在计算机视觉中,由于视频数据固有的复杂性和模糊性,自然视频建模和提取仍然是一个具有挑战性的问题。随着深度神经网络在解决复杂视觉任务方面的成功,端到端深度网络已经成为令人难以置信的强大工具。最近关于未来帧预测的工作表明,直接的强度估计导致模糊的预测。相反,如果基于原始图像和相应的变换来重建帧,则可以很好地保留场景动态和不变外观。基于这个前提,[6,45]和[21]将任务建模为流*在印度马德拉斯印度理工学院完成的工作图像像素。这些方法[38,43]从单个清晰图像生成视频,但有严重的局限性,因为它们仅适用于它们所训练的特定场景所有这些方法都只适用于清晰的图像和视频。然而,已知曝光期间的运动由于其引起的模糊而导致所捕获图像质量的严重降级。这通常是在每帧的曝光时间高的低光情况下以及在曝光时间内发生显著运动的场景中在[35]中,已经表明,用于视觉任务并且仅在高质量图像上训练的标准网络模型在应用于因模糊而退化的图像时,性能会显著下降。运动去模糊是计算机视觉中的一个具有挑战性的问题,由于其不适定的性质。近年来,在去模糊方面取得了重大进展[36,27,25]。严重-已经提出了各种方法[41,26,5,31,3,14,16,17,41]来使用手工设计的先验以及卷积神经网络(CNN)[2,29,30]来解决这个问题,以恢复潜像。已经提出了一些方法[33,7]来去除异质模糊,但它们在处理一般动态场景的能力这些方法中的大多数强烈依赖于假设的图像退化模型的准确性,并且包括密集的、有时是启发式的参数调整和昂贵的计算,这些因素严重限制了它们在真实世界场景中的准确性[23,24,18,34]的最新工作通过学习直接生成潜在清晰图像而不需要模糊核估计在一定程度上克服了这些限制。我们希望在此强调,直到最近,所有现有的方法都限于仅生成“a”去模糊图像的任务在本文中,我们解决的任务,恢复和重温所有的尖锐意见的场景所看到的相机在其飞行的曝光时间内。从运动模糊的图像中恢复清晰的内容和运动对于揭示场景的潜在动态(例如,在体育、交通监视监视、娱乐等中)。由于模糊图像只能揭示集合信息,因此6831在曝光过程中的场景该任务需要恢复时间上和场景上一致的清晰帧,因为它们模仿来自高帧率相机的记录最先进的去模糊方法,如[36][27],最多估计构成相机运动的一组姿势,但完全忽略它们的顺序。例如,即使时间顺序颠倒(时间模糊),也会得到相同的作为后处理步骤,从这组姿势合成虽然可以通过附接到现代相机的陀螺仪传感器来部分地检测相机运动,但是所获得的数据太稀疏而不能完全描述单个镜头曝光的时间间隔内的轨迹更重要的是,传感器信息很少用于大多数互联网图像。此外,这些方法只能处理由对静态平面场景成像的相机引起的模糊,静态平面场景不代表典型的真实世界场景,因此不是很有趣。我们提出了一种两阶段深度卷积架构,以从运动模糊图像中分割出视频,该运动模糊图像适用于由相机运动、对象运动和场景中任意深度变化的单独或组合效应引起的非均匀运动。我们避免过度简化模型来表示运动,因此避免创建用于监督训练的合成数据集。第一阶段包括训练视频自动编码器,其中编码器接受视频帧序列以提取潜在运动表示,而解码器通过将估计的运动轨迹应用于一个单一的清晰的框架在一个循环的方式。我们使用这个经过训练的视频解码器来指导CNN(我们称之为模糊图像编码器(BIE))的训练,以从模糊图像中提取与视频编码器从对应于该模糊图像的图像序列中提取相同的运动信息为了测试,我们提出了一个有效的去模糊网络,首先从给定的模糊图像估计一个清晰的帧。BIE负责从模糊图像中提取运动特征。视频解码器使用BIE的输出和去模糊的清晰帧来生成运动模糊图像下面的视频。作为这类唯一的其他工作,[13]最近提出了一种方法,通过训练多个神经网络来估计底层帧,从单个模糊图像中估计视频相比之下,我们的架构利用单个递归神经网络来生成整个序列。我们的递归设计在很大程度上隐含地解决了时间模糊性,因为序列中任何帧的生成自然地以所有先前帧为前提。[13]的方法由于其架构和训练过程而仅限于小运动。我们估计像素级的运动,而不是强度,这被证明是一个优势,为手头的任务,特别是在具有大模糊的情况下(这是[13]的问题)。我们的去模糊架构不仅优于所有现有的去模糊方法,但也更小,速度明显更快。事实上,分离内容和运动估计的过程允许我们的架构与任何现成的去模糊方法一起使用。我们的工作在许多方面都在推进最先进的技术主要贡献是:• 提出了一种从运动模糊图像中提取清晰视频的新方法。与最先进的[13]相比,我们的网络更快,更准确,速率(特别是对于大模糊)并且包含更少的参数。• 一个两阶段的训练策略与经常性的architec- ture学习,以提取有序时空运动表示从模糊图像在一个非线性,监督的方式。与[13]不同的是,我们的网络与序列中的帧数无关。• 一种高效的架构,可执行实时单个图像去模糊,在所有因素中,该架构在去毛刺[34]方面的性能均优于最先进的技术:准确性、速度(快20倍)和紧凑性。• 使用基准数据集进行定性和定量分析,以证明我们的框架在去模糊以及从单个模糊图像生成视频。2. 所提出的架构卷积神经网络(CNN)已被广泛应用于图像上的各种视觉任务,但将这些功能转换为视频并非易事,因为它们在利用视频中存在的时间冗余方面效率低下。递归神经网络的最新发展为序列建模提供了强大的工具,如语音识别[8]和图像字幕生成[37]中所示。长短期记忆网络(LSTM)可以用来生成沿时间维度高度相关的输出,因此形成了我们的视频生成框架的一个组成部分。虽然Conv3D已经用于视频分类方法,但我们发现对于我们的应用程序,递归网络更有效。考虑到我们正在处理图像,图像上的空间信息同样重要。因此,我们使用卷积LSTM单元[40]作为我们的构建块,它能够捕获空间和时间依赖性。生成图像序列的任务要求网络在一定时间内理解并有效编码静态和动态信息。虽然这种编码没有明确定义,68322转换层循环视频解码器单元循环视频编码器单元运动嵌入经常性的视频解码器BIE:模 糊 图像 编 码器经常性的视频编码器图1.培训期间视频生成架构概述。第一步涉及训练RVE-RVD以执行视频重建任务。然后,通过受过培训的RVD对BIE进行指导培训。在标记的数据集中不可用,我们通过运动表示的无监督学习克服了这一挑战我们建议使用视频重建作为训练我们的BIE的替代任务。我们的假设是,一个成功的解决方案的视频重建任务将允许视频自动编码器学习一个强大的和有意义的运动表示,这将使它能够赋予时空相干的生成的移动场景内容。在我们提出的视频自动编码器中,编码器利用所有的视频帧来提取潜在的表示,然后将其馈送到解码器,解码器以递归的方式估计帧循环视频编码器(RVE)读取N个清晰帧x1. N,每个时间步一个。它在最后一个时间步返回一个张量,该张量被用作图像序列的运动表示该张量用于初始化另一个基于ConvLSTM的网络的第一个隐藏状态,该网络称为递归视频解码器(RVD),其任务是递归地估计N个光流。由于RVE-RVD对是使用估计帧之间的重建损失来训练的,N和地面实况帧x1.. N,RVD必须返回预测的视频。为了实现这一点,视频的(已知的)中心帧由RVD预测的流作用具体地,估计的流被单独地馈送到可微分变换层以变换中心帧x∈N,从而获得帧x∈1。N. 一旦经过训练,我们就有了一个RVD,它可以在给定特定运动表示的情况下估计序列运动流。此外,我们介绍了另一种称为模糊图像编码器(BIE)的网络,其任务是接受与输入帧的时空平均值x 1. N并返回一个运动编码,它也可以用来生成清晰的视频。为完成这项工作,我们聘请了已接受训练的差饷物业估价署人员,以便从模糊图像中提取与RVE从该图像序列中提取相同的运动信息。换句话说,权重将被学习,使得BIE(xB)=RV E(x1. N)。 我们避免使用RVE返回的编码进行训练,因为缺乏编码表示的地面实况。相反,BIE被训练为使得对于给定的x B,RVD的输出处的预测视频尽可能接近地匹配地面实况帧x1。N.这确保BIE学习捕获RVD的有序运动信息以返回真实视频。直接训练BIE-RVD对是一个挑战,因为它需要学习联合执行两个任务:“根据运动表示的视频生成”和“根据模糊图像的模糊不变运动提取”。这种培训提供了低于标准的性能(见补充材料)。所提出的方法的总体架构在图中给出。1.它是完全卷积的,端到端可区分的,并且可以使用未标记的高帧率视频进行训练,而不需要光流监督,这对于大规模生产具有挑战性。在测试期间,中央清晰帧不可用,并且使用独立训练的去模糊模块(DM)进行估计。我们现在描述不同模块的设计方面。2.1. 递归视频编码器(RVE)在每个时间步,一帧被馈送到卷积编码器,卷积编码器生成要作为输入馈送的特征图到ConvLSTM细胞。将ConvLSTM的隐藏状态解释由于我们需要以精细分辨率提取在单次曝光内发生的运动,因此我们选择内核大小为3×3。 如可见于图2(a),该人─6833n22nnn−1A13x3x16步幅1A23x3x32步幅2A33x3x64步幅2A4 3x3x128 步幅2(a) RVE架构。(b)国际独立企业架构。图2. BIE和RVE的架构。RVE被训练为从帧序列中提取运动表示,而BIE被训练为从模糊图像和清晰图像中提取运动表示编码器块由4个具有3×3滤波器的卷积块组成。第一个块是步幅为1的conv层,其余块包含步幅为2的conv层,后面是Resblock。这些块的输出中的特征图的数量分别为16、32、64和128ConvL- STM单元对最后一个块返回的要素进行操作并且用来自先前时间步的记忆来增强它。总的来说,每个模块可以表示为图3.我们的循环视频解码器(RVD)。该模块重新生成光流,这些光流被扭曲以变换清晰帧。流量估计在4个不同的规模。在该比例下获得混合特征图。如图3,该过程重复3次以上以获得随后更高尺度(fn,2. 4).Transformer(T):这通过使用FD返回的输出对锐化帧进行变换来生成新帧.它是空间Transformer层[11]的修改版本n−1n时间步长n和xn是视频的第n个2.2. 递归视频解码器(RVD)RVD的任务是使用RVE提供的运动表示和序列的(已知)中心帧(x�N�)来构造帧序列。RVD包含一个流编码器,该编码器利用类似于其包括跟随有采样器的网格生成器与[11]中最初提出的对整个图像进行单个变换不同,T接受每个像素一次变换。由于我们专注于学习运动预测的特征,因此它可以对光流生成层预测的流图提供即时反馈实际上,RVD功能可以总结如下:到RVE。而不是接受图像,它接受opti-hdec=henc(一)1N卡尔流。流编码被馈送到ConvLSTM单元,其第一个隐藏状态用RVE的最后一个隐藏状态he,N初始化。为了估计时间步长的光流,ConvLSTM单元的输出被传递到流解码器网络(FD)。在每个时间步由FD估计的流被馈送到Transformer模块(T),其返回估计的帧xn。FD和T的描述如下所示流解码器(FD):意识到当前步骤的流与前一步骤相关,我们对连续帧的光流进行递归。 FD的设计 如图3所示FD接受ConvL的输出STM单元在任何时间步,并生成一个流程图。对于鲁棒估计,我们进一步使用反卷积(deconv)层在多个尺度下执行流量估计,所述反卷积(deconv)层受[28]的启发,我们利用流编码器和FD层之间的跳过连接。所有的deconv操作都使用4×4滤波器,卷积运算迭代使用3×3过滤器。ConvLSTM单元的输出通过卷积层来估计流量fn,1. 单元输出还在与上采样的fn,1和来自编码器的对应特征图级联之前通过解卷积层,以得到ob。hdec,fn,1.. 4=G(hdec,fn−1,4)(2)xn,1.. 4=T(x�N�,fn,1.. (4)(3)对于n ∈ [1,N],其中hdec是解码器隐藏状态,fn,1.4是在n和x=n,1. 4是在不同尺度下预测的尖锐框架,G是RVD的递归细胞。2.3. 模糊图像编码器(BIE)我们利用训练好的编码器-解码器对来解决从模糊图像中提取视频的任务我们提倡一种利用时空嵌入来指导CNN训练的新策略。经过训练的解码器已经学会从编码器我们使用这个代理网路来解决模糊影像到视讯产生的任务光流递归的使用使我们的网络能够优先选择时间上一致的序列,这使得它无法返回任意顺序的帧。然而,方向模糊性仍然存在。对于具有多个对象的场景,模糊性变得更加明显,因为每个对象可以具有其自己的独立运动。BIE与预训练的RVD连接,并且使用排序不变框架的组合ConvLSTMA1A2A3A46834�|�+的|x −x|−|x−x|使用转换层。 使用适当下采样的地面实况视频在每个尺度下计算重建损失。有效地,我们使用加权损失和来引导网络上的信息流,其可以表示为Σ4L=λjj=1�Lj+ ΣNn=1�µTV(fn,j))(四)对于RVE-RVD训练,我们使用的数据项是图4.我们的密集去模糊架构概述,Lj= ΣNn=1�����-xn,j1(五)我们利用它来估计中心锐帧。它遵循编码器-解码器设计,其中剩余密集块、瓶颈块和跳跃连接存在于3个不同的子尺度。重建损失和空间运动平滑损失如第2.3节所述,BIE-RVD的训练需要一个损失项,该损失项使网络无法惩罚正确解释模糊图像但与可用的地面实况不匹配的视频。在[13]之后,我们使用损失函数NRVD输出(稍后描述)。 没有这样的歧义,因为RVD必须精确地Σ2Lj=��|xn,j+x N−n,j|X|xn,j��+xN−n,j1再现馈送到RVE的视频。BIE被实现为CNN,其专门用于从模糊图像中提取运动特征(我们实验-n=1�����n,j N−n,j n,j N −n,j�1(六)直接发现将中央清晰帧与模糊图像一起馈送改善了其性能)。BIE的任务是通过捕获局部运动来提取图像中的顺序运动,例如,在图像中模糊的边缘。此外,所生成的编码应当使得RVD能够重构运动轨迹。BIE有7个卷积层,其内核大小如图所示。第2段(b)分段。每一层(除了最后一层)后面都是批量归一化和泄漏ReLU非线性。2.4. 成本函数我们的两个网络对(RVE-RVD和BIE-RVD)都是通过计算RVD估计的流和帧的成本来由于RVD隐式地估计光流,因此我们利用由免学习变分方法[1]激励的成本函数,其类似于[9]的原始公式来施加流平滑。在每个时间步长,数据丢失测量目标帧的强度与变换层的输出(使用预测光流场获得)之间的差异。的平滑成本是以估计的流图上的总变化损失的形式:TV(s)=|埃克斯河|+的|埃克塞特|.从粗到精:受FlowNet [4]中采用的方法的启发,我们通过以从粗到细的方式匹配流图和帧在每个时间步长,使用四个光流fn,1. 4以原始图像分辨率的第(1,1,1,1)分数的尺寸预测,以及这里,j表示尺度,n表示时间步长,μ是总变差损失的正则化权重,根据经验设置为0。02.根据[22]中建议的损失重量,采用每个量表的相对权重λj s2.5. 去模糊模块(DM)我们提出了一个独立的网络去模糊的运动模糊观测 。 在 测 试 期 间 , 估 计 的 清 晰 帧 被 馈 送 到 BIE和RVD。最近的图像恢复工作提出了端到端的可训练网络,需要标记的退化和清晰的图像对。其中,[23,34]使用由残差连接组成的多尺度CNN取得了有希望的结果。我们探索一种更有效的网络架构,其灵感来自于使用多层次和多尺度特征的先前方法我们的高级设计类似于U-Net [28],其已被广泛用于在各种图像到图像任务中保留全局上下文信息基于观察到层数和连接数的增加会导致特征提取能力的提升,我们网络的编码器结构利用了残差密集块(RDB)的级联RDB是通过一组丰富的残差和级联连接连接的卷积层级联,通过跨多个层重用特征,极大地提高了特征提取能力列入这样连接最大限度地提高了信息在互联网上的流动84 2应用于相应的下采样的中心帧径向层,并导致更好的收敛。 这些单位输入图像去模糊图像褶积层剩余致密块大步1卷积层步幅2去卷积层瓶颈块6835有效地学习比具有残余连接的网络更深和更复杂的特征(在最近的去模糊方法中已被广泛使用[23,18,34,13]),同时需要更少的参数。我们提出的去模糊架构如图所示。4.我们网络的解码器部分包含3对上采样块,以逐渐扩大特征图的空间分辨率。每个上采样块包含瓶颈层[12],随后是去卷积层。每个卷积层(除了最后一层)后面都有一个非线性。类似于U-Net,在编码器和解码器中对应于相同维度的特征在投影层的帮助下被合并。最后的上采样块的输出通过两个附加的卷积层,以重建输出清晰图像。我们的网络使用非对称编码器-解码器架构,其中网络容量变得更高,受益于密集的连接。此外,我们通过在较低的空间分辨率下对特征执行计算密集型操作来这也减少了内存占用,同时增加了接收域。具体来说,在将输入的模糊图像馈送到编码器之前,我们使用空间到深度变换将图像映射到较低分辨率的空间。在[20,23]之后,我们省略了归一化层以实现稳定的训练,更好的泛化以及降低计算复杂度和内存使用。为了进一步提高性能,我们还利用了残差缩放[20]。3. 实验在本节中,我们将对我们的方法与最先进的去模糊方法以及视频提取任务进行定量和定性比较。3.1. 实现细节我们从GoPro数据集[23]中准备了我们的训练数据,遵循标准的训练测试分割,其中22个完整的视频用于创建训练集,11个完整的视频用于验证和测试。每个模糊图像通过平均9个连续的潜在帧产生。这样的平均模拟了以大约26fps拍摄的照片,而对应的锐利图像快门速度是1/240。我们从这些图像序列中提取了256×256训练最后,我们的数据集由105个集合组成,每个集合包含N=9个清晰帧和相应的模糊图像xB。我们通过随机水平翻转和缩放范围[0. 2,2]。该网络使用Adam优化器进行训练学习率为1×10- 4。批量大小设置为10,我们的视频自动编码器的训练需要5×104次迭代才能收敛。然后,我们训练BIE-RVD对,相同的训练配置,并将RVD参数的学习率降低到2×10−5,以实现稳定的训练。方法[第四十二届][39]第三十九届[33个][七]《中国日报》[23日][18个国家][34个]我们峰值信噪比(dB)2124.624.526.428.927.2 30.10 30.58SSIM0.740 0.845 0.851 0.863 0.911 0.905 0.933 0.941时间(s) 38007001500 120060.80.40.02大小(MB)--54.141.230045.627.5 17.9硬件CPUCPUCPUCPUGPUGPUGPUGPU表1.我们的去模糊网络与现有方法在基准数据集上的性能比较[23]。为了训练和评估我们的单图像去模糊网络,我们使用了与最近的去模糊方法相同的GoPro数据集[23]的训练测试分割[23][34]。批量大小设置为16,整个训练花费4。5×105迭代收敛。3.2. 单个图像去模糊的结果我们在1100张测试图像(分辨率:1000 × 1000)上,从定量和定性两方面评估了我们的网络(DM,如图4所示)在中间去模糊任务中的有效性1280×704)来自GoPro数据集[23]。 的方法[39]作为代表性的传统方法均匀模糊。我们还将我们的性能与深度网络进行了比较[23,18,34]。所有代码均从各自作者的网站下载定量和定性比较见表1和图2。5、再循环。由于[39]的传统方法不能对一般相机抖动和物体运动的组合效应进行建模,因此它无法忠实地恢复测试集中的大多数图像。另一方面,[18]的方法使用深度特征损失和对抗性损失的混合来训练包含实例归一化层的残差网络,但在包含大模糊的图像上导致次优性能方法[23,34]使用多尺度策略来提高处理大模糊的能力,但在具有挑战性的情况下失败图5示出了先前工作的结果遭受不完全的去模糊或振铃伪影。相比之下,我们的网络能够更忠实地恢复场景细节,同时比最接近的竞争对手快20倍[34]。这些改进也反映在表中所列的数量值中。3.3. 视频提取的结果和比较在图6中,我们给出了来自[23]数据集的标准测试模糊图像的结果。请注意,其中一些遭受显着模糊。图6(a)示出了由于主导相机运动而模糊的平面场景的图像。图6(b)示出了由于相机运动而模糊的3D场景。图图6(c-f)示出了关于具有动态对象运动的模糊图像的结果。观察我们的方法生成的视频是真实的,质量上与场景的模糊和深度一致,即使前景在大的运动。我们的网络能够从具有不同运动和场景内容的模糊图像中重建6836Blurred ImageBlurred patch Whyte等.[39] Nah等人[23][34]第三十四话:我的世界图5.测试数据集上去模糊结果的视觉比较[23](以高分辨率查看(a)(b)(c)(d)(e)(f)图6.我们的视频提取结果与[13]对从[23]的测试数据集获得的运动模糊图像的比较。第一行显示了模糊图像,而第二行和第三行分别显示了由我们的方法和[13]生成的去模糊帧。补充文件。相比之下,[13]的结果在去模糊、不一致的运动估计以及颜色失真方面存在局部误差。我们已经观察到,一般来说,[13]的方法在涉及高模糊的情况下失败,因为直接图像回归对于大运动变得困难与此相反,我们将整个问题分为去模糊和运动提取两个子任务这简化了学习,并提高了去模糊质量和运动估计。[13]中的颜色问题可以归因于其网络的设计,其中特征提取和重建分支对于不同的颜色通道是不同的我们的方法对每个颜色通道应用相同的运动。通过使用单个递归网络来生成视频,我们的网络可以直接训练以提取更高数量的帧(>9),而无需任何设计更改或额外参数。相比之下,[13]需要为每对新帧训练一个额外的网络。我们的整体架构更紧凑(45 MB vs 70MB),速度更快(0。02秒对0。45秒用于去模糊,0.39秒对1秒。10s视频生成)与[13]相比。为了与[13]进行定量比较,我们还训练了另一个版本的受限网络。通过平均7个连续清晰帧产生的模糊图像的情况。为了进行测试,使用[23]数据集中的11个测试视频创建了250张分辨率为1280×704的模糊图像。 我们比较了两种方法使用模糊度不变损失函数de-在Eq。6.平均误差为49。06为[13] 和44. 12我们的方法因此,即使对于小模糊的受限情况,我们的方法也表现良好。对9帧重复相同的实验(即,对于来自相同测试视频的大模糊)导致48的误差。24对于我们的方法,这仍然小于[13]的7帧误差。我们无法计算[13]的9帧误差,因为他们的网络仅为7帧3.4. 视频提取的其他结果相机运动数据集上的结果:为了评估单独使用摄像机运动的视频的定性性能,我们测试了我们的网络从[7],[15]和[19]的数据集拍摄的模糊图像重建视频的能力,这些数据集通常用于基准去模糊技术。图7(a)示出了在[7]中提供的合成模糊图像图7(b)显示6837(a)(b)(c)(d)(e)(f)图7.从[7,15]和[19]的数据集的全局摄像机运动模糊图像生成视频。第一行显示模糊的图像和我们的去模糊帧显示在第二行(生成的视频在补充文件中提供图8.来自[32]的数据集的真实运动模糊图像的视频生成结果第一行显示模糊的图像。第二行包含用我们的方法估计的去模糊图像(提取的视频在补充文档中提供)。从[15]的数据集的图像上得到结果。我们可以观察到,所生成的视频中的运动符合模糊。数据集[19]由从各种传统的先前去模糊工作中收集的合成图像图图7(c-d)示出了我们的网络使用非均匀相机运动对来自该数据集的合成模糊图像的结果。图1A和1B中的示例。图7(e-f)是从相同数据集获得的真实模糊图像。我们的方法能够很好地再现潜在的运动。模糊检测数据集的结果:在图8中,我们显示了从包含动态场景的[32]的数据集拍摄的真实模糊图像生成的视频。结果再次证实,我们的网络可以感知方向和大小即使是在严重模糊的图像中。3.5. 更多结果和消融研究附加的结果和实验,以突出我们的设计选择的动机,在附录材料。具体而言,对于视频自动编码器,我们研究了运动流估计(而不是直接强度估计)和递归设计的效果。然后分析了不同损失函数的影响。 在BIE的训练方面,我们研究了输入清晰框架对其性能的影响,并对我们的两阶段策略(使用预训练的BIE进行训练)进行RVD)与BIE和RVD直接从头开始训练的情况我们还分析了增长率和剩余密集连接拓扑结构对去模糊网络训练性能的影响。4. 结论我们介绍了一种新的方法,视频生成从一个单一的模糊图像。我们提出了一个时空视频自动编码器的基础上的一个端到端的微分架构,学习运动表示从清晰的视频在一个自我监督的方式。该网络预测一系列光流,并利用它们来转换清晰的中心帧并返回平滑的视频。使用经过训练的视频解码器,我们训练模糊图像编码器从单个模糊图像中提取表示,该表示模仿视频编码器返回的表示。这在馈送到解码器时返回表示模糊图像内的动作的似真清晰我们还提出了一种高效的去模糊架构,由密集连接的层组成,产生最先进的结果。我们的工作潜力可以扩展到各种方向,包括基于模糊的分割,视频去模糊,视频插值,动作识别等。鸣谢:第一作者感谢谷歌印度研究院的旅行支持。6838引用[1] 托马斯·布洛克斯和吉坦德拉·马利克大排量光学流量:变分运动估计中的描述符匹配。IEEE transactions onpattern analysis and machine intelligence,33(3):500[2] 艾扬·查克拉巴蒂盲运动去模糊的神经方法欧洲计算机视觉会议,第221-235页。施普林格,2016年。[3] 赵成贤和李承京。快速运动去模糊。ACMTransactionson Graphics(TOG),第28卷,第145页。ACM,2009年。[4] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick vander Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流在IEEE计算机视觉国际会议论文集,第2758-2766页[5] Rob Fergus 、Barun Singh 、Aaron Hertzmann 、 Sam TRoweis和William T Freeman。从单张照片中消除相机抖动。在ACM图形交易(TOG),第25卷,第787-794页中ACM,2006年。[6] John Flynn,Ivan Neulander,James Philbin,and NoahSnavely. Deepstereo:学习从世界在IEEE计算机视觉和模式识别会议论文集,第5515- 5524页[7] Dong Gong,Jie Yang,Lingqiao Liu,Yanning Zhang,Ian Reid ,Chunhua Shen, AVD Hengel ,and QinfengShi.从运动模糊到运动流:一个深度学习解决方案,用于消除异构运动模糊。在IEEE计算机视觉和模式识别会议(CVPR),2017年。[8] 亚历克斯·格雷夫斯,阿卜杜勒·拉赫曼·穆罕默德,杰弗里·辛顿。深度递归神经网络语音识别在Acoustics,Speech and Signal Processing(icassp),2013年IEEE国际会议上,第6645-6649页。IEEE,2013。[9] Berthold KP Horn和Brian G Schunck。确定光学流。Artificial intelligence,17(1-3):185[10] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。arXiv预印本,2017年。[11] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。神经信息处理系统进展,2017-2025页,2015年[12] SimonJe'gou , MichalDrozdzal , Da vidVazquez ,AdrianaRomero,and Yoshua Bengio.百层提拉米苏:用于语义分割的全卷积密集网。在计算机视觉和模式识别研讨会(CVPRW),2017年IEEE会议上,第1175-1183页。IEEE,2017年。[13] Meiguang Jin,Givi Meishvili,and Paolo Favaro.学习从单个运动模糊图像中提取视频序列arXiv预印本arXiv:1804.04065,2018。[14] Neel Joshi,Richard Szeliski,and David J Kriegman.使用锐边预测的Psf估计。计算机视觉和模式识别,2008年 。 CVPR 2008 。 IEEE Conference on , 第 1-8 页 。IEEE,2008年。[15] 罗尔夫·科勒,迈克尔·赫希,贝蒂·莫勒,伯恩哈德·肖尔·科普夫和斯特·弗·安·哈梅林。相机抖动的记录和回放:用真实世界的数据库对盲反卷积进行基准测试。欧洲计算机视觉会议,第27-40页。Springer,2012.[16] Dilip Krishnan和Rob Fergus使用超拉普拉斯先验的快速图像去卷积。神经信息处理系统的进展,第1033-1041页,2009年[17] Dilip Krishnan、Terence Tay和Rob Fergus。使用归一化稀疏性测度的盲反卷积。在计算机视觉和模式识别(CVPR),2011 IEEE会议,第233-240页中。IEEE,2011年。[18] OrestKupyn,VolodymyrBudzan,MykolaMykhailych,Dmytro Mishkin和Jiri Matas。Deflurgan:使用条 件对抗网络进 行盲运动去 模糊arXiv预印本arXiv:1711.07064,2017。[19] Wei-Sheng Lai , Jia-Bin Huang , Zhe Hu , NarendraAhuja,Ming-Hsuan Yang.单幅图像盲去模糊的比较研究。在IEEE计算机视觉和模式识别会议论文集,第1701- 1709页[20] Bee Lim , Sanghyun Son , Heewon Kim , SeungjunNah,and Kyoung Mu Lee.单图像超分辨率的增强深度残 差 网 络 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)研讨会上,第1卷,第4页,2017年。[21] Ziwei Liu,Raymond Yeh,Xiaoou Tang,Yiming Liu,and Aseem Agarwala. 使用深体素流的视频帧合成。arXiv预印本arXiv:1702.02463,2017。[22] Nikolaus Mayer , Eddy Ilg , Philip Hausser , PhilippFischer , Daniel Cremers , Alexey Dosovitskiy , andThomas Brox.用于训练卷积网络的大型数据集,用于视差,光流和场景流估计。在IEEE计算机视觉和模式识别会议论文集,第4040-4048页[23] Seungjun Nah,Tae Hyun Kim,and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。CVPR,第1卷,第3页,2017。[24] TM Nimisha,Akash Kumar Singh,and AN Rajagopalan.用 于 盲 去 模 糊 的 模 糊 不 变 深 度 学 习 。 IEEE EInternational Conference on Computer Vision(ICCV),2017年。[25] Jinshan Pan,Zhe Hu,Zhixun Su,Ming-Hsuan Yang.通过l0正则化强度和梯度先验对文本图像进行IEEE计算机视觉和模式识别会议论文集,第2901-2908页,2014年[26] Jinshan Pan , Zhouchen Lin , Zhixun Su , and Ming-Hsuan Yang.鲁棒核估计与野值处理图像去模糊。在IEEE计算机视觉和模式识别会议论文集,第2800- 2808页[27] 潘金山,孙德清,汉斯佩特·菲斯特,杨明轩.使用暗通道先验的盲图像去模糊。在IEEE计算机视觉和模式识别会议论文集,第1628-1636页[28] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-net:用于生物医学图像分割的6839位置。医学图像计算和计算机辅助干预国际会议,第234-241页。施普林格,2015年。[29] Christian J Schleman,Harold Christopher Burger,StefanHarmeling,and Bernhard Scholkopf.一种用于非盲图像反卷积的机器学习方法。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中,第1067-1074页[30] Christian J Schuler,Michael Hirsch,Stefan Harmeling,and BernhardScho¨ l k opf. 学习去模糊。IEEE模式分析和机器智能测试,38(7):1439[31] 齐杉、贾娅·贾和阿西姆·阿加瓦拉。高品质的运动,从一个单一的图像去模糊。在Acm图形交易(tog),第27卷,第73页。ACM,2008年。[32] Jianping Shi,Li Xu,and Jiaya Jia.判别模糊检测功能。在计算机视觉和模式识别(CVPR),2014 IEEE会议,第2965-2972页中。IEEE,2014。[33] Jian Sun,Wenfei Cao,Zongben Xu,and Jean Ponce. 学习用于非均匀运动模糊去除的卷积神经网络。IEEE计算机视觉和模式识别会议论文集,第769-777页,2015年。[34] 陶新,高红云,沈晓勇,王珏,贾继亚.用于深度图像去模糊的尺度递归网络。在IEEE计算机视觉和模式识别会议论文集,第8174-8182页[35] IgorVasiljevic , AyanChakrabarti , andGregoryShakhnarovich.研究模糊对卷积网络识别的影响。a
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功