没有合适的资源?快使用搜索试试~ 我知道了~
合成运动模糊模型的生成与评估
1学习合成运动模糊蒂姆·布鲁克斯巴伦谷歌研究摘要我们提出了一种技术,用于从连续捕获的一对未模糊图像合成为了构建该系统,我们激励并设计了可重构的训练该模型需要大量的数据,因此我们设计并执行了一种使用帧插值技术来生成运动模糊图像及其相应输入的大规模合成数据集的策略。我们还捕获了一个高质量的测试集的真实运动模糊的图像,从慢动作视频合成,我们评估我们的模型对几个基线技术,可用于合成运动模糊。我们的模型产生比基线更高的精度输出,并且比具有竞争力精度的基线快几个数量级1. 介绍虽然图像通常被认为是捕捉一个单一的时刻,但所有的图像实际上都捕捉子一段时间:当照相机开始收集光时,图像开始,并且当照相机停止收集光时,图像结束。如果在收集灯光时摄影机或场景移动该模糊可以指示主体的速度,或者可以用于将主体从背景中分离,这取决于相机和主体的相对运动(参见图1(b))。运动模糊是图像理解的一个有价值的线索。给定包含运动模糊的单个图像,可以估计导致观察到的模糊的场景运动的相对方向和幅度[7,8]。该运动估计可能在语义上是有意义的[33],或者可以由去模糊算法用于合成清晰图像[5,9,17,23]。最近的工作依赖于深度学习来去除运动模糊并推断场景的潜在运动[6,11,31]。深度学习技术(a) 一对输入图像。(b) 我们模型图1.在(a)中,我们呈现了在图像平面上移动的对象的两个图像我们的系统使用这些图像来合成(b)中的运动模糊图像,其传达运动感并将主体与背景分离。68406841往往需要大量的训练数据才能很好地工作,因此为了训练这些技术,必须通过合成地模糊清晰图像来生成大量的合成训练数据。这些技术还倾向于使用合成数据(通常是由真实或合成的“相机抖动”内核卷积的清晰图像)进行定量评估,仅使用真实运动模糊图像来产生定性可视化。当然,这些学习模型推广到真实图像的能力取决于其合成训练数据的真实性。在本文中,我们把这个研究模糊去除任务的逆作为一个第一类问题。我们提出了一种快速有效的方法来合成训练数据所需的运动去模糊算法,我们定量地证明,我们的技术从我们的合成训练数据推广到真正的运动模糊图像。有才华的摄影师有时会使用运动模糊来获得艺术效果(图2(a))。但是,制作一张巧妙的运动模糊照片是一个困难的过程,通常需要三脚架,手动相机设置,完美的时机,专业技能和大量的试验和错误。因此,对于普通摄影师来说,运动模糊很可能表现为不需要的伪影(图2(b))。由于很难有效地使用运动模糊,大多数消费者相机都设计成尽可能少地拍摄运动模糊的图像-尽管如果噪音是一个问题,一些运动模糊是不可避免的,特别是在低光环境或具有显著运动的场景中因此,对运动模糊的艺术控制对于大多数休闲摄影师来说是遥不可及的通过允许从由标准消费者相机捕获的常规未模糊图像这类似于深度估计的最新进展如何实现捕获后设备上景深操纵,也称为运动模糊也是电影摄影中的一个重要工具就像照相术一样,这需要专业的领域知识和熟练的执行。我们的系统(或者实际上任何在帧对上操作的系统)可以用于在事实之后通过独立地处理输入视频中的所有相邻帧对来操纵视频序列的运动模糊运动模糊合成已经在渲染社区中得到了广泛的研究[22],尽管这些方法通常需要场景速度和深度的完美知识作为输入。相反,我们的目标是这个问题的最一般形式,并假设我们的系统可用的唯一输入是未模糊的输入图像,就像大多数一般视觉和成像环境中的情况一样实现需要创建运动方法的各种图像理解和图像处理任务(a)巧妙的动态模糊。(b)不想要的运动模糊。图2.有能力的摄影师可以使用运动模糊来制作引人注目的照片,如(a)。但对于大多数休闲摄影师来说,运动模糊更有可能表现为图像中不想要的伪影,而图像本来是完全清晰的,如(b)所示。模糊,我们提出了一种算法,该算法获取如图1(a)中所示的一个接一个地获取的两个清晰图像,并合成相应的运动模糊图像,如图1(b)中所示。合成图像类似于在输入图像所跨越的时间上捕获的图像-图像为了实现这一目标,我们将机器学习的最新进展应用于预测运动模糊图像对的线核的任务我们建立在最近成功的卷积神经网络[16]和类似于我们的任务的端到端训练的基础上我们使用国家的最先进的帧插值合成训练数据,我们的运动模糊模型,并证明我们的模型,直接训练的任务,合成运动模糊,产生改进的结果,对真实图像的基线来自光流和帧插值技术。虽然帧内插只实现了略微降低的准确性,但我们的技术快了许多数量级,因此更适合于在深度学习环境中在线合成训练数据,并且更容易部署在面向消费者的渲染或智能手机摄影设置中。本文其余部分的结构如下:在第2节中,我们讨论了运动模糊作为线性运动的函数的性质,并激发了我们新颖的线预测层。在第3节中,我们定义了一个基于线预测层的深度神经网络架构。在第4节中,我们构建了一个用于训练的合成数据集和一个用于评估的真实数据集。在第5节中,我们评估了我们的模型的性能相比,其消融和变体,并在文献中的技术,可以适应于合成运动模糊的任务。6842我我2. 问题公式化我们的目标是从相机拍摄两个相邻的图像,比如从视频或从照片的“突发”[12],并从它们合成跨越输入图像之间的也就是说,设I1是曝光持续时间[s1,t1]的图像,I2是曝光持续时间[s2,t2]的图像(其中s1t1s2t2),<<<我们合成长曝光照片I1→2,其持续时间为[s1,t2]。类似于光流的假设,其根据每像素速度矢量描述两帧之间的运动,我们假设两个输入图像之间的局部线性运动。我们进一步假设运动模糊图像中的每个像素可以从位于从每个输入图像中的对应像素绘制的线上的虽然这些假设并不总是有效的,例如,在旋转或平移的对象的情况下,我们将证明,这个简单的线性模型是足够的表达,以产生高质量的结果。我们的神经网络架构使用了一个新颖的“线预测”层,我们在这里定义。对于图像中的每个像素Ii(i∈{1,2}),我们预测一条线,其中一个端点该线的另一端位于像素点位于(x+x(x,y),y+y(x,y))-像素的位置,(a) 时间欠采样(b)时间超采样图3.时间采样对于我们的模型和训练数据的构建至关重要。如果运动模糊图像是使用比跨越那些样本的任何像素的最大位移少得多的样本来合成的,则该合成图像可能是时间欠采样的。这导致沿着运动方向的不连续伪影,如(a)中所示。如果采样密度相对于图像分辨率和对象运动足够大,则合成图像将不会表现出任何这样的伪影,如(b)中所示。固定.然而,如果在给定像素处估计的运动显著大于可用于重建我们的预测线的样本的数量,则我们得到的运动模糊图像将在时间上欠采样,并且将我我当由某个预测的偏移Δi平流时,该线由N个均匀间隔的离散样本组成,我们还预测Wi(x,y,n),每个样本的权重。我们的最终预测图像I1→2被定义为加权根据离散的两个输入图像的平均值因此,在合成时包含来自这些“间隙”的伪像调整运动模糊大小。请参见图3,以查看此采样问题的可视化。因此,在确定N的值时,我们必须对线端点位 移的 大 小 施加 一 个 界限 ( x (x ,y ) , y( x,y))。 我们只-我我所有生产线的样品:ΣI1→2(x,y)=NΣ−1Wi(x,y,n)×(1)处理合成运动模糊图像的任务,最大位移长度为32个像素,并且我们设置N= 17。我们发现,我们可以使用最大位移一半的样本,因为内核.我我X+.ΣnN−1i∈{1,2}n=0x(x,y),y+.ΣnN−1Σx,y,通过双线性内插有效地预滤波由我们的线预测引起的卷积。对像素位移和采样密度的这种限制类似于对像素位移和采样密度的模拟。其中Ii(x,y)是Ii在任何连续位置(x,y)的双线性插值的结果。我们将这种方法称为“线性预测”,类似于“核预测”文献[3,21,25]。我们的模型可以被认为是内核预测的一种形式,因为等式1中的加权平均值可以被光栅化为具有离散内核的逐像素卷积,该离散内核由线预测中使用的加权双线性插值内核的总和组成-尽管以这种方式重新制定模糊会使计算成本显着增加。为了使我们的线预测技术正常工作,我们必须推理线偏移量和采样密度之间的关系。由于我们用于估计我们的线预测层的参数的标准深度学习技术难以产生可变长度的输出,因此估计的线样本的数量N为基于核预测的视频帧内插算法的极限关于其内核大小的技术。我们决定让我们的网络预测一组采样权重Wi(x,y,n)可能看起来不寻常,因为图形文献中的技术在渲染运动模糊时倾向于为像素分配统一的权重[20]。这些学习的权重使我们的算法能够处理复杂的运动和遮挡,并避免某些故障模式。例如,通过发出0的权重,我们的模型可以在积分期间忽略某些像素,如果感兴趣的像素在其路径上移动到遮挡物后面朝向其在另一帧中的位置,则这可能是必要的因为我们的合成同时发生在“向前”和“向后”两个方向上6843图4.我们架构的可视化,它将两个输入图像的拼接作为输入,并使用U-Net卷积神经网络来预测我们的线预测层的参数。对闭塞进行推理的能力虽然我们的模型被限制为线性运动,但这些权重可以用于将对象建模为沿着其线以非恒定速度移动。例如,如果一个物体加速朝向其目的地,我们的模型可以通过给予早期样本比后期样本更高的权重来合成更准确的运动模糊(而不会引入任何时间欠采样问题)。3. 模型架构我们的模型是围绕[28]的U-Net架构构建的,该架构馈送到我们的线预测层,其输出用于合成运动模糊图像。我们模型的输入只是两个输入图像的连接。请参见图4以获得我们架构的可视化。U-Net架构已成功用于帧内插的相关任务[14,26],它是一种完全卷积的编码器/解码器模型,具有从每个编码器到相同空间分辨率的对应解码器的跳过我们的编码器由五个高层次(以相同规模操作的层集)组成,每个高层次包含三个将空间分辨率提高2倍。我们的解码器由四个层次组成,每个层次有三个conv层,后面是一个双线性上采样层,可将空间分辨率提高2倍。每个conv层使用3×3内核,然后是leaky ReLU激活[19]。我们通过最小化L1来训练我们的模型我们的模型的预测运动模糊图像和我们的地面实况运动模糊图像之间的损失。我们的数据增强和训练程序将在第5节中更详细地描述。如[34]所述,我们使用光流训练数据对我们的线预测模型进行了预训练,但这似乎并没有提高性能或显着加快收敛速度。我们的模型使用TensorFlow [1]实现。4. 数据集训练或评估我们的模型需要我们产生以下形式的地面实况数据:两个输入图像和一个输出图像,其中,照相机已经积分了从第一图像的开始到第二图像的结束的光。由于大型神经网络需要大量的数据,为了训练,我们提出了我们自己的基于视频帧插值的合成数据生成技术,我们使用该技术从传统的、大量可用的视频序列中合成运动模糊图像(第4.1节)。我们采用相邻视频帧的集合,合成这些帧之间的许多中间图像,并对所有结果帧进行平均,以生成单个合成运动模糊图像(然后可以将原始两帧用作我们算法的输入)。这些合成的运动模糊图像看起来是合理的并且易于大量生成,但是它们可能包含由于底层视频帧插值技术中的误拍摄而导致的伪像,因此作为“测试集”具有可疑的价值因此,对于评估,数据保真度的价值比数量更高,我们使用少量的真正的慢动作视频序列。每个序列的第一帧和最后一帧被用作我们算法的输入,序列中所有帧的总和被用作4.1. 综合训练数据我们直接从公开的视频中手动创建了自己的数据集,因为这使我们能够精确控制下采样和场景中存在的运动量等为了构建这个数据集,我们首先从精心选择的视频序列中提取相邻三元组的集合,然后使用这些三元组来训练视频帧插值算法。该视频帧内插算法然后递归地应用于所有三元组,这允许我们合成33帧内插se-1。6844然后可以对来自每个三元组的序列进行平均以产生合成的运动模糊图像。然后,在训练我们的模型时,这些图像被视为我 们 从 YouTube 上 下 载 了 30 , 000 个 CreativeCommons许可的1080p视频,这些视频的类别往往有大量的动作,比如体育”和“表演艺术”然后,我们使用双三次插值对每个视频进行了4倍的下采样,以消除压缩伪影,然后将每个序列的中心裁剪为270×270的分辨率。从这些视频序列中,我们提取了满足以下条件的相邻帧的三元组:以下属性:1. 高频图像内容:将训练集中在具有有趣梯度信息的图像上,往往会改善图像合成任务的训练,如我们自己的任务,如[10]所因此,我们拒绝了所有像素的平均梯度幅度(使用Sobel滤波器计算)小于13的任何三元组(假设图像在[0,255]中)。2. 足够的运动:没有运动的场景在训练期间不太可能提供太多信号。因此,对于每个三元组,我们估计了相 邻 帧 上 的 每 像 素 运 动 ( 使 用 [18]的 快 速 光 流 技术),并且只有AC。所接受的三元组,其中每个像素流的至少10%具有至少8个3. 有限运动:我们的学习模型和许多我们比较的基准模型的输出值为lim,有限的空间支持,我们希望我们的训练数据完全位于我们模型的感受野内。因此,我们丢弃了包含幅度(∞-范数)大于16的流量估计值的任何三元组。4. 无突变: 重大而迅速的变化在我们的视频数据中相邻帧之间,剪切或其他类型的视频编辑,或亮度或照明的全局变化。为了解决这个问题,我们根据估计的运动扭曲每个三元组中的每个帧,并丢弃平均L1距离超过13的三元组(假设图像在[0,255]中)。5. 近似线性运动:我们的模型架构只能估计和应用线性运动模糊因此,使用线性模糊无法表达的图像在训练期间可能不会贡献太多信号。因此,我们将第二帧和第三帧之间的“前向”流与来自第一帧和第二帧的“后向”流的负值进行比较请注意,(5)代表了我们的算法和训练数据的一种为了评估我们模型的更广泛的泛化,我们没有对我们的“真实”测试数据集施加这个约束为了确保多样性,我们从每个视频中提取不超过50个三元组,并且从每个视频中的给定场景该过程导致图5.在这里,我们展示了从我们的合成训练数据集中随机选择的输入/输出对。为了生成该数据,我们识别满足我们的运动和图像内容的标准的相邻帧的三元组(在前三列中示出),使用这些三元组来训练视频帧插值模型,并将该模型递归地应用于每个三元组以生成中间帧,然后对中间帧进行平均以合成单个运动模糊图像(在最后一列中示出)。在训练我们的运动模糊模型时,我们使用每个三元组的第一个和最后一个图像作为输入,平均图像作为地面实况。>300,000个独特的三元组,其中5%用于验证,其余95%用于训练。这种训练/验证分割被仔细构造,使得从任何给定视频生成的所有三元组被分配给训练分割或验证分割-没有视频的三元组存在于训练分割或验证分割两者然后,使用该数据集,我们基于[26]训练视频帧插值网络,该网络将很快用于生成我们正在追求的最终运动模糊训练数据。 我们的帧内插网络与第3节中描述的,但使用33×33学习内核的可分离内核预测层,而不是我们的线性预测层。我们的培训程序在第5节中有更详细的描述。需要训练这个帧interpo-Lation模型是为什么我们选择从我们的视频序列中提取三元组而不是仅提取两个帧,因为每个三元组的中间帧可以在该训练阶段期间用作地面实况(但在训练我们的运动模糊模型时将被忽略)。在训练之后,该帧插值模型将两个帧作为输入,并且从它们合成应该正好位于两个输入帧之间的输出帧。 我们把这个网络应用到我们的三个视频6845帧,首先使用三元组的第一帧和第二帧作为网络的输入来合成中间帧,然后使用第二帧和第三帧来合成另一中间帧。然后,我们使用真实的和新插值的帧作为输入,反复应用相同的过程。这样做4次,得到33帧序列的内插帧。这些帧然后全部被平均以产生合成运动模糊图像。请注意,我们的递归插值过程在我们的三元组中的每个图像之间产生15因为我们前面描述的数据收集过程省略了运动超过16个像素的相邻帧,这意味着我们应该期望插值图像具有小于每帧一个像素宽度的运动这意味着我们得到的运动模糊图像不应该遭受时间欠采样。有关我们的合成训练数据的一些示例,请参见图5。4.2. 真实测试数据出于评估目的,我们希望得到一个小的、高质量的数据集,该数据集不容易受到可能由帧插值算法引入的伪影的影响,并且尽可能接近真实的相机内运动模糊图像。虽然容易单独获取运动模糊图像,但是利用传统的相机传感器不可能获取与该运动模糊图像并排的两个因此,我们捕获一系列短的慢动作视频,其中每个视频的第一帧和最后一帧用作我们系统的输入,所有帧的每像素平均值用作地面实况运动模糊图像。我们的数据集是由一位摄影师使用Pana- sonic LUMIXGH 5s收集的,它可以以240 fps的速度摄影师被要求拍摄非常适合运动模糊艺术用途的主题:人们行走或奔跑、车辆移动、落水等。 我-年龄被双三次下采样2倍,以帮助去除去马赛克和压缩伪影,并将中心裁剪为512×512像素。从每个视频中,我们选择了一个跨度的帧,这样跨度上的总运动是不超过32像素。删除表现出任何时间采样不足的任何序列对于每个序列,我们通过简单地对帧进行平均来生成单个运动模糊图像,并且我们将每个序列的第一帧和最后一帧留作模型的输入每个序列具有可变长度的帧,因为我们看到如果它们碰巧是节奏超采样的,则没有必要从每个序列中省略帧。我们的最终数据集由21个不同的序列组成示例见图6和附录5. 实验我们的运动模糊模型以及用于生成合成数据的帧插值模型都是在8个NVIDIA Tesla P100 GPU上分布式训练的,5M使用Adam优化算法[15]对大小为16的批次进行迭代,学习率为α= 0。00002和动量衰减率β1= 0。9和β2=0。九九八 在训练过程中,我们通过从每张图像中随机提取256×256的作物来进行数据增强,然后运行一个圆顶应用水平翻转,垂直翻转,和一个90度旋转从训练到收敛,花了12.5天。我们针对五种基线算法评估我们的模型:[26](其在[25]的基础上进行了改进),以及[14]的最先进的视频插值工作。我们还对模型的三个消融版本进行了评价:1. 直接预测:我们的网络不使用线预测,而是直接估计运动模糊图像,通过将我们的线预测模型替换为单个1×1 conv层,产生3通道输出。2. 统一权重:我们对每个样本使用统一的权重,而不是学习权重(即,所有Wi(x,y,n)=1/2N)。3. 内核预测:我们使用[26]的可分离内核预测,而不是使用线预测,通过在我们的网络末端用单个1×1conv层替换我们的线预测层,在每个像素处产生65×65可分离我们的例如,对应于对角线的模糊核的矩阵是满秩的,并且不能很好地表示为秩1矩阵,因此等效地,核不能很好地由可分离核表示。这种限制可以通过使用不可分离的内核来解决[25],但是,当我们尝试使用这种方法进行训练时,我们的应用程序所需的大型内核为了从我们的光流基线生成运动模糊比较,我们采用了与我们的然后对这些采样图像进行平均以产生运动模糊图像。我们发现,这两个流量算法受益显着-使用负向反向流而不是正向流来产生运动模糊,所以我们在评估我们的基线流技术时采用了这种策略。在图形文献[20,22]中,已经使用了更复杂的策略来在物体速度的前向和后向方向上进行聚集和散射,以合成运动模糊,但这些技术假定已知完美的场景几何形状,因此6846三十三岁。97 ±4。53(a) 输入图像1(b)输入图像2(c)非输入中间帧(d)地面实况运动模糊(e)[14](f)EpicFlow [15](g)SepConv [16](h)Super SloMo [16](i)我们的(直接预测)(j)Ours(uniform weight)(k)Ours(kernel pred.)(l)我们的模式图6.来自我们测试数据集的一个场景的结果。地面实况图像(d)是输入图像(a)(b)和这两个图像之间的帧(c)的总和。我们以编程方式选择在(c)中所有帧中具有最大方差的三个不重叠的32×32子图像,并呈现这些区域的作物,使用最近邻插值渲染并按其y坐标排序。我们将我们的模型(l)与四个基线(e)-(h)和三个消融(i)-(k)进行比较。有关其他结果,请参阅补充资料不能用于我们的任务通过在输入图像对上递归运行帧插值5次迭代来进行与帧插值基线的比较,这导致33帧序列-考虑到我们真实测试集中32然后将所得的合成慢动作序列平均以产生运动模糊图像。算法PSNRSSIMSNR(ms)初始基线28. 06 ± 4。05 0的情况。888± 0。087-[30]第二十九章. 93 ± 3。470的情况。938± 0。05739. 5[27]第二十七话07 ± 3。49 0的情况。940± 0。05796。3 ×106[26]第二十六章:一个女人91 ± 4。60 0的情况。954± 0。05410. 9 ×104[14]第三十三章:一个人的世界64 ± 4。66 0的情况。958± 0。04813. 7 ×106我们的(直接预测)0的情况。961± 0。044 34. 7我们的(统一重量) 三十三岁。88 ± 4。680的情况。959± 0。05042. 8我们的(内核预测)三十三岁。73 ± 4。310的情况。961±0。04565. 534.我的超次元帝国14 ± 4。650的情况。963± 0。04543. 7表1.在我们真实的测试数据集上的性能,我们在其中...将模型扩展到三种消融变体和五种基线算法。6847我们主要在第4.2节中描述的真实测试数据集上评估我们的模型,如表1所示。我们报告了数据集的平均PSNR和SSIM,并注意到我们的模型在所有基线和消融中产生了最高值。尽管乍一看,模型之间的差异可能看起来很小,但“原始”基线的异常高的PSNR用于锚定这些分数,并表明分数的小变化是有意义的两个光流基线是性能最低的技术,两个视频帧插值技术的性能几乎与我们的一样好然而,在运行中的差距我们的模型和基线技术之间的时间是相当可观的,因为我们的模型快了300,000倍。这部分是由于我们的紧凑架构和行预测易于快速实现的事实,但也是因为视频帧插值技术必须预测33帧序列,然后平均产生一个单一的图像,因此必然遭受33倍的速度下降。我们模型的报告运行时间、其消融和SepConv技术[26]是1000次运行的平均值6848我在GeForce GTX 1080 Ti上,我们的测试集图像分辨率为512×512。PWC-Net [30]和Super SloMo [14]的运行时间由这些论文的作者报告,他们使用NVIDIA PascalTitanX(比所用的GPU更快)在我们的数据上运行他们的代码我们的模型)。EpicFlow [27]的运行时间是从论文中引用的数字中推断出来的,这些数字是在3.6Ghz CPU上产生的。光流方法的报告时间低估了其真实运行时间,因为我们仅测量生成其流场所花费的时间,而不包括从这些流场渲染图像所花费的时间。我们的“均匀权重”消融的性能降低这可以在图6(l)中看到,其中我们的模型似乎使用其学习的权重来模糊篮球网织带的遮挡我们的模型的输出表面上类似于光流算法,因为在每个像素处预测的线端点λx(x,y)可以被视为流向量。虽然这是一个过度简化(我们的模型实际上预测沿着这条线的一组点的权重,并且那些权重可以是零,有效地缩短或移动这条线),将我们的输出可视化为流场并将其与光流算法进行比较是说明性的,如图7所示。由于我们的模型仅针对合成运动模糊的任务进行训练,因此与光流算法相比,其这种差异表现在以下几个方面:我们的模型将接近零的“流”分配给图像的大平坦区域中的像素,因为模糊平坦区域看起来与不模糊平坦区域相同,因此我们的训练损失在这些平坦区域中是不可知的。此外,我们的模型试图对阴影等物体的运动进行图像中的明显运动和世界几何中的真实运动之间的这种脱节可以解释为什么我们的光流基线在我们的任务中表现不佳。我们模型的学习“流”和显式光流技术之间的这种差异正如我们的测试集性能所证明的那样,我们的模型在各种情况下都表现良好,包括各种场景内容,运动类型,模糊持续时间以及输入帧中的模糊量。然而,我们的模型是有限的,它无法处理运动大于那些在训练数据集(32像素)和(类似于其他技术)的能力,以渲染非线性运动模糊。在补充视频中,我们展示了以下结果,(a) 输入图像,平均值(b)我们的模型(c)[30]第二十七话:我的世界图7.我们的模型输出的一个子集可以通过使用每个像素的预测线的端点作为流向量来可视化。在这里,我们渲染我们的模型我们的我们的系统已经被用于通过在所有相邻视频帧对上运行来向视频序列添加运动模糊。6. 结论我们提出了一种技术,用于合成运动模糊的图像从成对的不模糊的图像。作为我们神经网络架构的一部分,我们提出了一种新的线预测层,它的动机是运动模糊的光学我们已经描述了一种使用帧插值技术来生成大规模合成数据集以用于训练我们的运动模糊合成模型的策略。我们还捕获了真实运动模糊图像及其相应输入图像的地面真实测试集,并且我们已经证明了我们提出的模型在准确性和速度方面优于先前的工作。我们的方法是快速,准确,并使用现成的图像从视频或6849引用[1] Mart 'ın Abadi,Paul Barham,Jianmin Chen,ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe- mawat,Geoffrey Irving,Michael Isard ,Manjunath Kudlur , Josh Levenberg , Rajat Monga ,Sherry Moore,Derek G.Mur-ray,Benoit Steiner,PaulTucker , Vijay Vasudevan , Pete War-den , MartinWicke,Yuan Yu,and Xiaoqiang Zheng.十- sorflow:一个大规模机器学习系统。OSDI,2016.[2] 苹果在iPhone上使用人像模式。support.apple.com/en-us/HT208118,2017.[3] Steve Bako 、 Thijs Vogels 、 Brian Mcwilliams 、 MarkMeyer 、 JanNo va' K 、 Ale xHarvill 、 PradeepSen 、 TonyDerose和Fabrice Mrsselle。核预测卷积网络用于去噪蒙特卡罗渲染。SIGGRAPH,2017.[4] 乔纳森·T.Barron,Andrew Adams,YiChang Shih,andCar-losHer na'ndez. 最 后 的 双 边 空 间 立 体 合 成 散 焦 。CVPR,2015年。[5] Benedicte Bascle,Andrew Blake,and Andrew Zisserman.序列图像的运动去模糊和超分辨率。ECCV,1996年。[6] 艾扬·查克拉巴蒂盲运动去模糊的神经方法。ECCV,2016。[7] 放大图片作者:Ayan Chakrabarti.Zickler,and WilliamT.弗里曼。分析空间变化模糊。2010年,加拿大残疾人协会[8] 戴胜阳和吴英。侠影的动作。CVPR,2008年。[9] 放 大 图 片 作 者 : Rob Fergus , Barun Singh , AaronHertzmann,Sam T. Roweis和William T.弗里曼。从单张照片中消除相机抖动。SIGGRAPH,2006.[10] Mi cha eülGharbi , Gaura vChaurasia , Syl vainParis ,andFre´doDurand. 深 度 联 合 去 马 赛 克 和 去 噪 。 SIG-GRAPH Asia,2016.[11] Dong Gong,Jie Yang,Lingqiao Liu,Yanning Zhang,Ian Reid,Chunhua Shen,Anton van den Hengel,andQinfeng Shi. 从运动模糊到运动流:用于消除异构运动模糊的深度学习CVPR,2017年。[12] 塞 缪 尔 ·W. 放 大 图 片 创 作 者 : Jonathan T. Barron ,Florian Kainz,Jiawen Chen,and Marc Levoy.用于移动相机的高动态范围和低光照成像的连拍SIGGRAPHAsia,2016.[13] Eddy Ilg , Nikolaus Mayer , Tonmoy Saikia , MargretKeuper,Alexey Dosovitskiy,and Thomas Brox.Flownet2.0:深度网络光流估计的演变。CVPR,2017年。[14] 蒋怀祖,孙德清,Varun Jampani,杨明轩,Erik G.Learned-Miller和Jan Kautz。超级斯洛莫:用于视频内插的多个中间帧的高质量估计。CVPR,2018年。[15] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。CoRR,abs/1412.6980,2014。[16] Yann Lecun , B.博 泽, J. S. Denker 、D. 亨 德森 河 E.Howard,W.Hubbard和L.D.杰克反向传播算法在手写体邮政编码识别中的应用。神经计算,1989年。[17] Anat Levin 利用图像统计的盲运动去模糊。NIPS,2006年。[18] 刘策。超越像素:探索运动分析的新表示和应用。博士论文,麻省理工学院,2009年。[19] 安德鲁湖,加-地Awni Y. MaasHannun和Andrew Y.Ng.整流器的非线性改善了神经网络声学模型。ICML,2013年。[20] MorganMcGuire , PadraicHennessy , MichaelBukowski,and Brian Osman.一种用于似然运动模糊的重建滤波器。ACM SIGGRAPH Symposium on Interactive3D Graphics and Games,2012。[21] 作 者 : Jonathan T. Barron , Jiawen Chen , DillonSharlet,Ren Ng,and Robert Carroll.使用核预测网络进行突发去噪。CVPR,2018年。[22] Fernando Navarro,Francisco J.塞恩和迭戈·古铁雷斯运动模糊渲染:最新技术水平。计算机图形学论坛,2011年。[23] Shree K Nayar和Moshe Ben-Ezra。基于运动的运动去模糊。TPAMI,2004年。[24] 西蒙·尼克劳斯和凤琉。用于视频帧内插的上下文感知合成。CVPR,2018年。[25] 西蒙·尼克劳斯、龙迈、风流。基于自适应卷积的视频帧CVPR,2017年。[26] 西蒙·尼克劳斯、龙迈、风流。基于自适应可分离卷积的视频帧ICCV,2017年。[27] JeromeRevaud,PhilippeWeinzaepfel,ZaidHarchaoui,and Cordelia Schmid. EpicFlow:光流对应的边缘保持插值。CVPR,2015年。[28] Olaf Ronneberger,Philipp Fischer,and Thomas Brox.U-网:用于生物医学图像分割的卷积网络MICCAI,2015.[29] Pratul P. Srinivasan,Rahul Garg,Neal Wadhwa,RenNg,and Jonathan T.巴伦用于单目深度估计的孔径监督CVPR,2018年。[30] 孙德清、杨晓东、刘明宇和Jan Kautz。Pwc-net:使用金字塔、扭曲和成本体积的光流的Cnns。CVPR,2018年。[31] Jian Sun,Wenfei Cao,Zongben Xu,and Jean Ponce. 学习用于非均匀运动模糊去除的卷积神经网络。CVPR,2015年。[32] 放大图片作者:David E.作者:Jacobs,Bryan E.放大图片 作 者 : Robert Carroll , Yair Movshovitz- Attias ,Jonathan T.Barron,Yael Pritch,and Marc Levoy.用单摄像头手机合成景深。SIGGRAPH,2018.[33] Jacob Walker Abhinav Gupta和Martial Hebert从静态图像进行密集光流预测。ICCV,2015年。[34] Tianfan Xue,Baian Chen,Jiajun Wu,Donglai Wei,and William T Freeman.具有面向任务流的视频增强。arXiv,2017.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功