没有合适的资源?快使用搜索试试~ 我知道了~
基于学习的视频运动放大Tae-HyunOh1,Ronnachai Jaroensri1,Changil Kim1,MohamedElgharib2,Fr´edoDurrandd1,WilliamT. 从1、3和W开始,在用户1处执行M1MIT CSAIL,Cambridge,MA,USA2HBKU QCRI,多哈,卡塔尔3谷歌研究{taehyun,tiam}@ csail.mit.edu抽象。视频运动放大技术允许我们看到以前肉眼不可见的微小运动,例如振动的飞机机翼,或在风的影响下摇摆的建筑物因为运动很小,所以放大结果容易产生噪声或过度模糊。现有技术依赖于手工设计的过滤器来提取可能不是最佳的表示在本文中,我们试图使用深度卷积神经网络直接从示例中学习滤波器。为了使训练变得容易处理,我们精心设计了一个合成数据集,可以很好地捕捉小的运动,并使用两帧输入进行训练。我们表明,学习的滤波器实现了高质量的结果,真实的视频,较少的振铃伪影和更好的噪声特性比以前的方法。虽然我们的模型没有用时间滤波器训练,但我们发现时间滤波器可以与我们提取的表示一起使用,直到中等放大率,从而实现基于频率的运动选择。最后,我们分析了学习的过滤器,并表明他们的行为类似的衍生过滤器在以前的作品中使用。我们的代码、训练模型和数据集将在线提供关键词:运动操纵·运动放大,深度卷积神经网络1介绍辨别小运动的能力使得能够实现重要的应用,诸如不确定性和建筑物的结构特征[ 3]以及建筑物的生命体征[1]。视频运动放大技术使我们能够感知这样的运动。这是一项困难的任务,因为运动是如此之小,以至于它们无法与噪声区分开来。因此,当前的视频放大技术遭受噪声输出和过度模糊,特别是当放大因子较大时[24,27,25,28]。当前的视频放大技术通常将视频帧分解成允许它们放大运动的表示[24,27,25,28]。它们的分解通常依赖于手工设计的滤波器,例如复杂的可转向滤波器[6],其可能不是最佳的。在本文中,我们试图学习这些作者贡献相等。2T. Oh等人原始帧原始帧[Zhang等人2017年]我们我们[Wadhwa等人二〇一三年]Fig. 1.虽然我们的模型从综合生成的输入中学习空间分解滤波器,但它在真实视频上表现良好,结果显示出更少的振铃伪影和噪声。(左)使用与Wadhwa等人相同的时间滤波器放大75倍的crane序列。[24]第10段。(右)动态模式放大了连续帧之间的差异(速度),使我们能够像Zhang等人那样处理大运动。[28]第10段。红线指示用于绘制x-t和y-t切片视图的采样区域使用深度卷积神经网络(CNN)直接从示例进行分解滤波器由于真实的运动放大视频对很难获得,我们设计了一个合成数据集,真实地模拟小的运动。我们仔细地插值像素值,并且我们明确地建模量化,这可以舍入子级别的值,导致子像素运动。这些谨慎的考虑使我们能够训练一个在真实视频中泛化良好的网络作者:Wadhwaet al. [24],我们设计了一个由三个主要部分组成的网络:空间分解滤波器、表示操纵器和重建滤波器。为了使训练易于处理,我们使用两帧输入简化了我们的训练,并将放大的差异作为目标,而不是完全指定运动的时间方面。尽管在简化的两帧设置和合成数据上进行了训练,但我们的网络实现了更好的噪声性能,并且具有更少的边缘伪影(见图1)。①的人。我们的研究结果还表明,学习表示支持线性操作足以与线性时间滤波器使用到一个中等的放大倍数。这使我们能够基于感兴趣的频带选择运动最后,我们将学习的过滤器和激活可视化,以便更好地理解网络已经学习的内容虽然滤波器权重本身没有示出明显的模式,但是我们学习的(非线性)滤波器的线性近似类似于导数滤波器,其是现有技术中的分解滤波器的基础[27,24]。本文的主要贡献如下:– 我们提出了第一个基于学习的视频运动放大的方法,它实现了高质量的放大与更少的振铃文物,并具有更好的噪声特性。– 我们提出了一种合成数据生成方法,可以捕获小的运动,使学习的过滤器在真实视频中很好地泛化。– 我们分析了我们的模型,并表明,我们的学习过滤器表现出相似的以前手工设计的过滤器。我们将在线发布代码,训练模型和数据集。基于学习的视频运动放大3al方法Liu等.[13] Wuet al.[27日]Wadhwa等人[24]WadhwaetZhanget al. [28]我们. [25日]空间decom-跟踪,光学拉普拉斯派拉-可控滤波器Riesz金字塔可控滤波器深度卷积-位置流中期离子层运动等值线tion-时间带-时间带通减法或通滤波器滤波器滤波器滤波器(第二阶时间带-导数)通滤波器代表a-期望-去噪最大化-振幅加权可训练卷积-高斯滤波高斯滤波高斯滤波表1.现有技术的比较。2相关工作视频运动放大。运动放大技术可以分为两类:拉格朗日方法和欧拉方法。拉格朗日方法显式地提取运动场(光流)并使用它来直接移动像素[13]。另一方面,欧拉方法[27,24,25]将视频帧分解为便于操纵运动的表示这些技术通常包括三个阶段:将帧分解成可替换的表示,操纵该表示,以及将操纵的表示重建成放大的帧。Wu等[27]使用的空间分解的一阶泰勒展开的动机,而Wadhwa等人。[24,25]使用复杂的可转向金字塔[6]来提取基于相位的表示。当前的欧拉技术擅长揭示细微的运动,但它们是手工设计的[27,24,25],并且没有考虑到许多问题,例如遮挡。正因为如此,它们容易产生噪声,并且经常遭受过度模糊。我们的技术属于欧拉方法,但我们的分解是直接从例子中学习的,因此它具有更少的边缘伪影和更好的噪声特性。先前的运动放大技术的一个关键组成部分是在表示上的多帧时间滤波,这有助于隔离感兴趣的运动并防止噪声被放大。Wu等[27]和Wadhwaet al. [24,25]利用标准频率带通滤波器。他们的方法实现了高质量的结果,但当输入视频中发生大的运动或漂移时,Elgharib等人[4]和Zhanget al.[28]解决这个限制。Elgharib等人[4]使用仿射变换对大运动进行建模,而Zhanget al.[28]使用等效于二阶导数不同时间处理(即,加速度)。另一方面,我们的方法实现了相当的质量,即使不使用时间滤波。我们的方法与现有技术的比较总结在表1中。用于视频合成的深度表示。帧内插可以被视为运动放大问题的补充问题,其中放大因子小于1。 最近的技术通过使用光流[10,26,14]或像素移位卷积核[17,18]显式地移位像素来展示高质量的结果。然而,当改变操纵因子时,这些技术通常需要重新训练。我们的表示可以直接配置为不同的放大倍数,而无需重新训练。为4T. Oh等人对于帧外推,存在一系列最近的工作[16,22,23],其直接合成RGB像素值以预测未来的动态视频帧,但是它们的结果通常是模糊的。我们的工作重点是放大视频中的运动,而不关心未来会发生什么。3基于学习的运动放大在本节中,我们将介绍运动放大问题和我们的学习设置。然后,我们解释我们如何简化学习,使其易于处理。最后,我们描述了网络架构,并给出了我们的数据集生成的全部细节3.1问题陈述Wefol llowwWuetal. 是的,我也是。的设计,并在motionmagnification[27,24]。即,给定图像I(x,t)= f(x+ δ(x,t)),其中δ(x,t)表示作为位置x和时间t的函数的运动场,运动放大的目标是放大运动,使得放大的图像I ~f(x,t)变为I~(x,t)=f(x+(1+α)δ(x,t)), (1)其中α是放大因子。在实践中,我们只想放大用于选择感兴趣运动的选择器T(·)的特定信号δ~(x,t)=T(δ(x,t)),该选择器通常是时间带通滤波器[24,27]。虽然先前的技术依赖于手工制作的滤波器[24,27],但我们的目标是学习一组滤波器,其提取并操纵运动信号δ(x,t)的表示以生成输出放大帧。为了简化我们的训练,我们考虑一个简单的两帧输入情况。具体地,我们生成具有小运动位移的两个输入帧Xa和Xb,以及Xb相对于Xa的输出运动放大帧Y。这将表征每个训练对的参数减少到仅放大因子。虽然这种简化的设置失去了运动的时间方面,但我们将证明网络学习了足够线性的表示。该位移与线性时间滤波器兼容,直到中等放大系数。3.2深度卷积神经网络架构与Wadhwaet al相似。[24],我们的目标是设计一个提取表示的网络,我们可以使用它来简单地通过乘法操作运动因此,我们的网络由三部分组成:编码器Ge(·),操纵器Gm(·)和解码器Gd(·),如图所示。2.编码器充当空间分解滤波器,从单个帧中提取形状表示[9],我们可以使用它来操纵运动(类似于可操纵金字塔和Riesz金字塔的相位[24,25])。操纵器接受此表示并操纵它进行放大基于学习的视频运动放大5解码器放大纹理形状框架雷普河雷普河�放大系数操纵器纹理形状生殖毒性生殖毒性编码器纹理形状生殖毒性生殖毒性编码器输入帧体系结构概述(a)(b)第(1)款图二.我们的网络架构。(a)体系结构概述。我们的网络由3个主要部分组成:编码器,操纵器和解码器。在训练期间,网络的输入是具有放大系数α的两个视频帧(X a,X b),并且输出是从Ya中提取的图像。 (b)为一个合同确定一个日期。Conv k s 表示c个通道、k×k内核大小和步长s的卷积层。运动(通过乘以差值)。最后,解码器将修改后的表示重构为所得到的运动放大帧。我们的编码器和解码器是完全卷积的,这使它们能够在任何分辨率上工作[15]。他们使用残差块来生成高质量的输出[21]。为了减少内存占用并增加感受野大小,我们在编码器开始时将激活下采样2倍,并在解码器结束时对其进行上采样。我们使用跨步卷积[20]进行下采样,并且我们使用最近邻上采样,然后使用卷积层以避免棋盘伪影[19]。我们通过实验发现,编码器中的三个3×3残差块和解码器中的九个残差块通常会产生良好的结果。而Eq。(1)表明没有强度变化(常数f(·)),但这通常不是真的。这使得我们的网络也放大了强度变化。为了应对这一点,我们引入了来自编码器的另一输出,其表示强度信息(“tex tur re rep re s e n t at i on”[ 9]),其与可分级金字塔分解的幅度相似。这种表示减少了不期望的强度放大以及最终输出中的噪声。我们将表示进一步下采样2倍,因为它有助于降低噪声。我们将编码器的纹理和形状表示输出分别表示为V =Ge,texture(X)和M =Ge,shape在训练过程中,我们添加正则化损失来分离这两个表示,我们将在后面更详细地讨论。我们想要学习关于δ(x,t)线性的形状表示M。因此,我们的操纵器通过取两个给定帧的形状表示之间的差异,并直接乘以放大因子来工作。也就是说,Gm(M a,M b,α)= M a+ α(M b−Ma).(二)编码器操纵器形状代表纹理生殖毒性g(·)形状形状生殖生殖毒性Res. Blk.[/2,/2,32]h(·)Conv32_k3s1解码器9 Res.黑人纹理生殖毒性形状:不可训练层:转换层:残留块共享ConvReLuConv[/2,/2,32]ReLuConv32_k3s1输出[,,3]Conv3_ k7s1[,,32]Conv32_k3s1-ReLu[,,64]上采样Res. Blk.Res. Blk.Res.Blk.Res. Blk.Res.[/4,/4,32][/2,/2,32]热鲁热鲁Conv32_k3s2Conv32_k3s1Res. Blk.Res. Blk.Res. Blk.[/2,/2,32]Conv32_k3s2-ReLu[,,16]Conv16_k7s1-ReLu[,,3]输入Res. Blk.[/2,/2,64]康卡特[/2,/2,32]上采样6T. Oh等人B线性非线性图三.线性与非线性机械手的比较。 虽然两个操纵器能够放大运动,但线性操纵器(左)有时会模糊强边缘(上),并且更容易出现噪波(下)。机械手中的非线性减少了这个问题(右)。在实践中,我们发现操纵器中的一些非线性改善了结果的质量(见图11)。(3)第三章。即Gm(Ma, Mb,α)=Ma+h(α·g(Mb− Ma)),(3)其中,g(·)由3× 3卷积后接ReLU表示,h(·)是3× 3卷积后接3×3残差块。损 失 函 数 我 们 以 端 到 端 的 方 式 训 练 整 个 网 络 。 我 们 使 用 l1-losbettweenthenetworkoututYandthegreound-truthmagniedframeY 。 当 使 用更高级的损失时,我们没有发现明显的质量差异,例如感知[8]或对抗性损失[7]。为了驱动分离的纹理和形状表示,我们扰动一些帧的强度,并期望扰动帧的纹理表示是相同的,而它们的形状表示保持不变。具体来说,我们创建扰动框架X′和Y′,其中素数符号b′ ′表示颜色扰动。然后,我们在Vb和VY之间施加损失(每-turbed frames),Va和Vb(un-perturbedframes),以及M′和Mb(shape的扰动帧应保持不变)。我们对所有正则化都使用l1因此,我们通过最小化最终损失来训练整个网络G函数在L1(Y,Y()+λ(L1(Va,Vb)+ L1(V′,V′)+ L1(Mb,M′))上,其中λ是b Y b正则化权重(设置为0. ①的人。训练 我们使用ADAM [11],其中β1= 0。9和β2= 0。999以最小化批量大小为4的我们将学习率设置为10−4,没有权重衰减。为了提高对噪声的鲁棒性,我们添加了具有随机强度的泊松噪声,其标准差在0 - 255尺度上对于中等灰度像素高达3将2帧设置应用于视频由于在训练过程中没有时间概念,因此只要输入有两帧,我们的网络就可以应用基于学习的视频运动放大7我们考虑两种不同的模式,其中我们使用不同的帧作为参考。 静态模式以第一帧为参照,动态模式以第二帧为参照,即第一帧为参考,动态模式以第二帧为参照。我们将(Xt−1, Xt)视为动态模式中的输入直观地,静态模式遵循如在等式(1)中定义(1),而动态模式放大连续帧之间的差异(速度请注意,在每种情况下,放大因子具有不同的含义,因为我们分别放大了相对于固定参考的运动和速度。因为没有时间滤波器,所以不期望的运动和噪声很快成为问题,因为放大率因素增加,实现高质量的结果更具挑战性。临时操作。即使我们的网络只在2帧设置中进行了训练,我们发现形状表示在w.r.t上是足够线性的。该位移与线性时间滤波器兼容。给定视频的形状表示M(t)(逐帧提取),我们用跨操纵器G_m(·)中的时间轴的逐像素时间滤波器T(·)替换差分运算。也就是说,操纵器的时间滤波版本Gm,tem_po_al(·)Gm,temporal(M(t),α)= M(t)+ αT(M(t)).(四)解码器采用当前帧的经时间滤波的形状表示和纹理表示,并且生成经时间滤波的运动放大帧。3.3合成训练数据集获得真实的运动放大视频对是具有挑战性的。因此,我们利用可以大量生成的合成数据。然而,模拟小运动涉及若干考虑,因为任何小误差将相对较大。我们的数据集经过精心设计,我们稍后将展示在此数据上训练的网络可以很好地推广到真实视频。在本节中,我们将描述在生成数据集时的注意事项。前景对象和背景图像。我们利用真实的图像数据集,其现实的纹理。我们使用来自MS COCO数据集[12]的200,000张图像作为背景,使用PASCAL VOC数据集[5]的7,000个分割对象作为前景。随着运动被放大,填充遮挡区域变得很重要,因此我们将前景对象直接粘贴到背景上以模拟遮挡效果。每个训练样本包含7到15个前景对象,从其原始大小随机缩放我们将缩放因子限制为2,以避免纹理模糊。背景和每个对象的运动量和方向也是随机的,以确保网络学习局部运动。低对比度纹理、全局运动和静态场景。前面段落中描述的训练示例在前景和背景相遇的地方充满了尖锐和强这会导致网络在低对比度纹理上的泛化能力为了提高这些情况下的泛化能力,我们8T. Oh等人增加两类例子:其中1)背景是模糊的,以及2)场景中仅存在移动背景以模仿大对象。这些改进了在真实视频中的大的和低对比度对象上的性能。微小的运动可能与噪声难以区分。我们发现,在数据集中包含静态场景有助于网络学习仅由噪声引起的变化我们添加另外两个子集,其中1)场景是完全静态的,并且2)背景不动,但前景在动。有了这些,我们的数据集总共包含5个部分,每个部分包含20,000个384×384图像的样本我们的数据集的例子可以在补充材料中找到。输入运动和放大系数。运动放大技术被设计成以高放大率放大小运动当放大的运动很大时(例如>30像素)。为了确保任务的可学习性,我们仔细地参数化每个训练示例,以确保它在定义的范围内具体来说,我们将放大因子α限制为100,并对输入运动进行采样(最多10个像素),以便放大的运动不超过30个像素。亚像素运动生成。亚像素运动如何表现取决于去马赛克算法和相机传感器模式。幸运的是,尽管我们的原始图像已经被去马赛克,但它们具有足够高的分辨率,可以对其进行下采样,以避免去马赛克产生的伪影为了确保正确的重新采样,我们在应用平移或调整大小之前在连续域中重建图像。我们发现,我们的结果是不敏感的插值方法使用,所以我们选择双三次插值的重建。为了减少少量平移所导致的误差,我们首先以更高的分辨率(其中运动看起来更大)生成我们的数据集,然后将每个帧下采样到所需的大小。我们通过在目标域中应用内核为1个像素的高斯滤波器来减少下采样时的混叠。子像素运动表现为通常低于8位量化水平的小强度变化。这些变化通常是四舍五入,特别是对于低对比度区域。为了解决这个问题,我们在量化图像之前添加均匀的量化噪声。这样,每个像素都有机会与其舍入残差成比例地向上舍入(例如,如果像素值为102.3,则将有30%的机会向上舍入)。4结果和评价在本节中,我们将展示我们提出的网络的有效性,并分析其中间表示,以阐明它的作用。我们与最先进的[24]进行了定性和定量比较,并表明我们的网络在许多方面表现更好。最后,我们讨论了我们工作的局限性。比较视频可在我们的补充材料中找到。基于学习的视频运动放大9(a)阶段(b)我们的(c)输入(d)阶段(e)我们的见图4。定性比较。(a,b)婴儿序列(20×)。(c,d,e)平衡序列(8×)。基于相位的方法显示出比我们的边缘(左)和遮挡边界(右)附近更多的振铃伪影和模糊我们的静态模式我们的时间滤波器基于相位的时间滤波器[24]图五.时间滤波器减少伪影。我们的方法受益于应用时间滤波器(中间);模糊伪影减少。尽管如此,即使没有时间滤波器(左),我们的方法仍然比基于相位的方法(右)更好地保留边缘,这显示了严重的振铃伪影。4.1与最新技术水平的在本节中,我们将我们的方法与最先进的方法进行比较。由于Riesz金字塔[25]给出了与可操纵金字塔[24]相似的结果,因此我们将比较集中在可操纵金字塔上。我们进行定性和定量评估如下。除非另有说明,否则本节中的所有结果均使用时间滤波器进行处理定性比较我们的方法很好地保留了边缘,并且具有更少的振铃伪影。图4显示了balance和baby序列的比较,它们分别经过时间滤波和放大10倍和20倍基于相位的方法显示出显著的振铃伪影,而我们的方法几乎没有伪影。这是因为我们的表示是从示例运动端到端训练的,而基于相位的方法依赖于手工设计的多尺度表示,其不能很好地处理强边缘。时间滤波器的效果我们的方法不是使用时间滤波器训练的,因此使用滤波器来选择运动可能导致不正确的结果。为了验证这一点,我们考虑吉他序列,其中显示弦振动在10T. Oh等人或者,在一个实施例中,我们的(动态模型)Zhangetal。[28日]见图6。在2帧设置中应用我们的网络。我们将我们的网络应用于动态模式与加速度放大[28]进行了比较。 因为[28]是基于复杂的可操纵金字塔,所以他们的结果遭受振铃伪影和模糊。不同的频率。图7示出了使用不同时间滤波器对吉他序列的25倍放大结果每个时间过滤器都正确地选择了字符串,这表明时间过滤器与我们的表示正确地工作。时间处理可以提高结果的质量,因为它可以防止我们的网络放大不必要的运动。图5示出了滚筒序列的比较。时间滤波器减少了当我们使用两帧(静态模式)放大然而,即使不使用时间滤波器,我们的方法仍然很好地保留了边缘,并且没有显示振铃伪影。相比之下,基于相位的方法即使在应用时间滤波器时也示出显著的振铃伪影。两帧设置结果应用我们的网络与两帧输入对应最好的训练。我们考虑使用我们的网络(动态模式)放大连续帧,并将结果与Zhang等人的结果进行比较。[28]第10段。图6示出了枪序列的结果,其中我们在没有时间滤波器的动态模式下应用我们的网络。和以前一样,我们的结果几乎没有伪影,而Zhang等人。由于他们的方法也是基于复杂的可操纵金字塔,因此受到振铃伪影和过度模糊的影响注意,我们在动态模式中的放大因子可能具有与Zhang等人不同的含义,但是我们发现,对于这个特定的序列,使用相同的放大因子(8×)产生了大致相同大小的放大运动定量分析相运动放大技术的优势在于其能够以高放大倍数可视化亚像素运动,同时对噪声具有弹性。为了量化这些优势,并了解我们的方法的限制,我们定量评估我们的方法,并比较它与基于相位的方法的各种因素。我们希望专注于比较表示而不是时间处理,因此我们生成运动是单频正弦曲线的合成示例,并使用具有以下特性的时间滤波器基于学习的视频运动放大11振幅|F()个|10500 50 100 150 200 250300频率(Hz)输入72-92Hz100-125Hz125-175Hz见图7。不同频带的时间滤波(左)每个字符串上像素的强度信号。(右)使用不同时间滤波器的结果的y-t我们的表示是线性的,足以与时间滤波器兼容从上到下的字符串对应于第6到第4个字符串。每根弦以不同的频率振动,这些频率由相应的时间滤波器正确选择为了可视化的目的,我们反转y-t切片的颜色。(a) 子像素运动性能(b)具有小输入的噪声性能(c)具有大输入的噪声性能推杆动作(0.05像素)推杆动作(5像素)图8. 定量分析相(a)亚像素测试,我们的网络表现良好0.01像素,并且始终优于基于相位的[24]。(b、c)不同输入水平的噪声测试。 我们的工作的性能是高的highandisconns-intentionally优于相位为基础的,其性能下降到基线水平的噪声因子超过1。我们在(b)中的性能比(c)更差,因为运动更小,这是预期的,因为更小的运动更难与噪声区分开。宽通带4因为我们的网络是在没有时间滤波器的情况下训练的,所以我们在没有时间滤波器的情况下测试了我们的方法,但是我们在基于相位的方法中使用了时间滤波器。我们在图中总结了结果。8及其参数范围在补充材料中。对于亚像素运动测试,我们生成具有范围从0. 01到1像素。我们改变放大因子α,使得放大的运动为10个像素。没有添加噪音此外,我们将背景移动相同的运动量,但与所有前景对象的方向不同这确保了没有任何方法可以通过简单地复制背景来做得很好。4我们的运动是3 Hz,30 fps,使用的时间滤波器是30抽头FIR,通带在0.5 -7.5Hz之间。12T. Oh等人在噪声测试中,我们固定了输入运动量和放大因子,并将噪声添加到输入帧中。在这种情况下,我们不移动背景。为了模拟光子噪声,我们创建一个噪声图像,其方差等于原始图像中每个像素的值。乘性噪声因子控制要添加的噪声图像的最终强度。因为放大的运动不是非常大(10个像素),所以输入和输出放大帧可以很大程度上类似。除了基于相位的方法之外,我们还计算输入和输出帧之间的SSIM作为基线参考。在所有测试中,我们的方法比基于相位的方法表现更好。如图8-(a)显示,我们的子像素性能一直保持高水平,0.01像素,并且当运动增加到0.02像素以上时,它超过基于相位的性能的1个标准偏差有趣的是,尽管只在100倍放大率下进行训练,但网络在最小输入运动(0.01)下表现相当好,放大倍数达到1000倍。这表明,我们的网络更受其需要生成的输出运动量的限制,而不是给定的放大因子。图图8-(b,c)示出了在具有不同量的输入运动的噪声条件下的测试结果在所有情况下,我们的方法的性能始终高于基于相位的方法,当噪声因子增加到1.0以上时,基于相位的方法会迅速下降到基线水平。在不同的输入运动之间进行比较,随着输入运动变得更小,我们的性能下降得更快(参见图11)。8-(b,c))。这是预期的,因为当运动较小时,将实际运动与噪声区分开变得更困难。这些测试的一些视频输出包含在补充材料中。4.2我们方法在我们几乎所有的真实测试视频中,由我们的方法产生的结果运动与[24]产生的运动具有相似的幅度,并且与[24]产生的运动同相(见图2)。(1)补充视频。这表明,我们的方法至少是物理上准确的相位为基础的方法,同时表现出更少的文物。我们还从[24]的作者那里获得了锤击序列,其中可使用加速计测量。我们将加速度计信号积分两倍,并使用零相位高通滤波器来消除漂移。如图10显示,结果信号(蓝线)与我们的10倍放大(无时间滤波器)结果匹配良好,表明我们的方法在物理上是准确的。4.3可视化网络激活深度神经网络在各种视觉任务中实现了高性能,但其内部工作原理在很大程度上仍是未知的在本节中,我们将分析我们的网络以了解它的作用,并展示它提取与任务相关的信息我们分析了响应的编码器,通过近似基于学习的视频运动放大13类Gabor滤波器类拉普拉斯滤波器类角点检测器滤波器见图9。近似形状编码器内核。我们近似我们的(非线性)空间编码器作为线性卷积核,并显示近似误差的前8名这些内核类似于方向边缘检测器(左)、拉普拉斯算子(中)和类角检测器(右)。见图10。放大输出与两次积分加速度计测量结果(蓝线)之间的比较。我们的结果和加速度计信号匹配密切。作为线性系统。我们通过编码器传递几个测试图像,并计算跨图像的平均脉冲响应图图9示出了编码器的存储器的线性标记应用程序的样本。大多数响应类似于Gabor滤波器和拉普拉斯滤波器,这表明我们的网络学习提取与复杂可操纵滤波器类似的信息[24]。相比之下,纹理核响应显示出许多模糊核。4.4限制虽然我们的网络在2帧设置中表现良好,但当放大因子较高且运动较小时,其性能随时间滤波器而图图11示出了随着放大因子的增加而经时间滤波的放大合成视频的示例帧随着放大因子的增加,模糊变得突出,并且当放大因子超过网络所训练的放大因子时,出现强烈的颜色伪影。在一些真实的视频中,我们的方法与时间滤波器似乎是盲目的非常小的运动。这会导致局部放大,其中当某些块的运动足够大以使网络能够看到时,它们偶尔会被放大图12示出了与基于相位的方法[24]相比的眼睛序列的放大结果。我们的放大结果显示很少的运动,除了在几个场合,而基于相位的方法揭示了更丰富的虹膜运动。我们希望在我们的网络上看到一些使用时间过滤器运行的伪影,因为它不是训练的对象。然而,这限制了其在时间滤波器对于选择小的14T. Oh等人原框20× 50× 300×见图11。高放大倍数下的时间滤波结果。 我们的技术与时间滤波器仅在较低的放大倍数。当放大倍数超过20倍时,质量会下降。输入我们的带有时间滤波器基于阶段[24]见图12。我们的一个失败案例。我们的方法是不完全兼容的时间滤波器。该眼睛序列具有需要时间滤波器来提取的小运动。我们的方法是盲目的这种运动,并产生一个相对静止的运动,而基于相位的方法是能够揭示它。感兴趣的动议提高与时间滤波器的兼容性将是未来工作的重要方向。5结论当前的运动放大技术基于手工设计的滤波器,并且易于产生噪声和过度模糊。我们提出了一种新的基于学习的运动放大方法,旨在直接从数据中学习滤波器。我们通过使用两帧输入设置来简化训练,使其易于处理。我们生成了一组精心设计的合成数据,这些数据捕捉了的小动作。尽管有这些简化,我们表明我们的网络表现良好,并且具有更少的边缘伪影和更好的噪声特性。我们的方法是兼容的时间滤波器,并取得了良好的效果,以一个温和的放大倍数。提高与时间滤波器的兼容性,使其在更高的放大倍率下工作是未来工作的重要方向。谢谢。作者要感谢卡塔尔计算研究所、丰田研究所和壳牌研究所对本项目的大力支持。Changil Kim获得了瑞士国家科学基金会奖学金P2EZP2 168785的支持。基于学习的视频运动放大15引用1. Balakrishnan,G.,Durand,F.,Guttag,J.:从视频中的头部运动检测脉搏。在:IEEE Conf.在计算机上。目视和模式识别。(二零一三年)2. 鲍德Zhou,B.,(1991年),中国地质大学,Khosla,A.Oliva,A.,Torralba,A.:网络解剖:深层视觉表征的量化解释性在:IEEE Conf.在计算机上。目视和模式识别。(2017年)3. Cha,Y. J. C hen,J., Buuukoztur k,O. 利用基于相位的光流和无迹卡尔曼滤波器,可以简单地实现基于相位的图像检测。EngineeringStructu res132,300- 313(2017)4. Elgharib,文学硕士,Hefeeda,M.,Durand,F.,弗里曼,W.T.:存在大运动时的视频放大。在:IEEE Conf.在计算机上。目视和模式识别。(2015年)5. Everingham,M.凡古尔湖威廉姆斯,C.K.I.,Winn,J.,齐瑟曼,A.:该部分内容通常包含(voc)challenge。Int. J. C〇mputt. Vis. 88(2),3036. 弗里曼,W. T.,Adelson,E.H.:可操纵滤波器的设计和使用IEEETrans.PatternA nal.Mach。我告诉你。13(9),8917. Isola,P.,Zhu,J.Y.,周,T.,Efros,A.A.:使用条件对抗网络的图像到图像翻译。在:IEEE Conf.在计算机上。目视和模式识别。(2017年)8. Johnson,J.,Alahi,A.,李菲菲:实时风格转换和超分辨率的感知损失。In:Eur.Conf. 在计算机上。目视Springer(2016)9. Jones,M.J.,Poggio,T.:多维可变形模型:一个用于表示和管理数据库的框架。 Int. J. C〇mputt. Vis. 29(2),10710. Kalantari,N.K.,Wang T.C. Ramamoorthi,R.:基于学习的光场相机视图合成。 ACMTrans. Graph. (S1GGRAPHAsia)35(6),19311. 金玛,D.P.,Ba,J.:Adam:随机最佳化的方法arXiv预印本arXiv:1412.6980(2014)12. 林,T. 是的, 我是M Belongie,S., 嗨,J., Perona,P., Ramanan,D. ,Dolla'r,P.,Zitnick,C.L.:微软coco:上下文中的公用对象。In:Eur. Conf. on Comput。目视Spuringer(2014)13. 刘,C.,Torralba,A.,弗里曼,W. T.,Durand,F.,Adelson,E.H.:运动放大器。ACMTrans.Graph. (SIGGRAPH)24(3),51914. 刘志,是的,R.A.,唐,X.,Liu,Y.,Agarwala,A.:使用深度体素流的视频帧合成。在:IEEE国际Conf. 在计算机上。目视(2017年)15. 朗J Shelhamer,E.,达雷尔,T.:用于语义分段的全卷积网络。在:IEEE Conf.在计算机上。目视和模式识别。(2015年)16. Mathieu,M.,库普利角LeCun,Y.:超越均方误差的深度多尺度视频预测。国际学术会议。代表(2016)17. 尼克劳斯,S.,迈湖Liu,F.:基于自适应卷积的视频帧内插IEEE计算会议。目视和模式识别。(2017年)18. 尼克劳斯,S.,迈湖Liu,F.:基于自适应可分离卷积的视频帧内插。在:IEEE国际Conf. on Comput。目视(2017年)19. Odena,A.,Dumoulin,V.,Olah,C.:反卷积和棋盘式伪影。Distill 1(10),e3(2016)20. Radford,A.梅斯湖Chintala,S.:使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv:1511.06434(2015)16T. Oh等人21. 是我的错M 美国, S cho?l k o p f,B., H i rsch,M. :EnhanceNet:通过自动纹理合成来更新图像。在:IEEE国际Conf. 在计算机上。目视(2017年)22. Srivastava,N.,Mansimov,E.,Salakhudinov,R.:使用lstms的视频表示的无监督学习In:Int.Conf. 在Mach。学习. (2015年)23. 维勒加斯河杨杰,Hong,S.,林,X.,Lee,H.:分解用于自然视频序列预测的运动和入:国际会议在Learn上。代表(2017)24. Wadhwa,N.,Rubinstein,M.,Durand,F.,弗里曼,W.T.:基于相位的视频运动处理。ACM事务处理图表(SIGGRAPH)32(4),80(2013)25. Wadhwa,N.,Rubinstein,M.,Durand,F.,弗里曼,W.T.:Riesz金字塔用于快速相位视频放大。在:IEEE国际Conf. 在计算机上。照片(2014年)26. 王,T.,Zhu,J.,Kalantari,N.K.,埃夫罗斯,匿名戒酒会Ramamoorthi,R.:使用基于学习的混合成像系统的光场视频捕获。ACM事务处理图表(SIGGRAPH)36⑷,133:127. Wu , H.Y. , Rubinstein , M. , Shih , E. , Guttag , J. , Durand , F. ,Freeman,W.:欧拉视频放大,用于揭示世界的微妙变化。ACM事务处理图表(SIGGRAPH)31(4),6528. 张玉,Pintea,S.L.,van Gemert,J.C.:视频加速放大。在:IEEE Conf.在计算机上。目视和模式识别。(2017年)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功