视频去模糊：基于深度学习的方法与应用

84 浏览量更新于2023-10-15 收藏 2.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1手持式摄像机苏硕辰英属哥伦比亚Mauricio DelbracioUniversidaddelaRepu'blica王爵土坯研究杜克大学沃尔夫冈·海德里希·卡斯特奥多比研究摘要由相机抖动引起的运动模糊是手持设备捕获的视频中的主要问题。与单图像去模糊不同，基于视频的方法可以利用相邻帧之间存在的丰富信息。因此，性能最好的方法依赖于附近帧的对齐。然而，对准图像是计算上昂贵且脆弱的过程，并且因此聚合信息的方法必须能够识别哪些区域已经被准确对准以及哪些没有被准确对准，这是需要高水平场景理解的任务在这项工作中，我们引入了一种深度学习解决方案来进行视频去模糊，其中CNN被端到端地训练，以学习如何跨帧积累信息。为了训练这个网络，我们收集了一个用高帧率相机记录的真实视频数据集，我们用它来生成合成运动模糊以进行监督。我们表明，从这个数据集学习的功能扩展到去模糊运动模糊，这是由于相机抖动在广泛的视频，并比较结果的质量与其他基线的数量1。1. 介绍手持视频捕获设备现在是常见的。因此，视频稳定化已成为视频捕获流水线中的必要iPhone、GooglePixel ），或者作为共享平台上的服务（例如，Youtube、Facebook）。虽然稳定技术已大大改善，剩余的运动模糊是一个主要问题，与所有的稳定技术。这是因为当没有运动伴随时，模糊变得明显，产生高度可见的“跳跃”伪影。最后，剩余的相机时代抖动运动模糊限制了在这些伪影变得太明显之前可以应用的稳定量1数据集、预训练模型和源代码可在https://www.cs.ubc.ca/labs/imager/tr/2017/DeepVideoDeblurring上获得图1：通过学习如何从附近的帧中聚合信息，上图：从模糊视频中裁剪连续帧;下图：来自所提出的数据驱动方法的输出，在这种情况下使用简单的单应性对准。最成功的视频去模糊方法是利用相邻帧的杠杆年龄信息来锐化模糊帧，利用大多数握手运动模糊都很短且时间上不相关的事实通过从邻近帧中钻取先前的工作已经表明，通过依赖于幸运成像[4]或加权傅立叶聚集[6]的基于分块的合成，相对于传统的基于去卷积的去模糊方法有与跨多个视频帧聚合信息相关联的主要挑战之一是必须对准不同模糊的帧。这可以通过例如最近邻补丁查找[4]或光流[6]来完成。然而，基于扭曲的对齐在非遮挡和具有低纹理的区域周围不鲁棒除了对齐计算成本之外，依赖于扭曲的方法还具有1279输入提出输入提出1280从而忽略来自未对准内容或扭曲伪像的信息，这通过单独查看局部图像块是很难的。为此，我们提出了第一个端到端的数据驱动的视频去模糊方法，其结果可以在图中看到。1.一、我们特别解决由于手持相机抖动而产生的模糊，即，是时间上不相关的，但是我们表明，我们的去模糊扩展到其他类型的模糊，以及，包括运动模糊对象运动。我们实验了许多基于各种对齐类型的不同学习配置：无对准、逐帧单应性对准和光流对准。平均来说，光流表现最好，尽管在许多情况下投影变换（即，单应性）以所需显著更少的计算来执行并行计算。值得注意的是，我们的方法还能够生成高质量的结果，而无需计算任何对齐或图像扭曲，这使得它非常高效，并且对场景类型具有鲁棒性。这一成功的关键是使用一个自动编码器类型的网络与跳跃连接，增加了接受领域，但很容易训练。我们的主要贡献是一个端到端的解决方案，用于训练深度神经网络，以学习如何在给定一小堆相邻视频帧的情况下去模糊我们描述了我们发现的提供最佳结果的架构，以及我们用于从高帧速率捕获创建真实世界数据集的方法。我们比较定性的视频预处理用于视频去模糊，并与我们的地面实况数据集定量。我们还提出了一个测试集的视频显示，我们的方法推广到广泛的sce- narios。这两个数据集都向公众提供，以鼓励后续工作。2. 相关工作存在两种主要的去模糊方法：基于解卷积的方法，解决逆问题，以及那些依赖于多图像聚合和融合。使用反卷积进行去模糊。现代单图像去模糊方法通过去卷积联合估计模糊核（单个或空间变化）和潜在的清晰图像[23]。近年来，已引入了许多有效的方法[3，8，22，32，39，42，51，52]，最近的调查见[47]。多图像去卷积方法使用附加信息来减轻单图像去模糊的严重不适定性。这些方法收集例如图像突发[14]、模糊-噪声对[53]、闪光无闪光图像对[36]、陀螺仪信息[34]、高帧速率序列[44]或立体声对[38]以用于去模糊。这些方法通常假设静态场景，并且需要对齐输入图像。对于视频，时间信息[25]，光流[17]和场景模型[33，49]已用于改善两者核和潜在帧估计。所有上述方法都强烈依赖于假设的图像退化模型（模糊、运动、噪声）及其估计的准确性，因此当简化的退化模型不足以描述真实数据时，或者由于次优模型估计，可能表现不佳。因此，这些方法往往比基于聚合的方法更脆弱[6]，并且经常引入不希望的伪影，例如振铃和放大的噪声。多图像聚合。多图像融合方法直接在空间域或频域上对多幅图像进行融合，不需要求解任何逆问题。Lucky成像是一个经典的例子，其中多个低质量图像被对齐，并且从不同的图像中选择最佳像素并合并到最终结果中[15，24]。对于去噪，这已经扩展到使用光流[26]或分段单应性[28]进行对齐的视频对于视频去模糊，聚合方法依赖于通常不是所有视频帧都同样模糊的观察。因此，可以从附近的帧转移清晰像素，以使用例如全息对准[30]去模糊目标帧。Cho等人使用基于补丁的对齐[4]进一步扩展了这种方法，以提高对移动对象的鲁棒性然而，该方法不能处理由于底层的全息运动模型而引起的大的深度变化，并且块匹配过程在计算上是昂贵的。Klose等人[20]示出了3D重建可以用于将像素投影到单个参考坐标系中以用于像素融合。然而，对于高度动态的视频，全3D重建可能是脆弱的。最近，Delbracio和Sapiro [5]表明，在傅立叶域中聚合多个对齐的图像可以导致有效且计算效率高的去模糊。该技术被扩展到视频[6]，其中附近的帧通过光流进行扭曲以进行对齐。该方法受光流计算和评价的限制，在遮挡和野值附近不可靠。所有上述方法都有关于如何融合多个图像的明确公式在这项工作中，我们采用数据驱动的方法来学习如何聚合多个图像以生成尽可能清晰的输出。数据驱动的方法。最近，CNN已经被应用于在各种各样的重建问题上取得领先的结果。当可以轻松构建大型训练数据集时，这些方法往往效果最佳，例如通过添加合成噪声进行去噪[50]，重新移动内容进行修复[35]，去除颜色信息进行着色[13]，或缩小超分辨率[7，27]。超分辨率网络在[12，16，40]之前已经应用于视频序列，但是这些方法1281下卷积层上卷积层平坦卷积层Skip连接图2：建议的DeBlurNet模型的架构，将堆叠的附近帧作为输入，并通过许多卷积层联合处理它们，直到生成去模糊的中心帧。每个块的深度表示响应于学习的内核的激活图的数量见table1了解详细配置。解决一个不同的问题，有它自己的一系列挑战。在这项工作中，我们专注于去模糊，模糊的帧可以从它们的邻居在外观上有很大的不同，使信息聚合更具挑战性。CNN也被用于单- [2，43]和多-[48]图像去模糊，使用合成训练数据。合成模糊的一个问题是真实模糊具有显著不同的特性，因为它取决于场景深度和对象运动。在我们的实验中，我们表明，通过利用多个视频帧，对真实模糊进行训练，并直接估计清晰图像，我们的方法可以产生更好的结果。3. 我们的方法概况.图像对齐具有固有的挑战性因为仅利用低级特征就很难确定不同图像中的对准像素是否对应于相同的场景内容。另一方面，高级特征提供了足够的附加信息，以帮助将未正确对齐的图像区域与正确对齐的图像区域分开。为了同时利用低级和高级特征，我们训练了一个端到端的视频去模糊系统，其中输入是相邻帧的堆栈，输出是堆栈中去模糊的中心此外，我们的网络是使用具有逼真合成运动模糊的真实视频帧进行训练的接下来，我们首先介绍了我们的神经网络结构，然后描述了一些实验来评估其有效性，并与现有的方法进行比较我们的方法的主要优点是允许减少对精确对准的要求，这是先前工作的一个脆弱组成部分。3.1. 网络架构我们使用一个编码器-解码器风格的网络，它已经被证明可以为许多生成任务产生良好的结果[35，41]。特别地，我们选择一个变量层内核大小步幅输出大小跳过连接输入F0-5×5-1×115×高 ×宽64×高 ×宽∗至F6 2至U3D13× 32× 264×高/2×宽/2-F113× 31× 1128×H/2×W/2-F1 23× 31× 1128×H/2×W/2到U2D23× 32× 2256×高/4×宽/4-F2 13× 31× 1256×高/4×宽/4-F2 23× 31× 1256×高/4×宽/4-F2 33× 31× 1256×高/4×宽/4至U1D33× 32× 2512×高/8×宽/8-F3 13× 31× 1512×高/8×宽/8-F3 23× 31× 1512×高/8×宽/8-F3 33× 31× 1512×高/8×宽/8-U14× 41/2×1/ 2256×高/4×宽/4从F2 3F4 13× 31× 1256×高/4×宽/4-F4 23× 31× 1256×高/4×宽/4-F4 33× 31× 1256×高/4×宽/4-U24× 41/2×1/ 2128×H/2×W/2关于F1 2F5 13× 31× 1128×H/2×W/2-F5 23× 31× 164×高/2×宽/2-U34× 41/2×1/ 264×高 ×宽从F0F6 1F6 23× 33× 31× 11× 115×高 ×宽3×高 ×宽-∗从输入表1：DBN模型的规格。每个卷积层后面都有批量归一化和ReLU，除了那些跳过连接到更深层的卷积层之外，在通过ReLU层[11]纠正总和之前，只应用了批量归一化。例如，输入到F4 1是U1和F2 3的整流和灰。请注意，对于从输入层到F6 2的跳过连接，仅选择堆栈的中心帧。在网络的末端，应用Sig-moid层来归一化强度。我们使用 SpatialConvolution 和SpatialFullConvolution的Torch实现来实现上下卷积层。在[41]中提出的用于草图清理的完全卷积模型我们在编码器和解码器的对应层之间添加对称跳过连接[29]。1282图3：从我们的地面真实数据集中选择模糊/清晰对（分别为左/右图像最好在屏幕上观看并放大。网络，其中来自编码器侧的特征被逐元素地添加到每个对应层。这显著加速了收敛，并有助于生成更清晰的视频帧。我们通过连接输入层中的所有图像来执行与[9]中的FlowNetSimple模型类似的相邻帧的早期融合训练损失是对地面真实清晰图像的MSE，这将在第2节中更详细地讨论。4.第一章我们将这个网络称为DeBlurNet或DBN，并在图中显示了它的图表。二、它由三种类型的卷积层组成：下卷积层，其压缩特征的空间分辨率，同时增加后续层的空间支持;平面卷积层，其执行非线性映射并保持图像的大小;以及最后上卷积层，其增加空间分辨率。请参阅制表符。1了解详细配置。对齐。我们的方法的主要优点之一是能够很好地工作，没有准确的帧到帧的对齐。为此，我们创建了具有不同对齐程度的三个版本的数据集，并使用它们来训练DBN。在一端，我们根本不使用对齐，依靠网络通过一系列下卷积层来抽象空间信息。这使得该方法明显更快，因为在多帧聚合方法中对齐通常支配运行时间。我们将这个网络称为DBN+NOALIGN。我们还使用光流[37]来对齐堆栈（DBN+FLOW），这是缓慢的计算和容易出错（经常引入额外的扭曲伪影），但允许像素更容易通过消除相应特征的空间方差来聚合。最后，我们使用一个单一的全球单应性对齐帧，这提供了一个折衷的方法，在计算复杂度和对齐质量（DBN+HOMOG）。使用SURF特征和RANSAC [46]的变体来估计单应性以拒绝离群值。实作详细数据。在训练过程中，我们使用64的批量大小和15×128×128的补丁，其中15是从5连续的视频帧。我们观察到，即使帧未对齐，128的补丁大小也足以在堆栈中提供足够的重叠内容。我们使用ADAM [19]进行优化，并将学习率固定为0。在前24，000次迭代中为005，然后在随后的每8，000次迭代中减半，直到达到10-6的下限。对于论文中报告的所有结果，我们对网络进行了80，000次迭代训练，在NVidia Titan X GPU上大约需要45小时。使用β1、β2和β 2的默认值，分别为0.9、0.999和10 −8，我们将权重衰减设置为0。由于我们的网络是完全卷积的，因此输入分辨率仅受GPU内存的限制。在测试时，我们将一个960× 540的帧传入网络，如果视频帧的分辨率更高，则将其平铺。由于我们的方法在一个单一的向前传递中消除图像模糊，因此它是计算-盟友非常有效率。使用NVidia Titan X GPU，我们可以在1秒内处理720p帧而无需对齐。以前的方法在CPU上每帧平均需要15秒[6]和30秒[4]最近的神经去模糊方法[2]需要超过1个小时才能完全处理每一帧，而Kim等人的方法则需要超过1个小时才能完全处理每一帧。[17]每帧需要几分钟。4. 训练数据集生成逼真的训练数据是一个主要的挑战，任务的地面真相数据不能很容易地收集/标记。为了训练我们的神经网络，我们需要两个内容完全相同的视频序列：一个被相机抖动运动模糊，以及其相应的清晰版本。获取这样的数据是非常困难的。人们可以想象使用分束器和多个相机来构建一个特殊的捕获系统，但这种设置将具有鲁棒性，并且会出现许多其他校准问题。一种解决方案是使用渲染技术来创建用于训练的合成视频。然而，如果处理不当，这通常会导致域差距，在合成数据上训练的模型不能很好地推广到真实世界的数据。例如，我们可以在清晰的视频帧上应用合成运动模糊来模拟相机抖动模糊。然而，在现实世界的场景中，模糊不仅取决于相机的运动，而且还涉及到场景的深度和对象的运动，因此是非常困难的渲染。在这项工作中，我们建议以非常高的帧率收集真实世界的清晰视频，并综合创建1283方法#1#2#3#4#5#6#7#8#9#10平均输入24.14 /.85930.52 /.95828.38 /.91427.31 /.90022.60 /.85229.31 /.95127.74 /.93923.86 /.90630.59 /.97626.98 /.92627.14 /.918PS去蓝光24.42 /.90828.77 /.95225.15 /.92827.77 /.92822.02 /.89025.74 /.93226.11 /.94819.75 /.82226.48 /.96324.62 /.93825.08 /.921WFA[6]25.89 /.91032.33 /.97428.97 /.93128.36 /.92523.99 /.91031.09 /.97528.58 /.95524.78 /.92631.30 /.98128.20 /.96028.35 /.944DBN+单25.75 /.90131.15 /.96629.30 /.94628.38 /.92223.63 /.88530.70 /.96229.23 /.95925.62 /.93631.92 /.98328.06 /.94928.37 /.941DBN+ NOALIGN27.83/.940 33.11/.98031.29/.97329.73/.948 25.12/.930 32.52/.97830.80/.97527.28/.96233.32/.98929.51/.969 30.05/.964DBN + HOMOG。27.93 / .94532.39 / .97530.97 / .96929.82/ .94824.79 / .92531.84 / .97230.46 / .97226.64 / .95533.15 /.98929.30 / .96929.73 /.962DBN+FLOW28.31/.95633.14/.98230.92/.97329.99/.95425.58/.94432.39/.98130.56/.97527.15/.96332.95/.98929.53/.97530.05/.969表2：每种方法的PSNR/MSSIM [21]测量值，在所有帧上取平均值，10个测试数据集（#1→#10）。通过累积大量的短曝光来接近较长的曝光，从而模糊了图像[45]。为了在30 fps下模拟逼真的运动模糊，我们以240 fps捕获视频，并每八帧进行二次采样以创建30 fps的地面真实锐利视频。然后，我们一起平均7个帧的时间中心窗口（在地面实况帧的任一侧上3个），以在目标帧速率下生成合成运动由于相邻曝光之间存在一个时间周期（为了避免这种情况，[18]建议只使用相对运动小于1像素的帧为了使用所有帧进行渲染，我们计算相邻高fps帧之间的光流，并生成额外的10个均匀间隔的帧间图像，然后将其平均在一起。数据集的示例如图所示3 .第三章。我们还公开发布了这一数据集，以供未来研究。我们总共收集了71个视频，每个视频的平均运行时间为3- 5秒。这些用于生成6708具有对应的地面实况的合成模糊帧我们分-通过翻转，旋转（0°，90°，180°， 270°）和缩放（1/4，1/3，1/2）图像来增加数据，从中我们平均抽取10个随机的128×128作物。总的来说，这给了我们2，146，560对补丁。我们把我们的61个训练视频和10个测试视频。对于每个视频，它的帧用于训练或测试，但不是两者，这意味着用于测试的场景在训练数据中没有看到。训练视频使用 iPhone 6s 、 GoPro Hero 4 Black 和Canon 7D以240 fps的速度拍摄使用多个设备的原因是为了避免偏向于可能生成具有某些独特特性的视频的特定捕获设备我们测试了其他设备拍摄的视频，包括Nexus 5x和Moto X手机以及索尼a6300消费相机。局限性。我们做出了巨大的努力来捕捉各种各样的情况，包括长镜头，自拍视频，带有移动内容的场景（人，水，树），用许多不同的捕捉设备记录。虽然它非常多样化，但也有一些局限性。我们模糊的画面是从多个输入帧平均的，则噪声特性在地面实况图像中将是不同的。为了减少这种影响，我们在高光环境下记录了输入视频，即使在原始的240 fps视频中也有最小的可见噪声，这意味着我们的数据集只包含光线充足的场景。另一个误差源是，使用光流合成运动模糊增加了可能的伪影，这在现实世界的数据中是不存在的。然而，我们发现，由于输入视频是以240 fps的速度记录的，帧之间的运动很小，并且我们在这一步中没有观察到视觉伪影。正如我们将在Sec中展示的那样。尽管有这些限制，我们的训练模型仍然可以很好地推广到新的捕获设备和场景类型，特别是在低光视频上。我们相信未来对训练数据集的改进将进一步提高我们方法的性能。5. 实验和结果我们进行了一系列的实验来评估学习模型的有效性，以及各个组件的重要性。使用多帧的效果。我们通过保持与DBN相同的网络架构来分析使用时间窗口的一致性，但是复制中心参考帧5次而不是输入相邻帧的堆栈，并使用相同的超参数重新训练网络我们称这种方法为DBN+SINGLE。定性比较如图所示4和6，定量结果见表2和图6。五、我们可以看到，使用相邻帧大大提高了结果的质量。我们选择了5帧窗口，因为它在结果质量和训练时间之间提供了很好的折衷[16]。还提供了单图像方法作为参考：PS-DEBLUR用于使用Photoshop中的现成抖动减少软件进行盲均匀去模糊，[52]用于非均匀比较。对齐的效果在这组实验中，我们分析了输入图像对齐对输出恢复质量的影响，即我们比较了DBN + NOALIGN，DBN + HOMOG.，DBN+FLOW看到1284输入（上）/我们的（下）输入PS去蓝光WFA[6]DBN+单DBN+ NOALIGN公司简介DBN+流量地面实况21.79dB24.09dB21.53dB24.51dB27.24dB26.66dB26.69dB31.72dB31.13dB29.83dB31.49dB32.89dB34.76dB34.87dB图4：我们测试集的定量结果，PSNR相对于地面真实值。在这里，我们将DBN与单图像方法PSDEBLUR和最先进的多帧视频去模糊方法WFA进行比较[6]。DBN在没有对齐的情况下实现了与[6]相当的结果，并且在对齐的情况下改善了结果。+4+3级+2个+1个0-1-220 22 24 26 28 30 32 34 36Input（dB）图5：不同方法的定量比较。在该图中，绘制了应用不同方法和配置的PSNR增益与输入信号的锐度在PSNR方面甚至优于DBN+FLOW和DBN+HOMOG，特别是当输入帧不是太模糊时，例如>29dB。然而，我们观察到，当输入帧模糊得多时，DBN+FLOW会优雅地失败，这导致PSNR和MSSIM的下降（参见表1）。图2和图5）。DBN+FLOW和DBN+HOMOG。表现得更好。对此的一个可能的解释是，当输入质量良好时，光流误差将主导去模糊过程的最终性能。实际上，具有高输入PSNR的序列具有小的相对运动（数据集如何创建的结果），因此从一个帧到下一个帧没有太多的位移，并且DBN+NOALIGN能够直接处理输入帧而无需任何对齐。把框架。我们观察到，所有多帧方法都为模糊的输入帧提供了质量改进，随着输入帧变得更清晰，改进逐渐减少。DBN+NOALIGN和DBN+FLOW表现最好，但与DBN+FLOW和DBN+HOMOG相当。通常是可比较的，并且优于没有对准。本文提出了一种单图像均匀模糊核去模糊方法（PSDEBLUR）.选项卡. 2和图5进行定量比较，图5中进行定性比较。六、我们的主要结论是，与光流和单应性的DeBlurNet往往是定性等价的，和 DBN+FLOW 往往有更高的PSNR。另一方面，DBN+NOALIGN执行与现有方法的比较。我们将我们的方法与图中的现有方法进行比较。六、具体而言，我们显示了与WFA [ 6 ]的定量比较，以及与Cho等人的定性比较。[4]，Kim et al.”[18]，《易经》云：我们还比较了单图像去模糊方法，Chakrabarti [2]，Xu等人。[52]，以及Photoshop CC 2015 （ PS DEBLUR ）中的 ShakeReduction功能。我们注意到，PS DEBLUR在自动设置中用于清晰图像时可能会导致振铃伪影，从而导致质量急剧下降（图1）。（五）。[4]和[18]的结果是作者提供的结果，WFA [6]应用于具有相同时间窗口的单次迭代，对于[52，2]，我们使用作者提供的实现由于大量的帧，我们只能输入PSdeblurWFADBN+单DBN+NoalignDBN+Homog.DBN+流量增益1285输入（上）/我们的（下）输入PS DEBLURL0 D EBLUR [52]神经[2]WFA [6]DBN+单DBN + NOALIGNDBN + HOMOGDBN+流量输入（上）/我们的（下）输入PS DEBLURCho et al.[4]Kim and Lee [17]WFA [6]DBN + SINGLEDBN + NOALIGNDBN + HOMOGDBN+流量图6：与现有方法的定性比较。我们比较DBN在各种对齐配置，与以前的方法，例如。Cho et al. [4]，Kim and Lee[17]，Chakrabarti [2]，Xu et al.[52]，WFA [6]，Photoshop CC Shake Reduction。一般来说，DBN在没有对齐的情况下实现了不错的质量，并且当应用更简单的逐帧单应性时，DBN是相当的或更好的。注意，[4]适应基于单应性的运动模型，而[6]和[17]正在估计用于对准的光流。定量地与足够快地操作的方法进行比较，这排除了许多基于非均匀反卷积的方法。补充材料中给出了完整的序列。值得注意的是，在训练过程中没有看到测试图像，其中许多图像是由其他相机拍摄的。我们的结论是，DBN通常会产生高质量的去模糊帧，即使当输入帧与全局单应性对齐时，这需要比以前的方法少得多的推广到其他类型的视频。讨论的节中4、我们的训练集有一定的局限性。尽管如此，Fig。7表明我们的方法可以很好地推广在训练中看不到的其他场景。这包括在室内、低光场景中捕获的视频和源自对象移动的运动模糊，而不是来自相机抖动的时间上不相关的模糊。虽然我们的数据集中有运动模糊的实例，但它是由相机抖动模糊所支配的。尽管如此，该网络也能够产生适量的对象运动去模糊，这是其他幸运成像方法无法处理的。其他实验。我们测试了不同的融合策略，例如晚期融合，即在从每个帧提取高级图像内容之后，从更深层聚集特征，其中共享和非共享1286图8：在这里，我们选择性地可视化了64个过滤器中的3个（突出显示）及其在DBN+FLOW的F0处的响应。输入DBN+HOMOG输入DBN+HOMOG图7：我们提出的方法可以推广到训练集中看不到的数据类型。第一个示例显示了一个低光、嘈杂的视频，第二个示例显示了一个运动模糊的示例，而不是相机抖动。骑自行车的人处于运动状态，并且在堆栈中的所有帧中都是模糊的，但网络仍然可以执行一些适度的去模糊。分享重量实验结果表明，这会导致PSNR以及训练和验证损失稍差，但偶尔会在DBN+NOALIGN失败的挑战性情况下有所帮助。然而，这种改进并不一致，因此我们将其排除在我们提出的方法之外。基于多尺度相位的方法已被证明能够使用纯欧拉表示生成清晰的图像[31]，因此我们尝试了多尺度监督的拉普拉斯重建，但发现了类似的不确定结果。虽然增加的监督在某些情况下有所帮助，但它可能会限制网络学习有助于其他帧的有用特征图。我们还尝试直接预测尖锐的傅立叶系数，如[5]中所示，然而这种方法并不像直接预测输出像素那样有效一个可能的原因是，图像质量更容易出现傅立叶系数的重建误差，并且与当输入在空间域中时应用Sigmoid层的直接方式相比，我们还没有找到一种学习过滤器的可视化。在这里，我们可视化了从DBN+FLOW中学习的一些过滤器，特别是在F0处，以了解它如何对输入堆栈进行去模糊可以观察到，DBN不仅学习定位对应的颜色通道以生成正确的色调（图1B）。8，左），但也能够提取不同方向的边缘（图8，左）。 8，中间），并定位扭曲文物（图.8，右）。局限性。该工作的一个限制是我们仅处理视频中存在的模糊类型的子集，特别地，我们关注由于来自手持相机运动的相机抖动而产生的运动模糊。在实践中，我们的数据集包含所有类型的模糊，可以通过较短的曝光时间来减少，包括物体运动，但这种类型的运动发生的频率要低得多。明确地调查模糊的其他来源，例如焦点和物体运动，这将需要不同的输入和训练数据，是未来工作的一个有趣领域。虽然没有明确地施加时间相干性，也没有进行后处理，但处理后的序列通常是时间平滑的。我们请读者参阅补充材料中提供的视频然而，当图像严重模糊时，我们提出的模型，特别是DBN+NOALIGN，可以引入时间伪影，在稳定后变得更加明显。在未来，我们计划研究更好的策略来处理不一致的情况，例如通过多尺度重建[10，1]。我们还想用更广泛的视频来增强我们的训练集，因为这应该会增加所提出的方法的普遍6. 结论提出了一种基于学习的多图像视频去模糊方法。尽管有上述限制，我们的方法产生的结果，往往是一样好或优于国家的最先进的方法，没有参数调整，没有明确的需要，具有挑战性的图像对齐。由于所需的对齐质量的放松，它也是非常高效的此外，我们进行了大量的实验，显示不同的输入要求的结果的质量。我们认为，类似的战略可以适用于到其他基于聚合的应用程序。确认这项工作得到了Adobe Research和KAUST基线资金的部分支持1287引用[1] Z.蔡角，澳-地范河，巴西-地S. Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络。欧洲计算机视觉会议，第354-370页施普林格，2016年。8[2] A.查克拉巴蒂盲运动去模糊的神经方法。arXiv预印本arXiv：1603.04771，2016年。三、四、六、七[3] S. Cho和S.李你快速运动去模糊。 ACM Trans.Graph. ，28（5）：145：1-145：8，2009. 2[4] S. Cho，J.Wang和S.李你使用基于块的合成的手持相机的视频去模糊ACM事务处理图表，31（4）：64，2012.一二四六七[5] M. Delbracio和G.萨皮罗猝发去模糊：通过傅立叶猝发累积消除相机抖动。正在进行IEEE会议Comput. 目视模式识别。（CVPR），2015. 二、八[6] M. Delbracio和G.萨皮罗通过有效傅立叶聚合的手持视频去模糊。IEEE Trans. Comp.伊玛格，1（4）：270-283，2015. 一、二、四、五、六、七[7] C.东角，澳-地C. Loy，K.他，还有X。唐学习用于图像超分辨率的深度卷积网络。在procIEEE欧洲Conf. Comput. 目视（ECCV），2014年。2[8] R. 费格斯湾辛格A.Hertzmann，S.T. Roweis和W.T.弗里曼。从单张照片中消除相机抖动ACM事务处理图表，25（3）：787-794，2006. 2[9] P. Fischer ， A. 两个人都是 E.Ilg ， P.Hausser ，C.Hazzirbassoul，Golkov，P. van der Smagt，D. Cremers和T.布洛克斯Flownet：使用卷积网络学习光流arXiv预印本arXiv：1504.06852，2015年。4[10] G. Ghiasi和C. C.福克斯用于语义分割的拉普拉斯金字塔重构和细化在procIEEE欧洲Conf. Comput. 目视（ECCV），2016. 8[11] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。3[12] Y.黄，W. Wang和L.王.用于多帧超分辨率的双向递归卷积网络。在Proc. Adv. Neural Inf.过程（NIPS），2015. 2[13] S. Iizuka、E. Simo-Serra和H.石川要有颜色！：全局和局部图像先验的联合端到端学习，用于同时分类的自动图像着色。ACM事务处理图表，35（4）：110，2016.2[14] A. Ito，A.C. Sankaranarayanan，A.Veeraraghavan和R.G.巴拉纽克Blurburst：使用多个图像消除由于相机抖动造成的模糊。ACM事务处理图表，已提交。2[15] N. Joshi和M. F.科恩看山。Rainier：Lucky Imaging，用于多图像去噪、锐化和去雾。正在进行IEEE国际确认补偿Photogr.（ICCP），2010年。2[16] A. Kappeler，S.哟Q Dai和A. K.卡萨格洛斯卷积神经网络视频超分辨率。IEEE Trans. Comp.伊玛格，2（2）：109-122，2016. 二、五[17] T. H. Kim和K. M.李你动态场景的广义视频去模糊。正在进行IEEE会议Comput.目视模式识别。（CVPR），2015. 二四七[18] T. H. Kim，S.不还有KM. 李你使用局部自适应线性模糊模型的动态场景arXiv预印本arXiv：1603.04265，2016年。五、六[19] D. Kingma和J. BA. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014。4[20] F. Klose，O.王建-C. Bazin，M.Magnor，和A.Sorkine-Hornung基于采样的场景空间视频处理。ACM事务处理图表，34（4）：67，2015. 2[21] R. Kohler，M. 赫希湾，巴西-地 Mohle r，B. Sch oélkopf，以及S. 伤害。相机抖动的记录和回放：用真实世界的数据库对盲反卷积进行基准测试。在Proc. IEEE Eur.确认补偿目视（ECCV），2012年。5[22] D. Krishnan，T. Tay和R.费格斯。使用归一化稀疏性测量的盲反卷积。正在进行IEEE会议Comput.目视模式识别。（CVPR），2011年。2[23] D. Kundur和D.哈齐纳科斯盲图像解卷积。IEEE信号处理。麦格，13（3）：43-64，1996. 2[24] N.劳角Mackay和J.鲍德温幸运影像：在地面可见光中的高角分辨率成像。宇航员。太空人。，446（2）：739-745，2006. 2[25] Y. Li，S. B. Kang，N.乔希，S。M. Seitz和D.我是P·赫顿-罗彻。从运动模糊视频生成清晰全景图。正在进行IEEE会议Comput.目视模式识别。（CVPR），2010年。2[26] C. Liu和W. T.弗里曼。一种基于可靠运动估计的高质量视频去噪算法。在 proc IEEE 欧洲确认补偿目视（ECCV），2010年。2[27] D. Liu，Z.王湾，澳-地Wen，J.杨，W.Han和T.S. 煌通过具有稀疏先验的深度网络实现鲁棒的单图像超分辨率IEEE Trans. Image Proc. ，25（7）：3194 2[28] Z.柳湖，加-地元、X.唐，M。Uyttendaele和J.太阳快速突发图像去噪。ACM事务处理图表，33（6）：232，2014. 2[29] X.- J. Mao，C.沈，和Y。B. 杨使用具有对称跳跃连接的非常深的卷积编码器-解码器网络的图像增强。arXiv预印本arXiv：1603.09056，2016。3[30] Y. Matsushita、E.奥费克，W. Ge、X. Tang和H.- Y.沈全帧视频稳定与运动修复。IEEE传输模式分析马赫内特尔，28（7）：1150 2[31] S. Meyer，O.Wang，H.Zimmer，M.Grosse和A.Sorkine-Hornung基于相位的视频帧内插。正在进行IEEE会议Comput.目视模式识别。（CVPR），2015. 8[32] T. Michaeli和M.伊拉尼使用内部补片递归盲去模糊。在Proc. IEEE Eur.确认补偿目视（ECCV），2014年。2[33] C. Paramanand和A.N. 拉贾哥普兰双层场景的非匀速正在进行IEEE会议Comput.目视模式识别。（CVPR），2013年。2[34] S. H. Park和M.勒沃基于陀螺仪的多图像反卷积消除握手模糊。 Proc. IEEE会议计算机。目视模式识别。（CVPR），2014. 21288[35] D.作者：P. Krahenbuhl，J.多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。arXiv预印本arXiv：1604.07379，2016年。二、三[36] G.彼得希尼格，R.塞利斯基M. 阿格拉瓦拉M.科恩H. Hoppe和K.富山使用闪光灯和无闪光灯图像对的数码摄影。ACM事务处理图表，23（3）：664 2[37] J. 这是桑切斯·佩雷兹，E. Meinhardt-Llopis和G. 我来了TV-L1光流估计。 J. 图像处理在线（IPOL），3：137-150，2013年。4[38] A.塞伦特角Rother和S.罗斯立体视频去模糊。在proc IEEE欧洲Conf. Comput. 目视（ECCV），2016. 2[39] Q. Shan，J. Jia，and A.阿加瓦拉高品质的运动去模糊从一个单一的图像。ACM事务处理图表，27（3），2008.2[40] W. Shi，J. 卡瓦列罗角 Husz a'r，J. Totz，A. P. Aitk enR.

下载后可阅读完整内容，剩余1页未读，立即下载