深度突发去噪：多帧架构的全卷积深度神经网络方法

64 浏览量更新于2023-10-13 收藏 4.72MB PDF 举报

噪声问题

图像超分辨率

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

深度突发去噪Cle´ mentGodard1，*KevinMatzen2MattUyttendaele21伦敦大学学院2Facebook输入平均HDR+我们图1：[ 19 ]中真实原始突发的去噪。我们的方法能够在保持细节的同时对低光突发进行高水平的去噪抽象。噪声是低光图像捕获的固有问题，其在移动设备上由于其窄孔径和小传感器而变得更糟。用于在低光情况下减轻噪声的一个策略是增加快门时间，允许每个感光点整合更多的光并降低噪声方差。然而，长时间曝光有两个缺点：（a）明亮的区域可能超过传感器的范围，（b）相机和场景的运动会导致模糊。收集更多光线的另一种方法是在突发中捕获多个短（因此有噪声）帧，并智能地整合内容，从而避免上述缺点。在本文中，我们使用突发捕获策略，并通过循环的全卷积深度神经网络（CNN）实现智能集成。我们建立我们的新颖的，多帧架构是一个简单的除了任何单帧去噪模型。由此产生的架构去噪的任意长度的序列中的所有帧。我们表明，它在我们的突发数据集上实现了最先进的去噪结果，改进了最好的多帧技术，如VBM4D和FlexISP。最后，我们探索了多帧图像增强的其他应用，并表明我们的CNN架构可以很好地推广到图像超分辨率。这项工作是在Facebook实习期间完成的2Cle' ment Godard，Kevin Matzen，MattUyttendaele1介绍降噪是成像管路设计中需要解决的重要问题之一最直接的解决方案是在拍照时收集尽可能多的光线。这可以在相机硬件中通过使用大光圈镜头、具有大感光点的传感器和高质量A/D转换来解决。然而，相对于较大的独立相机，例如数码单反相机、现代智能手机相机已经在这些硬件元件中的每一个上妥协。这使得噪音在智能手机捕获中成为一个更大的问题。另一种收集更多光线的方法是使用更长的快门时间，允许传感器上的每个感光点在更长的时间段内整合光线这通常通过将相机放置在三脚架上来完成。三脚架是必要的，因为相机的任何运动都会导致收集的光线在多个摄影点上模糊但这种技术首先，场景中的任何移动对象和残余相机运动将导致所得照片中的模糊。第二，快门时间只能设置为只要场景中最亮的物体不饱和的感光点的电子收集能力。这意味着，对于高动态范围场景，图像的最暗区域可能仍然会显示出显著的噪声，而最亮区域可能会饱和。在我们的方法中，我们还通过拍摄一组照片来收集更长时间的光线连拍摄影解决了上述许多问题：（a）它可以在廉价的硬件上获得，（b）它可以捕获移动的主体，以及（c）它不太可能遭受过度突出的问题。在使用突发时，我们做出了利用计算过程来集成光的设计选择，而不是硬件过程，例如[29]和[19]。换句话说，我们转向计算摄影。我们的计算过程分为几个步骤。首先，通过为每个帧找到一个单应性来稳定突发，该单应性在几何上将其配准到公共参考。其次，我们采用完全卷积的深度神经网络（CNN）来单独对每一帧进行降噪。第三，我们用一个并行循环网络扩展了CNN，该网络集成了突发中所有帧的信息。本文介绍了我们的工作如下。在第2节中，我们回顾了以前的单帧和多帧去噪技术。我们还研究了超分辨率，它可以利用多帧信息。在第3节中，我们详细描述了我们的递归网络并讨论了训练。为了与以前的工作进行比较，网络在模拟高斯噪声上进行训练。我们还表明，我们的解决方案在泊松分布噪声上训练时效果良好，这是现实世界成像管道的典型特征[18]。在第4节中，我们示出了与现有技术的单帧去噪相比在突发序列上的重构质量的显著增加，以及此外，我们证明了突发捕获加上我们经常性的网络架构，以及推广到超分辨率。总之，我们的主要贡献是：– 我们引入了一种递归架构，这是对单帧去噪模型的简单而有效的扩展，– 证明突发提供了比基于最佳深度学习的单帧去噪技术更大的改进，深度突发去噪3– 表明我们的模型实现的性能与最新的多帧去噪方法相当或更好，– 证明我们的递归架构通过将其应用于超分辨率来很好地推广2相关工作这项工作解决了各种各样的逆问题，所有这些都可以被公式化为由以下各项组成：（1）目标这些任务包括去噪和超分辨率。我们的目标是通过领域知识或通过数据驱动的方法来制作此函数，以解决这些多图像恢复问题。去噪数据驱动的单图像去噪研究可以追溯到利用单个图像内的块级统计这种性质的最早的作品之一是非局部均值[3]，一种基于与参考块的相似性对图像中的块进行加权平均的方法。Dabov等人[9]用新的3D滤波公式扩展块级滤波的这个概念。该算法BM3D是事实上的方法，通过该方法将所有其他单图像方法与今天进行比较。基于学习的方法在过去的几年里激增。这些方法通常使用纯前馈的神经网络[44，4，49，25，15，1，50]，递归的[45]或两者的混合[7]。诸如Field ofExperts [39]等方法已被证明可以成功地对自然图像统计数据进行建模，以完成诸如去噪和具有对比发散的修复等任务。此外，相关任务（如去马赛克和去噪）已显示出在学习框架中提出时受益于联合公式[15]。最近的工作[5]在去噪射线跟踪序列的背景下应用了一种递归架构，最后[6]使用了一个简单的全连接RNN进行视频去噪，虽然未能击败VBM4D [33，32]，但证明了使用RNN进行视频去噪的可行性。多图像去噪方法的变体存在，并且通常集中在对齐和组合图像的最佳方式Tico [41]返回到基于块的范例，但这一次，可以使用突发中的“内”和“跨”图像的块VBM3D [8]和VBM4D [33，32]在现有的BM3D框架之上提供了扩展。Liu等人[29]显示了如何使用新颖的“单应性流”对齐方案以及“一致像素”合成算子在VBM3D的十分之一时间和VBM4D的百分之一时间内获得类似的PSNR去噪性能FlexISP [22]和ProxImaL [21]等系统提供整个图像处理管道的端到端公式，包括去马赛克，对齐，去模糊等。其可以通过有效的优化来联合求解反过来，我们也利用深度模型，并将我们的CNN架构基于当前最先进的单帧方法[36，49，27]。4Cle' ment Godard，Kevin Matzen，MattUyttendaele超分辨率超分辨率是将固定分辨率的一个或多个图像作为输入并产生更高分辨率的融合或超分辨率图像作为输出的任务。Nasrollahi等人[35]提供了一个全面的调查单图像超分辨率的方法和杨等人。[46]提供了几种方法的基准和评价。Glasner等人[16]示出了可以通过利用单个图像“内”的块级统计来超分辨单个图像，而不需要任何外部数据库或先验。其他方法利用稀疏图像统计[47]。Borman等人提供了多图像方法的调查[2]。Farsiu等人[13]提供了一种用于解决多图像超分辨率问题的快速且鲁棒的方法最近，卷积网络已经在Dong等人的作品中显示出非常好的单图像超分辨率结果。[11]和现有技术Ledig等人。[27]第10段。我们的单帧架构受到最近的深度超分辨率模型的启发，如[27]。2.1神经架构值得注意的是，虽然近年来图像恢复方法通常是基于学习的，但这些学习问题的建模方式也有很大的特别地，基于神经网络的方法随着时间的推移在架构复杂性方面经历了逐渐的在Dong等人的工作中，[10]，单个前馈CNN用于超分辨率输入图像。这是一个自然的设计，因为它利用了当时为分类设计的区分训练神经网络的新进展，并将其应用于回归任务。架构演进的下一步是使用递归神经网络（RNN）来代替以前设计的卷积层在网络设计中使用一个或多个RNN既可以用于增加有效深度，从而增加单图像网络中的感受野[45]，也可以用于整合多图像网络中许多帧的观察结果我们的工作利用了后一个原则。虽然RNN的引入导致网络架构具有更有效的深度，因此具有更大的感受野和更多的上下文，但分类网络[20]和分段网络[40，37]中跳过连接的成功Remez等人的工作。[36]通过计算来自网络的每个级别的加性噪声预测来说明该原理，然后将其求和以形成最终的噪声预测。我们也利用了这个概念，但不是直接使用跳过连接，而是从网络的每一级提取激活，然后将其馈送到相应的RNN中，以便在突发序列的所有帧中进行集成。3方法在本节中，我们首先确定了一些有趣的目标，我们希望一个多帧架构，以满足，然后描述我们的方法，以及它如何实现这些目标。深度突发去噪53.1目标我们的目标是推导出一种方法，给定一个序列的噪声图像产生一个去噪序列。我们确定了多帧去噪技术应该满足的期望特性：1. 工作单帧去噪。第一个标准的一个推论是，我们的方法应该是有竞争力的单帧的情况下。2. 推广到任意数量的帧。单个模型应该为给定的任何数量的帧产生有竞争力的结果。3. 去除整个序列的噪声。我们的目标不是简单地对单个参考帧进行降噪，而是对整个序列进行降噪，使我们的目标更接近视频降噪。4. 对运动具有鲁棒性。大多数真实世界的连拍场景将同时显示相机和场景运动。5. 时间连贯。对整个序列去噪要求我们不在结果中引入闪烁。6. 推广到各种图像恢复任务。如第2节所述，超分辨率等任务可以受益于多帧方法，尽管是在不同的数据上训练的。在本节的剩余部分中，我们将首先描述一个单帧去噪模型，该模型可以产生与当前最先进模型相竞争的结果。然后，我们将讨论如何扩展此模型以适应任意数量的帧进行多帧去噪，以及它如何满足我们的每个目标。3.2单帧去噪我们将图像去噪视为结构化预测问题，其中网络的任务是从噪声图像N回归像素对齐的去噪图像I*s = fs（N，θ s），给定模型参数θ s。在[51]之后，我们通过最小化L1预测输出与地面实况目标图像之间的距离，I。ESFD=|I− f s（N，θ s）|（一）为了在单帧去噪场景中具有竞争力，并且为了满足我们的第一个目标，我们从现有技术中获得灵感以获得初始网络架构。几个现有的架构[49，36，27]由相同的基础设计组成：全卷积架构由L层组成，每层具有C个通道。我们效仿并选择这个简单的架构作为我们的单帧去噪（SFD）基线，L=8，C=64，3×3卷积和ReLU [31]激活函数，除了最后一层。3.3多帧去噪根据目标1-3，我们的模型在单帧情况下应该具有竞争力，同时能够对整个输入序列进行降噪换句话说，使用一组噪声6Cle' ment Godard，Kevin Matzen，MattUyttendaele…不M1M2不St2St1不M（1St（一）ĨĨMMMMEM…F“”我的天$$t不%的百分比$N“N&&“”的一声$&$t11t 12...t 1（1不+01 -02-02（3x3Conv Concat+3x3Conv 循环连接图2：全局递归架构（左）。我们的模型将F个噪声帧N t，并预测F个干净帧I〜t。本地存储架构（右）。顶部我们的模型是一个单帧去噪器（SFD，浅蓝色）：它将噪声作为输入。图像N~t，并且回归干净图像I~t，其特征S~ t被馈送到多帧S I去噪器（MFD，深蓝色），其也利用来自先前状态（虚线）的循环连接来输出干净的图像I~t。图像作为输入，形成序列{Nt}，我们想要回归每个噪声帧，I~t =ft（{Nt}，θm），g为模型参数θm。或者，我们完整的培训目标是：ΣtE=SFD不ΣF不MFD（二）=|I t− f s（N t，θ s）|+的|I t− f t（{N t}，θ m）|不在自然语言和音频处理文献[48]中已经流行的自然方法是使用递归神经网络（RNN）模块[23]处理时间数据。RNN对序列进行操作，并在每个时间步保持与输入相结合的内部状态如图2所示，我们的模型利用循环连接来聚合SFD网络为每个帧产生的激活这满足了我们的第一个目标，因为它允许任意输入序列长度。与使用单轨网络设计的[5]和[43]不同，我们使用双轨网络架构，顶部轨道专用于SFD，底部轨道专用于将这些结果融合到MFD的最终预测这种双轨设计将每帧特征提取与多帧聚合解耦，使得能够仅使用单帧数据快速预训练网络。在实践中，我们发现这种预训练不仅加速了学习过程，而且在PSNR方面产生了比从头开始训练整个MFD时更好的结果。核心直觉是，通过首先学习SFD的好特征，我们将网络置于一个良好的状态，以学习如何在观察中聚合这些特征同样重要的是要注意，RNN的连接方式允许以几种不同的方式聚合特征。时间连接ĨĨĨMMMĨM+ENN*深度突发去噪7RNN有助于“跨”帧聚合信息4执行情况和结果我们评估我们的方法，并考虑第3节的目标，并检查：单图像去噪（目标1）、多帧去噪（目标2-5）和多帧超分辨率（目标6）。在第4.5节中，我们比较了不同的单帧去噪方法，表明尽管使用了深度模型，但质量仍处于稳定状态，并且我们简单的单帧去噪器与最先进的方法相比具有竞争力在第4.6节中，我们表明我们的方法显着优于最先进的视频去噪方法VBM4D [32]的参考状态。最后，在第4.7节中，我们将我们的方法与FlexISP数据集上的最先进的突发去噪方法HDR+[19]，FlexISP [22]和ProximaL [21]4.1数据我们使用由Apple Live Photos组成的数据集训练了我们评估中的所有网络。实时照片是由Apple iPhone 6S及以上1.该数据集非常具有代表性，因为它捕获了手机用户经常拍摄的内容，并展示了广泛的场景和运动。约73k公共序列是从社交媒体网站上抓取的，分辨率为360×480。我们对每个序列应用突发稳定器，成功地产生了大约54.5k个序列稳定下来了在第4.2节中，我们更详细地描述了我们的稳定程序。50k个序列用于训练，另外3.5k个保留用于验证，1k个保留用于测试。4.2稳定我们使用OpenCV2实现了突发序列稳定。特别地，我们使用Lucas-Kanade跟踪器[30]来找到连续帧之间的对应关系，然后使用仅旋转运动模型和静态焦距猜测来获得每帧的单应性。我们将序列的所有帧扭曲回参考帧的姿势，然后裁剪和缩放序列以保持原始大小和纵横比，但感兴趣的稳定的序列仍然表现出一些残留的运动，通过移动的物体或人，或通过摄像机运动，这不能由单应性表示这种残余运动迫使网络适应非静态场景。任何残余运动的稳定和训练使我们的系统对运动具有鲁棒性，实现了我们的第四个目标。正如我们在补充材料中所示，稳定化可以改善最终结果，但不是必需的。1https://support.apple.com/en-us/HT2073102https://opencv.org/8Cle' ment Godard，Kevin Matzen，MattUyttendaele4.3培训详情我们使用Caffe2框架3实现了第3节中的神经网络。每个模型使用4个Tesla M40GPU进行训练。如第3节所述，培训分两个阶段进行。首先，训练单帧模型该模型使用128个批量，在大约5小时内训练了500个 epoch使用此单帧模型作为多帧（8帧）模型的初始化，我们继续以32的批量大小进行训练，以适应多帧模型的增加大小。第二阶段在大约20小时内训练了125个epoch。我们使用Adam [26]，学习率为10−4，它遵循平方根定律衰减到零。我们在64×64作物上进行随机翻转训练。最后，我们使用时间反向传播训练多帧模型[42]。4.4噪声建模为了与之前的方法（例如VBM4D）进行比较，我们首先使用加性高斯白噪声（σ=15，25，50和25，50）来评估我们的架构。75. 此外，为了训练真实突发序列的去噪器，我们实现了一个模拟的相机处理流水线。第一真实世界传感器噪声在[14]之后生成使用泊松噪声训练单独的模型，在[14]中标记为a，强度范围从0.001到0.01。我们在训练数据的线性化版本上模拟Bayer马赛克，并将泊松噪声添加到其中。接下来，我们使用双线性插值重建RGB图像，然后转换为sRGB和裁剪。在高斯和泊松两种情况下，我们在稳定之前添加合成噪声。虽然可以通过一次在多个噪声水平上进行训练来获得单个因此，我们遵循[49，36]建立的协议，并为每个噪声水平训练单独的模型，而不失一般性。σ= 15 σ= 25 σ= 50σ= 75BM3d31.1028.5725.6224.20TNRD31.4128.9125.95-DenoiseNet [36]31.4429.0426.0624.61DnCNN [49]31.7329.2326.23-我们的单框8L31.1528.6325.6524.11我们的单框20L31.2928.8226.0224.43表1：BSD68上的单帧加性高斯白噪声去噪比较（PSNR）。我们的基线SFD模型在8层上匹配BM3D，在20层上接近DnCNN和DenoiseNet4.5单帧去噪在这里，我们比较了我们的基线单帧去噪器与当前最先进的加性高斯白噪声的方法。这说明单帧去噪已经达到3https://caffe2.ai/深度突发去噪934323028260 20 40 60 80 100 120时代图3：预训练对高斯噪声σ = 50的多帧去噪的影响。每种颜色对应于序列中的帧的平均PSNR：第1（红色）、第2（蓝色）、第3（紫色）、第4（灰色）、第5（黄色）和第6（粉红色）。正如我们所看到的，预先训练的模型比从头开始训练的模型显示出0.5dB的恒定领先，并且更快地达到稳定状态。收益递减点，其中需要显著的模型复杂性以将质量提高超过0。2分贝。我们将我们自己的SFD（由8层组成）与两个20层网络进行比较：DenoiseNet（2017）[36]和DnCNN（2017）[49]。为了便于比较，我们还提供了SFD的20层版本使用[36]中的训练分割，在PASCAL VOC2010 [12]的8000张图像上对所有模型进行了2000个epoch的训练我们还与传统方法进行了比较，如BM3D（2009）[9]和TNRD（2015）[7]。所有模型都在 BSD68 [39] 上进行了测试， BSD68 是来自 BerkeleySegmentation Dataset [34]的一组68张自然图像在表1中，我们可以看到多年来单帧去噪PSNR的收益递减，尽管使用了深度神经网络，这证实了Levin等人的观点。在[28]中描述。我们可以看到，我们更简单的SFD 20层模型仅比DenoiseNet和DnCNN略差<0。2分贝。然而，正如我们在下面的部分中所展示的，多帧处理带来的PSNR增益大大超过分数单帧PSNR的改善。4.6连拍去噪我们评估我们的方法上举行了一个测试集的现场照片与合成加性高斯白噪声。在表3中，我们将我们的架构与单帧模型以及多帧方法VBM4D [33，32]进行了比较。我们在图5中示出了σ=50的定性结果。预训练从头PSNR10Cle' ment Godard，Kevin Matzen，MattUyttendaeleC2fC4FC8F我们的4L我们的8L我们的12L我们的16L我们的20L我们的nostabPSNR 30.89 31.83 32.1533.0133.6233.8033.3533.4832.60表2：使用σ=50的加性高斯白噪声对实时照片测试序列进行的消融研究。所有模型在8帧序列上训练C2F、C4F和C8F表示Concat模型，其分别在作为输入的2、4和8个级联帧上训练我们的nostab是在不稳定的序列上训练和测试的消融研究我们现在评估我们的架构选择，在那里我们比较我们的完整模型，8层，并在8帧序列上与其他变体进行训练。Concat我们首先将我们的方法与一种朴素的多帧去噪方法进行比较，称为Concat，其中输入由n个级联帧组成，用于单通道去噪器。我们评估了L=20以及n=2、4和8的这种架构。正如我们在表2中所看到的，这个模型的性能比我们的模型差得多。我们还通过对N=4、8、12、16和20进行实验来评估网络深度的影响。如图2所示，16层和20层网络在125次训练后未能超过8层和12层，可能是因为随着深度和参数计数的增加，训练变得不稳定[20]。虽然12层网络显示出比8层模型略微增加0.18dB，但我们决定采用后者，因为我们认为PSNR的适度增加不值得内存和计算时间增加50%3434323230283026282422200 2 4 6 8 10 1214帧号260 2 4 6 8 10 12 14帧号(a)训练序列长度（b）帧排序图4：（a）训练序列的长度F在测试时间的影响。我们在16帧长的测试序列上测试了3个模型，这些模型是用F=2，4和8训练的（b）测试时帧排序的影响。我们可以在第一遍（红色）和重复遍上看到老化期。将序列向前，然后向后馈送，主要缓解了这个问题。训练序列的长度也许我们在训练循环模型时遇到的最令人惊讶的结果是训练序列中帧数的重要性在图4a中，我们显示了在2帧和4帧序列上训练的模型未能泛化超出其训练长度序列。仅培训模型2F4F8F首过第二遍：重复第二遍：向前-向后PSNRPSNR深度突发去噪11在测试时，具有8帧的算法能够推广到更长的序列，并且如我们所看到的，仍然对超过8帧的序列进行降噪。使用双轨网络的主要优点之一是我们可以首先独立训练SFD轨道。如前所述，需要序列长度为8以确保泛化到更长的序列，这使得完整模型的训练比训练单帧通道慢得多如图3所示，预训练使得训练MFD显著更快。由于其循环性，我们的网络表现出一段时间的老化，其中第一帧被降噪的程度低于后面的帧。为了将整个序列降噪到高质量水平，我们探索了用于帧排序的不同选项如图4b所示，通过将序列两次馈送到网络，我们能够在所有帧上实现相当的去噪质量，从而获得更高的平均PSNR。我们提出了两种变体，要么以相同的顺序重复序列，要么第二次反转序列（称为向前向后）。如图4b所示，前向-后向调度不会遭受老化，并且保持时间上的一致性，从而满足我们的第五个目标。我们在所有的实验中都使用了向前-向后。输入平均值VBM4D [33]SFD（Ours）MFD（Ours）地面实况图5：在稳定的实时照片测试数据上的多帧高斯去噪，其中σ=50. 我们可以看到，我们的MFD产生的图像比我们的SFD和VBM4D清晰得多。4.7现有数据集在这里，我们在现有的数据集上评估我们的方法，显示泛化，并允许我们与其他最先进的去噪方法进行比较。在图1和图7中，我们证明了我们的方法能够对真实序列进行去噪。对来自HDR+[19]的真实噪声突发进行该评估请参阅我们的补充材料了解更多结果。在图6中，我们显示了我们的方法在FlexISP数据集上的结果，并将其与FlexISP上的FlexISP，HDR+和ProximaL进行了比较。数据集包括4个噪声序列：2个合成（FLICKR DOLL和 KODAK FENCE）和2个真实（DARKPAINTCANS和LIVINGROOM）。通过随机扭曲输入图像并引入以下内容来生成合成序列：（对于FLICKR DOLL）加性和乘性高斯白噪声，σ = 25。5和（对于柯达FENCE）添加剂具有σ=12的高斯噪声，同时模拟拜耳滤波器。我们训练了一个模型每个合成场景，通过复制相应的噪声条件12Cle' ment Godard，Kevin Matzen，MattUyttendaeleσ= 15σ= 25 σ= 50 σ= 75BM3d35.6732.9229.4127.40DnCNN35.8432.9329.1327.06DenoiseNet 35.9133.1729.5627.49VBM4D36.4233.4129.1426.60我们39.2336.8733.6231.44FLICKR娃娃柯达围栏BM3d25.4731.09VBM3D27.4831.60FlexISP29.4134.44近侧30.23-我们29.3934.98输入FlexISP HDR+ SFD（Ours）MFD（Ours）GroundTruth图6：FlexISP数据集上两个真实和两个合成突发的去噪结果[22]。从上到下：DARKPAINTCAN、LIVINGROOM、FLICKR DOLL和KODAK FENCE。我们的循环模型能够与FLICKR DOLL上的FlexISP质量相匹配，并在KODAK FENCE上以0.5dB的优势击败它。表3：实时照片序列（左）和FlexISP序列（右）上的多帧去噪比较。平均峰值信噪比为所有帧的1000测试16帧序列加性白高斯噪声。FlexISP图像的多帧去噪比较（右）。最佳结果以粗体显示。粗线将单帧方法和多帧方法分开。深度突发去噪13输入平均HDR+我们图7：HDR+数据集上的两个真实突发的去噪结果[19]。我们的方法产生了高水平的去噪，同时保持清晰的细节和保持信息的亮点。我们的Live Photos数据集。为了匹配先前工作的评估，我们仅使用每个序列的前8帧进行去噪。表3显示，我们的方法与FLICKR DOLL上的FlexISP匹配，并比FlexISPKODAKFENCE获得了0.5dB的显著优势。有趣的是，我们的方法达到了比FlexISP更高的PSNR，尽管在栅栏上显示出一些轻微的去平滑伪影（参见图6）。这可能是由于我们的训练数据中不存在高频去马赛克伪影，并且可能通过遵循与测试数据相同的协议生成训练数据来修复。不幸的是，很难将a与ProximaL进行彻底的比较，因为公开的实现没有用于实验的代码我们试图使用他们的公开框架重新实现突发去噪，但无法产生稳定的结果。由于ProximaL仅显示FLICKR DOLL上的去噪结果，因此这限制了我们仅在一个场景上进行不太全面的比较，而我们的方法在这方面有所不足。像HDR+一样，我们不报告真实场景（DARKPAINTCANS和LIVINGROOM）的定量结果，因为我们无法校正地面真实长曝光图像和噪声突发之间的颜色偏移。但是，图6显示了我们的该方法能够恢复大量的细节，同时去除这些突发上的噪声4.8超分辨率为了说明我们的方法可以推广到除噪之外的任务，并且为了实现我们的第六个目标，我们训练我们的模型来执行4倍超分辨率，同时保持其余的训练过程与去噪管道相同也就是说，而不是14Cle' ment Godard，Kevin Matzen，MattUyttendaele双三次SRGAN [27]SFSR（Ours）MFSR（Ours）Ground truth图8：稳定的实时照片测试数据上的多帧4 ×超分辨率。虽然我们的单帧模型实现了良好的上采样，但我们的多帧方法的锐度增加带来了显着的质量改善。使用一组噪声图像作为输入，我们向网络提供一组低分辨率图像，并使其向我们提供清晰的高分辨率输出。为了保持架构不变，我们不将低分辨率图像作为网络的输入，而是通过首先对每个输入补丁进行4倍下采样，然后使用双线性插值将其调整回原始大小，图8显示了我们的多帧模型如何能够恢复高频细节，例如狮子的清晰轮廓和柱子顶部的栏杆。5限制我们的单帧架构基于[36，49，27]，利用全分辨率卷积。然而，它们在存储器和计算上都是昂贵的，并且对于给定的网络深度具有小的接收场使用多尺度架构，如U-Nets [38]，可以通过减少计算和内存负载，同时增加感受野来帮助缓解这两个问题虽然不是必需的，但我们在预稳定序列上训练了我们的网络，我们观察到不稳定序列的准确性下降，如表2所示，以及较长序列的不稳定性通过在网络内部进行扭曲来训练网络以稳定序列是很有趣的，如[24，17]。最后，我们的训练数据的低分辨率阻止了模型恢复高频细节;更高分辨率的数据集可能会解决这个问题。6结论我们提出了一种新的深度神经架构来处理突发图像。我们改进了一个简单的单帧架构，利用经常性的连接，并表明，虽然单帧模型达到性能极限，我们的经常性架构大大优于多帧数据的模型我们仔细设计了我们的方法，以符合我们在3.1节中陈述的目标。因此，我们的方法在Live Photos数据集中实现了最先进的性能，并在挑战现有的真实噪声数据集上匹配或击败了现有的多帧降噪器。致谢我们要感谢Sam Hasinoff和Andrew Adams提供的HDR+数据集、Jan Kautz提供的FlexISP数据集以及Ross Grishick提供的有益讨论。最后，非常感谢彼得·海德曼在最后一分钟的魔术表演。深度突发去噪15引用1. Agostinelli，F.，安德森先生Lee，H.：自适应多列深度神经网络及其在鲁棒图像去噪中的应用。 In ： Burges ， C.J.C. ，博图湖 Welling ， M. ， Ghahramani ， Z. ，Weinberger，K.Q.（编辑）神经信息处理系统的进展26，pp。1493-1501.柯兰联营公司（2013年）32. Borman，S.，Stevenson，R.L.：序列图像超分辨率研究综述。电路与系统，1998年。诉讼1998年中西部地区研讨会。pp. 374-378 IEEE（1998）43. Buades，A.，Coll，B.，Morel，J.M.：一种非局部图像去噪算法。计算机视觉与模式识别，2005年。CVPR 2005。IEEE计算机学会会议，第2卷，第10页。60-65. IEEE（2005）34. 汉堡，H.C.，舒勒，C.J.，Harmeling，S.：图像去噪：普通神经网络能与bm3d竞争吗？计算机视觉与模式识别（CVPR），2012年IEEE会议。pp. 2392-2399. IEEE（2012）35. Chaitanya ， C.R.A. ， Kaplanyan ， A.S. ， Schied ， C. Salvi ， M. ， Lefohn ， A. ，Nowrouzezahrai，D.，艾拉，T.：使用循环去噪自动编码器的蒙特卡罗图像序列的交互式重建。ACM Transactions on Graphics（TOG）36（4），98（2017）3，66. 陈旭，松湖，加-地Yang，X.：深度rnns视频去噪。数字图像的应用处理XXXIX.第9971卷，第103页。99711T国际光学与光子学会（2016）37. 陈玉，Pock，T.：可训练的非线性反应扩散：快速有效图像恢复的灵活框架IEEETransactions on pattern analysis and machine intelligence39（6），12568. Dabov，K.，Foi，A.，Katkovnik，V.，Egiazarian，K.：稀疏三维变换图像去噪领域协同过滤IEEE Transactions on image processing16（8），20809. Dabov，K.，Foi，A.，Katkovnik，V.，Egiazarian，K.：基于形状自适应主成分分析的Bm3d图像去噪在：SPARS10. 董，C.，Loy，C.C.，他，K.，唐X：使用深度卷积网络实现图像超分辨率。IEEETransactionsonPatternAnalysisandMachineIntelligence38 （ 2 ）， 295https://doi.org/10.1109/TPAMI.2015.2439281www.example.com11. 董，C.，Loy，C.C.，他，K.，唐X：使用深度卷积网络实现图像超分辨率。IEEEtransactions on pattern analysis and machine intelligence38（2），29512. Everingham，M.凡古尔湖威廉姆斯，C.K.I.，Winn，J.，齐瑟曼，A.：pascal视觉对象类（voc）的挑战。International Journal of Computer Vision88（2），30313. Farsiu，S.，罗宾逊医学博士Elad，M.，Milanfar，P.：快速和强大的多帧超分辨率。IEEE transactions on image processing13（10），132714. Foi，A.：剪切的噪声图像：异方差建模与实用去噪。信号处理89（12），260915. Gharbi，M.，Chaurasia，G.，巴黎，S.，Durand，F.：深度联合去马赛克和去噪。ACM Transactions on Graphics（TOG）35（6），191（2016）316. Glasner，D.，Bagon，S.，Irani，M.：从单一图像中获得超分辨率In：ICCV（2009），http://www.wisdom.weizmann.ac.il/www.example.com~vision/SingleImageSR.html417. 戈达尔角Mac Aodha，O.，Brostow，G.J.：无监督单目深度估计左右一致性在：IEEE计算机视觉和模式识别会议（CVPR）（2017年7月）1416Cle' ment Godard，Kevin Matzen，MattUyttendaele18. Hasinoff，S.W.，Durand，F.，弗里曼，W.T.：噪音-高动态范围摄影的最佳捕捉。在：CVPR中。pp. 553-560. IEEE Computer Society（2010），http：//dblp.uni-trier.de/db/conf/cvpr/cvpr2010.html#HasinoffDF10219. Hasinoff，S.W.，Sharlet，D.，Geiss河Adams，A.，巴伦J.T.Kainz，F.，陈杰，Levoy，M.：用于移动相机的高动态范围和低光照成像的连拍ACM Transactions on Graphics（TOG）35（6），192（2016）1，2，7，11，1320. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习发布时间：2016IEEE计算机视觉与模式识别会议（CVPR）。pp.770https://doi.org/10.1109/CVPR.2016.904、1021. Heide，F.，Diamond，S.Nießner，M.Ragan-Kelley，J.，Heidrich，W.，Wetzstein，G.：近端：使用邻近算法的高效图像优化。ACM Transactions on Graphics（TOG）35（4），84（2016）3，722. Heide，F.，Steinberger，M.，蔡耀东Rouf，M.，Pajak，D.雷迪，D.加洛岛刘杰，Heidrich，W.，Egiazarian，K.，等：Flexisp：一个灵活的相机图像处理框架。ACMTransactions on Graphics（TOG）33（6），231（2014）3，7，1223. Hopfield，J.J.：神经网络和物理系统与涌现集体计算能力.美国国家科学院院刊79（8），255424. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，等：空间Transformer网络。在：预付款神经信息处理系统pp. 201725. Jain，V.Seung，S.：使用卷积网络进行自然图像去噪在：Koller，D.，Schu-urmans，D.，Bengio，Y.，博图湖（编辑）神经信息处理系统的进展769-776.柯兰联营公司（2009），http://papers.nips.cc/paper/3506-natural-image-denoising-with-convolutional-networks.pdf326. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法在：第三届学习表征国际会议（ICLR）（2014年）的会议记录827. 莱迪格角泰斯湖胡萨尔，F.卡瓦列罗，J.，Cunningham，A.Acosta，A.Aitken，A.，特贾尼一、托茨，J.，王志，Shi，W.：使用生成对抗网络的照片逼真的单图像超分辨率在：IEEE计算机视觉和模式识别会议（CVPR）（2017年7月）3，4，5，1428. Levin，A.，Nadler，B.：自然图像去噪：最优性和固有边界。在：计算机视觉与模式识别（CVPR），2011年IEEE会议。pp. 2833-2840. IEEE（2011）929. 刘志，Yuan，L.唐，X.，Uyttendaele，M.，孙杰：快速突发图像去噪。ACMTransactions on Graphics（TOG）33（6），232（2014）2

下载后可阅读完整内容，剩余1页未读，立即下载