连拍图像恢复与增强

84 浏览量更新于2023-10-25 收藏 20.94MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

U1U1U1U2U2U3×2×2×2×4×457590连拍图像恢复与增强0Akshay Dudhane 1 Syed Waqas Zamir 2 Salman Khan 1 , 30Fahad Shahbaz Khan 1 , 4 Ming-Hsuan Yang 5 , 6 , 701 Mohamed bin Zayed University of AI 2 Inception Institute of AI 3 Australian National University 4Link¨oping University 5 University of California, Merced 6 Yonsei University 7 Google Research0摘要0现代手持设备可以快速连续拍摄连拍图像序列。然而，单独获取的帧由于相机抖动和物体运动而受到多种退化和错位。连拍图像恢复的目标是有效地结合多个连拍帧之间的互补线索，生成高质量的输出图像。为了实现这个目标，我们开发了一种新颖的方法，仅关注连拍帧之间的有效信息交换，以过滤掉退化，同时保留和增强实际场景细节。我们的核心思想是创建一组伪连拍特征，将所有输入连拍帧的互补信息无缝地交换。然而，除非正确对齐各个连拍帧以消除帧间运动，否则无法成功创建伪连拍。因此，我们的方法首先从每个连拍帧中提取预处理特征，并使用边缘增强的连拍对齐模块进行匹配。然后，使用多尺度上下文信息创建和丰富伪连拍特征。我们的最后一步是逐渐增加分辨率并合并伪连拍特征，以自适应地聚合伪连拍特征中的信息。与通常采用单阶段上采样的后期融合方案相比，我们的方法表现良好，在连拍超分辨率、连拍低光图像增强和连拍降噪任务上提供了最先进的性能。源代码和预训练模型可在https://github.com/akshaydudhane16/BIPNet上获得。01. 引言0高端数码单反相机可以拍摄出具有生动细节的优质图像。随着智能手机的普及，计算摄影的主要目标是使用智能手机相机生成类似数码单反相机的图像[24]。然而，智能手机的物理限制0B f0f0边缘增强0特征对齐0伪连拍特征融合0自适应组0上采样模块0输出图像1 × 3× 8H × 8W0图1.我们连拍图像处理方法的整体图。我们的网络BIPNet以RAW图像连拍为输入，生成高质量的RGB图像。BIPNet有三个关键阶段。(1)边缘增强特征对齐，以去除噪声和帧间空间和颜色错位。(2)伪连拍特征融合机制，以实现帧间通信和特征整合。(3)自适应组上采样，以逐渐增加空间分辨率并合并多帧信息。虽然BIPNet可以推广到其他恢复任务，但这里我们展示了超分辨率应用。0相机限制了图像重建质量。例如，小的传感器尺寸限制了空间分辨率，小的镜头和光圈在低光条件下提供嘈杂和色彩失真的图像[12]。类似地，小的像素腔体积累的光较少，因此动态范围较低。为了缓解这些问题，多帧拍摄是单帧处理的自然解决方案[21]。0突发成像的目标是通过合并同一场景的一系列（退化的）帧中的所需信息来合成高质量的图像。然而，突发图像采集也存在其自身的挑战。例如，在图像突发捕获过程中，相机和/或场景物体的任何移动都会导致对齐问题，从而在输出图像中产生幽灵和模糊的伪影[53]。因此，迫切需要开发一种对齐问题具有鲁棒性且不需要特殊的突发采集条件的多帧处理算法。我们注意到现有的突发处理技术[4,5]通常分别提取和对齐突发图像的特征，并且通常采用晚期特征融合机制，这可能会阻碍灵活的信息57600在帧间交换信息的过程中，帧对齐是合成伪突发之前的关键步骤，以便在后期阶段聚合相关的像素级线索。现有的方法[4,5]通常使用显式的运动估计技术（例如光流）来对齐输入帧，这些方法通常是庞大的预训练模块，无法完全集成到端到端可学习的流程中。这可能导致在流估计阶段引起的错误传播到扭曲和图像处理阶段，从而对生成的输出产生负面影响。在我们的方法中，我们提出的BIPNet通过可变形卷积[64]隐式学习帧对齐，可以有效地适应给定的问题。此外，我们在对齐阶段通过反投影操作[19]集成边缘增强细化，以保留高频信息。它有助于在存在高度复杂的帧间运动且仅使用可变形卷积可能不足以实现可靠对齐的情况下保持对齐精度。无论我们在何种光照条件下获取图像，图像中总是存在噪声。因此，我们的主要目标之一是在网络中尽早去除噪声[57]，以减少对对齐和融合阶段的困难。为此，我们在BIPNet中引入了残差全局上下文注意力进行特征提取和细化/去噪。虽然BIPNet的应用可以推广到任何突发处理任务，但我们展示了它在突发超分辨率、突发低光图像增强和突发去噪上的有效性。在超分辨率（SR）中，上采样是图像重建的关键步骤。现有的突发SR方法[4,5]首先融合多帧特征，然后使用像素洗牌操作[43]获得高分辨率图像。然而，我们可以利用多帧中可用的信息以灵活和有效的方式进行合并和上采样。因此，我们在BIPNet中包含了自适应组上采样，逐渐增加分辨率同时合并互补特征。BIPNet的示意图如图1所示。本文的主要贡献包括：0•一种边缘增强对齐技术，用于消除突发特征之间的空间和颜色对齐问题（第3.1节）。0•一种新颖的伪突发特征融合机制，能够实现帧间通信和特征融合（第3.2节）。0• 一种自适应组上采样模块，用于渐进融合和上采样（第3.3节）。0我们的BIPNet在合成和真实基准数据集上实现了最先进的突发超分辨率、低光图像增强和突发去噪任务的结果。我们提供了全面的消融结果和视觉示例，以突出BIPNet的贡献因素（第4节）。02. 相关工作0单图像超分辨率（SISR）。自从第一个基于CNN的工作[14]以来，数据驱动的方法在传统方法[17,55]上取得了高性能的提升。CNN的成功主要归功于它们的架构设计[2,59]。给定一个低分辨率图像（LR），早期的方法学习直接生成潜在的SR图像[14,15]。相反，最近的方法学习生成高频残差，将其与LR图像相加以生成最终的SR输出[23,46]。其他值得注意的SISR网络设计包括递归学习[1,27]、渐进重建[29, 52]、注意机制[11, 58, 61,62]和生成对抗网络[31, 42,51]。SISR方法无法处理来自输入连拍的多退化帧，而我们的方法属于多帧SR，可以有效地合并跨帧信息以生成HR输出。多帧超分辨率（MFSR）。Tsai等人[48]是第一个处理MFSR问题的人。他们提出了一种基于频域的方法，对多个别名LR图像进行注册和融合，生成SR图像。由于在频域中处理多帧会导致视觉伪影[48]，其他几种方法旨在通过在HR重建过程中引入图像先验知识[44]和进行算法选择，如迭代反投影[25,41]来改善结果。Farsui等人[16]设计了一种联合多帧去马赛克和SR方法，对噪声具有鲁棒性。MFSR方法还针对特定应用进行了开发，例如用于手持设备[53]，增加人脸图像的空间分辨率[49]和卫星图像[13,40]。Lecouat等人[30]通过引入基于深度学习的优化过程，交替进行运动和HR图像估计步骤，保留了传统方法在逆问题中的可解释性。最近，Bhat等人[4]提出了一种多帧连拍SR方法，首先使用显式的PWCNet[45]对连拍图像特征进行对齐，然后使用基于注意力的融合机制进行特征集成。然而，显式使用运动估计和图像变形技术可能难以处理快速物体运动的场景。最近的研究[47,50]表明，可变形卷积[64]可以有效处理由于在性质上是隐式和自适应的而导致的帧间对齐问题。57610与现有的MFSR方法不同，我们隐式学习帧间对齐，然后进行通道级信息聚合，随后进行自适应上采样以有效利用多帧信息。0低光图像增强。在低光条件下拍摄的图像通常暗、噪声大且色彩失真。这些问题可以通过使用长曝光时间、大光圈、闪光灯和曝光补偿等方法来缓解[12,60]。然而，每种解决方案都有自己的挑战。例如，长曝光会导致由于相机或物体移动而产生幽灵伪影。大光圈在智能手机设备上不可用等。《黑暗中看见》方法[8]是首次尝试用CNN模型替代标准相机成像流程。它以在极低光条件下拍摄的RAW输入图像为输入，并学习生成一张明亮的sRGB图像。后来，这项工作通过使用新的基于CNN的架构[36]和采用像素级和感知损失的组合[60]得到进一步改进。赵等人[63]利用连拍成像的优势，提出了一种可以从一系列RAW图像中生成无噪声亮丽的sRGB图像的循环卷积网络。卡拉登尼兹等人[26]通过他们的两阶段方法进一步改进了结果：第一个子网络执行去噪，第二个子网络提供视觉增强图像。尽管这些研究在增强低光图像方面取得了显著进展，但它们没有解决帧间错位和信息交互的问题，而我们在这项工作中解决了这个问题。0多帧去噪。早期的工作[9, 34,35]将流行的图像去噪算法BM3D[10]扩展到视频。Buades等人通过估计对齐图像的噪声水平，然后将像素级均值和BM3D相结合来进行去噪。[20]中使用混合2D/3D维纳滤波器对连拍图像进行去噪和合并，用于高动态范围和低光摄影任务。Godard等人利用循环神经网络（RNN）扩展了单幅图像去噪网络，用于多帧图像。Mildenhall等人通过核预测网络（KPN）生成每像素核来合并输入图像。在[37]中，作者将KPN方法扩展为预测多个核，而[54]引入基础预测网络（BPN）以使用更大的核。最近，Bhat等人提出了最大后验形式的多帧SR和去噪的深度重参数化。03.连拍处理方法0在本节中，我们描述了适用于不同图像恢复任务的连拍处理方法，包括连拍超分辨率、连拍低光图像增强和连拍去噪。目标是生成高质量图像。0通过组合在单个连拍中捕获的多个退化图像的信息，生成高质量图像。连拍图像通常是使用手持设备拍摄的，往往无法避免帧间空间和颜色不对齐的问题。因此，连拍处理的主要挑战是准确对齐连拍帧，然后在保留和增强共享属性的同时，结合它们的互补信息。为此，我们提出了BIPNet，其中不同的模块协同工作，以在统一模型中共同执行去噪、去马赛克、特征融合和上采样任务。总体流程如图1所示，提出的BIPNet有三个主要阶段。首先，将输入的原始连拍通过边缘增强特征对齐模块，提取特征，减少噪声，并消除连拍特征之间的空间和颜色不对齐问题（第3.1节）。其次，通过交换信息生成伪连拍，使伪连拍中的每个特征图现在包含所有实际连拍图像特征的互补属性（第3.2节）。最后，使用自适应组上采样模块处理多帧伪连拍特征，生成最终的高质量图像（第3.3节）。03.1.边缘增强特征对齐模块0在连拍处理中的一个主要挑战是从多个退化图像中提取特征，这些图像通常受到噪声、未知空间位移和颜色偏移的污染。这些问题是由于场景中的相机和/或物体运动以及光照条件引起的。为了将连拍中的其他图像与基准帧（通常是第一帧）对齐，我们提出了一个基于调制可变卷积的对齐模块[64]。然而，现有的可变卷积并没有明确设计用于处理噪声的原始数据。因此，我们提出了一个特征处理模块来减少初始连拍特征中的噪声。我们的边缘增强特征对齐（EBFA）模块（图2（a））由特征处理和连拍特征对齐组成。03.1.1特征处理模块0提出的特征处理模块（FPM）如图2（b）所示，采用了残差内残差学习，通过跳跃连接轻松传递丰富的低频信息[61]。由于捕捉提取全局场景属性的长程像素依赖性已被证明对各种图像恢复任务有益[56]（例如，图像/视频超分辨率[38]和极低光图像增强[3]），我们利用全局上下文注意力（GCA）机制来改进残差块产生的潜在表示，如图2（b）所示。让�x b �0b ∈ [1: B ] ∈ R B × f × H × W 是具有 B个突发图像的初始潜在表示1×f×H×W2NFPMFPM1×f×H×WFPMConvConvb×f×HWRGCABRGCABRGCABConvConvGCAConvConvSoftmaxConvHW×1×bb×1×H×Wb×f×H×Wb×f×1×1Convb × f/r × 1 × 1bxfxHxWLeaky ReLULeaky ReLUyb = xb + W1 α ¯xb,(1)¯ybn =Ki=1W dni yb(n+ni+∆ni) · ∆mni,(3)differences. Our approach does not provide explicit ground-truth supervision to the alignment module, instead it learnsto perform implicit alignment. Furthermore, to strengthenthe feature alignment and to correct the minor alignment er-rors, using FPM, we obtain refined aligned features (RAF)followed by computing the high-frequency residue by tak-ing the difference between the RAF and base frame fea-tures and add it to the RAF. The overall process of ourbbbbrSc = W ρe1c, e2c, · · · , eBc,s.t.c ∈ [1 : f], (4)57620基准帧0可变形卷积0偏移 -0改进的对齐特征 1× f × H ×W0当前帧0块 30块 20块 10输入0输出0(a) 边缘增强特征对齐模块（EBFA） (b) 特征处理模块（FPM）0图2.边缘增强特征对齐（EBFA）模块将输入突发中的所有其他图像对齐到基准帧。特征处理模块（FPM）被添加到EBFA中，以去噪输入帧以便于对齐。�表示矩阵乘法。0对于特征通道数为 f的情况，我们的残差全局上下文注意力块（RGCAB）如图2(b)所示：0其中 ¯ x b = W 3 � γ � W 3 � x b ��，α � ¯ x b � = ¯ x b + W 1 �γ � W 1 � Ψ � W 1 � ¯ x b �� ¯ x b ��。这里，W k 表示具有 k × k大小的滤波器的卷积层，每个 W k对应一个具有不同参数的单独层，γ 表示leakyReLU激活函数，Ψ 是softmax激活函数，�表示矩阵乘法，α ( ∙ ) 是全局上下文注意力。03.1.2 突发特征对齐模块0为了有效地融合多个帧的信息，首先需要对这些帧级特征进行对齐。我们将当前帧 y b 的特征与基准帧 1 y b r进行对齐。EBFA通过一个偏移卷积层处理 y b 和 y br，并预测 y b 的偏移 ∆ n 和调制标量 ∆ m的值。计算得到对齐特征 ¯ y b 的公式如下：0¯ y b = W d � y b , ∆ n, ∆ m � , ∆ m = W o � y b , y br � , (2) 其中，W d 和 W o分别表示可变形卷积和偏移卷积。具体而言，对齐特征图 ¯y b 上的每个位置 n 的计算如下：0其中，K =9，∆ m 的取值范围为 [0, 1]，对于每个 n i ∈ { ( − 1 , 1) , ( − 1, 0) , ..., (1 , 1) }，它是一个大小为 3 × 3的正则网格。卷积操作将在非均匀位置 ( n i + ∆ n i ) 上进行，其中 n i可以是分数。为了避免分数值，该操作使用双线性插值实现。我们提出的EBFA模块受到了可变形对齐模块（DAM）[47]的启发，但有以下不同之处。我们的方法不对齐模块提供显式的ground-truth监督，而是学习隐式对齐。此外，为了加强特征对齐并纠正微小的对齐错误，我们使用FPM获得改进的对齐特征（RAF），然后通过计算RAF和基准帧特征之间的差异来计算高频残差，并将其添加到RAF中。我们的EBFA模块的整体过程总结如下：e b = ¯ y b+ W 3 � ¯ y b − y b r �01 在这项工作中，我们将第一个输入的突发图像视为基准帧。0其中e b ∈ R B × f × H × W表示对齐的爆发特征图，W3(∙)是卷积。尽管为简洁起见，图2(a)中仅显示了一次可变形卷积，但我们顺序应用了三个这样的层以提高我们的EBFA模块的变换能力。03.2. 伪爆发特征融合模块0现有的爆发图像处理技术[4,5]分别提取和对齐爆发图像的特征，并通常采用后期特征融合机制，这可能会阻碍帧之间的灵活信息交换。相反，我们提出了一种伪爆发特征融合（PBFF）机制（见图3(a)）。该PBFF模块通过连接来自所有爆发特征图的相应通道特征来生成特征张量。因此，伪爆发中的每个特征张量都包含所有实际爆发图像特征的互补属性。处理爆发间特征响应简化了表示学习任务，并通过解耦爆发图像特征通道来合并相关信息。给定爆发大小为B和f个通道的对齐爆发特征集e = � e b c �b ∈ [1: B ] c ∈ [1: f ]，伪爆发由以下方式生成：0其中，�∙�表示连接，e 1 c是第1个对齐爆发特征集e 1的第c个特征图，W ρ是具有f个输出通道的卷积层，S = { Sc } c ∈ [1: f ]表示大小为f × f × H ×W的伪爆发。在本文中，我们使用f = 64。a1a2a3a4s1s2s3s4s1s2sfs1s2s3s4𝐞𝟏𝐞𝟐𝐞𝐁𝐬×𝟐𝟏f/4×f×2H×2W U1U1U1f/16×f×4H×4W U21×f×8H×8W U3𝐬×𝟐𝟏𝐬×𝟐𝟐𝐬×𝟐𝟑𝐟′𝐬×𝟒𝟒𝐬×𝟖𝐬×𝟒𝟏U2SoftMax〈 ⋅〈 ⋅ 〉〈 ⋅ 〉〈 ⋅ 〉⊙⊙⊙⊙⊙ˆag = ψW1W14+1Si��,(5)57630转置卷积，组=1，尺度=20(c) 提出的上采样器 (U L )0对齐的爆发特征(B× f×H×W)0伪爆发特征(f× f×H×W)0(a) 伪爆发特征融合模块 (PBFF)0多尺度特征0多尺度特征提取0卷积0卷积0卷积0(b) 提出的自适应组上采样模块 (AGU)0伪爆发特征( f×f×H×W)0一级0U 1 二级0三级0连接0逐元素相乘0逐元素0加法0伪爆发0图3. (a)通过在帧之间交换信息生成伪爆发，使得伪爆发中的每个特征张量包含所有帧的互补属性。伪爆发使用（共享的）U-Net进行多尺度特征提取。(b) AGU模块以组的形式处理伪爆发特征，并逐步进行上采样。(c) 基于密集注意力的上采样器的示意图。0即使在生成伪爆发之后，获得它们的深层表示也是必要的。我们使用一个轻量级（3级）U-Net从伪爆发中提取多尺度特征（MSF）。我们在U-Net中使用共享权重，并且使用我们的FPM代替常规卷积。03.3. 自适应组上采样模块0上采样是从LR特征图生成超分辨率图像的最后关键步骤。现有的burstSR方法[4,5]使用像素洗牌层[43]在一阶段进行上采样。然而，在burst图像处理中，可以有效地利用多个帧中的信息进入HR空间。为此，我们提出了自适应和渐进地合并多个LR特征的上采样阶段。例如，一方面，在无纹理区域中具有均匀的融合权重有利于在帧之间进行降噪。另一方面，为了防止幽灵伪影，对于任何错位的帧，最好具有较低的融合权重。图3(b)显示了所提出的自适应组上采样(AGU)模块，它以伪burst融合模块产生的特征图S ={Sc}c∈[1:f]为输入，并通过三级渐进上采样提供超分辨率输出。在AGU中，我们将伪burst特征顺序分成4个组，而不是遵循任何复杂的选择机制。这些特征组使用图3(c)中所示的架构进行上采样，该架构首先计算密集的注意力图(ac)，为每个像素提供注意力权重。0cation.密集的注意力图逐元素地应用于相应的burst特征。最后，给定特征组ˆSg和相应的注意力图ˆag的第一个上采样级别(Level I in Fig. 3 (b))的上采样响应被定义为：0Sg×2 = WT��ˆSg⊙ˆag��，0� g�4 �0其中ψ(∙)表示softmax激活函数，WT是3×3的转置卷积层，ˆag∈R4×f×H×W表示第g个组的密集注意力图0burst特征响应组(ˆSg)。为了进行4倍尺度的burstSR，实际上我们需要8倍的上采样(额外的2倍是由于马赛克RAWLR帧)。因此，在AGU中，我们使用三个级别的2倍上采样。由于我们的BIPNet生成了64个伪burst，这自然形成了16个、4个和1个特征组，分别位于I、II和III级。每个级别的上采样器在组之间共享，以避免网络参数的增加。04. 实验0我们在真实和合成数据集上评估了提出的BIPNet和其他最先进的方法，用于burst超分辨率。4.1. Burst Super-resolution57640超分辨率，(b) burst低光图像增强，和(c)burst降噪。实现细节。我们的BIPNet是端到端可训练的，不需要任何模块的预训练。为了网络参数的效率，所有burst帧都使用共享的BIPNet模块(FPM、EBFA、PBFF和AGU)进行处理。总体而言，所提出的网络包含6.67M个参数。我们使用L1损失单独训练burstSR、burst低光图像增强和burst降噪的模型。而对于真实数据的SR，我们使用在SyntheticBurst数据集上使用对齐的L1损失[4]预训练的权重对BIPNet进行微调。模型使用Adam优化器进行训练。在训练过程中，采用余弦退火策略[33]逐渐降低学习率，从10^-4降低到10^-6。我们使用水平和垂直翻转进行数据增强。附加的网络细节和视觉结果请参见补充材料。0我们在SyntheticBurst和(真实世界的)BurstSR数据集上进行了4倍尺度的SR实验[4]。数据集。(1)SyntheticBurst数据集包含46,839个用于训练和300个用于验证的RAW burst。每个burst包含14个LRRAW图像(每个大小为48×48像素)，这些图像是从单个sRGB图像合成生成的。每个sRGB图像首先使用逆相机管道[6]转换为RAW空间。然后，通过随机旋转和平移生成burst。最后，通过双线性下采样、Bayer马赛克、采样和随机噪声添加操作获得LR burst。(2) BurstSR数据集包含200个RAWburst，每个包含14个图像。为了收集这些burst序列，使用智能手机相机和单反相机分别拍摄了LR图像和相应的(地面真实)HR图像。从200个burst中，裁剪了5,405个用于训练和882个用于验证的patch。每个输入裁剪的大小为80×80像素。在合成数据上的SR结果。所提出的BIPNet在SyntheticBurst数据集的训练集上训练了300个epoch，然后在验证集上进行评估[4]。我们将我们的BIPNet与几种burstSR方法进行了比较，如High-ResNet[13]、DBSR[4]、LKR[30]和MFIR[5]，用于4倍上采样。表1显示了我们的方法的优越性能。具体而言，我们的BIPNet在PSNR上比之前最好的方法MFIR[5]提高了0.37dB，在第二好的方法[30]上提高了0.48dB。图4提供的视觉结果显示，BIPNet生成的SR图像比其他算法更清晰、更真实。我们的BIPNet能够重建结构内容和细节纹理，而不会引入伪影和色彩失真。而DBSR、LKR和MFIR的结果包含斑点状的纹理，并且牺牲了图像细节。0表1. 在SyntheticBurst超分辨率验证集[4]上对×4burst超分辨率进行性能评估。0方法 SyntheticBurst（Real）BurstSR0PSNR↑ SSIM↑ PSNR↑ SSIM↑0单图像 36.17 0.909 46.29 0.982 HighRes-net[13]37.45 0.92 46.64 0.980 DBSR[4] 40.76 0.96 48.050.984 LKR[30] 41.45 0.95 - - MFIR[5] 41.56 0.9648.33 0.9850BIPNet（我们的方法）41.93 0.96 48.49 0.9850基准帧 DBSR[4] LKR[30] MFIR[5] BIPNet（我们的方法）0图4. 在SyntheticBurst[4]上进行×4 burstSR的比较。我们的BIPNet产生比其他竞争方法更清晰、更干净的结果。0图5. 在SyntheticBurst数据集[4]上进行×8 burst SR的结果。 (a)基准帧 (b) BIPNet（我们的方法） (c)真实图像。我们的方法能够在极具挑战的情况下有效地恢复图像细节。0为了展示我们的方法BIPNet在大尺度因子上的有效性，我们进行了×8 burstSR的实验。我们按照上述SyntheticBurst数据集的相同过程合成了LR-HR对。图5中的视觉结果显示，我们的BIPNet能够在如此大的尺度因子下恢复丰富的细节，而且没有任何伪影。更多示例可以在补充材料中找到。0真实数据的SR结果。BurstSR数据集中的LR输入burst和相应的HRground-truth由于使用不同的相机拍摄而存在轻微的不对齐。为了缓解这个问题，我们在训练时使用对齐的L1损失，评估时使用对齐的PSNR/SSIM，与之前的工作[4,5]一样。我们在BurstSR数据集的训练集上对预训练的BIPNet进行了15个epoch的微调，同时在验证集上进行了评估。图像质量评分e-De-57650表2.在SyntheticBurst验证集上评估BIPNet模块的重要性，用0模块 A1 A2 A3 A4 A5 A6 A7 A80基线 � � � � � � � � FPM（§ 3.1.1） � � � � � � � DAM（§ 3.1.2） � � � � � � RAF（§ 3.1.2） � � � PBFF（§ 3.2） � � � � MSF（§ 3.2） � � � AGU（§ 3.3） � � EBFA（§ 3.1） �0PSNR 36.38 36.54 38.39 39.10 39.64 40.35 41.25 41.550表3. 在SyntheticBurstSR数据集上评估×4SR的所提出的对齐和融合模块的重要性。0方法 PSNR↑ SSIM↑0(a) 对齐显式[4] 39.26 0.944 TDAN[47] 40.19 0.957EDVR[50] 40.46 0.9580(b) 融合加法 39.18 0.943 连接 40.13 0.956 DBSR[4]40.16 0.9570(c) BIPNet（我们的方法）41.55 0.960表4.在SID数据集[8]上评估burst低光图像增强方法。我们的BIPNet相对于现有方法提升了3.07 dB。0方法 PSNR↑ SSIM↑ LPIPS↓0Chen等人[8] 29.38 0.892 0.484Maharjan等人[36] 29.57 0.891 0.484Zamir等人[60] 29.13 0.881 0.462 Zhao等人[63]29.49 0.895 0.455 Karadeniz等人[26] 29.800.891 0.3060BIPNet（我们的方法）32.87 0.936 0.3050基准帧 DBSR[4] MFIR[5] BIPNet（我们的方法）HR图像0图6. 在Real BurstSR数据集[4]上进行×4burst超分辨率的比较。我们的BIPNet产生比其他竞争方法更清晰、更干净的结果。0结果报告在表1中。与之前最好的方法MFIR[5]相比，我们的BIPNet提供了0.16dB的性能提升。图6中的视觉比较显示，与其他竞争方法相比，我们的BIPNet在恢复重现图像的细节方面更有效。0消融研究。在这里，我们进行消融实验来展示我们方法的每个组成部分的影响。所有的消融模型都在SyntheticBurst数据集[5]上进行了100个epoch的训练，用于SR尺度因子×4。结果报告在表2中。对于基线模型，我们采用Resblocks[32]进行特征提取，简单的连接操作进行融合，转置卷积进行上采样。基线网络的PSNR为36.38dB。当我们将提出的模块添加到基线模型中时，结果显著且一致地改善。例如，当我们考虑可变形对齐模块DAM时，性能提升了1.85dB。类似地，RAF对模型的改进贡献了0.71dB。通过我们的PBFF机制，网络获得了1.25dB的显著增益。AGU在上采样阶段带来了1dB的增量。最后，EBFA通过在PSNR中提供0.3dB的改进，展示了其纠正对齐错误的有效性。总体而言，我们的BIPNet相对于基线方法获得了5.17dB的显著增益。最后，我们进行消融实验，通过将它们替换为现有的对齐和融合模块，来展示所提出的EBFA和PBFF模块的重要性。表3(a)显示了用其他方法替换我们的EBFA的结果。0对齐模块对性能有负面影响（PSNR至少下降1dB）。当使用除我们的PBFF之外的融合策略时，可以观察到类似的趋势，见表3（b）。04.2. 爆发低光图像增强0为了进一步证明BIPNet的有效性，我们进行了爆发低光图像增强的实验。给定一个低光RAW爆发，我们的目标是生成一张光线充足的sRGB图像。由于输入是马赛克化的RAW爆发，我们使用一级AGU来获得输出。数据集。SID数据集[8]包含在低光条件下以短曝光时间拍摄的输入RAW爆发图像及其对应的地面实况sRGB图像。Sony子集包含161个、20个和50个不同的爆发序列，分别用于训练、验证和测试。我们从SID的Sony子集的训练集中准备了28k个空间尺寸为128×128且爆发大小为8的补丁，用于对网络进行50个时期的训练。增强结果。在表4中，我们报告了几种低光增强方法的结果。我们的BIPNet相比现有最佳方法[26]获得了3.07dB的显著性能提升。同样，图7中提供的视觉示例也证实了我们方法的有效性。04.3. 爆发去噪0在这里，我们展示了所提出的BIPNet在爆发去噪任务上的有效性。BIPNet处理输入噪声sRGB爆发并获得无噪声图像。由于提取特征时不需要上采样，所以在提出的AGU中，转置卷积被简单的组卷积所取代，而网络的其余架构保持不变。数据集。我们在[39]和[54]中引入的灰度和彩色爆发去噪数据集上评估我们的方法。这些数据集分别包含73个和100个爆发图像。在这两个数据集中，通过对基准图像应用随机平移来合成爆发。然后，通过添加异方差高斯噪声[22]（方差σ2r +σsx）来破坏移位图像。然后，网络在4个不同的噪声增益（1、2、4、8）上进行评估，对应于噪声参数（log(σr)，log(σs)）→de-dslev-57660Karadeniz等人[26] BIPNet（我们的）地面实况图0图7.Sony子集[8]上的爆发低光图像增强。BIPNet更好地保留了颜色和结构细节。0(-2.2，-2.6)，(-1.8，-2.2)，(-1.4，-1.8)和(-1.1，-1.5)，分别。请注意，在最高噪声增益（增益∝8）的噪声参数在训练期间是看不见的。因此，对这个噪声水平的性能表明了网络对未见噪声的泛化能力。根据[5]，我们使用了来自Open Images[28]训练集的20k个样本来生成爆发大小为8且空间尺寸为128×128的合成噪声爆发。我们的BIPNet对灰度和彩色爆发去噪任务分别进行了50个时期的训练，并在基准数据集[39]和[54]上进行了评估。爆发去噪结果。我们将提出的BIPNet与几种方法（KPN [39]，MKPN [37]，BPN [54]和MFIR[5]）进行了灰度和彩色爆发去噪任务的比较。表5显示了我们的BIPNet在灰度爆发去噪数据集[39]上显著提高了最先进的方法。具体而言，BIPNet在所有四个噪声水平上都优于之前最好的方法MFIR [5]。平均而言，BIPNet比MFIR[5]提高了2.07dB。在表6中，可以观察到类似的性能趋势，用于彩色爆发数据集[54]上的彩色去噪。特别地，我们的BIPNet相比之前最好的方法MFIR [5]提供了1.34dB的PSNR提升。图8显示，BIPNet重建的图像比其他方法的图像更清晰、更锐利。05. 结论0我们提出了一种爆发图像恢复和增强框架，该框架旨在有效地融合来自多个爆发帧的互补信息。我们提出了伪爆发序列的概念，该序列是通过组合来自各个爆发帧的通道特征创建的，而不是在流水线的后期合并跨帧信息的晚期信息融合方法。为了避免伪爆发特征之间的不匹配，我们提供了一种方法。0增益 ∝ 1 增益 ∝ 2 增益 ∝ 4 增益 ∝ 8 平均0HDR+ [20] 31.96 28.25 24.25 20.05 26.13 BM3D [10] 33.89 31.17 28.5325.92 29.88 NLM [7] 33.23 30.46 27.43 23.86 28.75 VBM4D [35] 34.6031.89 29.20 26.52 30.55 KPN [39] 36.47 33.93 31.19 27.97 32.39 MKPN[37] 36.88 34.22 31.45 28.52 32.77 BPN [54] 38.18 35.42 32.54 29.4533.90 MFIR [5] 39.37 36.51 33.38 29.69 34.740BIPNet (我们的) 41.26 38.74 35.91 31.35 36.810表5.在灰度爆发去噪集[39]上与先前方法的比较，以PSNR为指标。现有方法的结果来自[5]。0增益 ∝ 1 增益 ∝ 2 增益 ∝ 4 增益 ∝ 8 平均0KPN [39] 38.86 35.97 32.79 30.01 34.41 BPN [54] 40.16 37.08 33.81 31.1935.56 MFIR [5] 42.21 39.13 35.75 32.52 37.400BIPNet (我们的) 42.28 40.20 37.85 34.64 38.740表6.在彩色爆发去噪集[54]上与先前方法的比较，以PSNR为指标。现有方法的结果来自[5]。我们的方法在所有四个噪声水平上都优于BPN，平均边际为1.34dB。0BPN [4] MFIR [5] BIPNet (我们的) 真实值。0图8.在灰度[39]和彩色数据集[54]上进行爆发去噪的比较。我们的BIPNet产生比其他竞争方法更锐利和干净的结果。在补充材料中提供了更多示例。0提出了一种对相机场景运动具有鲁棒性的边缘增强爆发对齐模块。使用多尺度信息丰富了伪爆发特征，然后逐步融合以创建上采样输出。我们在三个爆发图像恢复和增强任务（超分辨率、低光增强、去噪）上的最新结果证实了BIPNet的普适性和有效性。0致谢0M.-H. Yang部分受到NSF CAREER Grant1149783的支持。作者要感谢Martin Danelljan、GoutamBhat（苏黎世联邦理工学院）和BrunoLecouat（Inria和DIENS）对他们有用的反馈和提供爆发超分辨率结果。57670参考文献0[1] Namhyuk Ahn, Byungkon Kang, and Kyung-Ah Sohn.快速、准确、轻量级的级联残差网络超分辨率. In ECCV, 2018. 20[2] Saeed Anwar, Salman Khan, and Nick Barnes.超分辨率的深度之旅：一项调查. ACM Computing Surveys(CSUR), 2020. 20[3] Aditya Arora, Muhammad Haris, Syed Waqas Zamir,Munawar Hayat, Fahad Shahbaz Khan, Ling Shao, andMing-Hsuan Yang. 通过全局和局部上下文建模的低光图像增强.arXiv:2101.00850, 2021. 30[4] Goutam Bhat, Martin Danelljan, Luc Van Gool, and RaduTimofte. 深度爆发超分辨率. In CVP

下载后可阅读完整内容，剩余1页未读，立即下载