CycleISP:改进数据合成实现真实图像恢复

114 浏览量更新于2023-10-24 收藏 17.93MB PDF 举报

深度卷积神经网络

图像去噪算法

身份认证购VIP最低享 7 折!

30元优惠券

Syed Waqas Zamir1Aditya Arora1Salman Khan1Munawar Hayat1Fahad Shahbaz Khan1Ming-Hsuan Yang2,3Ling Shao11Inception Institute of Artiﬁcial Intelligence, UAE2University of California, Merced3Google Research26960CycleISP: 通过改进的数据合成进行真实图像恢复0摘要0大规模数据集的可用性已经帮助深度卷积神经网络（CNNs）发挥了真正的潜力。然而，对于单幅图像去噪问题，获取真实数据集是一种不可接受的昂贵和繁琐的过程。因此，图像去噪算法主要是在通常假设为加性白高斯噪声（AWGN）的合成数据上开发和评估的。虽然CNN在这些合成数据集上取得了令人印象深刻的结果，但在应用于真实相机图像时表现不佳，如最近的基准数据集中所报道的。这主要是因为AWGN不足以对真实相机噪声进行建模，真实相机噪声是信号相关的，并且受到相机成像管道的严重变换。在本文中，我们提出了一个在正向和反向方向上模拟相机成像管道的框架。它允许我们在RAW和sRGB空间中生成任意数量的逼真图像对进行去噪。通过在逼真的合成数据上训练新的图像去噪网络，我们在真实相机基准数据集上实现了最先进的性能。与RAW去噪的先前最佳方法相比，我们模型中的参数少了约5倍。此外，我们证明了所提出的框架在图像去噪问题之外的领域也具有普适性，例如立体电影中的颜色匹配。源代码和预训练模型可在https://github.com/swz30/CycleISP上获得。01. 引言0由于深度CNNs [ 33]的可用性，高级计算机视觉任务，如图像分类、目标检测和分割，取得了显著进展。CNN的成功主要得益于大规模数据集 [ 17 , 38]，其中包含数十万张带注释的图像。然而，对于低级视觉问题（图像去噪、超分辨率、去模糊等），即使收集小规模数据集也是极具挑战性和非平凡的。例如，获取噪声配对数据的典型过程是拍摄多张噪声图像0(a) 噪声输入 (b) N3NET [ 45 ] PSNR(RAW) /PSNR(sRGB) 38.24 dB / 32.42 dB0(c) UPI [ 7 ] (d) 我们的模型 37.37 dB / 35.49 dB 40.44 dB/ 36.16 dB 图1：对DND数据集 [ 44]中的真实相机图像进行去噪。我们的模型在去除真实噪声方面非常有效，尤其是低频色度和缺陷像素噪声。0通过像素级平均生成相同场景的清晰地面真实图像。在实践中，由于光照条件和相机/物体运动的变化，空间像素错位、颜色和亮度不匹配是不可避免的。此外，由于不同的噪声特性，需要使用不同的相机传感器重复获取图像对，这种昂贵而繁琐的获取图像对的过程。因此，单幅图像去噪主要是26970在合成环境中进行了形成：获取一组大量的清晰sRGB图像，并添加合成噪声以生成它们的噪声版本。在合成数据集上，现有的基于深度学习的去噪模型取得了令人印象深刻的结果，但与传统方法相比，在真实相机数据上的泛化能力较差[ 8 , 15 ]。这种趋势在最近的基准测试中也得到了证明 [ 1 , 44]。这种行为的原因在于深度CNNs是在通常假设为加性白高斯噪声（AWGN）的合成数据上进行训练的。真实相机噪声与AWGN基本不同，因此对于深度CNNs来说是一个重大挑战 [ 6 , 22 , 24]。在本文中，我们提出了一种合成数据生成方法，可以在RAW和sRGB空间中生成逼真的噪声图像。其主要思想是在通过我们学习的无关设备转换获得的RAW图像中注入噪声，而不是直接在sRGB图像中注入噪声。我们框架背后的关键见解是sRGB图像中存在的真实噪声是由常规图像信号处理（ISP）管道中的一系列步骤卷积而成的 [ 6 , 46]。因此，将sRGB中的真实相机噪声建模为RAW传感器数据相比于RAW传感器数据是一项困难的任务 [ 35]。例如，RAW传感器空间的噪声是信号相关的；经过解马赛克后，它变得空间色度相关；在通过管道的其余部分后，其概率分布不一定保持高斯分布 [ 53]。这意味着相机ISP严重变换了传感器噪声，因此需要更复杂的模型来考虑成像管道的影响，以合成逼真的噪声，而不是均匀的AWGN模型 [ 1 , 26 , 44]。为了利用互联网上丰富多样的sRGB照片，所提出的合成方法面临的主要挑战是如何将它们转换回RAW测量。Brooks等人 [ 7]提出了一种逐步反转相机ISP的技术，从而允许从sRGB转换为RAW数据。然而，这种方法需要关于目标相机设备的先验信息（例如，颜色校正矩阵和白平衡增益），这使得它特定于给定设备，因此缺乏通用性。此外，相机管道中的几个操作是专有的，这些黑盒子很难进行逆向工程。为了解决这些挑战，在本文中，我们提出了一个CycleISP框架，它将sRGB图像转换为RAW数据，然后再转换回sRGB图像，而不需要任何相机参数的知识。这个特性使我们能够在RAW和sRGB空间中合成任意数量的干净和逼真的噪声图像对。我们的主要贡献包括： •学习一种无关设备的转换，称为CycleISP，允许我们在sRGB和RAW图像空间之间来回移动。 •用于生成逼真噪声图像的真实图像噪声合成器0在RAW和sRGB空间中的干净/噪声配对数据。•具有双重注意机制的深度CNN，在多种任务中具有有效性：学习CycleISP，合成逼真的噪声和图像降噪。•从RAW和sRGB图像中去除噪声的算法，在DND [44]和SIDD[1]的真实噪声基准测试中取得了新的最佳结果（见图1）。此外，我们的降噪网络的参数数量（2.6M）远少于之前最佳模型（11.8M）[7]。•CycleISP框架具有超越降噪的泛化能力，我们通过额外的应用示例即立体电影中的颜色匹配来证明这一点[41, 59, 49]。02. 相关工作0图像中存在噪声是不可避免的，无论采集方法如何；现在，大多数图像来自具有小传感器尺寸但大分辨率的智能手机相机。单幅图像降噪是计算机视觉和图像处理领域中一个广泛研究的问题，早期的研究可以追溯到20世纪60年代。经典的降噪方法主要基于以下两个原则：（1）使用DCT[63]、小波变换 [19,55]等修改变换系数；（2）使用高斯核在所有方向上对邻域值进行平均，仅在像素具有相似值时在所有方向上进行平均[56, 58]，以及沿轮廓进行平均 [42,51]。尽管这些方法在图像保真度指标和视觉质量方面提供了令人满意的结果，但Buades等人的非局部均值（NLM）算法[8]在降噪方面取得了重大进展。NLM方法利用自然图像中存在的冗余或自相似性[20]。多年来，基于块的方法产生了可比较的结果，因此引发了研究[11, 12,37]，以探究是否达到了降噪性能的理论极限。随后，Burger等人[9]在大型合成噪声数据集上训练了一个简单的多层感知器（MLP）。该方法在以往复杂算法中表现良好。几种最近的方法使用深度CNN [4, 7, 25, 28, 45, 66, 67,2]，并展示了有希望的降噪性能。图像降噪可以应用于RAW或sRGB数据。然而，捕获多样化的大规模真实噪声数据是一项代价高昂且繁琐的过程，因此我们只能在合成环境中研究降噪。用于开发和评估图像降噪的最常用噪声模型是AWGN。因此，为AWGN设计的算法无法有效地从真实图像中去除噪声，正如最近的基准测试[1,44]所报道的。真实RAW传感器噪声的更准确模型包含信号相关的噪声成分（光子噪声）和信号独立的加性高斯成分（读出噪声）[22, 23,24]。相机ISP将RAW传感器噪声转换为复杂的形式。where each RRG contains multiple dual attention blocks, aswe shall see in Section 3.3.We then apply the ﬁnal convolution operation M1 tothe features Td and obtain the demosaicked image ˆIdem ∈RH×W ×3. We deliberately set the number of output chan-nels of M1 layer to three rather than one in order to preserveas much structural information of the original image as pos-sible. Moreover, we empirically found that it helps the net-work to learn the mapping from sRGB to RAW faster andmore accurately. At this point, the network is able to in-vert the effects of tone mapping, gamma correction, colorcorrection, white balance, and other transformations, andprovide us with the image ˆIdem whose values are linearlyrelated to the scene radiance. Finally, in order to generatethe mosaicked RAW output ˆIraw ∈ RH×W ×1, the Bayersampling function fBayer is applied to ˆIdem that omits twocolor channels per pixel according to the Bayer pattern:26980图2：我们的CycleISP模型在两个方向上模拟相机成像流程。它包括两个主要分支：RGB2RAW和RAW2RGB。RGB2RAW分支将sRGB图像转换为RAW测量值，而RAW2RGB分支将RAW数据转换为sRGB图像。辅助的颜色校正分支为RAW2RGB网络提供明确的颜色注意力。在训练CycleISP时，噪声注入模块处于关闭状态（第3节），在合成噪声数据时处于打开状态（第4节）。0（空间色彩相关且不一定是高斯分布的）。因此，在sRGB空间中估计噪声模型以进行降噪需要仔细考虑ISP的影响。在本文中，我们提出了一个框架，能够合成逼真的噪声数据，用于训练CNN有效地从RAW和sRGB图像中去除噪声。03. CycleISP0为了合成逼真的噪声数据集，我们在这项工作中采用了一个两阶段的方案。首先，我们开发了一个模拟相机ISP的框架，可以在正向和反向方向上对其进行建模，因此命名为CycleISP。其次，利用CycleISP，我们为RAW降噪和sRGB图像降噪的任务合成逼真的噪声数据集。在本节中，我们只描述了我们的CycleISP框架，该框架将相机ISP建模为一个深度CNN系统。图2显示了CycleISP模型的模块：(a)RGB2RAW网络分支，和(b)RAW2RGB网络分支。此外，我们引入了一个辅助的颜色校正网络分支，为RAW2RGB网络提供明确的颜色注意力，以正确恢复原始的sRGB图像。图2中的噪声注入模块仅在合成噪声数据时需要（第4节），因此在学习CycleISP时我们将其保持在“关闭”状态。CycleISP的训练过程分为两个步骤：首先独立训练RGB2RAW和RAW2RGB网络，然后进行联合微调。接下来，我们介绍CycleISP的不同分支的详细信息。请注意，我们使用RGB而不是sRGB以避免符号混乱。03.1. RGB2RAW网络分支0数码相机对RAW传感器数据进行一系列操作，以生成适合监视器的sRGB图像[46]。我们的RGB2RAW网络分支旨在反转相机ISP的效果。与[7]的技术相比，RGB2RAW分支不需要任何相机参数。给定输入的RGB图像I rgb ∈ R H × W ×3，RGB2RAW网络首先使用卷积层M0提取低级特征T0 ∈ R H × W × C，如下所示：T0= M0(I rgb)。接下来，我们将低级特征图T0通过N个递归残差组（RRGs）提取深层特征Td ∈ R H × W × C，如下所示：0其中每个RRG包含多个双重注意力块，我们将在第3.3节中看到。然后，我们将最终的卷积操作M1应用于特征T d，并获得解马赛克图像ˆI dem ∈ R H ×W ×3。我们故意将M1层的输出通道数设置为三而不是一个，以保留尽可能多的原始图像的结构信息。此外，我们经验性地发现这有助于网络更快、更准确地学习从sRGB到RAW的映射。此时，网络能够反转色调映射、伽马校正、颜色校正、白平衡和其他转换的效果，并为我们提供与场景辐射线性相关的图像ˆI dem。最后，为了生成马赛克的RAW输出ˆI raw ∈ R H × W ×1，将贝尔采样函数f Bayer 应用于ˆIdem，根据贝尔模式省略每个像素的两个颜色通道：0T d = RRG N (...(RRG1(T0))), (1)0ˆI raw = f bayer (M1(T d)). (2)0RGB2RAW网络使用线性和对数域中的L1损失进行优化，如下所示：0L s → r (ˆI raw, I raw) = ||ˆI raw - I raw||10+ ||log(max(ˆI raw, �)) - log(max(I raw, �))||1, (3)While the ultimate goal of RAW2RGB network is to gen-erate synthetic realistic noise data for the sRGB image de-noising problem, in this section we ﬁrst describe how wecan map clean RAW images to clean sRGB images (leav-ing the noise injection module ‘OFF’ in Fig. 2).Let Iraw and ˆIrgb be the input and output of theRAW2RGB network. First, in order to restore translationinvariance and reduce computational cost, we pack the 2×2blocks of Iraw into four channels (RGGB) and thus re-duce the image resolution by half [7, 13, 25]. Since theinput RAW data may come from different cameras havingdifferent Bayer patterns, we ensure the channel order ofthe packed image to be RGGB by applying the Bayer pat-tern uniﬁcation technique [39]. Next, a convolutional layerM2 followed by K − 1 RRG modules encode the packedRAW image Ipack ∈ RH2 × W2 ×4 into a deep feature tensorTd′ ∈ RH2 × W2 ×C as:Color attention unit. To train the CycleISP, we use theMIT-Adobe FiveK dataset [10] that contains images fromseveral different cameras having diverse and complex ISPsystems. It is extremely difﬁcult for a CNN to accuratelylearn a RAW to sRGB mapping function for all differenttypes of cameras (as one RAW image can potentially map tomany sRGB images). One solution is to train one networkfor each camera ISP [13, 52, 64]. However, such solutionsare not scalable and the performance may not generalize toother cameras. To address this issue, we propose to includea color attention unit in the RAW2RGB network that pro-vides explicit color attention via a color correction branch.The color correction branch is a CNN that takes as inputan sRGB image Irgb and generates a color-encoded deepwhere, ⊗ is Hadamard product. To obtain the ﬁnal sRGBimage ˆIrgb, the output features Tatten from the color atten-tion unit are passed through a RRG module, a convolutionallayer M4 and an upscaling layer Mup [54], respectively:26990其中�是一个小常数，用于数值稳定性，Iraw是真实的RAW图像。与[21]类似，添加对数损失项是为了对所有图像值进行近似相等的处理；否则网络会更多地关注恢复高光区域。03.2. RAW2RGB网络分支0T d' = RRG K-1 (...(RRG1(M2(Pack(I raw))))). (4)0注意，Iraw是原始相机RAW图像（不是RGB2RAW网络的输出），因为我们的目标是首先独立学习RAW到sRGB的映射。02 × C。在颜色校正分支中，我们首先对Irgb应用高斯模糊，然后使用卷积层M3、两个RRG和具有sigmoid激活函数σ的门控机制：0T color = σ(M4(RRG2(RRG1(M3(K � I rgb))))), (5)0其中�表示卷积，K是标准差经验性设置为12的高斯核。这个强烈的模糊操作确保只有颜色信息通过这个分支，而结构内容和细纹理来自主要的RAW2RGB网络。使用较弱的模糊将削弱Eq.（4）中特征张量Td'的有效性。整体颜色注意力单元的处理过程如下所示：0Figure 3:递归残差组（RRG）包含多个双重注意力块（DAB）。每个DAB包含空间注意力和通道注意力模块。0其中�是Hadamard乘积。为了获得最终的sRGB图像ˆIrgb，从颜色注意力单元的输出特征Tatten经过RRG模块、卷积层M4和上采样层M up[54]，依次进行如下操作：0T atten = T d' + (T d' � T color), (6)0ˆIrgb = Mup(M5(RRGK(Tatten))). (7)0对于优化RAW2RGB网络，我们使用L1损失：0Lr→s(ˆIrgb, Irgb) = ||ˆIrgb - Irgb||1. (8)03.3. RRG：递归残差组0受最近基于残差学习框架的低级视觉方法[48, 65, 66,68]的进展的启发，我们提出了RRG模块，如图3所示。RRG包含P个双重注意力块（DAB）。每个DAB的目标是抑制不太有用的特征，只允许更具信息量的特征传播。DAB通过使用两种注意力机制来进行特征重新校准：（1）通道注意力（CA）[30]和（2）空间注意力（SA）[60]。整个过程如下：0TDAB = Tin + Mc([CA(U), SA(U)]), (9)0其中U ∈ RH × W ×C表示通过在DAB开始时对输入张量Tin ∈ RH × W ×C应用两个卷积得到的特征图，Mc是最后一个卷积层，滤波器大小为1 × 1。0通道注意力。该分支旨在利用卷积特征的通道间依赖关系。它首先执行“挤压”操作以编码全局上下文，然后进行“激励”操作以充分捕捉通道间的关系[30]。挤压操作通过在特征图U上应用全局平均池化（GAP）来实现，从而得到描述符z ∈ R1 × 1 ×C。激励操作使用两个卷积层对描述符z进行重新校准，然后经过sigmoid激活，得到激活值s ∈ R1 × 1 ×C。最后，CA分支的输出通过使用激活值s对U进行重新缩放得到。spatially global context, which is then followed by an exci-tation operation to fully capture channel-wise relationships[30]. The squeeze operation is realized by applying globalaverage pooling (GAP) on feature maps U, thus yieldinga descriptor z ∈ R1×1×C. The excitation operator recali-brates the descriptor z using two convolutional layers fol-lowed by the sigmoid activation and results in activationss ∈ R1×1×C. Finally, the output of CA branch is obtainedby rescaling U with the activations s.27000图4：将CycleISP微调为合成真实的sRGB噪声数据。0空间注意力。该分支利用特征的空间相互关系，并计算一个空间注意力图，然后用于重新缩放输入特征U。为了生成空间注意力图，我们首先对特征U沿通道维度分别应用全局平均池化和最大池化操作，并将输出图拼接起来形成一个空间特征描述符d ∈ RH × W ×2。然后，我们通过卷积和sigmoid激活来获得空间注意力图。03.4. CycleISP的联合微调0由于RGB2RAW和RAW2RGB网络最初是独立训练的，它们可能无法提供最优质的图像，因为它们之间存在断开。因此，我们进行联合微调，其中RGB2RAW的输出成为RAW2RGB的输入。联合优化的损失函数为：0Ljoint = βLs→r(ˆIraw, Iraw) + (1-β)Lr→s(ˆIrgb, Irgb),0其中 β是一个正常数。请注意，RAW2RGB网络仅从RAW2RGB子损失（仅第二项）接收梯度。而RGB2RAW网络从两个子损失接收梯度，从而有效地贡献于最终sRGB图像的重建。04.合成真实噪声数据生成0捕捉完美对齐的真实噪声数据对是非常困难的。因此，图像去噪主要在人工设置中进行研究，其中将高斯噪声添加到清晰图像中。虽然最先进的图像去噪方法[9,66]在这些合成数据集上表现出有希望的性能，但在应用于真实相机图像时效果不佳[1,44]。这是因为合成噪声数据与真实相机数据在根本上存在差异。在本节中，我们描述了用于去噪的RAW图像的合成真实噪声图像对的过程。0图5：所提出的去噪网络。对于去噪RAW图像和sRGB图像，它具有相同的网络结构，唯一的区别在于输入和输出的处理方式。0并使用所提出的CycleISP方法在sRGB空间中进行去噪。0RAW去噪数据。CycleISP方法的RGB2RAW网络分支以清晰的sRGB图像作为输入，并将其转换为清晰的RAW图像（图2中的顶部分支）。我们在训练CycleISP时关闭了噪声注入模块，现在将其打开。噪声注入模块将不同级别的曝光和读取噪声添加到RGB2RAW网络的输出中。我们使用与[7]中相同的采样曝光/读取噪声因子的过程。因此，我们可以从任何sRGB图像生成清晰图像及其对应的噪声图像对{RAW清晰，RAW噪声}。0sRGB去噪数据。给定一个合成的RAW噪声图像作为输入，RAW2RGB网络将其映射到一个噪声sRGB图像（图2中的底部分支）；因此，我们能够为sRGB去噪问题生成一个图像对{sRGB清晰，sRGB噪声}。虽然这些合成的图像对已经足够用于训练去噪网络，但我们可以通过以下过程进一步提高它们的质量。我们使用SIDD数据集[1]对CycleISP模型（第3.4节）进行微调，该数据集是使用真实相机拍摄的。对于每个静态场景，SIDD包含了RAW和sRGB空间中的清晰和噪声图像对。微调过程如图4所示。请注意，添加随机噪声的噪声注入模块被（仅用于微调）每像素噪声残差所替代，该残差通过将真实的RAW清晰图像减去真实的RAW噪声图像获得。完成微调过程后，我们可以通过将清晰的sRGB图像输入CycleISP模型来合成逼真的噪声图像。05.去噪架构0如图5所示，我们通过使用多个RRG提出了一种图像去噪网络。我们的目标是在两种不同的情况下应用所提出的网络：（1）去噪RAW图像，（2）去噪sRGB数据。在这两种情况下，我们使用相同的网络结构，唯一的区别在于输入和输出的处理方式。对于sRGB空间的去噪，网络的输入和输出是3通道的sRGB图像。对于去噪RAW图像，我们的网络以4通道的噪声包装图像与4通道的噪声水平图拼接作为输入，并为我们提供4通道的去噪包装输出。噪声水平图基于图像的曝光和读取噪声参数[7]估计输入图像中存在的噪声的标准差。270106.实验06.1.真实图像数据集0DND[44]。该数据集包含使用四台消费级相机拍摄的50对噪声和（几乎）无噪声图像。由于图像具有非常高的分辨率，提供者从每个图像中提取了大小为512×512的20个裁剪图像，因此总共有1000个图像块。由于公开的无噪声图像不可用，因此完整的数据集用于测试。该数据集提供了RAW空间和sRGB空间两个评估轨道。只能通过在线服务器[16]进行PSNR和SSIM等定量评估。0SIDD[1]。由于传感器尺寸较小且分辨率较高，智能手机图像比数码单反相机的图像更加嘈杂。该数据集使用了五台智能手机相机进行采集。训练集中有320对图像，验证集中有1280对图像。该数据集提供了RAW格式和sRGB空间中的图像。06.2.实现细节0本文中的所有模型都是使用Adam优化器进行训练的（β1 =0.9，β2 =0.999），图像裁剪尺寸为128×128。使用Bayer统一和增强技术[39]，我们随机进行水平和垂直翻转。对于DAB的所有卷积层，我们设置了3×3的滤波器大小，除了最后一层，我们使用1×1的滤波器大小。0CycleISP的初始训练。为了训练CycleISP模型，我们使用MIT-AdobeFiveK数据集[10]，其中包含5000个RAW图像。我们使用LibRaw库处理这些RAW图像并生成sRGB图像。从这个数据集中，有4850个图像用于训练，150个用于验证。我们对RGB2RAW和RAW2RGB网络使用3个RRG和5个DAB，对颜色校正网络使用2个RRG和3个DAB。CycleISP的RGB2RAW和RAW2RGB分支分别进行1200个epoch的独立训练，批量大小为4。初始学习率为10^-4，在800个epoch后降低到10^-5。0CycleISP的微调。这个过程进行两次：首先使用第3.4节中介绍的方法，然后使用第4节中的方法。在前一种情况下，CycleISP模型的输出是无噪声的，在后一种情况下，输出是有噪声的。对于每个微调阶段，我们使用600个epoch，批量大小为1，学习率为10^-5。0训练降噪网络。我们训练了四个网络进行降噪：(1) DND RAW数据，(2) DNDsRGB图像，(3) SIDD RAW数据，(4) SIDDsRGB图像。对于这四个网络，我们使用4个RRG和8个DAB，65个epoch，批量大小为16，初始学习率为10^-4。0每25个epoch后，将学习率降低10倍。我们从MIR flickrextended中获取了100万张图片0表1：DND基准数据集[44]上的RAW降噪结果。*表示这些方法使用方差稳定变换(VST)[40]来提供最佳结果。0RAW sRGB0方法 PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑0TNRD* [14] 45.70 0.96 36.09 0.888 MLP* [9] 45.71 0.963 36.72 0.912 FoE[50] 45.78 0.967 35.99 0.904 EPLL* [69] 46.86 0.973 37.46 0.925 KSVD* [3]46.87 0.972 37.63 0.929 WNNM* [27] 47.05 0.972 37.69 0.926 NCSR* [18]47.07 0.969 37.79 0.923 BM3D* [15] 47.15 0.974 37.86 0.930 DnCNN [66]47.37 0.976 38.08 0.936 N3Net [45] 47.56 0.977 38.32 0.938 UPI (Raw) [7]48.89 0.982 40.17 0.9620我们的 49.13 0.983 40.50 0.9660表2：SIDD数据集[1]上的RAW降噪结果0RAW sRGB0方法 PSNR ↑ SSIM ↑ PSNR ↑ SSIM ↑0EPLL [69] 40.73 0.935 25.19 0.842 GLIDE [57] 41.87 0.949 25.98 0.816TNRD [14] 42.77 0.945 26.99 0.744 FoE [50] 43.13 0.969 27.18 0.812 MLP[9] 43.17 0.965 27.52 0.788 KSVD [3] 43.26 0.969 27.41 0.832 DnCNN [66]43.30 0.965 28.24 0.829 NLM [8] 44.06 0.971 29.39 0.846 WNNM [27]44.85 0.975 29.54 0.888 BM3D [15] 45.52 0.980 30.95 0.8630我们的 52.41 0.993 39.47 0.9180数据集[31]，并按照9:1的比例划分为训练、验证和测试集。所有图像都经过高斯核(σ=1)预处理，以减少噪声和其他伪影的影响。接下来，我们使用第4节中描述的方法合成了干净/有噪声的配对训练数据（用于RAW和sRGB降噪）。06.3. RAW降噪结果0在本节中，我们将提出的CycleISP模型与现有的RAW数据DND[44]和SIDD[1]基准测试上的最新方法进行降噪结果评估。表1显示了所有竞争方法在DND数据集上的定量结果（PSNR/SSIM），这些结果来自评估服务器[16]的网站。请注意，表中有两个超级列，列出了图像质量指标的值。sRGB超级列中的数字是通过将降噪后的RAW图像通过相机成像管道[32]使用图像元数据传递给服务器后获得的。我们的模型在学习-based和传统降噪算法方面表现更好。此外，与先前最佳方法[7]相比，我们提出的模型参数减少了约5倍。SIDD数据集的趋势与表2中所示的类似。我们的算法在PSNR上比BM3D算法[15]提高了6.89dB。我们的结果与最先进的方法进行了视觉比较PSNR ↑33.5133.6534.0534.2334.5134.6234.6736.4937.3837.6137.9438.0639.2339.56SSIM ↑0.8240.8310.8350.8330.8510.8850.8650.8980.9290.9420.9400.9420.9530.956PSNR ↑23.6624.7124.7124.7325.5825.6525.7826.7626.8827.1130.7838.7139.52SSIM ↑0.5830.6410.7740.6430.7920.6850.8090.6990.8420.8700.7540.9140.95727020表3：DND基准数据集的sRGB图像降噪。0方法 EPLL TNRD NCSR MLP BM3D FoE WNNM KSVD MCWNNM FFDNet+ TWSC CBDNet RIDNet 我们 [69] [14] [18] [9] [15] [50] [27] [3] [62] [67] [61] [28] [4]0表4：SIDD基准数据集的sRGB图像降噪。0方法 DnCNN MLP GLIDE TNRD FoE BM3D WNNM NLM KSVD EPLL CBDNet RIDNet 我们 [66] [9] [57] [14] [50] [15] [27] [8] [3] [69] [28] [4]026.90 dB 30.91 dB 32.47 dB 32.50 dB 32.74 dB 噪声 BM3D [15] NC [36]TWSC [61] MCWNNM [62]026.90 dB 33.05 dB 33.29 dB 33.62 dB 34.09 dB 34.32 dB 噪声图像 FDDNet [67] DnCNN [66] CBDNet [28] RIDNet[4] 我们图6：DND [44]的sRGB图像降噪。我们的方法保留了比其他算法更好的结构内容。018.25 dB 19.70 dB 20.76 dB 参考噪声 FFDNet [67]DnCNN [66]025.75 dB 28.84 dB 35.57 dB 36.75 dB BM3D [15]CBDNet [28] RIDNet [4] 我们图7：SIDD数据集[1]中一幅具有挑战性的sRGB图像的降噪结果。0图1展示了最先进的算法。我们的模型在去除真实噪声方面非常有效，特别是低频色度噪声和缺陷像素噪声。06.4. sRGB降噪结果0虽然建议在RAW数据上应用降噪（其中噪声是不相关且较简单的）[26]，但降噪通常在sRGB领域中进行研究。我们0比较DND和SIDD数据集上不同方法的sRGB图像降噪结果。表3和表4显示了图像质量评估指标的分数。总体而言，我们提出的模型在与最先进算法RIDNet[4]相比表现出色。与RIDNet[4]相比，我们的方法在DND和SIDD数据集上的性能分别提高了0.33 dB和0.81dB。图6和图7分别展示了DND和SIDD上的sRGB降噪结果。大多数评估的算法要么产生过度平滑的图像（并牺牲图像细节），要么生成具有斑点纹理和色度伪影的图像。相比之下，我们的方法生成了干净且无伪影的结果，同时忠实地保留了图像细节。06.5. 泛化测试0为了比较我们的方法和[7]的方法在合成数据上训练的降噪模型的泛化能力，我们进行了以下实验。我们使用[7]的公开可用的DND降噪模型，并直接在SIDD数据集的RAW图像上进行评估。我们也对我们的降噪模型进行了相同的操作。为了公平比较，我们使用相同的网络架构（U-Net）和噪声模型，与[7]相同。唯一的区别是数据转换PSNR (in dB)23.2242.9633.5844.6745.0845.4127030表5：泛化测试。U-Net模型仅在DND[44]上使用我们的技术和UPI[7]方法进行训练，并直接在SIDD数据集[1]上进行评估。0DND [4

下载后可阅读完整内容，剩余1页未读，立即下载