CVF-SID：循环多变量函数自监督图像去噪

147 浏览量更新于2023-10-25 收藏 17.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

175830CVF-SID：通过将噪声与图像分离的循环多变量函数进行自监督图像去噪0Reyhaneh Neshatavar 1 * Mohsen Yavartanoo 1 * Sanghyun Son 1 Kyoung Mu Lee 1, 201. 电子与自动化工程系，2. IPAI，首尔国立大学，首尔，韩国0{ reyhanehneshat,myavartanoo,thstkdgus35,kyoungmu } @snu.ac.kr0摘要0最近，在大规模数据集的强监督下，图像去噪取得了显著进展。然而，在实践中，为每个特定场景获得对齐的噪声-干净训练图像对是复杂且昂贵的。因此，将传统的监督去噪网络应用于野外噪声输入并不直接。尽管有几项研究挑战了这个问题，但它们依赖于不太实际的假设，不能直接应用于实际情况。为了解决上述挑战，我们提出了一种新颖而强大的自监督去噪方法，称为CVF-SID，它基于循环多变量函数（CVF）模块和自监督图像分离（SID）框架。CVF模块可以输出输入的多个分解变量，并以循环方式将输出的组合作为输入。我们的CVF-SID可以通过利用各种自监督损失项从输入中分离出干净图像和噪声图。与只考虑独立于信号的噪声模型的几种方法不同，我们还处理实际应用中的信号相关噪声成分。此外，我们不依赖于关于底层噪声分布的任何先验假设，使得CVF-SID对于真实噪声更具普适性。对真实数据集的大量实验证明，CVF-SID实现了最先进的自监督图像去噪性能，并且与其他现有方法相当。代码可以从此链接公开获取。01. 引言0图像去噪是一个活跃的研究课题，由于在计算机视觉中的实用性而受到越来越多的关注。图像去噪的基本思想是从给定的输入中去除不需要的噪声信号，并恢复一个无噪声的干净图像。根据最近的研究，0* 相等贡献0输入噪声0真实图像0N2V [18]：24.00dB0N2S [4]：25.34dB0R2R [25]：30.37dB0CVF-SID（我们的方法）：32.99dB0图1.SIDD验证数据集上的真实图像去噪结果。与R2R相比，我们的CVF-SID可以直接应用于sRGB图像。N2V和N2S无法恢复干净图像，而R2R在黄色区域丢失了细节。0卷积神经网络（CNN）的进展使得最新的去噪方法在性能上与传统算法相比取得了显著的提升。具体而言，这些方法采用了在大规模合成数据集上的监督学习，其中噪声仅仅被建模为加性白高斯噪声（AWGN）[9, 11, 20, 33,35]。然而，最近的研究[3,12]发现，学习在合成图像上的去噪模型在实际示例上的泛化能力不强。这个问题的主要原因是现实世界的噪声分布与合成的AWGN不同。为了解决这个限制，已经尝试过一些获取真实噪声-干净图像对的方法[1]。然而，这个过程具有挑战性，有时也无法实现，因为它需要在相同的静态场景下进行多次拍摄，并且有一些限制条件。先进的方法通过采用新颖的无自监督框架来克服缺乏配对图像的问题。基于生成的方法[13,16]利用无监督的对抗训练。它们首先通过模仿噪声分布从一组干净图像中生成噪声样本。175840目标数据集。然后，可以使用生成的噪声-清晰图像对以监督方式训练去噪模型。然而，由于噪声和清晰图像之间的领域差异，适当的清晰图像并不总是可用的。与使用清晰的真实数据不同，Noise2Noise（N2N）[21]使用从同一场景和配置中获取的两个噪声图像。虽然N2N的性能与监督方法相当，但它不太实用，因为需要同一场景下的多个噪声图像。作为替代方案，有几种策略[4，14，18，0已经提出了一些方法[24，25，27]，将它们的方法仅训练在噪声图像上。为了从单个噪声图像生成可行的输入-目标对，这些最新的方法尝试从输入中合成两个独立的噪声图像。然而，这些方法通常是通过假设特定分布（例如AWGN）或对底层噪声的不太实际的配置来构建的。这种假设限制了它们在假设不成立的实际应用中的实用性。例如，最近的Recorrupted-to-Recorrupted（R2R）[25]不能直接应用于sRGB输入，而数字图像通常使用sRGB颜色空间存储。此外，该方法需要额外的先验知识，例如使用Raw-RGB图像提供的噪声水平函数（NLF）[22]的预训练模型，这在仅使用sRGB图像进行训练时是不可行的。为了缓解上述限制，我们提出了一种针对真实世界sRGB图像的自监督去噪方法。为此，我们提出了一种新颖的循环多变量函数（CVF），将其输入分解为几个子组件，并重新采用其输出的组合作为输入。我们利用CVF设计了自监督图像分解模型（CVF-SID），用于sRGB图像去噪。在各种自监督训练目标下，我们的CVF-SID可以学习将给定的噪声sRGB输入中的无噪声图像、信号相关噪声和信号无关噪声分解开来。此外，我们提出了一种自监督数据增强策略，以有效增加训练样本的数量。我们的主要贡献可以总结如下：0•我们引入了CVF-SID，一种基于我们定义的循环多变量函数（CVF）的图像去噪自监督方法。CVF-SID将给定的真实世界噪声输入分解为清晰图像、信号相关噪声和信号无关噪声。0•对于完全自监督的CVF-SID，我们提出了各种训练目标和增强策略。0•实验结果表明，我们的CVF-SID在真实世界sRGB图像上实现了优越的去噪性能，如图1所示，并且与其他方法相当。0图2. 提出的循环多变量函数（CVF）。我们的CVFf将多个变量的组合g（s1X，s2Y，s3Z，...）作为输入，并输出分解的变量。02. 相关工作0传统的图像去噪方法，如NLM [5]，BM3D [9]，WNNM[11]，NC [19]，K-SVD [28]或EPLL[15]采用非学习式的公式。最近，深度学习在图像去噪方面展示了令人印象深刻的性能。一般来说，它们可以根据网络的训练方式进行分类。02.1. 在配对的噪声-清晰图像上训练0一般来说，监督式去噪网络是在合成的噪声-清晰图像上进行训练的，其中噪声被假设为特定水平的加性白高斯噪声（AWGN）[6, 8]。DnCNN[33]是第一个基于CNN的图像去噪方法，引入了残差学习，并且优于传统方法。FFDNet[34]进一步提出了一种快速灵活的解决方案，通过将噪声图作为额外的输入来处理单个模型中的各种噪声水平。然而，由于现实噪声与合成噪声之间的领域差异，传统方法在真实世界应用中的泛化能力不强。为了克服这个限制，一些方法（如CBD-Net [12]，RIDNet [3]或DIDN[32]）在真实的噪声-清晰图像对上训练它们的方法[1]。然而，从真实场景中收集对齐良好的噪声-清晰图像对是具有挑战性且不太实际的，因为它需要在受控环境下进行大量人力劳动[26]。02.2. 训练非成对噪声-清晰图像0为了克服监督方法的局限性，生成式方法旨在以非监督的方式从清晰图像中合成噪声样本[10]。它们首先尝试在对抗训练框架中模拟逼真的噪声，然后在生成的噪声-清晰图像对上训练去噪模型。GCBD[7]是第一个用于盲去噪的生成式方法。然而，由于该方法仅考虑加性噪声，因此不适用于真实世界的场景。CVF-SID(b)175850组合函数0增强 A0增强 B0图3. 我们CVF-SID框架的概述。（a）我们使用网络fθ从噪声输入图像中分离出清晰图像、信号相关噪声和信号独立噪声。在我们的循环网络中，我们将网络的输出再次馈送到网络中，以确保每个输出都是纯净的，不包含其他输出的信息。（b）我们还将一些自监督增强图像馈送到我们的网络中，以更好地估计每个噪声的分布并提高性能。0（b）02.3. 训练成对噪声-噪声图像0为了缓解生成式方法的问题，一些研究人员尝试训练他们的网络使用成对的噪声-噪声图像而不是成对的噪声-清晰图像或非成对的噪声-噪声图像进行非自监督学习。噪声到噪声（N2N）[21]作为一种弱监督学习图像去噪的方法，提出使用多个噪声图像而不是真实图像。虽然它可以达到与监督方法相当的结果，但在真实世界的情况下，从同一场景中获取多个独立的噪声图像也非常困难。噪声到空白（N2V）[18]和噪声到自身（N2S）[4]使用盲点学习来避免在没有成对图像的情况下学习恒等函数。这些方法移除每个感受野的中心像素，并用其他相邻像素进行预测。然而，忽略一些像素会导致丢失一些有用信息并降低性能[1]。Noisier2Noise[24]旨在通过学习噪声-噪声对来处理空间相关的噪声。然而，它需要额外的信息，例如底层噪声分布，这是一个不太实际的假设，不适用于真实世界的输入。Self2Self（S2S）[27]是一种盲去噪方法，通过应用伯努利dropout从单个噪声图像生成成对数据。后来，噪声不是。此外，UIDNet[13]采用图像锐化技术来估计真实世界情况下的任意噪声分布。最近的C2N[16]试图在其生成框架中明确考虑独立、相关和空间相关的噪声。然而，这些方法需要清晰图像来生成相应的噪声图像，当噪声图像的场景分布与现有的清晰样本不匹配时，这是不适用的。0Neighbor2Neighbor[14]提出基于像素独立噪声假设创建子采样的成对图像。Recorrupted-to-Recorrupted（R2R）[25]将Noisier2Noise[24]的概念扩展到真实世界的场景。然而，当给定的噪声输入图像没有原始信息时，R2R采用高斯噪声假设，这使得它无法在数字噪声的sRGB图像上实际应用。相比之下，我们的CVF-SID方法可以直接在噪声的sRGB图像上进行训练，而无需生成伪噪声-噪声对。03. 方法0我们引入了CVF的概念，并构建了我们的自监督去噪模型CVF-SID。为了方便起见，我们将清晰图像和噪声图像表示为Ic，In∈RH×W，其中图像具有H×W的空间分辨率。为简单起见，省略了颜色通道，即RGB。我们将信号相关和独立噪声图表示为Nd和Ni，它们与In具有相同的维度。03.1. 循环多变量函数0我们将循环多变量函数(CVF) f 定义为从 g(X, Y, Z, . . .) 到[X, Y, Z, . . .] 的映射，其中 X, Y, Z, . . . 是向量，g是组合函数。因此，该函数可以将其输出再次作为输入通过组合输出值，如图2所示。此外，对于一组标量值[s1, s2,s3, . . .]，g(s1X, s2Y, s3Z, . . .)的分解应为[s1X, s2Y, s3Z, . ..]。通过利用CVF的上述属性，我们旨在以自监督的方式学习去噪模型。Subtractioncdi(2)fθ(ˆIc) =ˆIc, ˆ0, ˆ0 ,(3)fθ(ˆIc + ˆIγc ˆNd) = fθ(ˆIdepn ) =ˆIc, ˆNd, ˆ0 ,(4)fθ( ˆNi) = ˆ0, ∗, ˆNi ,(5)fθ(ˆIaugn ) =ˆIc, s2 ˆNd, s3 ˆNi ,(6)175860a) 干净图像生成器0b) 噪声生成器0图4. 我们网络架构f θ 的概述。03.2. 利用CVF进行自监督图像去噪0一般来说，一个噪声图像I n 可以表示为干净图像Ic，信号相关噪声图N d和信号无关噪声图N i的函数[29]，如下所示：0I n = I c + I γ c N d + N i, (1)0其中 γ是一个关于信号和相应噪声项之间相关性的参数。之前的方法[27,33]设计了他们的模型来接收一个噪声图像并重建其干净对应物，即 f (I n) = Ic。相比之下，我们利用CVF的概念设计了具有可学习参数θ的网络f θ，将给定的噪声图像In分解为如图3a所示的上述三个分量I c，N d和Ni。根据第3.1节的符号约定，我们将噪声图像I n表示为g(s1Ic, s2N d, s3N i)，其中s1 = s2 = s3 =1。将给定的噪声图像分解为干净图像和噪声分量后，我们利用它们的统计特性构建了一个自监督循环。出于实际原因，我们假设噪声图N d和N i是零均值[23]且具有未知分布的空间不变噪声图。此外，我们假设每对(I c, N d)，(I c, N i)和(N d, Ni)中的两个元素是独立的。换句话说，I c，N d和N i不包含彼此的信息。我们注意到N d是一个空间不变的噪声图，它在信号相关噪声项I γ c Nd中充当缩放因子。在这些假设下，f θ 将给定的噪声图像In 分解如下：0f θ (I n) = � f clean θ (I n), f dep θ (I n), findep θ (I n) �0其中ˆ I c，ˆ N d和ˆ N i分别表示预测的干净图像、信号相关噪声和信号无关噪声项。由于我们不使用任何噪声-干净图像对，无法对函数的输出应用直接监督，并且不能保证 f θ完美地分解这些分量。因此，为了以自监督的方式训练我们的模型，我们将输出ˆ I c，ˆ N d和ˆ N i再次输入到相同的具有共享参数θ的网络f θ中。然后，我们根据其期望属性约束第二个输出，例如 f θ(ˆ I c)。由于预测的无噪声图像ˆ I c不应包含任何噪声，无论信号依赖性如何，它可以建模为ˆ Ic = g(ˆ I c, 0, 0)，其中s1 = 1且s2 = s3 =0。这里，我们使用0来表示一个H ×W的零数组。因此，给定一个预测的干净图像ˆ I c作为输入，我们的f θ 必须生成以下输出：0其中预测的输出噪声图ˆ N d 和ˆ N i 应为0，表示为ˆ0。我们的另一个假设源于观察到仅由信号相关噪声损坏的图像应分解为ˆ I c 和ˆ N d，或等效地ˆ I c + ˆ I γ c ˆ N d =g(ˆ I c, ˆ N d, 0)，其中s1 = s2 = 1且s3 = 0。然后，网络fθ 应预测零作为信号无关项，如下所示：0其中ˆ I depn是预测的信号相关噪声图像。对于给定的纯信号独立部分ˆ Ni，我们可以认为相应的干净图像部分为零。换句话说，我们可以重写ˆ N i = g (0, �, ˆ N i)，其中s 1 = 0，s 3 =1。这里，(�)表示我们不关心信号相关部分。因此，我们的fθ应该预测相同的噪声ˆ N i用于信号独立路径，并且对于干净图像分支为零，如下所示：0在这里，我们无法将信号相关部分(�)识别为预测的干净图像应该为零。最后，我们通过将预测的输出ˆ I c，ˆ N d和ˆ Ni与各种标量因子(s 1，s 2，s3)的组合结合起来来模拟虚拟合成噪声图像，如图3b所示。因此，我们通过设置s 1 = 1并从{−1，0，1}中选择s 2和s 3来生成增强输入，并应用f θ，如下所示：0其中ˆ I aug n = ˆ I c + s 2ˆ I γ cˆ N d + s 3ˆ Ni。这种方法类似于自监督数据增强，不需要额外的样本。Lcon = ∥In − g (fθ (In))∥ .(7)Lid =ˆIcf clean(ˆIc) +ˆIcf clean(ˆIdep)(8)Lzero =��f depθ (ˆIc)�� +��f indepθ(ˆIc)��+�f cleanθ( ˆNi)�+�f indepθ(ˆIdepn )�.(9)(10)(12)1758703.3. 网络架构0我们采用具有顺序层的CNN模型作为可学习的fθ，如图4所示。我们的模型由两部分组成：干净图像生成器和噪声生成器。给定一个噪声图像，我们使用DnCNN[33]作为干净生成器，该生成器旨在重建相应的无噪声输出ˆIc，而不使用跳跃连接和批归一化层（BN）。然后，我们从噪声输入图像中减去输出，并将此噪声信号，即In−ˆ Ic，馈送到具有两个分支的顺序卷积层中，以分别估计Nd和Ni。有关更多详细信息，请参见补充材料。03.4. 自监督学习的损失函数0为了训练我们的网络fθ，我们根据一般噪声的统计行为定义了一组损失函数。首先，我们定义一致性损失L con，以确保输出ˆ I c，ˆ N d和ˆN i 的组合g收敛到噪声输入，如下所示：0为简单起见，我们使用∥∙∥表示L2范数。此外，我们根据我们的相互依赖假设构建了身份损失L id，如下所示：0+ �� ˆ N d − f dep θ (ˆ I dep n ) �� + �� ˆ N i− f indep θ ( ˆ N i ) �� .0当我们的网络以去噪图像ˆ I c作为输入时，我们期望模型预测相同的图像作为输出，没有任何噪声项。我们还为受纯信号相关噪声ˆ I dep n和预测的信号独立噪声ˆ N i损失训练目标定义了类似的损失函数，以构建我们的身份损失L id。另一方面，我们设计了零损失Lzero，以满足以下方程中的约束条件：0虽然方程7、8和9为我们的自监督框架提供了几个约束条件，但我们还引入了一个正则化项来避免平凡解，例如零值噪声。我们的假设是预测的噪声方差应为正。受基于补丁的局部估计[23]的启发，我们首先通过对M个小补丁I jn的方差进行平均来近似给定图像的噪声方差，如下所示：0Var(Ijn) ≈ Var(ˆIjc + ˆIjγcˆNjd) + Var(ˆNji)0= C2γjˆσ2j,d + ˆσ2j,i = C2γjˆσ2d + ˆσ2i,0其中ˆσ2j,� = Var(ˆNj�)对于� =d或i。我们假设理想的清晰图像在第j个块中大致恒定，即Ijc≈Cj和Var(Ijc)≈0，对于一个小的局部区域。此外，我们假设Nd和Ni在空间上是不相关的，这意味着ˆσ2j,� =ˆσ2�在图像空间中是一个常数。因此，我们定义正则化损失Lreg，以防止估计的噪声图具有零方差，即平凡解，如下所示：0Lreg = 10��0j =1 Var(Ijn)−0j =1 C2γjˆσ2d − Mˆσ2i0�� . (11)0我们在Eq.11中构建的正则化损失Lreg是基于网络fθ的输出彼此独立的假设。最后，我们定义增强数据的增强损失Laug在Eq.6中如下：0Laug = ��fcleanθ(ˆIaugn) − ˆIc�� + ��fdepθ(ˆIaugn) −s2ˆN0+ ��findepθ(ˆIaugn) −s3ˆNi��,0我们计算增强样本ˆIaugN中所有可能的s2和s3的组合的Eq.12。我们的总训练目标Ltotal定义如下：0Ltotal = Lcon + Lid + Lzero + Lreg + λaugLaug. (13)04. 实验0在本节中，我们首先讨论用于训练我们的CVF-SID框架的数据集以及详细的配置。然后，我们描述了与其他方法的全面实验结果和广泛比较。04.1. 数据集0我们在两个数据集上训练和评估我们的方法，包括真实世界的有噪声图像：SIDD [1]和DND[26]。智能手机图像去噪数据集（SIDD）[1]是代表性的真实世界数据集之一，其中包含用于训练的良好对齐的有噪声-清晰图像对。我们使用SIDD-Medium数据集中的sRGB图像进行训练，包括320个有噪声-清晰图像对。对于评估，使用验证和基准拆分，每个拆分包含40个图像的32个大小为256×256的补丁，其中基准轨道没有提供地面真实清晰图像。达姆斯塔特噪声数据集（DND）[26]基准由各种传感器尺寸的消费级相机拍摄的50个有噪声图像组成。每个图像被裁剪成大小为512×512的20个补丁，总共提供了50×20=1,000个样本进行评估。与SIDD数据集相比，DND数据集中的图像是在正常照明条件下拍摄的，因此包含较弱的噪声。175880监督类型训练数据方法 SIDD DND PSNR SSIM PSNR SSIM0监督配对的有噪声/清晰图像0MLP [6] 24.71 0.641 34.23 0.833 TNRD [8] 24.73 0.643 33.65 0.830 DnCNN[33] 23.66 0.583 32.43 0.790 DnCNN+ [33] 32.59 0.861 37.90 0.943 CBDNet[12] 33.28 0.868 38.05 0.942 RIDNet [3] 38.70 0.950 39.25 0.952 DIDN [32]39.82 0.973 39.62 0.9540无监督非配对的有噪声/清晰图像GCBD [7] - - 35.58 0.922 UIDNet [13] 32.48 0.897 - - C2N [16] 35.35 0.937 36.38 0.8870配对的有噪声/有噪声R2R [25] 34.78 0.844 - -0自监督配对的有噪声/有噪声图像N2V [18] 27.68 0.668 - - N2S [4] 29.56 0.808 - - NAC [30] - - 36.20 0.9250单一有噪声CVF-SID（T）（我们的）34.43 0.912 36.31 0.923 CVF-SID（S）（我们的）34.51 0.91636.49 0.924 CVF-SID（S2）（我们的）34.71 0.917 36.50 0.9240表1. 在SIDD和DND基准数据集上对真实世界sRGB图像去噪进行定量比较。我们根据PSNR和SSIM比较CVF-SID与其他去噪方法。T，S和S2分别指不同的训练策略，详见第4.3节。0输入噪声图像0BM3D [9]0NC [19]0N2V [18]0N2S [4]0DnCNN [33]0R2R [25]0CVF-SID（我们的方法）0图5. SIDD基准测试上不同去噪方法的定性比较。04.2. 训练细节0在训练过程中，我们构建了一个大小为64的小批量，其中包含40×40的随机裁剪的训练图像。应用随机翻转和旋转增强来增加有效训练样本的数量。学习率设置为10^-4，使用ADAM[17]优化器来更新可学习参数。对于我们所有的实验，我们固定γ=1（见公式1）。为了应用公式11中的回归损失Lreg，我们为输入图像的每个像素密集提取6×6的补丁来计算近似方差。在公式13中，我们设置λaug=0.1来计算总损失Ltotal。我们采用峰值信噪比（PSNR）和结构相似性（SSIM）作为定量比较的评估指标。所有实验均使用PyTorch 1.7.1和Quadro RTX 8000GPU进行。我们注意到，仅使用清晰图像生成器对于给定的256×256输入图像的推理时间平均约为10毫秒。0sion loss Lreg in Eq.11，我们为输入图像的每个像素密集提取6×6的补丁来计算近似方差。在公式13中，我们设置λaug=0.1来计算总损失Ltotal。我们采用峰值信噪比（PSNR）和结构相似性（SSIM）作为定量比较的评估指标。所有实验均使用PyTorch1.7.1和Quadro RTX 8000GPU进行。我们注意到，仅使用清晰图像生成器对于给定的256×256输入图像的推理时间平均约为10毫秒。175890输入噪声图像0DnCNN+ [33]31.34dB / 0.8340C2N [16]28.37dB / 0.6290NAC [30]31.23dB / 0.8530CVF-SID（我们的方法）31.84dB / 0.8320输入噪声图像0DnCNN+ [33]34.51dB / 0.9460C2N [16]33.67dB / 0.9270NAC [30]34.21dB / 0.9340CVF-SID（我们的方法）34.74dB / 0.9510图6. DND基准测试上不同去噪方法的视觉比较。DnCNN+ [33]、C2N [16]和NAC[30]分别是有监督、无监督和自我监督方法。我们报告了每个结果相对于清晰参考图像的PSNR/SSIM。04.3. 对真实世界sRGB数据集的评估0我们在来自SIDD验证集、SIDD基准测试集和DND基准测试集的真实世界sRGB噪声图像上评估了我们的CVF-SID。对于SIDD和DND基准测试，我们将去噪结果提交到网站进行服务器端评估。为了评估我们的模型在这三个不同的数据集上，我们采用了三种不同的训练策略。分别将它们称为T、S和S2。在SIDD-Medium数据集上进行训练（T）。在第一个场景中，我们在SIDD-Medium数据集上的噪声图像上训练我们的CVF-SID。然后，评估学习到的模型在三个数据集上。在测试数据集上进行训练（S）。由于CVF-SID是完全自我监督的，我们可以在用于评估的相同数据集上训练我们的模型。因此，我们分别在三个评估数据集上训练我们的方法，并使用相同的数据集对每个数据集进行测试。由于训练样本和测试样本的噪声分布匹配，这种策略可以更好地适应评估数据集。在测试数据集上进行双重去噪（S2）。在测试数据集（S）上训练之后，我们将学习到的CVF-SID应用于测试图像以获取去噪图像。然后，我们使用去噪图像作为新的数据集来双重训练第二个CVF-SID。最终的去噪结果是通过两个连续的CVF-SID模型在原始噪声图像上恢复得到的。表1显示了SIDD和DND基准测试上几种有监督、无监督去噪方法的广泛比较。我们注意到(T)、(S)和(S2)分别表示上述不同的训练策略。有趣的是，CVF-SID(S)在一定程度上优于CVF-SID(T)，后者是在大型SIDD-Medium数据集上训练的。这一观察结果验证了我们的方法的优势，即可以直接在测试sRGB图像上进行训练，而不需要原始RGB数据或大量的训练样本。此外，CVF-SID(T)在DND上的评估结果（在SIDD上训练，在DND上测试）显示了CVF-SID在域外（或跨域）图像去噪中的泛化能力。此外，我们还展示了CVF-0CVF-SID可以以递归方式（S2）在实际测试数据集上进行训练，以实现更好的降噪性能。在不使用任何清晰图像的情况下，CVF-SID（S2）在SIDD和DND基准测试上优于几种非自监督方法。图5和6显示了这些数据集上不同降噪方法的定性比较。0图5的第一行显示了N2S和DnCNN无法重建字符，而BM3D和N2V无法完全去除噪声。相反，我们的CVF-SID可以去除令人不悦的噪声同时保留文本细节。在第四行中，我们可以看到NC和R2R无法保留细节纹理，而我们的方法可以。在图6的左侧，我们提出的CVF-SID可以重建细节纹理同时去除噪声。我们注意到与其他方法相比，NAC无法保留原始颜色。在右侧，我们的CVF-SID可以保留边缘并抑制输入中的噪声。0我们还使用表2评估了CVF-SID在SIDD验证数据集上的三种不同训练策略。我们的方法比现有的自监督方法和无监督方法C2N [16]表现更好，甚至达到了最近的无监督R2R[25]的性能。与R2R[25]和其他自监督方法相比，CVF-SID的一个主要优点是我们不生成任何配对的辅助噪声图像。此外，我们不假设任何关于未知噪声信号的特定分布，使得我们的方法更具普适性。0因此，我们的方法可以直接应用于sRGB图像，而R2R需要Raw-RGB图像进行预训练。我们注意到Raw-RGB颜色空间包含比sRGB更多的信息，因此使用Raw-RGB样本通常比纯sRGB配置产生更好的性能[1,2,26]。由于大多数数字图像以sRGB格式存储，我们的CVF-SID可以处理比R2R更通用的输入。在图7中，我们可视化了CVF-SID如何将给定的噪声图像分解为清晰图像、信号相关噪声和信号无关噪声。我们在补充材料中附上了更多的视觉比较。InIcˆIcˆNdˆNi✓−−−33.100.923✓✓−−34.240.942✓✓✓−34.290.940✓✓✓✓34.430.942−−34.430.942✓−34.480.943✓✓34.670.943γPSNRSSIM0.2534.450.9420.5034.460.9421.0034.670.9431.5034.660.943175900方法 PSNR SSIM0非学习型0BM3D [9] 25.65 0.475 WNNM [11]26.20 0.693 NC [19] 31.31 0.725MCWNNM [31] 33.40 0.8150无监督C2N [16] 34.08 - R2R [25] 35.04 0.8440自监督0N2V [18] 29.35 0.651 N2S [4] 30.720.787 CVF-SID (T) 34.51 0.941CVF-SID (S) 34.67 0.943 CVF-SID (S2)34.81 0.9440表2.在SIDD验证数据集上对sRGB图像进行实际降噪的定量比较。0图7.我们的CVF-SID（S）在SIDD验证数据集上的分解结果。为了更好地可视化，噪声图ˆNd和ˆNi被归一化到[0，1]。04.4.消融研究0在本节中，我们进行了一些消融研究，以更好地评估我们提出的方法的性能。对损失函数的消融。正如我们在第3.4节中讨论的那样，我们使用各种类型的自监督损失项来训练我们的自监督CVF-SID。表3识别了每个损失函数对训练的影响。虽然一致性项Lcon对于训练我们的模型是必要的，但身份损失Lid带来了显著的性能提升并稳定了学习过程。增强效果。为了验证方程式12中提出的自监督增强策略的效果，我们还训练了没有和有增强集A和B的CVF-SID，如图3b所示。表4a显示了每个增强集的效果，其中集合B在降噪性能上带来了0.2dB的改进。对γ相关性的消融。根据Torricelli等人的研究，我们将方程式1中的相关参数γ设置为1，表示0损失 PSNR SSIM L con L id L zero L reg0表3. 我们CVF-SID(S)在SIDD验证数据集上损失项的影响。请参阅第3.4节，了解有关每个训练目标的更多详细信息。0增强 PSNR SSIM A B0(a) 增强效果.0(b) 相关性γ的影响.0表4. CVF-SID (S)在SIDD验证数据集上不同超参数的影响。 (a)图3b中说明了增强集A和B的概览。 (b)我们通过网格搜索找到最佳的相关参数γ。0由于真实世界的噪声可能表现出更复杂的行为，我们对γ的适当值进行了消融研究。表4b显示，在纯乘法假设下，即γ=1时，CVF-SID取得了最佳效果，而增加该值并不会显著改变性能。05. 结论0我们提出了CVF，一种新颖的循环多变量函数，用于将输入分解为循环过程下的部分。然后，我们利用CVF设计了自监督的CVF-SID去噪框架，旨在学习一个CNN来解开信号相关和信号无关噪声，并从真实世界的噪声sRGB输入中得到清晰图像。所提出的方法不依赖于噪声分布的任何先验信息，因此比先前的自监督去噪方法更具普适性。广泛的研究证明了我们的公式与其他方法相比的几个优势和优越性。我们目前的一个限制是，在我们的框架中，我们使用了一个固定的相关参数γ，而在真实世界的应用中，相关性可能因不同图像而异。这导致了一个次优的分解，如图7的一些示例所示，图像与信号相关的噪声项之间几乎没有相关性。在我们的未来工作中，我们还将致力于以自监督的方式学习相关参数γ，同时将CVF的概念扩展到各种计算机视觉任务中。致谢。本工作得到了韩国政府（MSIT）资助的IITP资助 [No.2021-0-01343,人工智能研究生院计划（首尔国立大学）]的部分支持。[21] Jaakko Lehtinen, Jacob Munkberg, Jon Hasselgren, SamuliLaine, Tero Karras, Miika Aittala, Timo Aila, et al.Noise2noise. In ICML, 2018. 2, 3175910参考文献0[1] Abdelrahman Abdelhamed, Stephen Lin, and Michael S.Brown. 用于智能手机相机的高质量去噪数据集. In CVPR , 2018.1 , 2 , 3 , 5 , 70[2] Abdelrahman Abdelhamed, Radu Timofte, and Michael SBrown. NTIRE 2019真实图像去噪挑战：方法和结果. In CVPRWorkshops , 2019. 70[3] Saeed Anwar and Nick Barnes.基于特征注意力的真实图像去噪. In CVPR , 2019. 1 , 2 , 60[4] Joshua Batson and Loic Royer. Noise2Self: 自监督盲去噪.In ICML , 2019. 1 , 2 , 3 , 6 , 80[5] A. Buades, B. Coll, and J.-M. Morel.一种用于图像去噪的非局部算法. In CVPR , 2005. 20[6] Harold C Burger, Christian J Schuler, and StefanHarmeling. 图像去噪：普通神经网络能与BM3D竞争吗？ InCVPR , 2012. 2 , 60[7] Jingwen Chen, Jiawei Chen, Hongyang Chao, and MingYang. 基于生成对抗网络的图像盲去噪. In CVPR , 2018. 2 , 60[8] Yunjin Chen and Thomas Pock.可训练的非线性反应扩散：一种快速有效的图像恢复灵活框架.IEEE TPAMI , 2016. 2 , 60[9] Kostadin Dabov, Alessandro Foi, Vladimir Katkovnik, andKaren Egiazarian. 基于稀疏3D变换域协同滤波的图像去噪. IEEETIP , 2007. 1 , 2 , 6 , 80[10] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. 生成对抗网络. In NIPS , 2014. 20[11] Shuhang Gu, Lei Zhang, Wangmeng Zuo, and XiangchuFeng. 加权核范数最小化及其在图像去噪中的应用. In CVPR ,2014. 1 , 2 , 80[12] Shi Guo, Zifei Yan, Kai Zhang, Wangmeng Zuo, and LeiZhang. 朝着卷积盲去噪的真实照片. In CVPR , 2019. 1 , 2 , 60[13] Zhiwei Hong, Xiaocheng Fan, Tao Jiang, and JianxingFeng. 基于条件对抗网络的端到端非配对图像去噪. In AAAI ,2020. 1 , 3 , 60[14] Tao Huang, Songjiang Li, Xu Jia, Huchuan Lu, andJianzhuang Liu. Neighbor2Neighbor: 自监督单张噪声图像去噪.In CVPR , 2021. 2 , 30[15] Samuel Hurault, Thibaud Ehret, and Pablo Arias. EPLL:一种基于大量补丁学习的高斯混合模型图像去噪方法. IPOL , 2018. 20[16] Geonwoon Jang, Wooseok Lee, Sanghyun Son, and Ky-oung Mu Lee. C2N: 用于真实世界去噪的实用生成噪声建模. InCVPR , 2021. 1 , 3 , 6 , 7 , 80[17] Diederik P Kingma and J Ba. Adam:一种用于随机优化的方法. In ICLR , 2015. 60[18] Alexander Krull, Tim-Oliver Buchholz, and Florian Jug.Noise2Void - 从单张噪声图像学习去噪. In CVPR , 2019. 1 , 2 ,3 , 6 , 80[19] Marc Lebrun, Miguel Colom,

下载后可阅读完整内容，剩余1页未读，立即下载