用归一化流建模sRGB相机噪声

101 浏览量更新于2023-10-25 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17463用归一化流建模sRGB相机噪声ShayanKoush a1，3，*，AliMale ky1，3，*，MichaelS.3、MarcusA. Brubak er1，2，31约克大学2Vector Institute3三星人工智能摘要噪声建模和降噪是低级计算机视觉中的基本任务。它们对于依赖于小型传感器的智能手机摄像头尤其重要，这些传感器会产生视觉上明显的噪声。最近，人们对使用数据驱动的方法来经由神经网络改进相机噪声模型重新产生了兴趣。这些数据驱动的方法在原始传感器图像被相机的图像信号处理器（ISP）处理之前针对存在于原始传感器图像中的噪声在RAW-rgb域中建模噪声在这种情况下，传感器噪声通过ISP传播到以标准RGB（sRGB）编码的最终渲染图像。ISP上的非线性步骤最终导致sRGB域中的噪声分布明显更复杂，并且现有的原始域噪声模型无法捕获sRGB噪声分布。我们提出了一个新的sRGB域噪声模型的基础上归一化流，能够学习复杂的噪声分布在不同的ISO水平下的sRGB图像。我们基于流的规范化方法优于其他(a) 全高斯(b) 噪声流(c) 我们的模型(d) 真实噪声(e) 清洁在噪声建模和合成任务中，我们还表明，在用我们的噪声模型合成的噪声图像上训练的图像去噪器的性能优于用来自基线模型的噪声训练的图像去噪器。1. 介绍建模和降低噪声是计算机视觉和具有丰富历史的图像处理中长期存在的问题（例如，[10、17、18]）。虽然简单的模型，如简单的加性高斯白噪声（AWGN），经常被用于测试去噪方法，但众所周知，它们并不现实，仅作为真实世界相机噪声的粗略近似。当需要真实的噪声模型时，更复杂的模型，如泊松-高斯[8]或异方差高斯模型[7，19]，*在Samsung AI Center-Toronto实习期间完成的工作图1.由（a）全协方差高斯模型，（b）噪声流[2]和我们的模型（c）生成的噪声图像与真实图像（d）进行比较。图像来自SIDD数据集[1]。用于对相机传感器上观察到的噪声分布进行虽然这种模型比AWGN更真实，但它们通常也无法完全捕获真实的相机噪声分布。近年来，已经提出了数据驱动噪声模型，其直接从噪声传感器图像的大数据集（例如，[2、4、9、20、21、30、31]）。这些方法集中于对原始传感器图像中存在的噪声进行建模。在RAW-rgb域中建模噪声是有用的，因为去噪算法通常由相机的图像信号处理器（ISP）硬件应用。这种降噪在ISP的处理流水线早期应用KL = 0.021KL = 0.033KL = 0.045KL = 0.129KL = 0.192KL = 0.260KL = 0.030KL = 0.054KL = 0.039KL = 0.022KL = 0.047KL = 0.042KL = 0.039KL = 0.055KL = 0.040KL = 0.006KL = 0.039KL = 0.046174641200红色1200绿色1200蓝色10001000100080080080060060060040040040020020020000 50 100 150 200250清晰图像强度00 50 100 150 200250清晰图像强度00 50 100 150 200 250清晰图像强度图2. sRGB噪声方差作为SIDD上干净图像强度的函数[1]。这些图表现出高度可变和不可预测的行为，与RAW不同，RAW中噪声方差和强度之间通常存在线性关系。因此，我们不能使用传统的图像噪声模型，如AWGN和NLF，而是提出了一种新的基于归一化流的sRGB聚焦噪声模型在图像被渲染到其最终的sRGB表示之前，使用色调和彩色照片整理算法，这些算法被应用于提高图像然而，相机内去噪被禁用、不存在或不足并不罕见。此外，大多数相机默认情况下不会保存为RAW-rgb，这使得sRGB图像更加普遍。在这种情况下，有噪声的传感器图像通过相机的ISP渲染最终sRGB中产生的噪声分布明显比未处理的RAW-rgb空间更复杂，现有的RAW-rgb聚焦噪声模型对于建模sRGB噪声变得1.一、捐款. 我们专注于建模和合成sRGB图像噪声，其中相机内的非线性处理已经改变了相机传感器的噪声特性我们首先分析表明，现有的噪声模型，针对传感器噪声的RAW- RGB域不太适合sRGB图像。然后，我们提出了一个生成模型，该模型结合了归一化流的最新进展，并捕捉了不同增益（ISO）设置和相机类型对sRGB图像噪声的影响。我们表明，我们的sRGB噪声模型是优于几个基线噪声模型。我们进一步研究我们的模型我们表明，这种去噪器实现了显着更高的性能相比，去噪训练的合成数据从基线模型。2. 相关工作加性高斯白噪声（AWGN）[22，25，29]长期以来一直用于对图像噪声进行建模。然而，众所周知，真实的相机噪声是非高斯的，部分原因是它无法捕获方差的信号依赖性。一个常见的和更现实的模型是异方差高斯模型[19]，定义为：N<$N（0，β1I+β2），（1）其中β1、β2>0是对在真实相机传感器上观察到的噪声的信号相关和信号无关性质进行建模的参数。一些相机包括在他们保存的RAW-rgb图像中，以DNG格式编码[1，2]，尽管最近的工作[32]表明这种模型通常没有很好地校准。异方差高斯噪声模型相对简单，参数较少;然而，它仍然只是真实传感器噪声的近似值[1，7，12，24，28]。研究人员最近开始探索数据驱动的方法。例如，Abdelhamed等人[2]提出了噪声流模型，该模型将信号和增益依赖的域知识与基于学习的生成模型的表达能力相结合，该模型基于归一化流来捕获更复杂的噪声分量。虽然噪声流模型在模拟RAW rgb噪声方面是有效的，但它依赖于不适用于sRGB颜色空间的假设。例如，噪声流模型建立在异方差高斯模型之上，该模型假设噪声方差线性地取决于潜在的干净图像强度。然而，由于RAW-rgb图像的后续非线性和潜在的内容相关处理，该假设不再适用于sRGB图像域（参见图2）因此，在我们的实验中，我们表明，简单地将噪声流模型应用于sRGB数据无法捕获噪声分布。从sRGB数据中建模噪声的尝试相对较少。Nam等人[21]介绍了一种模型，该模型是为建模噪声和JPEG压缩引起的其他退化的特定用例而设计的。最近，C2N[13]模型尝试使用生成对抗网络（GAN）使用未配对的干净和嘈杂图像对噪声进行建模。iPhone 7PixelGalaxy S6Nexus 6G4iPhone 7PixelGalaxy S6Nexus 6G4iPhone 7PixelGalaxy S6Nexus 6G4噪声方差噪声方差噪声方差17465i=1Σ∼◦ ◦◦- -去马赛克白色平衡颜色空间校正语气映射颜色操纵当地调整拜耳处理照相洗印原始RGB图像sRGB图像图3.一个典型的相机ISP处理流水线。该流水线处理RAW-rgb图像以在sRGB域中对其进行编码。照片加工阶段中的非线性步骤实质上使sRGB域中的噪声分布复杂化。在本文中，我们介绍了一个数据驱动模型的图像噪声在sRGB域的条件下的相机设置和底层的干净的图像。与噪声流[2]一样，该模型使用归一化流[6，15，16]构建，但避免了仅适用于RAW-rgb的不切实际的假设。所得到的模型被示出具有最先进的sRGB噪声的噪声建模能力。此外，当使用来自所提出的噪声模型的噪声样本训练去噪器时，我们表明，所得到的去噪器的性能显著优于使用现有sRGB噪声模型训练的去噪器3. 预赛图像噪声是由成像过程中的多个源和相机传感器等源的物理限制引入的退化的组合这些来源中的许多来源发生在相机传感器第一次捕获RAW-rgb图像时。随后，对RAW-rgb图像（包括噪声）进行相机内成像处理，该相机内成像处理将图像从场景参考的RAW- rgb颜色空间变换到显示器参考的sRGB颜色空间。图3总结了相机内成像流程中的一些主要步骤。照相洗印步骤的结果，本质上许多是非线性的，引入了新的噪声源（例如，从削波和锐化），同时放大和扭曲原始传感器来自这些多个源的噪声可以表征为：I=I+N，（2）其中，I是观察到的噪声图像，I是真实的基本干净图像，N是其分布可能取决于I的噪声。在这项工作中，我们的目标是设计一个通用的模型，捕捉所有来源引入的噪声的复杂性标准化流程规范化流是近年来流行的生成模型家族由于它们的公式化，与其他生成模型（如GAN和VAE）相比，它们允许有效的采样和精确的概率密度评估[3，16]。此外，基于流的模型不会遇到模式和后验崩溃等问题，这些问题在训练GAN和VAE时通常会遇到。下面我们简单介绍一下标准化流程。我们建议读者阅读最近的综述文章[16，23]，以获得更广泛的治疗。归一化流由学习变换z = f（x）的可微分和双射函数组成|其中参数Θ称为流。流将数据样本x∈Rd从复分布pX变换到具有已知且易于处理的分布和概率密度函数pZ的某个基空间z∈Rd。在这里，我们假设pZ是具有单位方差的各向同性高斯分布数据空间中的概率密度函数可以使用变量变化公式pX（x）= pZ（f（x|Θ））|det Df（x|Θ）|、（3）其中Df（x）是f在x处的雅可比矩阵。结果是一个模型，给定数据集D= xiM，可以通过使用随机梯度下降来最小化数据的负对数似然来训练该模型M-log pZ（f（xi|Θ））+log |det Df（xi|Θ）|、（四）i=1对于参数Θ。样本可以通过从基本分布zpZ中采样，然后应用逆函数wx=f−1（z）来生成。形式上，规范化流定义了连续空间为了将它们应用于量化数据（例如，作为典型地被截断到256个强度等级的sRGB数据）必须注意避免退化[26]这发生在将连续密度模型拟合到离散数据时。在这里，我们使用均匀去量化，它在训练过程中向图像添加均匀采样的噪声更复杂的解量化形式是可能的[11]。构造表达性的、可微的和双射的函数是规范化流的主要研究问题，在这方面已经有很多尝试;参见[16，23]进行全面的回顾。流f通常由简单流的组合构成，即f=f1. fN−1fN-由于bijec的组成函数本身是双射的。类似于增加深度在神经网络中，组合流可以增加结果分布pX的复杂性。单个流通常被构造成使得它们的逆和雅可比行列式容易计算。接下来，我们将回顾我们将使用的两种常见的双射形式。17466.ΣⓈⓈøΣ有效地计算为/logf s（xA|（Θ），其中仿射耦合仿射耦合流[6]是一种简单、有效和广泛使用的流形式它们的工作原理是将输入维x=（xA，xB）拆分为两个不相交的子集xA，xB。然后，一个子集xA是未修改的，但用于计算缩放和平移因子，这些因子应用于另一个子集xB。形式上，仿射耦合层被定义为y=（yA，yB），其中yA=xA，并且yB= xBf s（xA| Θ）+f t（xA| Θ），其中是元素乘积。函数fs和ft计算缩放因子和平移因子，并且可以是任意的，例如深度神经网络。该层的逆层很容易计算为xB=yB−f t（yA|Θ）θfs（yA|Θ）。此外，还讨论了这种变换的对数确定性在摄像机甚至是颜色通道之间有很大的差异。受此分析的启发，我们在以下章节中引入了两个新的条件流，允许噪声模型以关键参数为条件，例如相机模型，增益设置和干净强度。图5显示了建议的模型架构。这里我们将其描述为从数据的变换（即，a噪声y，观测到sRGB图像（I）到基空间z。首先，如上所述，利用均匀的反量化对输入图像进行反量化。与通常表示为浮点数的RAW-rgb不同，sRGB数据通常被量化为256个强度级别。注意，因为干净图像和观察图像都已经被量化，所以两者都需要被去量化。接下来，从观察到的图像I中减去干净的图像I，以得到噪声I m。age，N. 随后是S个流程块，对fs的输出维度求和。1x1卷积耦合层必须更改层之间的维度分割方式。这可以通过随机排列[5，6]来完成，但Glow模型[15]介绍了使用1x1卷积作为可逆变换。本质上，这些层是按通道方式应用于输入的全线性变换。逆简单地是逐通道应用的逆线性变换，并且对数行列式项是像素数乘以线性变换的对数行列式。3530252015105100 400800 1600 3200相机ISO图4.真实噪声标准差随着相机传感器灵敏度的增加而变化。相机类型是影响噪波行为的另一个因素。例如，Galaxy S6拍摄的图像的噪声标准差几乎在所有ISO级别下都是最高的。对SIDD的分析[1]。4. sRGB噪声在这里，我们介绍了我们的基于归一化流的sRGB噪声模型。我们对SIDD数据集[1]的分析（如图2所示）证实，sRGB域中的真实噪声具有复杂的结构，标准的、基于异方差的噪声模型负责学习从噪声到基本分布中的样本的变换，反之亦然。这些流程块由一个条件线性（CL）流程和随后的K个条件耦合步骤（CCS）组成，其中一个条件耦合步骤由一个可逆1x1卷积层和一个条件仿射耦合变换组成。在实验中，我们使用S=4和K=2，除非另有规定外接下来，我们描述条件线性-耳流和条件仿射耦合层。4.1. 条件线性流噪声和后续非线性处理的性质在很大程度上取决于所使用的特定相机为了说明这一点，我们引入了一个线性流层，它是以相机c和相机的增益设置g为条件的这有这样的形式y=x<$fs（c，g）+ft（c，g），（5）其中是元素乘积，x是输入，y是输出，f s和f t是输出缩放因子和平移因子的函数。函数fs和ft可以是任意复杂的，并且除了fs= 0之外没有其他约束。参见fs和f t建筑细节的补充材料。这一层的倒数很容易计算为：x=（y−ft（c，g））<$fs（c，g），（6）这里是元素划分。对数行列式由logfs（c，g）给出，其中对输入的所有维度求和。4.2. 条件仿射耦合这一层是上述仿射耦合层的扩展。为了捕捉噪声分布对底层干净图像和相机和增益设置的复杂依赖性2和4），我们扩展耦合层以将这些值作为输入。条件仿射耦合层类似于标准仿射耦合层。iPhone 7PixelGalaxy S6Nexus 6G4噪声标准偏差17467Ⓢ正向和反向输入：干净图像正演（密度估计）反相（采样）正向输入：真实噪声图像正向输出：流动阻滞x S条件线性流动可逆1x1卷积条件仿射耦合反向输出：采样噪声图像反向输入：条件偶联步骤x K归一化流噪声提取器去量化去量化数据处理图5. 我们的模型由两个主要部分组成：（1）数据处理部分负责处理噪声和干净的图像。(2)流程步骤负责学习复杂的噪声分布。耦合层，但在比例和平移因子上不同具体地，层的输出是y=（yA，yB），其中yA=xA，并且yB= xB<$f cs（xA|I，c，g）+fct（xA|I、c、g），其中是元素乘积，x=（xA，xB）是输入，fcs和fct是基于输入干净图像I、相机c和增益设置g计算条件缩放和平移的函数。这种转换的逆和对数决定可以很容易地计算，分析（无条件）耦合层。有关fcs和fct的建筑细节，请参阅软材料。5. 实验为了评估我们的模型，我们使用SIDD数据集[1]。SIDD-Medium分割包含320个在各种ISO和照明条件下由五种不同智能手机拍摄的噪声-干净图像对。虽然此数据集提供RAW和sRGB域中的数据，但在这里，我们仅使用请注意，该数据集使用简化的软件ISP将捕获的RAW-rgb图像渲染为sRGB，而不是直接使用相机生成的sRGB图像。软件ISP应用存储在原始DNG文件中的摄像白平衡、镜头阴影校正、颜色空间映射、定制色调映射、映射到sRGB和sRGB伽马）。我们从每个图像中提取大约3，000个大小为32x32的斑块。从这些提取的补丁中，80%用于训练，其余用于验证。补丁是随机分布的，以确保所有相机和ISO设置在训练集和验证集中都得到公平的表示。对于训练，我们最小化负对数似然（等式2）。4）使用Adam优化器[14]。5.1. 度量为了定量评估模型，我们考虑两个指标。首先，每个维度（NLL）被用作密度估计的直接评估其次，为了更好地评估采样噪声的质量，我们使用了在[2]中引入的Kullback-Leibler（KL）散度。该度量计算真实噪声和采样噪声的直方图之间的KL散度。该度量比NLL度量对模型估计方差的不匹配更敏感5.2. 基线我们探索了一些基线sRGB噪声模型。我们考虑了同方差高斯噪声的三种变体：1）AWGN，其假设每个像素处的独立各向同性噪声;2）对角协方差高斯，其假设每个像素处的独立但各向异性噪声;以及3）全协方差高斯，其允许颜色通道之间的相关性。请注意，[21]先前为sRGB数据提出了我们还实现了一个异方差高斯模型，通常被称为噪声水平函数（NLF），并在方程中描述。1.一、虽然基于例如，图2，它是一个广泛使用和众所周知的相机噪声模型。最后，我们将噪声流模型[2]直接适应sRGB而不是RAW-rgb数据进行了比较。为此，我们修改了架构预期的通道数量，但其他方面保持不变。由于所做的假设很强，噪声流的参数数量很少。为了进行更公平的比较，我们还构建了一个更大版本的Noise Flow，称为Noise Flow-Large，它遵循Noise Flow的架构所有基线都被实现为使用简单线性流、信号依赖流和增益依赖流的组合的归一化流[2]，以确保一致性。5.3. 结果表1显示了我们的模型和所有基线的最终测试NLL和KL分歧。图6a和6b示出了174681.00.80.60.40.20.0我们的模型各向同性高斯对角高斯全高斯异方差（NLF）噪声流0 50 100 150200时代（一）6.05.55.04.54.03.53.0我们的模型各向同性高斯对角高斯全高斯异方差（NLF）噪声流0 50100150200250时代（b）第（1）款25020015010050图6.（a）来自模型的合成噪声与测试集的真实噪声样本之间的边际KL发散(b)与我们的基线模型相比，测试我们模型的每个维度的NLL我们的模型不仅在这两个指标上都有表现，而且收敛速度更快。模型NLLDKL#参数各向同性高斯3.7030.09150对角高斯3.6780.079150全高斯3.6080.085525异方差（NLF）3.6420.08872噪声流[2]3.3110.1982330噪声流-大3.2880.2276618我们的模型3.0720.0446160表1.为我们的模型和基线测试NLL和边际DKL。所提出的模型在这两个指标上都大幅优于基线。Noise Flow-Large和Noise Flow模型具有与所提出的方法最接近的NLL，然而，它们相对较高的DKL表明这些模型无法生成真实的噪声样本。总之，结果表明，最初为RAW-rgb开发的模型不太可能在sRGB中取得所有模型训练期间的KL发散和NLL。结果表明，我们的模型实现了更低（更好）的NLL（3.072 vs. 3.311nats/pixel for Noise Flow），并且收敛速度更快，只需要几个时期的训练。在训练期间，噪声流模型的NLL与其他基线相比波动我们认为这是由于模型架构中的假设，特别是信号相关层，这些假设在sRGB域中不成立，并进一步证明了在sRGB域中需要不同的噪声建模方法。在边际KL分歧方面，我们的模型也显著改善了基线。与NLL不同的是，KL发散方面最接近的性能基线是对角高斯噪声模型，KL发散-0的力量。079. 相比之下，我们的模型实现了KL发散度为0。044.为了进行比较，我们还考虑了最近提出的C2N [13]模型，一种基于GAN的sRGB噪声模型。他们的论文报告KL分歧为0。1638然而，我们注意到KL发散对直方图箱的选择和其他实现细节很敏感。00 50 100 150 200 250清晰图像强度图7.来自iPhone7-ISO 100设置的真实噪声样本的红色通道噪声方差，以及从我们的模型生成的样本和两个基线给出的与真实噪声样本对应的干净图像。我们的模型的成功充分显示了类似的噪声方差趋势的真实噪声。然而，噪声流和各向同性高斯模型无法学习这种趋势。有趣的是，表1显示噪声流在NLL方面显著优于其他基线噪声模型，但在KL发散方面显著低于它们。在进一步的调查中，我们发现噪声流模型在许多情况下明显例如，图7与图2类似，显示了sRGB噪声的方差作为真实数据、我们的模型、噪声流和ISO级别为100的iPhone 7的各向同性基线的无噪声图像强度的函数。该图显示，即使与各向同性高斯模型相比，Noise Flow也严重高估了方差，这表明之前看到的训练困难正在阻止它收敛到合理的模型。相比之下，虽然我们提出的模型也稍微高估了噪声，但它更好地捕捉了关系的结构。定性比较。为了定性地比较经过训练的噪声模型，图8显示了来自我们的模型的噪声样本在基于高斯的模型中，全协方差高斯模型实现了最佳测试NLL，并且已被证明非常适合在sRGB空间中建模噪声，因为其全协方差可以学习通道之间的依赖性[21]。补充材料中提供了一组更广泛的样本来自我们模型的样本通常在视觉上更类似于真实噪声图像，特别是与基线相比。噪声流样本噪声太大，并且来自全协方差高斯的样本没有表现出足够的方差。例如，在ISO 800的噪声流样本是显着较低的噪音相比，真正的嘈杂的图像。实样本各向同性高斯噪声流我们的模型边缘DKL每个维度的噪声方差17469iPhone 7PixelGalaxy S6Nexus 6G4噪声标准偏差(a) 全高斯(b)噪声流(c) 我们的模型(d) 真实噪声(e) 无噪声20.04017.53015.012.52010.07.5105.00 50 100 150200时代（一）0 50 100 150 200时代（b）第（1）款图9.在（a）不同相机和（b）不同ISO水平下训练期间学习的噪声模型的标准偏差接近真实的标准偏差。这表明所提出的条件层已经学会了根据这些设置来调整分布。虚线是真实值。流程框NLLDKLCL3.6780.079CCSISO仅x23.7260.154CCS摄像头仅x23.6090.216CCS干净图像仅x23.8820.295CCSx23.5300.104CL-CCSx23.3980.075（CL-CCSx2）x23.2540.067图8.从我们的模型和两个基线生成样本。来自我们模型的样本与真实噪声样本具有明显的视觉相似性。我们的样本在几乎所有情况下都达到了最低的DKL，显示出其生成逼真噪声的能力。为不同的相机和ISO设置建模。图9显示了不同相机和ISO设置下的噪声特性学习。虚线是每个条件下的真实噪声标准差。结果表明，噪声分布随相机和ISO水平的不同而发生显著此外，我们的模型能够成功地捕获这种行为，以学习更真实的噪声模型。这些图表还表明，虽然模型在最初的几个时期内学习速度很快，并且除了ISO 3200之外，表现出相对较少的过拟合。然而，我们注意到，这个ISO设置在训练集中的样本数量非常有限。消融研究。表2总结了我们的规范化流模型的流块的不同架构选择的性能。结果显示，（CL-CCSx2）x43.072 0.044表2.通过不同的流程步骤测试NLL和D KL。符号CL和CCS指的是条件线性和卷积耦合步骤，其中条件耦合步骤是1x1卷积层和条件仿射耦合层的组合。x旁边的数字表示流量和耦合步骤的数量。除非在下标中另有说明，否则层具有方法部分中提及的配方最后一行是我们在其他实验中使用的架构。当耦合步骤以所有重要变量（包括干净图像、相机类型和ISO设置）为条件时，噪声建模和噪声合成得到改进，而不是仅以其中之一为条件。此外，我们看到通过将条件线性流（ CL ）层添加到条件耦合步骤（CCS）的改进，显示了具有从相机类型和ISO级别转移知识的直接方式的重要性。最后，我们展示了具有多个流程块的重要性。具有四个流块的（CL-CCSx2）x4的架构在两个度量NLL和 DKL中实现了最佳性能。这是其他实验中使用的架构。5.4. 应用：sRGB去噪噪声建模的主要应用之一是生成逼真的噪声，用于下游任务，如去噪。在这里，我们使用从学习的噪声模型生成的样本来探索标准DnCNN去噪器的训练[30]，以测试其噪声生成能力。KL = 0.101KL = 0.107KL = 0.082KL = 0.042KL = 0.132KL = 0.072KL = 0.023KL = 0.019KL = 0.022KL = 0.081KL = 0.077KL = 0.178KL = 0.032KL = 0.054KL = 0.036KL = 0.015KL = 0.087KL = 0.029KL = 0.064KL = 0.232KL = 0.136KL = 0.099KL = 0.192KL = 0.26010040080016003200ISO-1600标准ISO-800ISO-100ISO-400噪声标准偏差17470噪声模型PSNRSSIM各向同性高斯32.480.855对角高斯33.340.867全高斯32.720.873异方差高斯32.240.849噪声流33.810.894C2N*33.760.901我们的模型34.740.912真实噪声36.510.922表3.在每个模型的样本上训练时的降噪性能。降噪器在SIDD基准集上进行评估在我们的噪声模型样本上训练的去噪器与在基线噪声上训练的去噪器相比，性能更好。（*）结果取自[13]。为了训练DnCNN，我们使用SIDD-Medium数据集。干净的图像来自SIDD-Medium，而有噪声的图像是与数据集一起提供的真实图像，或者是由所提出的噪声模型或指定的基线模型之一生成的图像。我们分别使用SIDD-Validation和SIDD-Benchmark中的噪声图像和干净图像进行验证和测试结果表3总结了我们的去噪实验的结果。结果表明，与在基线模型样本上训练的去噪器相比，在 SIDD-Benchmark 上，在我们模型的合成噪声上训练的DnCNN模型在峰值信噪比（PSNR）和结构相似性（SSIM）方面实现了显着更高的虽然我们模型的性能没有超过用真实数据训练的去噪器的性能（例如，正如在RAW-rgb [2]中的噪声模型中发现的那样，它确实显著缩小了间隙。图10显示了使用真实噪声图像和三种噪声合成策略（包括我们的模型和两种基线）训练的DnCNN模型的去噪结果。该图还包括输入噪声图像和真实干净图像以供参考。对于完整的结果集，我们建议读者参考补充材料。在来自我们模型的噪声样本上训练的去噪器往往会产生去噪图像，这些图像比在来自基线噪声模型的样本上训练时更接近真实的干净图像。在来自噪声流的噪声图像样本上训练的模型往往不能完全去除噪声，输出仍然包含大量噪声的图像（例如，如第6行）。这可能是由于噪声流显著高估噪声方差的趋势造成的，如图7所示。最后，在高斯样本上训练的去噪器往往会产生过于平滑的去噪图像，（例如，如第4行）。图10. SIDD验证的去噪结果来自在噪声图像上训练的去噪器，噪声图像来自（c）SIDD验证的真实噪声图像，（d）我们的模型，以及（e，f）我们的两个基线。6. 结论我们引入了一个专门为捕获sRGB域中的图像噪声而定制的噪声模型。由于sRGB域中的图像噪声比未处理的RAW-rgb域中的噪声分布明显更复杂，因此我们证明了现有的RAW- rgb噪声模型（如异方差噪声和噪声流模型[2]）在捕获sRGB中的噪声时无效。为了解决这个问题，我们描述了一种基于归一化流的架构，该架构可以有效地对sRGB图像噪声进行建模，同时捕获对诸如干净图像强度、相机模型和ISO设置等变量的复杂依赖性。我们证明了所提出的噪声模型的有效性我们表明，我们的图像去噪器的性能明显优于其他在现有sRGB噪声模型源代码可在https://yorkucvil.github.io/sRGBNoise/上获得。致谢这项工作是作为在加拿大多伦多三星人工智能中心实习的一部分完成的。AM的实习由Mitacs Accelerate资助。SK(a)无噪声(b)噪声输入（c）我们的模型(d)DnCNN-real(e)噪声流(f)全高斯PSNR = 40.212PSNR = 40.846PSNR = 35.398PSNR = 40.696PSNR = 39.565PSNR = 39.027PSNR = 35.613PSNR = 39.093PSNR = 39.009PSNR = 41.256PSNR = 37.872PSNR = 37.622PSNR = 35.567PSNR = 36.642PSNR = 33.574PSNR = 34.503PSNR = 32.031PSNR = 34.049PSNR = 32.616PSNR = 32.182PSNR = 30.593PSNR = 33.517PSNR = 30.387PSNR = 28.74917471引用[1] A. Abdelhamed，S. Lin和M. S. Brown，一、二、四、五[2] A. Abdelhamed，M. A. Brubaker和M. S. 布朗，一二三五六八[3] S. Bond-Taylor，A. Leach，Y. Long和C. G. Willcocks，3[4] C. Chen，Z. Xiong，X. Tian和F. Wu，1[5] L. 丁，D.Krueger和Y.Bengio，4[6] L. Dinh，J. Sohl-Dickstein，and S. Bengio，三、四[7] A. Foi，2609-2629，2009年12月。一、二[8] A. Foi ， M. Trimeche ， V. Katkovnik ， and K.Egiazarian，号17第10页。1737-1754年，2008年。1[9] S. Guo，Z. Yan，K. Zhang，W. zuo和L. Zhang，1[10] G. E. Healey和R. Kondepudy，号16第3页。267-276，1994年。1[11] J. Ho，X. Chen，中国山核桃A. Srinivas，Y. Duan和P.Abbeel，3[12] G. C.霍尔斯特，CCD阵列，相机和显示器。SPIE光学工程出版社，美国，第二版，1996。2[13] G. 张，W。李，S。儿子，K。M. Lee，二、六、八[14] D. P. Kingma和J. Ba，5[15] D. P. Kingma和P.Dhariwal，三、四[16] I. Kobyzev，S. Prince和M. A. Brubaker，TPAMI，第43卷，第11期，第3964-3979页，2021年。3[17] D. T. Kuan，A. A. Sawchuk，T. C. Strand和P.Chavel，165-177，1985年。1[18] C.柳河，巴西-地Szeliski，S. Bing Kang，C. L. Zitnick和W. T. Freeman，号30第2页。2991[19] X. Liu，M. Tanaka和M. Okutomi，4361-4371，2014。一、二[20] Y. Liu，S.安瓦尔湖Zheng和Q. Tian，1[21] S.南湾黄，Y。Matsushita和S. J. Kim，一、二、五、六[22] N. Ohta，2[23] G.Papamakarios ， E.Nalisnick ， D.J.Rezende ，S.Mohamed和B. Lakshminarayanan，1-64，2021年。3[24] T. Plotz和S. Roth，2[25] P. L. Rosin，2[26] L. Theis，A. van den Oord和M. Bethge，3[27] Z. Wang ，中国山核桃 A. Bovik ， H. Sheikh 和 E.Simoncelli，600-612，2004. 8[28] K. Wei，Y. Fu，J. Yang，and H. Huang，2[29] C. R. Wren，A. Azarbayejani，T. Darrell和A. Pentland，780-785，1997。2[30] K. Zhang，W. 左，Y. Chen ，中国粘蝇D. Meng和L.Zhang，31421、7[31] K. Zhang，W. zuo和L. Zhang，4608-4622，2018。1[32] Y. Zhang，H. Qin、X. Wang和H. Li，2

下载后可阅读完整内容，剩余1页未读，立即下载