星光下逼真视频去噪：基于物理的噪声模型及深度学习算法的应用

117 浏览量更新于2023-10-25 收藏 17.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

162410在星光下跳舞：星光中的视频去噪0Kristina Monakhova 加州大学伯克利分校 Stephan R. Richter 英特尔实验室 LauraWaller 加州大学伯克利分校 Vladlen Koltun 英特尔实验室0图1.亚毫勒克斯的视频去噪。（a）来自在晴朗、无月亮夜晚、无外部照明条件下拍摄的原始有噪声视频片段（10帧每秒）的一帧。（b）对视频片段进行对比度拉伸后的结果。（c）使用我们的去噪器进行去噪的结果。0摘要0由于光子计数较低，低光成像非常具有挑战性。使用敏感的CMOS相机，目前可以在月光下（0.05-0.3勒克斯照明）拍摄夜间视频。在本文中，我们首次展示了在星光下（无月亮，<0.001勒克斯）的逼真视频。为了实现这一点，我们开发了一个经过GAN调整的基于物理的噪声模型，以更准确地表示最低光照条件下的相机噪声。使用这个噪声模型，我们使用模拟的有噪声视频片段和真实的有噪声静止图像的组合来训练一个视频去噪器。我们在约0.6-0.7毫勒克斯的无主动照明条件下捕获了一个5-10帧每秒的视频数据集。与其他方法进行比较，我们在最低光照条件下实现了改进的视频质量，首次展示了星光下的逼真视频去噪。01. 引言0一些动物，如天蛾和木工蜂，可以在最黑暗的无月之夜中通过星光（<0.001勒克斯）有效导航[29, 47,55]，而我们最好的CMOS相机通常需要至少3/4月亮照明（>0.1勒克斯）才能在夜间拍摄移动物体[11]。在最黑暗的环境中（无月亮，晴朗的夜晚）进行观察非常具有挑战性，因为环境中的光线非常微弱。在这样黑暗的环境中，摄影师可以使用长曝光时间（例如20秒或更长时间）来收集足够的光线。0这种方法对静止图像效果很好，但严重限制了时间分辨率，无法成像移动物体。或者，相机可以增加增益，使每个像素对光更敏感。这样可以缩短曝光时间，但会大大增加每帧中存在的噪声。在这种情况下，运动可能是可感知的，但噪声会压倒图像。0去噪算法可用于改善噪声图像的质量。多年来，已经开发了许多去噪算法，从经典方法（如BM3D [17]，V-BM4D[39]）到基于深度学习的方法[58]。这些方法都试图根据对图像和噪声的统计分布的某些假设来提取信号。虽然对于某些去噪任务取得了成功，但大多数这些方法都建立在简单的噪声模型（高斯或泊松高斯噪声）上，这在极低光照条件下不适用。当在低光图像中使用高传感器增益时，噪声通常是非高斯、非线性、传感器特定的，很难建模或表征。如果对图像中的噪声结构没有很好的理解，去噪算法可能会失败，将结构化噪声误认为信号。0最近，一些基于深度学习的方法在低光下（0.1-0.3勒克斯）提供了卓越的去噪性能[13,14]。这些方法不再假设特定的噪声模型，而是使用相机捕获的清晰/有噪声图像对训练去噪器。这种方法通过深度学习自动考虑了低光噪声，但代价是162420生成的有噪声突发0鉴别器0(a) 噪声生成器训练0去噪网络0噪声0生成器0(固定)0(b) 降噪器训练0前向传递后向传递0长曝光，低增益0短曝光，高增益0生成噪声带运动0噪声输入0噪声静止图像0无噪声带运动0无噪声静止0标签0噪声0生成器0降噪视频0降噪后0降噪静止0损失0损失0图2. 方法概述。 (a)首先，我们训练我们的噪声生成器和一个鉴别器，鉴别器的目标是区分真实噪声和合成噪声。在这个训练过程中，我们使用了一组有限的长曝光/低增益和短曝光/高增益的非移动图像对。训练完成后，噪声生成器可以合成逼真的噪声。(b)接下来，我们使用由噪声生成器产生的合成干净/噪声视频剪辑以及来自相机的静态剪辑来训练我们的降噪器。这样可以在不需要实验性运动对齐的视频图像对的情况下训练视频降噪器。0而不需要捕捉成千上万的训练图像对。此外，该数据集是相机相关的，对于每个不同的传感器必须重新拍摄，因为噪声可能高度特定于相机。此外，虽然可以通过改变曝光/增益设置来捕捉非移动物体的清晰/噪声图像对，但是对于移动场景的清晰/噪声图像对的捕捉增加了额外的复杂性（例如需要第二台相机，对齐运动），使得这个实验在实践中不可行[28]。为了实现亚毫勒克斯级别的视频降噪，我们提出使用三个方法的组合：1）一个非常适用于低光成像并设置为最高增益的优化相机（第4节），2）使用物理启发式噪声生成器和易于获得的相机静态噪声图像来学习我们相机的噪声模型（第3节），以及3）使用这个噪声模型生成合成的干净/噪声视频对来训练视频降噪器（第5节）。由于我们基于物理的噪声生成器是使用一组有限的静态干净/噪声连拍图像进行训练的，因此我们不需要获取实验性运动对齐的干净/噪声视频剪辑，大大简化了实验设置并减少了我们需要收集的数据量。在噪声生成器训练完成后，我们固定噪声生成器，并使用静态干净/噪声图像连拍与合成视频剪辑的组合来训练我们的视频降噪器（第5节）。图2总结了我们的噪声生成器和降噪器的这种两阶段训练方法。我们在0.6毫勒克斯的无月夜晴空下拍摄的每秒5-10帧的视频上展示了我们降噪网络的有效性，首次展示了亚毫勒克斯光照水平下逼真的视频降噪。我们展示了几个具有大量运动的挑战性场景，其中主体只在银河系的光线下跳舞，而流星雨从天空中降落。02. 相关工作0图像和视频降噪。已经提出和研究了各种图像和视频降噪技术0多年来，许多经典的降噪方法依赖于特定的图像先验，如稀疏性[20, 42]、平滑性[46]或高斯混合模型[18,57]。其他方法利用非局部策略，在图像中协同降噪相似的补丁[9,17,35,39]。最近，基于深度学习的方法已经应用于图像降噪，其中图像先验是从数据中学习而不是明确假设的[10,16, 19, 49,52]。这些方法在图像质量方面相对于经典方法表现出显著的改进，然而它们通常对噪声统计做出简化的假设，如独立同分布的高斯分布。当在这些简化的假设下进行训练时，经典技术如BM3D在真实的带有真实噪声的照片上往往优于基于深度学习的方法[41]。在这方面，已经创建了几个包含真实相机的噪声和清晰图像对的数据集，以便在真实相机上评估和改进基于深度学习的降噪器的性能[3,4,41]。此外，一些工作专注于“解处理”在线图像数据集，以更好地匹配RAW图像分布，从而为训练RAW图像降噪器生成更多的合成数据[8]。另一方面，基于深度学习的降噪的另一条线路专注于无监督学习，即在训练降噪器时不使用真实图像。这些方法要么假设深度网络的结构可以作为图像降噪的先验[51]，要么假设噪声的统计独立性，使用从一个[6,32,33,43]或多个[36]噪声图像帧中抽取的样本来训练降噪器。虽然这一工作方向很有前景，因为它不需要真实数据，因此可以适应不同的相机传感器，但这些方法不容易适应在低光条件下高增益下出现的更结构化或信号相关的噪声，如条纹噪声。0低光摄影。许多方法特别关注低光和夜间摄影的去噪问题。一种流行的低光方法+++𝝀𝒇𝟏, 𝝀𝒇𝟐, 𝝀𝒇𝟑U-Net162430摄影是爆发去噪的一种方法，即将多个图像合并和去噪，如HDR+和Google Night Sight [27,38]。这些方法需要强大的对齐技术来考虑场景中的任何运动，而在极端噪声存在的情况下，这是困难的。出现了许多试图通过深度学习自动完成这个爆发对齐步骤的方法[23,40]。通常，爆发去噪的最终目标是从嘈杂的爆发中获得一张干净的单一图像。在我们的工作中，我们的目标是获得一个完全去噪的视频，而不是一张干净的单一图像。0最近，一些基于深度学习的方法尝试通过学习在极端噪声存在的情况下去噪图像来解决低光摄影问题。这些方法通过首先收集一组清晰/嘈杂图像对的训练数据集[13, 14,28]来学习去噪器和图像增强网络，并在0.1lx的低光条件下展示了显著的结果。我们的工作将这一限制降低了两个数量级，展示了低于1mlx的视频去噪。此外，这些方法依赖于相机特定的地面真实/嘈杂图像对的数据集进行训练，这对于视频去噪来说是特别具有挑战性的。我们的方法只需要有限的静态图像对数据集进行视频去噪，消除了需要大量实验数据集的嘈杂/干净对齐视频的需求。0噪声模型。高斯噪声模型通常用于典型的成像系统，然而这并不是对真实世界传感器噪声的非常真实的表示[41]。信号相关模型，如泊松-高斯模型[21,22]或异方差高斯模型[26]更加真实，因为它们考虑了相机中的光子噪声效应。然而，这些模型并没有考虑到许多其他效应，如剪切[22]、固定模式噪声和带状噪声[7,31]。其他工作则侧重于通过拟合不同噪声分量的特定分布来表征低光环境中的传感器噪声[54,56]。总的来说，对于极低光成像的噪声建模是复杂的，很难准确地表征和合成真实的相机噪声，因为噪声可能具有高度结构化和传感器相关性[5,31]。0最近，一些方法不再对传感器噪声进行表征，而是尝试使用生成对抗网络（GANs）[15,50]和归一化流模型[2]来学习合成真实噪声。然而，基于物理的统计方法往往优于基于DNN的方法[60]。我们将基于物理的统计方法与GAN的训练技术相结合，以数据驱动的方式学习近似传感器噪声，而无需手动校准噪声模型。03. 物理启发的噪声生成器0相机的目标是准确测量和记录场景的光强度，将光子转换为电压读数，然后由模数转换器（ADC）将其转换为位。在这个过程中，噪声无意中被添加到测量中，既与光子统计学有关，也与传感器电路的缺陷有关。在光线充足的环境中，传感器噪声是被很好理解的，并且可以建模为两个主要组成部分的组合：光子 shot噪声，它源于光子到达统计学，以及读出电路中的不完美引起的读出噪声[26]。在低光环境中，这种噪声近似不适用，不能充分描述场景的复杂噪声统计特性。以前的工作表明，低光环境中的噪声可以通过严格的校准过程来估计，它可以被表达为光子 shot噪声、读出噪声、行噪声和量化噪声的组合[56]。受到这项工作的启发，我们提出了一个物理启发的噪声生成器，它由几个学习到的统计噪声参数组成。我们不再手动校准噪声参数，而是使用GAN自动学习最优参数，GAN接收几对校准干净（长曝光，低增益）/嘈杂（短曝光，高增益）图像对。使用这个框架，我们的噪声生成器被训练成在极低光和高增益的情况下合成真实噪声，见图3。03.1. 受物理启发的参数0干净图像0�(�, � 读取 +0� 曝光 x)0�(0, � 原 )0合成的0噪声图像0�(� 量化 )0行0周期性量化0读取0和曝光0固定模式0行，时间0�(0, � 原,时间 )0图3.受物理启发的噪声生成器。我们的噪声生成器接收一个干净图像并生成一个合成的噪声图像。在训练期间，我们的受物理启发的统计噪声参数与U-Net一起进行优化，以生成一个与真实噪声图像无法区分的合成噪声图像。0我们的噪声生成器包含几个受物理启发的参数，主要包括随机分布的方差项，以及一个卷积神经网络（CNN），用于捕捉任何难以具体建模的已知或未知的附加效应。这两个组件在训练期间进行联合优化。首先，我们参数化了读取噪声和曝光噪声的贡献。曝光噪声是一个函数N = Ns + Nr + Nrow + Nrow,t + Nq + Nf + Np, (3)L =E˜x[D(˜x)]− Ex[D(x)]+λ Eˆx∥(∇ˆxD(ˆx)∥2−1)2],162440光强度的泊松随机变量，而读取噪声可以近似为均值为零的高斯随机变量[21,22]。这两者通常使用单个异方差高斯随机变量进行近似，其中均值等于真实信号 x ，方差由读取噪声 λ 读取和曝光噪声 λ 曝光参数化。我们注意到，泊松噪声模型对于低光子计数更准确，但高斯模型对其均值和方差具有可微性，允许学习这些参数：0N s + N r � N ( µ = x, σ 2 = λ 读取 + λ 曝光 x) (1)0低光成像通常受到条纹噪声的影响，这是一种相机相关的噪声，由相机电路产生，并在高ISO设置下特别突出。条纹噪声通常在测量中以水平或垂直线的形式出现[7,31]。我们将其建模为添加到每列/行的固定偏移量，其中固定偏移量是从方差为 λ 行的均值为零的高斯随机变量中抽取的，参见图3。条纹噪声通常对每帧都是独立的，然而我们注意到，在极低光和高增益设置下，一些条纹模式在多个帧中是一致的。为了对此进行建模，我们还包括一个时间一致的条纹模式噪声，它在每组帧中都是静态的。与原始的条纹噪声一样，这个时间一致的噪声被建模为方差为 λ 行,时间的均值为零的高斯随机变量。除此之外，在极高增益设置下，我们注意到测量结果受到周期性噪声的影响，可能是由于这些高增益设置下的ADC缺陷/效应。这种周期性噪声在原始噪声测量的频域中表现为尖峰，对应于向图像添加1或2像素周期的正弦模式，其振幅是随机的（图3）。我们通过学习参数 λ f 1 ， λ f 2 ， λ f 3来参数化这个随机振幅。有关更多实现细节和讨论，请参见补充材料。接下来，我们添加一个均匀噪声分量，以近似传感器中的量化噪声：0N q � U ( λ 量化 ) . (2)0这里 λ 量化是我们的量化噪声间隔的参数。通常，这个噪声分量基于相机传感器使用的位数是明确定义的。然而，我们发现允许这个噪声参数变化可以改善我们的噪声生成器。最后，我们包括一个固定模式噪声分量 N f，它在所有图像中保持不变。我们通过对几个图像序列进行平均来实验性地测量这个噪声。我们发现，让这个固定模式噪声进行学习可以改善真实噪声和生成噪声之间的Kullback-Leibler（KL）散度，但这个参数容易过拟合，我们实现了0当保持 N f不变并进行实验测量时，我们得到了最佳的去噪性能。因此，我们的基于物理的噪声模型包括以下组成部分：0其中 N shot ， N read ， N row ， N row,t ， N q ， N f和 N p 近似表示了 shot noise ， read noise ， row noise， temporal row noise ， quantization noise ， fixedpattern 和 periodic noise的贡献。在使用基于物理的参数向清晰图像添加初始噪声之后，中间的噪声图像通过CNN传递，旨在改进初始噪声估计并捕捉到物理模型未能捕捉到的任何效果。我们使用了一个残差2D U-Net [45]来实现这一点（有关架构细节，请参见补充材料）。我们的噪声生成器的最终输出被剪裁到 [0 , 1]范围内。总之，我们有8个基于物理的参数（ λ read ， λshot ， λ quant ， λ row ， λ row t ， λ f 1 ， λ f 2 ， λf 3），以及U-Net的参数。在训练过程中，所有参数都被优化以从无噪声图像生成逼真的合成噪声图像。图3显示了我们的物理引导噪声生成器及其每个噪声组件的示例。03.2. GAN训练0我们希望我们的噪声生成器在每次前向传递时产生不同的噪声样本。这与直接监督不兼容，其中每个清晰图像都会与一个真实的噪声图像配对。因此，为了训练我们的噪声生成器，我们采用了对抗性的设置[24]，在这种情况下由我们的噪声生成器和一个判别器组成，判别器评估合成噪声图像的真实性。我们的判别器在大小为64x64的噪声块上操作。对于我们的训练目标，我们使用了一个带有梯度惩罚框架的标准Wasserstain GAN [25]，其优化目标函数如下：0(4) 其中 P r 是真实的噪声数据分布， P g是由生成器定义的模型分布， ˜ x = G ( z ) , z是无噪声的图像块， D是我们的判别器。详细的训练细节请参见补充材料。04. 相机选择和数据收集0为了在亚毫勒克斯的照明水平下制作逼真的视频，我们需要仔细选择合适的相机传感器和镜头。通常，较大的像素尺寸对于低光成像更有优势，这样每个像素可以收集更多的光子。此外，近红外（NIR）敏感性对于夜间成像很有用。𝑡0𝑡"𝑡#𝑡$#𝑡$"𝑡%𝑡$%𝑡0𝑡"𝑡#𝑡$#𝑡$"𝑡%𝑡$%𝑡0𝑡"𝑡#𝑡$#𝑡$"𝑡%𝑡$%162450因为在夜间，近红外（NIR）中的可检测光子比RGB波长中的光子更多[37,53]。我们选择使用佳能LI3030SAI传感器，它是一个2160x1280的传感器，像素大小为19 µm，具有16个通道的模拟输出，并且在NIR中具有增加的量子效率。该相机具有由红色、绿色、蓝色（RGB）和近红外（800-950nm）通道组成的Bayer模式。每个RGB通道都有一个与近红外通道重叠的额外透射峰，以增加夜间的光透过率。在白天，可以从每个RGB通道中减去近红外通道以产生彩色图像，然而在夜间，当近红外占主导地位时，减去近红外通道将去除大部分信号，导致颜色变得暗淡。我们将这个传感器与蔡司Otus 28mm f/1.4ZF.2镜头配对使用，我们之所以选择这个镜头，是因为它具有大光圈和宽视场。我们从相机中捕获3组数据集：成对的静态场景的清晰（低增益，长曝光）/噪声（高增益，短曝光）突发，移动物体的清晰视频，以及亚毫勒克斯条件下移动物体的噪声视频。所有图像/视频都以RAW格式捕获。静态场景的成对数据集用于训练我们的噪声生成器。成对数据集和清晰的移动物体视频用于训练去噪器。最后的数据集用于测试我们的去噪器在最具挑战性的环境中的性能。我们的亚毫勒克斯数据集可以成为未来去噪算法的挑战[1]。0成对的干净/噪声静态场景连拍。我们收集了10个灰度和彩色目标的剪辑，每个剪辑包含一个干净图像和一系列100-900个噪声图像，共计2558个噪声图像。我们将这个数据集专门用于噪声生成器的训练。除此之外，我们还收集了一个更复杂的数据集，包含67个干净/噪声图像对，每个干净图像包含16个噪声连拍。这个第二个数据集包含室内和室外场景，具有不同的光照条件。我们将这个数据集同时用于噪声生成器和去噪器的训练。0不成对的干净RGB+NIR视频。通过我们训练好的噪声生成器，我们可以从干净视频中生成无限数量的干净/噪声对。鉴于没有开源的RGB+NIR原始数据集，我们收集了自己的无噪声视频剪辑数据集（不成对）。我们收集了10个视频序列，将其分为166个用于训练和10个用于测试的视频剪辑。这些视频是在室内和室外场景下以不同的帧率拍摄的。我们在白天使用低增益设置拍摄这些图像。为了增加我们的数据集，我们利用了MOT视频挑战[34]中的329个视频剪辑，然后对其进行未处理[8]以模拟原始视频剪辑。虽然这些视频剪辑具有显著的运动，但其颜色分布与我们相机的原始数据不同。因此，我们在初始的预训练步骤中使用MOT视频，然后仅使用来自我们相机的视频剪辑来改进我们的去噪器。0亚毫勒克斯RGB+NIR视频。为了在最低光照条件下测试我们的方法，我们在一个没有城市夜光的偏远地区的晴朗无月之夜收集了视频。在我们的实验中，没有使用任何外部光源照亮场景。由PR-810Prichard光度计测量的照度范围在0.6-0.7mlx之间，这是一个晴朗无月之夜的预期范围。视频的曝光时间在0.1-0.2毫秒之间，相当于10-5fps。所有视频都使用最大的镜头光圈拍摄，以最大化光线照射到传感器上，并使用相机的最高增益设置。05. 视频去噪0现在我们可以生成干净/视频对，下一步是训练一个去噪器，使其能够很好地适应我们相机拍摄的真实噪声视频剪辑。受到连拍去噪的启发，即使用一系列多个噪声帧一起去噪中心帧，我们选择了一种可以同时处理多个帧的网络架构。这是有益的，因为去噪一系列图像可以提高PSNR，尤其是在光子匮乏的情况下。此外，视频去噪可以帮助我们保持帧间的时间一致性，并减少去噪视频中的闪烁。0HRNet 10原始噪声帧0原始去噪帧0时间0后期处理0处理后的去噪帧0HRNet 1 HRNet 10HRNet 20图4. 去噪网络。我们的去噪网络的整体结构与FastDVDnet[49]类似，顺序地输入5个噪声RAW图像，生成1个去噪RAW图像。去噪后，应用现成的后期处理（例如白平衡、直方图均衡化）生成最终的去噪视频。05.1. 去噪网络0对于我们的去噪网络，我们基于FastDVDNet[49]进行改进，它是一种处理运动估计的先进视频去噪器。我们通过替换162460干净0我们的全真实噪声CA-GAN +� ! +� " E0我们的（消融）0噪声流05个图像的平均值：0图5.噪声模型比较。我们展示了使用我们的噪声模型与其他噪声模型的示例图像补丁，以及5个样本的图像补丁的平均值。我们的合成噪声与真实噪声相比更相似，并且平均噪声也非常接近。0我们使用一个HRNet从[48]中的U-Net去噪块，我们发现这比原始的U-Net架构在去噪视频的时间一致性方面更好。我们的去噪器在RAW视频序列上运行，如图4所示，并使用现成的后期处理产生最终输出。请参阅补充材料，了解我们完整的去噪器网络架构以及与原始FastDVDNet架构的评估。05.2. 训练0我们将去噪器训练在合成噪声视频剪辑和来自相机的真实静态图像的组合上。首先，我们使用真实配对的静态图像、来自我们相机的合成噪声剪辑以及来自MOT数据集的合成噪声剪辑进行500个时期的预训练，以帮助防止过拟合。预训练之后，我们在我们的真实静态图像和来自我们相机的合成剪辑上进行817个时期的模型优化。在整个训练过程中，所有图像都被裁剪为512×512的补丁。我们的训练目标使用感知损失（LPIPS）[59]和L1损失的组合，对于LPIPS损失，我们只选择前3个RAW通道，因为LPIPS损失需要一个3通道图像。我们使用gamma校正将我们的真实图像进行校正，其中gamma = (1 /2.2)，从而训练去噪网络输出一个经过gamma校正的图像。我们发现这种方法优于在去噪之后应用gamma校正。对于预训练和优化，我们使用Adam优化器[30]，学习率为1e-4，所有默认参数。05.3. 后期处理0我们的去噪器是在相机的原始图像上进行训练的。通过这样做，该系统可以与许多不同的后期处理流程配合使用。为了显示我们的最终图像，我们应用了以下后期处理步骤：双线性插值解码、白平衡和直方图均衡化。我们注意到我们的去噪图像已经处于一个经过gamma校正的空间中。我们在可视化中显示视频剪辑的RGB通道，省略了我们的可视化中的NIR通道。我们预计手动后期处理可以进一步提高图像的对比度和感知质量。0在AdobeLightroom或类似平台中进行后期处理可以进一步提高图像的对比度和感知质量。06. 评估0首先，我们评估了我们的噪声生成器在几个现有的低光成像噪声模型上的性能，并对我们的噪声模型的组成部分进行了消融分析。接下来，我们将我们的噪声生成器+视频去噪器管道与几种现有的去噪方案进行比较。我们在一个保留的包含噪声/干净图像对的数据集上进行定量比较。最后，我们在我们的亚毫勒克斯噪声视频数据集上进行定性比较，这些数据集不包含用于定量比较的地面真实标签。06.1. 噪声生成器0在训练噪声生成器之后，我们对包含832个128×128视频补丁的保留数据集进行性能评估。每个补丁有4个色彩通道和5个时间通道。我们计算了在减去干净图像后，我们合成噪声与真实噪声剪辑之间的KL散度。我们与一个非深度低光噪声模型（ELD）[56]以及两个基于深度学习的噪声模型CA-GAN [12]和Noise Flow[2]进行比较。ELD使用暗帧和灰度帧进行手动校准，以适应不同噪声源的几个分布。根据这种校准方案，我们发现我们的噪声分布与[56]中描述的噪声分布非常不同，这可能是由于我们极高的增益设置、主要的固定模式噪声和周期性分量导致该模型性能较差。CA-GAN是一个相机感知噪声模型，它接收一个干净图像、一个估计的拍摄和读取噪声图像，以及一个来自相机的真实噪声图像，以合成一个信号相关的噪声图像。我们使用这个模型，但发现它在我们的相机和噪声上的泛化能力较差。类似地，NoiseFlow被设计用于多个增益设置和照明条件，但不能泛化到我们的极低光、高增益设置。For single-image denoising, we compare against twopretrained deep denoising methods: Unprocessing [8], whichoperates on RAW images and is trained using different readand shot noise levels, as well as L2SID [14] which takes ina raw noisy image and jointly denoises and processes theimage. Both of these methods do not perform well on ourdataset, due to the extreme noise in our raw measurements.We also retrained L2SID [14] using our still image pairs,resulting in better performance single-images, but signiﬁcantﬂickering over time for video (see Suppl. for example).Noise2Self, a self-supervised approach, does poorly withour noise due to its highly structured content (e.g. correlatedlines for the row offsets), and results in denoised imageswith prominent line artifacts. These results are summarizedin Table 2, with full images shown in the Suppl.For video denoising, we feed in 5 noisy clips to eachdenoiser, then compare against a single still ground-truthimage.We compare our method against V-BM4D (aclassic video denoising method), as well as two pre-trainedstate of the art deep video denoisers, FastDVDnet [49]and PaCNet [52].Both of these models use additiveGaussian noise, so as expected, they do not perform wellfor our real noisy clips. FastDVDnet, which is designed tooperate at multiple noise levels, outperforms PaCNet [52],which is designed for a speciﬁc Gaussian noise level. Ourdenoising method, which is based on a modiﬁed FastDVDnetand trained using our noise generator, achieves the best162470我们在表1中总结了我们的发现，并在图5中展示了每种方法的一个示例合成噪声补丁。我们可以清楚地看到，NoiseFlow和CA-GAN都没有捕捉到我们真实噪声片段中存在的显著条纹噪声（列偏移）。ELD很好地捕捉到了条纹噪声模式，但没有捕捉到噪声的其他组成部分，并且在视觉上或KL散度方面都无法与真实噪声片段匹配。0噪声模型KLD0ELD [56] 1.361 Noise Flow [2] 0.386 CA-GAN模型[12] 0.5130我们的（消融实验）0N r (高斯) 0.400 N s + N r (拍摄 + 读取噪声) 0.400 N s +N r + N q 0.122 N s + N r + N q + N row + N row t0.118 N s + N r + N q + N row + N row,t + N p0.113 N s + N r + N q + N row + N row,t + N p +N f 0.138 N s + N r + N q + N row + N row,t + N p+ N f � 0.0840完整模型：0.0690表1.我们将我们的噪声生成器与先前的工作进行了比较，代表了对噪声分布建模的不同方法。我们的方法明显优于所有基线。我们还展示了我们的噪声生成器模型的组成部分消融。请参见图5进行视觉比较。噪声参数的消融。我们在表1中消融了我们生成器的不同噪声组成部分，并在图5中展示了定性比较。与之前一样，我们计算了合成噪声和真实噪声补丁之间的KL散度，发现我们的噪声模型的每个组成部分都改善了KL散度。具体来说，拍摄、读取、量化和行噪声都是ELD[56]中使用的，但是通过我们的GAN训练，我们自动校准了不同的噪声组成部分，结果比手动校准的模型性能更好。此外，我们的模型通过包括在多个图像补丁上保持不变的噪声行（时间上的行噪声、固定模式噪声）来考虑噪声随时间的变化。如图5底部的5张图像平均值所示，我们的噪声模型与平均噪声非常匹配，这对于视频去噪很重要。添加周期性噪声组件使我们的噪声更好地匹配真实噪声的傅里叶谱，真实噪声的傅里叶空间中有几个突出的峰值（详见补充材料）。添加我们测量的固定模式 N f，改善了随时间的行为，学习固定模式 N f �进一步改善了KL散度，但以过拟合的风险为代价，因为这是将图像像素级添加到合成噪声中。在我们的最终模型中，我们使用了一个测量的固定模式和一个学习的U-Net，可以考虑我们没有明确建模的噪声，如色彩效果，或增强我们的高斯噪声0近似以更好地匹配真实噪声分布。我们的最终噪声模型在单个噪声实例、时间和傅里叶空间中产生与真实噪声密切匹配的合成噪声。06.2.完整流程：视频去噪0接下来，我们使用真实和合成的噪声样本组合训练的视频去噪器与现有的去噪器进行评估。首先，我们使用我们的数据集中的21个静态清晰/噪声突发进行了几种替代方法的定量比较（因为我们没有噪声视频片段的真实标准）。我们将比较分为两类：单图像去噪方法和视频去噪方法，后者一次输入多个片段。0方法 PSNR SSIM LPIPS0单图像方法：Noise2Self [6] 20.11 0.210 0.5450反处理 [8] 12.86 0.249 0.3550L2SID（预训练）[14] 13.6 0.512 0.3380L2SID（重新训练）[14] 26.9 0.892 0.1980视频方法：V-BM4D [39] 16.2 0.322 0.4190预训练的PaCNet [52] 13.65 0.512 0.3380预训练的FastDVDnet [49] 23.8 0.618 0.2820表2. 测试集中静态图像的性能。162480图6.在0.0006勒克斯的10fps噪声视频片段上的结果。显示了输入序列（左侧）、V-BM4D、预训练的FastDVDnet和我们的结果。我们的方法在整个片段中保留了更多的细节，并且不包含V-BM4D和预训练的FastDVDnet中存在的普遍条纹伪影。完整的视频片段请参见补充材料。（建议使用数字缩放）0图7.在0.6勒克斯的10fps噪声视频片段上的结果，显示了视频的时间性能。我们的方法比V-BM4D或预训练的FastDVDnet具有更好的时间一致性，并且每帧中的伪影更少。完整的视频片段请参见补充材料。（建议使用数字缩放）0性能。这证明了在去噪器训练过程中拥有一个逼真的噪声模型的重要性。0接下来，我们在我们的未标记亚毫勒克斯视频片段数据集上定性比较了我们的性能。我们在图6中将我们的方法与V-BM4D和预训练的FastDVDnet进行了比较，补充材料中还提供了其他视频比较。我们的方法比其他方法具有更少的水平条纹伪影，保留了更多的细节，如星星，并具有更好的整体图像质量。我们可以清楚地看到去噪后的视频中的银河系，并且我们的方法对背景中的快速移动物体具有鲁棒性（例如，我们在图6中捕捉到了一颗流星）。观察视频片段中的相邻帧时，图7中我们的方法的闪烁较少，而V-BM4D和预训练的FastDVDnet在帧之间有明显的闪烁，这可能是由于原始噪声中存在显著的噪声所致。0最后，我们对我们的方法、V-BM4D、FastDVDNet和L2SID进行了感知实验，使用了来自我们的视频数据集的10个片段进行了盲目随机的A/B测试。在与10个工作者进行了300次比较后，我们的方法在图像质量方面超过了其他方法95%以上的时间（详见补充材料）。07. 结论与讨论0我们首次在亚毫勒克斯的照明水平下展示了逼真的视频去噪。我们通过优秀的相机硬件（低光优化的RGB+NIR相机）、一个物理启发的噪声生成器用于生成逼真的噪声视频片段，以及使用真实静止图像和合成噪声视频片段训练的视频去噪器的组合来实现这一目标。我们的工作展示了基于深度学习的去噪在极低光条件下的强大能力。我们希望这项工作能够在极低光水平下（例如在无月光条件下或森林树冠下）研究夜行动物行为等方面带来未来的科学发现，并有助于推动机器人视觉在极暗环境中的极限。这项工作的潜在滥用包括夜间监视或与武器系统配合使用。我们的方法存在一些限制。首先，我们的噪声生成器仅能产生模拟单一增益设置（在本例中为最高增益）的噪声。未来的工作可以扩展噪声生成器模型，使其能够适应多个相机增益/ISO设置。其次，由于夜间NIR在RGB上的优势，我们去噪后的夜间视频颜色较暗。通过进行风格转换和重新上色的工作，可以进一步改善去噪视频片段的视觉效果，增强嵌入的色彩线索或合成逼真的颜色。最后，通过类别感知去噪[44]和联合去噪/分割，未来可能会改进去噪器的性能。162490参考文献0[1]在星光数据集中跳舞：视频去噪。http://kristinamonakhova.com/starlight_ denoising/#dataset。访问日期：2022-03-21。0[2] Abdelrahman Abdelhamed，Marcus ABrubaker和Michael SBrown。噪声流：条件正态化流的噪声建模。在计算机视觉国际会议IEEE/CVF论文集上，页码3165-3173，2019年。0[3] Abdelrahman Abdelhamed，Stephen Lin和Michael SBrown。用于智能手机相机的高质量去噪数据集。在计算机视觉和模式识别IEEE会议论文集上，页码1692-1700，2018年。0[4] Josue Anaya和AdrianBarbu。Renoir-用于真实低光照图像降噪的数据集。视觉通信和图像表示杂志，51：144-154，2018年。0[5]欧洲机器视觉协会。Emva标准1288：图像传感器和相机表征标准。2012年。0[6] Joshua Batson和LoicRoyer。Noise2self：通过自监督进行盲去噪。在机器学习国际会议上，页码524-533。PMLR，2019年。0[7] AssimBoukhayma。低噪声CMOS图像传感器。在超低噪声CMOS图像传感器上，页码13-34。Springer，2018年。0[8] Tim Brooks，Ben Mildenhall，Tianfan Xue，JiawenChen，Dillon Sharlet和Jonathan TBarron。用于学习原始去噪的图像未处理。在计算机视觉和模式识别IEEE/CVF会议论文集上，页码11036-11045，2019年。0[9] Antoni Buades，Bartomeu Coll和J-MMorel。一种非局部图像去噪算法。在2005年IEEE计算

下载后可阅读完整内容，剩余1页未读，立即下载