循环卷积神经网络用于视频联合降噪和去马赛克

198 浏览量更新于2023-10-16 收藏 14.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

denoising stage. Demosaicing before denoising producescorrelated noise, however it is shown in [28] that denoiserscan be adapted to handle this correlated noise yielding re-sults that surpass the ones of denoising before demosaicing.Yet, the ideal situation is to combine these two stepsinto a single joint denoising and demosaicing module. Notonly this should lead to better results but it would also sim-plify the camera pipeline by combining two deeply inter-connected modules into a single one.Several methods have been proposed for joint denois-ing and demosaicing, from traditional model-based meth-ods [32, 6, 18, 23, 37] to more recent data-driven ap-proaches [17, 10, 55, 35, 11].However, most of worksfocus on single images [23, 32, 22, 34, 17, 25, 37, 62] orbursts [35, 11, 19, 21], while the case of video has receivedlittle attention so far. Early video demosaicing works as-sume that the raw is noiseless [61, 39]. Patch-based meth-ods have been proposed in [66, 5] but treat the denoisingand demosaicing separately. In [9] an image demosaicingalgorithm is applied to the noisy raw frames, which are thendenoised by a self-supervised video denoising network.There are obvious similarities between bursts and videos.In both cases the focus is to use multiple frames as input.Temporal aggregation of information should benefit bothdenoising and demosaicing. Indeed, when multiple inputframes are available missing values on the current framecan be observed in neighboring frames. This is the approachtaken by [14, 60], which obtains a super-resolved sRGB im-age exploiting the hand-held camera motion. Several learn-ing based approaches have been proposed for burst JDD ei-ther with supervised [35, 19, 20, 21] or self-supervised [11]training. Very recently some authors have attacked the prob-lem using neural fields [47, 41]. A related problem is rawburst super-resolution, where the goal is to obtain a super-resolved sRGB image [60, 3, 36, 2].In spite of the similarities between burst and video JDDthere are important differences. Since the objective of burstprocessing is to produce a single image, many frames are51080使用循环卷积神经网络进行视频联合降噪和去马赛克0Valéry Dewil † Adrien Courtois † Mariano Rodríguez † Thibaud Ehret †0Nicola Brandonisio � Denis Bujoreanu � Gabriele Facciolo † Pablo Arias †0† Université Paris-Saclay, CNRS, ENS Paris-Saclay, Centre Borelli, 91190, Gif-sur-Yvette,France � Huawei Technologies France SASU0https://centreborelli.github.io/RVDD/0摘要0降噪和去马赛克是图像/视频处理流水线的两个关键组成部分。尽管历史上这两个任务主要被单独考虑，但当前的神经网络方法允许将它们联合处理以获得最先进的结果。然而，大多数现有的研究集中在单张图像或连拍降噪和去马赛克（JDD）。虽然与连拍JDD相关，但视频JDD值得单独研究。在这项工作中，我们通过使用神经网络对视频联合降噪和去马赛克的不同设计方面进行了实证探索。我们比较了循环和非循环方法，并探索了循环网络中传播信息的类型、运动补偿、视频稳定和网络架构等方面。我们发现带有运动补偿的循环网络可以取得最佳结果。我们的工作应该为未来的视频JDD研究提供一个强有力的基线。01. 引言0每个光学相机，从手机到专业的单反相机，都使用图像信号处理器（ISP）来从传感器捕获的原始输入中生成高质量的sRGB图像。ISP实现了许多操作，其中一些可能相当复杂。设计、实现和调整图像处理流水线以在有限的计算资源下实现最佳的图片质量需要付出相当大的努力。相机流水线的两个重要组成部分是降噪和去马赛克。它们通常分别应用：首先在原始数据上应用降噪方法，然后对降噪后的原始数据进行去马赛克处理[46, 67, 45,31]。这种方法的主要好处是降噪仅应用于RGB图像数据的三分之一。最近的研究提出了改变这些操作顺序以更好地保留图像中的小结构的方法。ft = uMt + nt ⊙�where ⊙ denotes the element-wise product, nt is an imageof Gaussian white noise of mean µ = 0 and variance σ2 = 1and a, b ≥ 0 are the parameters of the noise model. Inthis model, the noise is white Gaussian with a variance thatdepends on the clean value of the pixel. For pixel x in rawframe t the variance of the noise is auMt (x) + b.For a video restoration task, it is impractical to considera large window of input frames, which makes recurrent net-works an appealing choice for integrating temporal infor-mation across a larger number frames beyond the input win-dow. Recurrent networks have been applied to video de-noising [40, 24, 44] and super-resolution [50, 27, 16]. Toaddress for the first time the video JDD problem, we de-fine a simple architecture that combines recurrence on theoutput frame [50] and feature recurrence [27, 16, 24].A diagram of the proposed Recurrent Video joint De-noising and Demosaicing (RVDD) method is given in Fig-ure 2. We consider a standard U-Net CNN (similarly to51090嘈杂的ISO128000MF2F0FastDVDnet JDD0RVDD ConvNeXt0图1：我们的联合去噪和去马赛克方法（RVDD）在CRVD数据集 [64]的真实原始视频上的结果。为了比较，我们展示了使用自监督视频去噪方法MF2F [9] 和将FastDVDnet [57] 改编为JDD的结果。0通常进行处理/聚合。相反，真实的视频处理ISP无法维护包含几十帧的滚动窗口。此外，处理后的视频需要在时间上保持一致。这些约束已经塑造了仅有的几种专门用于原始视频去噪的方法，它们要么采用循环技术 [13, 1, 40, 24,44]，要么仅限于几帧的小时间窗口 [57, 64, 53, 63, 59, 7,54,33]。尽管在相关问题上有大量的研究工作，但据我们所知，尚未使用基于学习的方法解决视频JDD问题，尽管它是每个sRGB视频采集流程的基本操作之一。我们的目标是在视频JDD问题上建立一个CNN基准。0贡献。本文解决了原始视频JDD问题，并使用神经网络进行了研究。我们的贡献包括：（1）我们提出了一种适用于视频JDD的循环卷积神经网络。我们进行了广泛的消融实验，考虑了循环和非循环版本、显式运动补偿与否等等。我们的结果证实，具有运动补偿和循环的简单早期融合架构是视频JDD的强基线。0（2）为了定量评估和训练，我们提供了一个模拟的从原始到sRGB的真实数据集（基于REDS[42]）。我们的数据集根据CRVD [64]的特点进行了设计（一个公开的真实原始视频数据集）。这样我们就可以将训练好的网络应用于真实的CRVD数据集（见图1）。我们考虑了数据集的两个版本：有和没有运动稳定。这样可以评估JDD网络在具有不同运动统计特性的数据集之间的泛化能力。我们的数据集、代码和结果都可以在项目的网站上找到。0网页1，可以作为未来关于该主题的基准。02. 适用于视频JDD的循环卷积神经网络0我们用 f 表示一个大小为 W × H 的嘈杂原始视频，用f t 表示其中的一帧，其中 t = 1 , . . . , T 。视频 f是线性RGB视频 u ( W × H × 3 )的马赛克噪声版本。我们用 M 表示马赛克操作符，用 uM t = Mu t表示干净的原始帧。我们假设使用广泛使用的异方差高斯近似来模拟真实传感器噪声 [15]：01 https://centreborelli.github.io/RVDD51100[57, 53, 44,63]），我们将其表示为F，它接收四个输入：先前的RGB输出ut-1，当前和下一个噪声原始帧ft，ft+1，以及先前帧的最后一个隐藏层的特征图φLt-1（具有C个通道和空间分辨率W×H）。原始输入ft和ft+1使用Hamilton-Adams方法[30]进行解马赛克，我们将其表示为D。相邻帧和激活图使用配准算子Wt-1,t和Wt+1,t进行对齐，以补偿运动：0ut = F(Wt-1, φLt-1, Wt-1, tut-1, ...0D(ft), Wt+1,tD(ft+1)).0配准算子Wt±1,t是由从帧t到t±1的光流vt,t±1给出的：0Wt±1,tut±1(x) = ut±1(x + vt,t±1(x)).0我们使用可微分的双三次插值方法对经过配准的帧进行插值，以便在训练过程中能够反向传播梯度。我们在噪声原始视频上估计光流。通过平均池化（每个Bayer单元中的4个像素值求平均）将原始帧下采样到一半的分辨率。我们使用TV-L1[65]估计光流，并将结果放大到完整分辨率。通过在一半的分辨率上操作光流，我们减少了计算时间和噪声水平。图像输入Wt-1, tut-1, D(ft)和Wt+1,tD(ft+1)在通道维度上沿着合并为一个大小为W×H×9的张量。特征图输入Wt-1,φLt-1与第一个隐藏层的特征图φ1t在通道维度上进行连接，得到一个大小为W×H×2C的张量。在特征提取之后进行连接有利于平衡先前特征与新特征的组合。0基本的循环基线。我们还考虑了一种基本的循环CNN，称为RVDD-basic，它保持相同的U-Net架构，但只有两个输入：当前的噪声帧ft和先前的RGB输出ut-1，即：0ut = F(Wt-1, tut-1, D(ft)).0这将在第6节中作为循环基线。03. JDD的修改版FastDVDnet0FastDVDnet是一种在[57]中引入的视频去噪CNN。它以五个连续噪声帧的堆栈作为输入，并使用两个级联的U-Net对其进行处理。第一个U-Net在每组三个连续帧上应用三次。然后，将三个输出用作第二个U-Net的输入，产生最终结果。我们提出了一种简单的FastDVDnet的改进，用于进行联合去噪和解马赛克。根据[28]的方法，我们...0在将帧输入FastDVDnet之前，我们对其进行了解马赛克处理（使用Hamilton-Adams解马赛克方法[30,29]）。因此，网络将去除解马赛克噪声。这样可以与第2节中提出的网络进行公平比较，因为网络在完整的输出分辨率上运行。事实上，训练FastDVDnet以在原始帧上操作并在之后进行解马赛克会导致结果明显更差。有关FastDVDnet在JDD上的不同变体，请参见补充材料。04. 数据集0为了进行定量比较，我们生成了一个合成的数据集，其中包含带有清晰的RGB基准的原始噪声视频。该数据集旨在模拟CRVD数据集[64]。后者由50个户外场景的真实噪声原始视频组成，这些视频是使用监控摄像头在五个ISO级别下获取的，我们将使用它们对真实数据进行视觉评估。对于我们的合成数据集，我们使用了来自sRGBREDS-120数据集[43]的序列，该数据集包含270个动态序列（分为240个训练序列和30个验证序列），这些序列是在白天条件下拍摄的户外场景，帧率为120FPS，大小为1280×720。我们将每个序列的帧率临时降低到40FPS。降低帧率后的序列每个有90帧。通过应用与[4]中相同的简单逆相机流水线（包括色调映射、伽马校正、颜色校正、白平衡和马赛克）将sRGB序列转换为原始域。我们将这种“去处理”方法调整为CRVD数据集。我们使用CRVD数据集的作者提供的CCM矩阵。我们按照[4]中的方法随机采样白平衡系数，并将它们在给定序列的所有帧中保持不变。然后，我们根据CRVD数据集估计的参数添加了一个异方差高斯噪声。噪声参数是使用Ponomarenko的噪声估计算法[8,48]估计的，该算法从图像中估计噪声水平曲线（强度、标准差）。该算法在CRVD数据集的所有帧上应用，使用给定的ISO。线性模型是通过在估计的噪声曲线上最小化最小二乘拟合来确定的。我们为CRVD中的五个ISO级别之一生成数据集：3200和12800。0稳定的数据集。REDS-120中的序列是由手持相机拍摄的，导致相机运动较大。虽然我们的网络依赖于外部光流进行显式运动补偿，但FastDVDnet不依赖光流。这是因为U-Net具有较大的感受野，应该能够在一定程度上隐式处理序列中的运动。为了简化FastDVDnet的工作，我们创建了数据集的第二个版本。51110C0解马赛克0解马赛克0解马赛克C0C0图2：RGB领域中的联合去噪和解马赛克。数据输入和输出表示为彩色圆角方块。小方块表示打包的原始帧，而大方块表示RGB帧。0使用离线视觉稳定算法[51,52]对运动进行稳定，减少相机运动并使其更可预测。05.训练细节0训练细节。在每个epoch的开始，我们从训练集的每个序列中加载10个连续帧的随机片段，同时加载光流、掩膜等。从这些时空体积中，我们定义了一组3D裁剪，步长为三个像素（空间和时间维度）。在整个epoch中，随机从这些裁剪集合中抽取小批量。裁剪的空间尺寸为272×272，帧数由网络和展开次数决定（例如，对于训练4次展开，我们需要5个连续帧用于循环JDD网络，如果使用未来帧，则需要6个连续帧）。去噪网络处理每个小批量的3D裁剪，并返回一个输出，可以是（a）非循环网络的单帧，或者（b）对于使用T次展开（T帧，加上第一次展开和最后一次展开的额外帧）训练的循环网络的T+2帧。我们使用AdamW优化器来更新权重，衰减参数为0.01。我们进行70个epoch，学习率固定，然后进行30个epoch，每个epoch线性减小到0。我们从学习率1.6e-4开始。0对于循环网络，损失是T次展开输出的L1损失的加权平均值。权重在训练过程中逐渐从第一次展开转移到最后一次展开。更多细节请参考补充材料。0FastDVDnet的训练细节。我们最初使用[57]中相同的超参数（学习率、块大小和批大小）训练了我们修改后的架构。然而，在测试时，得到的网络不稳定，在平坦区域产生非常高的输出值。我们通过移除批归一化[26]和调整超参数来解决这些问题，结果是块大小为68，批大小为2，学习率为10^-4。学习率在50个epoch后减小10倍，60个epoch后再次减小100倍。网络训练100个epoch，我们保留验证分数最高的网络。06.实验结果0在本节中，我们使用PSNR和SSIM作为度量标准来比较不同的模型。我们将验证数据集限制在模拟数据集的前五个序列上。网络的输出被转换为sRGB领域以进行可视化和评估PSNR/SSIM。我们应用白平衡、色彩矩阵。kRVD-basic + CDM [56]42.5438.9543.3838.96RVDD-basic44.7440.7343.9239.78RVDD-basic-WD44.5940.5943.8039.67RVDD-basic-DW44.3640.3343.5639.39sRGB PSNRsRGB SSIMφLt−1 ft+13.2k12.8k3.2k12.8kRVDD-basic✗✗37.9035.640.9610.938✓✗38.1235.720.9620.941✗✓38.1936.050.9620.943RVDD✓✓38.3736.260.9640.9465112027.10dB032.51dB036.95dB026.27dB031.99dB037.48dB027.10dB032.48dB036.98dB0GT噪声iso 3200原始+后处理演示RVDD0图3：我们的RVDD方法与原始去噪器跟随去马赛克网络[56]的比较。RVDD和原始去噪网络共享相同的架构。对两个结果都进行了后处理。最后一行增强了对比度。左下角的框中包含了整个帧的PSNR。0框架 RGB PSNR 原始PSNR0表1：我们合成数据集验证集中原始去噪器跟随去马赛克[56]和我们的JDD方法的线性RGB和原始领域的PSNR。忽略我们JDD方法中的预去马赛克，架构是相同的。我们计算JDD的结果时，先对其进行了重新马赛克处理以计算原始领域的PSNR。我们考虑了CRVD数据集中的两个ISO级别。最佳结果用粗体表示。0校正和伽马校正。我们使用了用于生成原始数据集的实际白平衡系数的倒数。在补充材料中，我们展示了线性RGB领域的PSNR/SSIM。0JDD与原始去噪和去马赛克的比较。我们首先评估联合去噪和去马赛克与首先对原始图像进行去噪然后再进行去马赛克的影响。在表1中，我们将我们的基线循环JDD网络RVDD-basic与原始去噪网络进行比较0表2：在我们合成数据集验证集中处理循环的不同框架（参见第2节）后的PSNR和SSIM（sRGB）。我们考虑了CRVD数据集中的两个ISO级别。最佳结果用粗体表示。0噪声跟随一个预训练的去马赛克网络[56]（我们使用[12]的实现）。对于原始去噪网络，我们通过去除输入的Hamilton-Adams去马赛克并直接输入打包的4通道原始帧来调整RVDD-basic网络。然后我们使用干净的原始真实值在损失中进行训练（而不是线性RGB）。我们将这个网络称为RVD-basic。与首先进行预训练去马赛克然后进行原始去噪的方法相比，JDD网络表现出更好的性能，即使原始去噪网络与JDD具有相似的架构（例如，相同数量的参数）。从架构的角度来看，主要的区别在于JDD网络在sRGB PSNRsRGB SSIMsRGB PSNRsRGB SSIM3.2k12.8k3.2k12.8k3.2k12.8k3.2k12.8kan-ourthe51130网络 W f t +1 训练于0非稳定版稳定版0FastDVDnet-JDD非稳定版。36.11 33.47 0.942 0.907 36.59 34.06 0.948 0.9170VDD � � 非稳定版。36.42 33.89 0.945 0.913 36.71 34.26 0.949 0.9210VDD � � 非稳定版。36.37 33.89 0.945 0.913 36.89 34.52 0.951 0.9230VDD � � 非稳定版。37.22 34.83 0.954 0.927 37.36 34.93 0.956 0.9310VDD � � 非稳定版。37.72 35.47 0.958 0.934 37.88 35.57 0.961 0.9380RVDD-basic � � 非稳定版。37.90 35.64 0.961 0.938 38.08 35.78 0.963 0.9420RVDD � � 非稳定版。38.37 36.26 0.964 0.946 38.39 36.37 0.966 0.9490FastDVDnet-JDD稳定版。35.53 32.76 0.937 0.897 36.92 34.57 0.952 0.9240VDD � � 稳定版。36.25 33.77 0.944 0.911 37.07 34.63 0.953 0.9250VDD � � 稳定 36.16 33.57 0.944 0.908 37.22 34.65 0.954 0.9260VDD � � 稳定 37.15 34.77 0.953 0.926 37.41 34.96 0.956 0.9310VDD � � 稳定 37.66 35.42 0.958 0.934 37.94 35.65 0.961 0.9390RVDD-basic � � 稳定 37.83 35.66 0.960 0.940 38.15 35.92 0.964 0.9440RVDD � � 稳定 38.29 36.22 0.963 0.945 38.63 36.50 0.967 0.9500表3：在我们的合成数据集的验证集上进行流水线处理（sRGB）后的PSNR和SSIM，比较了我们对FastDVDnet[57]的JDD适应性和我们网络的六个变体：两个循环-RVDD-basic和完整的RVDD，以及四个非循环网络标记为VDD：带/不带扭曲（W）和带/不带未来帧ft+1。0架构 sRGB PSNR sRGB SSIM03.2k 12.8k 3.2k 12.8k0RVDD-basic U-Net 37.90 35.64 0.961 0.9380RVDD-basic ConvNeXt U-Net 37.93 35.70 0.960 0.9410RVDD U-Net 38.37 36.26 0.964 0.9460RVDD ConvNeXt U-Net 38.56 36.62 0.964 0.9480表4：在我们的合成数据集的验证集上进行流水线处理（sRGB）后的PSNR和SSIM，包括标准U-Net和ConvNeXtU-Net。我们考虑了CRVD数据集中的两个ISO级别。最佳结果以粗体显示。0输入操作在RGB分辨率下进行，而原始去噪网络在原始领域中操作。特别是，JDD网络从帧t-1传播到t，输出和传播一个包含比原始图像多三倍信息的RGB图像ut-1。为了衡量这个方面的影响，我们在比较中添加了我们的JDD网络的两个降级版本，其中只传播原始帧uMt-1=Mut-1。其中一个模仿原始去噪网络RVD-basic中的时间传播，并在原始图像上应用扭曲。0uMt = F(D(Wt-1,tuMt-1), D(ft)). (5)0为了扭曲原始图像uMt-1，我们将其存储为打包的原始格式（即一个4通道W/2×H/2图像，每个通道包含Bayer模式的一个相位），并对每个通道进行扭曲。这并不理想，因为Bayer模式的相位是颜色通道的降采样版本，并且存在严重的混叠伪影。因此，我们还考虑了RVDD-basic的一个降级版本，其中我们对其进行了去马赛克处理。0扭曲之前的原始帧：0ut = F(Wt-1,tD(uMt-1), D(ft)). (6)0我们将前一种方法称为RVDD-basic-DW，将后一种方法称为RVDD-basic-WD。在扭曲之前传播原始和去马赛克会导致0.15dB的下降。尽管这不是一个可以忽略的下降，但它相当小。这可以在限制从一帧传递到下一帧的信息量的使用情况中利用。如预期的那样，在原始领域应用扭曲会导致约0.25dB的较大下降。0总的来说，传播和扭曲原始帧占了基线JDDRVDD-basic和原始去噪RVD-basic之间2.2 dB差距中的0.4dB。因此，大部分差异来自于在RGB领域中的工作和端到端训练。0有趣的是，性能的提升不仅仅来自于通过去马赛克处理的2/3像素值。表1还显示了原始PSNR，通过将马赛克RGB输出M与干净的原始uMt进行比较得到。RVDD-basicJDD网络的性能明显更高，这表明在RGB分辨率下工作并训练RGB重建也有助于原始去噪任务。0在图3中，我们展示了我们的JDD方法与原始去噪器后面的去马赛克网络之间的比较。JDD结果具有更好的细节恢复和更少的颜色去马赛克伪影。5114021.14dB034.26dB034.97dB021.59dB035.49dB036.11dB021.70dB037.39dB038.09dB021.59dB037.19dB037.80dB0GT噪声ISO12800 RVDD-basic RVDD0图4：我们方法的结果。我们提供了处理时间信息的两个框架：仅在先前帧上进行循环（RVDD-basic），或在先前帧和特征上进行循环，并使用未来帧（RVDD）。0消融研究。在表2中，我们展示了在我们的数据集上使用不同输入对RVDD网络的影响，该数据集具有两个ISO级别。添加特征表示φLt-1分别为低ISO和高ISO贡献了0.25dB和0.3dB。这是有道理的：特征图具有C个通道，可以用来给出每个像素的空间邻域的更丰富的表示。然而，最大的改进来自于添加未来的原始帧ft+1：与基线RVDD-basic相比，它在ISO 3200和ISO12800（在线性RGB领域）上分别提供了0.3dB和0.4dB的增益。当我们同时添加特征循环和未来帧时，获得的最佳结果是与基线相比分别为小ISO和最高ISO的增益为0.47dB和0.62dB。在图4中，我们将基线（仅帧循环）和最佳配置（帧和特征循环以及使用未来帧）的结果进行了比较。我们可以看到，完整的RVDD能够恢复更多细节。0与其他方法的比较。在表3中，我们将我们的方法与第3节中描述的FastDVDnetJDD进行了比较。FastDVDnet的一个吸引人的特点是它不需要运动估计。然而，REDS数据集包含相机抖动，这对FastDVDnet不利。因此，我们还考虑了我们数据集的稳定版本。这是一个实际的用例，因为大多数移动相机都能够执行某种形式的运动稳定。这将使我们能够评估运动稳定对不同方法性能的影响。此外，我们还可以测试在具有不同运动统计的数据集之间的泛化能力。由于FastDVDnet不是循环网络，我们在比较中包括了我们网络的四个非循环版本：带有和不带有变形（在表3中用W表示），以及带有和不带有未来帧ft+1。我们将这些非循环变体称为VDD。最后，我们将RVDD-basic作为循环基线添加到比较中。在PSNR和SSIM方面，最佳结果由51150使用运动补偿的网络，适用于稳定和非稳定的数据集。在所有情况下，循环RVDD的性能最好，除了从非稳定数据集推广到稳定数据集时。值得注意的是，仅使用两个输入帧（当前帧ft和运动补偿的先前输出帧Wt-1，t-ut-1）的RVDD-basic的性能比具有三个运动补偿输入帧的非循环VDD网络要好（约为0.2dB）。这显示了帧循环在聚合时间信息方面的影响。与没有未来帧的VDD相比，差异增加到0.7dB。没有运动补偿的网络在两个数据集中一直表现较差，尽管预期在非稳定数据集上的性能差距更大。在非稳定数据集上，没有运动补偿的最佳网络与具有运动补偿的最差网络之间的差距为1dB，而在稳定数据集上为0.3dB。对于VDD网络，运动补偿允许在添加未来帧ft+1到输入时更好地利用额外的时间信息。在所有情况下，运动补偿的PSNR增益在0.5dB到0.7dB之间。没有运动补偿时，在稳定数据集上仍然有约0.2dB的小增益，但在非稳定数据集上没有增益，事实上，可能会损失约0.2dB。最后，我们还可以评估网络在运动统计变化下的泛化能力。为此，我们比较在数据集A上由数据集A训练的网络与在数据集B上训练的相同网络所达到的性能。在运动补偿的情况下，这种泛化差距在0.05dB到0.07dB之间，无论泛化的方向如何（从稳定到非稳定或反之亦然）。唯一的例外是完整的RVDD，它在从非稳定到稳定数据集的泛化差距更大（0.24dB和0.13dB，具体取决于ISO）。没有运动补偿的网络的泛化差距更大。在非稳定数据集上，FastDVDnet-JDD的泛化差距最大：0.58dB。这是可以理解的：当补偿运动时，我们正在消除数据集中的运动。0改进的架构。我们测试了一种考虑到卷积架构设计的最新改进的U-Net。我们将其称为ConvNeXtU-Net。它与原始的U-Net[49]具有相同的结构，但有四个主要区别：（1）3×3的卷积接ReLU被ConvNeXt块[38]所取代（详见补充材料）。（2）在每个下采样和上采样操作之后插入一个ConvNeXt块。（3）使用三个下采样/上采样操作，而不是四个。（4）在网络末端，增加了两个额外的ConvNeXt块。0在最细粒度上添加了残差块。这种新的架构不增加FLOPS的数量，并且已被证明对于分类非常表达力[38]。此外，使用了LayerScale[58]，其起始值为0.1。令人惊讶的是，尽管我们发现批量归一化[26]对我们的任务上的U-Net的性能有害，但我们发现LayerNorm确实有积极影响。关于LayerScale，我们注意到初始值太小会导致收敛时间更长。我们在基线RVDD-basic和完整网络RVDD上比较了两个U-Net。对于基线，两种架构达到了相同的性能。然而，使用ConvNeXtU-Net的训练速度要快得多（大约30个epoch对比第一种架构的100个epoch）。在我们的验证数据集上，对于这两种架构，每个epoch的PSNR的比较图表可以在补充材料中找到。对于完整的RVDD网络，ConvNeXt U-Net在ISO3200上获得了0.2dB的增益，在ISO12800上获得了0.36dB的增益。表4总结了这些结果。0真实原始视频。在图1中，我们展示了在CRVD数据集上对ISO12800的真实原始视频的结果。提出的RVDD恢复了更多的细节并且更加清晰。更多结果可以在补充材料中找到。07. 结论0在这项工作中，我们首次将神经网络应用于视频联合去噪和去马赛克问题。虽然与图像和爆发式JDD相关，但视频的情况有着显著的差异，并且足够重要以至于值得单独处理。特别是，与爆发式相比，递归神经网络更适合视频。我们提出了一个基本的基线网络：U-Net，其中不同的输入被连接在一起，并且我们评估了不同的配置：输入不同数量的帧，帧递归，特征递归和非递归，是否进行运动补偿等。此外，我们探索了一种将最先进的视频去噪网络FastDVDnet适应于JDD的方法，并将其性能与基线U-Net的性能进行了比较。递归U-Net获得了最佳结果，为视频联合去噪和去马赛克提供了强大的基线。该方法的主要局限性在于其对光流的依赖性。正在进行的工作集中在改善这一方面。致谢部分由Office of Naval research grantN00014-17-1-2552和MENRT部分资助。本工作使用GENCI-IDRIS（grant2022-AD011011801R2）和CentraleSupélec和ENSParis-Saclay的“Mésocentre”计算中心的HPC资源进行。该计算中心由CNRS和RégionÎle-de-France支持（http://mesocentre.centralesupelec.fr/）。[2] Goutam Bhat,Martin Danelljan,Radu Timofte,Yizhen Cao, Yuntian Cao, Meiya Chen, Xihao Chen,Shen Cheng, Akshay Dudhane, Haoqiang Fan, et al.Ntire 2022 burst super-resolution challenge. In Pro-ceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition, pages 1041–1061,2022.51160参考文献0[1] Pablo Arias和Jean-Michel Morel. Kalman filter- ingof patches for frame-recursive video denoising. InThe IEEE Conference on Computer Vision and PatternRecognition Workshops (CVPRW) , June 2019.0[3] Goutam Bhat, Martin Danelljan, Fisher Yu, Luc VanGool, and Radu Timofte.多帧超分辨率和去噪的深度重参数化。《IEEE/CVF国际计算机视觉会议论文集》，页2460–2470，2021年。0[4] Tim Brooks, Ben Mildenhall, Tianfan Xue, JiawenChen, Dillon Sharlet, and Jonathan T Barron.通过学习的原始去噪来还原图像。《IEEE/CVF计算机视觉与模式识别会议

下载后可阅读完整内容，剩余1页未读，立即下载