动态场景视频去噪中的原始视频信号处理

195 浏览量更新于2023-10-23 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2301基于Benchmark数据集的动态场景监督式原始视频去噪天津大学电气与信息工程学院{huanjing.yue，caocong 123，leolei，chu rh，yjy}@tju.edu.cnhttps://github.com/cao-cong/RViDeNet摘要近年来，有监督学习策略在实际含噪图像去噪中不断涌现，并取得了可喜的成果。相比之下，由于缺乏动态场景的噪声-干净对，很少研究原始噪声视频的真实噪声去除。动态场景的干净视频帧不能像静态图像那样用长曝光快门或平均多个镜头来捕获在本文中，我们解决了这个问题，通过创建运动的可控对象，如玩具，并捕捉每个静态时刻多次生成干净的视频帧。通过这种方式，我们构建了一个具有55组噪声-干净视频的数据集据我们所知，这是第一个具有噪声-干净对的动态视频数据集。相应地，我们提出了一个原始视频去噪网络（RViDeNet），通过探索视频帧的时间，空间和通道相关性。由于原始视频具有Bayer模式，我们将其打包成四个子序列，即RGBG序列，它们分别由建议的RViDeNet去噪，最后融合成一个干净的视频。此外，我们的网络不仅输出原始去噪结果，还通过图像信号处理（ISP）模块输出sRGB结果，这使用户能够使用他们最喜欢的ISP生成sRGB结果实验结果表明，我们的方法优于国家的最先进的视频和原始图像去噪算法在室内和室外视频。1. 介绍在高ISO设置的低光照条件下拍摄视频将不可避免地引入大量噪音[8]，这会大大降低视觉质量并影响对这些视频的后续分析因此，视频去噪对于提高低光照视频的质量至关重要。这项工作得到了国家自然科学基金 61672378 、 61771339 和61520106002的部分资助。通讯作者：杨靖宇。然而，由于非线性图像信号处理（ISP），例如去马赛克，白平衡和颜色校正，sRGB域中的噪声比高斯噪声更复杂[28]。因此，高斯噪声去除方法不能直接用于实际噪声去除[39，41，40]。另一方面，卷积神经网络（CNN）使我们能够学习噪声图像和干净图像之间的复杂映射。因此，近年来，许多基于CNN的真实噪声去除方法已经融合[4，19，45]。这些方法通常首先构建噪声-干净图像对，其中噪声图像在高ISO模式下以短曝光捕获，而干净图像是同一场景的多个噪声图像的平均值。然后，他们设计了复杂的网络来学习噪声图像和干净图像之间的映射。由于这种图像对的准备是繁琐的，一些方法建议利用合成数据和真实数据来训练网络[19，9]。相比之下，原始域中的噪声统计，即，来自图像传感器的直接读数比sRGB域中的读数简单。此外，原始数据包含最原始的信息，因为它不受以下ISP的影响因此，直接对原始数据执行去噪是有吸引力的。相应地，通过捕获短曝光原始噪声图像和长曝光干净原始图像，为原始图像去噪构建了许多数据集[1，29，3，7]。然而，仍然没有为原始格式的嘈杂和干净的视频构建数据集，因为我们无法在不使用长曝光模式或平均多个瞬间的情况下记录动态场景。因此，针对原始图像的去噪提出了很多方法，但原始视频的去噪相对滞后。最近，Chen等人。 [8]提出通过捕获具有静态噪声和干净图像序列的数据集来执行原始视频去噪然而，利用静态序列来训练视频增强网络并没有利用相邻帧之间的时间相关性，并且它依赖于成熟的视频去噪2302VBM4D方案[24]以去除噪声。基于上述观察，我们建议在原始域中进行视频去噪，并相应地构建具有动态场景的噪声干净帧的数据集。本文的主要贡献有三点。首先，我们构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉这一瞬间，我们手动创建物体的运动-S.对于每个时刻，在高ISO模式下捕获噪声帧，并且通过对多个噪声帧进行平均来获得对应的干净帧。通过这种方式，我们捕获了55组ISO值范围从1600到25600的动态无噪视频。该数据集不仅使我们能够在去噪中利用时间相关性，而且还能够对真实噪声视频进行定量评估。其次，我们提出了一个有效的原始视频去噪网络（RViDeNet），通过探索非局部空间，通道和时间的相关性。由于噪声输入是由拜耳模式表征的，我们将其分成四个分离的序列，即，RGBG序列，分别经过预去噪、对齐、非局部注意和时间融合模块，然后通过空间融合重建无噪声版本。第三，我们的网络不仅输出原始的去噪结果，还通过ISP模块输出RGB结果。通过这种方式，我们的方法使用户能够自适应地生成具有他们喜欢的ISP的sRGB结果。实验结果表明，我们的方法优于国家的最先进的视频去噪和原始图像去噪算法在原始和sRGB域捕获的室内和室外视频。2. 相关工作在本节中，我们简要回顾了视频去噪、原始数据的图像和视频处理以及含噪图像和视频数据集的相关工作2.1. 视频去噪在文献中，大多数视频去噪方法被设计用于高斯噪声去除[24，21，6]。其中，VBM4D是基准去噪方法[24]。最近，基于深度学习的视频去噪方法正在兴起。Chen等人。 [10]首先提出将递归神经网络应用于sRGB域中的视频去噪。然而，性能低于基准去噪方法VBM4D。此后，Xue等人。 [43]提出了一种面向任务的流程（ToF），通过CNN对齐帧，然后执行以下去噪任务。最近提出的ViDeNN [11]依次执行空间去噪和时间去噪，并获得比VBM4D更好的Tassano等人提出了DVDNet [33]和它的快速版本，称为FastDVDnet [34]，没有显式运动估计，以低计算复杂度处理高斯噪声去除。然而，这些方法通常是针对高斯噪声或合成噪声去除而设计的，而没有考虑在弱光捕获条件下产生的复杂真实噪声。据我们所知，只有[8]中的工作涉及视频的真实噪声去除。然而，它们的训练数据库仅包含静态序列，这对于探索动态序列的时间相关性是在这项工作中，我们构建了一个动态噪声视频数据集，并相应地提出了一个RViDeNet充分利用空间，通道和时间的相关性。2.2. 使用原始数据进行图像和视频处理由于视觉信息通过复杂的ISP生成最终的sRGB图像，因此原始域中的图像包含最多的视觉信息，并且噪声比sRGB域中的图像简单。因此，提出了许多工作来处理原始域中的图像处理。通过几个构建的原始图像去噪数据集[3，1，29，7]，原始图像去噪方法引起了广泛关注[17，7]。除了这些数据集，Brooks等人。 [5]提出了一种有效的方法来取消处理sRG，B图像还原为原始图像，并在DND数据集上取得了较好的去噪效果. NTIRE 2019 RealImage Denoising Challenge的获胜者提出了一种用于原始图像去噪的Bayer保留增强方法，并取得了最先进的去噪结果[23]。除了去噪之外，原始传感器数据还用于其他图像恢复任务，例如图像超分辨率[42，46]，联合恢复和增强[30，32，22]。这些工作还表明，直接处理原始图像可以产生比处理sRGB图像更有吸引力的结果。然而，视频很少在原始域中处理最近，Chen等人。[8]提出通过将原始帧映射到sRGB帧来执行视频去噪，其中静态帧作为训练数据。与之不同的是，我们建议通过将原始数据映射到原始和 sRGB 输出来训练RViDeNet，这可以为不同的用户生成灵活的结果。2.3. 噪声图像和视频数据集由于训练数据对于真实感噪声去除至关重要，许多工作集中在噪声-清洁图像对的构造上。有两种策略可以生成干净的图像。一种方法是通过对一个静态场景的多个帧进行平均来生成无噪声图像，并且所有图像都由具有固定设置的固定相机捕获[28，45，38，1]。这样，干净的图像具有与噪声图像相似的亮度。[28，45，38]中的噪声图像以sRGB格式保存另一个策略-2303gy在低/高ISO设置下捕获静态场景，并使用低ISO图像作为有噪声的高ISO图像的基础事实，例如RENOIR数据集[3]，DND数据集[29]和SID数据集[7]。RENOIR，DND，SIDD [1]和SID中的图像都是以原始格式捕获的，并且根据一些图像ISP模块合成sRGB图像。最近，[8]中的工作为静态场景构建了一个噪声-清洁数据集，其中一个清洁帧对应于多个噪声帧。据我们所知，仍然没有噪声干净的视频数据集，因为不可能在不引入模糊伪影的情况下捕获具有长曝光或多个镜头的动态在这项工作中，我们通过手动创建对象的运动来解决这个问题。通过这种方式，我们可以多次捕获每个动作，并通过平均这些镜头来产生干净的帧。3. 原始视频数据集3.1. 捕获的原始视频数据集由于没有真实的噪声干净的视频数据集，我们收集了一个原始的视频去噪数据集，以方便相关的研究。我们使用了一个监控摄像头与传感器IMX385，这是能够连续捕捉每秒20个原始帧。Bayer图像的分辨率为1920×1080。最大的挑战是如何同时捕捉有噪声的视频和对应的干净的动态场景。使用低ISO和高曝光时间捕捉干净的动态视频为了解决这个问题，我们建议捕捉可控对象，如玩具，并手动为他们做运动。对于每个运动，我们连续捕获M个噪声帧。M帧的平均是地面实况（GT）无噪声帧。我们不使用长曝光来捕获GT无噪声帧，因为这将使GT帧和噪声帧具有不同的亮度。然后，我们移动对象并再次保持静止以捕获下一个噪声干净的配对帧。最后，我们根据它们的时间顺序将所有的单帧分组在一起，以生成含噪视频和其对应的干净视频。我们在1600到25600的5个不同ISO级别下拍摄了11个不同的室内场景。不同的ISO设置用于捕捉不同级别的噪音。对于每个视频，我们捕获了七帧。图1呈现了在ISO 25600下捕获的视频的第二、第三和第四帧。可以观察到，这段视频记录了玩偶的爬行当捕获连续M帧时，我们的相机被固定到三脚架上，因此捕获的帧被很好地对准。由于更高的ISO会引入更多的噪音，因此我们在ISO为25600时捕获了500帧进行平均。我们注意到，在汽车熄火后仍有轻微的噪音老化噪声帧，我们进一步将BM 3D [12]应用于平均帧以获得完全干净的地面实况。我们捕获的噪声-干净数据集的详细信息在补充材料中列出。这些捕获的噪声-干净的视频不仅能够进行监督训练，而且还能够进行定量评估。由于难以控制室外对象，因此上述噪声-干净视频捕获方法仅应用于室内场景。捕获的11个室内场景被分成训练和验证集（6个场景）和测试集（5个场景）。我们使用训练集来微调我们的模型，该模型已经在合成原始视频数据集上进行了预训练（详见下一节），并使用测试集来测试我们的模型。我们还在不同ISO水平下拍摄了另外50个户外动态视频，以进一步测试我们的训练模型。图1.在ISO 25600下捕获的无噪声视频的样本帧。从左到右，它们分别是视频中的第2、第3和第4帧。从上到下，每行分别列出原始噪声视频、原始干净视频、sRGB噪声视频和sRGB干净视频。彩色视频是使用我们预先训练的ISP模块从原始视频生成的3.2. 合成的原始视频数据集由于很难捕捉各种运动对象的视频，我们进一步建议合成嘈杂的视频作为补充训练数据。我们从MOTChallenge数据集[25]中选择了四个视频，其中包含场景运动，相机运动或两者兼而有之。这些视频是sRGB视频，每个视频都有数百帧。我们首先利用[5]中提出的图像未处理方法将这些sRGB视频转换为原始视频，这些原始视频用作地面真实干净视频。然后，我们添加噪声以创建相应的噪声原始视频。如[26，15]所示，原始域中的噪声包含由泊松噪声建模的散粒噪声和由高斯噪声建模的这个过程是公式化的-2304SR不不[t-N：t+N]图2.建议的RViDeNet的框架。该算法将输入的含噪序列按照Bayer模式打包成4个子序列，分别经过对齐、非局部注意和时间融合模块，最后通过空间融合融合得到一个干净的帧。使用下面的ISP模块，也会产生sRGB域中的去噪结果。分类为xp<$σ2P（yp/σ2）+N（0，σ2）（1）示于图2）。受[35]中视频恢复工作的启发，我们利用可变形卷积[13]来对齐s s r其中xp是噪声观测，yp是像素p处的真实强度。σr和σs是读取噪声和散粒噪声的参数，随传感器增益（ISO）的变化而在图像间变化。第一项表示具有均值yp和方差σ2yp的泊松分布。第二项表示高斯分布分布为零均值和方差σ2。与文献[26]不同的是，我们对噪声参数进行了对于给定的相机，通过捕获平场帧1和偏置帧2。平场帧是当传感器被均匀照明时捕获的图像。捕获平场帧比捕获许多帧来估计σs更快，这是[14]中使用的策略。将相机调整到特定的ISO，我们只需要在不同的曝光时间下在均匀照明的墙壁然后，我们根据校正方差计算估计的信号强度以确定σs。偏置帧是在完全黑暗的环境下拍摄的图像。由于偏置帧中没有散粒噪声，我们用它们来估计σr3.4. 该方法给定一组连续帧（本工作中为三帧），我们的目标是通过探索中间帧内部的空间相关性和相邻帧之间的时间相关性来恢复中间帧图 2 展示了所提出的RViDeNet的框架。由于所捕获的原始帧的特征在于Bayer模式，即，滤色器阵列图案，我们建议将每个原始帧分割成四个子帧，以使相邻的输入帧，而不是像[43]中那样使用显式流信息。然后，在时域上对对齐的特征进行融合。最后，我们利用空间融合模块重建原始结果。经过ISP模块，我们可以获得sRGB输出。在下文中，我们将详细介绍这些模块。4.1. 预去噪和打包如[8]中所示，噪声将严重干扰密集对应的预测，这是视频的许多突发图像去噪方法[27，18]的关键模块。然而，我们发现使用设计良好的预去噪模块可以使我们能够估计密集的对应。在这项工作中，我们训练了一个基于单帧的去噪网络，即。U-Net [31]，具有合成的原始噪声-清洁图像对，用作预去噪模块。我们使用来自SID [7]数据集的230个干净的原始图像，并使用第2节中描述的方法合成大小的噪声3.2创建噪声-干净对。注意，原始图像中的不同颜色通道的像素根据拜耳模式（即，每个像素的最相似像素不是其最近邻，而是其次最近邻。因此，我们提出将噪声帧In打包成四个通道，即RGBG通道，以使空间上相邻的像素具有相似的强度。然后，这些打包的子帧经过U网和逆打包过程以生成预去噪结果，即，Id.对于视频去噪，我们的输入是2N+1连续的使像素是相同滤色器的滤波结果（如帧，即In. 我们提取RGBG子帧1https://en.wikipedia.org/wiki/Flat-field更正2https://en.wikipedia.org/wiki/Bias框架3技术细节见补充材料。从每一个全分辨率帧。然后，我们将每个信道的所有子帧级联以形成子序列。这样，我们得到四个噪声序列和四个去噪声序列。2305t+It+It+I不电话+1t−1不t+I不不不t+It+It+It+It+It+I噪声序列，并且它们用于比对模块。在下文中，在没有具体说明的情况下，我们仍然n[t-N：t+N] 来代表重组后的序列nR[t-N：t+N]nG1[t-N：t+N]nB[t-N：t+N]nG2[t-N：t+N] 为简单性，因为以下操作对于四个序列。4.2. 对准对齐模块的目的是对齐相邻帧的特征，即，将第（t+i）帧的第一帧的第二帧的第二帧的第一帧的第二帧的第二帧的第一帧的第二帧的第二帧的第三帧的第三帧的第四帧的第五帧的第六帧的第五帧的第六帧的第五帧的第第t帧，其通过可变形卷积实现[13]。对于具有k个位置的可变形卷积核，我们利用wk和pk来表示第k个位置的权重和预先指定的偏移的图3.预去噪结果引导的含噪帧对齐对齐特征Fn在位置p0处，可以通过module.为了简单起见，我们只呈现金字塔处理有两个层次。特征提取过程共享权重。ˆnt+I（p0）=ΣKk=1wk·Fn（p0+pk+△pk）·△mk，（2）通过利用在（F）和（D）之间计算的f集进行细化）1其中Fn是从噪声图像中提取的特征和（Fd）1，并产生最终对准结果Fna。t+Itt+int+i .由于噪声会干扰偏移估计过程，在两个相邻帧的对齐之后，我们cess，我们利用去噪版本来估计偏移量-S.即从级联特征预测可学习偏移量△pk和调制标量△mk获得T×C×H×W特征，其中包含原始从In中提取的中心帧特征，以及来自In和In的对齐特征。Dt+I，Fd]通过由几个卷积构造的网络层，即{△p}t+i=f（[Fd，Fd]），（3）4.3. 非本地注意基于DConv的对齐实际上是聚合其中f是映射函数，并且Fd是从去噪图像I d中提取的特征。为简便起见，我们在图中和解算中略去了△ mk的计算过程.与[35]类似，我们利用金字塔处理和cas-cading细化来处理大的运动。在本文中，我们利用三级金字塔处理。为了简单起见，Fig.图3呈现了金字塔处理，非局部相似特征。为了进一步增强聚合过程，我们建议利用广泛用于语义分割的非局部注意力模块[20，16，36]来加强特征表示。由于3D非局部注意力消耗巨大的成本，我们利用分离的注意力模块[16]。具体来说，我们利用空间注意力，通道注意力，和时间注意力聚合的长期功能。然后，空间，改变-两个层次。特征（Fd ，Fd）和（Fn ，Fn）是nel和时间增强功能通过t+1t t +1t通过步长为2的步幅卷积进行下采样以形成L级特征金字塔。然后，从第l级计算偏移，并且将偏移上采样到下一个第（l-1）级。从上采样的偏移和第l个特征两者计算第l个级别中的偏移该过程表示为元素求和原始输入也被添加通过残余连接。请注意，为了减少计算和内存成本，我们利用交叉注意力[20]来实现空间注意力。该模块如图所示。4.第一章{△p}l=f（[（F d）l，（F d）l]，（{△p}l+1）↑2）.（四）4.4. 时间融合t+It+itt+I相应地，噪声输入和去噪输入的对齐特征通过以下方式获得：即使我们已经将相邻帧虽然这些对齐的相邻帧与中心帧的特征不同，但这些对齐的相邻帧仍然对图像的去噪有不同的贡献ˆnt+Idt+I）l=g（DConv（（Fn）l=g（DConv（（Fd）l，{△p}l）l，{△p}l），（（Fn），（（Fd（1+ 1）↑2），（1+ 1）↑2），（五）由于遮挡和对准误差，因此，我们采用[35]中提出的逐元素时间融合策略来自适应地融合这些特征。邻居的特征之间的时间相似性利用I我，我我我F我[F（F）（F）2306t+I其中DConv是E中描述的可变形卷积Q. 2和g是由几个控制实现的映射函数。通过相同位置处的特征的点积来计算帧。然后，相似性被限制为[0，1]，解决方案层。Lle els对齐后，（Fn（1）进一步sigmoid函数此后，特征被加权2307不不不t+I不不不t t t t tt不t t t t ttt−1tt+1图4.非局部注意力模块。绿色，蓝色，传统的ISP管道，如DCRaw4和Adobe Camera Raw5。同时生成raw和sRGB输出为用户提供了更大的灵活性来选择他们喜欢的图像。4.7.损失函数我们的损失函数由重建损失和时间一致性损失组成重建损失将原始域和sRGB域中的恢复图像约束为与地面实况相似。对于时间一致性损失，受[8]的启发，我们为It选择四个不同的噪声图像，并利用前三个帧生成去噪结果Or a w1，然后利用后三个帧生成去噪结果Or a w2。因为Oraw1和Oraw2corr-t t t橙色模块表示空间、通道和时间属性，分别。通过与相似性的元素相乘，产生加权特征Fn ，即响应相同的干净帧Iraw，我们约束它们彼此相似，并且与Iraw相似。与[8]不同的是，我们直接在像素域而不是VGG特征域执行损失函数我们的损失函数被公式化为芬 =F<$na<$S（F<$na，F<$na），（6）t+It+It+itL=Lrec+λLtmp，其中，f表示逐元素乘法，S表示计算的相似性图，Fna是对齐的Lrec=Iraw−Oraw1+βIsRGB−OsRGB1，生鱼片1 生鱼片2（七）不非局部注意后的帧t利用额外的卷积层来聚合这些级联的加权特征，这些特征通过金字塔处理进一步通过空间关注度进行加权 [35] 。在时间融合之后，特征再次被压缩到1×C×H×W。4.5. 空间融合在对四个子帧序列进行时间融合来自时间融合模块的特征FR、FG1、FB和FG2Ltmp=Ot−Ot1，+γ（Ira w−O<$ra w1<$1+Ira w−O<$raw2<$1），其中Oraw（OsRGB）是连续噪声输入[In，In，In]的原始（sRGB）域中的第t个去噪帧。λ、β和γ是加权参数-S. 在训练阶段，我们的网络首先使用合成噪声序列。我们通过设置λ=0和β=0来禁用时间一致性损失，因为最小化Ltmp是耗时的。然后，我们用捕获的数据集微调网络在该阶段，λ、β和γ被设置为1、0.5、0.1分别注意，时间一致性损失是FUSFUSFUSFUS仅适用于原始域中的去噪结果，连接在一起，然后通过空间融合网络空间融合网络由10个残差块、一个用于增强特征表示的CBAM [37]模块和一个用于预测大小为4×H×W的噪声的卷积层构成。除最后一个输出卷积层外，其他卷积层都有4×C个输出通道。此后，四个通道中的估计噪声经由逆打包过程被重新组装成全分辨率拜耳图像。最后，通过将估计的噪声与原始的带噪输入In相加，我们得到大小为1×2H×2W的原始去噪结果Oraw。4.6. 图像信号处理（ISP）我们进一步将U-Net [31]作为ISP模型进行预训练，以将Oraw转换为sRGB图像ORGB。我们选择230清洁时间损失倾向于平滑图像。同时，将重建损失应用于原始和sRGB去噪结果。虽然在训练去噪网络之前预先训练的ISP的参数是固定的，但是这种策略有利于提高sRGB域中的重建5. 实验5.1. 培训详细信息信道号C被设置为16，并且连续帧号T被设置为3。卷积滤波器的大小为3×3，金字塔处理中的上采样过程采用双线性上采样实现。我们的前-t t去噪网络以学习率1 e-4训练，并且来自SID数据集[7]的原始和sRGB对，用于训练ISP模型通过改变训练对，我们可以模拟不同相机的ISP此外，ISP模块还可以4https://dcraw.en.softonic.com/5https://helpx.adobe.com/camera-raw/using/supported-cameras.html2308图5.在ISO 25600下拍摄的一个室内场景（第4帧）的视觉质量比较放大以便更好地观察。在700个纪元后收敛。我们的ISP网络以1 e-4的学习率进行预训练，并在770个epoch后收敛。这两个网络在训练建议的RViDeNN期间是固定的。表2.原始域处理、打包、预去噪和非局部注意模块的消融研究。PSNR（或SSIM）结果是在从1600到25600的不同ISO设置下对所有测试视频的平均结果。原始域×C C C C我们通过以下方式预处理合成和捕获的原始数据：包装××CCC黑电平减法和白电平归一化。我们预去噪×××CC用这些处理过的原始数据训练网络期间非本地关注××××C训练时，补丁大小设置为256×256（即子序列中的H=W=128），批次大小设置为1。我们首先使用学习率为1 e-4的合成数据来训练我们的网络在33个epoch之后，我们用捕获的视频微调网络，学习率设置为1 e-6，空间融合模块设置为1 e-5。经过100个epoch，整个网络收敛。该模型在PyTorch中实现，并使用NVIDIA2080 TI GPU进行训练。5.2. 消融研究在本节中，我们进行消融研究，以证明所提出的原始域处理，原始输入的打包策略，预去噪结果引导对齐以及我们网络中的非局部注意力模块表2列出了通过逐个删除这些模块获得的捕获测试集中的定量比较结果。可以观察到，与直接处理有噪声的原始视频相比，sRGB域中的PSNR值降低超过1dB。通过将打包策略结合到原始去噪中，即，对RGBG子序列分别处理，在最后阶段进行合并，去噪性能与解包版本几乎相同。然而，由于我们只为每个子序列提取16个通道特征，而解包版本提取64个通道特征，因此参数大大通过进一步引入预去噪引导对齐模块和非局部注意模块，sRGB域中的P-SNR值提高了0.26 dB。原始峰值信噪比-43.8443.8443.8843.97SSIM-0.98660.98660.98710.9874PSNR38.5839.6939.6939.8039.95sRGBSSIM0.97030.97760.97780.97850.97925.3. 与现有技术方法的为了证明所提出的去噪策略的有效性，我们与最先进的视频去噪方法，即。 VBM4D [24] ， TOFLow[43]，ViDeNN [11]和SMD [8]，视频恢复方法EDVR[35]和原始图像去噪方法DIDN [44]，这是NTIRE 2019挑战赛的第二名[2]真实图像去噪。我们调整VBM4D的噪声水平，以生成最佳的去噪结果。由于TOFLow和EDVR是为sRGB视频设计的，我们使用sRGB噪声-干净视频对重新训练这两个网络。由于ViDeNN是一种盲去噪方法，并且没有可用的训练代码，因此我们直接使用其发布的模型。我们给出了SMD的两个结果.第一个结果是用他们的预训练模型生成的，我们的原始图像是用他们的设置预处理的。为了在全分辨率上与我们的方法进行比较，我们没有使用SMD中的面元处理，而是使用了广泛使用的去马赛克处理[5]对SMD的数据集进行预处理。第二个结果是通过用我们的数据集6重新训练SMD（表示为SMD*）生成的。在再培训期间，我们删除VBM 4D预-6由于我们在生成地面真值帧时使用了多个镜头，因此同一静态场景也有多个噪声图像。2309表1.与最先进的去噪方法进行比较。每行列出了25个室内视频在原始（或sRGB）域中的平均去噪结果。我们的-是通过仅使用合成数据集训练模型生成的结果。最好的结果以粗体突出显示，第二好的结果加下划线。嘈杂[第11话]VBM4D [24]TOFlow [43]SMD [8]SMD*EDVR [35]DIDN [44]我们的-我们原PSNR32.01------43.2543.3743.97SSIM0.732------0.9840.9850.987sRGBPSNR31.7931.4834.1634.8126.2635.8738.9738.8339.1939.95SSIM0.7520.8260.9220.9210.9120.9570.9720.9740.9750.979进行公平比较。在补充资料中，我们也给出了用VBM4D作预处理的再训练SMD结果DIDN使用我们的噪声-干净图像对进行重新训练，其sRGB结果使用我们预先训练的ISP模块生成。我们评估这些方法在25个室内测试视频GT和50个室外测试视频没有GT。表1列出了25个室内视频的平均去噪结果。只有DIDN和我们的方法可以产生原始和sRGB结果。可以观察到，我们的方法大大优于在s-RGB域上进行的去噪方法ViDeNN没有使用我们的数据集进行重新训练，他们的预训练模型无法处理在非常高的ISO值下捕获的真实噪声。由于原始的S-MD是用不同的数据集训练的，因此其结果具有较大的色偏，这导致较低的PSNR值。与同样采用对准和融合策略的EDVR相比，我们的方法获得了近1dB的增益。与DIDN相比，我们的方法在原始域和sRGB域分别获得了0.72 dB和 1.12 dB的增益我们还给出了仅用合成数据集训练产生的结果，记为Ours-。我们的-仍然优于DIDN和EDVR。实验结果表明，该噪声合成方法是有效的，预训练模块可以很好地从高FPS室外场景推广到低FPS室内场景。图5呈现了在ISO 25600下捕获的一个室内场景的视觉比较结果。可以观察到，我们的方法清楚地去除了噪声，并恢复了最细粒度的细节。VBM 4D、TOFlow和ViDeN-N都不能很好地去除噪声。SMD*、DIDN和EDVR的结果有点平滑。图6呈现了室外去噪结果。由于页数限制，我们仅提供SMD*、EDVR和DIDN的比较。可以观察到EDVR和DIDN的结果过于平滑。恢复的内容在DIDN的相邻帧之间不一致，因为它是基于单个图像的去噪方法。相比之下，我们的方法重新移动噪声清楚地恢复时间一致的纹理。由于户外视频没有地面实况，我们还进行了用户研究，以评估我们的户外数据集的去噪补充材料中提供了用户研究结果和视频去噪结果的演示图6.来自一个室外场景的两个连续帧的视觉质量比较。放大以便更好地观察。6. 结论在本文中，我们提出了一个RViDeNet通过训练真正的噪声干净的视频帧。通过将原始序列分解为RGBG子序列，然后经过对齐、非局部注意、时间融合和空间融合模块，我们的方法充分利用了原始序列中的空间、信道和时间相关性。通过原始和sRGB输出，我们的方法为用户提供了更大的灵活性，可以生成他们最喜欢的结果。实验结果表明，该方法在去除真实噪声和生成时间一致性视频方面具有优越性。我们建立了第一个噪声干净的动态视频数据集，这将有助于对这一主题的研究。2310引用[1] Abdelrahman Abdelhamed，Stephen Lin，and Michael SBrown.智能手机摄像头的高质量去噪数据集。在IEEE计算机视觉和模式识别会议论文集，第1692-1700页一、二、三[2] Abdelrahman Abdelhamed，Radu Schafte，and Michael SBrown. Ntire 2019挑战真实图像去噪：方法和结果。在IEEE计算机视觉和模式识别研讨会会议集，第0-0页7[3] Josue Anaya和Adrian Barbu 雷诺阿-一个数据集的重新-低光图像降噪。arXiv预印本arX-iv：1409.8230，2014年。一、二、三[4] 赛义德·安瓦尔和尼克·巴恩斯。具有特征注意力的真实图像去噪。 Proceedings of International Conference onComputer Vision，2019. 1[5] Tim Brooks ， Ben Mildenhall ， Tianfan Xue ， JiawenChen，Dillon Sharlet，and Jonathan T Barron.未处理图像，用于学习的原始去噪。CVPR，2019年。二、三、七[6] 安东尼·布德斯、何塞·路易斯·利萨尼和马克·米拉丁。基于光流估计的视频去噪。IEEE Transactions on ImageProcessing，25（6）：2573-2586，2016. 2[7] 陈晨，陈奇峰，杨明.做，和弗拉德伦Koltun。学会在黑暗中看东西在IEEE计算机视觉和模式识别会议论文集，2018年。一二三四六[8] 陈晨，陈奇峰，杨明.做，和弗拉德伦Koltun。在黑暗中看到运动在IEEE国际计算机视觉会议论文集，2019年。一二三四六七八[9] 陈静雯，陈嘉伟，赵宏阳，杨明。基于生成对抗网络噪声建模的图像盲去噪在IEEE计算机视觉和模式识别会议论文集，第3155-3164页，2018年。1[10] 陈新元，宋丽，杨小康。深度rnns视频去噪。在数字图像处理的应用，第9971卷，第99711T页。国际光学与光子学会2[11] 米歇尔·克劳斯和简·范·格默特。Videnn：深度盲视频去噪。在IEEE计算机视觉和模式识别研讨会会议集，第0-0页二七八[12] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。稀疏三维变换域协同滤波图像去噪IEEE Transactions on image processing，16（8）：2080-2095，2007. 3[13] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页，2017年。四、五[14] Alessandro Foi，Sakari Alenius，Vladimir Katkovnik，and Karen Egiazarian.非均匀目标自动分割的数字成像传感器原始数据噪声测量 IEEE Sensors Journal ， 7（10）：1456-1461. 4[15] A. Foi，M.特里梅什河谷Katkovnik和K.埃吉亚扎利安人单幅图像原始数据的实用泊松-高斯噪声建模与拟合。17（10）：1737-1754。3[16] 傅军，刘静，田海杰，李勇，鲍勇军，方志伟，卢汉青.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议论文集，第3146- 3154页5[17] Mi cha eülGharbi ， Gaura vChaurasia ， Syl vainParis ，andFre´doDurand. 深度联合去马赛克和去噪。 ACMTransactions on Graphics（TOG），35（6）：191，2016。2[18] C le'mentGodard ， KevinMatzen ， andMattUyttendaele. 深度突发去噪。在欧洲计算机视觉会议（ECCV）的会议记录中，第538-554页，2018年。4[19] 史国，严子飞，张凯，左王梦，张磊。真实照片的卷积盲去噪。在IEEE计算机视觉和模式识别会议论文集，第1712-1722页，2019年。1[20] Zilong Huang，Xinggang Wang，Lichao Huang，ChangHuang，Yunchao Wei，and Wenyu Liu. Ccnet：Criss-cross attention for semantic segmentation.在IEEE计算机视觉国际会议论文集，第603-612页，2019年。5[21] Hui Ji，Chaoqiang Liu，Zuowei Shen，and Yuhong Xu.基于低秩矩阵完备的鲁棒视频去噪。2010年IEEE计算机协会计算机视觉和模式识别会议，第1791-1798页。IEEE，2010。2[22] Zhetong Liang ， Jianrui Cai ， Zisheng Cao ， and LeiZhang. Cameranet：一个有效的相机ISP学习的两阶段框架。arXiv预印本arXiv：1908.01481，2019。2[23] Jiaming Liu ， Chi-Hao Wu ， Yuzhi Wang ， Qin Xu ，Yuqian Zhou ， Haibin Huang ， Chuan Wang ， ShaofanCai，Yifan D- ing，Haoqiang Fan，et al.基于bayer模式统一和bayer保持增强的原始图像去噪学习在IEEE计算机视觉和模式识别研讨会会议论文集，第0-0页2[24] Maggioni Matteo，Giacomo Boracchi，Foi Alessandro，E- giazarian Karen，et al.使用可分离四维非局部时空变换的视频去噪。在图像处理中：算法和系统IX，第1-11页。SPIE，2011年。二七八[25] Anton Milan ， Laura Leal-Taixe ， Ian Reid ， StefanRoth，and Konrad Schindler. Mot16：多目标跟踪的基准测试。3[26] 作者： Jonathan T. Barron ， Jiawen Chen ， DillonSharlet，and Robert Carroll.基于核预测网络的突发去噪三、四[27] Ben Mildenhall ， Jonathan T Barron ， Jiawen Chen ，Dillon Sharlet，Ren Ng，and Robert Carrol

下载后可阅读完整内容，剩余1页未读，立即下载