基于卷积神经网络的实时深度视频去噪算法

125 浏览量更新于2023-10-25 收藏 1.62MB PDF 举报

神经网络去噪

视频处理

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1FastDVDnet：无需流量估计的实时深度视频去噪Matias TassanoGoPro法国mtassano@gopro.com朱莉·德隆MAP5，巴黎大学julie. parisdescartes.frThomas VeitGoPro法国tveit@gopro.com摘要本文提出了一种基于卷积神经网络结构的视频直到最近，用神经网络进行视频去噪在很大程度上是一个未被探索的领域，并且前向方法无法与最好的基于块的方法的性能竞争。我们在本文中介绍的方法称为FastDVDnet，与其他最先进的竞争对手相比，表现出类似或更好的性能，并且计算时间显著降低。与其他现有的神经网络去噪器相比，我们的算法具有几个理想的属性，如快速运行时间，并能够处理范围广泛的噪声水平与一个单一的网络模型。其架构的特点使其能够避免使用昂贵的运动补偿阶段，同时实现优异的性能。该算法的去噪性能和较低的计算量使其在实际去噪应用中具有吸引力我们比较我们的方法与不同的-ent国家的最先进的算法，无论是在视觉上和相对于客观的质量指标。1. 介绍尽管近年来摄影传感器取得了巨大的进步，但降噪仍然是视频处理中的一个重要步骤，特别是在拍摄条件具有挑战性时（弱光、小传感器等）。虽然图像去噪多年来一直是一个非常活跃的研究领域，但很少有人致力于数字视频的恢复。然而，应当指出，这两个问题有一些关键的区别一方面，视频包含的信息比静止图像多得多，这有助于恢复过程。另一方面，视频恢复需要良好的时间相干性，这使得恢复过程更加苛刻。此外，由于所有最新的相机都能产生高清视频，需要更大的非常快速和有效的算法在本文中，我们介绍了另一种用于深度视频去噪的网络：FastDVDnet。该算法建立在DVDnet [38]的基础上，但同时引入了一些重要的变化。最值得注意的是，而不是采用显式的运动估计阶段，该算法能够隐式地处理运动由于其架构的特点。这导致了一个国家的最先进的算法，输出高质量的去噪视频，同时具有非常快的运行时间，甚至比其他相关方法快数千倍。1.1. 图像去噪与视频去噪相反，图像去噪在过去几年中一直受到欢迎。基于深度学习技术的各种新的图像去噪方法Schmidt和Roth在[31]中提出了收缩场级联方法。Chen和Pock在[8]中提出的可训练的非线性反应扩散模型在[5]中，成功地将多层消噪器应用于图像去噪。诸如此类的方法实现了与诸如BM 3D [10]或非局部贝叶斯（NLB [21]）等众所周知的基于补丁的算法相当的性能。然而，它们的局限性包括性能受限于特定形式的先验知识，或者必须为每个噪声水平训练一组不同的权重。另一种广泛的方法涉及使用卷积神经网络（CNN），例如，[30][32][33][34][35][36][37][38][39][它们的性能与其他最先进的图像去噪算法相比，在定量和视觉上都是有利的。这些方法是由一系列的卷积层与非线性激活函数在他们之间。这些基于CNN的方法的一个显着特征是仅用一个训练模型就能够对几个级别的噪声进行降噪。由Zhanget al提出。在[43]中，DnCNN是用于图像去噪的端到端可训练深度CNN它的一个主要特点是它实现了 resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-resid-13541355人工学习[16]，即它估计输入图像中存在的噪声，而不是去噪图像。在随后的论文[44]中，Zhanget al.提出了FFDNet，它建立在为DnCNN所做的工作基础上。最近，[28，23]中提出的方法将神经架构与非局部技术相结合。1.2. 视频去噪视频去噪在文献中探索得少得多。目前大多数的视频去噪方法都是基于补丁的. 我们特别注意到一个扩展的popu-更大BM 3D到视频去噪、V-BM 4D [25]和视频非局部贝叶斯（VNLB [2]）。用于视频去噪的神经网络方法甚至比基于块的方法更少。 Chen等人 [7]中的算法。是第一个用递归神经网络来解决这个问题的然而，他们的算法仅适用于灰度图像，并且没有达到令人满意的结果，可能是由于与训练循环神经网络相关的困难[26]。Vogels等人在[39]中提出了一种基于内核预测神经网络的架构，能够对Monte Carlo渲染序列进行降噪。视频非本地网络（VNLnet [11]）将CNN与自相似搜索策略相融合。对于每个补丁，网络通过其第一个不可训练层找到最相似的补丁，然后CNN使用这些信息来预测干净的图像。在[38]中，Tassanoetal.提出了DVDnet，它将给定帧的去噪分为两个单独的去噪阶段。像其他几种方法一样，它依赖于相邻帧的运动估计。其他最近的盲去噪方法包括Ehret等人的工作。[13][14][15][16]后者与DVD-net分享了两步去噪的想法。然而，与DVDnet相反，ViDeNN不采用运动估计。与DVDnet和ViDeNN类似，在恢复任务中使用时空CNN块也在[39，6]中得到了介绍。目前，最先进的标准是DVDnet、VNLnet和VNLB。VNLB和VNLnet表现出最好的性能为小值的噪声，而DVDnet产生更好的结果为较大的噪声值。DVDnet和VNLnet都具有比VNLB更快的推理时间。正如我们将看到的，我们在本文中介绍的方法的性能与最先进的性能相比，同时具有更快的运行时。2. FastDVDnet在深度学习中，没有有效地利用这种时间信息。成功的国家的最先进的算法主要依赖于两个因素，以执行时间的一致性的结果，即从空间邻域的搜索区域的扩展到体积邻域，和运动估计的使用。使用体积（即，空间-时间）邻域意味着，当对给定像素（或块）进行去噪时，该算法将不仅在参考帧中，而且在序列的相邻帧中寻找相似的像素（块）。这样做的好处是双重的。首先，时间相邻者提供可用于对参考帧进行降噪的额外信息。第二，使用时间相邻者有助于减少闪烁，因为每一帧中的残余误差将是相关的。视频沿运动轨迹具有很强的时间冗余性。这一事实应该有助于对视频进行去噪，而不是对图像进行去噪。然而，这种在时间维度上增加的信息也产生了额外程度的复杂性，这可能难以解决。在这种情况下，运动估计和/或补偿已经在许多视频去噪算法中被采用，以帮助改善去噪性能和时间一致性[22，38，2，25，4]。因此，我们将这两个要素纳入我们的架构。然而，我们的算法不包括一个明确的运动估计/补偿阶段。处理对象的运动的能力是固有的嵌入到所提出的架构。事实上，我们的架构是由许多修改过的U-Net [29]块组成的（有关这些块的更多细节，请参见第2.1节）。多尺度、类似U-Net的架构已被证明具有学习未对准的能力[42，12]。我们的级联架构进一步增加了处理运动的能力。与[38]相比，我们的架构在没有光流对齐的情况下进行端到端训练，这避免了由于错误流而导致的失真和伪影因此，我们能够在不牺牲性能的情况下消除昂贵的专用运动补偿级。这导致了运行时间的重要减少：我们的算法比 VNLB 快三个数量级，比DVDnet和VNLnet快一个数量级。图1a显示了我们的方法的架构图。当对给定帧进行去噪时，t，t，它是2T=4个相邻帧也被占用a，s输入。也就是说，算法的in，put将是It−2， . 该模型是由对于视频去噪算法，时间相干性和闪烁去除是结果感知质量的关键方面[33，32]。为了实现这些，算法在对图像序列的给定帧进行去噪时必须利用存在于相邻帧中的时间信息一般来说，大多数以前的方法基于不同的时空去噪块，组装在级联的两步架构中。这些去噪块都是相似的，并且由修改后的U-Net模型组成，该模型将三帧作为输入。第一个去噪步骤中的三个块共享相同的权重，这导致模型的内存需求减少，并且易于1356（一）（b）第（1）款图1. FastDVDnet中使用的架构。(a)架构的高级图。使用五个连续帧来对中间帧进行去噪。这些帧被作为连续帧的三元组，并被输入到去噪块1。这些块的实例具有相同的权重。由这些块的输出组成的三元组用作去噪块2的输入。后者的输出是中央输入帧（输入帧t）的估计去噪块1和去噪块2共享相同的架构，如（b）所示。FastDVDnet的去噪模块由一个改进的多尺度U-Net组成。对网络的训练进行了与[44，14]类似，还包括噪声图作为输入，其允许处理空间变化噪声[37]。特别地，噪声图是单独的输入，其向网络提供关于输入处的噪声的分布的信息。该信息被编码为该噪声的预期每像素标准偏差。例如，当对高斯噪声进行去噪时，噪声图将是恒定的;在对泊松噪声进行去噪时，噪声图将取决于图像的强度。实际上，噪声图可以用作用户输入参数，以控制噪声去除与细节保存（例如，参见[ 37 ]中的在线演示）。在其他情况下，例如JPEG去噪，可以通过额外的CNN来估计噪声图[15]。噪声图的使用已被证明可以提高降噪性能，特别是在处理空间变化时。蚂蚁噪声[3]。与其他去噪算法相反，除了图像序列和输入噪声的估计之外，我们的去噪器不需要其他参数作为输入。观察到本文中提出的实验集中在加性高斯白噪声（AWGN）的情况下然而，该算法可以扩展到其他类型的噪声，例如。空间变化噪声（例如，Poissonian）。让本人是一个无噪声图像，而ERI是它的噪声版本被标准偏差σ的零均值高斯白噪声N的实现所破坏，那么I=I+N。（一）2.1. 去噪块两个去噪块都显示在图中。1a，去噪块1和去噪块2，由修改的U-Net架构组成。去噪块1的所有实例1357重量相同。U-Net本质上是一种多尺度编码器-解码器架构，具有跳过连接[16]，将每个编码器层的输出直接转发到相应解码器层的输入。这些块的更详细的示意图如图所示。1b.我们的去噪模块与标准U-Net存在一些差异• 编码器已被调整为采用三帧和噪声图作为输入• 解码器中的上采样使用PixelShuffle层[34]执行，这有助于减少网格伪影。请参见补充材料关于这一层的更多信息。• 编码器的特征与解码器的特征的合并是通过逐像素加法运算来完成的而不是信道级级联。这导致内存需求• 块实现残差学习-在中心噪声输入帧和the output—, which has been observed to ease thetraining process [37]去噪模块的设计特性在性能和快速运行时间之间做出了很好的折衷。这些去噪块由总共D=16个卷积层组成。在大多数层中，其卷积层的输出之后是逐点ReLU[20]作用函数ReLU（·）=max（·，0），最后一层除外批量归一化层（BN[17]）位于卷积层和ReLU层之间。3. 讨论在FastDVD网络中避免了显式的流量估计。然而，为了保持性能，我们需要引入一些技术来处理运动和有效地利用时间信息。本节将进一步讨论这些有关消融研究的更多详细信息，请参见补充材料。3.1. 两步去噪与DVDnet和ViDeNN类似，FastDVDnet具有两步级联架构。这背后的动机是有效地利用存在于时间邻居中的信息，并加强输出帧中剩余噪声的时间为了证明两步去噪是必要的特征，我们进行了以下实验：我们修改了FastDVDnet的去噪块（见图1）。1b）取五帧而不是三帧作为输入，我们将其称为Den Block 5inputs。以这种方式，相同数量的时间相邻图2. Den Block 5inputs去噪器的结构。帧被考虑，并且与Fast-DVDnet中相同的信息被这个新的去噪器处理。该模型的架构图如图所示。二、然后，我们训练了这个新模型，并将序列去噪的结果与FastDVDnet的结果进行了比较（有关训练过程的更多详细信息，请参见第4据观察，Fast-DVDnet的级联结构在Den Block 5输入上具有明显的优势，PSNR差异高达0。9分贝。详情请参阅此外，Den Block 5输入的结果显示，poral伪影-闪烁。尽管它是一个多尺度的架构，但DenBlock 5inputs不能像FastDVD net的两步架构那样处理序列中对象的运动。总的来说，两步架构相对于一步架构表现出优越的性能。3.2. 多尺度架构和端到端培训为了研究在我们的架构中使用多尺度去噪块的重要性，我们进行了以下实验：我们通过用DVD网的去噪块替换FastDVD网的去噪块来修改FastDVD网架构。这导致两步级联架构，具有单尺度去噪块，端到端训练，并且没有场景中的运动补偿。在我们的测试中，观察到使用多尺度去噪块大大改善了去噪结果。详情请参阅补充资料我们还尝试在FastDVDnet的每个步骤中分别训练多尺度去噪块-就像在DVDnet中所做的那样。尽管在这种情况下的结果相对于上述单尺度去噪块的情况肯定有所改善，但是在输出中从这种单独的训练切换到端到端的训练有助于减少时间伪影相当大。3.3. 动议的处理除了减少运行时间之外，通过光流避免使用运动补偿还具有1358额外的好处。明确依赖于运动估计技术的视频去噪算法通常在具有挑战性的情况下由于错误流而呈现本节讨论的不同技术-即多尺度去噪模块、级联两步去噪架构和端到端训练-不仅为FastDVD网络提供了处理运动的能力，还有助于避免与错误流量估计相关的伪影。同样，到[43，38，37]，FastDVDnet的去噪块实现了残差学习，这有助于进一步提高结果图3显示了三个连续帧上错误流造成的伪影示例，以及FastDVDnet的多尺度架构如何能够避免这些伪影。4. 培训详情训练数据集由输入输出对与亚当。The mix of learning rate decay and adaptive ratemethods has also been applied to other deep learningprojects [36, 41], usually with positive results.通过引入不同比例因子和随机翻转的重新缩放来增加数据。在前60个时期期间，卷积核的正交化被应用作为正则化的手段。已经观察到，使用正交化初始化训练可能有利于性能[44，37]。5. 结果两个不同的测试集用于对我们的方法进行基准测试：DAVIS测试集和集8，集8由来自Derf测试媒体集合1的4个颜色序列和用GoPro摄像机捕获的4个颜色序列组成。时代DAVIS集包含30个分辨率为854×480的彩色序列。Set8的序列已缩小到960×540的分辨率。在所有情况下，序列Pj= ，.（Sj，Mj），Ij巴什山、限制在最多85帧。我们使用了DeepFlow算法[40]用于计算DVD的流图-不其中，Sj=（Ij，Ij不，Ij，ij不，Ijj=0）是集合net和VNLB。VNLnet需要针对特定噪声级别进行训练的模型由于没有提供σ=30的模型，因此没有重新计算。t t−2t −1t t+1t+22T+1= 5个在连续帧中的相同位置处裁剪的空间块，并且Ij是序列的干净中心块。这些是通过添加AWGN生成的， σ∈[5，50]来清理给定序列的补丁，在这种情况下，建立相应的噪声图Mj，其所有元素都等于σ。从训练数据集的随机采样序列中随机裁剪时空补丁从 DAVIS 数据库 [18] 的训练集中提取了总共mt=384000个训练样本。斑块的空间大小为96×96，时间大小为2T+1= 5。选择斑块的空间大小，使得在去噪块的较粗尺度中得到的斑块大小为32×32。损失函数1mt？2在任一表中示出了该噪声电平的结果。我们还将我们的方法与商业盲去噪软件Neat Video（NV [1]）进行了比较。对于NV，其自动噪声分析设置用于手动对Set8的序列进行降噪。注意，所示的值是测试集中所有序列的平均值，序列的PNSR计算为每帧的PSNR的平均值。在一般情况下，DVDnet和FastDVDnet输出序列具有显着的时间相干性。我们的方法呈现的闪烁是非常小的，特别是在平坦的地区，其中基于补丁的算法往往会留下低频残留噪声。一个例子可以在图中观察到。4（最好以数字格式观看）。平坦区域中的时间去相关低频噪声对于观看者来说显得特别麻烦更多视频示例请参见补充资料L（θ）=Ij−Ij、（二）tt t2mtj=1材料和算法的网站上读者是鼓励观看这些示例，以比较我们方法结果的视觉质量。式中，φIj=F（（Sj，Mj）;θ）是网络的输出t t基于补丁的方法很容易超越DVDnetθ是所有可学习参数的集合。该架构已在PyTorch [27]中实现，这应用ADAM算法[19]来最小化损失函数，其所有超参数设置为默认值。epoch的数量设置为80，minibatch大小为九十六。学习率的调度也是常见的，两个案子它在前50个epoch中从1 e-3开始，然后在接下来的10个epoch中变为1 e-4，最后和FastDVDnet的序列中具有大部分的重复结构，因为这些方法利用了非局部相似性先验。另一方面，我们的算法很好地处理非重复纹理，参见例如。图1中的去噪文本和植被的清晰度。五、表1分别显示了Set 8和DAVIS数据集上的PSNR和ST-RRED的比较。时空缩减参考熵差（ST-RRED）是一种高性能的缩减参考视频质量检测方法。在剩余的训练中切换到1 e-6。换句换句话说，学习率阶跃衰减用于结合1https://media.xiph.org/video/derf1359（一）（b）第（1）款（c）第（1）款（d）其他事项图3. 由于遮挡导致的运动伪影。“超平滑”序列的结果的三个连续帧(b)VNLB。（c）DVD网。（d）FastDVD网。明确依赖于运动估计技术的视频去噪算法通常由于在具有挑战性的情况下的错误流而呈现伪影。在上面的示例中，前面建筑物的遮挡导致V-BM 4D、VNLB和DVDnet结果中的运动伪影。在FastDVDnet的体系结构中避免了显式运动补偿。实际上，由于其设计特性，网络能够隐式地处理运动。最好以数字格式观看。评价指标[35]。该度量不仅考虑图像质量，还考虑视频中的时间失真。我们使用scikit-videolibrary2提供的实现计算了ST-RRED评分。可以观察到，对于较小的噪声值，VNLB在Set8上表现更好。事实上，DVDnet在某些情况下往往会过度去噪. FastDVDnet和VNLnet是DAVIS上针对小sigma的最佳性能算法2http://www.scikit-video.org在PSNR和ST-RRED方面。然而，对于较大的噪声值，DVDnet超过VNLB。快速- DVDnet在所有情况下都表现良好，这是一个了不起的成就，因为它的运行速度比DVDnet快80倍，比VNLnet快26倍，比VNLB快4000倍以上（参见第6节）。相反to other denoisersbased on CNNs—e.g. VNLnet—, our algorithms are ableto denoise different noise levels with only one trainedmodel.最重要的是，方法的使用不涉及手动调整的参数，因为它们只需要1360(a)（b）（c）（d）(e)（f）（g）（h）图4.比较结果的（a）清洁框架。（b）噪声帧σ= 40。（c）V-BM 4D。（d）VNLB。(e) NV. (f)VNLnet。(g)DVD网。(h)FastDVDnet。基于补丁的方法（V-BM 4D，VNLB，甚至VNLnet）在平坦区域（如天空）中与噪声作斗争，并留下中低频噪声。这导致具有明显闪烁的结果，因为剩余的另一方面，DVDnet和FastDVDnet输出非常有说服力和视觉上令人愉快的结果。最好以数字格式观看。(a)（b）（c）（d）(e)（f）（g）（h）图5.“摩托车”序列的结果比较(a)干净的框架。(b)噪声帧σ= 50。(c)V-BM4D (d)VNLB。(e)NV.(f) VNLnet。(g)DVD网。(h)FastDVDnet。请注意去噪文本的清晰度，以及FastDVDnet、DVDnet和VNLnet没有色度噪声。最好以数字格式观看。图像序列和输入噪声的估计作为输入。表2显示了与ViDeNN的比较。该算法实际上没有针对AWGN进行训练，而是针对限幅 AWGN 进行训练。然后，FastDVDnet模型去-针对这种情况训练噪声限幅的AWGN，我们称之为FastDVDnet限幅。可以观察到，FastDVDnet裁剪的性能明显优于ViDeNN的性能。1361表1.Set 8和DAVIS测试集上的PSNR/ST-RRED比较对于PSNR：越大越好;最佳结果以蓝色显示，第二佳结果以红色显示。对于ST-RRED：越小越好;最佳结果以粗体显示。Set8VNLBV-BM4DNVVNLnetDVDnetFastDVDnetσ=10三十七26/2.86三十六05/3.87三十五67/3。42三十七十分之三43三十六08/4.16三十六四比三00σ=20三十三岁。72/6.28三十二19/9。8931岁69/12号决议。48三十三岁。88/6. 88三十三岁。49/7. 54三十三岁。43/6 65σ=3031岁74/11.53三十00/19.5828岁84/33.19-31岁79/126131岁第68/11号决议。85σ=40三十39/18.5728岁48/32.82二十六岁36/4709三十决议55/19。71三十决议55/19。05三十46/18.45σ=5029岁24/27。39二十七岁33/49。20二十五46/574429岁47/297829岁决议56/27。9729岁决议草案53/26.75戴维斯VNLBV-BM4DVNLnetDVDnetFastDVDnetσ=10三十八岁。85/3。22三十七决议58/4。26三十五83/2.81三十八岁。13/4。28三十八岁。71/349σ=20三十五68/6。77三十三岁。88/11. 02三十四49/6.11三十五70/754三十五77/7。46σ=30三十三岁。73比120831岁第65/21号决议。91-三十四08/12. 19三十四04/13. 08σ=40三十二32/19. 33三十05/36。60三十二32/18. 63三十二86/18.16三十二82/20。39σ=5031岁13/28。2128岁百分之八十。8231岁43/286731岁85/25.6331岁86/2889表2.与ViDeNN比较限幅AWGN。更多详情请参见正文。对于PSNR：越大越好;最佳结果以粗体显示。戴维斯ViDeNNFastDVDnet已剪辑σ=10三十七1338.45σ=30三十二2433.52σ=5029岁7731.236. 运行时间我们的方法实现了快速推理时间，由于其设计特点和简单的架构。我们的算法-Rithm对960×540彩色帧的去噪仅需100ms，比V-BM4D和VNLB快3个数量级以上，比V-BM 4D和VNLB快1个数量级以上比其他运行在GPU、DVD-net和VNLnet上的CNN算法更快该算法在具有Titan Xp NVIDIA GPU卡的服务器上进行了测试。图6比较了不同最先进算法的运行时间。7. 结论在本文中，我们提出了FastDVDnet，一个国家的最先进的视频去噪算法。Fast-DVDnet的去噪结果具有显著的时间相干性、非常低的闪烁和出色的细节保留。即使没有流量估计步骤，也可以实现这种性能水平。该算法比其他最先进的竞争对手快一到三个数量级。从这个意义上说，我们的方法向高质量实时深度视频降噪迈出了重要一步。虽然本文的结果适用于高斯噪声，我们的方法可以扩展到其他类型的噪声去噪。1362图6. 运行时间的比较。对分辨率为960×540的彩色帧进行降噪所需的时间。注：显示的VNLB值不包括估计运动所需的时间。致谢Julie Delon感谢NVIDIA公司为我们提供了用于本研究的Titan Xp GPU。我们感谢安娜·默里和何塞·莱扎马的宝贵贡献。这项工作得到了法国国家研究和技术局（ANRT）和GoPro Technology France的部分资助。1363引用[1] ABSoft。NeatVideo.https://www.neatvideo.com，1999-2019年。5[2] 巴勃罗·阿里亚斯和让·米歇尔·莫雷尔基于时空片经验贝叶斯估计的数学成像和视觉杂志，60（1）：702[3] Tim Brooks ， Ben Mildenhall ， Tianfan Xue ， JiawenChen，Dillon Sharlet，and Jonathan T.巴伦不处理学习原始去噪的图像。在IEEE计算机视觉和模式识别会议（CVPR），2019年。3[4] 安东尼·布德斯、何塞·路易斯·利萨尼和马尔科·米拉迪诺维奇。基于光流估计的视频去噪。IEEE Transactionson Image Processing，25（6）：25732016年6月。2[5] H.C. C.J.伯格Schmidt和S.伤害。图像降噪：普通神经网络能与BM3D竞争吗？在IEEE计算机视觉和模式识别会议中，第2392-2399页，2012年。1[6] Jose Caballero 、 Christian Ledig 、 Andrew Aitken 、Alejandro Acosta 、 Johannes Totz 、 Zehan Wang 和Wenzhe Shi。结合时空网路与运动补偿之即时视讯超解析。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，第4778-4787页2[7] 陈新元，宋丽，杨小康。深度rnns视频去噪。SPIEProceedings第9971卷，第99711T页。SPIE，2016年9月。2[8] Yunjin Chen和Thomas Pock。可训练的非线性反应扩散：一个灵活的框架，快速有效的图像恢复。IEEETransactionsonPatternAnalysisandMachineIntelligence，39（6）：1256-1272，Jun 2017. 1[9] 米歇尔·克劳斯和简·范·格默特。Videnn：深度盲视频去噪。在IEEE计算机视觉和模式识别研讨会会议集，第0-0页2[10] K Dabov，A Foi和V Katkovnik。稀疏三维变换域协同滤波图像去噪。IEEE Transactions on Image Processing（TIP），16（8）：1-16，2007。1[11] 阿克塞尔·戴维，蒂博·埃雷特，加布里埃尔·法乔洛，让-米歇尔·莫雷尔和巴勃罗·阿里亚斯。基于cnn的非局部视频去噪。在IEEE计算机视觉和模式识别会议上，2019年6月。2[12] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick vander Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。第2758- 2766页。IEEE，2015年12月。2[13] Thibaud Ehret ， Axel Davy ， Jean-Michel Morel ，Gabriele Facciolo，and Pablo Arias.通过帧到帧训练的模型盲视频去噪。在IEEE计算机视觉和模式识别会议论文集，第11369-11378页2[14] Mi cha eülGharbi ， Gaura vChaurasia ， Syl vainParis ，andFre´doDurand. 深度联合去马赛克和去噪。 ACMTransactions on Graphics，35（6）：1-12，Nov 2016. 3[15] 史国，严子飞，张凯，左王梦，张磊。真实照片的卷积盲去噪在IEEE计算机视觉和模式识别上，第1712-1722页，2019年7月。3[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页，2016年。二、四[17] Sergey Ioffe和Christian Szegedy。批次归一化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议（ICML），第448-456页。JMLR.org，2015年。4[18] Anna Khoreva，Anna Rohrbach，and Bernt Schiele.基于语言指称的视频对象分割。在ACCV，2018年。5[19] D.P. Kingma和J.L. BA. ADAM：一种随机优化方法。Proc. ICLR，第1-15页，2015年。5[20] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的ImageNet分类。神经信息处理系统进展（NIPS），第1-9页，2012年。4[21] M. Lebrun，A.Buades和J.M. 莫瑞尔一种非局部小波图像去噪算法。 SIAM Journal on Imaging Sciences ， 6（3）：1665-1688，2013年1月。1[22] 刘策和威廉·弗里曼。一种基于可靠运动估计的高质量视频去噪算法。在欧洲计算机视觉会议（ECCV）中，第706- 719页。施普林格，2015年。2[23] Ding Liu ， Bihan Wen ， Yuchen Fan ， Chen ChangeLoy，and Thomas S Huang.用于图像复原的非局部递归网络。神经信息处理系统的进展，第1680-1689页，2018年。2[24] Pengju Liu，Hongzhi Zhang，Kai Zhang，Liang Lin，and Wangmeng Zuo.用于图像恢复的多级小波CNN。在IEEE计算机协会计算机视觉和模式识别研讨会上，2018年。1[25] Matteo Maggioni、Giacomo Boracchi、Alessandro Foi和Karen Egiazarian。通过可分离的4-D非局部时空变换进行视频去噪、去块和增强。IEEE Transactions on ImageProcessing，21（9）：3952-3966，Sep 2012. 2[26] Razvan Pascanu，Tomas Mikolov和Yoshua Bengio。关于训练递归神经网络的困难在ICML，第1310-1318页2[27] Adam Paszke 、 Gregory Chanan 、 Zeming Lin 、 SamGross、Edward Yang、Luca Antiga和Zachary Devito。PyTorch中的自动微分。神经信息处理系统的进展30，第1-4页，2017年。5[28] TobiasP lótz和Ste f anRoth。神经最近邻网络。神经信息处理系统进展（NIPS），第1087-1098页，2018年。2[29] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-Net：用于生物医学图像分割的卷积网络，计算机科学的第9351卷，1364第 28 章，第 234-241 页。 SpringerInternationalPublishing，2015. 2[30] V. Santhanam，V.I. Morariu和L.S.戴维斯广义深度图像到图像回归。在 IEEE计算机视觉和模式识别会议（CVPR），2016年。1[31] 联合Schmidt和S.罗斯有效图像恢复的收缩场在IEEE计算机视觉和模式识别会议（CVPR），第8期，第2774-2781页，2014年。1[32] K. Seshadrinathan和A.C.波维克自然视频的运动调谐时空质量评估。IEEE Trans-actions on Image Processing，19（2）：335-350，Feb 2010. 2[33] 塔玛拉·赛伯德噪声特性和噪声感知，第235-265页。施普林格国际出版社，2018年。2[34] 放大图片作者：Wenzhe Shi，Jose Caballero，FerencHuszar ， Johannes Totz ， Andrew P.Aitken ， RobBishop，Daniel Rueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。第1874-1883页。IEEE，2016年6月。4[35] 作者：Rajiv Soundararajan，Alan C.波维克通过减少参考时空熵差的视频质量评估。IEEE Transactions onCircuits and Systems for Video Technology，2013。6[36] Christian Szegedy，Vincent Vanhoucke，Sergey Ioffe，Jonathon Shlens，and Zbigniew Wojna.重新思考计算机视觉的初始架构。2015年IEEE计算机视觉和模式识别会议（CVPR），第2818-2826页，2015年12月。5[37] 马蒂亚斯·塔萨诺朱莉·德隆托马斯·维特ffdnet图像去噪方法的分析与实现在线图像处理，9：1-25，2019年1月。三、四、五[38] 马蒂亚斯·塔萨诺朱莉·德隆托马斯·维特DVDnet：用于深度视频去噪的快速网络在IEEE图像处理国际会议上，2019年9月。一、二、五[39] ThijsVogels ， Fabrice Messelle ， Brian Mcwilliams ，Gerhard Rothlin，Al e xHarvill，DavidAdle r，MarkM eye r和Jan N o v a'k 。用核预测和非对称损失函数去噪ACM Transactions on Graphics，37（4）：12018年7月。2[40] PhilippeWeinzaepfel，JeromeRevaud，ZaidHarchaoui，and Cordelia Schmid. DeepFlow：深度匹配的大位移光流。在 IEEE 计算机视觉国际会议（ICCV），悉尼，澳大利亚，12月。2013. 5[41] Ashia C Wilson，Rebecca Roelofs，Mitchell Stern，NatiSre- bro和Benjamin Recht。机器学习中自适应梯度方法神经信息处理系统（NIPS）进展，第4148-4158页，2017年5[42] Shangzhe Wu ， Jiarui Xu ， Yu-Wing Tai 和 Chi-Keu

下载后可阅读完整内容，剩余1页未读，立即下载