基于聚集移位窗口注意力的轻量级视频去噪方法

108 浏览量更新于2023-10-15 收藏 1.72MB PDF 举报

视频去噪

轻量级网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

351基于聚集移位窗口注意力的轻量级视频去噪莉迪亚·林德纳1lydia. icg.tugraz.at亚历山大·埃夫兰2effland@iam.uni-bonn.deFilip Ilic1filip. icg.tugraz.at托马斯·波克1邮箱：thomas.tugraz.atErich Kobler2erich. ukbonn.de1格拉茨理工2波恩大学摘要视频去噪是许多计算机视觉应用中的一个基本问题。最先进的基于注意力的去噪方法通常会产生良好的结果，但需要大量的GPU存储器，并且通常需要很长的计算时间。特别是在数字化高分辨率历史影片的复原领域，这些技术在实际中并不适用。为了克服这些问题，我们引入了一个轻量级的视频去噪网络，该网络将高效的轴向-冠状-矢状（ACS）卷积与新型的转移窗口注意力公式（ASwin）相结合，该公式基于跨视频帧的自我和交叉注意力的记忆高效聚合。我们数值验证了我们的方法对合成高斯噪声的性能和效率。此外，我们将我们的网络训练为现实世界视频的通用盲去噪模型，使用真实的噪声合成管道来生成干净的噪声视频对。用户研究和非参考质量评估证明，我们的方法在去噪性能和时间一致性方面优于现实世界历史视频的最新技术。1. 介绍图像/视频去噪和恢复已经是几十年来的研究主题。研究界的这种持续关注是由以下事实驱动的：去噪对于许多图像/视频处理和计算机视觉任务是必不可少的，例如，用于显微图像、断层扫描或卫星数据的重建。在这项工作中，我们专注于数字化高分辨率历史电影的去噪，这些电影被各种噪声源（如数字噪声或胶片颗粒）降级，这在很大程度上取决于便利的胶片，采集过程和数字化过程[8，36]。通常，历史电影是记录在模拟电影卷轴上的，这就是为什么噪音https://github.com/LLindn/ASwin-Video-Denoising图1：轻量级逐帧聚合窗口偏移（ASwin）注意力，专为有效的视频降噪而设计。在视频中的任何位置，多层感知器（MLP）处理级联（CAT）本地信息和注意力输出，从而有效地融合帧之间的自我和交叉注意力。仅在空间上相关，而不是在节奏上相关。噪声的空间相关性与数字化电影的分辨率成比例[8]，这导致数字化电影中的高度相关噪声。在整个工作中，我们将这种类型的噪声称为模拟噪声。此外，电影的高分辨率限制了去噪算法的复杂性，尽管增加了计算能力和内存。因此，需要高效的存储器和快速的视频去噪模型来处理空间相关的噪声。视频去噪算法本质上利用两个原则-局部性原理假设相邻元素（像素或帧）更可能相似，而自相似性[44]解释了重复结构（例如，边缘、纹理、对象）。图像过滤方法[14，32]和卷积神经网络352（CNN）[20，29，31]通过卷积强烈利用了局部性原理基于自相似性的方法建立在提取相似的重复结构的基础上，这些重复结构被联合处理，例如，块匹配4D协同滤波（BM4D）[25]，通过时空非局部贝叶斯的视频去噪[2]，或最近的补丁工艺[33]。有趣的是，补丁的提取和协作过滤非常类似于transformers的查询键值搜索模式[34]，其在图像和视频处理方面优于最先进的技术[5，24]。此外，变压器和注意力机制已被证明特别适合于视频处理[11，23]。特别是，通过结合卷积和Transformer块[42]获得了图像去噪的最新技术。在本文中，我们将局部性和自相似性原理结合到一个新的深度学习架构中，旨在实现有效的视频去噪。具体而言，本文的主要贡献如下：• 我们提出了一种新的注意力机制，称为聚合移位窗口注意力（ASwin），它利用了帧式聚合的自我和交叉注意力计划与共享投影矩阵，这是结合了移位窗口的方法。• 对于我们的注意力机制，我们利用逐帧搜索窗口。结合我们的深度学习模型中的轴向-冠状-矢状（ACS）卷积[37]，我们获得了一种轻量级（小内存使用和运行时间）但有效的方法。• 我们训练我们的网络作为一个通用的盲去噪模型，适用于现实世界的嘈杂的视频数据。用户研究和非参考质量评估表明，我们的方法优于其他国家的最先进的去噪方法的去噪性能和时间一致性。2. 相关工作传统的视频去噪算法追求空间和时间修补方案，以利用视频的冗余（自相似性）。例如，BM4D [25]将BM3D [7]的协同过滤思想扩展到时空补丁，并在更高维的变换域中实施稀疏性。类似地，VNLB [2]假设高斯模型，对每个组进行联合经验贝叶斯估计。如今，这些方法通常优于基于学习CNN的数据驱动方法[21，27，30，31，43]。VNLnet [9]使用非局部搜索算法找到自相似视频补丁，随后由CNN处理。最近，PaCNet[33]通过人工补丁工艺框架结合了自相似性和CNN的概念而且transformers [34]的查询关键值搜索原理使得视频模型[11，23]能够结合自相似性。VRT [23]在多个尺度上应用这一原理来提取视频中的长距离依赖关系，并实现了用于运动补偿的扭曲方案。对于视频去噪，VRT以噪声水平为条件，因此其性能取决于噪声水平的先验知识或估计。其他非盲视频去噪方法包括DVDNet[30]、FastDVDNet [31]和PaCNet [33]。相比之下，盲视频去噪方法[6，26，29，39，41，42]不需要噪声水平估计，因此更适合具有未知噪声类型和水平的真实世界场景。我们可以根据它们对运动信息的使用情况对方法进行进一步分类。例如，DVDnet [30]在三阶段过程中引入了光流。首先，输入帧由图像去噪CNN单独处理，然后使用DeepFlow [35]计算帧之间的光流以应用运动补偿，最后由另一个 CNN 处理运动补偿帧。FastDVDnet [31]扩展了DVDnet，然而，它采用了端到端训练的UNet结构[28]，该结构使用五个连续的输入帧来重建中心帧，而无需明确考虑光流。最近的Transformer VRT [23]通过在不同分辨率上进行特征扭曲来执行显式运动补偿。然而，运动补偿总是承担由于不准确的光流估计而引入运动伪影的风险，这在通常空间相关的真实世界噪声的情况下尤其值得注意。因此，我们避免在我们的模型中明确使用光流。关于学习的风格，现实世界的方法可以分为无监督/自监督和监督方法。无监督/自监督框架利用自然图像和视频的基本原理来训练模型，目标是通过使用局部邻域信息重建数据的损坏部分[10，22，29]。多帧到帧（MF2F）[10]和无监督深度视频去噪（UDVD）[29]是自监督视频去噪中最先进的技术，并已被证明在去除视频中的真实噪声方面表现良好。MF2F通过最小化到运动补偿相邻帧的距离来微调预训练的FastDVDnet模型。该方法结合了TV-101光流[40]，从而产生了对运动估计精度的显著依赖性。这通常会导致模糊的结果[12，38，41]。UDVD通过使用因果旋转CNN将盲点框架[19]扩展到视频去噪来避免运动补偿相比之下，在合成的真实噪声-干净视频对上进行监督学习可以训练通用盲视频去噪模型，如图像所示[42]。353∈∈⊂×∈∈∈∈∈WW（1）t∈T）t∈ ∈⊂∈WtWt×→∈TWtWt3. 方法在本节中，我们介绍了一种新的注意力机制，称为聚合移位窗口（ASwin）atten，xt，h，wRC是窗口W中的对应输入特征向量。通过堆叠所得向量，我们获得后续矩阵：与有效的CNN相结合，导致一个轻量级的卷积转换器模型，用于视频解码。。噪音形式上，视频去噪意味着恢复一个干净的视频u∈RF×M×N×C从噪声观测u∈对于（t，h，w）∈W，KW=k，VW=vt...RF×M×N×C，其中F是指帧的数量每个具有C个通道的尺寸M N的关系u和u′由噪声生成过程确定3.1. 聚集移位窗口注意力所提出的聚合移位窗口（ASwin）注意力扩展了最近的注意力机制[11，24，34]，以有效地处理视频数据。注意层是Transformer的核心单元，其中长度为L的输入序列中的所有元素并行地聚合来自所有其他元素的信息，从而生成上下文信息。注意力将查询QRL×C、键K RL×C和值V RL×L组合为输入序列的RC维特征。注意力被计算为加权和对于任何位置（f，m，n）Wn，它不一定在W中，查询被定义为qf，m，n=PQx f，m，n+bQ∈RR，其中PQRR×C和bQRR如上所述学习同样，查询也堆叠到矩阵中。对于（f，m，n）∈ W，Q W=q f，m，n.然后，两个窗口的加权注意力读作的值SoftMax（QKV）V，AW= SoftMax（QWK/R）V、（1）其中，矩阵QK表示查询-密钥对之间的相似性，并且沿着行应用SoftMax请注意，内存消耗在L中以二次方式增加。最近的2D图像处理变换器的直接适应，通过简单地将卷积和注意力机制替换为它们各自的3D对应物，导致具有大的存储器消耗和长的计算时间的模型，因此这对于高分辨率数字化模拟电影是不可行的（例如，电影场景）。有几个选项可以减少内存需求，例如，限制到局部窗口而不是全局计算[24]或分块查询[13]。在这项工作中，我们通过引入基于帧的聚合方案来推进这些想法，在该方案中，针对局部窗口内的所有帧单独计算注意力。通常，非重叠窗口被认为是减少计算时间和内存消耗。然而，这可能会导致阻塞伪影，这可以通过移位窗口方法（Swin ）来规避[24]。让一：={1，. . .，A}，. 密钥k和其中SoftMax表示逐行softmax函数。为了清楚起见，推导仅描述单个注意力头部。然而，我们在实现中确实使用了多个头[34]，以同时关注一个Transformer块中的不同方面。我们使用注意力机制（1）来计算帧内的自我注意力和对相邻视频帧的交叉注意力。在逐帧自注意（W=W）的情况下，两个窗口s相等，而对于帧之间的交叉注意，W等于沿着帧维度移位的W，即，仅应用时间偏移为了简单起见，我们将该移位窗口表示为. 因此，在交叉注意的情况下，我们得到W=W。为了说明移位窗口内的位置，我们利用2D正弦位置编码。为了有效地结合自我和交叉注意力，我们提出了以下残余聚合方案。通过从位置（f，m，n）处的特征xf，m，nRC开始，W_ASwin注意力通过以下方式聚合不同的时间窗口：1ΣanyA∈N. 我们考虑一个固定的矩形窗口W时间：=<$F）× <$M）×<$N）t，h，wyf，m，n=xf，m，n+|t ∈T|t∈Th（xf，m，n，[AW]f，m，n），位置（t，h，w）W内的值vt，h，w对是com，假定为kt，h，w=PKx t，h，w+bK∈RR，其中T是所考虑的时间移位的集合，并且[AW]f，m，n∈RC表示对应的ro w-向量在所考虑的位置（f，m，n）处的注意力AW。注意v t，h，w =PVx t，h，w +bV∈RC，其中PK∈RR×C，PV∈RC×C是学习投影矩阵，bK∈RR，bV∈RC是学习偏差，f意味着包含了自我注意力。融合函数h：RCRC RC由线性层组成，该线性层用于xf，m，n和[AW]f，m，n的逐通道级联的特征减少，随后是LayerNorm[3]..W354××→×∈ T× ×× ×以及随后的多层感知器（MLP）。最终注意力zf，m，n由函数g获得：RCRCRC，由初始特征xf，m，n和帧聚集注意力 yf ， m ， n 的逐通道级联组成，随后是LayerNorm和另一个MLP。zf，m，n=g（x f，m，n，y f，m，n）我们强调，相同的融合网络h用于聚合所有考虑的时间帧移位t的注意力。因此，ASwin只需要恒定的内存来处理T帧。3.2. 架构我们的通用网络架构受到 Swin-Conv-UNet（SCUNet）[42]的启发，如图2所示。像SCUNet一样，我们的去噪策略将残差卷积的局部建模能力与有效移动窗口注意力的非局部建模能力相结合。我们的架构采用了拟议的ASwin/ACSconv块作为残留UNet的主要处理块。我们采用ACS（轴向-冠状-矢状）卷积[37]，而不是使用计算时间和内存消耗方面昂贵的标准3D卷积，其目的是通过将每个内核分为三个2D部分来近似标准3D卷积，并沿 3D体积的所有三个不同轴对提取2D空间信息。特别地，ACS卷积可以被视为具有稀疏内核块的3D卷积的特殊情况。由于ACS内核是整形的2D内核，因此学习参数的数量与2D卷积的数量一致，从而减少了内存占用。消耗和计算时间。ACS块由一个3×3×3ACS卷积，然后是一个ReLU激活和第二个3×3×3ACS卷积组成每个ASwin/ACSconv块由三个残差阶段组成，其中特征体首先由111卷积，以实现信道间通信，沿着信道维度均匀地分成两个部分，之后一个部分分别被馈送到ASwin块，一个部分被馈送到ACSconv块最后，输入特征的残差通过经由沿着信道维度的级联和通过另一个111卷积的后处理来合并两个块中的每一个的处理后的输出以允许两个块之间的信息流来编码器部分中的下采样通过具有空间步幅2的2 × 2卷积来获得，并且解编码器部分中的上采样以相同的方式通过具有空间步幅2的2 ×在我们最初的实验中，时间下采样没有显示出有益的效果，因此被省略。3.3. 真实世界噪声合成我们提出的方法也是为深度盲真实世界视频去噪而设计的，我们特别关注数字化历史电影中的模拟噪声。由于真实数字化视频不存在地面实况，因此有必要生成正确表示真实图像噪声（包括模拟噪声）分布的干净噪声视频对的合成真实数据。出于这个原因，我们修改了[42]中提出的图像噪声合成流水线，以实现逼真的视频噪声合成。其主要思想是基于通过添加许多不同种类的噪声并包括调整大小操作以近似非独立同分布的图像的退化。在数字化视频中常见的噪声分布。噪声合成过程建立在具有应用不同噪声模型的随机顺序的双重退化策略上，这通过进一步扩展学习的退化空间来帮助盲去噪模型的泛化能力噪声合成流水线包括以随机顺序应用两次的以下降级：高斯噪声、泊松噪声、相机传感器噪声、斑点噪声、jpeg压缩噪声、噪声噪声。具体地，高斯噪声以概率1被应用，而所有其他降级以概率0被应用。五、用于每个退化模型的确切超参数可以在补充材料中找到。我们采用3D广义零均值高斯噪声模型，在颜色通道之间具有不同的相关性，两种极端情况是灰度高斯噪声和加性高斯白噪声。将依赖于信号（颜色或灰度）的泊松噪声添加到干净的视频中以模拟光子散粒噪声。虽然我们关注数字化模拟视频，但建模相机传感器噪声仍然是感兴趣的，因为在数字化过程中，模拟视频可以以与数字相机内图像处理流水线（ISP）。这种噪声通过对视频应用反向ISP管道[4]来合并，从而产生原始图像。随后，读取和散粒噪声应用前ISP管道再次获得RGB图像之前添加。多重相干散斑噪声可以简单地通过将高斯噪声（由如上所述的高斯噪声合成生成）乘以干净的图像来建模由于JPEG压缩会导致图像质量降低，并可能引入强块伪影，因此在噪声合成中也会考虑JPEG压缩。数字化的模拟视频通常表现出模拟胶片颗粒，这是空间相关噪声。降噪操作本身不会将任何额外的噪声引入到干净的视频中，然而，已经用上述噪声模型之一劣化的视频的噪声分布被改变。上采样导致数据中噪声的更高空间相关性，而下采样可以降低空间相关性。355×××× ×× ×××联系我们图2：T个有噪声的输入帧被并行去噪。该模型结合了ASwin/ACSconv块作为残余UNet的主要构建块。有关架构的详细信息，请参见第3.2节。4. 实验和结果在本节中，我们提出了数值细节，证明所提出的方法的适用性和优越性。首先，我们在第4.1节中详细阐述了关于模型配置的更多细节。随后，我们将我们的方法与第4.2节中的加性高斯噪声的竞争方法以及第4.3节中的数字化模拟电影去噪的挑战性任务进行基准测试。4.1. 培训和评估设置我们的网络由四个尺度组成，即，三个编码器块、主体和三个解码器块，在收缩和扩展路径之间具有残余跳过连接。我们将每个尺度内的剩余 ASwin-ACSconv阶段的数量ASwin块的3D注意窗口大小（t hw）在第一和第二尺度中分别设置为3 8 8，在第三和第四尺度中分别设置为6 16 16。通道数在第一标度中为64，在第二标度中为128，在第三和第四标度中为256。我们在DAVIS 2017训练数据集上训练我们的模型[17]。特别是，我们训练6帧序列，随机裁剪为128 128像素。该网络训练了50000个epoch，批量大小为4，使用Adam [18]优化器来最小化我们的模型预测与相应目标之间的均方误差。初始学习率设置为10−4，并以0为因子递减。每10000个epochs5个。对于非盲高斯去噪，我们通过简单地将白高斯噪声添加到标准480 p DAVIS 2017训练集的样本中来合成噪声/目标对[17]。相比之下，对于盲真实世界去噪的任务，我们合成如第3.3节所述的损坏的噪声视频。在这里，我们使用完整的DAVIS 2017数据由于噪声合成中的下采样操作，以高分辨率设置。详细地说，我们随机作物样本的大小600 - 600像素噪声合成前。然后，所得到的噪声视频帧再次随机裁剪为128 × 128像素，并馈送到去噪网络进行训练。值得注意的是，合成噪声数据是在训练期间动态生成的，以进一步增加样本的种类并扩展网络的学习退化空间。在补充材料中可以找到生成的噪声-干净视频的随机集合。在非盲高斯去噪的情况下，我们为每个噪声水平σ10，20，30，40，50学习单独的模型，而对于真实世界的去噪，我们训练一个通用的盲去噪模型，适用于任何嘈杂的视频。对于这两种情况，去噪输出帧的数量等于损坏的输入帧的数量。在推理过程中，我们处理 24 个视频帧，在 par-anesthesia有效地利用时间冗余。详细地说，我们将每个测试视频分成24帧的组，使得相邻组重叠2帧。每个组都被单独处理，产生非重叠帧的最终预测对于重叠的帧，我们计算平均值以融合两个预测。4.2. 高斯去噪虽然不是专门为加性高斯去噪设计的，但我们在两个常用的合成去噪数据集上评估了我们的方法：Set8[30]和DAVIS 2017 [17]。在图4中显示了Set8的单个帧上的结果的定性比较。放大滑雪板，视觉差异变得明显，PaCNet [33]显示天空上的伪影，FastDVD- net [31]保留较少的细节，例如山谷。356×背景中的山，以及VRT [23]在黄色夹克上表现出为了获得一个定量的比较，国家的最先进的方法，我们评估的去噪性能的峰值信噪比;结果示于表1中。我们的模型产生的结果接近最先进的VRT [23]，并且始终优于所有其他竞争方法。当同时考虑去噪性能和运行时（见图3）时，我们可以观察到VRT的性能更好，同时计算时间也显著增加具体来说，VRT为21。2比我们的模型慢。此外，VRT遭受过多的内存消耗，视频只能以修补的方式处理我们提供了一个详细的比较的内存消耗VRT和我们的方法在补充材料。长的运行时间和内存限制，以及VRT被设计为非盲去噪网络的事实，放弃了它作为高分辨率电影场景上的真实世界去噪的候选者。PaC-Net也是如此，它是比较基于学习的方法中最慢的。FastDVDnet具有较低的运行时间，然而，无论噪声水平如何，它在Davis和Set8上的表现都比我们的方法差得多。我们的模型提供了迄今为止性能和运行时间之间的最佳权衡，因此非常适用于高分辨率电影视频去噪的任务。383736350 5000 10000 15000 20000 25000运行时间（ms）图3：我们的方法和其他最先进的方法的去噪性能与运行时间的可视化。4.3. 真实世界去噪在本节中，我们将展示我们的盲真实世界去噪器的定量和定性结果，并将其与最先进的真实世界视频去噪技术进行比较。为了评估不同的方法，我们使用了10个高分辨率的数字化模拟电影胶片序列，表现出不同的未知噪声类型的不同强度。相机型号、模拟胶片类型和确切的数字化过程都是未知的。真实世界测试数据的更多详细信息和视觉概述可参见补充资料。去噪数字化模拟视频更具挑战性VBM4DVNLBDVDnetVNLnetFastDVDPacnetVRT我们设备CPUCPUGPUGPUGPUGPUGPUGPU运行时间156.0 420.0 4.91 1.870.0824.64 7.860.372019-05- 29 00：00：0040.8240.152019-05- 25 10：00：0038.1537.122019-04- 29 00：00：0000：0036.5235.372019-05 - 26 10：00：0035.32 34.132019 - 05-28 10：00：0033.17平均值32.39 34.34 34.53 33.39 34.64 35.4237.0335.992019-05 - 26 00 -26 00-26 00 - 26 00 -2637.8836.992019- 10- 15 00：00：00 00：0035.0234.0610.0031.7431.6831.5931.6832.0532.412019- 04 -2900：00：00 00：0031.222019- 05-29 00：00：0030.31平均值30.8132.4732.2532.5232.3132.6833.9233.00表1：高斯去噪的定量（PSNR）结果。最好和第二好的分数以粗体和蓝色打印。给出了分辨率为960× 540的视频帧使用FP16精度的运行时间。由于模拟胶片的物理结构引起的噪声和数字化过程引起的附加数字噪声的高度空间相关性，我们将我们的方法与最先进的现实世界去噪方法MF2F [10]和UDVD[29]进行比较，由于以自我监督的方式操作，两者都直接对每个嘈杂的测试视频进行了微调。我们还将我们的方法与用于高端视频恢复的商业去噪软件进行了比较，即NeatVideo [1]和DarkEnergy [15]。4.3.1目视质量评估我们的方法，MF2F，UDVD，NeatVideo和DarkEnergy的定性比较见图5。视觉评估表明，我们的方法优于所有其他方法在噪声去除和细节保存。在图5的第一行中，可以看到除了我们的方法之外，所有方法都存在严重的残余噪声，特别是在明亮区域。我们的去噪算法能够完全去除噪声，同时仍然保留细节。图5的第二行和第三行显示了测试数据集的另外两个可以看出，我们的方法再次优于所有其他方法，这些方法要么创建视觉上不愉快的伪影，要么太模糊，要么无法有效地由于UDVD基于盲点去噪策略（在感受野中缺失中心像素），因此由于噪声的强空间相关性，所得到的去噪图像质量较低MF2F生成的结果在视觉上更具吸引力，但是，它的时间一致性较低，这也得到了第4.3节所示用户研究结果的证实在推理过程中对模型进行微调的一个明显的缺点是运行时间大大增加，这是UDVD和MF2F此外，MF2F需要预先光流估计和遮挡掩模的生成，这是一项耗时的任务，特别是在高分辨率视频的情况下。UDVD不依赖于运动的先验估计，然而，如果网络是在PACnetVRT净FastDVDVNLnetDVDnet我们PSNR戴维斯Set8357图4：在Set8的测试视频上比较高斯噪声（σ= 40）单序列，模型收敛的时间是值得考虑的。此外，由于视频中的空间相关噪声，必须执行手动早期停止以避免对噪声参考的过拟合。我们观察到，商业去噪软件DarkEnergy通常会产生斑点伪影，并且通常会产生略微模糊的结果。相比之下，NeatVideo无法充分去除所有其他结果见补充资料。4.3.2无参考视频质量评估由于实际的地面实况不适用于真实世界的噪声视频，因此无法计算标准的质量评估指标，如PSNR。为了定量证明我们的方法与其他最先进的方法相比的优越性，我们对去噪后的真实视频进行了无参考图像质量评估（NR-IQA）。NR-IQA的目标是根据人类受试者提供的质量评级来估计感知图像或因此，我们使用最先进的NR- IQA度量MUSIQ [16]，其由多尺度图像质量Transformer计算。由于多尺度表示，该方法可以评估在不同粒度的视觉质量和传统的NR-IQA方法相比，有很大的差距。高MUSIQ分数是指在视觉上令人愉悦的高质量图像。从表2中可以看出，NR-IQA评估强化了我们的方法能够在测试视频上生成最高质量的补充资料中提供了每个视频的详细结果嘈杂UDVDMF2F 暗能量NeatVideo我们是说25.11 25.7735.2931.0533.14表2：使用MUSIQ的图像质量定量评价[16]。测试数据集的平均值。最好和第二好的分数分别以粗体和蓝色4.3.3用户研究为了验证所提出的方法产生视频，我们进行了一项用户研究，包括30个人。在用户研究设计中，我们平衡了参与者的计算机视觉背景。具体而言，大约47%的参与者没有计算机视觉或相关领域的背景，而53%的参与者有计算机视觉背景。给受试者一张说明书，解释他们被要求执行的任务（见补充材料）。用户研究使用20个视频序列进行，这些视频序列是通过从我们的真实测试数据集和相应的去噪结果中截取每个视频的两个片段获得的。用户界面显示了参考视频和三种竞争方法，这些方法通过将它们标记为“A”，“B”和“C”来匿名以避免任何偏见。要求用户根据以下两个标准之一来选择性能最佳和次佳的方法：首先，参与者被要求根据其视觉敏锐度对20个视频中的每一个进行判断w.r.t. 噪音去除其次，要求用户对每种方法的相同20个序列进行评分。时间一致性这两个术语的确切描述在任务表中给出，见补充材料。对两组方法进行了用户研究-学术和商业。在第一次运行中，我们的方法与两种最先进的学术去噪方法相比较;[29]第29话，在第二次运行中，我们的方法与两种商业高端去噪方法进行了比较图6显示，我们的去噪视频是70%的商业方法参与者和82%的学术方法参与者的首选我们可以进一步观察到，NeatVideo和MF 2F在其各自的类别中是明确的第二选择，这与表2中的NR-IQA评价和图5中的目视评估一致补充材料中提供了其他结果。4.4. 消融研究我们进行了一项关于网络架构的消融研究，在那里我们评估了网络在此外，我们研究了用ACS卷积取代传统的3D卷积和用我们提出的ASwin注意力取代标准Swin注意力的影响所有烧蚀实验的结果可以是358图5：三个数字化模拟电影场景的定性去噪性能的可视化(a) 商业方法(b) 学术方法图6：噪声去除和时间一致性任务的组合用户研究结果。我们要指出的是，无论手头的标准如何，所评价方法的排名保持不变，见补充材料。见表3。可以观察到，增加空间和时间窗口大小导致改进的去噪结果。无论考虑帧的数量如何，ASwin在推理期间的恒定内存消耗当使用标准Swin注意力而不是我们提出的ASwin注意力时，我们观察到的结果略差，并且当结合完整的3D卷积而不是ACSconv时。由于这些变化直接导致内存消耗增加，因此必须为这些实验改变架构设置，即，减少了训练批量大小以及注意力获胜的空间和时间大小，这解释了性能稍差的原因。主块配置Swin+ACSconvSwin+3DconvASwin+ACSconv峰值信噪比（PSNR）36.92 36.97 37.12表3：消融实验的结果。5. 结论在这项工作中，我们引入了一个轻量级的去噪模型，它将高效的ACS卷积与一个新的注意力块相结合。移位窗口的逐帧聚合（ASwin）导致恒定的内存占用，而不管所考虑的帧的数量。对高斯视频去噪的比较表明，我们的模型产生的结果接近最先进的- 只需要运行时和内存消耗的一小部分。此外，在数字化模拟电影镜头的盲真实世界去噪的挑战性任务中，我们的模型在定性和定量方面表现出最先进的水平，如用户研究和非参考图像质量分析所示。确认这项工作得到了FFG-Program BRIDGE的支持，简称RE：Color（No. 877161）。空间ASwin窗口大小h×w ×t4x4x68x8x616x16x6PSNR36.8436.9637.12时间ASwin窗口大小h×w ×t16x16x216x16x316x16x6PSNR36.8636.9537.12359引用[1] ABSoft 。不错的视频， 2022. 网址： //www.neatvideo.com的网站。[2] 巴勃罗·阿里亚斯和让·米歇尔·莫雷尔基于时空片经验贝叶斯估计的 Journal of Mathematical Imaging andVision，60（1）：70[3] Jimmy Lei Ba，Jamie Ryan Kiros，Geoffrey E Hinton.层归一化。在NIPS，2016年。[4] Tim Brooks ， Ben Mildenhall ， Tianfan Xue ， JiawenChen， Dillon Sharlet，and Jonathan T. 巴伦未处理图像，用于学习的原始去噪。在 CVPR 中，第 11036-11045页。计算机视觉基金会/ IEEE，2019年。[5] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。在CVPR中，第12299-12310页[6] 米歇尔·克劳斯和简·范·格默特。Videnn：深度盲视频去噪。见CVPR研讨会，第1843-1852页。IEEE，2019。[7] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。稀疏三维变换域协同滤波图像去噪IEEE Transactions on Image Processing，16（8）：2080[8] 戴晶晶，欧晓超，庞超，杨文，邹峰。视频编码中的胶片颗粒噪声去除和合成ICASSP，第890-893页[9] Axel Davy、Thibaud Ehret、Jean-Michel Morel、PabloArias和Gabriele Facciolo。一种用于视频去噪的非局部cnn。在2019年IEEE图像处理国际会议，第2409-2413页[10] Vale 'ryDewil ， Je 're'myAnger ， AxelDavy ，ThibaudEhret，Gabriele Facciolo，and Pablo Arias.自监督训练用于盲多帧视频去噪。在WACV，第2724-2734页[11] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器.在ICLR，2020年。[12] Thibaud Ehret ， Axel Davy ， Jean-Michel Morel ，Gabriele Facciolo，and Pablo Arias.通过帧到帧训练的模型盲视频去噪。在CVPR中，第11369-11378页，2019年。[13] Ankit Gupta、Guy Dar、Shaya Goodman、David Ciprut和Jonathan Berant。通过top-k attention的高效记忆转换器。2021年。[14] 何开明，孙建，唐晓鸥。引导图像滤波。在ECCV中，第1-14页。施普林格，2010年。[15] Cinnafilm Inc. 暗能量， 2022. 网址： http ：//cinnafilm.com/product/dark-energy/[16] 柯俊杰，王启飞，王依琳，Peyman Milanfar，杨锋。Musiq：多尺度图像质量Transformer。ICCV，2021。[17] Anna Khoreva，Anna Rohrbach，and Bernt Schiele.基于语言指称的视频对象分割。在ACCV（4），LectureNotes in Computer Science的第11364卷，第123-141页中Springer，2018.[18] 迪德里克山口Kingma和Jimmy L.BA. ADAM：一种随机优化方法2015年，国际会议[19] Samuli Laine，Tero Karras，Jaakko Lehtinen，and TimoAila.高质量的自监督深度图像去噪。在NIPS，第32卷，2019年。[20] Yann LeCun、Bernhard Boser、John S Denker、DonnieHenderson 、 Richard E Howard 、 Wayne Hubbard 和Lawrence D Jackel。反向传播应用于手写邮政编码识别。神经计算，1（4）：541-551，1989。[21] Stamatios Lefkimmiatis.通用去噪网络：一种用于图像去噪的新型cnn结构。在CVPR中。IEEE计算机学会，2018年。[22] Jaakko Lehtinen 、 Jacob Munkberg 、 Jon Hasselgren 、Samuli Laine、Tero Karras、Miika Aittala和Timo Aila。Noise2noise：没有干净数据的学习图像恢复。在国际机器学习会议上，第2965-2974页[23] Jingyun Liang，Jiezhang Cao，Yacht Fan，Kai Zhang，Rakesh Ranjan，Yawei Li，Radu Jingfte，and Luc VanGool.Vrt：视频恢复Transformer。arXiv预印本arXiv：2201.12288，2022。[24] Ze Liu，Yutong Lin，Yue Cao，Han Hu，Yixuan Wei，Zheng Zhang ， Stephen Lin ， and Baining Guo. SwinTransformer：使用移位窗口的分层视觉Transformer。在CVPR中，第10012-10022、2021页[25] Matteo Maggioni、Giacomo Boracchi、Alessandro Foi和Karen Egiazarian。通过可分离的4-D非局部时空变换进行视频去噪、去块和增强。IEEE Transactions on ImageProcessing，21（9）：3952[26] Angshul Majumdar 盲去噪自动编码器。 IEEE Trans.Neural Networks Learn.系统，30：312[27] Xiao-Jiao Mao，Chunhua Shen，Yu-Bin Yang.使用具有对称跳跃连接的非常深的卷积编码器-解码器网络的图像恢复。在NIPS，第2802-2810页[28] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-Net：生物医学图像分割的卷积网络，第234-241页。Springer International Publishing，2015.[29] 作者： Dev Yashpal Sheth ， Sreyas Mohan ， Joshua LVincent，Ra- mon Manzorro，Peter A.Crozier，MiteshM.Khapra ， Eero P. Simoncelli ， and Carlos Fernando-Granda.无监督深度视频去噪在ICCV，第1759-1768页[30] 马蒂亚斯·塔萨诺朱莉·德隆托马斯·维特Dvdnet：一个用于深度视频去噪的快速网络在ICIP中，第18

下载后可阅读完整内容，剩余1页未读，立即下载