大核突发噪声抑制算法

24 浏览量更新于2023-10-25 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11844×基于基预测网络的大核突发噪声抑制夏志豪1，费德里科·佩拉齐2，迈克尔·加尔比2，卡利扬·桑卡瓦利2，阿扬·查克拉巴蒂11华盛顿大学圣路易斯分校。路易2Adobe Research{zhihao.xia，ayan}@wustl.edu，{perazzi，mgharbi，sunkaval}@adobe.com摘要突发的图像在时间和空间上都表现出显著的自相似性这促使将核表示为小的基本元素集合的线性组合。为此，我们引入了一种新的基础预测网络，给定一个输入突发，预测一组全局基础内核-共享的图像-和相应的混合系数-这是特定于个别像素。与输出每像素时空内核的大张量的最先进技术相比，我们的公式大大降低了网络输出的维度。这使我们能够有效地利用相对较大的去噪内核，实现显着的质量改善（超过1dBPSNR）和更快的运行时间超过最先进的方法。1. 介绍突发去噪算法[24，12，27]寻求在具有挑战性的条件下实现高质量的摄影，并且越来越多地被部署在商业移动相机中[12，21]。连拍捕捉场景的一系列短曝光帧，这些帧没有运动模糊，但每帧中有大量噪声，帧间有相对运动。通过考虑这种相对运动并使用噪声在帧之间是独立的这一事实，突发去噪尝试聚合这些输入并预测单个无噪声和无模糊的图像估计。最近，Mildenhallet al. [27]提出了一种优雅简单但令人惊讶的成功方法来消除噪声。他们的方法不是明确估计帧间运动[12，24，13，14，18]，而是在每个像素处产生降噪估计，作为所有帧中该像素位置周围窗口中观察到的噪声强度这些平均权重或内核被允许逐像素地变化以隐式地考虑运动和图像不连续性，并且从噪声部分工作是在ZX在Adobe Research实习时完成的a) 噪声输入b）我们的结果 c）地面实况（e）用k中心图1：（上）去噪网络的定性结果.所提出的方法（b）从非常嘈杂的图像突发（a，仅示出一帧）恢复精细的几何细节。（底部）我们的每突发基可以通过利用局部图像结构的冗余来压缩表示各种各样的内核我们使用k-均值对从噪声突发预测的每像素系数进行聚类。我们得到的簇显示出强的空间结构（d）。例如，我们可以识别一个对应于水平图像边缘的聚类（e，橙色），一个对应于垂直边缘（e，绿色），另一个对应于没有结构的均匀区域（e，灰色）。输入突发使用然而，KPN需要产生一个输出，这是显着更高的维比去噪图像，即使是5 -5内核与8帧，KPN必须预测400倍的内核权重作为图像强度。这伴随着显著的内存和计算成本，以及在输出中给定许多自由度的训练中的困难因此，到目前为止，KPN仅用于小内核。这限制了它们的去噪能力，因为它们无法在更大的空间区域和具有更大相对运动的帧上进行平均。在本文中，我们介绍了一种方法来预测大11845联系我们22去噪内核，从而受益于更广泛的聚合，同时限制每个像素的输出维度，使预测网络更容易训练和计算-和内存效率。这种方法的动机是成功的图像恢复方法的悠久历史，这些方法利用了自然图像中的内部结构和自相似性[5，2，35，22，40]。在突发去噪中，自相似性特别强，因为我们期望空间结构和时间结构两者，空间结构以在同一场景的帧内和跨帧重现的相似模式的形式，时间结构由场景和相机运动的一致性引起。考虑到图像强度本身的预期自相似性和结构，我们认为相应的去噪内核也必须具有相似的结构。具体而言，虽然允许单个像素降噪内核是大的，但我们假设给定图像的所有内核都跨越较低维的子空间。基于这一观察，我们引入了一种新的基于核的突发去噪方法，实现了更好的准确性和效率。我们的贡献是：我们引入基础预测网络（BPN）：给定输入噪声突发，这些网络预测用于大的去噪内核的全局低维基集，以及相对于该基的每像素系数向量。因此，BPN输出比来自常规KPN的每像素任意内核在去噪内核上强制执行这种结构可以作为一种正则化形式，我们的实验表明，这会导致最先进的去噪性能，其质量明显高于KPN（>1 dB PSNR）。除了减少输出层的内存使用和计算我们表明，这方面所需的FLOPs的数量，以及实验与实际运行时间。2. 相关工作单图像和视频去噪。单图像去噪已经被广泛研究。为了克服问题的不适定性，经典方法[32，33，42]开发了正则化方案，该方案对自然图像的局部统计进行建模。最成功的方法[5，2]利用图像内的非局部自相似性，并通过聚合来自遥远区域的相似像素或补丁来对像素进行降噪。这些方法已被扩展到去噪视频[19，25]，其中对相似补丁的搜索不仅在帧内进行，而且在不同帧之间进行。最近的工作使用在以下条件下训练的卷积网络提高了图像去噪性能：突发去噪。单图像去噪是一个基本的欠约束问题。突发处理可以通过使用多个观测（突发的帧）来恢复场景的无噪声描绘来减少这种模糊性。突发去噪算法现在广泛用于商业智能手机摄像头[12]，即使在极低光照场景下也能产生令人信服的结果[4，21]。与视频去噪一样，突发处理的一个重大挑战是对帧间运动的鲁棒性许多方法显式地估计该运动以对齐和去噪帧[12，24，13，14，18]。当前状态现有技术的突发去噪技术[27，18，11，26]基于深度神经网络。它们中的许多只需要粗略配准，依赖于网络来解释小的残余失准[27，11，26]。核预测网络给定一个突发序列，Mildenhall等人。[27]预测每像素核，然后将其应用于输入突发以产生去噪输出。他们证明，KPN优于直接像素合成，产生过平滑的结果。这个想法已经扩展到在每个像素上使用多个不同大小的内核[26]。KPN还用于其他应用，包括去噪蒙特卡洛渲染[1，34，9]，视频超分辨率[16]和去模糊[41]，帧插值[28，29，23]和视频预测[15，6，23，37]。鉴于其高维输出（每像素内核，在突发去噪的情况下是三维的），KPN具有显著的内存和计算需求。Mari nC.etal. [26]Niklausetal. [2 9]通过预测空间上可分离的内核来改善这一点：形成空间核作为预测的水平和垂直核的外积。然而，这对内核结构做出了很强的先验假设，并且仍然需要使用不同的每像素内核进行构建和滤波。相比之下，我们的方法假设场景的每像素内核的集合跨越低维子空间，并且基于突发输入预测该子空间的基础。这种方法还使我们能够受益于傅立叶域中的快速滤波3. 方法在突发去噪中，我们给出图像I[n，t]的输入噪声突发，其中n索引空间位置，并且t1，. . .，T表示突发中的不同帧。使用异方差高斯噪声模型[7]，其考虑了读取噪声和散粒噪声，我们将其与相应的无噪声帧R[n，t]关联为：I[n，t]<$N（R[n，t]，σr+ σsR[n，t]），（1）其中σ2和σ2是读取噪声和散粒噪声参数。俄.西大数据集[3，38，39，22，40，35，36]。其他作品使用手工制作的功能，从学习的滤波器集合中选择每像素滤波器，以实现有效的图像增强[30，8]。选择第一帧作为参考，我们的目标是产生单个去噪图像R[n]作为第一无噪声帧R[n，1]的估计。···11846××··≪×××···(a) 噪声输入突发系数解码器基于核的重构(b) 噪声参数公共编码器(c) 编码器特性池化跳过连接下德科(d) 基系数映射(e) 3D核基(f) 去噪输出图2：我们的基础预测网络将噪声输入帧（a）和噪声参数（b）作为输入。帧被编码到共享特征空间（c）中。然后，这些特征由具有跳过连接的两个解码器解码成3D内核的突发特定基础（e）和一组每像素混合系数（d）。系数和基核都是单独单位归一化的最后，我们通过根据系数混合基本元素来获得每个像素的内核，并将它们应用于输入突发以产生最终的去噪图像（f）。3.1. 基于核的突发去噪不是训练网络以直接对R进行去噪，而是核预测网络输出去噪核wn[δ，t]的场，每个帧t处的每个像素n有一个去噪核。这些核具有空间支持K K，索引为δ，每个帧具有单独的权重给定这些预测的内核，去噪估计R**被形成为：我们设计的网络遵循具有跳过连接的编码器-解码器架构[31]。然而，我们的模型有两个解码器分支，一个用于基础，另一个用于系数（图2）。在两个分支之间共享编码器，因为系数c的含义取决于等式（3）中的预测基v，所以需要协调两个输出。该编码器将噪声突发和噪声参数作为输入，Σ ΣR[n]=wn[δ，t]I[n-δ，t]。（二）并通过多个级别的下采样和全局AV-最后的erage pooling，产生一个单一的全局特征vec，tδ或者作为图像的编码。每像素系数这个流水线中的一个关键瓶颈是预测这个密集的内核字段w，这需要在输出的每个像素处产生K2T数。由于具有高维输出的网络既昂贵又需要在其最后一层学习大量参数，因此KPN通常仅用于小内核（[27]中K=53.2. 基预测网络我们没有直接预测每个空间位置的无约束内核，而是设计了一个输出的网络(1)一个大小为K2 T × B的全局核基vb[δ，t]，其中b ∈ {1，. - 是的- 是的B};以及（2）在每个空间位置处的B维系数向量Cn[b]。Σwn[δ，t]=vb[δ，t]cn[b].（三）B注意，我们通常选择基核的数量B K2T. 这意味着，对于给定的爆发位于一个低维子空间中，但是对于不同的爆发，这个子空间是不同的。该基础是突发特定的。这个过程允许我们用更少的预测重新创建一个完整的内核字段。假设一个W H分辨率的图像，我们只需要进行W HB+K2T B预测，以有效地重新创建一个大小为W HK2T的核场。c然后从编码器瓶颈解码到全图像分辨率W H，其中B通道作为输出。公共基v被解码到不同的空间维度-具有B T 输出通道的核K K-的核。由于基础分支解码到不同的空间分辨率，我们需要仔细处理跳跃连接。与通常的U-Net不同，编码器和解码器特征大小不匹配。具体地，基本内核vb[δ，]中的像素δ与像素n没有有意义的关系。在输入帧I[n，]中。因此，在跳跃连接中-从共享编码器到基本解码器的选择，我们应用-对编码器的活动进行全局空间平均池化，并将平均向量复制到解码器层的分辨率。该机制确保编码器信息被全局聚合，而不会在内核和图像位置之间创建无意义的对应关系，同时允许编码器的多个尺度处的特征通知基础解码器。我们确保每个重建的内核w具有和为1的正权重，以表示平均。我们实现这一约束，使用软最大归一化的系数和基础解码器的输出。所以基vb[，]的每个3D核和每个系数向量cn[]是单独规范化的。的更详细描述补充资料中提供了该体系结构是er11847×- − ∈ − −FF- − → − − → −−∝Bb√我们的网络是根据最终去噪输出R的质量进行训练的-强度上有L2损失，梯度上有L1像[27]一样，我们还使用每帧损失来使网络偏离仅依赖于参考框架。我们这样做是为了分别损失-来自输入的每个单个帧的噪声估计burst（形成为Rt[n]=Tδwn[δ，t]I[n−δ，t]）。这些在主教练的指导下，他的体重下降了。cayed cayed across横过training训练iterations迭代.3.3. 高效傅立叶域滤波通过与大核的卷积进行滤波通常在傅立叶域中实现，其中滤波复杂度在图像大小方面是准线性的，而直接卷积的复杂度与图像大小和核大小的乘积成比例。但是因为KPN中的核w在空间上变化，所以等式（2）不表示标准卷积，排除了这种加速。在我们的例子中，因为我们的内核是相对于一小组“全局”基向量定义的，所以我们可以利用傅立叶域卷积来加速滤波。我们通过组合和重写等式中的表达式来实现这一点（2）和Eq。（3）作为：表1：合成灰度基准的去噪性能[27]。我们报告的平均PSNR（dB）方面的性能。与[27]一样，我们的方法没有在最大增益（第四列）所暗示的噪声水平上进行训练。KPN和MKPN指的是我们对这些技术的实现，而KPN* 的数字对应于KPN论文本身中报告的数字[27]。所有其他方法的结果，包括对去噪强度的端到端回归（表示为直接），来自[27]。我们的方法在所有噪声水平下都优于所有先前的方法。Σ ΣR[n] =wn[δ，t]I[n−δ，t]第128章.按照[27]的程序，我们使用由以下内容构建的训练和验证集：tδ开放图像数据集[20]，具有拍摄和读取噪声参数。Σ ΣΣ=vb[δ，t]cn[b]I[n−δ，t]在对数域中均匀采样的参数：log（σr）∈tδΣ=cnBΣ Σ[b]vb[δ，t]I[n −δ，t][3、1 .一、5]和log（σs） [ 4、2]。我们也使用[27]73个灰度测试图像进行评估。BΣ=cn[b]BtδΣ（I[·，t]vb[·，t]）[n]，⑷不我们的默认配置使用B=90ker的碱基。大小K=15的nels。我们使用Adam [17]训练我们的网络（以及所有消融基线），批量大小为24张图像，初始学习率为10- 4。我们训练其中，λ表示标准空间2D卷积，空间均匀内核换句话说，我们首先通过与每个基核的标准卷积来形成输入突发I的B个滤波版本的集合-将突发I中的每个帧与基核的相应我们可以在傅立叶域中执行这些标准卷积，如下所示：I[·，t]<$v[·，t]=F−1（F（I[·，t]）·F（v[·，t]）），（5）总共大约60万次迭代，两次放弃学习，每次10，每当验证损失饱和时。我们的方法的参考实现是可用的在https://www.cse.wustl.edu/~zhihao.xia/bpn/。4.1. 去噪性能表1报告了我们在灰度测试集上的去噪输出的PSNR[27]。每个噪声级别对应于一个传感器增益值（相机中收益对应于以下内容-将（log（σs），log（σr））的值设为：1 →（−2.2，-2。6）、2→其中（）和−1（）是空间正向和逆傅立叶变换。这对于更大的内核是显著更有效的，特别是因为我们不需要针对不同的基内核重复输入I的前向傅立叶变换4. 实验我们密切关注米尔登霍尔等人。[27]用于训练和评估。我们的模型设计用于T= 8的突发（1. 8、二、2）、4（1. 4、 1 .一、8）、8（1. 1、 1 .一、（五）。的最高噪声电平，表示为增益8、躺在外面我们训练的范围我们用它来评估我们的模型的外推能力。除了我们自己的模型之外，我们还报告了基于运动对齐的方法[12]、基于非局部滤波的几种方法[2，5，25]以及标准KPN突发去噪器[27]的结果-这是当前最先进的方法。由于我们无法访问原始KPN模型，因此我们执行-方法增益∝1增益∝2增益∝4增益∝8HDR+[12]31.9628.2524.2520.05BM3D [5]33.8931.1728.5325.92NLM [2]33.2330.4627.4323.86VBM4D [25]34.6031.8929.2026.52直接35.9333.3630.7027.97KPN*[27]36.4733.9331.1927.97KPN（K=5）36.3533.6931.0228.16MKPN [26]36.8834.2231.4528.52BPN（我们38.1835.4232.5429.4511848图3：我们展示了我们的方法在基准合成灰度测试集[27]上的去噪性能，直接预测网络（直接回归去噪像素），以及具有相同内核大小的两个KPN变体[27，26]K=15作为我们的方法。插图中的数字是指完整图像上的PSNR（dB）。除了更好的定量性能外，我们的方法在再现纹理，边缘和文本等感知细节方面做得更好。我们自己开发了一个版本（我们在下一节中用于消融），并在表1中报告了其性能。我们发现它与[27]中报告的性能非常匹配。另外，我们训练一个网络来直接从输入突发中回归去噪像素值（即，没有内核），以及我们的[26]的实现，具有更大的内核大小K=15以进行公平比较。我们发现，我们的方法优于KPN [27]的信号-在所有噪声水平下，均具有超过1 dB的PSNR。我们对[26]的实现也做得很好，但仍然不如我们的模型。我们在图3中展示了一组方法的定性结果。我们的伪影更少，特别是在纹理区域和打印文本等薄结构周围4.2. 消融和分析我们的方法可以获得更好的去噪质量，因为它可以实现更大的内核，而不会大幅增加净噪声工作的输出维度和可学习参数的数量。为了区分内核大小和内核分解结构的贡献结果可见于表2中。测试集和验证集结果（表1和表2）之间的性能差距来自数据集本身的差异。内核大小。作为一个基线，我们考虑直接使用KPN与我们的更大的内核大小K=15。我们还考虑预测该大小的单个可分离内核（[26]预测多个大小的可分离内核，并将它们加在一起）。我们发现，我们的网络在所有噪声水平下都优于大内核KPN变体，这表明简单地增加内核大小是不够的。它还优于可分离核预测，表明低维子空间约束比空间可分离性更好地捕捉自然图像的结构。11849·−联系我们增益1增益 2增益 4增益 8KPN（K=15）34.2931.8028.2324.86可分离（K=15）34.6732.0528.5225.12我们的（K=5）35.7033.0229.1625.57我们的（K=9）36.2233.4129.5625.94我们的（B=10）35.3132.6928.9525.43我们的（B=50）36.1033.3329.4525.88我们的（B=130）36.2733.4729.5725.99我们的（K=15，B=90）36.2933.5729.6225.99共同空间基础35.7133.0429.2325.71每帧空间基础36.2133.4629.5625.92固定基础34.6632.1528.6825.39表2：我们验证数据集的消融研究。PSNR以平均PSNR（ dB ）的形式报告。除了激励我们的参数选择（K=15，B=90）之外，这表明我们对突发特定时空基础的使用优于标准KPN [27]、可分离的空间内核、用于所有突发帧的公共空间基础、每帧单独的空间基础以及固定的输入不可知基础。所有这些变体都使用与我们的模型相同的设置（K=15，B=90）进行训练为了完整性，我们还使用较小的内核（K=9和K=5）来评估我们的基础预测网络。尽管与我们的默认配置相比，这会导致性能下降，但这些变体仍然比原始KPN表现得更好，这表明我们的方法具有正则化效果，甚至可以使更小的内核受益。基本尺寸。在我们的默认配置中，基本元素的数量B=90，是从验证集上的参数搜索中选择的。我们将该分析包括在表2中，报告B的PSNR值范围从10到20。130.我们发现少于90个核的碱基会导致质量下降。较大的基数B=130，也比B=90的表现略差。我们假设大碱基开始有太多的自由度。这增加了网络输出的维数空间与时空基分解。请注意，我们将我们的基础定义为子空间以跨越3D内核-即，我们的每个基本元素vb是3D 时空核。我们在每个位置预测单个权重cn[b]，其被应用于所有帧t的对应空间内核vn[，t]。However,thereareotherpossiblechoicesfordecomposing 3D kernels, and we consider two of these inour ablation (Table 2).在这两种情况下，我们输出的系数cn，t[b]，除了每个位置外，每个帧都有变化，并且被解释为对应于空间基核的单独系数在一种情况下，我们跨所有帧使用公共空间基Vb[δ]，其中Σwn[δ，t]=bcn，t[b]vb[δ]. 在另一个，我们有一个-对于每个帧，定义空间基Vb，t[δ]，并且wn[δ，t]=bcn，t[b]Vb，t[δ]。每帧基础增加了系数输出的维度，并导致略微下降在性能上，可能是由于减少了正则化效应。然而，公共空间基遭受更大的每比特率下降，因为它还迫使所有帧中的内核共享相同的子空间。我们还定性地比较了我们的默认配置产生的时空内核与图4中标准KPN预测的时空内核。我们的模型更好地利用了时间信息，在突发中的许多帧上对像素应用大的权重，而KPN倾向于过度倾向于参考帧。我们的网络可以更好地跟踪突发中的明显运动，从而相应地移动内核。它能够忽略过度运动引起的离群值（图中的所有黑色内核）。4）.固定与突发特定基础。考虑到我们的网络预测基础和每像素系数，一个自然的问题是是否需要突发特定的内核基础。为了解决这个问题，我们训练了一个没有基础解码器的网络架构，只预测每个突发的系数，而是学习一个在训练集中所有突发中固定的基础固定基与该网络一起学习，作为直接可学习的张量。表2表明，以这种方式使用固定基会导致去噪质量显著下降（尽管仍优于标准KPN）。这表明，虽然对内核的子空间限制是有用的，但理想的子空间是依赖于场景的，必须自适应地预测。我们在表3中进一步探讨了这一现象，在表3中，我们量化了单个图像和成对图像的预测基础的排名注意，秩可以低于B，因为我们实际上不要求我们发现，图像对（通过连接两个基础获得）的基础内核的组合排名是从单个图像获得的排名的近两倍-这表明不同图像的基础集之间的重叠有限。我们还显式地计算跨图像对的平均重叠率为1rank（v，v′）/[rank（v）+rank（v′）]，并发现它在平均值上约为5%。这种低重叠意味着不同的爆发确实需要不同的碱基，证明了我们使用爆发特异性碱基的合理性。4.3. 计算费用接下来，我们评估了该方法的计算费用，并将其与表2中考虑的不同消融设置（包括标准KPN）进行比较。我们在表4中报告了网络预测和过滤所需的浮点运算（FLOP）总数。We find that in addition to producinghigher-qualityresults,ourap-proach alsorequiressignificantly fewer FLOPs than regular KPN for the samekernel size. 这是因为，11850××××增益1增益 2增益 4增益 8方法增益∝1增益∝2增益∝4增益∝8rank（v）80.681.884.386.2直接38.1635.3932.5030.27rank（v，v′）152.2154.5159.6165.2KPN（K=5）38.8635.9732.7930.01重叠比百分之五点四百分之五点五百分之五点四百分之四点四BPN（我们的）40.1637.0833.8131.19表3：每个噪声水平的平均碱基秩（第一行）、来自随机突发对的两个碱基的并集的平均秩（第二行）以及由两个碱基跨越的子空间之间的平均重叠比（第三低重叠证明了我们的预测的爆发特定的基础。GFLOPs（s）KPN（K=15）59.30.63可分离（K=15）29.90.43我们的（K=5）28.90.24我们的（K=9）29.10.29我们的（B=10）26.50.19我们的（B=50）28.20.27我们的（B=130）31.70.41我们的（K=15，B=90）29.90.30共同空间基础40.80.49每帧空间基础41.90.57表4：不同KPN去噪方法在1024 768分辨率图像上的FLOPS和运行时间。我们的基础预测网络的所有变体都比KPN快得多，并且与可分离滤波器的计算成本相匹配（具有更好的去噪质量）。由于傅立叶滤波方法，我们的技术增加内核大小是以边际成本为代价的这使我们能够使用更大的内核更好的去噪性能。我们最终预测层的复杂性，以及傅立叶域中的此外，我们发现，我们的ap-proach具有几乎相同的复杂性，可分离的内核预测，同时实现更高的去噪性能，因为它可以表达更一般的一类内核。除了评估FLOP，表4报告了各种方法的测量运行时间，在NVIDIA 1080Ti GPU上的1024 768图像上进行基准测试。为了计算这些时间，我们将图像分为128 128个不重叠的补丁，以形成一个批次，并将其发送到去噪网络。由于常规KPN具有较高的内存需求，我们为每种方法选择最大批量大小，并在多个请跑步。这最大化了GPU吞吐量。我们发现，我们的方法在实践中保持其运行时间优势KPN。它也比可分离内核预测快一点-可能是因为我们使用傅立叶域卷积获得了更好的缓存性能。表5：我们的合成颜色测试集的去噪性能。我们以平均PSNR（dB）来报告性能这里，KPN指的是我们对[27]的扩展，以产生颜色内核。我们的方法优于KPN超过1dB，在所有的噪声水平。4.4. 色同步去噪最后，我们报告的结果上的彩色脉冲串去噪任务。我们使用与（1）类似的观察模型，其中噪声独立地添加到每个颜色通道（注意，这忽略了多路复用测量和去马赛克）。对于内核去噪，我们为每个位置的每个颜色通道使用单独的内核。We extend standard KPN[27] to produce this directly, and modify our method tohave the basis de- coder produce a “color” kernel basis (ofsize 3K2T B), while the coefficient decoder still outputs aB dimensional coefficient vector.我们使用与灰度图像相同的训练协议，使用OpenImages数据集的彩色版本。在这种情况下，训练需要1900k次迭代，每批8张彩色图像。我们从Open Images验证数据集构建了一个新的100张图像的合成测试集，与我们的训练集没有重叠。我们在表5中报告了比较，显示了与KPN [27]相比的类似改善，如灰度图像-在所有噪声水平下超过1 dB PSNR。我们在图5中进行了定性比较。5. 结论和今后的工作在这项工作中，我们认为，本地，每像素的突发去噪内核是高度一致的。在此基础上，我们提出了一个基础预测网络，该网络联合推断出一个全局的，低维的内核基础和相应的与先前的内核预测突发去噪方法相比，该公式显著降低了内存和计算需求，使我们能够通过使用大内核来大幅提高性能，同时减少运行时间。虽然这项工作侧重于突发去噪，但基于KPN的方法已应用于其他图像和视频增强任务，包括视频超分辨率[16]，帧插值[28，29，23]，视频预测[15，6]和视频去模糊[41]。所有这些任务都表现出类似的结构，并可能从我们的方法中受益。还有其他形式的时空结构可以探索，以建立在我们的工作。例如图像11851图4：我们可视化了我们的方法预测的一些3D内核（K=15），以及标准KPN产生的内核（K=5和K=15）。对于在给定位置预测的内核，我们还显示了以该点为中心的不同无噪声帧的裁剪，其中内核的支持标记为蓝色。与KPN相比，我们的内核更均匀地分布在突发中的所有帧中，空间模式紧密跟随突发中的明显运动全输入图像噪声参考直接KPN [27]我们的GT28.36 29.02 29.7329.55 29.79 30.95图5：我们展示了使用我们的方法在合成颜色测试集上进行颜色去噪的示例，将其与直接预测和KPN的颜色扩展版本进行比较[27]（K=5）。数字指的是完整图像上的PSNR（dB）。增强方法已经利用了不同尺度上的自相似性[10]，这表明了尺度空间中的其它分解。此外，我们假设全球范围内的固定基础大小。使其在空间上适应当地内容可以产生进一步的好处。最后，KPN的核心仍然是本地过滤方法，将我们的工作扩展到非局部滤波方法[5，19，25]将是有趣的。致谢。ZX和AC感谢NSF奖IIS-1820693的支持，以及Adobe Research的礼物。11852引用[1] Steve Bako ， Thijs Vogels ， Brian McWilliams ， MarkMeyer，Jan Novák，Alex Harvill，Pradeep Sen，TonyDerose，and Fabrice Mrsselle.核预测卷积网络用于去噪蒙特卡罗渲染。 ACM Transactions on Graphics（TOG），36（4）：97，2017。[2] Antoni Buades，Bartomeu Coll，and J-M Morel.一种非局部图像去噪算法。载于Proc. CVPR，2005年。[3] HaroldCBurger 、 ChristianJSchuler 和 StefanHarmeling。图像去噪：普通神经网络能与bm3d竞争吗？在Proc. CVPR，2012。[4] Chen Chen，Qifeng Chen，Jia Xu，and Vladlen Koltun.学会在黑暗中看东西。在Proc. CVPR，2018中。[5] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。基于亮度-色度空间分组约束的稀疏三维协同滤波彩色图像去噪。载于国际刑事法院程序，2007年。[6] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。神经信息处理系统的进展，第64-72页，2016年[7] Alessandro Foi、Mejdi Trimeche、Vladimir Katkovnik和Karen Egiazarian。单幅图像原始数据的实用泊松-高斯噪声建模与拟合。 IEEE Transactions on ImageProcessing，17（10）：1737[8] Pascal Getreuer，Pastacio Garcia-Dorado，John Isidoro，Sungjoon Choi ， Frank Ong ， and Peyman Milanfar.Blade：通用计算摄影的滤波器学习。2018年IEEE国际计算摄影会议（ICCP），第1-11页。IEEE，2018年。[9] Michaël Gharbi ， Tzu-Mao Li ， Miika Aittala ， JaakkoLehti- nen，and Frédo Durand.基于样本的蒙特卡罗去噪算法。 ACM Transactions on Graphics （ TOG ）， 38（4）：125，2019。[10] Daniel Glasner、Shai Bagon和Michal Irani。从一个单一的图像超分辨率。ICCV，2009年。[11] Clément Godard，Kevin Matzen，and Matt Uyttendael.深度突发去噪。在欧洲计算机视觉会议（ECCV）中，第538[12] Samuel W Hasinoff ， Dillon Sharlet ， Ryan Geiss ，Andrew Adams ， Jonathan T Barron ， Florian Kainz ，Jiawen Chen，and Marc Levoy.用于移动相机的高动态范围和低光照成像的连拍ACM Transactions on Graphics（TOG），35（6）：192，2016.[13] Felix Heide ， Steven Diamond ， Matthias Nießner ，Jonathan Ragan-Kelley，Wolfgang Heidrich，and GordonWetzstein.近端：使用近端算法进行有效的图像优化。ACM Transactions on Graphics（TOG），35（4）：84，2016.[14] Felix Heide ， Markus Steinberger ， Yun-Ta Tsai ，Mushfiqur Rouf，Dawid Paja Rankek，Dikpal Reddy，Orazio Gallo ， Jing Liu ， Wolfgang Heidrich ， KarenEgiazarian，et al.Flexisp：一个灵活的相机图像处理框架。 ACM Transactions on Graphics （ TOG ）， 33（6）：231，2014。[15] Xu Jia，Bert De Brabandere，Tinne Tuytelaars，and LucV Gool.动态过滤网络。神经信息处理系统进展，第667-675页，2016年11853[16] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络，无需显式运动补偿。在IEEE计算机视觉和模式识别会议论文集，第3224-3232页[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[18] Filippos Kokkinos和Stamatis Lefkimmiatis用于突发摄影应用的迭代剩余cnn。在IEEE计算机视觉和模式识别会议上，第5929-5938页，2019年[19] Dabov Kostadin，Foi Alessandro，and Egiazarian Karen.稀疏三维变换域协同滤波视频去噪。在欧洲信号处理会议，第149卷，2007年。[20] Ivan Krasin 、 Tom Duerig 、 Neil Alldrin 、 VittorioFerrari、Sami Abu-El-Haija、Alina Kuznetsova、HassanRom、Jasper Ui- jlings、Stefan Popov、Andreas Veit、Serge Belongie、Vic- tor Gomes、Abhinav Gupta、ChenSun 、 Gal Chechik 、 David Cai 、 Zheyun Feng 、Dhyanesh Narayanan和Kevin Murphy。Openimages：用于大规模多标签和多类图像分类的公共数据集。数据集可从https://github.com/openimages，2017年。[21] 作者：李丽巴，蔡云达，布鲁克斯，薛天帆，何秋瑞，李文彬，李文彬 . 放大图片创作者： MichaelW.Hasinoff，Yael Pritch，and Marc Levoy.在极弱光下的手持移动摄影。ACM事务处理图表，38（6）：164：1-164：16，Nov. 2019年。[22] Ding Liu ， Bihan Wen ， Yuchen Fan ， Chen ChangeLoy，and Thomas S Huang.用于图像复原的非局部递归网络。神经信息处理系统的进展，第1680-1689页，2018年[23] Ziwei Liu ， Raymond A Yeh ， Xiaoou Tang ， YimingLiu，and Aseem Agarwala.使用深体素流的视频帧合成。在IEEE计算机视觉国际会议论文集，第4463-4471页[24] ZiweiLiu ， LuYuan ， XiaoouTang ， MattUyttendaele，and Jian Sun.快速突发图像去噪。ACMTransactions on Graphics（TOG），33（6）：232，2014。[25] Matteo Maggioni、Giacomo Boracchi、Alessandro Foi和Karen Egiazarian。通过可分离的4-D非局部时空变换进行视频去噪、去块和增强。IEEE Transactions on imageprocessing，21（9）：3952[26] Talma jMarinc. ， VigneshSriniv asan ， SerhanGül ，CorneliusHellge，and Wojciech Samek.多核预测网络用于突发图像去噪。arXiv预印本arXiv：1902.05392，2019。[27] Ben Mildenhall ， Jonathan T Barron ， Jiawen Chen ，Dillon Sharlet，Ren Ng，and Robert Carroll.使用核预测网络进行突发去噪。在IEEE计算机视觉和模式识别会议论文集，第2502-2510

下载后可阅读完整内容，剩余1页未读，立即下载