基于SNR的微光图像增强方法

22 浏览量更新于2023-10-25 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17714（2021年）基于SNR的微光图像增强徐晓刚1王瑞兴1，2付志荣1贾佳雅11香港中文大学2SmartMore{xgxu，rxwang，cfu，leojia}@ cse.cuhk.edu.hk摘要本文提出了一种新的解决方案，通过共同利用信噪比感知变换器和卷积模型，以动态增强像素的空间变化操作的低光图像增强。它们是用于极低信噪比（SNR）的图像区域的远程操作和用于其他区域的短程操作。我们建议先取一个SNR来指导特征融合，并用一个新的自注意模型来公式化 SNR 感知的Transformer，以避免来自非常低SNR的噪声图像区域广泛LOL-v1262218140.4 0.55 0.7 0.85SSIMSmid2826242222.520.518.516.531272319LOL-v2-real0.60.680.760.84SSIMSDSD（室内）LOL-v2-合成262218140.6 0.7 0.8 0.9SSIMSDSD（室外）28252219实验表明，我们的框架始终实现更好的性能比SOTA方法对七0.66 0.71 0.76SSIMSid0.580.680.780.88SSIM0.60.680.760.84SSIM具有相同结构的代表性基准。此外，我们进行了一项有 100 名参与者的大规模用户研究该代码可在https://github.com/dvlab-research/SNR-Aware-Low-Light-Enhance获得。22.520.518.516.50.530.560.590.62SSIMMIRNet（ECCV 2020）IPT（CVPR2021）A3DLUT（ICCV2021）3DLUT（TPAMI2020）Sprase（TIP2021）Band（TIP2021）Retinex（CVPR2021） FIDE（CVPR2020）EG（TIP2021）Uformer（CVPR2022）我们1. 介绍低光成像对于许多任务至关重要，例如夜间的物体和动作识别[18，27]。低光图像对于人类感知来说通常具有较差的可见性。类似地，下游视觉任务可能会在将低光图像直接作为输入时受到影响。已经提出了几种方法来增强弱光图像。现在事实上的方法是开发学习操纵颜色，色调和对比度以增强低光图像的神经网络[12，15，41，56]，而最近的一些工作考虑了图像中的噪声[29，48]。在本文中，我们的关键见解是，在低光图像中的不同区域可以具有不同的亮度，噪声，可见度等特性。亮度极低的区域会受到噪声的严重破坏，而同一图像中的其他区域仍然可以具有合理的可见度和对比度。为了更好的整体图像增强，我们应该自适应地考虑弱光图像中的不同区域。为此，我们通过探索信噪比来研究图像空间中图1.我们的方法一致地实现了更好的性能方面的PSNR/SSIM超过10 SOTA方法7不同的基准与相同的网络结构。每个图用于在一个基准数据集上进行比较。(SNR)[3，54]用于实现空间变化增强。特别地，较低SNR的区域通常不清楚。因此，我们利用更长的空间范围内的非局部图像信息另一方面，相对较高SNR的区域通常具有较高的可见性和较少的噪声。因此，局部图像信息通常是足够的。图2示出了用于说明的低光图像示例。进一步的讨论在Sec. 第3.1条我们的解决方案，低光图像增强的RGB域是共同利用长，短距离的操作。在最深的隐藏层中，我们设计了两个分支。具有Transformer结构的远程分支[38]用于捕获非本地信息，具有卷积残差块的短程分支[17]捕获本地信息。当增强每个像素时，我们基于PSNRPSNRPSNRPSNRPSNRPSNRPSNR17715图2.弱光图像增强需要空间变化的操作。蓝色（或红色）区域具有极低（或相对高）的SNR。它为图像增强提供了不足（或足够）的局部图像信息。在操作中，我们使用蓝色区域的长距离图像信息，因为它已被噪声严重破坏我们在右侧线性放大亮度，以可视化不同图像区域中的噪声。像素因此，在高SNR的区域中，本地信息在增强期间起着至关重要的作用，而在非常低的SNR的区域中，非本地消息是有效的为了实现这种空间变化的操作，我们构建了一个SNR先验，并使用它来指导特征融合。此外，我们修改了Transformer结构中的注意机制与现有的Transformer结构不同，不是所有的令牌都有助于注意力计算。我们只考虑具有足够的SNR值的令牌，以避免来自非常低SNR区域的噪声影响。我们的框架有效地增强了动态噪声水平的低光图像。在7个代表性数据集上进行了广泛的实验：LOL（v1 [45]，v2- real [53]，&v2-synthetic [53]），SID[5]，SMID [4]，and SDSD（indoor& outdoor）[39].如图1，我们的框架优于10个SOTA方法在所有具有相同结构的数据集。此外，我们与100名参与者进行了大规模的用户研究，以验证我们的方法的有效性。定性比较见图。3.第三章。总的来说，我们的贡献是三方面的。• 我们提出了一个新的信号噪声感知框架，同时采用了Transformer结构和卷积模型，实现空间变化的低光图像增强与SNR先验。• 我们设计了一个具有信噪比感知的Transformer，它具有一个新的自注意模块，用于弱光图像增强。• 我们在七个代表性的数据集上进行了广泛的实验，表明我们的框架始终优于一组丰富的SOTA方法。2. 相关工作基于无学习的微光图像增强。为了增强弱光图像，直方图均衡化和伽马校正是扩展动态范围和增加图像对比度的基本工具。这些(a) 输入（b）MIR-Net [59]（ECCV 2020）(c)IPT [6]（CVPR 2021）（d）Ours图 3. 通过具有卷积结构（ b ）的 SOTA 方法、 SOTATransformer结构（c）和我们的方法（d）增强的具有挑战性的低光帧（a）。我们的显示器显示出更清晰的细节、更鲜明的对比度和更少的噪点（放大后的最佳视图）。主要方法往往在增强的真实世界图像中产生不希望的伪像。基于Retinex的方法将反射率分量视为图像增强的合理近似，能够产生更逼真和自然的结果[28，35]。然而，当增强复杂的真实世界图像时，这一系列方法通常会局部扭曲颜色[40]。基于学习的弱光图像增强。近年来提出了许多基于学习的低光照图像增强方法[2，14，20，22，29，31，42，48Wang等人[40]提出预测照明图以增强曝光不足的照片。Sean等人[33]设计了一种策略来学习三种不同类型的空间局部滤波器以进行增强。Yang等[51]提出了一种半监督的方法来恢复低光图像的线性带表示。此外，还有无监督方法[7，14，19]。例如，Guoetal.[14]构建了一个轻量级网络来估计动态范围调整的像素级和高阶曲线。与以前的工作不同，我们的新方法增强了低光图像的基础上的信号噪声感知框架组成的一个新的信噪比感知Transformer设计，卷积模型，以空间变化的方式自适应地增强低光图像。如图1，我们的框架在具有相同结构的七个不同的基准上一致地实现了更好的性能。3. 我们的方法图4显示了我们框架的概述输入是低光图像，我们首先使用简单而有效的策略从其获得SNR图（见第二节）。3.2详情）。我们建议采取信噪比来指导我们的框架学习不同的增强操作，自适应的图像区域的不同信噪比。在我们框架的最深隐藏层中，我们设计极低信噪比本地图像信息丢失需要远程操作相对较高的SNR局部图像信息足够，首选短程操作17716帕尔因ppFF××××联系我们∈信噪比-引导融合输入低光图像放大器计算的SNR图当量（二）蒂蒂翁岛Ches��），��），……特征块集合我增强型��图像重构损失GroundTruthSℱ图4.我们的低光图像增强框架开始估计SNR图，用于指导不同的图像区域的像素增强。我们制定了一个SNR引导的注意力（图。5）指导我们的分块SNR感知Transformer如何处理长距离图像信息，特别是用于增强SNR非常低的图像区域。此外，我们开发SNR引导的融合以将所得到的长距离特征Fl与短距离特征Fs组合以产生最终图像特征F。两个不同的分支用于远程和短程。它们是专门为实现高效操作而制定的，分别由Transformer [38]和卷积结构实现。为了实现远距离操作，同时避免噪声的影响，在极低的光区域，我们引导的注意力机制在Transformer与SNR地图。为了采用不同的操作，我们开发了一个基于SNR的融合策略，以获得一个组合的表示，从长期和短期的功能。此外，我们使用跳过连接从编码器到解码器，以增强图像的细节。3.1. 长程和短程分支空间变化操作的必要性。传统的弱光图像增强网络在最深隐藏层采用卷积结构。这些操作具有短距离，以捕获大多数本地信息局部信息可能足以恢复不是非常暗的图像区域，因为这些像素仍然包含一定量的可见图像内容（或信号）。但是对于极暗的区域，局部信息不足以增强像素，因为相邻的局部区域在可见性方面也很弱，并且大多由噪声主导。为了解决这个关键问题，我们动态地增强像素在不同的区域与不同的本地和非本地通信。本地信息和非本地信息是互补的。可以基于图像上的SNR分布来确定效果。一方面，对于高信噪比的图像区域，局部信息应该起主要作用，因为局部信息是足够的用于增强。它通常比远距离的非本地信息更准确。另一方面，对于非常低的SNR的图像区域，我们更加关注非局部信息，因为局部区域可能具有非常少的图像信息，同时被噪声支配。与以前的方法不同，我们明确地制定了用于非常低SNR的图像区域的长范围分支和用于我们的框架的最深隐藏层中的其他区域的短范围分支4）.两个分支机构的实施。短程分支基于卷积残差块的结构实现，用于捕获局部信息，而长程分支基于Transformer [ 38 ]的结构实现，因为transformer擅长通过全局自注意机制捕获长程依赖性，如许多高级[10，16，21，30，46，57，58]中所示。和低层次的任务[6，44]。在长距离分支中，我们首先将特征图F（由编码器从输入图像IRH×W ×3中提取）划分为m个特征块，即，F iRp× p × C，i= 1，.，M.假设特征图F的大小为hwC，而块大小为p p。有m=hw个特征块用于覆盖整个特征图。如图4、我们的SNR感知Transformer是基于补丁的。它由多头自注意（ MSA ）模块 [38] 和前馈网络（FFN）[38]组成，两者都由两个完全连接的层组成。输出特性1，...，来自Transformer的m具有与输入要素面片相同的大小。我们把F1压扁，... F m转换为1D输出要素ℱℱ&RGE输入要素F信噪比-引导注当量图例说明：编码器解码器远程分支短程分支融合模块17717SNR输入调整大小划分成��“补丁”阈值设置自注意力图不适用于SoftMax的��i，��形状：双×双每行的总和为1SoftMaxMapinTrans的Self-atn ti n ti n tin T∈T*×*[0，1][0，1]SoftMax的列^F FF∈E×F∈^^^F∈∈∈∈--S ∈我∈我我F∈&K特征并执行以下计算y 0 = [F1，F2，.， Fm]，qi=ki=vi=LN（yi−1），yi=MSA（qi，ki，vi）+yi−1，y=FF N（LN（y^））+y^，（一）和[F1，F2，...， Fm]= y 1，i={1，...， l}，其中LN表示层归一化;yi表示第i个Transformer块的输出;MSA表示我们的SNR感知的多头自注意模块（参见图2）。 5），这将是详细的第二节。3.3; qi、k i和v i分别表示第i个多头自注意模块中的查询向量、键向量和值向量;而l表示Transformer中的层数。变换后的特征1、…m可以被合并以形成2D特征图l(see见图4）。3.2. 基于信噪比的空间变化特征融合SNR图。如图4，我们的框架通过估计SNR图开始。仅给定单个输入图像，估计输入图像I中的噪声量并准备I的干净版本以确定每个像素的SNR值类似于先前的基于非学习的去噪方法[1，8]，我们将噪声视为空间域中相邻像素之间的不连续过渡。噪声分量可以被建模为噪声图像与相关联的干净图像之间的距离。在这项工作中，我们使用它来估计I的SNR图，并使其成为我们的空间变化的有效先验。特征融合给定I∈RH×W ×3，我们首先计算I的灰度，即，Ig∈RH×W，然后计算SNR映射S∈RH×W为Ig=去噪（Ig），N=abs（Ig−Ig），S=Ig/N，（2）其中，去噪是基于非学习的去噪操作（在4.2和4.3节中进行实验），例如，对局部像素组求平均;abs表示绝对值;NRH× W是估计的噪声图。虽然所得到的SNR值是近似的，给定提取的噪声不准确，我们的框架与这样的SNR图仍然是有效的，如我们的广泛的实验所验证的。空间变化特征与SNR图的融合。如图4、我们采用编码器提取特征 F从输入图像I。然后，该特征分别由长距离和短距离分支处理，这产生长距离特征lRh×w ×C和短距离特征sRh×w ×C。为了自适应地组合这两个特征，我们将SNR图调整为h w，将其值归一化为范围[0，1]，并将归一化的SNR图S'作为插值权重以融合Fl和Fs，F=Fs×S′+Fl×（1−S′），（3）图5.插图： Transformer 中的 SNR 引导注意。黑色方块是SoftMax忽略的元素;彩色方块揭示了特征标记之间的相似性。在SoftMax中使用。哪里Rh×w ×C是要传递给解码器用于产生最终输出图像。由于SNR图中的值动态地揭示了输入图像的不同区域中的噪声水平，因此融合可以自适应地组合局部（短距离）和非局部（长距离）。范围）图像信息用于产生F.3.3. Transformer中的SNR引导注意传统Transformer结构的局限性。尽管传统的变换器可以捕获非局部信息来增强图像，但它们存在关键问题。在原始结构中，注意力在所有补丁之间计算。为了增强像素，远程注意力可以来自任何图像区域，而不管信号和噪声水平如何。实际上，非常低SNR的区域由噪声主导。因此，它们的信息是不准确的，严重干扰图像增强。在这里，我们提出了信噪比引导的注意力，以改善Transformer在这个特殊的任务.SNR感知型Transformer。图图5显示了我们的SNR感知Transformer和新的自注意模块。给定输入图像IRH× W ×3和相关的SNR映射SRH× W，我们首先将S的大小调整为S ′ Rh× w，以匹配特征映射F的大小。然后，我们按照将F划分为补丁的方式将S′划分为m个补丁，并计算每个补丁中的平均值，即，S iR1，i =1，...，M. 我们将这些值打包成向量Rm.它在Transformer的注意力计算中充当掩模，这可以避免来自极低SNR的图像区域的消息传播（见图11）。5）在Transformer中。S的第i个元素的掩码值为17718.--S ∈S∈−FF F FFF′^L=<$Φ（I）−Φ（I）<$，（8）vgg1i，b+（1− S）σ）Vi，b（6）KKKbbb∈∈^× ×√^表示为SI =0， Si< s，i= 1，.， m，（4）1、 Si≥s4. 实验4.1.数据集和实施详细信息我们在几个数据集上评估我们的框架，其中s是阈值。接下来，我们堆叠m个副本以形成矩阵′Rm× m。假设多头自注意（MSA）模块的头数为B（等式10）。（1）），Transformer的第i层中的第b个头部自关注计算Attentioni，bQi，b=qi Wq，Ki，b=ki Wk，Vi，b=vi Wv，以及（5）Qi，bKT′在低光图像区域中可观察到的噪声他们是LOL（v1v2）[45，53]，SID [5]，SMID [4]和SDSD [39]。LOL在v1和v2版本中都有明显的噪音。LOL-v1 [45]包含485对用于训练的低/正常光图像和15对用于测试的图像。每一对包括低光输入图像和相关联的曝光良好的参考图像。LOL-v2 [53]分为LOL-v2-real和LOL-v2-synthetic。LOL-v2-real包含689个Db低/正常光图像对用于训练，100对用于其中，q i、k i、v i Rm×（p× p × C）是等式1中的输入2D特征。（1）; W q，W k，W vR（p× p × C）×Ck表示第k个头部的投影矩阵; Qi，b，Ki，b，Vi，bRm×Ck分别是注意力计算中的查询、键和值特征。Softmax（）和Attentioni，b（）的输出形状分别为m m和m Ck，其中Ck是自注意计算中的信道数。此外，dk用于归一化，σ是一个小的负标量1e9。所有B头的输出被级联。所有的值都被线性投影以产生Transformer的第i层中MSA的最终输出因此，我们确保长期的注意力是从具有足够的信噪比的图像区域3.4.损失函数数据流。给定输入图像I，我们首先应用具有卷积层的编码器来提取特征F。编码器中的每个阶段都包含卷积层和LeakyReLU的堆栈[47]。在编码器之后使用残余卷积块。然后，我们将F转发到长距离和短距离分支以产生特征l和s。最后，我们将l和s融合到并使用解码器（与编码器对称）转换为残差R. 最终输出图像I′为I′=I+R。损失条款。有两个重建损失项来训练我们的框架，即，[25 ]第25章：不死之身Charbonnier损失写为Lr=I′−I2+2，（7）其中，I是基础真值，在所有实验中，λ被设置为10−3。感知损失使用L1损失比较I^和I '之间的VGG特征距离，其中Φ（）是从VGG网络中提取特征的操作[37]。总损失函数为L=Lr+λLvgg，（9）其中λ是超参数。1、A，B，C，D，E17719试验.大多数低光图像是通过改变曝光时间和ISO来采集的，而其他相机参数是固定的。通过分析RAW格式的照明分布来创建LOL-v2-synthetic。对于SID和SMID，每个输入样本是一对短曝光和长曝光图像。SID和SMID都具有严重的噪声，因为低光图像是在极端黑暗的环境中捕获的。对于SID，我们使用Sony相机捕获的子集，并遵循SID提供的脚本，使用rawpy的默认ISP将低光图像从RAW转换为RGB。对于SMID，我们使用其完整图像，并将RAW数据传输到RGB，因为我们的工作探索了RGB域中的低光图像增强。我曾以《易经》为题，以《易经》为题。最后，我们采用SDSD数据集[39]（静态版本）进行评估。它包含一个室内子集和一个室外子集，两者都提供低光和正常光对。我们在PyTorch中实现了我们的框架[34]，并在配备2080Ti GPU的PC上对其进行了训练和测试。我们使用高斯分布随机初始化的网络参数从头开始训练我们的方法，并采用标准增强，例如，垂直和水平翻转。我们的框架的编码器具有三个卷积层（即，步长1、2和2），其中在编码器之后有一个残差块。解码器与具有使用像素混洗层实现的上采样机制的编码器对称[36]。为了使损失最小化，我们采用Adam [23]优化器，动量设置为0.9。4.2. 与现有方法的我们将我们的方法与用于低光图像增强的丰富的SOTA 方法集合进行比较，包括 Dong [9] ， LIME[15]，MF [11]，SRIE [12]，BIMEF [55]，[28]，[29]DeepLPF [33] ， FIDE [48] ， LPNet [26] ， MIR-Net[59]，[24] ， 3DLUT [60] ， A3DLUT [42] ， Band [52] ， EG[20]，[29]此外，我们比较了我们的框架与两个最近的Transformer 结构的低级别任务，即，[14][15][16][17][18]定量分析相我们采用峰值信噪比17720[59]第二十六话：我的世界[53]第五十二话：我的世界[59]第五十二话：一个人的世界图6. LOLv 1、LOL-v2-real和LOL-v2-synthetic的目视比较（从上到下）。我们的方法产生更少的噪声和更高的可见性。方法东[9]柠檬[15][第11话]SRIE [12]BIMEF [55]DRD [45]RRM [28]SID [5][40]第四十话KIND [61]DeepLPF [33]FIDE [48]PSNR16.7216.7618.7911.8613.8616.7713.8814.3514.3820.8715.2818.27SSIM0.5800.5600.6400.5000.5800.5600.6600.4360.4460.8000.4730.665方法LPNet [26]MIR-Net [59]俄罗斯联邦[24]3DLUT [60]A3DLUT [42]乐队[52][20]Retinex [29]稀疏[53][6]Uformer [44]我们PSNR21.4624.1415.2314.3514.7720.1317.4818.2317.2016.2716.3624.61SSIM0.8020.8300.4520.4450.4580.8300.6500.7200.6400.5040.5070.842表1. LOL-v1的定量比较方法东[9]柠檬[15][第11话]SRIE [12]BIMEF [55]DRD [45]RRM [28]SID [5][40]第四十话KIND [61]DeepLPF [33]FIDE [48]PSNR17.2615.2418.7317.3417.8515.4717.3413.2413.2714.7414.1016.85SSIM0.5270.4700.5590.6860.6530.5670.6860.4420.4520.6410.4800.678方法LPNet [26]MIR-Net [59]俄罗斯联邦[24]3DLUT [60]A3DLUT [42]乐队[52][20]Retinex [29]稀疏[53][6]Uformer [44]我们PSNR17.8020.0214.0517.5918.1920.2918.2318.3720.0619.8018.8221.48SSIM0.7920.8200.4580.7210.7450.8310.6170.7230.8160.8130.7710.849表2. LOL-v2-real上的定量比较方法东[9]柠檬[15][第11话]SRIE [12]BIMEF [55]DRD [45]RRM [28]SID [5][40]第四十话KIND [61]DeepLPF [33]FIDE [48]PSNR16.9016.8817.5014.5017.2017.1317.1515.0415.0813.2916.0215.20SSIM0.7490.7760.7510.6160.7130.7980.7270.6100.6230.5780.5870.612方法LPNet [26]MIR-Net [59]俄罗斯联邦[24]3DLUT [60]A3DLUT [42]乐队[52][20]Retinex [29]稀疏[53][6]Uformer [44]我们PSNR19.5121.9415.9718.0418.9223.2216.5716.5522.0518.3019.6624.14SSIM0.8460.8760.6320.8000.8380.9270.7340.6520.9050.8110.8710.928表3. LOL-v2-合成的定量比较。比值（PSNR）和结构相似性指数（SSIM）[43]进行评估。一般来说，SSIM越高，结果中的高频细节和结构就越多表1-3显示了LOL-v1、LOL-v2-real和LOL-v2-synthetic的比较。我们的方法超越了所有的基线。请注意，我们可以从相应的论文中获得这些数字，也可以通过运行相应的公共代码获得这些数字。Out方法（24.61/0.842）在LOL-v1上也优于[22]（22.81/0.827）和[62]（21.71/0.834）。表4比较了SID、SMID、室内SDSD和室外SDSD的方法。我们的性能最好。定性分析首先，我们在图6（顶行）用于比较我们的方法与在LOL-v1上实现最佳性能（就PSNR而言）的基线。我们的结果显示了更好的视觉质量，具有更高的对比度，更精确的细节，颜色一致性和更好的亮度。图6还显示了LOL-v2-真实和LOL-v2-合成的视觉比较。虽然这些数据集中的原始图像此外，在具有复杂纹理的区域中，我们的输出表现出更少的视觉伪影。图7（顶行）示出了对SID的视觉比较，表明我们的方法可以有效地处理17721[59]第一届中国国际纺织品展览会[44]第四十四话：我的世界[59]第一届中国国际纺织品展览会[59]第一届中国国际纺织品展览会图7.SID（顶行）、SMID（第2行）、室内SDSD（第3行）和室外SDSD（第4行）的定性比较SidSmidSDSD-室内SDSD-室外方法PSNR SSIM PSNR SSIM PSNR SSIM PSNRSSIMDRD [45]16.48 0.578 22.83 0.684 20.840.61720.960.629SID [5]16.97 0.591 24.78 0.718 23.290.70324.900.693[40]第四十话17.01 0.604 23.91 0.690 21.700.66221.940.698KIND [61]18.02 0.583 22.18 0.634 21.950.67221.970.654DeepLPF [33]18.07 0.600 24.36 0.688 22.210.66422.760.658FIDE [48]18.34 0.578 24.42 0.692 22.410.65922.200.629LPNet [26]20.08 0.598 26.55 0.772 23.870.84122.090.629MIR-Net [59]20.84 0.605 25.66 0.762 24.380.86427.130.837俄罗斯联邦[24]16.44 0.596 23.11 0.681 20.970.65521.210.6893DLUT [60]20.11 0.592 23.86 0.678 21.660.65521.890.649A3DLUT [42]20.32 0.595 24.56 0.684 22.390.65622.950.692乐队[52]19.02 0.577 26.60 0.781 24.080.86825.770.841[20]17.23 0.543 22.62 0.674 20.020.60420.100.616Retinex [29]18.44 0.581 25.88 0.744 23.170.69623.840.743稀疏[53]18.68 0.606 25.48 0.766 23.250.86325.280.804[6]20.53 0.561 27.03 0.783 26.110.83127.550.850Uformer [44]18.54 0.577 27.20 0.792 23.170.85923.850.748我们22.87 0.625 28.49 0.805 29.440.89428.660.866表4. SID、SMID、室内SDSD和室外SDSD的定量比较。我们的方法始终表现最好。非常嘈杂的低光图像。图7还显示了SMID、SDSD-室内和SDSD-室外的视觉这些结果也表明，我们的方法是有效的，以提高图像的亮度和揭示细节，同时抑制噪声。50%的图像像素的强度低于30%。根据[ 40 ]中的设置，我们通过用户对图1所示六个问题的评分来评估结果。8使用1（最差）至5（最佳）的Likert量表。所有方法都是在SDSDSD-outdoor上训练的，因为[39]表明训练的图8报告了不同方法的评级分布，其中我们的方法得到更多的“红色”和更少的“蓝色”评级。此外，我们使用配对t检验（使用MSExcel中的T检验功能）对我们的方法和其他方法之间的评级进行了统计分析显著性水平为0.001时，所有t检验结果均具有统计学显著性，因为所有p值均小于0.001。4.3. 消融研究我们考虑四个消融设置从我们的框架中删除不同的组件单独。• “Ours w/o• “Ours用户研究。我们进一步进行了有100名参与者的大规模用户研究，以评估我们的方法和五个最强基线（通过SID，SMID和SDSD的平均PSNR选择）对增强iPhoneX或华为P30拍摄的总共有30张低光照片在各种环境中拍摄，包括道路，公园，图书馆，学校，肖像等，和• “Ours w/o• “Ours w/o我们对所有7个数据集进行了消融研究。表5总结了结果。与所有消融相比17722900720540360180Q1：细节是否容易察觉？900720540360180Q2：颜色鲜艳吗？900720540360180Q3：结果在视觉上真实吗？50MIR-NetIPTUformer带LPNet我们的0MIR-NetIPTUformer带LPNet我们的0MIR-NetIPTUformer带LPNet我们的310008006004002000Q4：结果是否没有过度曝光？7005604202801400MIR-NetIPTUformer带LPNet我们Q5 ：结果是否没有噪音？9007205403601800MIR-NetIPTUformer带LPNet我们的Q6 ：什么是你的整体评分？21MIR-NetIPTUformer带LPNet我们的图8.不同方法对用户研究中六个问题的评分分布。纵坐标轴记录从100名参与者接收的评级频率。显然，我们的方法得到更多的LOL-v1LOL-v2-realLOL-v2-合成SidSmidSDSD-室内SDSD-室外方法PSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMOurs w/oL16.270.63816.980.68720.810.88119.100.59326.200.77622.240.81820.030.713Ours w/oS23.060.82818.980.79023.470.91922.300.60427.000.76828.130.88425.430.823Ours w/oSA20.670.75218.850.76521.880.84221.020.54427.010.77425.780.83924.570.832我们的无A21.860.76019.400.78222.230.86621.190.55026.870.76927.360.87426.620.857我们24.610.84221.480.84924.140.92822.870.62528.490.80529.440.89428.370.862表5.消融研究的结果见第四点三。30.0020.0010.000.00PSNR0.9000.6000.3000.000SSIM在本节中，我们分析了包含其他操作时的影响，包括非局部均值[1]和BM 3D [8]。图图9示出了结果，揭示了我们的框架对获得SNR输入的策略不敏感。所有这些结果都优于基线。本地装置非局部均值BM3D局部均值非局部均值BM3d图9.我们的框架在数据集上产生一致的性能时，结合不同的去噪操作，以获得输入SNR先验。设置，我们的完整设置产生最高的PSNR和SSIM。“Ours w/o 结果还显示了“SNR引导的注意力”（“我们的w/o A“对“我们的”）和“SNR引导的融合”（“我们的w/o S“对”我们的“）的影响4.4. Influence of SNRPrior输入到我们框架的SNR是通过对输入帧应用基于非学习的去噪操作来获得的（2）译注。在所有的实验中，我们都采用了局部均值考虑到其快速性，将其作为去噪在5. 结论我们提出了一种新的SNR感知框架，共同利用短期和长期的操作，以动态增强像素的空间变化的方式。采用信噪比先验知识指导特征融合。信噪比感知的Transformer是用一个新的自注意模块来表示的。广泛的实验，包括用户研究，表明我们的框架始终达到最佳性能的代表性基准使用相同的网络结构。我们未来的工作是探索其他语义来增强空间变化机制。此外，我们计划通过同时考虑时间和空间变化操作来扩展我们的方法以处理低光视频。另一个方向是探索低光图像中接近黑色区域的生成方法[13，32]致谢我们要感谢教授。陈颖聪在香港科技大学（广州）进行讨论.417723引用[1] Antoni Buades、Bartomeu Coll和J-M.莫瑞尔一种非局部图像去噪算法。在IEEE Conf. Comput. 目视模式识别，2005年。四、八[2] 蔡建瑞、古书航、张磊。从多曝光图像学习深度单图像对比度增强器IEEE传输图像处理。，2018年。2[3] 达蒙·M Chandler和Sheila S.海见VSNR：基于小波的自然图像视觉信噪比IEEE传输图像处理。，2007年。1[4] 陈晨，陈奇峰，杨明.做，和弗拉德伦Koltun。在黑暗中看到运动。在国际会议计算中目视，2019年。二、五[5] Chen Chen，Qifeng Chen，Jia Xu，and Vladlen Koltun.学会在黑暗中看东西。在IEEE Conf. Comput. 目视模式识别，2018年。二五六七[6] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer 。在IEEE Conf. Comput.目视模式识别，2021年。二三五六七[7] 陈玉生、王玉清、高满新、庄永玉。深层照片增强器：使用GANs从照片中进行图像增强的非配对学习。在IEEE Conf. Comput.目视模式识别，2018年。2[8] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。基于块匹配和三维滤波的图像去噪在图像处理中：算法与系统，神经网络和机器学习，2006年。四、八[9] Xuan Dong ， Guan Wang ， Yi Pang ， Weixin Li ，Jiangtao Wen，Wei Meng，and Yao Lu.一种快速有效的低光照视频增强算法。在Int. Conf. 多媒体和博览会，2011年。五、六[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变压器在Int.Conf.学习.代表。，2021年。3[11] Xueyang Fu，Delu Zeng，Yue Huang，Yinghao Liao，Xinghao Ding，and John Paisley.一种基于融合的弱光照图像增强方法。信号处理，2016年。五、六[12] Xueyang Fu ， Delu Zeng ， Yue Huang ， Xiao-PingZhang，and Xinghao Ding.同时估计反射率和照度的加权变分模型。在IEEE Conf. Comput.目视模式识别，2016年。一、五、六[13] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·

下载后可阅读完整内容，剩余1页未读，立即下载