实时图像增强器：基于可学习空间感知3D查找表的深度学习方法

168 浏览量更新于2023-10-13 收藏 2.01MB PDF 举报

视觉感知

计算效率

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2471××基于可学习空间感知3D查找表的实时图像增强器陶旺*，李勇*，彭景阳*，马义鹏，王贤，宋凤龙†，游亮Yan†华为诺亚{wangtao10，liyong156，pengjingyang1，mayipeng，wangxian10，songfenglong，yanyouliang} @huawei.com摘要最近，基于深度学习的图像增强算法在几个公开可用的数据集上实现了最先进的（SOTA）性能。然而，大多数现有方法不能满足视觉感知或计算效率的实际要求，特别是对于22.522.021.521.0我们HPEU MM'19DeepLPF CVPR'20DPED ICCV'17HPEU640x480（480p）3840x2160（4K）高分辨率图像。在本文中，我们提出了一种新的实时图像增强器，通过学习空间感知的三维查找表（3DLUT），它充分考虑了全球的情况下，当地的空间信息。具体来说，我们引入了一个轻量级的双头权重预测器，它HDRNet TOG'1720.53DLUT20.0TPAMI'20UPE CVPR'1919.5RSGUNet ECCV'18RSGUNetUPEDPED有两个输出。一个是用于图像级场景适应的1D权重向量我们学习空间感知的3D LUT，并且以端到端的方式根据前述权重来融合它们。然后使用融合的LUT以有效的方式将源图像变换为目标色调。大量的结果表明，我们的模型优于SOTA图像增强方法在公共数据集上的主观和客观，我们的模型只需要大约4ms处理一个NVIDIA V100 GPU上的4K分辨率的图像。1. 介绍最近，已经提出了许多基于深度学习的方法，并取得了SOTA结果[9，15，25，4，20，21]。14，26，19，28]在计算成像领域然而，复杂的网络结构和高计算开销阻碍了它们的实时处理。图1示出了性能和效率的比较（即，在HDR+ Burst Photography数据集[6]上的几种网络架构的执行时间）。大多数现有方法不能实时产生视觉上令人愉快的结果。由于采集场景的多样性，从性能和效率两方面考虑，图像增强仍然是一个很大的挑战。最近，许多混合方法[8，25，30]，其将图像先验结合在传统方法*作者平均†通讯作者100 101 102 103执行时间（ms）图1：在NVIDIA V100 GPU上，针对480p（640 480）和4K（3840 2160）分辨率的不同方法在HDR+连拍摄影数据集上的性能和效率。我们的方法实现了最高的峰值信噪比和第二快的执行速度。DeepLPF [16]在4K分辨率下内存不足。方法和基于深度学习的方法中的多级特征，并实现SOTA性能。[25] 提出了一种新的图像增强方法，该方法具有图像质量好、计算效率高、内存消耗少的特点。然而，正如作者指出的局限性，它的工作原理简单的像素值的基础上，没有考虑到本地信息。这可能会在局部地区产生不太满意的结果。例如，如图7所示，局部对比度在高动态范围场景中捕获的一些结果中受到限制。此外，还存在一些颜色失真和伪像，如图8所示。为了解决这些问题，我们提出了一种新的基于CNN的图像增强方法，其中空间信息被引入到传统的3D查找表，以提高其性能。特别地，T个空间感知3D LUT（每个空间感知3D LUT是M个基本可学习3D LUT的集合）和双头权重预测器在新的损失函数下被同时训练，权重预测器具有两个输出。一个是具有全局信息的1D权重向量峰值信噪比（dB）2472Mh=256w=256convconv漏k=3 s=1 k=3 s=2 ReLU在FC调整大小h=Hw=W当地平均瓷砖编码解码Concat池块块输入[H，W，3]3163264128256特征全球 12864321616M MMM不逐像素类别VOV1不......ωOMω1...��OVT-1...ωT-1vOv 1v M-1空间感知三线性插值输出图2：我们提出的框架概述。它由多个空间感知3D LUT（即，T个空间感知3D LUT，每个具有由M通道逐像素类别信息选择的M个基本3D LUT），自适应双头权重预测器，以及用于空间感知3D LUT的内插。权重预测器将下采样图像作为输入并生成两个输出。一个是用于图像级场景自适应的1D权重向量，另一个是用于像素级类别融合的3D权重图，使我们的基于LUT的增强器具有图像自适应空间感知能力。用于在维度T上整合不同LUT的方法另一个是一个3D权重图与像素级类别信息的目的是在维度M上的多个LUT的组合，这被称为像素级类别融合。通过根据上述两种权重融合空间感知3D LUT来获得增强图像。此外，在NVIDIA V100 GPU平台上处理一幅4K分辨率的图像仅需4 ms。主要贡献概述如下：• 我们提出了一个空间感知的三维查找表架构，通过构建多个基本的三维查找表，并引入两个头的权重预测。该架构使得其在局部增强中更加鲁棒。• 我们设计了一个双头权重预测器，它学习图像级场景和像素级类别信息，计算开销低。这种权重信息与空间感知3D LUT相结合有效地提高了图像增强的性能，并且在我们的损失函数的监督下在细节、颜色和感知之间很好地平衡• 我们进行了广泛的实验，比较我们的ap-proach与现有的方法在两个公共数据集。结果表明，我们的方法的优势，定量和定性的性能和效率。2. 相关工作现有的基于学习的方法可以大致分为三类，即像素级、块级和图像级方法。像素级方法。这类方法采用CNN从初始尺寸的输入图像中提取特征，并通过密集的像素到像素的映射或变换操作来重构每个像素。这种方法已经取得了很大的突破，并在许多图像增强任务中实现了SOTA性能[11，22，29，3，24，16，2]。[10]提出了一种残差CNN架构作为增强器，以学习低质量手机图像和高质量数字单镜头反射（DSLR）图像之间的逐像素转换函数。[3，11，2，8]都采用源自[18]的UNet风格结构，用于不同的图像质量增强任务。尽管它们具有SOTA性能，但这些密集的逐像素特征提取和再生方法太重而不能用于实际应用，特别是对于高分辨率输入图像[25]。补丁级方法。这些方法从下采样的输入图像生成压缩特征。然后，将特征的不同部分应用于不同的局部输入块以重建增强图像。[5]提取局部和全局特征作为低分辨率的双边网格，然后根据网格和a应用插值。............2473M（h，w）（h，w）× ×M--=φ（I0{I联系我们=µ（I0}000元素，其中N是M00{|∈∈ ∈}∈{|∈∈∈学习全分辨率的特征图。基于相同的插值操作，[21]学习全分辨率照明图来修饰输入图像。Wu等人[23]介绍了[7]中提出的引导滤波器，他们构建了一个可训练的引导滤波层并将其插入网络中，用于对增强的低分辨率图像进行上采样。尽管块级方法在计算和存储器消耗方面表现良好，但它们仍然使硬件资源过载，特别是对于超高分辨率图像。图像级方法。这些方法具有最高的计算效率和最低的内存消耗。它们从下采样的输入图像计算全局缩放因子或映射曲线，然后将其应用于整个输入图像以进行增强。[25]提出了图像自适应3D LUT以实现高效的图像增强，在NVIDIA Titan RTX GPU上处理4K图像仅需1.66 ms。然而，由于没有考虑空间信息，难以确保鲁棒性，这可能容易导致局部对比度低或甚至在一些局部区域中颜色错误，如图7和图8所示。3. 方法在本节中，我们将详细介绍我们的网络框架和损失函数。图2示出了我们的网络架构的基本模块，其由多个空间感知3D LUT、自适应双头权重预测器和空间感知三线性插值组成。3.1. 网络架构空间感知3D LUT。 3D LUT是一种有效的颜色M逐点相乘α0 α1αm-1...Mv0v 1vm-1H添加M逐像素类别权重（i，j，k）（r，g，b）输入输出（h，w）W1 × 1 × M图3：空间感知3D LUT的可视化。具有像素值（r，g，b）的位置（h，w）处的输入像素对应于M个LUT单元v1和大小为11M的逐像素权重图，其中3DLUT键（i，j，k）从（r，g，b）值中索引。由M个基本LUT的加权和结果生成的最终融合LUT单元用于获得输出。对像素值敏感，并丢弃像素我们提出了新的空间感知的3D LUT，涉及M个传统的3D LUT，其中每一个代表一种映射。对于最终的结果，我们的方法自适应地融合多个LUT根据像素的权重图。如等式2所示，Φh，w，c是整个映射，νc是第m个LUT的映射，并且IH−1，wIW−1，mIM−1是一个空间感知的像素级位置（h，w）处的M个3D LUT的权重图。映射运算符，它包含两个基本操作：查找和插值。为了描述的简单，我们不描述3D LUT中的内插操作，而是描述3D LUT中的内插操作。h、w、c（i，j，k）M−1h、w、cR（i，j，k）G（i，j，k）B（i，j，k），αh，w）将其简化为仅在本小节中查找。=Σαh，wνc（Ir，Ig，Ib（m）等式1指示映射函数。在RGB颜色域中，经典的3DLUT被定义为3D立方体Mm=0M−1（i，j，k）（i，j，k）（i，j，k）3=Σαh，wOm，c（二）在每个颜色通道中每个元素定义一个像素到像素映射µc（i，j，k），其中i，j，k = 0，1，. . . ，N-1，哪里m=0h、w、cm，c在以下部分中缩写为i、j、k/N-1，是3D LUT内的元素渠道之一映射的输入是RGB颜色O（i，j，k）是最终的空间感知结果，并且O（i，j，k）是第m个3D LUT的映射结果。注意，像素被自适应地分类为不同的像素。R（i，j，k）G（i，j，k）B（i，j，k）}，其中i、j、k由通过端到端的学习方法进行分类提取颜色、光照、语义等信息。输出是对应RGB值的映射之后的像素值，并且输出是针对通道c的映射之后的像素值，如在等式1中。〇c是3D LUT的输出，其中c r，g，b，并且r，g，b分别是红色、绿色、蓝色通道的颜色值这将我们的模型推广到不同的用例，并促进其学习能力。图3可视化了我们的空间感知3D LUT。我们用V={φh，w，c（i，j，k，αh，w）}表示一个集合C（i，j，k）CR（i，j，k）G（i，j，k）B（i，j，k））（1）空间感知3D LUT中的所有映射。因此，Y =V（X，A）指示将空间感知3D LUT应用于输入3DLUT。显然，传统的3D LUT映射仅依赖于像素值，而没有考虑空间信息。换句话说，这种转变只是有意义的-把图像X。A =αh，whIH−1，wIW−1，mIM−1是逐像素类别信息，将在下一部分介绍。O，我，我，我，我O，我，我含有NM（i，j，k）2474.Σ.ΣΣHWL2ΣM不0M000自适应双头权重预测器。提出了一种自适应双头权值预测器来支持图像-实验室空间作为我们的颜色损失。详细描述见[13]和补充材料。自适应空间感知3D LUT。图2上部显示了它的框架，这是一个具有两个输出的UNet风格的主干。第一个是具有T个概率{ω}的1D权重向量|t∈IT−1}，其中T是场景编号。Lc=.简体中文∆C2+SC∆H2SH+（4）这些T概率用于场景自适应。我们假设场景是全局特征，并且其概率可以由概率向量中的单个值表示利用这些概率，场景自适应3D LUT可以知觉丧失。选择LPIPS损失[27]来提高增强图像的感知质量。Hl，Wl由T个空间感知3D LUT共同学习对于输入图像X，最终增强结果Y可以表示如下。在下面的实验中，我们设置T= 3L=1pHlW lLh=1，w=1¨yˆl-yhw¨2（五）”[25]。T−1Y =ωtt=0（3）A（X，y）其中，l是被选择用于计算Ipips损失的层，并且y（l，yl是预训练的AlexNet上的对应的地面实况特征和增强特征。最后，损失函数被定义为具有以下系数的不同损失的加权和第二个输出是M通道3D权重图，其中H×W×M概率A={αh，w|h∈IH−1，w∈L=Lr+0。000 1*Ls+1 0*Lm+0。00 5*Lc+0。05*Lp（6）IW−1，m∈IM−1}，如图2所示。每个通道对应于如图3所示的特定LUT的融合权重。利用像素级权重信息，将空间特征融合到3D LUT中，极大地提高了增强效果，局部对比度和饱和度。详细结果分析见第4节。我们的权重预测器将调整大小的低分辨率图像作为输入，使其能够实时处理任意大小的图像。此外，编码器-解码器架构增加了感受野大小，这在生成逐像素类别特征方面是强大的。空间感知三线性插值。考虑到算法的效率和性能，本文采用了基于三线性的插值方法来提高增强结果的光滑性，详细推导请参考补充资料。由于逐像素类别权重图αh，w的空间感知特性，将插值定义为空间感知三线性插值。3.2. 损失函数我们的损失函数包括MSE损失、平滑损失[25]、单调性正则化损失[25]、色差损失和感知损失。MSELoss（Lr）保证了生成图像的内容一致性。引入平滑损失（LS）和单调正则化损失（LM此外，为了促进增强定量和感知，我们引入色差损失（Lc）和感知损失（Lp）的优化过程。色差损失为了测量颜色距离并鼓励增强图像中的颜色与相应学习目标中的颜色相匹配，我们在4. 实验数据集。我们在两个公开可用的数据集上评估我们的方法：MIT-Adobe FiveK [1]和HDR+连拍摄影[6]。由于[25]在两个数据集上都实现了SOTA性能，并且还发布了其480 p数据集（只有480 p，w/o全分辨率），因此我们直接采用他们发布的480 p数据集进行性能评估。我们还构建了两个新的数据集进行进一步的比较。一个是全分辨率 MIT-Adobe FiveK 数据集。ExpertC图像用作地面实况，而输入DNG图像自动转换为PNG图像作为输入。我们使用与[25]相同的文件列表进行训练和测试。另一个是480p和全分辨率HDR+数据集。我们的输入图像是合并的DNG图像（即，merge.dng）由具有自动白平衡的pythonrawpy库进行后处理，而地面实况图像被保持为软件输出（即，final.jpg）。由于大多数场景在原始数据集中没有很好地对齐，因此我们进行手动比较并删除偏移量较大的图像对。通过这种方式，我们构建了一个包含2041个图像对的数据集。最后，我们将数据集中的图像对随机分为两个子集：1837个图像对用于训练，其余204个图像对用于测试。由于[25]发布的480p HDR+数据集的数量相对较小（675对），我们还构建了我们的480pHDR+数据集，其中短边调整为480像素，长边按比例调整。评估指标。我们采用三种常用的度量（即，PSNR、SSIM和LPIPS）来定量评估不同方法的性能。一般来说，较高的PSNR/SSIM和较低的LPIPS意味着更好的结果。2475PSNRSSIMSSIM↑ ↑↓--方法（T，M）配置GFLOPS #参数PSNR SSIMLPIPS CNN输入权重预测器#3DLUT30×基本1×空间感知3×空间感知表1：CNN权重预测因子和3DLUT的不同组合的消融研究。空间感知3D LUT由M个基本3D LUT组成。22.7522.5022.2522.000.760.74LbLcLpPSNR↑ SSIM↑LPIPS↓22.54 0.727322.610.7342 0.184222.560.7408C C C22.73 0.74200.158021.75 0.7221.5021.250.70表2：功能丧失的消融研究。21.0020.7512346810121416243264数量的类别0.68我们的整个架构的贡献，我们不断进行以下实验与不同的组合-图4：消融研究的类别数量（M）。应用程序设置。我们使用pytorch [17]实现我们的网络，并在NVIDIA V100 GPU上训练所有模块400个epoch，小批量为1。整个网络使用标准Adam [12]进行优化，其余弦退火学习率具有幅度2 e-4和周期20个epoch。空间感知三线性插值通过定制的CUDA代码加速。4.1. 消融研究为了证明我们的方法的不同组成部分的有效性，我们对我们的HDR+数据集进行了几次消融研究。LUT的数量M。我们评估不同设置的性能，以确定T= 3的空间感知3D LUT的逐像素类别的数量。图-图4示出了具有不同像素类别数（M）的模型的性能。= 1至M =2、3、4、6、8、10、12、14、16、24、32、64。我们可以看到一个ev-通过将M从1增加到10，可以获得相同的改善，但是如果M进一步增加，则改善不大或者甚至恶化。因此，在我们的所有以下实验中，M被设置为10。双头权重预测器。为了进一步证明CNN 权重预测器和3D LUT 的比较（t，m）表示CNN配置，其中T=t，M=m。如表1所示，基于Zeng的[ 25 ]方法直接增加LUT的数量我们的双头权重预测器和空间感知3D LUT都很重要。我们的1D权重（即，我们的（30，0））在单独使用时不能很好地单独工作，即使LUT的数量与我们的最终配置相同。3D权重（即，我们的（0，30））在与我们的空间感知插值合作时显示出性能改进的有效性当使用1D权重和3D权重两者时（即，我们的（3，10）），我们的模型表现更好，与原始模型相比，PSNR总共提高了2.82 dB。此外，我们的方法也可以很好地工作在全分辨率图像（即，我们的（3，10）），仅具有0.17dB的降级-在PSNR。在删除CNN权重预测器中的第一个和最后一个调整大小操作（即，ours-noresize*（3，10）），可以实现0.09 dB的改进，但计算FLOPS从8.111G提高到113.79G。因此，我们使用我们的（3，10）和resize操作，如图2所示我们最终的建筑损失函数[25]中的损失函数被定义为我们的基本损失（Lb），它是MSE损失、平滑损失和单调性损失的组合。我们使用不同的损失组合来训练模型，以评估损失函数的影响。PSNR3DLUT（3，0）3DLUT（30，0）我们的（30，0）我们的（0，30）我们的（3，10）[25日][25日]我们的我480p480p480p480p480p1D1D1D3D1D 3D3×基本30×基本3×空间感知0.206 539K 19.910.209 3.72M 20.290.228 3.74百万20.381.934 4.48百万22.521.114 4.52百万22.730.6567 0.24550.6614 0.23060.6888 0.22490.7316 0.18780.7420 0.15802476× ××(a) 输入（b）Lb（c）Lb+Lc(d) Lb+Lp（e）Lb+Lc+Lp（f）基础事实图5：损失函数消融研究的视觉结果。(b)是模糊的，这意味着仅Lb不能保证满意的结果。(c)在Lc的监督下，植物看起来更生动，颜色更接近地面，但植物看起来仍然模糊。通过引入Lp，（d）在细节上更清晰、更尖锐，就像狗毛和草一样。利用Lc和Lp两者，（e）在颜色、细节和局部对比度方面得到显著改善，并且具有最令人愉快的感知。图6：像素感知类别权重图的视觉结果。在每一行中，第一个是地面实况，其他三个是不同通道的可视化红色像素表示更多激活，蓝色像素表示更少激活。表2中展示了定量结果，表明仅用Lb训练的模型得到相对较差的结果，并且在引入颜色损失和感知损失之后，所有3个更多的分析可以在图5中找到。4.2. 逐像素分类图一些逐像素类别图被可视化以用于分析。我们不对类别图应用任何损失，希望它可以对网络进行图像自适应，但从人的角度来看，它不能进行感知自适应一方面，感知自适应类别映射不能保证更好的性能。事实上，我们首先在类别图上应用显式损失，但发现PSNR下降了1.52dB。另一方面，图像可以根据语义、光照或网络本身学习的其他对于图6中的第一行，可以用分别指示人、天空和建筑物的三个图对图像进行语义分类。对于第二行，亮度由我们的权重预测器学习，其中三个图表示中，低和高照明区域。4.3. 与现有技术的我们将我们的方法与几种SOTA监督图像增强方法进行了比较，包括DPED [10]，RSGUNet [9]，HPEU[8]，HDRNet [5]，UPE [21]，DeepLPF [16] ， 3DLUT [25] 在 MIT-Adobe FiveK 和HDR+数据集上。其中，DPED、RSGUNet HPEU和DeepLPF是基于ResNet和Unet主干的像素级增强方法，而HDRNet和UPE属于块级方法，3DLUT是图像级方法。所有这些方法都是由公开的源代码和推荐的配置训练的。如表3所示，我们的方法在MIT-Adobe FiveK上的PSNR 和 LPIPS方面优于其他方法。对于 480p 上的SSIM，我们的结果比DeepLPF低一点（1%），但所有其他指标都比DeepLPF好得多。特别地，由于大的存储器消耗，复杂的DeepLPF算法不能应用于全分辨率图像（即，4K分辨率图像）。类似的结果可以在表4中在HDR+数据集上看到。我们的模型优于第二个最好的模型0.85dB和1.59dB的480p和全分辨率分别。我们的480p HDR+数据集和[25]之间的每帧差距可能是我们的HDR+数据集的数量比[25]大得多针对HDR+数据集的映射在局部上更复杂，因为它包含具有更宽动态范围和更多样照明的场景因此，我们的空间感知的3DLUT与像素类别地图是更适应这些局部变量的转换，并有一个明显的改善。在所有的数据集上，与基本的3DLUT方法相比，我们的方法在所有的准则上都有很大的改进。如图7和图8中所示的视觉结果，它表明我们的结果在视觉上更令人愉快，并且更接近地面实况。在补充材料中可以找到更多的视觉效果。除了令人愉快的视觉感受，我们的方法是有效的低和高分辨率的图像。表5显示了输入大小为640的不同模型的推理时间480、1920年1080和384032GB上2160NVIDIA V100 GPU。与3DLUT相比，我们的模型需要更长的运行时间，但它比所有其他方法快两个数量级。此外，它只需要约4毫秒，我们的模型处理4K分辨率的图像，这超过了实时处理的要求，ING了大量。高效率主要是由于我们的CNN网络生成两个2477↑ ↑ ↓ ↑ ↑↓↑ ↑ ↓ ↑ ↑ ↓ ↑ ↑↓方法480p（[25]）全分辨率（Ours）PSNR SSIM LPIPS PSNR SSIMLPIPSRSGUNet [9] 22.16 0.8382 0.0701 21.37 0.7998 0.1861DPED [10] 24.06 0.8557 0.0935不适用HPEU [8] 24.14 0.8754 0.079622.840.8356 0.2070人类发展报告网[5] 24.22 0.8821 0.0609 22.150.8403 0.1823UPE [21] 21.35 0.8191 0.1162 20.03 0.7841 0.2523DeepLPF [16]25.290.89850.0528不适用不适用3DLUT [25] 25.24 0.8864 0.0530 22.27 0.8368 0.1832我们的25.500.89040.0512 23.17 0.8636 0.1451表3：MIT-Adobe FiveK的定量结果N.A. 表示由于GPU内存不足，结果不可用方法480p（[25]）480p（我们的）全分辨率（我们的）PSNR SSIM LPIPS PSNR SSIM LPIPS PSNR SSIM LPIPS RSGUNet [9] 25.03 0.8903 0.075119.47 0.6725 0.2023 19.760.69450.24742019 - 06 - 21 00：00：002019 - 06 - 2510：00：00人类发展报告网[5] 26.72 0.9024 0.0758 20.95 0.6914 0.2310 20.04 0.6378 0.3559UPE [21] 24.96 0.8655 0.1144 19.87 0.6445 0.2693 19.42 0.5516 0.4568DeepLPF [16]27.440.93880.0496 22.130.74670.1986不适用不适用3DLUT [25] 23.59 0.8844 0.1057 19.91 0.6567 0.2455 19.88 0.5942 0.4089我们的28.290.92790.0562 22.730.74200.1580 22.56 0.69960.2808表4：HDR+数据集的定量结果N.A. 表示由于GPU内存不足，结果不可用决议640x4801920x1080 3840x2160RSGUNet [9]6.1237.16158.4DPED [10]58.63408.51702HPEU [8]5.7536.88189.1人类发展报告网[5]3.8231.68142.2UPE [21]4.1633.3133.26DeepLPF [16]40.38146.8N.A.3DLUT [25]1.131.191.22我们2.272.344.39表5：我们的方法和当前基于SOTA CNN的方法在不同分辨率上的运行时间（以毫秒为单位）比较。所有方法都在NVIDIA V100 GPU上进行了测试N.A.表示由于GPU内存不足，结果不可用。种的权重信息，从一个低分辨率的输入，空间感知插值敏感的图像大小，大大加快了通过定制的CUDA代码。因此，我们的空间感知3D LUT的运行时间保持大致不变，而除了3DLUT之外的其他竞争方法随着分辨率变高而花费指数级更长的时间。5. 讨论和结论传统的3DLUT仅通过RGB颜色进行内插，导致池局部对比度，而双边网格通过亮度和空间进行内插。然而，这导致更多的计算开销和更长的推理时间的双边网格，因为他们强烈地耦合切片操作和输入的分辨率的指导地图该引导图的计算是繁重且耗时的，特别是对于高分辨率输入。表4显示HDRNet中的双边网格对分辨率敏感，对于推断480p和4K图像，PSNR相差0.91dB。我们可以得出结论，对于固定的网格大小，HDRNet的性能随着输入分辨率的增大而降低另一方面，我们提出的空间感知的3D LUT产生迷人的结果，具有良好的其核心思想是构造空间感知的三维查找表与像素的类别映射，以提高鲁棒性的传统三维查找表在局部区域。此外，我们设计了一个双头权重预测器，生成不同级别的类别信息，使我们的网络是图像级的场景和像素级的类别自适应。在公共数据集上的大量实验证明了该方法在性能和效率上都优于许多SOTA方法。2478（a）投入（b）DPED [10]（c）HPEU [8]（d）HDRNet [5](e) DeepLPF [16]（f）3DLUT [25]（g）Ours（h）Ground-truth图7：480 p MIT-Adobe FiveK数据集的“a3909”结果比较。我们的结果优于所有其他方法在颜色和细节。例如，（b）在面部和衣服上有点红色，（c）、（d）和（f）在背景区域中饱和度不足，（c）在人周围具有明显的轮廓伪影，以及（e）与我们的结果相比有点暗，并且衣服上的一些纹理丢失。(a) 投入（b）DPED [10]（c）HPEU [8]（d）HDRNet [5](e)DeepLPF [16]（f）3DLUT [25]（g）Ours（h）Ground-truth图8：我们的480p HDR+连拍摄影数据集的“5a9e 20150403 162152 482”的结果比较。（c）和（d）的结果都是微黄色的，尤其是在蓝色块区域。(b)显示天空中有严重的弯曲伪影。（e）的结果在红色块区域中是模糊的。我们的模型更接近地面实况，颜色更好，纹理更清晰，伪影更少。此外，由于像素感知的类别信息，我们的模型能够不同地增强局部区域，而传统的（f）只能均匀地增强整个图像，红色块中的局部区域保持黑暗。2479引用[1] VladimirBychko vsky ， SylvainParis ， EricChan 和 Fre´doDurand。使用输入/输出图像对的数据库学习摄影全局色调调整CVPR 2011，第97-104页IEEE，2011年。4[2] Chen Chen，Qifeng Chen，Jia Xu，and Vladlen Koltun.学会在黑暗中看东西在IEEE计算机视觉和模式识别会议论文集，第3291-3300页2[3] 陈玉生、王玉清、高满新、庄永玉。深层照片增强器：基于非配对学习的gans图像增强算法。在IEEE计算机视觉和模式识别会议的论文集，第6306-6314页，2018年。2[4] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.使用深度卷积网络的图像超分辨率。IEEETransactionsonPatternAnalysisandMachineIntelligence，38（2）：295-307，2015。1[5] Mich aeülGharbi ， Ji a wenChen ， JonathanTBarron ，SamuelWHasino f f，andFre´ doDurand. 用于实时图像增强的深度双边学习 ACM Transactions on Graphics（TOG），36（4）：1-12，2017。二、六、七、八[6] Samuel W Hasinoff ， Dillon Sharlet ， Ryan Geiss ，Andrew Adams ， Jonathan T Barron ， Florian Kainz ，Jiawen Chen，and Marc Levoy.用于移动相机的高动态范围和低光照成像的连拍ACM Transactions on Graphics（TOG），35（6）：1-12，2016。1、4[7] 何开明，孙建，唐晓鸥。引导图像滤波。欧洲计算机视觉会议，第1-14页。施普林格，2010年。3[8] Jie Huang，Zhiwei Xiong Xueyang Fu，Dong Liu，andZheng-Jun Zha.用渐进拉普拉斯增强单元进行混合图像增强。在第27届ACM国际多媒体会议的会议记录中，第1614一二六七八[9] Jie Huang，Pengfei Zhu，Mingrui Geng，Jiewen Ran，Xing-guang Zhou ， Chen Xing ， Pengfei Wan ， andXiangyang Ji.用于移动设备上感知图像增强的范围缩放全局u网络。在欧洲计算机视觉会议（ECCV）的会议记录中，第0-0页，2018年。一、六、七[10] Andrey Ignatov 、 Nikolay Kobyshev 、 Radu Timofte 、Kenneth Vanhoey和Luc Van Gool。使用深度卷积网络在移动设备上拍摄数码单反品质的照片在IEEE计算机视觉国际会议论文集，第3277-3285页，2017年。二、六、七、八[11] Yifan Jiang，Xinyu Gong，Ding Liu，Yu Cheng，ChenFang，Xiaohui Shen，Jianchao Yang，Pan Zhou，andZhangyang Wang.启迪：无需配对监督的深度光增强。arXiv预印本arXiv：1906.06972，2019。2[12] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[13] 布鲁斯贾斯汀Lindbloom三角洲E（CIE1994年），2017（已访问）十一月10 2020年）。网址：//www.brucelindbloom.com/index.html?Eqn_DeltaE_CIE94.html。4[14] Yiqun Mei，Yuchen Fan ，Yulun Zhang ，Jiahui Yu ，Yuqian Zhou，Ding Liu，Yun Fu，Thomas S Huang，and Honghui Shi.图像恢复的金字塔注意力网络arXiv预印本arXiv：2004.13824，2020。1[15] 肖恩·莫兰，阿莱斯·莱昂纳迪斯，史蒂文·麦克唐纳，还有格里高利·斯拉博. Curl：用于全局图像增强的神经曲线层。arXiv，第arXiv-1911页，2019年。1[16] Sean Moran，Pierre Marza，Steven McDonagh，SarahParisot，and Gregory Slabaugh. Deeplpf：用于图像增强的深度局部参数滤波器。在IEEE/CVF计算机视觉和模式识别会议论文集，第12826-12835页，2020年。一二六七八[17] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在NIPS-W，2017年。5[18] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。2[19] Ying Tai ， Jian Yang ， Xiaoming Liu ， and ChunyanXu.Mem- net：一种用于图像恢复的持久存储网络。在IEEE计算机视觉国际会议论文集，第4539-4547页，2017年。1[20] Thang Vu、Cao Van Nguyen、Trung X Pham、Tung MLuu和Chang D Yoo。通过去子像素卷积神经网络快速有效地增强图像质量在欧洲计算机视觉会议（ECCV）的Proceedings中，第0-0页，2018年。1[21] Ruixing Wang，Qing Zhang，Chi-Wing Fu，XiaoyongShen，Wei-Shi Zheng，and Jiaya Jia.使用深度照明估计的曝光不足照片在IEEE计算机视觉和模式识别会议论文集，第6849-6857页，2019年。三六七[22] Chen Wei，Wenjing Wang，Wenhan Yang，and JiayingLiu.用于弱光增强的深度retinex分解。2018年英国机器视觉会议。2[23] Huikai Wu ， Shuai Zheng ， Junge Zhang ， and KaiqiHuang.快速端到端可训练引导过滤器。在IEEE计算机视觉和模式识别会议论文集，第1838-1847页3[24] Syed Waqas Zamir 、 Aditya Arora 、 Salman Khan 、Munawar Hayat 、 Fahad Shahbaz Khan 、 Ming-HsuanYang和Ling Shao。学习丰富的功能，真实图像恢复和增强。arXiv预印本arXiv：2003.06792，2020。2[25] Hui Zeng，Jianrui Cai，Lida Li，Zisheng Cao，and LeiZhang.学习图像自适应三维查找表，用于实时高性能照片增强。 IEEE Transactions on Pattern Analysis andMachine Intelligence，2020。一二三四五六七八[26] Kai Zhang ， Wangmeng Zuo ， Yunjin Chen ， DeyuMeng ， and Lei Zhang.Beyond a Gaussian denoiser ：Residual learning of deep cnn for image denoising.IE

下载后可阅读完整内容，剩余1页未读，立即下载