多次曝光LDR图像的鲁棒真实世界图像增强

134 浏览量更新于2023-10-16 收藏 1.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1715基于多次曝光LDR图像的鲁棒真实世界图像增强浩宇任毅范黄耀明Oppo移动通信公司3570 Carmel Mountain Road，圣地亚哥，美国摘要由于输入图像之间的不一致性，例如大运动或各种曝光，从多曝光低动态范围（LDR）图像中鲁棒地增强真实世界图像是一项具有挑战性的任务在本文中，我们提出了一种新的端到端的图像增强网络来解决这个问题。在从LDR图像中提取背景信息后，我们设计了一种新的匹配体积，通过考虑输入图像之间的运动和曝光差异来对齐它们。进一步利用具有膨胀卷积的堆叠沙漏将匹配的特征图聚合到最终增强图像。此外，我们设计了一个弱监督的成对损失函数来评估增强图像中的颜色一致性，这进一步提高了性能。我们展示了我们的方法在高动态测距成像（HDR）和端到端图像信号处理（E2 E-ISP）任务上的有效性。实验结果表明，我们的模型达到了最先进的增强性能。1. 介绍低动态范围（LDR）图像多次曝光后的图像增强是一个具有实际意义和挑战性的问题。大多数照相机只能拍摄动态范围有限的照片为了满足人眼视觉要求，需要生成高动态范围的图像。随着数字重叠（DOL）相机在手机中的广泛使用，该问题成为图像信号处理（ISP）流水线中的重要功能之一为了解决这个问题，传统的方法是选择一个参考图像，并使用其余的图像来补偿由于曝光过度或最近，已经部署了深度卷积神经网络（CNN），因为它们表现出显著的准确性改进。这项任务有两大挑战。第一个挑战是前景物体的运动。现有技术涉及诸如基于光流的图像变形的某种对准过程。遗憾的是，在低光室内或夜景等光线较差的场景中，图1.多曝光图像增强现实世界图像的挑战Top - HDR当输入图像具有较大的前向差异时。底部-E2 E-ISP，当输入图像的光照条件较差时。与现有技术相比，我们的方法更好地处理这些场景。很难计算出准确的运动。这导致增强图像中的一些误差，如图2的底行所示。1.一、第二个挑战是输入图像之间的各种曝光，这使得算法很难补偿丢失的内容。现有的解决方案集中于有限的曝光，例如+2/+4。如果网络应用于完全不同的曝光（例如，>+8，这是在现实世界的夜间拍摄中使用），结果将不会是好的，如图的顶行中给出的。1，其中在HDR输出中丢失了过度曝光区域的信息。在本文中，我们提出了一个图像增强网络EMVNet与一个新的匹配体积（MV）。在前-1716从输入图像中提取特征，在所提取的特征图上应用匹配体积以检查输入图像之间的在此过程中，运动和曝光差异将被测量，从输入图像的过度曝光区域掩模的指导。因此，网络可以补偿运动并从输入中了解曝光差异。然后，使用具有膨胀卷积的堆叠沙漏来聚合输出特征图以生成最终增强图像。我们用一种新的成对弱监督损失来训练EMVNet，以提高增强输出中这进一步提高了准确性和鲁棒性。我们在端到端的训练中使用具有相对论性的生成对抗网络（GAN）。我们通过两个任务证明了我们的方法的有效性，HDR成像，和端到端图像信号处理（E2 E-ISP），它使用单个神经网络来代替整个移动ISP管道。实验结果表明，该方法在两个任务中均优于现有方法，具有更一致的颜色和更好的细节。本文的主要贡献如下• 我们提出的匹配体积可以同时处理运动和曝光差异，这使得我们可以在不知道输入图像之间的曝光差异的情况下进行• 我们提出的弱监督损失函数能够提高增强精度，从而产生具有更可靠颜色的图像。• 我们提出的EMVNet在各种图像增强应用中是灵活的和通用的，例如在RGB和原始域中具有两个或三个输入图像的HDR，或E2 E-ISP，其中输入是原始LDR图像，并且输出是去马赛克的RGB图像。据我们所知，这是第一个端到端网络的移动ISP与多曝光输入。2. 相关工作2.1. HDR传统的HDR算法旨在合并从多次曝光捕获的多个LDR图像[4][5]。这些方法选择输入LDR图像中的一幅作为参考图像，并将其余图像与参考图像对齐。参考图像的缺失信息将通过与手工特征的融合来补偿，这限制了准确性和鲁棒性。最近，深度学习被广泛使用。一些研究人员专注于从单个LDR图像重建HDR图像。Eilertsen等人[3]利用U形网络并收集了大量数据集，同时模拟了一系列相机的传感器饱和度。Lee等人。[12]根据估计的多次曝光创建HDR图像堆栈使用条件生成对抗网络结构。Liu等人[15]将HDR到LDR图像形成流水线建模为（1）动态范围裁剪，（2）来自相机响应函数的非线性映射，以及(3) 量子化他们建议学习三种专门的CNN来逆转这些步骤。由于意外的照明和运动，单图像HDR重建方法在野外不能很好地执行。具有多重曝光图像的HDR更实用。最近的方法将HDR重建视为从LDR域到HDR域的Wu等人[23]估计了单应性变换，并利用翻译网络在存在完全遮挡、饱和和曝光不足的情况下产生合理的HDR细节。Yan等人。[24]提出使用注意力模块来根据参考图像指导合并Yan等人。[25]融合所有输入并将融合结果映射到低维深度特征空间，然后将所得特征馈送到全局非局部模块中，该模块通过对所有其他像素进行加权平均来重建每个像素。Niu等人。[18]提出了HDR-GAN，具有用于在特征域中对齐大对象运动的基于参考的残差合并块，以及用于消除重建HDR图像的伪影的深度HDR监督方案。Liu等人。[16]提出了一种注意力引导的可变形卷积网络AD- Net。他们采用了一个空间注意模块，自适应地选择最合适的区域的LDR图像融合。Huang等人[7]将神经元随机场（NERF）与HDR问题相结合，并利用经典的体绘制技术将输出的辐射亮度、颜色和密度投影到HDR和LDR图像中。上述方法提出了各种解决方案来处理失准。但一个主要的问题是，精度强烈依赖于LDR图像的对齐模块如果曝光差异非常大（例如，在低光夜景中），现有方法不能保证对准LDR图像或者不能产生用于丢失图像内容的足够忠实的信息相比之下，我们的EMVNet同时考虑了运动和曝光的差异，这可以生成更可靠的信息，用于下面的聚合过程。我们的方法在现实世界的场景中更强大。2.2. 端到端ISP最近，越来越多的研究人员开始研究端到端图像信号处理（E2 E-ISP）[8]，其中采用单个神经网络将输入的原始图像转换为RGB图像。Ignatov等人[9]通过使用具有多尺度编码器-解码器架构的U形网络，提出了PyNet用于这种方法是由Kim等人改进的。[11]通过使用额外的信道注意块来提高性能，1717联系我们联系我们∈∈∈∗图2. 我们EMVNet的总体框架。它包括三个部分，特征提取，特征匹配和聚合。利用从输入图像的侧路径缩短训练时间。虽然这些方法在一些标准场景中工作良好，如白天图像具有良好的照明，但它们在弱光场景中的性能受到限制。此外，这些方法是针对单输入图像设计的。在一个实际的情况下，移动ISP与dol相机产生的图像与多重曝光，这些3.2.匹配体积在一些具有多个输入图像的计算机视觉任务中，例如视差估计[2]或光流估计[21]，常用的方法是设计成本体积以匹配由每个输入图像生成的特征图。受此架构的启发，我们提出了一个匹配体积（MV）的图像增强任务。我们的匹配卷采用由RRDB从n个输入图像F1，F2，.，Fn作为输入，并输出单个特征图FMV。MV的核心思想可以被描述为“给定特定的运动矢量和特定的曝光差，参考图像和其他输入图像之间的相关性是什么”。MV的设计如图所示。3.第三章。设M M1，.，MNm是特定的运动矢量，并且E E1，.，E Ne是与参考帧I ref相比的特定曝光差，其中N M和N E是我们在MV中考虑的运动和曝光差的数量。我们首先将特征图F1，.，F n，运动E和曝光M，这些方法不能很好地工作，因为它们不能处理运动和曝光未对准。据我们所知，我们的方法是第一个提出端到端网络的方法Fi′，M，E=C（Fi，M，E）1 ≤ i ≤ n，i参考.F ii= ref（一）工作，以处理多曝光输入图像的ISP。3. 我们的方法我们的整体框架如图所示。二、给出n个输入LDR图像X1，X2，.，在不同曝光下，我们的EMVNet输出单个增强图像Y。特征提取模块首先应用于每个输入图像以提取关键信息。然后利用匹配体来检验这些特征之间的一致性，并处理运动和曝光的变化。聚合模块将聚合匹配体积的输出特征图，并将它们转换为所需的增强输出。3.1. 特征提取我们使用残差中残差密集块（RRDB）[22]作为特征提取的基本单元每个密集块由5个卷积层组成。前4个卷积层之后是Relu激活，第5个卷积层之后没有Relu激活。在这5个卷积层之间添加密集连接。密集块被进一步插入到残差中残差架构中以构造RRDB。我们将几个RRDB块组织成一个顺序作为最终的特征提取器。相同的特征提取器将被应用于输入图像X1，X2，.，Xn生成特征图F1，F2，.， F n.其中C是对齐函数。我们比较这些对齐的特征图Fi ′，M，E，i = 1，.， n与参考帧F_ref的特征图进行关联，以生成相关性O i，M，E，i = 1，.，n. 这种• 特征级联：{Fi′，M，E，Fref}• 特征差异：|Fi′，M，E − F ref|• 互相关：MV_F_MV的最终输出是这些相关性0 i ， M ， E，i=1，.，n.假设特征提取模块的输出特征图大小为FiR C×H×W，i=1，...，n.相应的相关性O i，M，E的大小为O i，M，ER4C×H×W。由于在匹配体中将评估N M个不同的运动和N E个不同的曝光，对于n个输入图像，匹配体的输出特征图的最终大小将是F MV R4C×（NM×NE×n）×H×W。对准函数C（Fi，M，E）由两个步骤组成。第一步是用运动M扭曲特征图Fi。第二步是将曝光E乘以变形的特征图。在理想情况下，如果没有过度曝光区域，则E W（Fi）将与Fref完全相同，其中W是扭曲算子1。不幸的是，在大多数现实世界的LDR图像中，总是有一些过度暴露的地方。因此，我们从输入图像中添加一条侧路径，以提取以下信息：1在此假设.1718−- -−--图3. 我们建议的匹配量（MV）。• 哪个输入图像更好地用作参考图像Iref。这可以通过以下方式实现：通过一些先验知识或盲图像评估方法[13]。• 过度曝光区域的掩模。它可以通过对输入图像的每个通道进行阈值化来生成。该掩模将被用作对准函数C（Fi，M，E）中的权重掩模。当将曝光E乘以特征图时，如果输入图像中的像素饱和，则相应的乘法也将被阈值化。与差异估计中使用的现有成本量相比，我们的匹配量有两个主要差异图4. 聚集的堆叠沙漏。所有层都有3D卷积核。蓝色层是卷积层，黄色层是反卷积层.4. 执行4.1. 弱监督损失函数使用标准图像内容损失（例如L1或L2）的学习具有一些限制。该网络试图达到输出和地面实况之间的最小差异，但未能保持不同像素或补丁之间的强度顺序。例如，如果两个像素的地面真值强度为[4，7]，则通过L1或L2损失训练的网络可能会在[6，5]处生成具有相应强度强度顺序被扭曲，这使得较亮的区域变成较暗的区域。对于3通道RGB图像，它可能会导致某些区域的颜色失真，特别是对于野外的弱光图像。为了解决这个问题，我们提出了一个成对的弱监督损失函数Ls，分别为像素和补丁两个不同的版本。给定像素对（i，j），逐像素损失函数Ls，pix被给出为.logg（1+ePij）如果Pij≤Spix或者光流估计。一是现有成本量只考虑运动，而我们的MV也考虑了输入图像之间的前差异第二、Ls，pix=logg（1+ePij）+Cpix如果Pij>Spix（二）我们的MV允许多个输入图像，这在成本量上比固定的2个输入图像更灵活。3.3.成本聚合为了生成增强的图像，我们考虑从匹配体积FMV的输出聚合多尺度上下文信息。我们采用了一个堆叠的沙漏体系结构，其中3个沙漏按顺序堆叠，如图所示4.第一章每个沙漏由6层组成，前三层是具有步幅2的3D卷积层，并且随后的三层是具有比例因子2的3D去卷积层。由于图像增强需要全局上下文信息，我们使用扩张卷积代替标准卷积来进一步增加接收场。膨胀因子随着沙漏其中P ij=r ij（log（I i））log（I j）），I i是强度并且r ij是序数强度指示符，如果在地面实况图像中像素i比像素j亮，则r ij = 1，否则r ij=1。Spix是基于调谐结果设置为0.25的阈值，Cpix是使损失函数连续的常数图片：鼓励输出图像中的对应像素对具有与地面实况图像相同的强度顺序。在现实世界中，LDR图像遭受意外的噪声。我们进一步提出了基于贴片对x，y，rxy的贴片损失函数，其中（x，y）是矩形贴片，rxy是有序指示符。x和y的大小完全相同。Rxy=1/1，这取决于x的平均强度是否大于y，这类似于逐像素版本。我们将逐块损失函数Ls，pat定义为等式3. 我们设置S pat=0。5，并且Cpat也相应地改变。会更深入我们提取中间输出Y“”，Y“.logg（1+ePij）如果P≤S从前两个沙漏开始使用这两个输出在训练期间在测试期间，只有最终输出Y被利用。Ls，pat=log（1+e（i j）+C专利IJ如果Pij专利公司简介（三）1719××≤∗≤∗∈∈∗∗- --×× ×联系我们联系我们联系我们补丁对的大小从5 5到15不等十五岁补丁对和像素对从非过度曝光区域随机采样：• 给定像素对（i，j），Ii= 0，Ij= 0。是地面实况图像中像素i的强度• 给定补丁对（x，y），对于所有像素i x，jy，Iii i，I j i i，Iji i。是地面实况图像中像素i4.2. 基于GAN的学习我们遵循ESRGAN[22]框架，使用相对论性的方法。我们使用第3节中描述的EMVNet在训练期间，我们的生成器损失LG由图像内容损失Lc、感知损失Lp、对抗性损失La和弱监督损失Ls组成，如等式2中所述。4. 超参数λ、η、α确定最终损失函数中不同分量的贡献。LG=Lp+λLa+ηLc+αLs，（4）图像内容损失基于标准L1损失.在第3.3节中，我们提到堆叠的沙漏将输出三个增强图像Y′′，Y′，Y。图像内容损失Lc用公式表示为Lc= L1（Y，Y ∈）+0. 5L1（Y ′′，Y ′）+0. 75L1（Y′，Y′）（五）其中Y是地面实况。感知损失Lp计算最终输出Y和Ym之间的特征图距离，使用预先训练的19层VGG网络。考虑到EMVNet输出Y为L a=EY[log（1D（Y，Y）] EY[log（D（Y，Y）].（六）弱监督损失Ls可以是单独的Ls，pix或Ls，pat，或者两者的组合以实现最佳准确性。在每次迭代中，我们随机生成一个像素对或补丁对，并计算等式中给出的弱监督损失。3或Eq. 二、4.3. 人类发展报告的实施对于HDR，12个RRDB块被级联为特征提取模块。RRDB中的所有卷积层都有32个3×3卷积滤波器。在比赛中-在体积上，我们考虑6种不同的曝光E∈4、2、+2、+4、+8、+162，其中NE=6，且运动向量的范围从0、0到36、36。由于覆盖如此大的运动范围中的所有候选者将是耗时的，所以我们每3个像素对运动进行采样以使得NM=36 36/3/3= 144。第5.4.1节中的消融研究表明，这不会大大降低准确度。聚集模块由图4中给出的三个沙漏组成，其中所有卷积层具有相同的323 3 3 3D卷积滤波器，但具有不同的膨胀因子，以及用于下采样或上采样的不同步幅。我们使用VGG-19作为控制器。由于VGG-19是在RGB域上进行预训练的，因此对于原始HDR任务，我们在将输出的HDR原始图像输入到图像处理器之前添加了一个简单的去马赛克模块用于弱监督学习的像素对和补丁对从每个通道（例如， R/G/B 用于 RGBHDR，或R/G/G/B用于原始HDR）。我们以0.0001的学习率开始训练，每20万次迭代减少0.5损失函数的权重设置为λ=0。001，α=0。25，η=0。001。这些超参数的烧蚀研究在补充材料的第3.2节中给出。4.4. E2E-ISP对于E2 E-ISP EMVNet，我们使用16个RRDB块进行特征提取。E2 E-ISP因此，我们将聚合模块中的沙漏设置为每个卷积层的64个过滤器在输出增强图像Y”、Y”、Y中的每一个之前分别添加附加的子像素卷积层。从每个R/G/B通道中随机采样用于弱监督学习的像素对和补丁对训练超参数大多与HDR训练相同但是损失函数的权重被设置为λ=0。005，α=0。6，η= 0。001。5. 实验5.1. 数据集5.1.1HDR首先，我们利用常用的Kalantari该数据集包含74个用于训练的图像集和15个用于测试的图像集。对于每个训练图像集，以曝光偏差2、0、2或3捕获三个不同的LDR图像三，零，三 TIFF格式。我们还在补充材料的第1节中给出了另一个RGB- HDR数据集，即NTIRE2022 HDR数据集[19]2我们不考虑曝光-8和-16，因为这两个比例主要发生在夜景中。在这种情况下，短曝光图像将被选择为参考图像，因为它具有较少的运动模糊。1720接下来，我们检查EMVNet在原始HDR任务上的性能，这在移动设备上更实用。对于训练，我们基于Google HDR+数据集生成合成数据[6]。该数据集由3，640个脉冲串组成，原始脉冲串输入为DNG格式，以及每个脉冲串的合并结果。由于连拍中的所有照片通常都是以相同的曝光时间捕获的，因此我们根据[14]之后的原始连拍输入生成合成LDR输入，并将合并结果用作HDR地面实况。为了用dol相机模拟真实世界的HDR，我们使用两个输入，并随机采样+2和+16之间的曝光差异。我们从每个突发的不同帧生成长/短曝光图像来模拟运动。2,000个长/短曝光图像对被用作我们的训练集，另外400个图像对被用作验证集。为了进行测试，我们收集了一个名为RWMR数据集的真实移动原始图像测试集，其中图像序列是由OPPOReno 5 pro+手机在dol模式下捕获的。拍摄的原始图像覆盖了我们日常生活中看到的各种照明水平，包括室内，室外，白天和夜晚的场景。采集120个序列，每个序列由20 ~ 30帧组成。5.1.2E2E-ISP对于E2 E-ISP，我们使用HDR+数据集和与原始HDR任务相同的训练/测试分割。对于每个合并的突发，HDR+数据集还提供了由Google ISP处理的高质量JPEG图像。因此，我们使用合成的长/短曝光原始图像对作为输入来训练EMVNet，并使用高质量的JPEG图像作为地面实况。由于JPEG图像中的一些不与合并的连拍对齐（例如，旋转或缩放），我们手动将这些图像从2，000张训练图像中删除。我们的最终训练集由1，740个长/短原始JPEG图像对组成尽管HDR+数据集提供了镜头阴影图，但我们不使用它们，因为我们正在尝试学习一个端到端模型，该模型预计将隐式地处理镜头阴影。5.1.3评估指标与图像增强中的现有技术类似，我们使用传统的基于质量的峰值信噪比（ PSNR ）和结构相似性指数（SSIM）进行定量反馈。我们还以以下方式对最终输出图像进行用户研究，其中平均意见得分（MOS）。向16个测试候选者展示了某种方法的样本预测和相应的参考地面实况的并排比较。然后要求他们评估输出图像的质量w.r.t. 的表1. Kalantari数据集上的实验结果[10]。粗体表示最好的列。对于MOS，越小越好。对于其他指标，越大越好。方法PSNR/SSIMµPSNR/SSIM1HV2MOSSen[20]40.80/0.980838.11/0.972159.38-卡兰塔里[10]42.67/0.988841.23/0.984665.05-吴[23]41.65/0.986040.88/0.985864.90-Yan[24]43.67/0.990041.14/0.970264.611.80[第18话]43.92/0.990541.57/0.986565.451.81[第16话]44.37/0.991741.88/0.989266.021.72我们的EMVNet44.63/0.993242.12/0.991066.161.63图5. Kalantari数据集的示例输出[10]。使用5级标度的参考图像，定义为：0 -“完美”，1-“几乎完美”，2-“稍微差一点”，3-“差一点”，4-“糟糕”。向研究参与者展示的图像由放大的作物组成。根据PSNR排名，对每个任务的前4种方法进行人体研究5.2. HDR的实验结果表1给出了我们的网络的实验结果，与现有技术相比，在Kalantari的数据集上训练/测试[10]。下标μ表示在遵循μ定律的色调映射域中计算方法，并且下标l表示在线性 HDR 域中计算PSNR/SSIM 。 HDR-VDP-2 （ HV2）[17]评估不同亮度条件下在HDR-VDP-2我们可以看到，我们的方法在所有定量和定性评估指标上都优于所有其他方法。更好的MOS分数表明EMVNet在人类视觉中生成更感知友好的图像。我们的EMVNet能够从LDR图像中恢复更好的细节，如图所示。五、接下来，我们使用HDR+数据集来检查原始HDR任务的性能。我们在相同的HDR+图像上训练我们的EMVNet以及现有技术[24][18][16]，并重新1721表2.与HDR+数据集验证图像的最新方法进行比较对于原始HDR ，我们使用合并的突发来计算线性原始域中的PSNR/SSIM 作为地面真相。对于E2 E-ISP，我们使用ISP处理的 JPEG 图像作为地面实况来计算 RGB 域中的PSNR/SSIM。粗体表示最好的列。所有的方法都是在同一个训练集上训练的。对于MOS，越小越好。原始HDRE2E-ISP方法PSNR/SSIMMOSPSNR/SSIMMOSYan[24]36.06/0.95862.28--[第18话]36.29/0.96452.08--[第16话]36.55/0.96902.13--PyNet[9]--35.28/0.94982.42PyNet-CA[11]--35.35/0.94792.48我们37.38/0.98241.8336.89/0.96122.13在表 2 的第二列和第三列中的验证图像上移植PSNR/SSIM/MOS 。可以看出，与其他HDR 方法相比，我们的方法实现了高0.8 dB的PSNR和高0.01的SSIM。我们的方法的MOS得分3显著优于具有低的阈值的现有技术0.24间隙这证明了我们的EMVNet在人类视觉中的原始HDR上比现有技术更好地工作。此外，我们使用RWMR数据集的图像来检查真实世界捕获图像的原始HDR。在图6中，我们展示了几个示例，其中所有输入 LDR 和输出 HDR 图像都使用OpenCV的简单4路插值函数进行了去马赛克，并使用gamma 2.2进行了进一步增强，否则图像将太暗而无法可视化。可以看出，我们的方法能够提供具有更多细节和更少伪影的HDR输出，特别是在输入之间的曝光差异很大的极端低光场景相比之下，现有技术将一些令人不愉快的伪影带入输出HDR图像中。5.3. E2 E-ISP上的实验结果我们首先在表2的第四列和第五列中给出了E2 E-ISP在HDR+数据集的验证图像上的准确性比较。所有方法都在相同的训练集上重新训练。现有技术[9][11]的输入层被修改为接受多输入图像。我们发现，我们的方法优于最先进的E2 E-ISP方法PyNet和PyNet-CA，在所有指标上都有很大的优势这是因为这两种网络都是针对单输入图像设计的，所以它们没有具体考虑多输入图像引起的运动和曝光差异。我们的网络受益于所提出的匹配体积，它可以生成更可靠的颜色。我们进一步测试了这些方法对RWMR原始图像的dol相机，并给出了一些输出RGB图像的可视化图。7.第一次会议。值得注意的是，我们的结果显示出更高的对比度，更中性的颜色，和更好的细节3考虑到人工评估的工作量，我们从400张验证图像中随机选择了50张图像。不同的方法使用相同的50个图像集。图6. HDR的示例输出基于由dol相机捕获的RWMR数据集所有图像都通过OpenCV去马赛克进行可视化，并增加了gamma 2.2增强。与现有技术相比。也没有运动重影（见右图的人手）。这证明了将我们的方法应用于现实世界场景的潜力。更多输出和分析示例见补充文件第2节。5.4. 消融研究5.4.1不同的匹配体积在这里，我们通过HDR+数据集上的原始HDR任务给出了使用不同MV的消融研究。在表3中，可以看出，具有匹配体积的所有DNN的准确性优于一个w/o匹配体积（行2）。W/O考虑匹配体积中的运动或曝光（行3-4），PSNR/SSIM显著下降。这是有道理的，因为运动和曝光是输入图像中关键的未对准该结果与[27]一致，这表明同时考虑颜色和运动差异可以提高图像修复的增强质量。我们还注意到，如果MV不被过度曝光区域掩模（行5）引导，则精度也会降低。这反映了在对应于过度曝光区域的像素上添加惩罚可以给予网络更多的洞察力。我们还提供了使用运动未被下采样的MV的结果，与我们当前的运动矢量被x3采样（行7）的实现相比，在第6行中标记为我们观察到，随着密集运动的使用，PSNR/SSIM略有改善。但是由于计算成本增加了很多，我们仍然坚持使用子采样运动的当前版本。1722图7.Dol相机捕获的RWMR数据集原始图像上的E2 E-ISP任务输出示例表3. 在不同匹配体积的HDR+验证图像上进行原始HDR精度评估粗体字体表示最好的列。运动暴露掩模PSNRSSIMEMVNet没有没有没有36.1620.9613EMVNet没有是的是的36.8190.9708EMVNet是的没有是的37.0640.9730EMVNet是的是的没有37.1900.9798EMVNet是（密集）是的是的37.4140.9839EMVNet是的是的是的37.3770.9824表4.不同损失函数下HDR+验证图像的精度评估。Lc代表图像内容损失，Lp代表感知损失，La是GAN的对抗损失，L s，pix代表逐像素弱监督损失，L s，pat代表逐块弱监督损失。粗体表示最好的列。5.4.2不同损失函数接下来，我们使用不同的损失函数来评估EMVNet的准确性。我们使用相同的EMVNet，在匹配体积中启用运动和曝光比率，但用不同的如表4所示，将第5行与第3行和第4行进行比较，我们注意到，在不使用感知损失（L p）或GAN<学习（L a）的情况下，准确度略有下降（0. 06dB）。如果我们使用像素级弱监督损失（Ls ，pix）或分块级弱监督损失（Ls ，pat）进行训练，则准确度提高了0.3 dB，如第6行和第7行所示。使用这两个损失函数进行训练（如第4.2节所述，在每次迭代中随机生成一个像素或补丁对我们在补充材料的第3.1节中给出了一些示例输出，以显示使用建议的损失函数进行训练的有效性。5.4.3计算成本我们使用4K分辨率的原始图像（12M像素）来评估我们的方法，这是移动设备中的典型应用场景。在单个A100 GPU上，我们的1.51对于HDR任务为2.89秒，对于E2 E-ISP为2.89秒。相比之下，由于巨大的空间注意力矩阵，最先进的HDR方法ADNet[16]需要8.77秒。最先进的E2 E-ISP方法PyNet[9]比我们的方法稍慢，需要3.22秒。为了进一步提高效率，我们将RRDB的数量减少到6个，并在特征提取模块中将标准卷积层替换为深度卷积层所有卷积层（包括堆叠沙漏中的过滤器）中的过滤器数量减少到一半。我们在开始时添加一个像素解混层来对特征图x2进行下采样，并在最后添加一个像素混洗全网通过知识蒸馏[1]以逐步的方式进行微调，同时使用原始EMVNet作为教师网络。这可以加速网络x30（4K分辨率图像上的0.08秒），损失0.26 dB精度。这种损失在人类视觉中并不十分显著。详情见补充材料第3.4节。6. 结论在本文中，我们提出了一个有效的框架，图像增强与输入的不同曝光。我们提出的EMVNet利用匹配体积来测量不同输入图像之间的变化。将评估运动和暴露差异，并通过具有扩张卷积的堆叠沙漏随着弱监督学习的使用，我们能够在保持自信的颜色信息的同时检索丢失的信息。我们的网络适用于多种图像增强任务，包括HDR和端到端ISP。对实际器件捕获数据的实验结果表明了该方法的有效性。原始HDRE2E-ISP损失PSNRSSIMPSNRSSIMEMVNetLc36.9660.969036.3950.9523EMVNetLcL p36.9990.973536.4840.9552EMVNetLcL pL a37.0210.973236.4910.9566EMVNetLcL pL aL s，pix37.1610.979636.6390.9599EMVNetLcL pL aL s，pat37.2760.978936.8000.9604EMVNetLcL pL aL s，pixLs，pat37.3770.982436.8910.96121723引用[1] Angeline Aguinaldo ， Ping-Yeh Chiang ， Alex Gain ，Ameya Patil，Kolten Pearson，和索海尔·菲兹使用知识蒸馏压缩甘斯。arXiv预印本arXiv：1902.00159，2019。[2] Xuelian Cheng ， Yiran Zhong ， Mehrtash Harandi ，Yuchao Dai ， Xiaojun Chang ， Tom Drummond ，Hongdong Li，and Zongyuan Ge.用于深度立体匹配的分层神经架构搜索。arXiv预印本arXiv：2010.13501，2020。[3] Gabriel Eilertsen ， Joel Kronander ， Gyorgy Denes ，RafałK Mantiuk，and Jonas Unger.使用深cnn从单次曝光重建Hdr图像。ACM图形交易（TOG），36（6）：1[4] Miguel Granados ， Boris Ajdin ， Michael Wand ，Christian Theobalt，Hans-Peter Seidel，and Hendrik PALensch.线阵数码相机的最佳hdr重建CVPR，2010。[5] SamuelWHasino f f，Fre'doDurand和WilliamTFreeman 。噪音-高动态范围摄影的最佳捕捉。CVPR，2010。[6] Samuel W Hasinoff ， Dillon Sharlet ， Ryan Geiss ，Andrew Adams ， Jonathan T Barron ， Florian Kainz ，Jiawen Chen，and Marc Levoy.用于移动相机的高动态范围和低光照成像的连拍ACM Transactions on Graphics（ToG），35（6）：1[7] 黄欣、张琦、冯英、李宏东、王轩、王庆。Hdr-nerf：高动态范围神经辐射场。在CVPR，2022年。[8] Andrey Ignatov，Cheng-Ming Chiang，Hsien-Kai Kuo，Anas- tasia Sycheva，and Radu Schlafte.在移动npus上学习智能手机isp与深度学习，移动ai 2021挑战：次报告.在CVPR，2021年。[9] Andrey Ignatov，Luc Van Gool，and Radu Timofte.用单一的深度学习模型取代移动摄像头ISP。在CVPR研讨会，2020年。[10] Nima Khademi Kalantari，Ravi Ramamoorthi，等.动态场景的深度高动态范围成像。 ACM事务处理图表，36（4）：144[11] Byung-Hoon Kim，Joonyoung Song，Jong Chul Ye，andJae- Hyun Baek.Pynet-ca：增强的pynet，用于端到端移动图像信号处理。在ECCV。Springer，2020年。[12] 李世英，安权焕，康锡柱。深度递归高动态范围：使用生成对抗网络的逆色调映射。在ECCV，2018。[13] 李欣。盲图像质量评估。载于ICIP，第1卷，2002年。[14] Yuanzhen Li，Lavanya Sharan，and Edward H Adelson.用子带结构压缩和压扩高动态范围图像。ACM图形交易（TOG），24（3）：836[15] 刘玉伦、赖伟胜、陈玉胜、高义龙、杨明轩、庄永玉、黄家斌。单图像hdr重建，通过学习逆向摄像机流水线。在CVPR，2020年。[16] Zhen Liu，Wenjie Lin，Xinpeng Li，Qing Rao，TingJiang ， Mingyan Han ， Haoqiang Fan ， Jian Sun ， andShuaicheng Liu.Adnet：用于高动态范围成像的注意力引导可变形卷积网络。在CVPR，2021年。[17] RafałMantiuk， Kil Joong Kim ， Allan G Rempel ，andWolf-gang Heidrich. Hdr-vdp-2：一个校准的视觉指标，用于所有亮度条件下的可见性和质量预测 ACMTransactions on Graphics（TOG），30（4）：1[18] Yuzhen Niu，Wuhan Wu，Wenxi Liu，Wenzhong Guo，and Rynson WH Lau. Hdr-gan：从具有大运动的多次曝光ldr图像重建Hdr图像。IEEE Trans-actions on ImageProcessing，30：3885[19] EduardoPe'rez-Pellitero ， SibiCatley-Chandar ，RichardShaw ， Ales Leonardis ， Radu Pastefte ， ZexinZhang ， Cen Liu ， Yunbo Peng ， Yue Lin ， GaochengYu，et al. Ntire 2022高动态范围成像挑战：方法和结果。在CVPR，2022年。[20] PradeepSen ， NimaKhademiKalantari ， MaziarYaesoubi ， Soheil Darabi ， Dan B Goldman ， and EliShechtman.基于ro-bust块的动态场景hdr重建 ACM事务处理图表，31（6）：203[21] Zachary Teed和Jia Deng。筏：光流的循环全对场变换。在ECCV。Springer，2020年。[22] Xintao Wang，Ke Yu，Shixiang Wu，Jinjin Gu，YihaoLiu ， Chao Dong ， Yu Qiao ， and Chen Change Loy.Esrgan：增强型超分辨率生成对抗网络。在ECCV研讨会上，2018年。[23] Shangzhe Wu ， Jiarui Xu ， Yu-Wing Tai 和 Chi-KeungTang. 具有大前景运动的深度高动态范围成像。在ECCV，2018。[24] Yingsen Yan，Dong Gong，Qinfeng Shi，Anton van denHen- gel，Chunhua Shen，Ian Reid，and Yanning Zhang.无重影高动态范围成像的注意力引导网络。在CVPR，2019年。[25] 严庆森，张磊，刘玉，朱玉，孙金秋，石勤丰，张燕宁.通过非本地网络的深度HDR成像。IEEE Transactions onImage Processing，29：4308[26] Richard Zhang 、 Phillip Isola 、

下载后可阅读完整内容，剩余1页未读，立即下载