智能手机实时应用中的图像增强技术

102 浏览量更新于2023-10-16 收藏 1.24MB PDF 举报

深度学习

轻量级模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1848智能手机实时应用中的感知图像增强马科斯五世Conde1，Florin Vasluianu1，Javier Vazquez-Corral2，RaduVasquefte11计算机视觉实验室，CAID AS，IFI，维尔茨堡大学，德国2计算机视觉中心和计算机科学系，Univ ersitat Auto` noma de Barcelona，西班牙{marcos.conde-osorio，radu.timofte} @ uni-wuerzburg.dehttps://github.com/mv-lab/AISP摘要相机设计和成像管道的最新进展使我们能够使用智能手机捕获高质量的图像。然而，由于智能手机相机的小尺寸和镜头限制，我们通常会在处理后的图像中发现伪影或退化。最常见的令人不快的效果是噪声伪影、衍射伪影、模糊和HDR过度曝光。用于图像恢复的深度学习方法可以成功地去除这些伪影。然而，大多数方法不适合于移动设备上的实时应用，由于其繁重的计算和存储器要求。在本文中，我们提出了LPIENet，一个轻量级的感知图像增强网络，重点是在智能手机上部署它。我们的实验表明，与标准基准测试的最先进的方法相比，我们的模型可以用更少的参数和操作来处理上述工件，并实现竞争性的性能。此外，为了证明我们的方法的效率和可靠性，我们将模型直接部署在商用智能手机上并评估其性能。我们的模型可以在中级商用智能手机上处理1秒以下的2K分辨率图像1. 介绍近年来，捕获的图像数量呈指数级增长这种激增的主要原因来自于智能手机在我们日常生活中的无处不在。手机制造商不断竞争的目标是提供更好的图像给他们的消费者，以增加他们的销售。因此，许多研究都集中在提高这些sRGB图像的感知质量上。图像恢复的目的是通过去除图像采集过程中引入的不同退化来改善相机捕获的图像这些退化可能是由于相机的物理限制而引入的，0.950.90109 1010 1011 1012MAC（G）图1. 用于SIDD图像去噪的SOTA方法的计算成本和性能比较[2，11，50，53，61]。例如智能手机摄像机的小孔径和有限的动态范围[63]，或者不适当的照明条件（即，在低光下捕获的图像）。为了解决这些问题，图像恢复通常被理解为一个不适定问题，其中，给定退化图像，算法需要输出干净的图像。为了由制造商嵌入相机中，图像恢复算法应该在质量、鲁棒性、计算复杂性和执行时间方面符合严格的要求。一般来说，数码相机有一组资源，用于分配ISP管道中的所有操作[17]。因此，在这个管道中引入的任何新操作都应该具有足够好的质量，以“支付”它将消耗的资源。此外，对于要嵌入到相机中的算法，需要始终对输入图像进行改进，即：对于任何可能的环境和输入信号都是鲁棒的图像复原是一个传统的问题，它的研究从我们开始获取图像时就开始了，许多著名的方法，如非局部均值图像去噪[8]，已经有近20年的历史。这些传统的方法通常是由手工制作的先验定义的，通过减少合理的解决方案来缩小问题的不适定性。然而，自2012年以来，已经转向基于深度学习的图像恢复算法，SSIMNAFNet（ECCV'22）RESTOMERMAXIMLPIENet50x更少（我们的）Macs(CVPR’22）DnC（ensNNemble）1849因为这些方法已经证明对于从大量图像中生成先验是非常强大不幸的是，尽管有很大的进步和性能，但使用深度学习进行图像恢复和增强的研究通常忘记了先前定义的获得具有低计算复杂度和执行时间的算法的需求;因此，由于它们的复杂性，它们中的许多不能被集成到现代智能手机中，即.浮点数或内存要求。因此，在本文中，我们的目标是定义一种新的图像增强算法，该算法与不同相关任务的最新方法相比具有竞争力的结果，但同时，在当前现成的智能手机中呈现出低复杂性和有竞争力的执行时间，如使用AIScore [31]所证明的。这种行为的第一个例子如图1所示，我们将我们的方法与当前最先进的图像去噪方法进行了比较。可以看出，我们的方法在SSIM中与最先进的方法接近0.02，同时具有至少×50少MAC。更多细节将在第5节稍后出现。概括而言，我们的贡献如下：• 我们提出了一个轻量级的U-Net为基础的架构，其特征在于倒置的剩余注意力（IRA）块。类似于这一领域的当代作品，但更有效，更小。• 我们优化我们的模型在使用的参数和计算成本（即）。FLOP、MAC），从而能够在FullHD输入图像分辨率下在当前智能手机GPU上实现实时性能。这一改进如图1所示。• 我们提出了一种新型的分析，从生产的角度来看，观察我们的模型在商用智能手机上部署时的行为。2. 相关工作图像恢复被分割成大量的子问题，在本文中我们重点讨论了当前研究中最流行的四个：图像去噪、图像去模糊、从单个图像重建HDR图像以及显示器下相机（UDC）图像恢复。图像去噪图像去噪是一个有30多年历史的研究课题.最著名的传统图像去噪方法是非局部方法，如Non-Local-Means [8]和BM 3D [18]。最近，多种方法研究了不同的图像表示，以促进这种良好行为的算法的去噪问题[24，51]。与其他图像恢复问题一样，图像去噪的研究已经转向深度学习模型。第一个用深度学习去噪的杰出工作可能是Zhang等人。[66]DnCNN，他们提出学习CNN来估计输入图像的噪声分布。从那时起，出现了许多其他的深度学习方法[4，10，28，35，54，60，61，63，64]。这也是可能的，这要归功于挑战的出现，例如[1，2]，这些挑战促进了用于比较方法以及训练和测试图像的基准。为了更深入的分析，我们建议读者参考[49]中的调查。图像去模糊是图像复原中的它的主要目的是消除输入图像中出现的模糊，这可能是由不同的因素造成的（即，相机抖动、对象运动或缺少焦点）并输出清晰的图像。与图像去噪的情况一样，最初不同的算法基于手工先验或约束，主要将图像恢复视为逆滤波问题[14，23，57]，但随着深度学习模型的出现，这些方法被超越[15，34，40，48，50]。为了更深入地分析应用于这个问题的深度学习方法，我们请读者参考[65]中的调查。HDR重建数码相机只能捕获大约两个数量级的亮度，因此动态范围非常有限这远远超出了现实世界中出现的亮度差异，也是为什么在拍摄图像时，我们可能会在非常明亮的区域中出现高光或在非常黑暗的区域中丢失信息针对恢复图像的动态范围的第一个作品是基于来自同一场景的多个图像的集合。Debevek和Malik[19]的研讨会工作假设，从同一场景的一组多个图像中，可以恢复单个相机响应函数（CRF）并撤消相机过程。这一假设对胶片相机来说是正确的，但最近 GilRodriguez等人证明了这一点。[44]这对于当前的数字照相机是不正确的，因为颜色通道不是独立的，并且照相机针对不同的曝光值修改非线性。目前，由于深度学习和不同的基准挑战[43]，已经出现了大量旨在从单个输入图像恢复全高动态范围（HDR）的方法，该问题也称为逆色调映射[5，6]。这种上升开始与工作的Eilersten等人。[20]，他们提出了一个U-Net架构来解决这个问题。用于HDR单图像重建的其他基于深度学习的方法是[36，47]中的方法。关于多图像输入的深度学习方法，我们还应该提到[9]中的工作。1850·∗·∗N×UDC图像复原近年来出现了一种新的成像系统--欠显示摄像机（Undert-Display Camera，UDC）。UDC系统由放置在屏幕下并紧密附着在半透明有机发光二极管（OLED）显示屏上的相机模块组成[71]。该解决方案在用户体验分析方面具有优势，全屏设计提供了更高的舒适度。这种解决方案的缺点是OLED显示器作为与相机传感器相互作用的光的障碍，引起额外的反射，折射和与表征相机的图像信号处理（ISP）[17]模型相关的其他效应。Zhou等[72]和他们的2020 ECCV挑战[71]是第一个使用深度学习直接解决这种新的恢复问题的作品。百度研究团队[71]提出了基于阴影校正的残差稠密T-OLEDUDC图像恢复。在[72]中，作者设计了MCIS来捕获成对图像，并将UDC图像恢复问题作为盲反卷积问题来解决。最近，Fenget al. [21]提出了世界他们还提出了一种名为DISCNet的新模型[21]，并为UDC数据集上的多盲和非盲方法提供了需要注意的是，UDC问题可以被看作是上面列出的其他三个问题的推广。根据[21]中提出的公式，UDC问题可以公式化为：y=γ（C（x∈k+n）），（1）其中x表示具有高动态范围的干净图像，k是点扩散函数（PSF）（即，模糊环核）表示2D卷积算子，并且n表示照相机噪声。此外，C（）模拟动态范围的减小，遵循C（x）=min（x，xmax），其中xmax是范围阈值，γ（）表示色调映射函数。从这个公式中，我们可以清楚地看到，当我们假设没有噪声（在所有像素处n=0），xmax足够大并且我们不执行任何色调映射时，我们最终得到传统的去模糊公式y=x k。类似地，如果我们假设内核k是DiracDelta，则xmax等于输入信号的最大可能值，并且我们不执行任何色调映射，我们最终得到传统的图像去噪公式y=x+n。由于我们将在本文中使用SIDD数据集[2] ，我们将假设 n= （ 0 ， β ），其中 β2 （ y ）=β1y+β2，β1表示散粒噪声，β2表示独立的加性高斯噪声。最后，假设没有噪声（在所有像素处n=0），并且内核k是狄拉克增量，我们以HDR图像重建问题结束。然而，如在引言中所解释的，上述方法都没有从效率的观点分析这些问题。所提出的模型可以产生高质量的结果，但不能集成到现代智能手机，由于其复杂性，即。失败。3. 该方法我们提出了一种名为LPIENet的新模型，遵循U-Net[45]类似的架构，图像渲染中的标准[21，54，61，65，72]。主要的构建块是反转的剩余注意块，我们称之为IRA块。这些都是由于其效率选择[30]。这是一种盲图像恢复方法，因此，我们不依赖于PSF或有关相机传感器的其他信息。该架构如图2所示。初始模型由5个块（3个编码器和2个解码器）组成，分别具有[16，32，64，32，16]个通道和0.13M参数。为了证明我们的方法的可扩展性，我们通过将通道的数量增加到[32，64，128，64，32]来设计更深的网络。我们将这种修改称为LPIENet-L。我们的基础模型表示比其他方法少5个参数的解决方案[11，21，54，61，72]。请注意，LPIENet是专门为在各种智能手机设备上部署时高效而定制的。由于该模型旨在在移动设备上实时执行去噪，去模糊和UDC图像恢复，因此我们考虑SSIM性能和较低的FLOP数量对其进行了优化。正如我们将在第5节中证明的那样，该模型在各种商用智能手机上实时处理全高清和2K分辨率图像时具有竞争力的性能。此外，正如我们在第2节中指出的，我们的方法结合了去模糊[41]和HDR [9，37]网络以及注意力方法[56，61]的思想。我们认为这些任务与UDC恢复问题密切相关。3.1. 方法描述如图2所示，LPIENet包括：三个编码器块（E1，E2，E3）和两个解码器块（D1，D2）.每个编码器块由以下序列组成，我们之前将其命名为IRA块：两个反转的线性残差块[30]、用于丰富特征表示的关注块[56]，以及最后，下采样层（即，max-pooling）。解码器块D1、D2遵循相同的结构。我们用双线性上采样层替换下采样操作，并连接跳跃连接[45]。提高效率的一个重要细节是，我们在激活功能之后而不是之前对功能进行上采样由于反转的残差块[30]具有有限的感受野和表示，我们进一步使用空间和颜色注意力的组合来激活它们[56]。1851IRA下降≈××−×L跳过连接IRA区块E D图2.拟议的LPIENet网络和IRA块的架构我们的模型设计考虑到当前的TFLite支持的操作和移动设备的限制。注意力机制[11，56]已经过优化，需要更少的内存和计算。陈等的当代作品。已经表明这是一个有效的图像恢复解决方案[11]。其他重要考虑因素包括：（i）我们不使用批量归一化（BN）层，其消耗与卷积层相同的GPU内存量，并且它们还增加了计算复杂性[7 0]，（ii）LayerNorm和GELU在图像恢复中显示出一致的性能改进[11]，但是，由于部署限制，我们不使用此类技术。(iii)我们报告MAC或FLOP，考虑以下标准两个术语之间的关系：MAC为100。5 ×FLOPs4. 实验装置4.1. 数据集SIDD Medium[1，2]是一个真实图像去噪数据集，提供320个图像对，160个场景中的每一个都有两个图像对。该数据集在传感器方面引入了很大的可变性，五种不同的智能手机摄像头传感器用于数据采集，以及在不同曝光和照明条件下捕获的图像。然后使用噪声模型估计方法来产生受噪声影响的图像的对比。作者提供了80%的数据用于训练和验证，剩下的20%没有公开。方法进行了比较和测试，使用他们的在线SIDD基准1和测试集的1280图像。我们进一步处理了高分辨率的训练图像（即，3000 2000）到一组不重叠的图像作物，提取12个作物的分辨率每个训练图像1000×1000UDC SYNTH [21，22]. SYNTH [21]的原始RGB图像分辨率为800 ×800，我们提取了非RGB图像。（而不是对图像进行下采样）以保留高频细节。此外，使用以下函数f（x）= x/（x +0. 第25段）。因此，像素强度在范围[0，1）中。GoPro[40]这一数据集由Nahet al.广泛用于运动去模糊、训练和评估。它由3214对模糊和清晰的高清分辨率图像（1280 720）组成。这是一个合成数据集，因为模糊图像是通过对几个高速干净图像进行平均而产生的按照标准实践[40]，我们使用2103对进行训练，1111对进行测试。在训练过程中，我们使用大小为540×960的随机配对作物。4.2. 实现细节为了避免伪影，我们模型的输出被裁剪到范围[0，1p]，其中p为10−5。我们的模型在Tensorflow 2中实现，并使用TPU v3进行训练我们使用Adam优化器[33]，默认超参数，初始学习率为2 e-3。学习率降低了50%，在高原高达最小妈妈学习率为1 e-6。我们使用基本的增强：水平和垂直翻转以及旋转。我们设置4为小批量大小，并训练收敛了几天（即.500个历元）。我们发现在大分辨率上训练非常有利可图，我们开始用大小为400 400的随机作物进行训练，最终将图像大小增加到HD分辨率。损失函数使用1损失、SSIM损失和梯度损失的加权和来训练模型[38]。最终损失函数为：大小为400×400的重叠斑块。我们提取了1https://www.eecs.yorku.ca/www.example.comL=αL SSIM +L1 +βL Grad（二）benchmark.php其中α和β是根据经验设定的，以缩放损失。频道关注IRBIRBC+空间注意++E1 E2 E3D1 D2+CONV 3x3IRA起来CONV 1x1DWCONV 3x3ReLUCONV 1x1CONV 1x1ReLUCONV 1x1CONV 1x1乙状1852表1. 使用SYNTH的显示器下摄像机（UDC）图像恢复的定量结果[21]。我们展示了保真度和感知指标。（*）表示在MIPI UDC挑战赛中提出的方法[22]。我们参考[21，22]中的一些数字。我们在高光加粗时采用最好的盲法和非盲法.方法PSNR（dB）↑SSIM ↑LPIPS ↓参数数（M）使用PSF维纳滤波器（WF）[42]27.300.830.330-✓[21]第二十一话34.800.960.0361.5✓SFTMD[21]42.350.980.0123.9✓[21]第二十一话42.770.980.0123.8✓RDUNet[45，70]34.370.950.0408.1✗DE-UNet[72]38.110.970.0219.0✗DISCNet（不含PSF）38.550.970.0302.0✗拉什 *39.520.980.021n/a✗眼睛3 *36.690.970.032n/a✗FMS实验室 *35.770.970.045n/a✗EDLC 2004 *35.500.960.045n/a✗SAU LCFC32.750.960.056n/a✗LPIENet-L（我们的）40.120.980.0200.6✗LPIENet（我们的）34.100.950.0310.1✗4.3. 实验结果4.3.1定量结果我们在SYNTH数据集[21]上评估我们的模型，该数据集也用于“UDC MIPI 2022挑战赛”[22]，并将其与当前最先进的方法进行请注意，这些结果不能完全重现，因为多个方法不提供开源代码。此外，SYNTH数据集[21]测试集（和PSF）是公开的，这使得很难与可能倾向于过拟合的方法进行公平的比较。如表1所示，我们在使用参数比其他方法少的模型时，获得了解决此问题的竞争性结果。作为一个例子，我们可以看看与DiscNet[21]基础盲版的比较，因为我们使用相同的初始设置来建立我们的模型。我们可以看到我们的方法比这个方法的性能高出近2 dB。我们在第5节中扩展了这种分析并证明了我们方法的好处。真实图像去噪在表2中，我们给出了SIDD [2]的结果。正如我们所看到的，我们的方法是相当有竞争力的，在SSIM中接近0.02，达到了最先进的水平。我们应该在这里回顾一下图1中所示的分析，我们可以看到我们的方法需要的时间减少了100倍表2. SIDD上的定量sRGB去噪结果[2]。我们的模型优于经典的著名方法，可以在智能手机中实时降噪图像数字咨询[2，11]。方法PSNR（dB）↑SSIM↑嘈杂23.700.480BM3D[18]25.650.685NLM[8]26.750.699KSVD[3]26.880.842[46]第四十六话25.580.792WNNM[27]25.780.809TNRD[13]24.730.643EPLL[73]27.110.870[66]第六十六话30.710.695CBDNet[29]33.280.868CycleISP[62]39.520.957DAGL[39]38.940.953米内特[63]39.730.959Restormer[61]40.020.960LPIENet（我们的）37.470.940LPIENet（集成）37.730.943方法SSIM↑GMAC↓基线UNet[21，45]Res Block→− Dual In v Res Block[30]0.8550.8405.81.0Dual In v Block→− IRA Block（我们的）0.9401.3（我们的）LPIENet +内核大小= 50.9411.4表3.真实图像去噪的消融研究 SSIM报告了SIDD [2]。使用256×256RGB输入计算GMAC。4.3.2定性结果真实图像去噪真实图像去噪案例的示例结果如图3所示。在这张图中，我们可以清楚地看到，我们的结果再次以一小部分计算成本与最先进的技术竞争。我们建议读者将注意力集中在顶部图像中的“前进”和“公园”字样上，以及底部图像中的“屏幕”字样上。请再次记住，我们的模型的MAC至少比任何超过它的方法少50倍。在第5节中，我们将我们的方法和CycleISP[62]部署在商业智能手机上，并比较运行时。MAC比Restormer[61]和MAXIM[50]（我们将在下一节中看到MAC的差异）。这使得我们的方法可以部署在当前的智能手机中（正如我们将在第5节中展示的那样），而Restormer还远没有达到这种能力。请记住，这是我们论文的目标：以获得能够与现有技术竞争但具有降低的运行时间和复杂性的轻量级模型，因此可以将该模型嵌入到当前的智能手机中。我们在表3中提供了我们的架构消融研究。注意力机制[11]有助于提高高效反转残差块的性能。HDR图像重建HDR图像重建情况的示例结果如图5所示。在该图中，我们可以看到，与其他最先进的方法相比，我们的方法如何能够更好地重建幻觉对象的纹理、颜色和几何特性。更详细地说，我们希望读者关注顶部图像中植物的叶子，以及底部图像中的光线镜面反射。还请注意，这些图像来自SYNTH数据集[21]，因为正如我们在相关工作中所解释的那样，UDC图像恢复概括了HDR重建的问题。1853×表4.所选商用智能手机设备的说明手机型号推出芯片组CPUGPURAM（GB）AI评分↑（# 1）三星A5003/2019Exynos 96108个核心Mali-G71 GP3445.4（# 2）OnePlus Nord 25G07/2021联发科尺寸12008个核心Mali-G77 MC98194.3（# 3）OnePlus 8 Pro04/2020高通骁龙865 5G8个核心肾上腺素65012137.0（# 4）Realme 8 Pro03/2021高通骁龙720G8个核心Adreno 618860.6图像去模糊我们处理来自GoPro数据集的图像[40]测试分割。我们使用我们的方法将基础模糊输入提高了2dB（即，测试集中的平均PSNR为27.8 dB）。我们还优于基线方法Xuet al。[58]，Hyunet al. [32]，Whyteetal. [55]Gonget al. [25]第20段。我们在图6和补充材料中提供了可视化结果。我们也承认其他最先进的方法，如NAFNet[11]，UFormer[53] ，Restormer[61] ，MAXIM[50] 和MPRNet[64]，在相同的去模糊和去噪设置上进行了测试，但是，我们不与它们进行比较，因为许多是当代和更复杂的模型，以极其低效的代价实现了最具竞争力的性能。我们在表5中对此进行了分析。5. 效率分析我们使用四个智能手机设备的不同方法的性能进行评估在表4中，我们提供了有关基准测试中使用的设备的所有详细信息。作为衡量深度学习模型部署场景中每个移动设备性能的参考指标，我们提供了AI评分[31]。这个AI分数是在一组实验中计算出来的（即，类别识别、语义分割或超分辨率），其中根据每个因素的重要性观察推理精度和硬件/软件行为并将其量化为得分度量。所有测试都由作者在[31]中描述，并且可通过应用程序AI Benchmark[31]用于Android智能手机，该应用程序还支持在不同硬件选项（ CPU，GPU，NPU）上部署深度学习模型，并具有各种精度类型（即，FP16、FP32、INT8）。我们参考工作[31]了解有关此应用程序的更多细节。部署限制。在介绍我们的基准设置和比较方法之前，我们必须注意这种效率分析的局限性：（i）模型需要被转换为.tflite格式，这种转换并不简单，并且可能导致性能损失，特别是如果模型最初是使用PyTorch实现的（即，PT我们调整我们的模型来遵循这个标准[31]，并重新实现（如果可能的话）其他方法。基准设置。在默认的Tensorflow-lite转换和优化后，使用不同分辨率的张量图像作为输入，在CPU和GPU（TFLite Delegate）FP 16上测试模型。计算每个分辨率的FLOP。我们在图4中显示了使用AI Benchmark应用程序的评估过程[31]。方法比较。由于不支持的操作，DiscNet[21]无法直接转换为所需的TFlite格式。出于这个原因，我们使用[21]中定义的DiscNetSRMDNF[72]和 SFTMD[72]也不能直接转换，因此，我们使用具有相同数量FLOP的规范UNet模型来近似它们的性能。如表6所示，我们提出的模型LPIENet可以在商用移动设备GPU中实时处理全高清图像，比Disc Net快5倍[21]。我们的模型还可以在CPU上实时处理低分辨率图像（每幅图像不到1秒），并且其每秒钟仅衰减0。04关于DiscNet [21]在SSIM [52]方面。表5. LPIENet和其他最先进的方法之间的比较“任务”表示建议比较解决方案的任务：去噪（1）、去模糊（2）、HDR成像（3）和UDC相机增透（4）。“Res”指定用于报告GMAC数量的输入分辨率。最后一列说明了它们在感知性能（SSIM）方面优于我们的模型。→−ONNX→−TF→−TFLite）。（ii）多重状态目前不支持GELU激活或LayerNorm[11]等操作。由于这些原因，多方法目前无法使用标准设置[31]部署或需要Tensorflow实现。方法任务↓ MAC（G）Res.SSIM差异MPRNet[64]1/25882560.15SRMDNF[69]4475.58000.02[21]第二十一话42218000.01HINet[12]1/2170.72560.15[第50话]1/2169.52560.17Restormer[61]1/21402560.17UFormer[53]1/289.52560.17DE-UNet[72]484.5800-0.01HDR-NTIRE[43]NAFNet[11]31/2≤6665FHD256-0.24LPIENet1/2/3/412800-LPIENet1/2/3/41.3256-1854×18.25 dB 19.70 dB 20.76 dB[67]第68话：我的世界25.75 dB 28.84 dB 35.57 dB33.42 dB[18]第十八届全国政协委员、全国政协委员、全国政协委员19.01 dB 35.21 dB 35.01 dB[61]第61话：我的世界34.96 dB 35.97 dB 35.77 dB 33.57 dBMPRNet[64][11]第11届中国国际纺织品展览会图3. 来自SIDD数据集的具有挑战性的sRGB图像上不同方法的真实图像去噪结果[2]。我们的方法可以恢复细节，并产生令人愉快的结果，同时比其他方法小10在图5中，我们提供了验证场景中的定性样本，我们的模型能够实时显著提高请注意，在感知失真权衡[7]中，我们考虑了更重要的感知指标[16，26]，因为我们的目标是为人类提供令人愉快的结果。局限性。除了上述限制性能的实现限制（即，LayerNorm不受支持，并且被证明在图像恢复中是必不可少的[11]），我们在我们的方法中发现了以下限制：（i）使用逐像素卷积和反转的残余块限制了感受野，这在解决HDR和去模糊问题时是明显的缺点（即，该模型不能像更复杂的方法那样产生幻觉和生成现实内容），（ii）操作的自我强加的限制是明显的性能限制。图4. AI Benchmark[31]模型性能评估。我们的方法可以使用GPU FP16在1.5秒内处理4K输入。6. 结论在本文中，我们提出了一个新的轻量级模型的感知图像增强，称为LPIENet。我们的实验和测试证明，它的能力，对国家的最先进的在不同的图像恢复和增强任务，即图像去噪，图像去模糊，HDR重建和UDC图像恢复。我们的新模型仅包含0.1M参数，能够在不到一秒的时间内处理当前现成手机中的高分辨率图像。我们的新模型的主要新颖之处在于将U-Net类架构与反向剩余atten- tion（IRA）块相结合，从而大大减少了所需操作的我们能够挑战建立良好的模型与一小部分，他们的报告数量的参数或数量的执行操作。最后，我们介绍了一个新的基准图像增强的基础上，真正的智能手机上的效率和部署能力。我们建议读者参考我们的项目页面以获得补充材料。致谢这项工作得到了亚历山大·冯·洪堡基金会（AvH）的部分支持。JVC得到了由MCIN/AEI/10.13039/501100011033资助的Grant PID 2021 - 128178 OB-I 00 和 ERDF“A way ofmaking Europe”以及由欧盟-NextGenerationEU资助的“Ayudas para la re c u a lificaci o ′ n del sistema un iversitario esp a n cartol”的支持1855表6.UDC图像恢复在不同商用智能手机上的效率基准我们展示了我们的方法在不同图像分辨率，设备架构和运行场景（CPU，GPU）的运行时的性能运行时是至少5次迭代的平均值。我们的方法是这项工作中描述的少数几种方法之一，可以处理高分辨率图像，甚至2K，而无需平铺或修补输入图像，同时我们实现了高感知质量的结果。请注意，由于内存要求或运行时约束，标记为“0”的方法未通过测试。FHD被认为是1920×1080。方法名称FLOPS↓（G）分辨率（px）SSIM↑运行时间电话#1电话号码2电话#3电话#4CPUGPUCPUGPUCPUGPUCPUGPUSFTMD[72]2460800×8000.986✗✗✗✗✗✗✗✗RDUNet[59]2461FHD✗21.2437.82.7✗5.1764.5✗RDUNet[59]RDUNet[59]75978800×800256×2560.970261.11.46.20.665.40.390.860.09137.10.581.500.18113.90.644.490.52CycleISP[62]12410FHD✗98.7✗20.51✗✗✗✗CycleISP[62]CycleISP[62]3830392800×800256×2560.957✗14.629.43.0844.95.85.90.64✗8.210.171.012647.54✗3.2[21]第二十一话1434FHD105513.7261.52.061.15.3455.2✗[21]第二十一话[21]第二十一话442256800×800256×2560.97452.41.14.00.4113.50.30.630.0715.60.61.40.1423.30.583.980.38LPIENetLPIENetLPIENet310.482.877.64K2K全高清0.940✗24.822.06.91.81.7368.11.573.01.6✗12.4011.57✗1.21.156.90.4313.10.46.30.4112.00.4LPIENetLPIENet23.952.45800×800256×2563.80.380.520.0651.50.140.130.0312.20.230.130.0152.40.260.3720.044GT Ours DISCNet塘桥WF SFTMDSRMDNF图5.SYNTH[21]合成确认图像的目视比较我们的方法LPIENet-L恢复精细的细节，并产生高感知质量的图像，没有令人不快的文物。图片来自DiscNet[21]。输入恢复参考图6.GoPro数据集上的定性结果[40]测试分割。我们的模型也可以显着减少运动模糊。1856引用[1] Abdelrahman Abdelhamed ， Mahmoud Afifi ， RaduZufte，and Michael S Brown. Ntire 2020挑战真实图像去噪：数据集、方法和结果。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第496-497页[2] Abdelrahman Abdelhamed，Stephen Lin，and Michael SBrown.智能手机摄像头的高质量去噪数据集。在IEEE计算机视觉和模式识别会议论文集，第1692-1700页[3] M. Aharon，M. Elad和A.布鲁克斯坦K-svd：一个用于设计稀疏表示的过完备字典的算法。IEEE Transactions onSignal Processing，54（11）：4311[4] 赛义德·安瓦尔和尼克·巴恩斯。具有特征注意力的真实图像去噪。在IEEE/CVF国际计算机视觉会议论文集，第3155-3164页[5] FrancescoBanterle 、 KurtDebattista 、 AlessandroArtusi、Sumanta Pattanaik、Karol Myszkowski、PatrickLedda和Alan Chalmers。高动态范围成像和低动态范围扩展，用于生成hdr内容。在计算机图形论坛，第28卷，第2343-2367页。Wiley Online Library，2009.[6] Francesco Banterle，Patrick Ledda，Kurt Debattista，andAlan Chalmers.逆色调映射。法律程序中第四届计算机图形和交互技术国际会议在澳大拉西亚和东南亚，第349-356页，2006年。[7] 约柴·布劳和托莫·麦克利。感知失真的权衡。在IEEE计算机视觉和模式识别会议论文集，第6228-6237页[8] Antoni Buades，Bartomeu Coll，and J-M Morel.一种非局部图像去噪算法。2005年IEEE，2005年。[9] 西比·卡特利·卡萨尔、托马斯·塔奈、卢卡斯·范德鲁、阿莱斯·莱昂纳迪斯、格雷·格雷·斯拉博和爱德华多·佩雷斯·佩利特罗。柔性hdr成像的对准和曝光不确定性建模。arXiv预印本arXiv：2201.02625，2022。[10] 孟昶，李琦，冯华军，徐志海。用于单幅图像去噪的空间自适应网络。欧洲计算机视觉会议，第171-187页。Springer，2020年。[11] 陈良玉、朱晓杰、张湘玉和孙健。用于图像恢复的简单基线。arXiv预印本arXiv：2204.04676，2022。[12] 陈良玉，卢欣，张杰，朱晓杰，陈成鹏. Hinet：用于图像恢复的半实例归一化网络。在IEEE/CVF计算机视觉和模式识别会议（CVPR）研讨会论文集，第182-192页[13] Y. Chen和T.Pock 可训练的非线性反应扩散：快速有效的图像扩散的灵活框架第IEEE Transactions on Pattern Analysis and MachineIntelligence，39（6）：1256[14] 赵成贤和李承京。快速运动去模糊。ACM SIGGRAPHAsia 2009，第1-8页。2009年[15] Sung-Jin Cho，Seo-Won Ji，Jun-Pyo Hong，Seung-WonJung，and Sung-Jea Ko.重新思考由粗到细的方法在单图像去模糊。在IEEE/CVF国际计算机视觉会议论文集，第4641-4650页[16] Marcos V Conde，Maxime Burchi，and Radu Baufte.用于改进图像质量评估的校正器和盲噪声学生。在IEEE/CVF计算机视觉和模式识别会议论文集，第940-950页[17] MarcosV.Conde ， StevenMcDonagh ， MatteoMaggioni，AlesLeonardis和EduardoPe'rez-Pellitero。经由可学习字典的基于模型的AAAI 人工智能会议，36（1）：481-489，6月。2022年。[18] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。稀疏三维变换域协同滤波图像去噪IEEE Transactions on image processing，16（8）：2080[19] Paul E Debevec和Jitendra Malik。从照片恢复高动态距离辐射图。在ACM SIG-GRAPH 2008中，第1-10页。2008年[20] Gabriel Eilertsen ， Joel Kronander ， Gyorgy Denes ，Rafaelik K. Mantiuk和Jonas Unger。使用深cnn从单次曝光重建Hdr图像 ACM Trans. Graph. ，36（6），2017年11月。[21] Ruicheng Feng，Chongyi Li，Huajin Chen，Shuai Li，Chen Change Loy，and Jinwei Gu.动态跳跃连

下载后可阅读完整内容，剩余1页未读，立即下载