联合学习模型：不准确对齐的监督学习RAW到sRGB映射

99 浏览量更新于2023-10-08 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4348使用不准确对齐的监督学习RAW到sRGB映射张志禄1，王浩林1，刘明1，王若浩1，张佳伟2，左王梦1，3（R）1哈尔滨工业大学，2商汤科技，3广州琶洲实验室{cszlzhang，Why cs，csmliu，rhwangHIT}@ outlook.com{zhjw1988}@wmzuo@hit.edu.cn gmail.com摘要近年来，学习RAW到sRGB映射已经引起了越来越多的关注，其中输入原始图像被训练以模仿由另一相机捕获的目标sRGB图像。然而，严重的颜色不一致性使得生成输入原始和目标sRGB图像的良好对齐的训练对非常具有挑战性而利用不准确对准的监督学习容易导致像素偏移并产生模糊结果。在本文中，我们避免了这个问题，提出了一个联合学习模型的图像对齐和RAW到sRGB映射。为了减小颜色不一致对图像配准的影响，提出了一种全局颜色映射（GCM）方法，在给定输入原始图像的情况下，生成一个初始sRGB图像，该图像保持像素的空间位置不变，并利用目标sRGB图像引导GCM进行颜色转换。然后，预先训练的光流估计网络（例如，PWC-Net）被部署以扭曲目标sRGB图像以与GCM输出对准为了减轻不准确对准的监督的影响，利用变形的目标sRGB图像来学习RAW到sRGB映射。当训练完成时，GCM模块和光流网络可以分离，从而不会为推理带来额外的计算成本。实验表明，我们的方法在ZRR和SR-RAW数据集上对最先进的算法表现良好。使用我们的联合学习模型，轻量级骨干可以在ZRR数据集上实现更好的定量和定性性能代码可在https://github.com/cszhilu1998/RAW-to-sRGB。1. 介绍图像信号处理（ISP）流水线指的是用于产生高质量显示参考sRGB图像的原始传感器图像的处理，并且因此对于相机系统是关键的。代表性ISP流水线通常涉及一系列步骤，包括去马赛克、白平衡、颜色校正、色调映射、去噪、锐化、伽马校正等[40]。当手-精心制作的ISP解决方案通常被采用在当前的摄像机系统中，卷积网络（CNN）在以端到端的方式学习深度ISP模型方面表现出巨大的潜力[22，29，45]。深度ISP的端到端属性使得学习RAW到sRGB映射以生成用于移动相机的高质量图像非常具有竞争力[22]。虽然移动相机时代已经成为照片的主要来源，但与数码单反相机相比，它的传感器尺寸更小，光圈也有限。通过学习RAW到sRGB的映射，从移动原始图像中生成类似于DSLR的sRGB图像，深度ISP模型可以提供一种令人鼓舞的方法来缩小移动相机和DSLR相机之间的差距。此外，与8位sRGB图像相反，原始图像通常具有更高位（例如，10-14位）并且可以传达更丰富的细节。因此，学习RAW到sRGB映射有益于性能改进，即使对于其它低级视觉任务，例如，图像超分辨率[62]、低光图像降噪[8]和高动态范围成像（HDR）[6]。然而，当准备训练数据时，输入原始图像和目标sRGB图像通常使用不同的相机（例如，智能电话和DSLR）或具有不同的照相机配置（例如，焦距）。因此，颜色不一致和空间未对准通常是不可避免的。一方面，颜色不一致使得生成输入原始和目标sRGB图像的良好对齐的训练对非常具有挑战性。输入的原始和目标sRGB图像通常不能通过现有方法完全对齐[34，49]，导致轻度对齐。另一方面，使用不准确对准的超视觉进行学习容易发生像素移位并产生模糊的结果（参见图11）。（b）款。为了减轻不准确对齐的不利影响，AWNet [9]以增加推理时间为代价采用全局上下文块[5]，而Zhang等人。[62]提出了一种上下文双边（CoBi）损失来搜索用于监督的最佳匹配补丁。然而，基于块的对齐不能适当地处理由对象之间的深度差异引起的空间变化的未对齐因此，他们的方法仍然倾向于产生模糊的结果，如图1所示。1（f）.为了规避不准确对齐的监管4349×(a) 输入原始图像（可视化）（b）PyNet [22]（c）我们的（d）目标sRGB图像(e)输入原始图像（可视化）（f）Zhang等人[62]第62话（一图1：ZRR和SR-RAW数据集的数据对的示例，其中可以用参考线观察到明显的空间未对准使用这种不准确对齐的训练数据，PyNet [22]和Zhanget al.[62]容易产生具有空间未对准的模糊结果，而我们的结果与输入很好地对准请放大以便更好地观察。问题，本文提出了一种联合学习模型的图像对齐和RAW到sRGB映射。我们认为，解释不准确/轻度对齐的一个主要原因是输入原始图像和目标sRGB图像之间的严重颜色不一致。否则，可以容易地利用现有的光流网络[10，23，46]来完成图像对准的任务。因此，我们建议通过将精心设计的全局颜色映射（GCM）模块与预先训练的光流估计网络（例如， PWC-Net[46]）。特别地，GCM模块涉及11个卷积层的堆栈以确保映射是空间独立的为了克服颜色不一致的障碍，我们限制GCM输出近似对齐的目标sRGB图像。值得注意的是，仅在训练期间部署GCM以对准目标sRGB图像。因此，我们还可以采用目标sRGB图像和坐标图来生成用于朝向减少颜色不一致性调制GCM特征的条件指导然后，预先训练的光流估计网络（例如，PWC-Net [46]）可用于将目标sRGB图像与GCM输出对齐，从而产生良好对齐的sRGB图像。对齐的目标sRGB图像可以用作训练RAW到sRGB映射的更好监督。特别地，我们通过减少MW-ISPNet [20]中的剩余信道注意力块（RCAB）来提出LiteISPNet。GCM和LiteISPNet被联合训练用于目标sRGB图像的对准（即， GCM 和 PWC-Net ）和 RAW 到 sRGB 映射（即，LiteISPNet）。当训练完成时，GCM和PWC-Net可以分离，并且仅需要LiteISPNet来处理测试原始图像，从而不带来额外的推理成本。在苏黎世 RAW 到 RGB（ZRR）数据集[22]上的实验表明，我们的解决方案在不准确对齐监督的学习中是有效的，并且可以产生更精细的细节。我们提出的方法也优于国家的最先进的方法在定量指标，感知质量和计算效率。此外，使用SRResNet作为主干，实验还显示了我们的方法在SR-RAW数据集上进行图像超分辨率的有效性[62]。这项工作的主要贡献有三方面：• 提出了一种有效的方法来规避学习RAW到sRGB映射与不准确对齐的监督的任务。• 设计了一个全局颜色映射（GCM）模块来解决颜色不一致对图像对齐的影响。利用空间保持网络（SPN）来避免像素的空间移位，并且采用目标sRGB图像来调制GCM特征以减少颜色不一致性。• ZRR和SR-RAW数据集上的定量和定性结果表明，我们的方法优于国家的最先进的方法，没有额外的推理成本。2. 相关工作2.1. 面向ISP的相机ISP管道被部署为从原始图像产生为此，经典ISP已被广泛研究，其通常涉及一系列子任务[40]，包括去马赛克、白平衡、色彩校正、色调映射、去噪、去噪、4350∼锐化、伽玛校正等。对于每个子任务，文献[2，17，42，48]中已经提出了许多方法。受深度学习前所未有的成功的推动，CNN也被研究用于解决几个硬ISP子任务，如图像去噪[57，59，60]，去马赛克[12，30，47]，自动白平衡(AWB)[1，18，33，54]和色调映射[3，13，16，58]。最近，已经进行了几次尝试来学习具有深度模型的Schwartz等人[45]设计了一个DeepISP模型，以在低光环境下捕获的原始图像中生成光线充足的sRGB图像。CameraNet [29]明确地将子任务分为两类（即恢复和增强），并通过商业软件提取地面实况。Igna- tov等。[22]收集了一个数据集，其中包含配对的原始图像和sRGB图像，分别由华为P20智能手机和佳能5D MarkIV DSLR拍摄。对于[22]中提出的数据集，进行了两次挑战[20，21]。在参与者提出的体面方法中，MW-ISPNet [20]利用MWCNN [32]和残余通道注意力块（RCAB）[63]，AWNet [9]采用全局上下文块[5]来学习非局部颜色映射，他们在感知轨道中赢得了前两名[20]。在这项工作中，我们通过减少MW-ISPNet [20]中的RCAB数量来提出LiteISPNet，以学习完整的ISP模型。通过将LiteISPNet与联合学习模型相结合，与MW-ISPNet [20]和AWNet [9]相比，2.2. 用于更多任务的RAW到sRGB映射在[22]中，使用不同的相机捕获原始传感器和sRGB图像。这使得通过模仿其他相机或具有不同配置的相机来使低质量原始传感器产生高质量sRGB图像成为可能。而且，原始图像的像素通常是较高位的（例如，10 - 14比特）、空间独立且与亮度成线性关系，从而传送更丰富的细节以利于图像增强。Chen等人[8]通过利用配对的低光原始和长曝光sRGB图像以及不同的ISO设置来实现极端的低光图像增强，从而推动了这一系列工作他们在[7]中进一步探索了极端低光视频增强。类似地，原始图像也用于其他低级视觉任务，例如HDR [6]和图像超分辨率（SR）[55，62]。在这项工作中，我们的方法还通过使用SRResNet [27]作为骨干在图像SR [62]上进行了测试，并取得了更好的定量和定性结果。此外，还已经给出了用于将RAW到sRGB映射与高级视觉任务重新利用或合并的Wu等[53]设计了一个visionISP模型以生成用于对象检测的更好的输入。Schwartz等人[44]通过提取ISP流水线和sRGB图像分类模型的知识，学习了用于原始图像的图像分类模型。2.3. 配对的原始图像和sRGB图像为了学习RAW到sRGB映射，通常使用不同的相机或不同的相机配置拍摄输入原始和目标sRGB图像[22，62]。因此，由多个相机和场景中的运动引起的误对准是不可避免的，这阻碍了RAW到sRGB映射的学习并且引起模糊或甚至像素移位的结果。为了抑制场景中运动的影响，部署双相机或多相机以同时拍摄一些数据集，如KITTI [11，38]和Multi-PIE [15]。还引入了分束器以在“相同位置”处收集具有不同设置的图像对，以尽管有这样的设备，未对准仍然是不可避免的。已经提出了几种方法来对齐来自不同来源的图像。SIFT关键点[34]被用于[19，22，52]中的图像配准，其中可以经由RANSAC算法[49]估计单应性Cai等人[4]设计了一种考虑真实世界超分辨率数据集的亮度调整的逐像素配准方法Li等[28]通过基于光流的方法[10，23，46]扭曲用于面部图像恢复的引导图像。然而，输入的原始和目标sRGB图像通常具有严重的颜色不一致性，并且不能通过现有方法完美地对准，从而导致轻度对准。已经引入全局上下文块[5，9]和CoBi损失[62在这项工作中，我们介绍了一个全局颜色映射（GCM）模块来解决颜色不一致，并提出了一个联合学习模型的图像对齐和RAW到sRGB映射。3. 该方法在本节中，我们首先概述了我们用于图像对齐和RAW到sRGB映射的联合学习模型。然后，详细介绍了全局颜色映射（GCM）模块和LiteISPNet的设计，并提出了并且我们也将我们提出的方法扩展到其他的图像增强任务，例如，图像SR。3.1. 联合学习模型用x和y表示原始图像和对应的目标sRGB图像。使用RAW到sRGB映射来产生sRGB图像y（fromx），用于近似目标sRGB图像y的颜色特性。y=I（x;ΘI），（1）其中I表示RAW到sRGB映射（例如，LiteISP-NetinSec.3.3），其中参数ΘI。然而，x和y通常使用不同的凸轮来获取时代或具有不同的相机配置，从而导致它们之间不可避免的空间未对准。此外，X和y之间的严重颜色不一致进一步使得图像对准更加困难。另一方面4351F−WC∈我图2：拟议的联合学习框架说明（a）联合学习模型的流水线，其中GCM模块将x（通过简单插值从x去马赛克）的颜色转换为更准确的光流，然后封装的sRGB（y，w）可以为GCM和LiteISPNet的联合训练提供对齐的监督。(b)GCM模块的结构，由GuideNet和SPN组成。部署目标sRGB（y）和坐标图（τ）用于引导颜色转换。（c）LiteISPNet的结构，请参阅第二节。3.3更多详情（d）（c）中使用的残基的结构RAW到sRGB映射的目的是模仿目标sRGB图像的颜色特征和细节。X和y之间的未对准对RAW到sRGB映射的学习是有害的，从而易于产生具有不利像素偏移的模糊输出。已经提出了几种方法来改善对准或学习鲁棒性，但在抑制模糊输出方面仍然是不够的。图像对齐和RAW到sRGB映射的联合学习可以提供一些新的机会来规避这样的问题。一方面，RAW到sRGB映射有助于减少x和y之间的颜色不一致性，从而减轻图像对齐的困难。另一方面，更好的图像对齐也有利于RAW到sRGB映射，以抑制模糊输出和像素偏移。不幸的是，RAW到sRGB的映射（例如， [22]）不能完全避免像素偏移（见图）。1），因此将y与y（对准不能解决未对准问题。我们的联合学习模型利用了了细腻设计全局颜色映射在一些实施例中，图像处理器100可使用GCM模块来产生经色彩调整的图像y~以用于扭曲y。一种简单的去马赛克方法（例如，双三次）首先用于通过填充x的缺失值来获得x。然后，GCM模块被引入作为x（的逐像素映射，并且因此可以保证在颜色校正中不引入nypixel偏移。此外，GCM仅在以下情况下需要：ing训练。因此，我们可以将目标sRGB图像和坐标图作为输入，以生成用于调制GCM特征以减小颜色不一致性的条件指导。因此，GCM模块可以由下式给出，其中表示GCM模块，τR2×H×W是包含像素坐标的2D坐标图其被归一化为[1，1]。对于y~和y，我们使用预先训练的），例如，PWC-Net [46]，以估计光流Ψ，f=F（y，y）.（三）然后使用所估计的光流来扭曲y以形成扭曲的目标sRGB图像。yw=W（y，Ψ），⑷其中是扭曲操作（例如，双线性插值）[46]。然后，yw可以用作良好对准的目标sRGB图像，用于监督等式11中的RAW到sRGB映射。（1），导致我们的联合学习模型（见图1）。2）的情况。3.2. GCM模块对于光流估计，需要经颜色调整的图像满足两个先决条件。（i）y~应该模仿y的颜色，以减少严重的颜色不一致性。(ii)像素的空间位置应保持相同τy xy~yGuideNetGCMPWC-Netτyx去马赛克WSPN等式（五）LGCMLiteISPNetLISP等式（七）τxy~Xy(a)联合学习模型yw(b)GCM模块XyRCAB(c)LiteISPNet的结构(d)残差组卷积ReLU全局平均池化残留量组Pixelshuffle离散小波变换W翘曲反小波变换Sigmoid逐元素乘积按元素之和制导矢量RCABRCABRCAB4352.W≥−m=i×·D2∼∼◦ǁ· ǁ作为输入图像根据[16]，一些常用的图像处理操作可以通过多层感知器（MLP）来近似或公式化，并且逐像素性质确保输入和输出严格对齐。因此，我们部署了一个空间保持网络（SPN）作为我们的GCM模块的主干，它由1 ×1卷积层堆栈组成。值得注意的是，GCM仅在训练期间需要因此，目标sRGB图像也可以被安全地馈送到GCM中，以便更好地转换到其他方向以获得sRGB图像。为此，我们构建了一个GuideNet来从ra w（x）和tar getsRGB（y）对生成一个条件引导向量（见图2（b））。为了减轻在生成引导向量时的不对准的影响，我们使用相对大的ker-3.4.学习目标使用预先训练的PWC-Net [46]计算光流，GCM和LiteISPNet可以联合训练，用于学习图像对齐和RAW到sRGB映射。下面，我们分别介绍GCM和LiteISPNet的损失项。Tf或GC M损失。用y~表示等式中的GCM输出并且y是等式2中的变形目标sRGB图像。4.第一章GCM的损失项由下式给出：LGC M （y~ ，yw ）=m◦（y~−yw ） 1 ，（5）其中表示条目式乘积，1是L1损耗，m是指示光流的有效位置的掩模。这里，m的每个元素mi被定义为，Nel（即，7 7），并部署全局平均池化以获取整体信息。1，[（1，Ψ）]i 10，否则、（6）此外，在几个数据集（例如，ZRR [20]），其中亮度从图像中心到边界逐渐减弱。然而，标准的全局颜色映射不足以补偿暗角的不利影响。幸运的是，暗角的效果可以通过2D坐标图的逐像素函数来建模（即，τ其中1表示全1矩阵，ε是设置为0.001的阈值，并且[ ]i表示矩阵的第i个元素。LiteISPNe t的损失条款。由y表示LiteISPNet输出在Eqn.1.一、LiteISPNet用ll损失和（基于VGG的）感知损失的组合来训练[36]，其可以被写为，LISP（y，yw）=λAm◦（y−yw）1在等式中（2））[56]。作为补救措施，我们简单地将τ馈送到SPN和GuideNet两者以用于处理抗晕映，同时1+λVGGm◦（φ（y）−φ（yw））1，（七）同时学习颜色映射利用GCM输出y~，我们使用PWC-Net[46]来估计用于扭曲目标sRGB图像y的光流。然后可以采用变形的sRGB图像yw作为用于训练GCM的超视觉。此外，我们注意到像素-其中φ表示预训练的VGG-19 [36]网络，并且设λA1=λVGG=1。此外，为了进一步提高视觉质量，我们还使用adversar-ial loss训练LiteISPNet [14]。根据LSGAN [37]，损失函数定义为：明智的映射使GCM无法消除噪声x.尽管如此，受益于PWC-Net [46]，我们仍然可以L甘1=2E xpx [D（I（x））-1]2，（8）估计y~和y_b之间的光流。其中表示鉴别器（参见用于de的补充）尾结构配置），其由以下3.3. LiteISPNet为了减轻轻度对齐，现有方法通常1LD=2Ey∼py [D（y）−1]2+1Expx [D（I（x））]2。（九）ally构建大型模型并利用特定模块[9，22]，这以增加推理时间为代价提高了性能。考虑到可以通过联合学习获得更好的对齐，我们可以采用更有效的网络来学习RAW到sRGB映射以实现可比较的或甚至更好的性能。因此，我们通过简化MW-ISPNet [20]提出了一个LiteISPNet，这是一个基于U-Net [43]的多级小波ISP网络。特别地，我们通过参考[31]将卷积层和残差组[63]置于每个小波分解此外，我们还将每个残差组中的RCAB数量从20减少到4，以构建LiteISPNet骨干。图2（c）示出了LiteISP-Net的网络结构。受益于结构修改和联合学习，LiteISPNet在定量和定性上优于MW-ISPNet [20]，模型大小为40%，运行时间为20%。然后，LiteISPGAN通过具有损失的训练来提供，LISPGAN=L ISP+λGANLGAN，（10）其中λGAN= 0。01.学习目标。在上述损失条件下，整体我们的模型的学习目标可以定义为，L= LGCM+ L ISP/ISPGAN。（十一）3.5. 扩展到其他图像增强任务如前所述，在SEC。2.2，RAW到sRGB映射已经与许多其他任务相结合，其中已经付出了相当大的努力来减轻未对准的影响[6，55，62]。在这些场景中，对准的主要障碍与ISP问题类似[22]，因此所提出的联合4353训练框架可以自然地在本文中，我们对原始图像SR[62]任务进行了实验，以显示我们的方法的泛化能力。4354×××(a) 原始图像（可视化）（b）PyNet [22]（c）AWNet（原始）[9]（d）AWNet（去马赛克）[9](e)MW-ISPNet（GAN）[20]（f）Ours（LiteISPNet）（g）Ours（LiteISPGAN）（h）GT图3：ZRR数据集上的视觉比较。请放大以便更好地观察。表1：在没有和有对抗性损失的情况下训练的方法在ZRR数据集上的定量结果方法#参数时间原始GT将GT与原始将GT与结果（男）（毫秒）PSNR↑/ SSIM↑/ LPIPS↓PSNR↑/ SSIM↑/ LPIPS↓PSNR↑/ SSIM↑/ LPIPS↓PyNet [22]47.662.721.19 / 0.7471 /0.19322.73 / 0.8451 /0.15222.97 / 0.8510 /0.152AWNet（raw）[9]52.255.721.42 / 0.7478 /0.19823.27 / 0.8542 /0.15123.35 / 0.8559 /0.151AWNet（demosaiced）[9]50.162.721.53 / 0.7488 /0.21223.38 / 0.8497 /0.16423.41 / 0.8502 /0.164MW-ISPNet [20]29.2110.521.42 /0.7544/0.21323.07 / 0.8479 /0.16523.31 / 0.8578 /0.164我们的（LiteISPNet）11.923.321.55/ 0.7487 /0.18723.76/0.8730/0.13323.87/0.8737/0.133MW-ISPNet（GAN）[20]29.2110.521.16 / 0.7317 /0.15922.80 / 0.8285 /0.13423.38 / 0.8513 /0.131我们的（LiteISPGAN）11.923.321.28/0.7387/0.15923.47/0.8642/0.12023.56/0.8670/0.1194. 实验4.1. 实现细节数据集。我们在两个数据集上进行了实验，ZurichRAW到RGB（ZRR）[22]和SR-RAW [62]。在ZRR数据集中，收集了2万个图像对，并通过SIFT关键点[34]和RANSAC算法[49]进行粗略对齐，并且具有互相关<0的裁剪块。9被丢弃，产生大小为448 - 448的48，043个raw-sRGB对。我们按照官方划分，用46.8k对训练我们的LiteISPNet，并报告剩余1.2k对的定量结果在SR-RAW数据集中，收集了500个图像场景。在每个场景中，作者拍摄7张具有不同焦距（24、35、50、70 、 100 、 150 和 240 mm ）的照片，其中 24/100 、35/150和50/240对形成4超分辨率数据集（即，共1,500人）。我们使用400个场景进行训练，50个场景进行验证，并报告35/150毫米对其余50个场景的性能。为了公平比较，我们用Zhang等人使用的SRResNet [27]替换LiteISPNet。[62]在SR-RAW数据集上。培训详情。在训练期间，对训练图像应用数据增强，包括随机水平增强。翻转、垂直翻转和90度旋转。在每次迭代中，提取具有4个通道的16个打包的原始补丁作为输入。我们的框架通过ADAM算法[26]优化，β1=0。9和β2=0。999，100个时期。学习率最初设置为110−4，并在50个epoch后衰减到一半。实验使用 PyTorch [39] 框架在 NvidiaGeForce RTX 2080Ti GPU上进行。评估配置。为了定量地评估性能，我们在RGB通道上计算三个度量，即，峰值信噪比（PSNR）、结构相似性（SSIM）[51]和学习感知图像块相似性（LPIPS）[61]。请注意，在本文中，我们使用在AlexNet网络上训练的LPIPS 0.1版本。竞争方法的所有结果均通过官方发布的模型生成此外，我们还计算了ZRR数据集上的推断时间来评估模型的效率。除了提供用原始GT计算的度量之外，我们还通过考虑比对提供两组度量用于全面和更准确的比较。具体地，我们通过PWC-Net[46]将y与GCM输出y~对齐，并且用这种扭曲的y计算的度量由Align GT with raw表示。此外，考虑到以前的模型是用未对齐的4355×(a) Bicubic†（b）SRGAN†[27]（c）ESRGAN†[50]（d）SPSR†[35]（e）RealSR†[24](f)原始图像（可视化）（g）Zhanget al.[62]（h）Ours（i）Ours（GAN）（j）GT图4：SR-RAW数据集的视觉比较t表示在给定LR sRGB图像作为输入的情况下获得结果表2：SR-RAW数据集的定量结果采用LR sRGB图像作为输入的方法用t标记。方法原始GTPSNR↑/ SSIM↑/ LPIPS↓将GT与原始PSNR↑/ SSIM↑/ LPIPS↓将GT与结果PSNR↑/ SSIM↑/ LPIPS↓SRGAN† [27]18.42 / 0.5534 /0.45619.32 / 0.5999 /0.41921.89 / 0.6832 /0.398[50]第五十话18.66 / 0.5563 /0.43519.55 / 0.6018 /0.41121.99 / 0.6785 /0.393SPSR† [35]18.64 / 0.5428 /0.45419.50 / 0.5854 /0.44121.90 / 0.6603 /0.425[24]第二十四话18.69/ 0.5570 /0.43519.58 / 0.6026 /0.41222.03 / 0.6796 /0.394Zhang等人[六十二]16.03 / 0.5184 /0.51717.43 / 0.5745 /0.44022.26 /0.7205/0.372我们17.74 /0.5572/0.43022.00 /0.7049/0.34622.50 /0.7205/0.342我们的（GAN）17.71 / 0.5501 /0.42222.10/ 0.6996 /0.34022.59/ 0.7156 /0.336数据可能导致结果中的像素偏移，我们进一步将地面实况与每个方法的输出对齐，并且将度量表示为AlignGT with result。4.2. ZRR数据集为了评估所提出的方法在ZRR数据集上的有效性，我们将我们的模型与三种最先进的方法进行了比较，即，PyNet [22]、AWNet [9]和MW-ISPNet [20]。请注意，AWNet（ raw）和 AWNet（demosaicked ）表示AWNet中提出的两个模型，分别以4通道原始图像和3通道去马赛克图像作为输入，MW-ISPNet（GAN）表示使用对抗损失训练的MW-ISPNet。如表1所示，LiteISPNet在Align GT with raw和AlignGT with result中的所有指标上都超过了竞争方法。此外，当使用对抗性损失进行训练时，我们的LiteISPGAN 比 MW-ISPNet （ GAN ）获得了更好的LPIPS分数（以及PSNR和SSIM指数），MW-ISPNet（GAN）是AIM 2020 Learned Smartphone ISP挑战赛的感知跟踪冠军[20]。值得一提的是，我们的模型通过轻量化结构（参数数量为对于448×448输入，其推理时间仅为AWNet和MW-ISPNet的25%和20%此外，我们在图中给出了定性结果。3.第三章。可以看出，PyNet、AWNet（去马赛克）和MW-ISPNet（GAN）的结果是模糊的。AWNet（raw）能够保留更多的细节，但是，它可能会生成伪影，并且结果不太令人满意。相比之下，我们的结果在视觉上更令人愉快，同时保留更精细的细节。请参阅supply。查看更多结果。4.3. SR-RAW数据集上的实验结果所提出的方法还在SR-RAW数据集上针对4SR进行评估。[62]我们也要与国家的现有技术sRGB图像SR方法（即，SRGAN [27]、ES-RGAN [50]、SPSR [35]和RealSR [24]），其中将SR-RAW数据集中提供的低分辨率sRGB图像作为输入。定量和定性结果分别在表2和图4中给出。我们可以看到SRGAN [27]，ESRGAN [50]，SPSR[35]和RealSR [24]倾向于生成具有不期望纹理的噪声结果，并且显示出不令人满意的定量性能。虽然用轻度未对准鲁棒上下文双侧（CoBi）损失训练，Zhanget al.[62]不能恢复精细细节，导致模糊的结果。我们的方法，具有与Zhang等人相同的SRResNet [27]骨架。[62]，可以保存更多的纹理和生成4356(a) 完整原始图像（可视化）（b）SPN（c）SPN+y（d）SPN+y+τ（我们的）（e）GT图5：GCM输出（y~）的视觉结果。在y的引导下，（c）（d）的颜色更接近GT。也可以观察到暗角，因为在（b）（c）中蓝色框中的斑块较暗，但与（d）（e）中红色框中的斑块具有相似的照明表3：关于对准策略的消融研究。表4：GCM的消融研究。PSNR是用GCM输出（y~）和最终结果（y（））相对于iv el y计算的。表5：LiteISPNet上的消融研究。方法峰值信噪比LPIPSGCM组件PSNR（y~）PSNR（y）#RCAB时间（ms）PSNRSIFT（基线）23.49 0.148N/A-23.49215.323.54将y与y对齐23.33 0.136SPN20.6723.61423.323.76将y与x对齐23.52 0.135SPN +y26.3323.69838.023.74Aligny withy~（Ours）23.76 0.133SPN +y+τ（我们的）26.9323.762091.523.79整洁的结果。更多的定性结果中给出的Suppl.5. 消融研究在本节中，我们对所提出的联合学习框架进行了广泛的消融研究，并报告了ZRR数据集上Align GT与raw的PSNR度量5.1. 对准策略为了解决输入原始和目标sRGB图像之间的未对准问题，直观的方法是将它们对准。例如，ZRR数据集中的图像对通过SIFT [34]算法粗略对齐。我们用这样的图像对作为基线来训练LiteISPNet（见表3），并评估几种潜在的策略以实现更好的对齐。（1）与RAW到sRGB映射联合学习图像对齐可能导致迭代优化过程，因此我们在训练期间将y与LiteISPNet（y）的输出对齐。不幸的是，RAW到sRGB映射不是逐像素操作，导致光流估计的更大自由度，并且可能导致更严重的像素偏移。(2) 我们还估计经去马赛克k的图像x和y之间的光流，并将y与x对齐。像素偏移在一定程度上都被消除，但由于颜色不一致，质量(3)利用所提出的GCM模块，我们可以获得y〜，其颜色与y一致，而像素位置与x相同。因此，我们的方法对其他比对策略表现有利。请参阅supply。以获得视觉效果。5.2. GCM模块为了评估GCM模块的每个单独组件，我们进一步进行如表5所示的实验。基线是用数据集中轻度对齐的图像对训练的LiteISPNet。当将SPN添加到基线时，由于粗略的颜色校正而获得0.12dB的PSNR增益。通过进一步引入由目标sRGB图像y提供的引导并连接坐标图τ，GCM输出y~的质量得到有效改善（参见图1B）。5），这有助于光流估计和提供更好的监督。因此，LiteISPNet的性能也得到了提升。注意，应用地面实况y来生成GCM输出，从而导致比LiteISPNet输出更高的然而，在LiteISPNet的推理期间，它不可用。5.3. LiteISPNet的结构为了探索LiteISPNet的结构，我们还对每个残差组（RG）中的残差信道注意力块（RCAB）的数量进行了实验。如表5所示，使用4个RCAB对于良好对齐的训练数据是足够的，并且更深的网络不会带来明显的性能改进。因此，我们应用4个RCAB来在我们的LiteISPNet中实现更好的效率-性能权衡。6. 结论具有不准确对准的监督的学习易于引起像素移位并生成模糊的结果，但是现有方法通常由于原始和sRGB对之间的严重颜色不一致而无法解决许多RAW到sRGB任务中的固有未对准问题。为了减少颜色不一致的影响，我们提出了一个全局颜色映射（GCM）模块，其中SPN被杠杆化以避免像素的空间移位，并且目标sRGB图像用作引导以转换原始数据的颜色然后，预先训练的光流估计模型（例如，PWC-Net）被部署用于获得良好对准的超视觉，其用于以联合学习方式训练RAW到sRGB映射。ZRR和SR-RAW数据集上的大量实验表明，我们提出的方法可以实现更好的性能对国家的最先进的方法，定量和定性。确认本工作得到国家自然科学基金U19A2073和62006064的资助。4357引用[1] 乔纳森· 巴伦。卷积颜色恒定性。IEEEInternationalConference on Computer Vision（ICCV），第379-387页3[2] Antoni Buades，Bartomeu Coll，and J-M Morel.一种非局部图像去噪算法。在IEEE计算机视觉和模式识别会议（CVPR），第2卷，第60-65页中。IEEE，2005年。3[3] 蔡建瑞、古书航、张磊。从多曝光图像学习深度单图像对比度增强器 IEEE Transactions on Image Processing（TIP），27（4）：20493[4] Jianrui Cai，Hui Zeng，Hongwei Yong，Zisheng Cao，and Lei Zhang.迈向真实世界的单幅图像超分辨率：新标杆、新模式。在 IEEE 国际计算机视觉会议（ICCV），第3086-3095页，2019年。3[5] 曹岳、徐佳瑞、林斯蒂芬、魏方云和韩虎。Gcnet：非局域网络满足挤压激励网络和超越。在国际计算机视觉研讨会，第0-0页第1、3条[6] Prashant Chaudhari ， Franziska Schirrmacher ， AndreasMaie r，ChristianRiess，andThomasK¨hle r. 多曝光高动态范围图像信号处理。 arXiv 预印本 arXiv ：1911.04762，2019。一、三、五[7] Chen Chen ， Qifeng Chen ， Minh N Do ， and VladlenKoltun.在黑暗中看到运动在IEEE国际计算机视觉会议（ICCV）中，第3185-3194页3[8] Chen Chen，Qifeng Chen，Jia Xu，and Vladlen Koltun.学会在黑暗中看东西。在IEEE计算机视觉和模式识别会议（CVPR）中，第3291- 3300页，2018年。第1、3条[9] Linhui Dai，Xiaohong Liu，Chengqi Li，and Jun Chen.Awnet：用于图像isp的注意小波网络。欧洲计算机视觉研讨会（ECCVW），2020年。一、三、五、六、七[10] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在 IEEE InternationalConference on Computer Vision（ICCV），第2758-2766页二、三[11] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在IEEE计算机视觉和模式识别会议（CVPR），2012年。3[12] Mi cha eülGharbi ， Gaura vChaurasia ， Syl vainParis ，andFre

下载后可阅读完整内容，剩余1页未读，立即下载