深度学习实现sRGB图像白平衡编辑

159 浏览量更新于2023-10-25 收藏 26.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Mahmoud Aﬁﬁ1,2∗Michael S. Brown1{mafifi, mbrown}@eecs.yorku.ca(A) Incorrect AWB(C) WB presets2850K3800K5500K7500K2850K3800K5500K7500K(B) Correct AWBsRGB WB editsstandard RGB (sRGB) encoding. While the goal of WBis intended to normalize the effect of the scene’s illumina-tion, ISPs often incorporate aesthetic considerations in theircolor rendering based on photographic preferences. Suchpreferences do not always conform to the white light as-sumption and can vary based on different factors, such ascultural preference and scene content [8,13,22,31].Most digital cameras provide an option to adjust the WBsettings during image capturing. However, once the WBsetting has been selected and the image is fully processedby the ISP to its ﬁnal sRGB encoding it becomes challeng-ing to perform WB editing without access to the original113970深度白平衡编辑01 三星人工智能中心（SAIC）-多伦多 2 约克大学0摘要0我们引入了一种深度学习方法，以实现对sRGB图像的白平衡进行逼真的编辑。相机捕捉到的传感器图像由其集成信号处理器（ISP）渲染为标准的RGB（sRGB）颜色空间编码。ISP的渲染从白平衡过程开始，用于消除场景照明的色偏。然后，ISP应用一系列非线性的颜色处理操作，以提高最终sRGB图像的视觉质量。[3]的最新研究表明，使用错误的白平衡渲染的sRGB图像由于ISP的非线性渲染，无法轻松进行校正。[3]的工作提出了一种基于成千上万个图像对的k最近邻（KNN）解决方案。我们提出使用深度神经网络（DNN）架构来解决这个问题，以端到端的方式训练DNN来学习正确的白平衡。我们的DNN将输入图像映射到与室内和室外照明相对应的两个额外的白平衡设置。我们的解决方案不仅在纠正错误的白平衡设置方面比KNN方法更准确，而且还为用户提供了编辑sRGB图像的白平衡到其他照明设置的自由。01. 引言和相关工作0白平衡（WB）是应用于所有相机图像的基本低级计算机视觉任务。WB的目的是确保在不同照明条件下成像的场景对象呈现相同的颜色。从概念上讲，WB旨在规范捕捉到的场景照明的效果，使所有对象看起来好像是在理想的“白光”下捕捉的。WB是相机的内置集成信号处理器（ISP）对传感器未处理的原始RGB图像应用的第一个颜色处理步骤。在执行WB之后，ISP会对原始RGB图像进行一系列附加的颜色渲染步骤，将其进一步处理为最终的sRGB编码。根据摄影偏好，ISP通常会根据美学考虑进行颜色渲染。这种偏好并不总是符合白光假设，并且可以根据不同因素（如文化偏好和场景内容）而变化[8,13,22,31]。大多数数码相机在图像捕捉过程中提供了调整WB设置的选项。然而，一旦选择了WB设置并且图像被ISP完全处理为最终的sRGB编码，就变得很难在没有原始图像的情况下进行WB编辑。0� Mahmoud在SAIC实习期间对这项工作做出了贡献。0（D）KNN-WB[3]对（A）的结果0相机的sRGB输出0（E）我们对（A）应用的深度白平衡校正（F）我们对（A）应用的深度白平衡编辑0图1：顶部行：（A）-（C）是由相机ISP使用不同的白平衡设置生成的sRGB图像。（A）表示失败的自动白平衡的错误白平衡。（B）表示场景的正确自动白平衡。（C）表示相机的手动预设结果。底部行：（D）-（F）是对sRGB图像（A）的白平衡进行后期编辑的结果。（D）是最近的KNN-WB校正方法[3]的结果。（E）是我们对（A）进行白平衡校正的结果。（F）是我们根据相机预设生成不同输出的结果。IWB(t) = G (F (IWB(in))) ,(1)13980未处理的原始RGB图像[3]。如果白平衡设置错误，最终的sRGB图像会出现明显的色偏，这会使问题变得更加困难。编辑sRGB图像的白平衡不仅在摄影角度上有用，而且对于计算机视觉应用程序，如目标识别、场景理解和颜色增强，也是有益的[2,6,19]。[2]中的最新研究表明，使用错误的白平衡设置拍摄的图像会对深度神经网络（DNN）模型产生类似于非定向对抗攻击的效果。0相机内部白平衡过程为了理解在sRGB图像中进行白平衡编辑的挑战，有必要回顾相机如何执行白平衡。白平衡由ISP同时执行两个步骤：(1)估计相机传感器对场景照明的响应，以原始RGB向量的形式表示；(2)将原始RGB图像中的每个R/G/B颜色通道除以原始RGB向量中相应通道的响应。估计照明向量的第一步构成了相机的自动白平衡（AWB）过程。照明估计是计算机视觉中一个研究得较多的主题，代表性的工作包括[1，7-10，14，17，18，23，28，33]。除了AWB，大多数相机还允许用户手动选择WB预设，每个预设的原始RGB向量由相机制造商确定。这些预设对应于常见的场景照明（例如，日光、阴影、白炽灯）。一旦确定了场景的照明原始RGB向量，就会对每个颜色通道进行简单的线性缩放，以独立地归一化照明。然后，白平衡的原始RGB图像会经过相机特定的ISP步骤进一步处理，其中许多步骤是非线性的，以在输出相关的颜色空间（即sRGB颜色空间）中渲染最终图像。这些非线性操作使得难以使用传统的对角校正来纠正由相机白平衡错误引起的强烈色偏[3]。0在sRGB中进行白平衡编辑为了进行准确的后期白平衡编辑，渲染的sRGB值应该被正确地反转以获得相应的未处理的原始RGB值，然后重新渲染。这只能通过准确的辐射校准方法（例如，[12，24，34]）来实现，这些方法计算出用于颜色去渲染的必要元数据。A��等人最近的工作[3]提出了一种直接校正以错误白平衡设置拍摄的sRGB图像的方法。该工作提出了一种基于示例的框架，使用了一个由错误白平衡设置的软件相机管道渲染的超过65,000个sRGB图像的大型数据集。每个sRGB0图像具有相应的正确白平衡设置的sRGB图像。给定一个输入图像，他们的方法使用KNN策略在数据集中找到相似的图像，并计算一个映射函数到相应的正确白平衡图像。[3]的工作表明，这种从示例中计算得到的颜色映射对于校正输入图像是有效的。后来，A��和Brown[2]将他们的KNN思想扩展到将正确的白平衡图像映射为看起来不正确的图像，以用于训练深度神经网络的图像增强。我们的工作受到[2，3]的启发，他们努力在sRGB图像中直接编辑白平衡。然而，与[2，3]中的KNN框架相比，我们将问题置于一个单一的深度学习框架中，可以同时实现白平衡校正和白平衡操作，如图1所示。0我们提出了一种新颖的深度学习框架，可以对sRGB图像进行逼真的后期白平衡编辑。我们的框架由一个单一的编码器网络和三个解码器组成，分别针对以下白平衡设置：(1)“正确”的自动白平衡设置；(2)室内白平衡设置；(3)室外白平衡设置。第一个解码器允许对错误白平衡的sRGB图像进行编辑，使其具有正确的白平衡。这对于后期白平衡校正任务非常有用。额外的室内和室外解码器使用户能够通过两个输出之间的混合产生各种不同的白平衡外观。这支持摄影编辑任务，调整图像的美学白平衡属性。我们进行了大量实验证明，我们的方法很好地推广到我们的训练数据之外的图像，并且在两个任务上取得了最先进的结果。02. 深度白平衡编辑02.1. 问题描述0给定一个经过未知相机ISP渲染的sRGB图像I WB ( in )，以及任意白平衡设置WB ( in )，我们的目标是将其颜色编辑为看起来像是使用目标白平衡设置WB ( t )重新渲染的图像。如第1节所述，如果原始未处理的原始RGB图像可用，我们可以准确地完成我们的任务。如果我们可以恢复未处理的原始RGB值，我们可以将白平衡设置WB (in ) 更改为WB ( t )，然后使用基于软件的ISP将图像重新渲染回sRGB颜色空间。这个理想的过程可以用以下方程描述：0其中F：I WB ( in ) → D WB ( in )是一个未知的重建函数，用于反转相机渲染的sRGB图像I128×128×2464×64×24 64×64×4832×32×4816×16×1928×8×192…8×8×38416×16×19216×16×38416×16×19264×64×48 64×64×96…64×64×48128×128×24128×128×48128×128×24128×128×38×8×38416×16×19216×16×384 16×16×19264×64×4864×64×96…64×64×48128×128×24128×128×48128×128×24128×128×3……Skip connectionsSkip connections*Testing imageAuto WB result ��Incandescent WB result ��Shade WB result ��(A)(B)��ˆIWB(t) = gt (f (IWB(in))) ,(2)13990训练补丁0编码器自动白平衡解码器0阴影白平衡解码器0带步长1和填充1的3×3卷积层的输出0ReLU层的输出0带步长2的2×2最大池化层的输出0带步长2的2×2转置卷积层的输出0深度连接层的输出0带步长1和填充1的1×1卷积层的输出0编码器选择解码器0*为了帮助可视化，未显示阴影白平衡解码器的跳跃连接。0训练的DNN模型0白平衡的0补丁0带有的补丁0阴影白平衡0图2：提出的用于sRGB白平衡编辑的多解码器框架。 (A)我们提出的框架由一个编码器和多个解码器组成。训练过程以端到端的方式进行，每个解码器都使用特定的白平衡设置（包括AWB）“重新渲染”给定的训练补丁。对于训练，我们从Rendered WB数据集[3]中随机选择图像补丁。(B)给定一个测试图像，我们通过使用相应的训练解码器来生成目标白平衡设置。0回到对应的原始原始RGB图像D，并且G：D WB ( in ) → IWB ( t )是一个未知的相机渲染函数，负责编辑白平衡设置并重新渲染最终图像。02.2. 方法概述0我们的目标是模拟G ( F ( ∙ )) 的功能以生成I WB ( t )。我们首先分析G和F如何协同工作来产生I WB ( t )。从方程1可以看出，函数F将输入图像I WB ( in )转换为中间表示（即具有捕获的白平衡设置的原始RGB图像），而函数G接受这个中间表示并使用目标白平衡设置将其渲染为sRGB颜色空间编码。由于ISP的渲染链应用了非线性变换，我们可以将G看作是一个由一组子函数组成的混合函数，其中每个子函数负责使用特定的白平衡设置渲染中间表示。我们的最终目标不是重建/重新渲染原始的原始RGB值，而是生成具有目标白平衡设置WB ( t )的最终sRGB图像。因此，我们可以将G ( F ( ∙ ))的功能建模为编码器/解码器方案。我们的编码器f将输入图像转换为潜在表示，而我们的每个解码器(g1、g2等)使用不同的白平衡设置生成最终图像。与方程1类似，我们可以将我们的框架表述如下：0其中f：I WB ( in ) → Z，g t ：Z → ˆ I WB ( t )，Z是原始输入图像I WB ( in )的中间表示（即潜在表示）。我们的目标是使函数f和g t独立，这样改变g t 为一个新的函数g y ，以目标WB y进行目标WB设置不需要对f进行任何修改，就像方程1中的情况一样。在我们的工作中，我们针对三种不同的白平衡设置：(i) WB ( A )：AWB——代表捕获图像场景的正确照明；(ii) WB ( T )：钨丝/白炽灯——代表室内照明的白平衡；以及(iii) WB (S )：阴影——代表室外照明的白平衡。这产生了三个不同的解码器(g A ，g T ，g S)，负责生成与AWB、白炽灯白平衡和阴影白平衡相对应的输出图像。白炽灯和阴影白平衡是基于颜色属性进行特定选择的。当考虑到相关的色温时，可以理解这一点。例如，白炽灯和阴影白平衡设置与2850K和7500K的色温相关。这个广泛的照明色温范围考虑了令人愉悦的照明范围。此外，白炽灯和阴影之间的广泛色温范围允许通过插值来近似在此范围内具有不同色温的图像。关于这种插值的详细信息��Downsampled image ��Network output ��(A) Input image ��(C) Result image ��285075003500��i3hw�p=1|PWB(i)(p) − CWB(i)(p)| ,(3)14000编码器0的解码器（例如，AWB）0�0�� 0输入图像最终结果0颜色映射函数0多项式拟合0�（）0图3：我们考虑到我们的方法的运行时性能，能够在有限的计算资源上运行（在单个CPU上处理12兆像素图像约1.5秒）。首先，我们的DNN处理输入图像的降采样版本，然后我们应用全局颜色映射来生成原始分辨率的输出图像。所示的输入图像是从MIT-Adobe FiveK数据集[11]渲染得到的。0过程在第2.5节中解释。请注意，AWB模式没有固定的相关色温，因为它根据输入图像的光照条件而变化。02.3. 多解码器架构0我们DNN的架构概述如图所示。02.我们使用U-Net架构[29]在编码器和解码器之间使用多尺度跳跃连接。我们的框架由两个主要单元组成：第一个是4级编码器单元，负责提取输入图像的多尺度潜在表示；第二个单元包括三个4级解码器。每个单元都有不同的瓶颈和转置卷积（conv）层。在我们的编码器和每个解码器的第一级，conv层有24个通道。对于每个后续级别，通道数加倍（即，第四级每个conv层有192个通道）。02.4. 训练阶段0训练数据我们采用由[3]生成的RenderedWB数据集来训练和验证我们的模型。该数据集包括由不同相机型号渲染的�65K个sRGB图像，具有不同的WB设置，包括Shade和Incandescent设置。对于每个图像，还有一个用正确的WB设置渲染的相应地面真实图像（被认为是正确的AWB结果）。该数据集包括两个子集：Set1（由七个不同的DSLR相机拍摄的62,535个图像）和Set2（由一台DSLR相机和四台手机相机拍摄的2,881个图像）。第一个集合（即Set1）被[3]分为三个相等的分区。我们从Set1的前两个分区中随机选择了12,000个训练图像来训练我们的模型。对于每个训练图像，我们有三个用以下方式渲染的地面真实图像：（i）正确的WB（标记为AWB），（ii）Shade WB和（iii）Incandescent WB。Set1的最后一个分区（21,046个图像）用于测试。我们将这个分区称为Set 1–Test。Set2的图像不用于训练，整个集合用于测试。0数据增强我们还通过渲染额外的1,029个原始RGB图像来增强训练图像，这些图像与Rendered WB数据集中的相同场景相关[3]，但是0（B）目标色温t=3500K的插值02850K 7500K0图4：除了我们的AWB校正，我们还训练我们的框架来产生两个不同的色温（即，白炽灯和阴影WB设置）。我们在这些设置之间进行插值，以产生具有其他色温的图像。（A）输入图像。（B）插值过程。（C）最终结果。所示的输入图像来自渲染版本的MIT-Adobe FiveK数据集[3, 11]。0每个时期，我们从每个训练图像中随机选择四个128×128的补丁和它们对应的地面真实图像，对每个解码器应用几何增强（旋转和翻转）作为额外的数据增强，以避免过拟合。0损失函数我们训练我们的模型以最小化重建和地面真实补丁之间的L1范数损失函数：0其中 h 和 w 分别表示补丁的高度和宽度，p 索引训练补丁P 和地面真实相机渲染补丁 C 的每个像素。索引 i ∈ {A, T,S} 表示三个目标白平衡设置。我们还检查了平方L2-范数损失函数，并发现这两个损失函数都适用于我们的任务。有关消融研究，请参阅补充材料。ˆIWB(i) = Mψ (IWB(in)) .(4)14010(A) 输入图像 (B) 准U CC结果 (C) KNN-WB结果 (D) 我们的深度-WB结果 (E) 真实图像0E= 13.830E= 8.120E= 4.210渲染的WB数据集0渲染的Cube+数据集0E= 10.830E= 4.120E= 2.970图5：AWB校正的定性比较。 (A) 输入图像。 (B) 准U CC的结果 [9]。 (C) KNN-WB的结果 [3]。 (D) 我们的结果。 (E)真实图像。所示的输入图像来自Rendered WB数据集 [3]和Cube+数据集的渲染版本 [3, 5]。0训练参数我们使用He的初始化方法[20]初始化卷积层的权重。训练过程使用自适应矩估计（Adam）优化器[25]进行165,000次迭代，梯度移动平均的衰减率β1 =0.9，平方梯度移动平均的衰减率β2 =0.999。我们使用学习率为10^-4，并在每25个时期减少0.5倍。每次迭代的小批量大小为32个训练补丁。02.5. 测试阶段0颜色映射过程我们的DNN模型是一个完全卷积网络，能够以原始尺寸处理输入图像，限制是尺寸应为2的倍数，因为我们使用4级编码器/解码器和2×2最大池化和转置卷积层。然而，为了确保任何尺寸的输入图像都具有一致的运行时间，我们将所有输入图像调整大小为最大尺寸为656像素。我们的DNN应用于这个调整大小的图像，以产生带有目标WB设置i ∈ {A, T,S}的图像ˆI WB(i)↓。然后，我们计算调整大小的输入图像和输出图像之间的颜色映射函数。[16,21]中的工作评估了几种多项式映射函数的类型，并显示了它们实现非线性颜色映射的有效性。因此，我们计算了一个多项式映射矩阵M，将ψ(I WB(in)↓)的值全局映射到我们生成的图像ˆI WB(i)↓的颜色上，其中ψ(∙)是一个将图像的RGB向量映射到一个更高的11维空间的多项式核函数。有关不同核函数的评估，请参阅补充材料。这个映射矩阵M可以通过闭合形式的解计算，如[2,3]所示。计算出M后，我们使用以下方程[3]在相同的输入图像分辨率下获得最终结果：0图3说明了我们的颜色映射过程。我们的方法在一台IntelXeon E5-1607 @ 3.10GHz机器上，使用32GBRAM处理12百万像素的图像选择的WB设置需要大约1.5秒。我们注意到，另一种策略是直接计算颜色多项式映射矩阵[30]。我们进行了初步实验，发现直接估计多项式矩阵比生成图像本身并拟合全局多项式函数更不稳定。原因是估计的多项式系数存在小误差可能导致明显的颜色误差（例如，超出色域的值），而估计的图像中的小误差则通过全局拟合得到改善。0用户操作编辑我们的框架允许用户在三种可用的白平衡设置（即AWB、阴影白平衡和白炽灯白平衡）之间进行选择生成结果图像。使用阴影和白炽灯白平衡，用户可以根据色温编辑图像，如下所述。为了产生具有颜色温度 t的新目标白平衡设置的效果，该颜色温度不是由我们的解码器生成的，我们可以在白炽灯和阴影白平衡设置的生成图像之间进行插值。我们发现简单的线性插值就足够了。这个操作由以下方程描述：0ˆ I WB ( t ) = b ˆ I WB ( T ) + (1 − b ) ˆ I WB ( S )，(5)0其中 ˆ I WB ( T ) 和 ˆ I WB ( S ) 是我们使用白炽灯和阴影白平衡设置生成的图像，而 b是由 1 /t − 1 /t ( S ) 给出的插值比例01 /t ( T ) − 1 /t ( S )。图40示例03. 结果0我们的方法针对两个不同的任务：后期白平衡校正和对sRGB渲染图像的操作14020表1：使用渲染的白平衡数据集[3]和Cube+数据集的渲染版本[3,5]的AWB结果。我们报告均方误差（MSE）、平均角度误差（MAE）和△E2000[32]的平均值、第一、第二（中位数）和第三四分位数（Q1、Q2和Q3）。对于所有基于对角线的方法，应用了伽马线性化[4,15]。黄色和粗体表示最佳结果。0MSE MAE △ E 2000 方法平均 Q1 Q2 Q3 平均 Q1 Q2 Q3 平均 Q1 Q2 Q30渲染的白平衡数据集：第1组-测试（21,046张图片）[3]0FC4 [23] 179.55 33.89 100.09 246.50 6.14° 2.62° 4.73° 8.40° 6.55 3.54 5.90 8.940准U CC [9] 172.43 33.53 97.9 237.26 6.00° 2.79° 4.85° 8.15° 6.04 3.24 5.27 8.110KNN-WB [3] 77.79 13.74 39.62 94.01 3.06° 1.74° 2.54° 3.76° 3.58 2.07 3.09 4.550我们的方法 82.55 13.19 42.77 102.09 3.12° 1.88° 2.70° 3.84° 3.77 2.16 3.30 4.860渲染的白平衡数据集：第2组（2,881张图片）[3]0FC4 [23] 505.30 142.46 307.77 635.35 10.37° 5.31° 9.26° 14.15° 10.82 7.39 10.64 13.770准U CC [9] 553.54 146.85 332.42 717.61 10.47° 5.94° 9.42° 14.04° 10.66 7.03 10.52 13.940KNN-WB [3] 171.09 37.04 87.04 190.88 4.48° 2.26° 3.64° 5.95° 5.60 3.43 4.90 7.060我们的方法 124.97 30.13 76.32 154.44 3.75° 2.02° 3.08° 4.72° 4.90 3.13 4.35 6.080渲染的Cube+数据集使用不同的白平衡设置（10,242张图片）[3,5]0FC4 [23] 371.9 79.15 213.41 467.33 6.49° 3.34° 5.59° 8.59° 10.38 6.6 9.76 13.260准U CC [9] 292.18 15.57 55.41 261.58 6.12° 1.95° 3.88° 8.83° 7.25 2.89 5.21 10.370KNN-WB [3] 194.98 27.43 57.08 118.21 4.12° 1.96° 3.17° 5.04° 5.68 3.22 4.61 6.700我们的方法 80.46 15.43 33.88 74.42 3.45° 1.87° 2.82° 4.26° 4.59 2.68 3.81 5.530根据特定的白平衡色温进行后期白平衡校正。我们在多个不同的数据集上为这两个任务实现了最先进的结果。我们首先在第3.1节中描述了用于评估我们方法的数据集。然后在第3.2节和第3.3节中分别讨论了我们的定量和定性结果。我们还进行了消融研究，以验证我们的问题表述和提出的框架。0（A）输入图像（B）KNN-WB仿真器结果（C）我们的深度白平衡结果（D）目标相机白平衡0亮度=9.490亮度=5.020荧光白平衡0亮度=8.530亮度=6.300阴影白平衡0亮度=5.370亮度=4.010日光白平衡0△E= 13.040△E= 6.430白炽灯白平衡0图6：WB操作的定性比较。（A）输入图像。（B）KNN-WB模拟器的结果[2]。（C）我们的结果。（D）具有目标WB设置的相机渲染图像的真值。在这个图中，目标WB设置是白炽灯、日光、阴影和荧光灯。显示的输入图像来自MIT-Adobe FiveK数据集的渲染版本[3, 11]。03.1. 数据集0如前所述，我们使用了Rendered WB数据集[3]中Set1的两个分区中随机选择的图像进行训练。对于测试，我们使用了Set 1的第三个分区，称为Set1-Test，以及另外三个不包含在训练中的数据集。其中两个额外的数据集如下：（1）Rendered WB数据集的Set2（2,881张图像）[3]，以及（2）Cube+数据集的sRGB渲染版本（10,242张图像）[5]。数据集（1）和（2）用于评估AWB校正任务。对于WB操作任务，我们使用了渲染的Cube+数据集和（3）MIT-AdobeFiveK数据集的渲染版本（29,980张图像）[11]。这些数据集的渲染版本可以从与[3]相关的项目页面上获得。这些后面的数据集代表了已经使用不同的WB设置将原始RGB图像渲染到sRGB颜色空间的图像。这使我们能够评估我们能够多好地模拟不同的WB设置。03.2. 定量结果0对于这两个任务，我们采用了[3]中最新工作使用的相同评估指标。具体来说，我们使用以下指标来评估我们的结果：均方误差（MSE），平均角误差（MAE）和△E2000[32]。我们还在补充材料中报告了△E76。对于每个评估指标，我们报告了误差的均值、下四分位数（Q1）、中位数（Q2）和上四分位数（Q3）。014030（A）输入图像0（B）AWB结果（C）白炽灯白平衡结果（D）荧光灯白平衡结果（E）阴影白平衡结果0图7：我们方法的定性结果。（A）输入图像。（B）AWB结果。（C）白炽灯白平衡结果。（D）荧光灯白平衡结果。（E）阴影白平衡结果。显示的输入图像是从MIT-Adobe FiveK数据集[11]中渲染得到的。0（C）KNN-WB（D）我们的AWB校正（A）输入图像（B）准U CC0（E）我们的白炽灯白平衡0（F）我们的阴影白平衡0图8：（A）输入图像。（B）准U CC方法的结果[9]。（C）KNN-WB方法的结果[3]。（D）-（F）我们的深度WB编辑结果。照片来源：DuncanYoyos Flickr–CC BY-NC 2.0。0结果与使用最近的光源估计方法[9,23]进行传统的WB对角校正进行了比较。我们注意到，方法[9,23]并不是为了校正非线性的sRGB图像而设计的。这些方法被包括在内，是因为通常声称这些方法在sRGB图像经过解码伽马进行“线性化”后是有效的。表1报告了每种方法校正后的图像与相应真值图像之间的误差。表1显示了之前描述的Set 1-Test、Set2和Cube+数据集上的结果。这总共是我们的DNN模型对34,169个未见过的sRGB图像的结果，每个图像都使用不同的相机模型和WB设置进行渲染。对于对角校正的结果，我们首先对每个测试图像进行2.2伽马线性化处理[4,15]，然后在校正后应用伽马编码。我们在Set1-Test上取得了与最先进方法[3]相媲美的结果。在其他测试集（Set2和Cube+）上，我们在所有评估指标上都取得了最先进的结果。0白平衡处理的目标是将输入图像的颜色更改为使用目标白平衡设置渲染的颜色。我们将我们的结果与最新的工作进行比较。0[2]提出了一个在sRGB空间中模拟白平衡效果的KNN-WB模拟器。我们使用了KNN-WB模拟器产生的相同白平衡设置。具体而言，我们选择了以下目标白平衡设置：白炽灯（2850K）、荧光灯（3800K）、日光（5500K）、多云（6500K）和阴影（7500K）。由于我们的解码器只训练生成白炽灯和阴影白平衡设置，我们使用公式5生成其他白平衡设置（即荧光灯、日光和多云白平衡设置）。表2显示了我们的方法和KNN-WB模拟器的结果。表2表明，我们的方法在使用所有评估指标对使用不同相机型号和白平衡设置拍摄的40,222张测试图像上优于KNN-WB模拟器[2]。03.3. 定性结果0在图5和图6中，我们将我们的结果与最近提出的用于白平衡校正[3,9]和白平衡处理[2]的工作进行了视觉比较。在每个示例的顶部，我们显示了结果图像与相应的基准图像（即使用目标设置由相机渲染）之间的△E2000误差。很明显，我们的结果具有较低的△E2000，并且与基准图像最相似。Multi-U-Net [29]187.256.23234.776.8714040表2：使用渲染版本的Cube+数据集[3, 5]和MIT-Adobe FiveK数据集[3,11]进行白平衡处理的结果。我们报告均方误差（MSE）、平均角度误差（MAE）和△E 2000[32]的平均值、第一、第二（中位数）和第三四分位数（Q1、Q2和Q3）。黄色和粗体表示最佳结果。0MSE MAE △E 2000 方法平均值 Q1 Q2 Q3 平均值 Q1 Q2 Q3 平均值 Q1 Q2 Q30渲染的Cube+数据集（10,242张图像）[3, 5]0KNN-WB模拟器[2] 317.25 50.47 153.33 428.32 7.6° 3.56° 6.15° 10.63° 7.86 4.00 6.56 10.460我们的方法 199.38 32.30 63.34 142.76 5.40° 2.67° 4.04° 6.36° 5.98 3.44 4.78 7.290渲染的MIT-Adobe FiveK数据集（29,980张图像）[3, 11]0KNN-WB模拟器[2] 249.95 41.79 109.69 283.42 7.46° 3.71° 6.09° 9.92° 6.83 3.80 5.76 8.890我们的方法 135.71 31.21 68.63 151.49 5.41° 2.96° 4.45° 6.83° 5.24 3.32 4.57 6.410(A) 输入图像0(B) Photoshop自动颜色校正0(C) 三星S10自动白平衡校正 (F) 我们的深度白平衡校正0图9：由于白平衡错误导致的强烈色偏很难校正。(A) 使用错误白平衡设置渲染的输入图像。(B)Photoshop自动颜色校正的结果。(C) 三星S10自动白平衡校正的结果。(D) Google Photos自动滤镜的结果。(E) iPhone 8Plus内置照片应用自动校正的结果。(F) 使用我们提出的深度白平衡编辑框架的自动白平衡结果。照片来源：OakleyOriginalsFlickr–CC BY 2.0。0图7展示了我们结果的其他示例。如图所示，我们的框架接受具有任意白平衡设置的输入图像，并使用目标白平衡设置重新渲染它们，包括自动白平衡校正。我们从互联网上选取了几张图像进行测试，以检查其对通常在网上找到的图像的泛化能力。图8和图9展示了一些示例。如图所示，与其他方法和商业软件包相比，即使输入图像具有明显的色偏，我们的方法也能产生令人信服的结果。我们在补充材料中提供了更多示例。03.4. 与普通U-Net的比较0正如前面所解释的，我们的框架使用单个编码器对输入图像进行编码，而每个解码器负责生成特定的白平衡设置.我们的架构旨在以与相机从相同的原始RGB捕获图像中为不同的白平衡设置生成颜色的方式建模方程式1.直观地说，我们可以使用多U-Net架构重新实现我们的框架，使得每个编码器/解码器模型都针对一个WB设置进行训练.在表3中，我们对我们提出的框架与普通U-Net模型进行了比较.我们为我们的提出的架构和三个U-Net模型（每个U-Net模型针对我们的一个WB设置）进行了88,000次迭代的训练.结果验证了我们的设计，并明确表明0表3: 我们的框架和传统U-Net架构[29]在RenderedWB数据集[3]的Set 2上以及WB操作的Cube+数据集[3,5]上通过均方误差和△E 2000[32]的平均值.黄色和粗体表示最佳结果.0AWB [ 3 ] 白平衡编辑 [ 3 , 5 ] 方法 MSE △ E 2000 MSE △E 20000我们的 124.47 4.99 206.81 6.230我们共享的编码器不仅减少了所需的参数数量，而且还提供了更好的结果.04. 结论0我们提出了一个用于编辑sRGB相机渲染图像的深度学习框架.具体而言，我们提出了一种使用单个编码器和多个解码器的DNN架构，这些解码器以端到端的方式进行训练.我们的框架允许直接纠正使用错误的白平衡设置拍摄的图像.此外，我们的框架生成的输出图像允许用户手动调整sRGB图像的外观，使其看起来像是以广泛范围的白平衡色温进行渲染的.定量和定性结果证明了我们的框架对于最近的数据驱动方法的有效性.14050参考文献0[1] Mahmoud A��和Michael S Brown. 用于DNN模型的独立于传感器的照明估计.《英国计算机视觉会议》, 2019. 20[2] Mahmoud A��和Michael S Brown.还有什么可以欺骗深度学习？解决深度神经网络性能中的颜色恒常性错误. 《国际计算机视觉会议》, 2019. 2 , 5 , 6 , 7 , 80[3] Mahmoud A��, Brian Price, Scott Cohen和Michael S Brown.当颜色恒常性出错时：纠正不正确的白平衡图像.《计算机视觉与模式识别会议》, 2019. 1 , 2 , 3 , 4 , 5 , 6 , 7 , 80[4] Matthew Anderson, Ricardo Motta, SrinivasanChandrasekar和Michael Stokes.互联网标准默认颜色空间建议-sRGB. 《色彩与成像会议》,页码238–245, 1996. 6 , 70[5] Nikola Bani´c和Sven Lonˇcari´c.用于颜色恒常性的无监督学习. 《arXiv预印本》, 2017. 5 , 6 , 80[6] Kobus Barnard, Vlad Cardei和Brian Funt.计算颜色恒常性算法的比较: 方法和合成数据实验.《IEEE图像处理期刊》, 11(9):972–984, 2002. 20[7] Jonathan T Barron. 卷积颜色恒常性.《国际计算机视觉会议》, 2015. 20[8] Jonathan T Barron和Yun-Ta Tsai. 快速傅里叶颜色恒常性.《计算机视觉与模式识别会议》, 2017. 1 , 20[9] Simone Bianco和Claudio Cusano. 准无监督颜色恒常性.《计算机视觉与模式识别会议》, 2019. 2 , 5 , 6 , 70[10] Gershon Buchsbaum.一个用于物体颜色感知的空间处理器模型. 《富兰克林学院杂志》,310(1):1–26, 1980. 20[11] Vladimir Bychkovsky, Sylvain Paris, Eric Chan和Fr´edoDurand. 通过输入/输出图像对数据库学习摄影全局色调调整.《计算机视觉与模式识别会议》, 2011. 4 , 6 , 7 , 80[12] Ayan Chakrabarti, Ying Xiong, Baochen Sun, Trevor Dar-rell, Daneil Scharstein, Todd Zickler, and Kate Saenko.用于具有

下载后可阅读完整内容，剩余1页未读，立即下载