快速傅里叶颜色恒定算法在光照估计中具有高准确性和快速速度

141 浏览量更新于2023-10-16 收藏 12.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18860快速傅里叶颜色恒定0barron@google.com Yun-Ta Tsai0yuntatsai@google.com0摘要0我们提出了一种快速傅里叶颜色恒定（FFCC）算法，通过将光照估计简化为环面上的空间定位任务来解决。通过在频域中操作，FFCC的误差率比之前的最先进算法低13-20％，同时速度快250-3000倍。这种非传统的方法引入了关于混叠、方向统计和预处理的挑战，我们对此进行了处理。通过生成完整的光照后验分布而不是单个光照估计，FFCC能够实现更好的训练技术、有效的时间平滑技术和更丰富的错误分析方法。我们实现的FFCC在移动设备上每秒运行约700帧，可以作为准确、实时、时间连贯的自动白平衡算法使用。01. 简介0计算机视觉中的一个基本问题是估计导致某个观察图像的底层世界[1,5]。其中一个子问题是颜色恒定：估计场景的光照颜色以及在白光下观察场景中的物体的颜色。尽管这个问题表面上看起来很简单，但对于人类视觉和计算机视觉社区来说，这个问题具有很大的深度和挑战[17,22]。颜色恒定在相机行业中也是一个实际问题：在没有用户干预的情况下生成一个自然的照片需要自动估计和抵消光照，这个过程在从业者中被称为“自动白平衡”。尽管颜色恒定和白平衡之间存在着深刻的历史联系（以埃德温∙兰德为例，他是Retinex理论和拍立得即时相机的发明者），但“颜色恒定”和“白平衡”已经有了不同的含义 -颜色恒定旨在恢复图像背后的真实世界，而白平衡旨在给图像一个与某种美学或文化规范一致的愉悦外观。但是，随着学习的普及-0基于计算机视觉的技术，这两个问题都可以简化为从图像中估计“最佳”光照，并且在训练过程中使用的数据决定了这个光照是客观真实还是主观吸引人的问题。0尽管现代基于学习的颜色恒定算法准确性很高，但它们并不适用于实际的白平衡算法，因为实际的白平衡除了准确性之外还有其他要求：速度 -在相机取景器中运行的算法必须在移动硬件上以每秒30帧的速度运行。但相机的计算预算是宝贵的：解码、人脸检测、自动曝光等必须同时实时运行。在白平衡上花费超过相机计算预算的一小部分（比如5-10%）是不切实际的，因此我们的速度要求更接近每帧1-5毫秒。输入贫乏 -大多数颜色恒定算法都是为全分辨率、高位深度的输入图像设计的，但在实践中在这样大的图像上操作是具有挑战性和昂贵的。为了快速，算法必须在小型、低位深度的“预览”图像（32×24或64×48像素，8位）上表现良好，这通常是由专用相机硬件计算的。不确定性 -除了光照，算法还应该产生一些置信度度量或完整的光照后验分布，从而方便与手工设计的启发式规则或外部信息源进行方便的下游集成。时间连贯性 -算法应该允许估计的光照随时间平滑，以防止视频中的颜色组合变化不规律。0在本文中，我们提出了一种新颖的颜色恒常性算法，称为“快速傅里叶颜色恒常性”（FFCC）。作为一种颜色恒常性算法，FFCC在标准基准测试中比现有技术更准确13-20%。作为一种潜在的白平衡算法，FFCC满足我们之前描述的要求：我们的技术比现有技术快250-3000倍，并且能够在标准消费者移动平台上以每帧1.44毫秒的速度运行，使用摄像机已经产生的缩略图图像。it also raises new problems: 1) pixel values are corruptedwith superimposed shapes that make detection difﬁcult, 2)detections must “wrap” around the edges of this toroidalimage, and 3) instead of an absolute, global location we canonly recover an aliased, incomplete location. FFCC worksby taking the large convolutional problem of CCC (ie, facedetection on A) and aliasing that problem down to a smallersize where it can be solved efﬁciently (ie, face detectionon B). We will show that we can learn an effective colorconstancy model in the face of the difﬁculty and ambiguityintroduced by aliasing. This convolutional classiﬁer will beimplemented and learned using FFTs, because the naturallyperiodic nature of FFT convolutions resolves the problem ofdetections “wrapping” around the edge of toroidal images,and produces a signiﬁcant speedup.Our approach to color constancy introduces a numberof issues. The aforementioned periodic ambiguity result-ing from operating on a torus (which we dub “illuminantaliasing”) requires new techniques for recovering a globalilluminant estimate from an aliased estimate (Section 3).Localizing the centroid of the illuminant on a torus is dif-ﬁcult, requiring that we adopt and extend techniques fromthe directional statistics literature (Section 4). But our ap-proach presents a number of beneﬁts. FFCC improves accu-racy relative to CCC by 17 − 24% while retaining its ﬂex-ibility, and allows us to construct priors over illuminants(Section 5). By learning in the frequency-domain we canconstruct a novel method for fast frequency-domain regu-larization and preconditioning, making FFCC training 20×faster than CCC (Section 6). Our model produces a com-plete unimodal posterior over illuminants as output, allow-ing us to construct a Kalman ﬁlter-like approach for pro-cessing videos instead of independent images (Section 7).∀kI(k)rI(k)gI(k)b =W (k)rW (k)gW (k)b ◦LrLgLb8870（a）图像A0（b）混叠图像B0图1：CCC[4]将颜色恒常性简化为类似于对象检测的2D定位问题（1a）。FFCC反复将这个2D定位问题包裹在一个小的环上（1b），这带来了挑战，但也允许更快的光源估计。详细信息请参见正文。0ware.FFCC生成了一个完整的光源后验分布，这使我们能够推理不确定性并实现简单有效的时间平滑。我们基于[4]的“卷积颜色恒常性”（CCC）方法进行构建，该方法目前是标准颜色恒常性基准测试中表现最好的技术之一[12，20，30]。CCC的工作原理是观察到对线性RGB图像应用每通道增益等效于在该图像的对数色度直方图中引入2D平移，这使得颜色恒常性可以简化为在对数色度直方图空间中定位签名的任务。这种简化是CCC和我们的FFCC技术成功的核心；有关详细解释，请参见[4]。FFCC的主要区别在于，我们不是在大的对数色度平面上执行昂贵的定位，而是在小的对数色度环上执行廉价的定位。从高层次上看，CCC将颜色恒常性简化为对象检测-在计算理论上的“简化”。FFCC将颜色恒常性简化为在环上的定位，而这个任务在计算机视觉中没有直观的类比，我们将尝试提供一个类比。给定一个我们想要执行对象检测的大图像A，想象一下构建一个较小的n×n图像B，其中B中的每个像素是A中在任一维度上相隔n个像素的所有值的总和：0B（i，j）=0k，l A（i + nk，j + nl）（1）01我们无法在目标检测的背景下评价这个想法的优点，我们在这里只是为了提供我们在颜色恒常性方面的工作的直观理解。02. 卷积颜色恒常性0让我们回顾一下CCC所做的假设，并由我们的模型继承。假设我们有一张来自相机的光度线性输入图像I，黑电平为零，并且没有饱和像素2。假设图像I中的每个像素k的RGB值被假定为该像素的“真实”白平衡RGB值W(k)与所有像素共享的全局RGB光照L的乘积：0�（2）0颜色恒常性的任务是使用输入图像I来估计L，并据此产生W(k) = I(k) / L。给定我们输入的RGB图像I(k)，CCC定义了0在实践中，饱和像素被识别并从所有下游计算中移除，类似于忽略色彩检查器像素的方法。Lg =z =N(i, j) =�k�mod�u(k) − uloh− i, n�< 1∧ mod�v(k) − vloh− j, n�< 1�(6)8880（a）输入图像0（b）直方图0（c）混叠直方图0（d）混叠预测0（e）去混叠预测0（f）输出图像0图2：我们的流程概述，展示了光源混叠问题。与CCC类似，我们将输入图像（2a）转换为对数色度直方图（2b，以与[4]中相同的格式呈现）。但与CCC不同，我们的直方图是小而环形的，意味着像素可以“环绕”边缘（2c，在每个方向上环形展开一次）。这意味着过滤直方图的质心，它在CCC中只是光源估计，而在我们的模型中却是无限多个可能的光源族群（2d）。这需要去混叠，即一些技术来消除光源之间的歧义，选择最可能的单一估计（2e，显示为一个点，周围有一个椭圆来可视化我们模型的输出协方差）。我们模型在去混叠的对数色度空间中的输出（u，v）坐标对应于光源的颜色，然后可以将其分割到输入图像中以产生白平衡图像（2f）。0定义了两个对数色度测量：0u(k) = log � I(k)g / I(k)r � v(k) = log � I(k)g / I(k)b � (3)0假设L的绝对尺度是无法恢复的，因此估计L只需要估计其对数色度：0L u = log (Lg / Lr) L v = log (Lg / Lb) (4)0在恢复（L u，Lv）之后，假设L的幅度为1，可以恢复出光源的RGB值：0Lr = exp(−Lu)0z Lb = exp(−Lv)0exp(−Lu)2 + exp(−Lv)2 + 1 (5)0以预测对数色度来构建颜色恒常性相对于标准的RGB方法有几个小优势（2个未知数而不是3个，更好的数值稳定性等），但这种方法的主要优势是使用对数色度将关于W和I的乘法约束转化为加法约束[15]，从而使得颜色恒常性可以采用卷积方法。正如[4]所示，颜色恒常性可以被构建为对于对数色度直方图N的2D空间定位任务，其中使用某种滑动窗口分类器来过滤该直方图，并使用该过滤后的直方图的质心作为光源的对数色度。03. 光源混叠0我们假设与CCC相同的卷积前提，但有一个主要区别以提高质量和速度：我们使用FFT来执行过滤对数色度直方图的卷积，并使用小直方图使卷积尽可能快速。这个改变可能看起来微不足道，但FFT卷积的周期性特性结合起来0与自然图像的属性相结合，会产生显著的影响，我们将证明这一点。与CCC类似，给定输入图像I，我们从I构建直方图N，其中N(i, j)是I中对数色度接近（u,v）坐标对应于直方图位置（i, j）的像素数量：0其中i，j为0索引，n = 64是bin的数量，h =1/32是bin的大小，(u lo，vlo)是直方图的起始点。由于我们的直方图太小，无法包含大多数自然图像中存在的广泛颜色分布，我们使用模运算使像素相对于对数色度“环绕”（任何其他标准边界条件都会违反我们的卷积假设，并导致许多图像像素被忽略）。这意味着，与标准CCC不同，直方图中的单个（i，j）坐标不再对应于绝对的（u，v）颜色，而是对应于无限多个（u，v）颜色。因此，滤波直方图的质心不再对应于光源的颜色，而是对应于无限多个光源的集合。我们将这种现象称为光源混叠。解决这个问题需要使用一些技术来消除混叠的光源估计3。关于光源混叠的高级概述如下：03诱人的是将解决光源混叠问题称为“反混叠”，但反混叠通常是指在某些重采样操作期间预处理信号以防止混叠，而在我们的框架中似乎不可能。“去混叠”意味着我们允许输入发生混叠，但然后从输出中去除混叠。¯u = log��k u(k)�¯v = log��k v(k)�(7)�ˆL′uˆL′v�=�ˆLuˆLv�− (nh)� 1nh�ˆLu − ¯uˆLv − ¯v�+ 12�(8)8890我们的FFCC流程图中展示了光源（去）混叠的示例，如图2所示。去混叠需要我们使用一些外部信息（或一些外部色彩恒常算法）来消除光源之间的歧义。一种直观的方法是选择使平均图像颜色尽可能中性的光源，我们称之为“灰色世界去混叠”。我们计算整个图像的平均对数色度值（¯ u，¯v），并使用这些值将混叠的光源估计（ˆ L u，ˆ Lv）转换为去混叠的光源（ˆ L' u，ˆ L' v）：0另一种方法，我们称之为“灰色光去混叠”，是假设光源尽可能接近直方图的中心。这种去混叠方法只需要仔细设置直方图的起始点（u lo，vlo），使得训练数据中真实光源都位于直方图的范围内，并设置ˆ L' = ˆ L。我们通过设置ulo和vlo来最大化直方图边缘与包围真实光源的边界框之间的距离来实现这一点。灰色光去混叠很容易实现，但与灰色世界去混叠不同，如果直方图太小而无法容纳所有光源，则它将系统地失败。总结CCC[4]和我们的方法在光源混叠方面的差异，CCC（近似地）执行光源估计如下：� ˆ L u ˆ L v0其中N�F是使用金字塔卷积执行的。FFCC对应于此过程：0P ← softmax(N�F)(10)0(µ,Σ) ← fit bvm(P)(11) � ˆ Lu ˆ Lv0� ← de alias(µ)(12)0其中N是一个小的和有别名的环形直方图，使用FFT进行卷积，并根据需要估计和去别名化过滤直方图的质心。通过构建这个可微分的流水线，我们可以通过传播梯度以端到端的方式训练我们的模型。0我们的直方图向绿色偏移，而不是以中性颜色为中心，因为相机传统上设计为具有更敏感的绿色通道，可以通过增加红色和蓝色而不引起颜色截断来执行白平衡。忽略这个实际问题，我们的方法可以被认为是将直方图以中性白光为中心。0对于在去别名的光照预测ˆL上计算的某个损失的梯度，反向传播到学习的滤波器F上。方程11中的质心拟合是通过将双变量冯∙米塞斯分布拟合到PDF来完成的，现在我们将对此进行解释。04. 可微分的双变量冯∙米塞斯0我们的架构需要一些机制将环形PDFP(i,j)缩减为单个估计的光照。在环形上定义的直方图的质心定位是困难的：当输入分布“环绕”PDF的边缘时，拟合双变量高斯可能会失败，如图3所示。此外，为了进行时间平滑（第7节）和置信度估计，我们希望我们的模型预测一个以质心为中心的良好校准的协方差矩阵。这要求我们的模型能够进行端到端的训练，因此需要我们的均值/协方差拟合在分析上是可微分的，因此可以在我们的学习架构中使用作为一个“层”。为了解决这些问题，我们提出了双变量冯∙米塞斯分布的一种变体[27]，我们将使用它来高效地定位P的均值和协方差，以便进行简单和可微分的闭合形式表达。尽管必然是近似的，但我们的估计在分布集中时是准确的，这通常是我们的任务的情况。我们的输入是一个大小为n×n的PDFP(i,j)，其中i和j是[0,n−1]范围内的整数。为了方便起见，我们定义了从i或j到[0,2π)范围内的角度的映射以及与i和j相关的P的边际分布：0θ(i) = 20nP(i) = �0jP(i,j)Pj(j) = �0iP(i,j)0我们还定义了角度的正弦和余弦的边际期望：0yi = �0iPi(i)sin(θ(i))xi = �0iPi(i)cos(θ(i))(13)0使用类似的方式定义xj和yj。µ =�ulovlo�+ h�mod� n2π atan2(yi, xi), n�modn2π atan2(yj, xj), n�(14)¯i = mod�i −�µu − uloh�+ n2 , n�¯j = mod�j −�µv − vloh�+ n2 , n�(15)E [¯i] =�iPi(i)¯iE [¯j] =�jPj(j)¯j(16)Σ = h2ǫ +�iPi(i)¯i2 − E [¯i]2�i,jP(i, j)¯i¯j − E [¯i] E [¯j]�i,jP(i, j)¯i¯j − E [¯i] E [¯j]ǫ +�jPj(j)¯j2 − E [¯j]2 (17)E(x, y, c) = 181�i=−11�j=−1|I(x, y, c) − I(x + i, y + j, c)| (19)8900图3：我们将双变量冯∙米塞斯分布（以实线蓝色显示）拟合到环形PDFsP(i,j)以产生有别名的光照估计。与将双变量高斯拟合（以虚线红色显示）视为PDF位于平面上的情况相比，这两种方法的行为类似。如果分布位于展开平面的中心附近（左侧），但当分布开始“环绕”边缘时，拟合高斯将失败（中间，右侧）。0从直方图中估计BVM的均值µ只需要在i和j上计算循环均值：0Eq.14包括灰度光去混叠，但也可以在拟合后对µ应用灰度世界去混叠。我们可以通过简单地“展开”直方图相对于估计均值的坐标来拟合模型的协方差，将这些展开的坐标视为拟合双变量高斯分布。我们定义“展开”的(i,j)坐标，使得环面上的“环绕”点与均值尽可能远离，或者等价地，使得展开的坐标尽可能接近均值：0我们估计的协方差矩阵只是P(¯i, ¯j)的样本协方差：0我们稍微正则化样本协方差矩阵，通过在对角线上添加一个常数� =1。有了我们估计的均值和协方差，我们可以计算我们的损失函数：相对于真实光源L�的高斯分布的负对数似然（忽略比例因子和常数）：0f(µ, Σ) = log |Σ| + �� L�u L�v0� − µ � T Σ − 1 �� L � u L � v0� − µ � (18)0使用这个损失函数使得我们的模型能够产生一个校准良好的光源完整后验分布，而不仅仅是一个单一的估计值。这个后验分布在处理视频序列（第7节）时非常有用，还允许我们使用Σ的熵给我们的预测附加置信度估计（请参见补充材料）。我们的整个系统是端到端训练的，这要求BVM拟合和损失计算的每一步都是可解析可微的。请参见补充材料中Eqs.14、17和18的解析梯度，可以将f(∙)的梯度反向传播到输入PDF P上。05. 模型扩展0到目前为止，我们描述的系统（计算每个像素的对数色度的周期直方图，应用学习的FFT卷积，应用softmax，拟合去混叠的双变量vonMises分布）效果还不错（表1中的模型A），但并不能产生最先进的结果。这可能是因为该模型独立地推理像素，忽略了图像中的所有空间信息，并且不考虑光源的绝对颜色。在这里，我们提出了扩展模型来解决这些问题，并相应地提高准确性。正如在[4]中探讨的那样，只要这些图像是非负的并且“随强度缩放”，就可以将类似于CCC的模型推广到一组“增强”图像中[14]。这使我们能够对图像I应用某些滤波操作，并且不是从我们的图像构造单个直方图，而是从图像及其滤波版本构造的“堆栈”直方图。我们不再学习和应用一个滤波器，而是学习一组滤波器，并在卷积后在通道上求和。[4]中使用的增强图像的一般家族计算成本很高，因此我们只使用输入图像I和输入图像的局部绝对偏差度量。0这两个特征似乎与[4]中使用的四个特征表现相似，但计算成本更低。正如滑动窗口目标检测器通常对图像中对象的绝对位置不变，我们基线模型的卷积性质使其对输入图像颜色的任何全局偏移都是不变的。这意味着我们的基线模型不能依赖于任何关于光照的统计规律，比如建模黑体辐射、常见制造的灯泡的特定属性或相机的任何变化的光谱敏感性。虽然CCC没有直接建模光照，但它似乎通过使用金字塔卷积的边界条件间接推理光照。P = softmax�B + G ◦�k(Nk ∗ Fk)�(20)Z∗ = arg minZ(f (Z) + g (Z))(21)8910(a) 像素滤波器0(b) 边缘滤波器0(c) 光照增益0(d) 光照偏置0图 4：完整的学习模型（表 1 中的模型 J）在中心化的（u,v）对数色度空间中显示，亮度表示较大的值。我们学习到的滤波器以原点（预测的白点）为中心，我们的光照增益和偏置图模拟了黑体曲线和不同相机灵敏度的两个环绕线段（该数据集包含来自两个不同相机的图像）。0这是一个不真正空间变化且对绝对颜色敏感的模型。因为圆环没有边界，所以我们的模型对全局输入颜色不变，因此我们必须引入一种机制来直接推理光照。我们使用每个光照的“增益”图 G ( i, j ) 和“偏置”图 B ( i, j)，它们一起对先前描述的卷积在（取样）颜色 ( i, j )处的输出应用一个光照相关的仿射变换。偏置 B使我们的模型更偏好某些光照而不是其他光照，而增益 G使得某些颜色处的卷积贡献被放大。我们的两个扩展（增强的边缘通道和光照增益/偏置图）使我们能够重新定义方程中的 P，即 Eq. 10：0其中{ F k }是每个增强通道直方图 N k的一组学习到的滤波器，G 是我们学习到的增益图，B是我们学习到的偏置图。在实践中，我们在训练时实际上对G 进行参数化对数化，并定义 G = exp( G log )，这将限制G 为非负。G 和 B以及我们学习到的滤波器的可视化结果可见于图 4。06. 傅里叶正则化和预处理0我们的学习模型权重（{ F k }，G，B）都是周期性的 n × n图像。为了提高泛化能力，我们希望这些权重小且平滑。在本节中，我们介绍了训练过程中使用的正则化的一般形式，并展示了这种正则化如何让我们在较少迭代次数内找到更低成本的极小值。由于这种频域优化技术通常适用于涉及平滑和周期性图像的任何优化问题，我们将以一般术语描述它。让我们构建一个关于单个 n × n 图像 Z的优化问题，其中包含数据项 f ( Z ) 和0一个正则化项 g ( Z )：0我们要求正则化项 g ( Z ) 是 Z与某个滤波器组进行周期卷积的加权平方和。在我们的实验中，g ( Z )是相邻值之间的平方差的加权平方和（类似于总变差损失[29]）和平方和：0g(Z) = λ10i,j (Z(i,j) − Z(mod(i + 1, n), j))20+ (Z(i,j) − Z(i, mod(j + 1, n)))20+ λ00i,j Z(i,j)2 (22)0其中λ1和λ0是确定每个平滑项强度的超参数。我们要求λ0>0，以防止在预处理过程中出现除以零的问题。我们使用标准FFTFv(∙)的变体，它将某个实际的n×n图像双射到一个实际的n2维向量，而不是标准FFT产生的复数n×n图像（详见补充材料中的正式描述）。有了这个，我们可以将方程22重新写成如下形式：0w = 10λ0λ1|Fv([1, −1])|2 + |Fv([1; −1])|2 + λ00g(Z) = Fv(Z)Tdiag(w)2Fv(Z) (23)0其中向量w只是g(Z)定义和超参数λ1和λ0的值的某个固定函数。在FFT之前，Fv([1, −1])和Fv([1;−1])中的2个差分滤波器被填充到大小为(n×n)。有了w，我们可以定义我们的2D图像空间与重新缩放的FFT向量空间之间的映射：0z = w ◦ Fv(Z) (24)0其中◦是逐元素乘积。这个映射使我们可以将方程21中的优化问题重新写成：0Z� = F−1v01 w0arg min z0f F−1v z0w0+ ∥z∥2 (25)0其中F−1v(∙)是Fv(∙)的逆，除法是逐元素进行的。这种重新参数化将Z的复杂正则化简化为z的简单L2正则化，具有预处理效果。我们在训练过程中使用这种技术，将所有模型组件（{Fk}，G，B）重新参数化为重新缩放的FFT向量，每个向量都有自己的λ0和λ1的值。其效果如图5所示，我们展示了两个训练阶段的损失。我们与朴素的时域优化（方程21）和非预处理的频域优化（方程25，w=1）进行比较。我们的预处理重构方法显示出显著的加速，并找到更低损失的最小值。it with an zero-mean isotropic Gaussian (encoding our priorbelief that the illuminant may change over time) and thenmultiplying that “fuzzed” Gaussian by the observed Gaus-sian:(26)8920逻辑损失0BVM损失0图5：我们的两个训练阶段的损失曲线，使用LBFGS在Gehler-Shi数据集上进行三折交叉验证（每条线表示一折）。我们的预处理频域优化以更高的速率产生更低的最小值，而非预处理的频域优化或朴素的时域优化则无法达到这种效果。0对于所有实验（不包括我们的“深度”变体，请参见补充材料），训练如下：所有模型参数都初始化为0，然后我们进行一个凸预训练步骤，该步骤通过优化方程25进行优化，其中f(∙)是逻辑损失（在补充材料中描述），使用LBFGS进行16次迭代，然后我们通过优化方程25进行优化，其中f(∙)是方程18中的非凸BVM损失，使用LBFGS进行64次迭代。07. 时间平滑0色彩恒常性通常在单个图像的背景下进行研究，假设这些图像是独立同分布的。但是实际的白平衡算法必须在视频序列上运行，并且必须对预测的光照进行一定的时间平滑，以避免在取景器中呈现给观众不稳定的图像（例如，彩色灯光打开，相机迅速移动到室外等）。这种平滑不能太过激进，否则取景器在光照快速变化时可能会显得不响应（例如，彩色灯光打开，相机迅速移动到室外等）。此外，当面临多个有效的假设时（例如，白光下的蓝色墙壁与蓝光下的白色墙壁等），我们可能希望使用先前的图像来解决歧义。这些稳定性、响应性和鲁棒性的要求相互矛盾，因此必须做出一些妥协。我们构建一个时间上连贯的光照估计的任务受益于我们逐帧模型输出的概率性质，该模型产生一个参数化为双变量高斯分布的光照后验分布。假设我们有一些关于光照和其协方差（µt，Σt）的持续估计。给定我们模型提供的观察均值和协方差（µo，Σo），我们通过首先卷积来更新我们的持续估计0Σt+1 = α0 0 α0Σt+1 =0Σt+1=0μt+1 = Σt+10Σt+1 = α0 0 α0μt+1 = μt + Σoμo0Σt+1=0其中α是一个参数，定义了随时间变化的光源的预期方差。这种更新类似于卡尔曼滤波器，但具有简化的转移模型，没有控制模型和可变的观测噪声。这种时间平滑在我们的基准测试中没有使用，但可以在补充视频中看到其效果。08. 结果0我们使用两个标准的色彩恒常性数据集来评估我们的技术：Gehler-Shi数据集[20,30]和Cheng等人的数据集[12]（见表1和表2）。对于Gehler-Shi数据集，我们提供了几个模型的消融和变体，以展示每个设计决策的影响，并研究速度和准确性之间的权衡。标记为“full”的模型在384×25616位图像上运行，而标记为“thumb”的模型在48×328位图像上运行，这是硬件设备上嵌入的实际白平衡系统可能使用的图像类型。标记为“4channel”的模型使用[4]中使用的四个特征通道，而标记为“2channel”的模型使用我们在第5节中介绍的两个通道。我们还提供了只使用“像素通道”I或“边缘通道”E作为输入的模型。所有模型的直方图大小为n =64，除了模型K和L，其中n变化以显示光源混叠的影响。两个模型使用“灰色世界”去混叠，其余模型使用“灰色光”去混叠。前者似乎比后者稍微不那么有效，除非色度直方图严重混叠，这就是为什么我们在模型K中使用它的原因。模型C只有一个训练阶段，最小化64次逻辑损失，从而从训练中去除了BVM拟合。模型E修复了G(i, j) = 1和B(i, j) =0，从而去除了模型对光源的绝对颜色进行推理的能力。模型B仅通过最小化数据项（即在等式22中λ0 = λ1 =0）进行训练，而模型D使用L2正则化但不使用总变差（即在等式22中λ1 =0）。模型N、O和P是模型J的变体，其中我们将模型参数（{Fk}，G，B）表示为一个小型2层神经网络的输出。作为该网络的输入，我们使用图像元数据，使模型能够推理曝光时间和相机传感器类型，和/或CNN生成的特征向量。8930[34]，这使得模型能够推理语义（详见补充材料）。对于每个实验，我们调整所有λ超参数以最小化交叉验证期间的“平均”误差，使用循环坐标下降法。模型P在Gehler-Shi上取得了最低误差结果，与先前表现最佳的已发表技术相比，误差减少了20%。这种准确性的提高还伴随着与以前技术相比的显著加速：大多数模型每张图像的处理时间约为30毫秒，而CCC[4]为520毫秒，Shi等人[31]为3秒（在GPU上）。模型Q（我们最快的模型）的准确性与[4]和[31]相当，但处理一张图像仅需1.1毫秒，使其比当前最先进的技术快数百或数百万倍。此外，我们的模型似乎比最先进的模型训练速度更快，尽管先前的工作的训练时间通常不可用。表1中我们模型的所有运行时间都是在Intel Xeon CPUE5-2680上计算的。对于“full”模型的运行时间使用Matlab实现，而对于“thumb”模型的运行时间使用Halide [28]CPU实现（我们对ModelQ的Matlab实现每张图像需要2.37毫秒）。我们的“+semantic”模型的运行时间没有呈现，因为我们无法准确地对[34]进行性能分析（CNN特征计算似乎主导运行时间）。为了证明我们的模型是一个适用于消费摄影的可行的自动白平衡系统，我们在2016年的Google PixelXL上运行了我们的Halide代码，使用设备的相机堆栈计算的缩略图图像。该实现每张图像运行时间为1.44毫秒，相当于每秒30帧，使用总计算预算的<5%，从而满足我们之前设定的速度要求。我们的系统在手机上实时运行的视频可以在补充材料中找到。09. 结论0我们提出了FFCC，一种颜色恒常性算法，相对于之前的工作，可以将误差减少13%至20%，速度提高250至3000倍。在此过程中，我们引入了环形卷积颜色恒常性的概念，并介绍了用于此环形方法的光照去混叠和可微分的双变量vonMises拟合技术。我们还提出了一种新颖的快速傅里叶域优化技术，适用于一类特定的正则化器。FFCC生成了完整的光照后验分布，使我们能够评估模型的置信度，并且还实现了类似卡尔曼滤波器的时间平滑模型。FFCC的速度、准确性和时间一致性使其可以用于消费级相机的实时白平衡。0算法平均值中位数三分位数最佳最差平均测试训练025% 25% 时间时间0支持向量回归[18] 8.08 6.73 7.19 3.35 14.89 7.21 - - 白点法[8] 7.55 5.68 6.35 1.45 16.12 5.76 0.16 - 灰世界[9] 6.366.28 6.28 2.33 10.58 5.73 0.15 - 基于边缘的色域[23] 6.52 5.04 5.43 1.90 13.58 5.40 3.6 1986 一阶灰度边缘[32]5.33 4.52 4.73 1.86 10.03 4.63 1.1 - 二阶灰度边缘[32] 5.13 4.44 4.62 2.11 9.26 4.60 1.3 - 灰度阴影[16] 4.93 4.014.23 1.14 10.20 3.96 0.47 - 贝叶斯[20] 4.82 3.46 3.88 1.26 10.49 3.86 97 764 杨等人2015[35] 4.60 3.10 - - - - 0.88- 通用灰世界[3] 4.66 3.48 3.81 1.00 10.09 3.62 0.91 - 自然图像统计[21] 4.19 3.13 3.45 1.00 9.22 3.34 1.5 10749基于CART的组合[6] 3.90 2.91 3.21 1.02 8.27 3.14 - - 空间光谱统计[11] 3.59 2.96 3.10 0.95 7.61 2.99 6.9 3159LSRS[19] 3.31 2.80 2.87 1.14 6.39 2.87 2.6 1345 基于交集的色域[23] 4.20 2.39 2.93 0.51 10.70 2.76 - -基于像素的色域[23] 4.20 2.33 2.91 0.50 10.72 2.73 - - 自下而上+自上而下[33] 3.48 2.47 2.61 0.84 8.01 2.73 - -程等人2014[12] 3.52 2.14 2.47 0.50 8.74 2.41 0.24 - 基于样本的[25] 2.89 2.27 2.42 0.82 5.97 2.39 - -Bianco等人2015[7] 2.63 1.98 - - - - - - 修正矩[14] 2.86 2.04 2.22 0.70 6.34 2.25 0.77 584Chakrabarti等人2015[10] 2.56 1.67 1.89 0.52 6.07 1.91 0.30 - 程等人2015[13] 2.42 1.65 1.75 0.38 5.87 1.73 0.25245 CCC[4] 1.95 1.22 1.38 0.35 4.76 1.40 0.52 2168 Shi等人2016[31] 1.90 1.12 1.33 0.31 4.84 1.34 3.0 -0A) FFCC-完整，仅像素通道，无光照 2.88 1.90 2.05 0.50 6.98 2.08 0.0076 117 B) FFCC-完整2通道，无正则化 2.341.33 1.55 0.51 5.84 1.70 0.031 96 C) FFCC-完整2通道，无BVM损失 2.16 1.45 1.56 0.76 4.84 1.78 0.031 62 D)FFCC-完整2通道，无总变差 1.92 1.11 1.27 0.28 4.89 1.30 0.028 104 E) FFCC-完整，2通道，无光照 2.14 1.34 1.520.37 5.27 1.53 0.031 94 F) FFCC-完整，仅像素通道 2.15 1.33 1.51 0.34 5.35 1.51 0.0063 67 G)FFCC-完整，仅边缘通道 2.02 1.25 1.39 0.34 5.11 1.44 0.026 94 H) FFCC-完整，2通道，无预条件 2.91 1.99 2.230.57 6.74 2.18 0.025 152 I) FFCC-完整，2通道，灰世界 1.79 1.01 1.22 0.29 4.54 1.24 0.029 98

下载后可阅读完整内容，剩余1页未读，立即下载