基于深度度量学习的端到端光照估计方法及其稳健性分析

83 浏览量更新于2023-10-25 收藏 12.62MB PDF 举报

深度度量学习

颜色恒常性

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

̸36160基于深度度量学习的端到端光照估计0徐博磊1，2 刘静欣2，3 侯先旭2 刘博智2 邱国平2，401 浙江工业大学计算机科学与技术学院 2 深圳大学信息工程学院 3上海组织病理诊断中心 4 英国诺丁汉大学计算机科学学院0摘要0以前的颜色恒常性深度学习方法通常直接从输入图像估计光照值。这种方法可能会对图像内容的变化非常敏感。为了解决这个问题，我们引入了一种名为Illuminant-GuidedTripletNetwork（IGTN）的深度度量学习方法来进行颜色恒常性。IGTN生成一个光照一致且具有区分性的特征（ICDF），用于实现稳健准确的光照颜色估计。ICDF由基于可学习的颜色直方图方案的语义和颜色特征组成。在ICDF空间中，无论它们的内容相似性如何，都是在相同或相似的光照下拍摄的图像彼此靠近，而在不同的光照下拍摄的图像则相距较远。我们还采用了端到端的训练策略，同时对图像特征进行分组和估计光照值，因此我们的方法不需要在单独的模块中对光照进行分类。我们在两个公共数据集上评估了我们的方法，并证明我们的方法优于现有的方法。此外，我们证明我们的方法对图像外观不太敏感，在高动态范围数据集上可以实现更稳健和一致的结果。01. 引言0在不同的光源下，物体会反射出不同的颜色外观。颜色恒常性是人类视觉系统的一个特征，它确保在不同的照明条件下，物体的感知颜色保持相对恒定。计算机颜色恒常性试图开发数字成像算法来模拟这种人类视觉能力。在文献中，已经提出了许多颜色恒常性算法来实现这个目标，包括基于学习的方法[1, 20, 31, 18, 15]和统计方法[7, 16, 27, 13, 37]。0这些传统方法通常将拍摄的场景图像定义为：0I(x) =0ωE(x, λ)S(x, λ)C(λ)dλ，(1)0其中I(x)是空间坐标x处的图像值，E(x,λ)是光源的颜色，S(x,λ)是表面的光谱反射率，C(λ)是相机传感器的灵敏度函数，ω是波长λ的可见光谱。根据冯∙克里斯系数定律[6]和单一光源的假设，可以简化为[2, 33]：0I = E × S，(2)0其中I中的每个观察到的RGB像素是所有像素共享的RGB光照E和规范光照（通常为白色）下的反射率RGB值S的乘积。因此，颜色恒常性的目标可以定义为从I中估计E。最近的研究人员已经应用深度学习[28, 29, 22, 33,5]来估计光照。他们将颜色恒常性视为一个回归问题，旨在通过深度学习模型学习一个映射函数f，将观察到的图像内容映射到光照值：0E = f(I) (3)0这些深度学习方法的一个问题是，预测的光照受到场景内容的严重影响。例如，同一图像中的两个不同补丁xi和xj可能具有不同的场景内容。当直接从这两个不同的场景内容中推断光照时，会导致不同的估计结果，即f(xi) ≠f(xj)，因为映射函数f在训练后是固定的，输入的任何变化都会直接影响输出。然而，根据单一光照设置的假设（方程3），估计应该是位置无关的，这意味着在场景的任何位置观察都应该正确估计相同的光照颜色。另一方面，大多数36170之前的深度学习方法尝试直接从图像中估计光照。我们认为首先学习与内容无关的光照特征，然后从这些特征中估计光照值是有益的。这些特征应该只对光照变化敏感，并且不受图像内容变化的影响。0为了克服上述问题，我们提出了一种称为光照引导三元组网络（IGTN）的深度度量学习框架，通过映射函数h(∙)将输入图像嵌入到光照一致和有区分性的特征（ICDF）空间中，然后通过估计函数f(∙)从ICDF中估计光照值。具体而言，IGTN有三个网络，共享权重，因此在训练阶段需要三个图像作为输入，其中两个图像具有相同的光照值，第三个图像具有与前两个图像不同的光照值。对于每个输入图像，我们提出了一个基础网络来获取语义特征，并提出了一个多尺度可学习的颜色直方图方案来提取图像的颜色特征。语义特征和颜色特征被组合成ICDF表示。通过三元组损失和角度损失对ICDF进行进一步的优化，以更好地反映光照信息。整个网络可以以端到端的方式进行训练，因此不需要像[29]的工作中那样在训练神经网络之前对图像进行聚类。0我们在两个公共色彩恒常性数据集上测试了我们的方法，以展示我们的方法相对于之前的方法具有更好的性能。我们还在使用不同相机参数设置拍摄的高动态范围（HDR）场景图像上测试了我们的方法。我们展示了我们的方法能够更一致地估计不同相机参数设置下的光照颜色，从而证明了我们方法的鲁棒性。0我们的贡献如下：(1)我们提供了一个关于基于深度学习的色彩恒常性的新视角，其中一个好的特征应该在来自具有相似光照的图像时是一致的，当来自具有不同光照的图像时是有区分性的，并且对图像内容的变化不敏感。(2)我们通过提出一种称为光照引导三元组网络的深度度量学习方法，生成了光照一致和有区分性的特征（ICDF）用于色彩恒常性。(3)我们的方法可以在端到端的方式进行训练，因此不需要在单独的模块中进行光照聚类。(4)我们在两个公共数据集上评估了我们的方法，结果表明我们的方法相对于之前的方法具有更好的性能。02. 相关工作0近年来，关于色彩恒常性的研究工作非常多。它们可以大致分为三个类别，即基于统计的方法、基于学习的方法和基于深度学习的方法。02.1. 基于统计的方法0一些基于统计的方法假设场景中的反射率统计是无色的。一些著名的方法，包括Grey-World [7]、White-Patch [16,27]、Shades of Grey [13]和Grey-Edge[37]，都是基于场景颜色为灰色的假设。基于统计的方法的优点是它们不需要训练数据，并且通常很高效。然而，这些方法的性能与基于学习的方法不可比。02.2. 基于学习的方法0基于学习的方法利用标记的训练数据来估计光照。主要有两种基于学习的方法，包括组合方法和直接方法。组合方法尝试根据输入图像的场景内容，最优地组合几种基于统计的方法。一项工作[15]训练了一个神经网络来估计光照。他们将rg色度二值化作为输入。然而，正如他们在论文中所述，这种二值化会导致一个很大的输入层，特别是在处理12位原始图像时。[19]的工作应用图像的低级属性来选择最佳的算法组合。直接方法旨在训练一个学习模型，并从训练数据集中估计光照。色域映射方法假设观察到的颜色色域受限于给定的光源[14]。[1,20]首先从训练数据中找到规范色域，然后将每个输入图像的色域映射到规范色域。其他学习方法，如基于SVR的算法[17]、神经网络[35]、贝叶斯模型[31,18]和基于示例的算法[24]，通常使用手工设计的特征，这些学习模型也比较浅。02.3. 基于深度学习的方法0随着深度学习的出现，深度特征[21, 34,36]已经证明相对于传统的手工特征具有更好的性能。有几种深度学习方法尝试解决颜色恒常性问题。深度学习方法的一个问题是数据集的大小通常很小，这会导致深度神经网络的过拟合问题。为了克服这个问题，[28]使用ImageNet数据集对CNN进行预训练，其ground-truths是通过现有方法（如灰度法）获得的。增加数据集大小的另一种方法是将原始图像分割成补丁。一项先驱性工作[4]将原始图像作为输入，直接从CNN中预测光照。在他们的进一步工作[5]中，他们开发了一个多光源检测器，用于决定是否将局部输出聚合到单个估计中。[22]的作者开发了一个完全卷积网络架构，可以接受任意大小的输入补丁。在[33]的工作中，他们提出了一个选择网络来从光照假设中选择一个估计值。[30]构建了一个递归神经网络，以接受一系列输入图像补丁来估计光照。与我们最接近的工作可能是[29]。作者将颜色恒常性视为分类问题。他们尝试通过k-means对训练数据进行聚类，并通过在训练数据集中找到最近邻来计算光照。相比之下，我们的方法不需要在单独的模块中进行聚类。我们方法中的深度度量学习框架可以同时对图像特征进行分组和估计光照值。此外，在[29]的工作中，他们必须通过应用k-means手动定义聚类数目，而我们的方法不需要这样做。ψk,b(xk) = max{0, 1 − |xk − µk,b| × wk,b},(4)36180使用ImageNet数据集对CNN进行预训练，其ground-truths是通过现有方法（如灰度法）获得的。增加数据集大小的另一种方法是将原始图像分割成补丁。一项先驱性工作[4]将原始图像作为输入，直接从CNN中预测光照。在他们的进一步工作[5]中，他们开发了一个多光源检测器，用于决定是否将局部输出聚合到单个估计中。[22]的作者开发了一个完全卷积网络架构，可以接受任意大小的输入补丁。在[33]的工作中，他们提出了一个选择网络来从光照假设中选择一个估计值。[30]构建了一个递归神经网络，以接受一系列输入图像补丁来估计光照。与我们最接近的工作可能是[29]。作者将颜色恒常性视为分类问题。他们尝试通过k-means对训练数据进行聚类，并通过在训练数据集中找到最近邻来计算光照。相比之下，我们的方法不需要在单独的模块中进行聚类。我们方法中的深度度量学习框架可以同时对图像特征进行分组和估计光照值。此外，在[29]的工作中，他们必须通过应用k-means手动定义聚类数目，而我们的方法不需要这样做。03. 方法0在本节中，我们描述了我们提出的方法。我们的目标是设计一个深度神经网络，将图像映射到ICDF空间，然后从ICDF中估计光照值（整个框架如图1所示）。我们提出的方法由两个主要部分组成，以实现这个目标：0•基于AlexNet和可学习直方图方案的深度光照网络（DIN）用于从图像中提取语义特征和多尺度颜色特征。0•一个光照引导的三元组网络（IGTN），由三个具有共享权重的DIN组成，用于生成ICDF表示。0接下来我们将分别详细介绍这些部分。03.1. 深度光照网络0我们提出了一个深度光照网络，从输入图像x中提取图像特征h(x)，它由两个组件组成：基础网络和可学习的直方图网络。基础网络用于获取语义图像特征，可学习的直方图旨在提取颜色特征。最终的图像表示是语义特征和颜色特征的组合。我们选择AlexNet（直到FC6）作为基础网络来提取图像特征。这主要有两个原因：0（1）当前颜色恒常性数据集的大小通常很小，因此使用非常深的网络（如ResNet[21]）会导致过拟合问题；（2）虽然非常深的网络具有强大的判别能力，但它们通常对光照不敏感，这对于光照估计问题来说不是一个合适的属性。因此，在这项工作中，我们没有选择那些具有非常深结构的网络。原始的AlexNet是为分类问题设计的，因此它能够提取语义特征。然而，在光照估计问题中，我们还对光照颜色感兴趣。因此，我们应用了可学习的颜色直方图方案来提取颜色特征。03.2. 可学习的颜色直方图0颜色特征是解决光照估计问题的最重要的特征之一。在这项工作中，我们扩展了工作[41]，提取全局和局部颜色直方图来表示图像颜色特征。我们选择可学习的颜色直方图主要有两个原因：（1）与传统的颜色直方图不同，可学习的颜色直方图的计算是可微分的，因此可以在深度学习框架中进行端到端的训练；（2）可学习的直方图的计算过程可以由现有的深度学习层表示，因此易于实现。在可学习的颜色直方图中，通过深度神经网络学习bin的中心和宽度。对于图像中的每个像素，选择一个bin的投票函数如下所示：0其中x k是特征图中第k个元素的值，b是输出bin的索引，µk,b是投票bin中心的值，wk,b是第b个bin的宽度。可学习的颜色直方图的好处是它的计算过程可以通过现有的深度学习层来建模。具体来说，| xk − µ k,b|的计算与通过一个固定的1×1单位卷积核和一个可学习的偏置项− µk,b对特征图进行卷积，然后计算其绝对值是相同的。1 −| xk − µ k,b |× wk,b的计算等价于通过另一个具有可学习权重和固定偏置项值为1的1×1卷积核进行卷积。max { 0 ,∙}恰好等同于ReLU激活函数。方程4的输出维度为H×W×C×B，其中H、W、C分别是输入的高度、宽度和通道数，B是直方图的bin数。为了提取全局和局部颜色特征，我们采用了基于可学习颜色直方图方案的空间金字塔池化层。形式上，我们通过基于学习的颜色直方图的全局平均池化应用了三个尺度的池化金字塔。三个全局池化的步幅分别设置为1、2和4。所有三个池化的颜色直方图被展平以进行连接。然后，我们构建一个具有4,096个神经元的全连接层来表示最终的可学习颜色直方图特征。学习的颜色直方图特征进一步与语义特征结合，形成ICDF表示。ˆy = f(h(x))(5)α = τD(yi, y−i ),(7)36190深度光照网络0深度光照网络0估计的光照值0光照一致和有区分性的特征0角度损失0光照引导三元组损失0AlexNet0FC0AlexNet的FC60可学习颜色直方图0SPP0深度光照网络0估计的光照值0估计的光照值0共享权重0共享权重0角度损失0角度损失0图1.光照引导三元组网络(IGTN)的架构。网络接受三个输入：两个具有相同光照值的图像和一个具有不同光照值的图像。IGTN根据它们的光照值将图像映射到ICDF空间。最终的光照值可以从ICDF表示中推断出来。因此，整个网络可以以端到端的方式进行训练。这里的“SPP”表示空间金字塔池化层，“FC”表示全连接层。0全局池化的步幅分别设置为1、2和4。所有三个池化的颜色直方图被展平以进行连接。然后，我们构建一个具有4,096个神经元的全连接层来表示最终的可学习颜色直方图特征。学习的颜色直方图特征进一步与语义特征结合，形成ICDF表示。03.3. 光照引导三元组网络0当前学习到的图像特征h(x)与图像内容更相关，而在光照估计任务中，我们希望特征与光照信息更相关。0为了生成ICDF表示，我们提出了一种称为Illuminant-Guided Triplet Network(IGTN)的深度度量学习框架，以实现光照一致和有区分性的特征(ICDF)嵌入。IGTN的整体架构基于TripletNetwork框架，由三个具有共享权重的DIN组成。IGTN接受三个输入x，x +，x−，其中x和x+具有相同的光照值，而x−与前两个图像的光照值不同。IGTN旨在优化DIN生成的图像特征h(x)，并为每个输入图像实现嵌入。然后，IGTN可以从中估计出光照值ˆy。0通过估计函数f(∙)进行嵌入：0在传统的三元组网络[40, 26]中，损失函数的公式为：0L T = max(0 , ∥ h ( x i ) − h ( x + i ) ∥ 2 2 −∥ h ( x i ) −h ( x − i ) ∥ 2 2 + α ) , (6) 其中 α是一个常数边界值。这个损失函数倾向于将相同类别的图像(x , x + ) 拉到嵌入空间中的附近点，并将不同类别的图像(x , x − )推开。虽然传统的三元组损失在分类问题中保留了类内和类间距离，但它不能很好地描述回归问题中的序数样本关系，如光照估计。因此，一个常数惩罚 α不足以揭示图像对之间的序数光照差异。为了解决这个问题，我们提出了一种基于光照差异的光照引导三元组损失。惩罚参数 α 的边界值定义为：0其中 τ 是一个超参数，D ( y i , y − i )是测量图像对之间光照差异的角度距离LT = max(0, ∥h(xi) − h(x+i )∥22 − ∥h(xi) − h(x−i )∥22+τD(yi, y−i )).(8)LA(xi) = arccos(f(h(xi)) · yi∥f(h(xi))∥ · ∥yi∥),(10)ii∥)(12)36200锚定图像和负图像样本。通过采用这种学习策略，我们确保惩罚边界随着不同图像对之间的光照差异而变化。然后可以将修改的三元组损失公式化为：03.4. 三元组采样0三元组网络的另一个问题是如何构建三元组输入。正如我们之前提到的，我们的目标是构建两个具有相同光照的图像和一个具有不同光照的图像作为三元组输入。在单一光照任务中，我们假设光照在图像中均匀分布。因此，构建具有相同光照的两个图像的一种安全方法是从一个图像中裁剪两个图像块。当寻找具有不同光照的图像时，我们使用阈值 η来定义光照差异。在这里，如果两个图像的角度距离大于阈值，则定义它们的光照值不同：D ( y i , y j ) > η (9)03.5. 端到端优化0最终的光照值可以通过ICDF估计得到，以产生归一化的 r, g值。由于光照估计是一个不适定问题，学习到的特征必须通过光照标签进行监督，以获得更准确的结果。因此，我们进一步应用角度误差损失来优化IGTN。角度误差损失的公式为：0其中 f ( h ( x i )) 是IGTN预测的光照值，y i是真实的光照值。总损失是每个输入图像的修改的三元组损失和角度损失的组合：0L total = L T ( x i , x + i , x − i ) + L A ( x i ) + L A ( x+ i ) + L A ( x − i ) . (11)通过采用这种训练策略，整个网络可以以端到端的方式进行训练。同时，IDCF表示被改进以更好地反映光照信息，从而更准确地预测光照值。04. 实验04.1. 设置0实施和培训我们基于Tensorflow和Keras实现了我们的网络，使用了四个GTX01080 Ti GPU。在训练IGTN时，我们将学习率设置为 1 ×10^(-4)。批量大小设置为48。AlexNet在ImageNet数据集上进行了预训练。我们使用Adam优化器[25]来训练网络。我们为可学习的颜色直方图使用了6个bin，初始中心设置为(0, 0.2, 0.4, 0.6, 0.8,1)，初始bin宽度设置为0.2。方程8中的 τ的值设置为0.2。方程9中的阈值 η设置为3。数据增强和预处理图像块是从尺寸为227 ×227的原始图像中随机裁剪的。由于色彩恒常性数据集的大小通常较小，我们通过在-15°和15°之间随机旋转图像角度和左右翻转（概率为0.5）来增加图像数据。我们还对线性RGB图像应用伽马校正 γ =1/2.2，以适应ImageNet数据集中的图像。数据集我们首先在经过重新处理的[32]Color CheckerDataset数据集[18]上评估我们的方法。它包含568个原始图像。实验中使用的另一个数据集是NUS 8-cameraset[9]。它包含来自8个不同相机的1,736个图像，并且实验在每个子数据集上独立进行。这两个数据集都使用MacbethColorChecker（MCC）获取地面真实照明颜色。在进行实验时，我们在训练和测试阶段都屏蔽了MCC。对于NUS数据集，我们通过对八个图像子集进行几何平均来计算性能指标，就像之前的工作一样。我们使用角度误差度量来评估不同方法的性能：0误差角度 = arccos( ˆ y i ∙ y i0其中 ˆ y i 是估计的光照值， y i 是真实值。04.2. Color Constancy数据集上的实验结果0我们在表1和表2中呈现了实验结果。在NUS8-Camera数据集中，可以看到我们的新方法在大多数评估指标上与之前的方法相比取得了最低的误差，包括最先进的深度学习方法。在ColorChecker数据集中，我们的方法也展示了竞争性的估计结果。我们在平均误差和最差25%误差上取得了最低值，并在中位数和最佳25%评估指标上略高一些。这些结果表明了使用三元组网络提取光照一致且具有区分性的局部特征的有效性。需要注意的是，FFCC[3]通过利用来自另一个预训练的CNN模型[39]的附加“语义”特征和“元数据”在ColorChecker数据集上取得了最佳性能。36210Color Checker数据集平均值中位数最佳25%最差25%0灰度世界法 [7] 6.36 6.28 2.33 10.58 通用灰度世界法 [37] 4.66 3.48 1.00 10.09白点法 [6] 7.55 5.68 1.45 16.12 灰度阶法 [13] 4.93 4.01 1.14 10.20 空间光谱法(GenPrior) [8] 3.59 2.96 0.95 7.61 Cheng等人 [9] 3.52 2.14 0.50 8.74 NIS法 [19]4.19 3.13 1.00 9.22 修正矩法 (边缘) [12] 3.12 2.38 0.90 6.46 修正矩法 (颜色) [12]2.96 2.15 0.64 6.69 样本法 [24] 3.10 2.30 - - 回归树法 [10] 2.42 1.65 0.38 5.87CNN [5] 2.36 1.98 - - CCC法 (dist+ext) [2] 1.95 1.22 0.35 4.76 DS-Net(HypNet+SelNet) [33] 1.90 1.12 0.31 4.84 FFCC-4通道 [3] 1.78 0.96 0.29 4.29FFCC-2通道, +S [3] 1.67 0.96 0.26 4.23 FFCC-2通道, +M [3] 1.65 0.86 0.24 4.44FFCC-2通道, +S +M [3] 1.61 0.86 0.23 4.27 SqueezeNet-FC4 [22] 1.65 1.18 0.383.78 AlexNet-FC4 [22] 1.77 1.11 0.34 4.290我们的方法（基于三元组损失函数） 1.73 1.09 0.31 4.25我们的方法（无三元组损失函数） 1.78 1.13 0.34 4.31我们的方法（无可学习直方图） 1.85 1.10 0.31 4.91 我们的方法（无AlexNet）2.49 1.70 0.41 6.01 我们的方法（无SPP; s = 1 ） 1.72 1.08 0.32 4.20我们的方法（无SPP; s = 2 ） 1.76 1.09 0.34 4.28 我们的方法（无SPP; s = 4 ）1.78 1.11 0.35 4.34 我们的方法（完整） 1.58 0.92 0.28 3.700表1. 不同方法在ColorChecker数据集上的性能。对于文献中未报告的度量值，其条目为空白。我们用“S”表示[3]中使用的语义数据，用“M”表示[3]中使用的元数据。0方法平均值中位数最佳25% 最差25%0白点法 [6] 10.62 10.58 1.86 19.45 基于边缘的色域法 [1] 8.43 7.05 2.41 16.08基于像素的色域法 [1] 7.70 6.71 2.51 14.05 基于交叉的色域法 [1] 7.20 5.96 2.2013.61 灰度世界法 [7] 4.14 3.20 0.90 9.00 贝叶斯法 [18] 3.67 2.73 0.82 8.21NIS法 [19] 3.71 2.60 0.79 8.47 灰度阶法 [13] 3.40 2.57 0.77 7.41一阶灰度边缘法 [37] 3.20 2.22 0.72 7.36 二阶灰度边缘法 [37] 3.20 2.26 0.757.27 空间光谱法 (GenPrior) [8] 2.96 2.33 0.80 6.18 修正矩法 (边缘) [12] 3.032.11 0.68 7.08 修正矩法 (颜色) [12] 3.05 1.90 0.65 7.41 Cheng等人 [9] 2.92 2.040.62 6.61 CCC法 (dist+ext) [2] 2.38 1.48 0.45 5.85 回归树法 [10] 2.36 1.59 0.495.540DS-Net (HypNet+SelNet) [33] 2.24 1.46 0.48 6.08 AlexNet-FC4 [22] 2.12 1.530.48 4.78 FFCC-4通道 [3] 1.99 1.31 0.35 4.75 SqueezeNet-FC4 [22] 2.23 1.570.47 5.150我们的方法（基于三元组损失函数） 2.02 1.36 0.45 4.70我们的方法（无三元组损失函数） 2.28 1.64 0.51 5.20我们的方法（无可学习直方图） 2.15 1.52 0.47 5.28 我们的方法（无AlexNet）2.86 1.99 0.59 6.98 我们的方法（无SPP; s = 1 ） 2.02 1.35 0.45 4.72我们的方法（无SPP; s = 2 ） 2.15 1.48 0.60 4.98 我们的方法（无SPP; s = 4） 2.22 1.54 0.45 5.12 我们的方法（完整） 1.85 1.24 0.36 4.580表2. 不同方法在NUS数据集上的性能。0在ColorChecker数据集中，我们的方法没有应用这两个附加特征来训练深度学习模型。然后，我们进行了一系列消融实验，研究我们深度度量学习框架的每个组成部分的重要性。我们构建了四种基准模型：01. 我们的方法（原始三元组损失）：我们使用原始三元组损失[40,26]代替方程8来训练网络。02.我们的方法（无三元组）：移除了三元组网络框架，只训练单个深度光照网络来估计光照。03.我们的方法（无可学习的颜色直方图）：移除了整个可学习的颜色直方图（空间金字塔池化也被移除）。只使用AlexNet来提取图像特征。04.我们的方法（无AlexNet）：我们移除了基础网络，只使用可学习的颜色直方图作为特征提取器。05.我们的方法（无SPP）：移除了空间金字塔池化机制（保留可学习的直方图）。我们只使用全局平均池化一次，并评估不同步长（s = 1, 2, 4）的设置。0实验结果也在表3和表2中呈现。当使用原始三元组损失（原始三元组）时，我们可以看到三元组网络的性能略低于我们提出的IGTN。其中一个原因可能是我们版本中方程8中的动态惩罚项能更好地建模样本之间的关系。这导致ICDF空间中的特征分布更合理，进而使得深度神经网络更容易将特征分离。当移除三元组框架（无三元组）时，我们可以看到我们的方法仍能比大多数先前的统计方法和基于手工特征的学习方法取得更好的性能，但略低于没有度量学习框架的最先进的深度学习方法。这证明了三元组网络框架生成ICDF表示的重要性，能够显著提高预测准确性。当不应用可学习的颜色直方图（无可学习的颜色直方图）时，误差也显著增加。这主要是由于AlexNet提取的相对粗糙的图像特征，这些特征不足以表示输入图像的颜色和纹理特征。我们可以看到，可学习的颜色直方图方案是提取代表性图像特征的必要部分。相比之下，基础网络对估计准确性的贡献更大。当它被移除（无AlexNet）时，误差大幅增加。这显示了基础网络提取语义图像特征的重要性，这些语义图像特征包括纹理特征和空间信息。36220算法 Color Checker NUS0平均值中位数平均值中位数0旋转[23] 2.02 1.43 2.38 1.55 我们的方法 1.580.92 1.85 1.240表3.不同三元组采样策略的评估。[23]将锚定图像旋转为正图像。在我们的工作中，我们将来自同一图像的两个裁剪补丁作为锚定图像和正图像。0也是光照估计的关键，它们不包括在可学习的颜色直方图特征中。[38]的工作也证实了语义特征的重要性。因此，我们可以看到，语义特征和可学习的颜色直方图特征都是提高估计准确性的关键组成部分。当移除空间金字塔池化机制（无SPP）时，我们发现在不应用多尺度学习策略的情况下，误差略微增加。这是因为多尺度特征提取策略能够学习到局部和全局的颜色特征，能更好地表示图像的颜色特征。当将唯一的全局平均池化层设置为不同尺寸时，我们发现较小的步长尺寸可以导致较低的估计误差。这是因为较小的步长尺寸能够保留更多的颜色直方图信息。然而，构建一个多尺度池化机制仍然是必要的，因为我们可以从这样的机制中获得全局和局部的颜色特征。04.3. 三元组采样策略讨论0在这项工作中，构建具有相同光源的两个图像的方法是从一个图像中获取两个不同的裁剪图像。我们还使用[23]中的方法对此采样策略进行了评估。在他们的工作中，选择了同一类别的图像和其旋转图像。根据他们的实验设置，旋转图像分别以-10、-5、5、10度生成。我们在表3中呈现了结果。可以看到，我们的方法比[23]具有更低的角度误差。主要原因是简单地旋转图像会使三元组网络根据图像内容而不是光源对图像特征进行分组，因为一个图像和其旋转版本之间的特征差异相对较小。这会导致网络对图像内容的变化更敏感，这对于颜色恒常性问题来说不是一个合适的属性。04.4. 阈值分析0然后我们评估了方程9中阈值η对估计性能的影响。结果如图2所示。可以看到，在两个数据集上设置η=3时获得了最佳性能。当将η设置为较低值时，估计误差急剧增加。0图2.在设置不同的阈值η来确定光源差异时，两个数据集上的平均角误差。0原因是较短的角度距离意味着更接近的光源值。当将具有更接近锚定图像光源值的负输入定义为输入时，三元组网络很难通过光源区分图像，因此网络无法将图像映射到ICDF空间。当将η设置为较大值时，估计误差略有增加。原因是更多具有更广范围光源的图像不会被视为具有不同光源，这可能导致光源估计误差。04.5. 鲁棒光源估计0这个实验的目标是测试图像质量如何影响颜色恒常性算法的性能。对于给定的场景和给定的光照，相机获取的图像受到相机参数设置的影响。对于高动态范围场景，标准相机通常无法很好地捕捉到场景的完整动态范围。当使用短曝光时间时，图像通常无法很好地描绘出暗区域，而长曝光时间则会使亮区过曝。在这个实验中，我们旨在测试图像的外观如何影响光源颜色估计。对于一个好的算法，估计结果不应受到图像质量的影响，因为图像的质量如何并不重要，场景的光源颜色是相同的。[11]中的高动态范围图像数据集包含97组图像。每组图像包含在相同光照条件下拍摄的同一对象的一系列图像，但曝光时间不同。根据方程2，同一组内的每个图像的估计光源应该是相同的。我们在图3中呈现了四个示例，并在表4中呈现了统计结果。我们将我们的方法与GrayWorld、WhitePatch和一种最先进的深度学习方法AlexNet-FC4进行了比较，该方法在NUS数据集上进行了预训练。36230图3.每个场景有4张使用不同曝光时间拍摄的图像。使用不同方法从每个图像估计的色度值与每组图像一起绘制。可以看到，虽然其他方法估计的光源色度值分散较广，但我们的结果聚集在一起，表明我们的方法更一致和更稳健。0从图3可以看出，我们的方法能够在曝光变化时预测出更一致的结果。统计分析也证明了我们方法的一致性。我们计算了r和g通道的平均方差(¯σr，¯σg)来衡量估计结果的分散程度。平均方差较低意味着更一致的估计结果。从表4中可以看出，与一种深度学习方法(AlexNet-FC4)相比，我们的方法能够在曝光时间变化时预测出更一致的光源值，这是由于成功使用了01 https://github.com/yuanming-hu/fc40¯ σ r ¯ σ g0灰度世界 [7] 2.72×10^-4 8.52×10^-50白点 [6] 5.86×10^-4 7.16×10^-50AlexNet-FC4 [22] 3.48×10^-4 2.89×10^-50三元组网络 3.89×10^-4 2.56×10^-50我们的方法（无三元组）4.58×10^-4 3.90×10^-50我们的方法（全）2.62×10^-4 2.27×10^-50表4.HDR数据集上r和g通道的平均方差。数值越低意味着预测结果受曝光时间变化的影响越小。0度量学习策略的引入产生了ICDF表示，使最终的光源估计对图像内容的变化不敏感。05. 结论0在本文中，我们介绍了颜色恒常性的新视角，其中所需的颜色特征应具有辨别性并且对内容不敏感。我们通过构建一个光源引导的三元组网络来学习光源一致且具有辨别性的特征来实现这一目标。在实验中，我们的方法与其他最先进的方法在两个公共数据集上进行了比较，结果表明我们的方法具有更好的性能。此外，我们评估了我们方法的鲁棒性，并证明与文献中的其他方法相比，我们的方法对相机参数的变化具有更一致的结果。在未来的工作中，我们将考虑将我们的方法扩展到多光源场景，这应该是我们日常生活中更现实的问题。0致谢0本工作得到了中国国家自然科学基金会的部分支持，合同号61902253。0参考文献0[1] K. Barnard.改进色域映射颜色恒常性算法。在《欧洲计算机视觉会议》中，页码390–403。Springer，2000年。[2] J. T. Barron.卷积颜色恒常性。在《IEEE国际计算机视觉会议论文集》中，页码379–387，2015年。[3] J. T. Barron和Y.-T. Tsai.快速傅里叶颜色恒常性。在IEEE Conf. Comput. Vis. PatternRecognit，2017年。[4] S. Bianco，C. Cusano和R. Schettini.使用CNN的颜色恒常性。《arXiv预印本arXiv:1504.04548》，2015年。[5] S. Bianco，C. Cusano和R. Schettini.使用卷积神经网络进行单光源和多光源估计。《IEEE图像处理交易》，26(9)：4347–4362，2017年。[6] D. H. Brainard和B. A.Wandell. Retinex理论的分析。《JOSAA》，3(10)：1651–1661，1986年。36240[7] G. Buchsbaum.一个用于物体颜色感知的空间处理器模型。《富兰克林学院杂志》，310(1)：1–26，1980年。[8] A. Chakrabarti, K. Hirakawa和T.Zickler.具有空间-光谱统计的颜色恒常性。《IEEE模式分析与机器智能交易》，34(8)：1509–1519，2012年。[9] D. Cheng, D. K.Prasad和M. S. Brown.用于颜色恒常性的光源估计：空间域方法的工作原理及颜色分布的作用。《JOSA A》，31(5)：1049–1058，2014年。[10] D.Cheng, B. Price, S. Cohen和M. S. Brown.使用简单特征的有效基于学习的光源估计。在《IEEE计算机视觉和模式识别会议论文集》中，页码1000–1008，2015年。[11] M. D.Fairchild.HDR摄影调查。在《色彩与成像会议》中，卷2007，页码233–238。成像科学与技术协会，2007年。[12] G. D. Finlayson.修正矩光源估计。在《计算机视觉(ICCV)》中，页码1904–1911。IEEE，2013年。[13] G. D. Finlayson和E. Trezzi.灰度和颜色恒常性。在《色彩与成像会议》中，卷2004，页码37–41。成像科学与技术协会，2004年。[14] D. A. Forsyth.一种新颖的颜色恒常性算法。《国际计算机视觉杂志》，5(1)：5–35，1990年。[15] B. Funt, V. Cardei和K. Barnard.学习颜色恒常性。在《色彩与成像会议》中，卷1996，页码58–60。成像科学与技术协会，1996年。[16] B. Funt和L. Shi.maxrgb的修复。在《色彩与成像会议》中，卷2010，页码256–259。成像科学与技术协会，2010年。[17] B. Funt和W. Xiong.通过支持向量回归估计光源色度。在《色彩与成像会议》中，卷2004，页码47–52。成像科学与技术协会，2004年。[18] P. V.Gehler, C. Rother, A. Blake, T. Minka和T. Sharp.贝叶斯颜色恒常性再探。在《计算机视觉和模式识别，2008年。CVPR 2008. IEEE会议》中，页码1–8。IEEE，2008年。[19] A.Gijsenij和T. Gevers.使用自然图像统计和场景语义的颜色恒常性。《IEEE模式分析与机器智能交易》，33(4)：687–698，2011

下载后可阅读完整内容，剩余1页未读，立即下载