卷积颜色恒定性：C5-跨相机实用解决方案

59 浏览量更新于2023-10-15 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1981∼∼∼跨相机卷积颜色恒定性Mahmoud Afifi1，2*Jonathan T.Barron1 Chloe LeGendre1 Yun-Ta Tsai1 Francois Bleibel11 GoogleResearch2约克大学摘要我们提出了C5是卷积颜色恒定性（CCC）方法的类似超网络的扩展：C5学习生成CCC模型的权重，然后对输入图像进行评估，其中CCC权重动态地适应于不同的输入内容。与先前的跨相机颜色恒定性模型不同，该模型通常被设计为对来自未观察到的相机的测试集图像的光谱特性不可知，C5通过转导推理的镜头来解决这个问题：在测试时提供额外的未标记图像作为C5在多个数据集上实现了跨相机颜色恒定性的最新精度，评估速度快（在GPU或CPU上每个图像分别为7和90 ms），并且需要很少的内存（2 MB），因此是针对移动摄影的免校准自动白平衡问题的实用解决方案1. 介绍计算颜色恒常性的目标是模拟人类视觉系统持续感知物体颜色的能力，在许多情况下，这个问题等同于自动白平衡的实际问题，即消除由场景中的照明引起的不期望的全局色偏，从而使其看起来像是在白光下成像的（参见图1）。白平衡不仅影响照片的质量，而且对不同计算机视觉任务的准确性也有影响在现代数码相机上，自动白平衡对于所有捕获的图像被执行作为必要的*这项工作是在马哈茂德在谷歌实习时完成的。Canon EOS5DSRNikon D810移动索尼IMX135输入查询图像附加图像C5结果图1：我们的C5模型利用新相机模型捕获的未标记附加图像的颜色，为输入图像生成特定的颜色恒定性模型。这些附加图像可以从摄影师的“相机卷”随机加载，或者它们可以是由相机制造商拍摄一次的固定集合。所显示的图像是由看不见的DSLR和智能手机相机模型捕获的[38]，这些相机模型不包括在训练阶段中。摄像机成像流程的一部分颜色恒定性是一个具有挑战性的问题，因为它基本上是约束不足的：白平衡图像和全局色偏的无限族可以解释相同的观察到的图像。因此，颜色恒定性是在给定一些观察到的图像和相机传感器的光谱特性的一些先前知识的情况下推断最可能的发光体颜色方面的应用于颜色恒定性问题的一个简单的启发式是这种灰色世界的方法及其相关技术1982佳能1Ds Mrk-III索尼SLT-A57图2：来自两个不同相机的图像的uv对数色度直方图（u=log（g/r），v= log（g/b））的可视化，这些图像在NUS数据集[15]中相同场景集的许多图像上取平均值（以绿色显示），以及整个场景集上地面实况照明体的平均值的uv坐标（以黄色显示）。这些直方图的相机具有方便的特性，即它们不受相机传感器之间的许多光谱灵敏度差异的影响，因此非常适合于跨相机任务。如果摄像机A然而，目前最先进的基于学习的颜色恒常性方法很少表现出这种特性，因为它们经常学习可能的光源颜色的精确分布等内容（黑体照明和其他场景照明规律的结果），因此，对训练期间使用的摄像机的光谱灵敏度与测试时使用的摄像机的光谱灵敏度之间的任何不匹配敏感[2]。因为在相机模型之间通常存在显著的光谱变化（如图2所示），所以当设计实际白平衡解决方案时，现有方法的这种灵敏度是有问题的。为新相机训练基于学习的算法需要收集数百或数千张具有地面实况光源颜色标签的图像（实际上：包含彩色图表的图像），这对于可能需要支持数百种不同相机模型的相机制造商或平台来说是一项繁重的任务。然而，灰色世界假设在传感器上仍然令人惊讶地保持良好-如果给定来自特定相机的几个图像，则可以合理地估计可能的光源颜色的范围（如图2中也可以看到在本文中，我们提出了一个独立于相机的颜色恒常性方法。我们的方法通过使用两个概念来实现高精度的跨相机颜色恒定性：首先，我们的系统被构造为不仅将单个测试集图像作为输入，而且还将一小组附加的测试集图像作为输入。来自测试集的图像，包括：（i）任意选择的，(ii)未标记的，（iii）和未白平衡的。这允许模型在推断期间将其自身校准到测试时间相机的光谱特性。我们对这些附加图像不做任何假设，除了它们来自与“目标”测试集图像相同的相机并且它们包含一些内容（不是所有的黑色或白色图像）。在实践中，这些图像可以简单地是从摄影师的“相机胶卷”中随机其次，我们的系统被构建为围绕现有颜色恒定模型的超网络目标图像和附加图像被用作深度神经网络的输入，深度神经网络的输出是较小的颜色恒定性模型的权重，并且那些生成的权重然后被用于估计目标图像的光源颜色。我们的系统使用来自多个相机的标记（和未标记）图像进行训练，但在测试时，我们的模型能够查看来自新相机的一组（未标记）测试集图像。我们的超网络能够推断出产生测试集图像的新相机的可能的光谱特性（就像读者可以仅从聚合统计推断出相机的可能的illuminant颜色一样，如图2所示），并产生一个小模型，该模型已经动态地适应于在应用于目标图像时产生准确的发光体估计。我们的方法是计算速度快，需要一个低的内存占用，同时实现国家的最先进的结果相比，其他相机无关的颜色恒定性的方法。2. 先前工作存在针对照明颜色估计提出的大量文献，其可以被分类为基于统计的方法（例如， [13–15,20,26,34,47,51,54]) and [第八、九、十一、十二、十九、二十一、二十四、二十五、31、42、44、45、49、52、60]）。前者依赖于基于统计的假设来基于输入原始图像的颜色分布和/或空间布局来估计场景光源颜色。这样的方法通常是简单和有效的，但它们不如基于学习的替代方案准确。另一方面，基于学习的方法通常针对单个目标相机模型进行训练，以便学习由目标相机的特定传感器产生的光源颜色的分布基于学习的方法通常限于特定的单个相机用例，因为每个相机传感器的光谱灵敏度显著改变记录的光源和场景颜色，并且不同的传感器光谱灵敏度改变同一组场景的照明颜色分布[32，58]。这种相机特定的方法不能准确地外显。1983ˆ（k）（k）--G×个RGB02在没有调谐/重新训练或预校准[39]的情况下，训练相机模型的照明颜色[2，47]的学习分布之后最近，已经提出了少镜头和多域学习技术[44，59]，以减少重新训练相机特定的学习颜色恒定性模型的工作量。这些方法只需要一个小的一组标记的图像，在训练过程中看不到一个新的相机。相比之下，我们的技术不需要地面实况标签看不见的相机，基本上是校准免费的这种新的传感器。已经提出了另一种策略，用于使用几种光源颜色候选对输入图像进行白平衡，并学习正确白平衡图像的可能性[29]。这样的贝叶斯框架需要目标相机模型的光源颜色的先验知识尽管有希望的结果，但是这些方法都需要来自目标相机模型的标记训练示例：原始图像与地面实况光源颜色配对。收集这样的训练示例是一个繁琐的过程，因为必须满足某些条件，即，对于每个图像具有单个均匀照明和将存在于场景中的校准对象[15]。另一类工作寻求学习传感器无关的颜色恒定性模型，从而避免重新训练或校准到特定相机模型的需要。最近已经提出了一种针对颜色恒定性的准无监督方法，该方法学习非彩色对象的语义特征，以帮助建立对不同相机传感器光谱灵敏度鲁棒的模型[10]。另一种技术提出在光源估计过程之前学习中间“设备独立”空间[2]。我们的方法的目标是类似的，因为我们还提议学习适用于所有相机的颜色恒定性模型，但是这些先前的传感器无关方法都没有利用多个测试图像来推断看不见的相机模型的光谱特性。这使得我们的方法能够胜过这些最先进的传感器独立的方法在不同的测试集。在一些实施例中，所述方法可以提供关于捕获输入测试图像的相机的光谱灵敏度的形成性线索，而不需要多次捕获相同场景。3. 方法我们称我们的系统为这些CCC/FFCC模型通过学习在对数色度直方图空间内执行定位来工作，诸如图2中所示的那些。在这里，我们提出了一个卷积颜色恒定性模型，它是原始工作[8]及其FFCC后续[9]中提出的模型的简化。这个简单的卷积模型将是我们将在更大的神经网络中使用的基本构建块CCC/FFCC背后的图像形成模型（以及大多数颜色恒定性模型）是观察到的图像的每个像素被假定为某个“真实”白平衡图像（或者等效地，如果在白色光源下成像，则为观察到的图像）与某个光源颜色的逐元素乘积kc=w◦其中c（k）是像素k的观察到的颜色，w（k）是像素的真实颜色，并且是光源的颜色，所有这些都是RGB值的3向量颜色恒定性算法传统上使用输入图像{c（k ）}来产生发光体的估计，然后将其划分（按元素）为每个观察到的颜色以产生发光体的估计。每个像素的真实颜色x el，w（k）。CCC为每个像素定义了两个对数色度度量，它们只是两个颜色通道的比率的对数：u（k）=log.c（k）/c（k）Σ，v（k）=log.c（k）/c（k）Σ。（二）虽然不常应用于颜色恒定性技术，但我们提出的在推理时使用多个测试集图像来提高性能的建议是机器学习中一种经过充分探索的方法。尽可能准确地对整个测试集进行分类的任务首先是如Finlayson所指出的，该对数色度表示颜色的变化意味着发光体改变（即，通过λ的元素级缩放）可以被简单地建模为该UV表示的附加偏移[18]。然后，我们构建所有像素的对数色度值的2D直方图：被Vapnik称为我们这种方法也与领域自适应[17，50]和迁移学习[46]的工作密切相关，两者都是N（u，v）= Σ||c（k）||Σ。u（k）− u。 ∧。v（k）− v。 Σ。（三）K尝试使基于学习的模型能够处理训练和测试数据之间的差异。在辐射校准文献[27，35]中，已使用同一场景的多个sRGB相机渲染图像来估计给定相机的响应函数。然而，在我们的方法中，我们采用额外的图像来学习提取-这只是使用Iverson括号写出的大小为（64 × 64）的所有uv坐标上的直方图，其中ε是直方图箱的宽度，并且其中每个像素在假设亮像素比暗像素提供更多可操作信号的情况下通过其整体亮度加权。如在FFCC中所做的，我们构建两个直方图：1984...CCC型发电机网CCC模型）+滤波器F偏差B我- -----ΣΣ我具有与Ni相同的形状。每个直方图，Ni，是con-i。uv像素强度N0和梯度强度之一N1。后者类似于等式3构造。这些对数色度值的直方图展示了有用的a（（*）=属性：图像的RGB值与常数的逐元素乘法导致所得对数色度直方图的平移CCC的核心见解是，该属性允许将颜色恒定性框定为在此uv直方图空间中“定位”对数色度直方图的问题输入查询图像输入查询uv直方图光源uvbin光源颜色对应于（归一化）光源颜色，，估计的问题是可简化的（在可计算性意义上）拍摄的其他图像由同一相机附加uv直方图白平衡图像涉及估计UV坐标的问题。这可以通过有区别地训练“滑动窗口”分类器来完成，我们采用FFCC [9]使用的卷积结构的简化：P=softmax。B+Σ。其中{F}和B分别是滤波器和偏置，其中图3：我们的C5模型概述。输入查询图像的uv直方图和从与查询相同的传感器获取的可变数量的附加输入图像被用作我们的神经网络的输入，该神经网络生成滤波器组Fi（这里示出为一个滤波器）和偏置B，它们是常规CCC模型的参数[8]。然后，查询uv直方图通过生成的滤波器进行卷积，并通过生成的偏差进行移位，以产生热图，其argmax是估计的发光体[8]。我们估计：=.exp. −uΣ/z，1/z，exp. −vΣ/zΣ，（6）z=0。exp.−Σ2+exp.−Σ2+1.（七）与每个滤波器F1卷积，并跨通道求和（“卷积”层）。然后，偏置B被添加到该求和，其共同地使推断偏向对应于常见发光体（诸如黑体辐射）的uv正如在FFCC中所做的那样，通过使用FFT来加速这种卷积，尽管与FFCC不同，我们使用非包裹直方图，因此使用非包裹滤波器和偏置。这避免了对FFCC所使用的复杂的“去混叠”方案的需要softmax的输出P实际上是什么光源可能的“热图”，给定在N和先验B中反映的像素和梯度强度的分布，从中，我们通过相对于P对u和v进行期望来然后通过将Fi和B设置为自由参数来训练卷积颜色恒定性模型，然后将Fi优化以最小化预测光源和地面实况光源* 之间的差异。3.1. 架构有了我们的基线CCC/FFCC类模型，我们现在可以构建我们的跨相机卷积颜色恒定性模型（C5），这是一个深度架构，CCC是其中的CCC和FFCC都通过学习由单个滤波器组Fi和偏置B组成的单个固定参数集来操作。相比之下，在C5中，滤波器和偏置被参数化为深度神经网络的输出（由权重θ参数化），该深度神经网络不仅将被颜色校正的图像（我们将其称为“查询”图像）的对数色度直方图作为输入（v，v），u，vv=vP（u，v）.（五）u，v真光源标签）。通过使用所生成的过滤器和来自从查询图像的相机拍摄的等式5等效于估计在uv空间中由P加权的拟合高斯的平均值。因为在颜色恒定性的上下文中，的绝对尺度被假设为不相关或不可恢复，所以在估计（u，v），我们生成RGB光源估计值，是简单的单位向量，其对数色度值匹配如在先前工作中所做的固定滤波器和偏置），我们的模型能够将其CCC模型自动“校准”到查询图像的特定传感器属性。这可以被认为是一个超网络[28]，其中深度神经网络发出CCC模型的这种方法也承担1985×个×个×个×个----·Σ×个×个--×个我联系我们∥ℓ∗∥二、二与Transformer方法有一些相似之处，因为CCC模型可以被认为是“关注”对数色度直方图的某些部分，因此我们的请参见图3，以获得该数据流的可视化。我们模型的核心是深度神经网络，它将一组对数色度直方图作为输入，并且必须产生CCC滤波器组和偏置图作为输出。为此，我们使用多编码器-多解码器U-Net类架构[48]。第一个编码器专用于“查询”输入图像的直方图，而其余的编码器将对应于附加输入图像的直方图作为输入。为了允许网络以对其排序不敏感的方式推理附加输入图像的集合，我们采用Aittala等人的置换不变池化方法。[4]我们在编码器的每个分支的激活集合上使用最大池化。该“交叉池化”给我们单个激活集合，其反映了附加输入图像集合，但是对于那些输入图像的特定排序是不可知的。在推理时，需要这些额外的图像来允许网络推理如何在具有挑战性的情况下使用它们所有编码器的最后一层的交叉池化特征然后被馈送到两个解码器块中。每个解码器产生我们的CCC模型的一个组件：偏置图B和两个滤波器F0、F1（其分别对应于像素和边缘直方图N0、N1）。按照传统的U-Net结构，我们在解码器的每个级别与具有相同空间分辨率的编码器的其对应级别之间使用跳过连接，但仅用于与查询输入图像的直方图相对应的编码器分支。我们的编码器的每个块由一组交织的3 × 3卷积层、leaky ReLU激活、批量归一化和2 × 2最大池化组成，我们的解码器的每个块由2个双线性上采样组成，然后是交织的3 × 3卷积层、leaky ReLU激活和实例归一化。当将我们的2通道（像素和梯度）对数色度直方图传递到我们的网络时，我们用两个额外的“通道”来增强每个直方图，这两个额外的这种增强允许对数色度直方图之上的卷积架构推理与每个uv坐标相关联的绝对图4显示了我们的架构的详细可视化。3.2. 培训我们的模型是通过最小化角度误差来训练的[30]在预测的单位规范光源颜色（）和地面实况光源颜色（*）之间，以及ad-额外的损失，使我们的网络发出的CCC模型正规化。我们的损失函数L（·）是：L.*，{F（θ）}，B（θ）），（八）其中S（）是鼓励网络生成平滑滤波器和偏置的正则化器，这减少了过度拟合并提高了泛化：S（{Fi}，B）=λB（Bu2+Bv2）+λF（Fiu+Fiv），（9）我其中，u和v分别是水平和垂直Sobel滤波器，λF和λB分别是这种正则化类似于FFCC [9]使用的总变差平滑先验，尽管在这里我们将其施加在由神经网络生成的滤波器和偏置上，而不是单个滤波器组和偏置映射上。我们将乘数超参数λF和λB分别设置为0.15和0.02（参见消融研究的补充材料）。除了正则化由我们的网络发出的CCC模型之外，我们还使用 L2 正则化（即， “weight decay”) with amultiplier of我们的网络的这种正则化服务于与正则化不同的目的我们的网络发出的CCC模型的正则化-正则化Fi（θ）和B（θ）防止由我们的网络发出的CCC模型过度拟合，而正则化θ防止由生成这些CCC模型的模型过度拟合。使用Adam优化器[36]进行训练，超参数β1=0。9，β2=0。999，60个时期。我们使用5 10- 4的学习率，使用余弦退火时间表 [41] 并增加批量大小（从 16 到16）。64)[43，53]，其提高了训练的稳定性（参见消融研究的补充材料）。当针对特定相机模型训练我们的模型时，在每次迭代中，我们随机选择一批训练图像（及其对应的地面实况发光体）用作查询输入图像，然后从训练集中针对每个查询图像随机选择八个附加输入图像参见补充材料，了解我们模型的多个版本的结果，其中我们使用了不同数量的附加图像。4. 实验与讨论在所有的实验中，我们使用了384 256原始图像后，应用黑色电平归一化和掩盖了1986编码器层#4∼∼n输入查询uv直方图3×3卷积层的输出（步幅=1，填充=1）双线性上采样和级联3×3卷积层的输出，步长为1，输出为a…†*级联后2×2交叉池化（步幅=2）的输出实例规范化层批量归一化层的输出（应用于第一和第三编码器层）§跳过到相应解码器层的连接（仅应用于主编码器）2×2最大池化层的输出（步幅=2）泄漏ReLU层*1×1 conv层的输出（步幅=1）*跳过所有其他编码器同一级别额外紫外直方图*如果输入是单个直方图，则省略†应用于除最后一层之外的所有编码器层。§为了更好的可视化，未示出到第二解码器的其他跳过连接图4：发出CCC模型权重的神经网络架构概述。查询图像的uv直方图连同从同一相机获取的附加输入直方图一起作为输入被提供给一组多个编码器。通过在每个块之后跨编码器执行最大池化，每个编码器的激活与其他编码器共享。最后一个编码器层处的交叉池化特征然后被馈送到两个解码器块中以生成用于查询直方图的CCC模型的偏置和滤波器组。解码器的每个尺度连接到编码器的相应尺度，以用于具有跳过连接的查询直方图。编码器和解码器块的结构在右上角示出。真正的Fujifilm X-M1原始图像尼康D40映射到CIE XYZ空间真实尼康D40原始图像足以容易地适应诸如移动电话之类的有限计算环境的狭窄约束4.1. 数据增强我们使用的许多数据集仅包含每个不同相机模型的几个图像（例如，NUS数据集[15]），这给我们的方法带来了问题，因为神经网络通常需要大量的训练数据。为了解决这个问题，我们使用的数据增强过程中，从“源”相机模型拍摄的图像为了执行该映射，我们首先使用其地面真实光源颜色对每个原始源图像进行白平衡，然后使用图5：用于增强训练数据的图像映射的示例。从左至右：由富士胶片X-M1照相机捕获的原始图像;在CIE XYZ中的白平衡之后的相同图像;相同的图像映射到尼康D40传感器空间;和尼康D40拍摄的同一场景的真实图像进行比较[15]。校准对象以避免在评估期间的任何“泄漏”。不包括直方图计算时间（由于深度学习框架中分散型操作的昂贵性质，难以准确分析），我们的方法在NVIDIAGeForce GTX 1080上每幅图像运行7毫秒，在英特尔至强 CPU 处理器 E5-1607 v4 （ 10 M 高速缓存， 3.10GHz）上运行90毫秒。由于我们的模型存在于对数色度直方图空间，我们整个模型的未压缩大小为2MB，小每个DNG文件中提供的颜色空间变换矩阵（CST）[1]。然后，我们通过反转从目标相机数据集拍摄的图像的CST将CIE XYZ图像变换到目标传感器空间中。我们不是从目标数据集中随机选择图像，而是使用每个图像的相关色温这意味着并且这显著地增加了我们的合成大小的数据的真实性。在将源图像映射到目标白平衡传感器空间之后，我们从已经拟合到目标传感器中的照明颜色的rg最后，我们应用色适应来生成网络层的详细信息编码层解码器层......瓶颈偏差B...n×n× 32...16十六个m × m × i滤波器F瓶颈编码器层#2编码器层#1编码器层#1编码器层#2解码器层#3解码器层#4解码器层#3编码器层#2解码器层#4编码器层#1n............编码器层#4编码器层#4解码器层#1解码器层#1交叉池输出1987Canon EOS 5DSR误差= 10.92°Nikon D810误差= 3.90°佳能EOS 550D误差= 6.09°移动索尼IMX135误差= 2.99°NBF色度F边缘误差= 2.23°误差= 4.70°误差= 3.03°误差= 6.16°误差= 0.75°误差= 2.16°误差= 0.74°误差= 0.80°输入原始图像准无监督CCSIIEC5（我方）直方图生成CCC模型地面实况图6：在这里，我们可视化了我们的C5模型以及其他相机独立模型的性能：“准无监督CC”[10]和SIIE[2]。尽管在训练期间没有看到来自测试集相机的任何图像，但C5能够产生准确的光源估计。中间CCC滤波器和由C5产生的偏差也被可视化。在目标传感器空间中的增强图像通过将映射到目标传感器空间的白平衡原始图像的每个颜色通道与对应的采样光源颜色通道值相乘来执行该色彩适应;参见图5的示例。其他细节可在补充材料中找到这种增强允许我们生成额外的训练样本，以提高模型的泛化能力。更多详细信息见第2节。四点二。4.2. 结果和比较我们使用四个公共数据集验证我们的模型，这些数据集由一个或多个相机模型拍摄的图像组成：Gehler-Shi数据集（568张图像，两台摄像机）[24]，NUS数据集（1，736张图像，八台摄像机）[15]，INTEL-TAU数据集（7，022张图像，三台摄像机）[38]和Cube+数据集（2，070张图像，一台摄像机）[7]，其中有一个单独的2019“挑战”测试集[6]。我们通过报告社区常用的错误统计数据来衡量性能：估计光源和真实光源之间的角度误差的第一和第三四分位数（“最佳25%”和“最差25%”）的平均值、中值、三均值和算术平均值。由于我们的方法随机选择附加图像，每个实验重复十次，并且我们报告了每个误差度量的算术平均值（补充材料包含标准偏差）。为了评估我们的模型留一交叉验证评估方法：对于每个数据集，我们从我们的训练图像中排除测试集使用的所有场景和相机。为了与FFCC [9]进行公平比较，我们使用相同的留一交叉验证评估方法训练FFCC。结果见表1，定性比较见图6和图7。即使与现有的传感器无关技术[2，10]相比，我们也实现了最先进的性能，如表1所示。当在表1中的两个Cube+ [6，7]测试集和INTEL-TAU[38]数据集上进行评估时，我们在NUS [15]和Gehler-Shi [24]数据集上训练我们的当在表1中的Gehler-Shi[24] 和 NUS [15] 数据集上进行评估时，我们使用INTEL-TAU数据集[38]，Cube+数据集[7]以及排除测试数据集后的Gehler-Shi [24]和NUS [15]数据集之一来训练C5。与该过程的一个偏差是针对标记为“CS”的NUS结果我们增强了用于训练模型的数据，添加了5，000个如第2节所述生成的增强示例4.1.在该过程中，我们仅使用每个实验的训练集的相机作为例如，当评估INTEL-TAU [38]数据集时，我们的增强模拟1988表1：Cube+数据集[7]、Cube+挑战[6]、INTEL-TAU数据集[38]、Gehler-Shi数据集[24]和NUS数据集[15]上的角度误差术语“CS”是指如[2]中所使用的交叉传感器。有关其他详细信息，请参见文本。最低错误以黄色突出显示。输入图像FFCCC5地面实况立方体+数据集平均值Med.B.百分之二十五W.百分之二十五三大小（MB）图7：在这里，我们使用测试集Sony SLT-A57在跨传感器泛化方面比较了我们的C5模型与FFCC来自NUS数据集的图像[15]。如果FFCC经过培训且C5在来自同一相机的图像上测试，它表现良好，C5（顶行）也是如此。但是，如果FFCC在不同的相机上进行测试，比如奥林巴斯EPL6，它的泛化能力很差，而C5则保持了它的性能（底行）。1.921.320.444.44 1.462.09年龄模拟NUS [15]数据集的场景内容正如Gehler-Shi[24]数据集的传感器所观察到的那样，反之亦然。附加图像的特征除非另有说明，附加输入图像是随机选择的，但是来自与测试图像相同的相机模型。该设置意味着等同于真实世界用例，其中作为输入提供的附加图像是例如在推断期间已经存在于相机上的摄影师然而，对于“Cube+ Challenge”表，我们在表1中提供了一组附加的实验，其中根据一些启发法而不是随机地选择该组附加图像。我们确定了20个测试集图像的紫外线色度值的变化最低（这具有直观的意义，因为人们可能期望彩色图像是关于先前未观察到的相机的光谱特性的更多信息信号。我们还在表1中示出了结果，其中附加图像是从与测试集相机不同的相机拍摄的，并且示出了这导致比使用来自相同测试集相机的附加图像更高的错误率，如人们可能预期的。5. 结论我们已经提出了C5，一种跨相机卷积颜色恒定性方法。通过将现有的最先进的卷积颜色恒定性模型（CCC）[8，9]嵌入到多输入超网络方法中，C5可以在来自多个相机的图像上训练，但是在测试时合成用于CCC类模型的权重，该CCC类模型被动态校准到先前的图像的光谱特性。INTEL-TAU是说Med.B. 百分之二十五W. 百分之二十五三灰色世界[14]4.73.70.910.04.0[20]第二十话4.02.90.79.03.2基于PCA的黑白颜色[15]4.63.40.710.33.7加权灰边[26]6.04.20.914.24.8准无监督CC [10]3.122.190.607.282.40SIIE [2]3.422.420.737.802.64FFCC [9]3.422.380.707.962.61C52.521.700.525.96一点八六Gehler-Shi数据集是说Med.B. 百分之二十五W. 百分之二十五三[20]第二十话4.934.011.1410.204.23基于PCA的黑白颜色[15]3.522.140.508.742.47ASM [5]3.802.40--2.70Woo等人[五十七]4.302.860.7110.143.31灰色指数[47]3.071.870.437.622.16跨数据集CC [37]2.872.21---准无监督CC [10]3.462.23---SIIE [2]2.77一点九三0.556.53-FFCC [9]2.952.190.576.752.35CS两块五1.990.535.46二点零三分NUS数据集是说Med.B. 百分之二十五W. 百分之二十五三灰色世界[14]4.593.461.169.853.81[20]第二十话3.672.940.987.753.03局部表面反射率[22]3.452.510.987.322.70基于PCA的黑白颜色[15]2.932.330.786.132.42灰色指数[47]2.911.970.566.672.13跨数据集CC [37]3.082.24---准无监督CC [10]3.002.25---SIIE（CS）[2]2.051.500.524.48FFCC [9]2.872.140.716.232.30CS2.541.900.615.612.02C5（CS）一点七七 1.370.483.751.46测试集图像的不可见相机。广泛的实验表明，C5实现了国家的最先进的perfor-曼斯跨相机的颜色恒定性的几个数据集。通过实现准确的光源估计，而不需要繁索尼SLT-A57误差= 0.55°误差= 1.60°奥林巴斯EPL6误差= 9.65 °误差= 2.10°灰色世界[14]3.522.550.607.982.82-[20]第二十话3.222.120.437.772.44-跨数据集CC [37]2.471.94----准无监督CC [10]2.691.760.496.452.00622SIIE [2]2.141.440.445.06-10.3FFCC [9]2.691.890.466.312.080.22魔方+挑战是说Med.B. 百分之二十五W. 百分之二十五三灰色世界[14]4.443.500.779.64-一阶灰边[54]3.512.300.568.53-准无监督CC [10]3.122.190.607.282.40SIIE [2]2.891.720.717.06-FFCC [9]3.252.040.648.222.09C52.241.480.475.391.62C5（另一种相机型号）2.972.470.786.112.52C5（暗淡图像）2.351.580.465.571.701989琐的收集每个特定相机的标记训练数据，我们希望C5将加速相机行业广泛采用基于学习的白平衡1990引用[1] 数字负片（DNG）规格。技术报告，Adobe SystemsIncorporated，2012。版本1.4.0.0。[2] Mahmoud Afifi和Michael S Brown。dnn模型的传感器无关光照估计。BMVC，2019年。[3] Mahmoud Afifi和Michael S Brown。还有什么能骗过深度学习？解决深度神经网络性能上的颜色恒定性误差。在ICCV，2019年。[4] MiikaAittala和Fre'doDurand。基于排列不变卷积神经网络的突发图像去模糊ECCV，2018年。[5] Arash Akbarinia和C Alejandro Parraga。超越经典感受野的颜色TPAMI，2017。[24] Peter V Gehler、Carsten Rother、Andrew Blake、TomMinka和Toby Sharp。贝叶斯颜色恒常性的重新审视。CVPR，2008年。[25] Arjan Gijsenij，Theo Gevers，and Joost Van De Weijer.使用用于颜色恒定性的图像导数结构的通用色域映射IJCV，2010年。[26] Arjan Gijsenij，Theo Gevers，and Joost Van De Weijer.用光度边缘加权法改善颜色恒常性。TPAMI，2012年。[27] Michael D Grossberg和Shree K Nayar。摄像机响应函数空间建模。TPAMI，2004年。[28] David Ha，Andrew Dai，and Quoc V Le. 超网络arXiv预印本arXiv：1609.09106，2016。[29] Daniel Hernandez-Juarez Sarah Parisot Benjamin Busam[6] 尼古拉·巴尼奇和卡洛·科斯·克·维·伊·克。照明估计Ales Leonardis Gregory Slabaugh和Steven McDonaghmation挑战https://www.isispa.org/照明-估计-挑战。访问日期：2021-03-07。[7] Ni kolaBan ic´andS v enLon cˇ ari c´. 无监督学习的颜色恒常性。arXiv预印本arXiv：1712.00436，2017。[8] 乔纳森·巴伦。卷积颜色恒定性。ICCV，2015年。[9] Jonathan T Barron和Yun-Ta Tsai。快速傅立叶颜色恒常性。CVPR，2017年。[10] 西蒙·比安科和克劳迪奥·库萨诺。准无监督颜色恒定性。CVPR，2019年。[11] 西蒙·比安科，克劳迪奥·库萨诺，雷蒙多·谢蒂尼。使用cnn的颜色恒定性。CVPR研讨会，2015年。[12] David H Brainard和William T Freeman。贝叶斯颜色恒常性JOSA A，1997年。[13] David H Brainard和Brian A Wandell。色觉的视网膜理论分析。JOSA A，1986年。[14] 格申·布克斯鲍姆物体颜色感知的空间处理器模型。富兰克林研究所杂志，1980年。[15] Dongliang Cheng，Dilip K Prasad，and Michael S Brown.用于颜色恒定性的照明体估计：为什么空间域方法工作和颜色分布的作用. JOSA A，2014年。[16] C CIE。1931年国际洗衣程序委员会。剑桥大学，剑桥，1932年。[17] 哈尔·道姆三世和丹尼尔·马库统计分类器的域适应。JAIR，2006年。[18] Graham D Finlayson和Steven D Hordley。像素处的颜色JOSA A，2001年。[19] Graham D Finlayson，Steven D Hordley，and IngeborgTastl.色域约束光源估计。IJCV，2006年。[20] Graham D Finlayson和Elisabetta Trezzi。灰色阴影和颜色恒定性。2004年彩色与成像会议[21] 大卫·福赛斯一种新的颜色恒常性算法IJCV，1990年。[22] Shaobing Gao，Wangwang Han，Kaifu Yang，Chaoyi Li和Yongjie Li。具有局部表面反射率统计的高效颜色恒常性。ECCV，2014年。[23] Shao-Bing Gao，Ming Zhang，Chao-Yi Li，and Yong-Jie Li.通过降低相机光谱灵敏度的变化来改善颜色恒定性。JOSA A，2017年。一个多假设方法的颜色恒定性。CVPR，2020年。[30] Steven D Hordley和Graham D Finlayson。重新评估颜色恒定性算法。载于ICPR，2004年。[31] 胡渊明，王宝源，林志颖FC4：具有置信加权池的完全卷积颜色恒定性。CVPR，2017年。[32] JunJiang，DengyuLiu，JinweiGu，andSabineSüsstrunk. 彩色数码相机的光谱灵敏度函数的空间是多少？WACV，2013年。[33] 托尔斯滕·约阿希姆学习使用支持向量机进行文本分类。ICML，1999年。[34] Hamid Reza Vaezi Joze 、 Mark S Drew 、 Graham DFinlayson和Perla Aurora Troncoso Rey。明亮像素在照明估计中的作用。2012年彩色与成像会议。[35] Seon Joo Kim，Jan-Michael Frahm，and Marc Pollefeys.用于室外场景分析的具有照明变化的射线测量校准。CVPR，2008年。[36] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[37] Samu Koskinen12 ， Dan Yang ， and Joni-Kristian Kamémaéraéinen.使用传感器到传感器传递访问交叉数据集颜色常数BMVC，2020年。[38] Firas Laakom，Jenni Raitoharju，Alexandros Iosifidis，Jarno Nikkanen，and Moncef Gabbouj. Intel-TAU：颜色恒定性数据集。 arXiv 预印本 arXiv ： 1910.10404 ，2019。[39] OrlyLiba，Kiran Murthy，Yun-Ta Tsai，Tim Brooks，Tianfan Xue ， Nikhil Karnad ， Qiurui He ， Jonathan TBarron，Dillon Sharlet，Ryan Geiss，et al.在极弱光下的手持移动摄影。A

下载后可阅读完整内容，剩余1页未读，立即下载