没有合适的资源?快使用搜索试试~ 我知道了~
多领域学习提高颜色恒定性
3258多领域学习实现精确和少镜头的颜色恒定性Jin Xiao1,Jiang1香港理工大学csjxiao@comp.polyu.edu.hk古书航2,2CVL,ETH苏黎世shuhanggu@gmail.comLeiZhang张磊1,3,†3阿里巴巴集团达摩cslzhang@comp.polyu.edu.hk摘要颜色恒常性是摄像机流水线中的一个重要过程,用于消除场景光照对采集图像颜色的影响最近,通过使用深度神经网络(DNN),已经实现了颜色恒常性准确性的显着改进。然而,现有的基于DNN的颜色恒定性方法学习不同相机的不同映射,这需要针对每个相机设备的昂贵的数据获取过程。本文开创性地将多领域学习引入到颜色恒常性领域。 对于不同的摄像机设备,我们训练了一个分支网络,该网络共享相同的特征提取器和光源估计器,并且仅采用摄像机特定的通道重新加权模块来适应摄像机特定的特性。这种多领域学习策略使我们能够从跨设备训练数据中获益。所提出的多域学习颜色恒常性方法在三个常用的基准数据集上实现了最先进的性能。最后,我们也在少量的色彩恒常设定下验证了所提出的方法.给定一个训练样本数量有限的新的看不见的设备,我们的方法能够通过仅仅从几个镜头数据集中学习相机特定的参数来提供 准 确 的 颜 色 恒 定 性 。 我 们 的 项 目 页 面 公 开 在https://github.com/msxiaojin/MDLCC网站。1. 介绍人类视觉系统天生具有对同一场景中不同光源的补偿能力,即颜色恒常性。然而,相机拍摄的图像的颜色很容易受到不同光源的影响,在阳光下可能会出现“蓝色”,而在室内白炽灯下可能会出现“黄色”。为了从采集的图像中估计场景照度,颜色恒常性是摄像机流水线中的一个重要单元,用于校正摄像机镜头的颜色*前两位作者对本书的贡献相当† 通 讯 作 者 。 本 研 究 得 到 了 国 家 自 然 科 学 基 金 项 目 ( No.61672446)及香港研资局风险投资基金补助金(R5001-18)。图1.概述了我们提出的多域学习颜色恒常性方法。我们同时为不同的设备训练颜色恒定性网络不同的网络共享具有共享参数θ 0的相同特征提取器和照明估计器,并且仅具有分别具有参数θA、θB和θK的各自的通道重新加权模块。tured图像。经典的颜色恒常性方法利用图像的统计特性或物理特性来估计场景的光源。这些方法的性能高度依赖于假设,并且在假设不成立的情况下,这些方法会出现问题[31]。在过去的十年里,另一类方法,即,以学习为基础的方法越来越受欢迎。基于早期学习的方法[20,15]采用手工制作的特征,并且仅从训练数据中学习估计函数。受到深度神经网络(DNN)在其他低级视觉任务中的成功的启发[25,24,16,38],最近提出的基于DNN的方法[9,37,26]联合学习图像表示以及估计函数,并实现了最先进的估计精度。基于DNN的方法直接学习输入图像和地面真实光源标签之间的映射函数。在给定足够的训练数据的情况下,它们能够利用高度复杂的非线性函数来捕捉输入图像与相应光源之间的关系。然而,用于训练颜色恒常性网络的数据的获取通常是昂贵的:首先,必须采集在各种光源下的大量场景中的图像,每个图像包含物理校准对象;然后,每个图像中的地面实况照明需要通过3259对应的校准对象。此外,由于来自不同相机的原始数据表现出不同的分布,现有的基于DNN的颜色恒定性方法假设每个相机具有独立的网络,因此需要每个相机的大量标记图像。 由于上述原因,现有的基于DNN的颜色恒常性方法的能力在很大程度上受到训练数据集规模的限制。在训练数据不足的情况下,人们一直在努力在本文中,我们提出了一个多域学习颜色恒常性(MDLCC)方法,利用标记的颜色恒常性数据从不同的数据集和设备。受传统成像流水线的启发,传统成像流水线采用相机特定的估计函数来从共同的低级别特征中估计光源使用来自不同设备的数据来训练公共特征提取器这种策略使我们能够解决不同相机之间的CSS差异,同时利用不同的数据集来训练更强大的深度特征提取器。提出的MDLCC框架学习每个网络中的大部分网络参数,具有更大的数据集,这显著提高了每个相机的颜色恒定性精度除了提高已经有大量标记数据的成熟设备的颜色恒定性性能外,我们的多域网络架构还使我们能够轻松地使我们的网络适应新的相机。由于来自新相机设备的标记样本数量不足,MDLCC仅需要学习设备特定的参数,并且大多数网络参数是从在大规模数据集上训练的元模型继承的。最近的一篇论文[31]研究了这种少数拍摄的颜色恒定性问题。Mc- Donagh等人[31]利用元学习技术[19]来学习一个更容易适应新相机的颜色恒定性网络。然而,由于[31]仍然需要微调少数镜头数据集上的所有网络参数,因此它仅在少数镜头设置中实现了有限的光源估计性能相比之下,所提出的MDLCC方法仅需要从少显示数据集中学习少量参数,并且能够实现更高的少拍摄估计精度。我们的主要贡献总结如下:1. 本文开创性地利用多领域学习的思想来提高颜色恒常性性能。2. 我们提出了一个设备特定的信道重新加权模块,以适应不同领域的功能,以一个共同的估计。这使我们能够对不同的相机使用相同的3. 所提出的MDLCC在基准数据集上实现了最先进的颜色恒定性能[36],[14]和[3],在标准和少数拍摄设置。2. 相关工作在本节中,我们首先提供颜色恒常性的概述,然后介绍以前处理不充分训练数据的工作最后,我们对与我们的工作密切相关的多域方法作了简要的介绍。2.1. 颜色稳定性:概述现有的颜色恒常性方法可以分为两类:基于几何学的方法[12,11,18,40]以及基于学习的方法[15,20,8,37,26,6,7]。基于“真实”白平衡图像的不同先验尽管这些方法估计速度快,但由于采用的假设条件简单,对复杂场景的估计效果不佳,从而限制了基于几何方法的估计性能。基于学习的方法从训练数据中学习颜色恒常性模型。沿着这个分支的早期作品使用手工特征,然后使用决策树[15]或支持向量回归方法[20]来回归场景照明。为了充分利用训练数据,最近的工作已经开始从数据中学习颜色恒定性的特征。在[8]中,Biancoet al.使用3层卷积网络来估计图像块的局部发光体。Shi等人[37]设计了两个子网络以适应局部估计的模糊性。在[26]中,Huet al.提出了FC4方法,该方法在全卷积网络中引入了置信度加权池化层,以从任意大小的图像中估计照度。除了从原始图像中提取特征外,[6,7]还在对数色空间中构建直方图,然后将学习的转换器应用于直方图以估计光源。尽管基于学习的颜色恒常性方法具有很强的性能,但通常需要大量的训练数据,并且对新设备的推广能力有限。2.2. 训练数据由于构建具有足够多样性和人工注释的大规模数据集通常是费力和昂贵的,因此已经提出了大量的方法来弥补训练数据的不足。3260n=1i=1数据增强数据增强是一种常用的策略,用于训练数据不足的模型。目前,大多数基于学习的颜色恒常性工作都采用了数据增强策略来提高估计精度。具体而言,随机裁剪[26]和图像重光照[26,9]是最常用的数据增强方案。然而,由于这种简单的增强方案不能增加场景的多样性,它们只能对学习的颜色恒定性模型带来边际改善。最近,Banic 'et al. [2]设计了一个图像生成器来模拟各种光源下的图像,但面临着合成数据与实际数据之间的差距。除了数据增强之外,另一个用于提高颜色恒常性性能的策略是预训练。FC4 [26]从AlexNet开始,AlexNet在ImageNet数据集上预先训练作为特征提取器。然后使用较小的学习率来微调这些参数。弱监督学习一些作品也采用了无监督学习方法。在[39]中,Tieuet al.提出了从视频帧观测中学习单个设备上的线性统计模型。Banic 'et al. [3]利用统计方法对训练图像的未知地面真实光照进行近似,并从近似光照值中学习颜色恒常性模型。目前,无监督学习方法已经取得了比传统的基于神经网络的方法更好的性能,但仍然不能与有监督的最先进的方法相提并论。2.3. 多领域学习多领域学习的目的是利用多个领域数据集之间的相关性,在多个领域的输入下提高相同任务的 在过去的十年中,大量的工作[28,33,34,35]已经全面表明,与每个领域的单独学习相比,这些方法通常包括适应模型,例如,域特定的转换[34,35]和批量归一化[10],以适应来自不同域的输入。本文从不同设备色彩恒常性问题的共性出发3. 多领域学习颜色恒常性在本节中,我们介绍我们提出的多域学习颜色恒定性(MDLCC)方法。我们首先阐述了颜色恒常性问题和MDLCC模型的目标。然后,我们介绍了MDLCC的网络结构,以及如何利用MDLCC来解决少拍色彩恒定性问题。3.1. 问题公式化本文主要研究了单一光源的颜色恒常性问题,它假定场景光源是全局的、均匀的。在朗伯假设下,图像形成可以简化为:相机间 由 于不同设备的原始图像之间的差异,大规模数据集Yc=NCc(λn)I(λn)R(λn),c∈{r,g,b}(1)需要为每个设备收集。一些工作还集中在减少构建相机特定数据集的工作量上。Gao等人[21]试图通过学习基于照相机光谱灵敏度的变换矩阵来减少不同设备之间的Banic 'et al.[3]提出在相机间实验之前学习两个相机的地面真值分布之间的变换矩阵。现有的相机间方法仅研究传感器对,并且还没有任何可以利用来自大量设备的数据的工作。最近,McDonaghet al. [31]已经将不同相机的颜色恒定性和色温公式化为少镜头学习问题。模型不可知的元学习方法[19]已被采用来学习元模型,该元模型能够仅使用少量的训练样本来适应新相机。然而,作为McDonaghet al.没有利用颜色恒定性的领域知识,仅依赖于MAML算法的自适应能力[31],仅在少数拍摄设置中实现有限的性能。其中Y是观察到的原始图像。λn,n=1,2,. N表示波长λ的离散样本。Cc(λn)表示颜色通道c的相机光谱灵敏度(CSS)。I(λn)是照明物的光谱功率分布,R(λn)表示景物的表面反射率。颜色恒常性的目的是估计光源L= [Lr,Lg,Lb]给定观察到的图像Y。然后可以根据von Kries模型[ 41 ]通过以下公式导出潜在的Wc=Yc/Lc,c∈{r,g,b}.(2)由于不同的相机使用不同的CSS,原始图像不同的摄像机所占的颜色子空间不同。现有的基于学习的方法通常为每个设备训练独立的模型。在这项工作中,我们结合不同设备的原始图像,共同学习颜色恒常模型。将来自设备k的训练数据表示为Dk={Yk,i,Lk,i}Nk,其中上标k,i分别表示设备索引和样本索引,并且Nk是Dk的样本数。建议的多域3261图2.提出了多域颜色恒常性网络结构。我们使用多个设备之间的共享层进行特征提取。然后使用相机特定的通道重新加权模块来适应每个设备。光源估计阶段最终预测出场景光源。学习颜色恒定性旨在学习网络的一个分支,该分支将来自不同域的原始图像作为输入来估计场景的发光体:∗阿吉·克恩年龄;然后使用设备特定的信道重新加权模块来变换特征;最后,利用相同的特征提取、通道重加权和光源估计模块的细节介绍如下。{θ0,θk}=argminθ0,θkk=1i =1L(Lk,i,f(Yk,i;θ0,θk)),(三)特征提取。 我们使用FC4中的前10层作为我们的特征提取器。对于第一层,步幅2卷积其中对于所有设备采用相同的网络架构f(·),并且θ0和θk分别是网络中的共享参数和L是损失函数,用于测量地面真实值和估计的发光体。3.2. MDLCC的网络结构如前一节所述,我们建议使用相同的网络架构,仅使用部分特定于设备的参数来适应不同的设备。为了验证我们使用多域学习来提高不同设备的颜色恒定性性能的想法,我们没有研究新的网络架构,而是使用FC4(SqueezeNet模型)作为我们的骨干。具体来说,我们假设FC4可以分为两个阶段:1)前10层网络构成了一个低层的特征提取器,它逐渐降低了特征图的空间分辨率; 2)最后2层网络构成一个估计器,它对提取的特征进行汇总,从而估计出光源。灵感来自以前的相机间方法[21]其提出学习变换矩阵以使不同的摄像机相关,我们提出了设备特定的通道重新加权模块,并在高维特征空间中对从不同设备提取的特征应用不同的变换。我们的网络体系结构的图示如图所示。二、对于不同的设备,我们使用相同的特征提取模块从输入图像中提取特征使用64个大小为3×3的过滤器来生成64个特征地图然后,3个块,每个块由一个最大池化层然后是两个火块[27],以增加感受野,并进一步将特征图的空间分辨率每个块之后的特征图的通道维度分别为128、256和384ReLU [32]用作每个conv层之后的激活函数通道重加权模块。为了使不同领域的低层特征适应于一个共同的空间,我们提出了一个特定于设备的通道重加权模块to transform变换features特征.具体地,我们从提取的特征和设备特定的参数的统计中推导出缩放因子。将图像Yk,i的特征提取器的输出表示为Fk,i,我们使用全局平均池化层来计算Fk,i的每个通道的平均值。然后,可以通过下式获得逐通道缩放向量ωk,iωk,i=gsigmoid(Wk,b<$gReLU(Wk,a<$zk,i)),(4)其中zk ,i是Fk 的平均值,i,{Wk,a,Wk,b}是设备特定参数 , k 是 卷 积 运 算 符 , gReLU 和 gsigmoid 是 ReLU 和sigmoid函数,分别当量(4)利用两个设备特定的完全连接的层来从输入特征图的统计中生成信道缩放因子具有ωk,i,变换特征Gk,i可以通过以下公式获得:Gk,i=ωk,i<$Fk,i ,(K32625)其中,k表示逐通道乘法。3263照明估计。利用变换后的特征Gk,i,我们利用两个卷积层来估计局部照明度,最终的全局照明度值Lk,i由随后的全局平均池化层来实现在训练阶段期间,所有训练样本有助于特征提取和照明估计模块的训练,而仅来自设备k的样本影响通道重新加权模块中的设备特定参数{Wk,a,Wk,b}角度误差的程度作为定量测量,这已被利用在以前的方法[6,7,26,14]。在我们所有的所有误差的均值、中位数、三均值、最低25%误差的均值和最高25%误差的均值。4.2.实现细节我们用角损耗来训练网络L L3.3. MDLCC可实现少量色彩恒定性(1)A=0,B=0,A = 0,||L||×||L||)、(6)MDLCC学习共享和特定于设备的参数,以利用来自不同设备的标记数据。大多数参数由不同的设备共享,只有一小部分(6.7%)参数是特定于设备的。MDLCC的这种特性使其成为少数拍摄色彩恒定性的理想架构。具体地,给定来自新的不可见设备的有限数量的训练样本,我们仅需要从这些样本学习设备特定的参数,并且共享参数可以从前MDLCC模型继承我们的少数拍摄颜色恒定性设置的更多细节将在第4.2节中介绍。4. 实验4.1.数据集我们使用三个广泛使用的颜色恒定性数据集来评估我们提出的方法:重新处理的[36] Gehler-Shi数据集[22] , NUS 8 相 机 数 据 集 [14] 和 Cube+ 数 据 集 [3] 。Gehler-Shi数据集使用两个相机收集,即,Canon 1D和Canon 5D它包含室内和室外场景,共包括568个场景。NUS数据集包含1,736张图像,这些图像是使用8台相机在大约260个场景中收集的。而Cube+数据集是最近发布的大规模颜色恒定性数据集。它包含1,365个室外场景和342个室内场景。所有的照片都是用佳能550D相机拍摄对于每个数据集,我们遵循大量工作[6,7,26]使用线性RGB图像进行实验。通过对原始图像应用简单的下采样去马赛克操作,然后进行黑电平减法和饱和像素去除来获得线性RGB图像。我们遵循以前的工作[7,26,14],对每个数据集使用3重具体来说,对于Gehler-Shi数据集,我们使用了作者主页中提供的交叉验证分割。NUS数据集中每个相机的子集包含来自同一场景的图像。为了确保在合并NUS数据集中的多个子集时,同一场景不会同时出现在训练集和测试集中,我们根据场景内容将NUS数据集的训练集和测试集至于cube+,我们将测试集随机分为3个折叠进行交叉验证。公司现采用国际其中,ω表示内积,ωs−1(·)是余弦函数的逆。我们的框架基于TensorFlow [1]实现,支持CUDA对于 多 域 设 置 和 少 镜 头 设 置 , 我 们 使 用 大 小 为384×384×3的输入训练网络。 图像随机裁剪和重光照[26]作为数据补充。我们雇佣亚当求解器[30]作为优化器,并将学习率设置为1×10−4。权重衰减值设置为0.0001,动量设置为0.9。所有训练样本的实验我们用批量大小为8的750,000次迭代来训练我们的模型。而对于少量的实验,我们训练我们的模型进行15,000次迭代,批量大小为8。对于多域设置,我们从头开始训练所有参数,并使用正常分布对其进行初始化。对于少数镜头设置,可共享的权重直接从元模型继承(元模型的更多细节将在第4.5节中介绍),我们只训练相机特定的参数。相机特定参数初始化为正态分布。4.3. 消融研究和分析在本节中,我们进行了消融研究,以评估多域学习的有效性以及我们提出的相机特定通道重新加权模块。为了验证多域颜色恒定性的有效性,我们实现了两个变体:1)单设备颜色恒定性和2)多设备组合模型。具体地说,单设备颜色恒常性模型利用我们的网络结构,为每个设备独立训练网络;多设备组合方法从所有设备收集训练数据,并训练唯一的网络来处理来自不同设备的图像。为了公平的比较,所有的超参数保持相同,在我们的MDLCC方法。此外,为了分析设备数量对多领域学习模型的影响,我们提出了4组实验,利用来自不同数量相机的组合摄像机的详细信息列于表1中。在最后一组中,我们结合了Gehler-Shi,NUS和Cube+数据集的所有相机,总共包含11个不同的相机。定量性能列于表1中。3264表1.通过比较单器械模型、多器械组合模型和我们提出的MDLCC模型在不同相机组合下的消融研究。最好的用红色表示。方法数据集单设备颜色恒定性多设备组合MDLCC是说Med.三最好的25%最差25%是说Med.三最好的25%最差25%是说Med.三最好的25%最差25%格勒施1.661.141.240.383.861.911.341.410.424.471.621.101.170.363.79NUS-C600D1.971.391.540.474.371.921.341.470.444.261.821.261.390.444.15格勒施1.661.141.240.383.861.891.351.460.414.451.610.991.110.373.79NUS-C12.041.451.600.504.551.981.421.540.484.351.871.331.480.464.19魔方+1.350.951.020.323.041.350.931.000.313.101.240.830.960.262.97NUS-Fuj。2.081.591.730.504.452.041.541.660.494.321.971.391.510.454.43NUS-N522.331.651.820.505.342.211.531.730.454.892.001.471.530.454.59魔方+1.350.951.020.323.041.350.921.010.313.081.260.840.940.252.97格勒施1.661.141.240.383.861.871.331.460.434.401.590.951.110.373.77NUS-C12.041.451.600.504.552.001.431.550.454.391.861.351.490.464.11NUS-C600D1.971.391.540.474.371.931.351.450.444.331.651.161.290.353.73NUS-Fuj。2.081.591.730.504.452.031.551.670.474.361.871.371.480.454.18NUS-N522.331.651.820.505.342.251.661.790.445.011.961.381.520.444.54NUS-Oly。1.861.371.510.474.081.801.341.480.463.971.681.151.300.343.85努斯潘1.981.411.480.414.521.901.381.460.424.371.691.201.330.453.73努斯-萨姆。2.181.661.750.544.792.131.521.690.524.621.781.331.420.413.95NUS-儿子。1.911.511.560.554.051.861.471.540.533.891.741.361.440.463.70魔方+1.350.951.020.323.041.360.921.050.333.151.240.840.950.272.95来自Gehler-Shi单设备(6.04mA)MD-combination(8.80mA)MDLCC(3.39mA)GT的输入输入来自Cube单个设备(6.19mA)MD-combination(10.62mA)MDLCC(5.25mA)GT图3.通过单设备颜色恒常性模型、多设备组合模型以及我们的提出了MDLCC模型。图像转换为sRGB以进行可视化。多域学习与在每个数据集上学习不同网络的单设备方法相比,我们的方法在所有子数据集上都取得了更好的性能即使对于包含1707个训练样本的大规模Cube+数据集这清楚地表明了多域学习在颜色恒定性领域的有效性通过比较单个设备和多个设备的组合结果,我们发现,在没有相机专用模块的情况下,直接组合多个数据集并不能持续提高色彩恒常性性能。它可能会导致一个摄像头的性能提高,但其他摄像头的性能严重下降。例如,当结合Gehler-Shi与NUS-C600 D,Gehler-Shi数据集上的性能从1急剧下降。66比1 91、错误率这表明,在没有设备特定模块的情况下直接组合多个数据集不能充分利用跨设备的训练数据。同时,通过采用相机特定的通道重新加权模块,我们的MDLCC方法显着优于多设备组合的国家基线。数 量 的 设 备从 表 1 中 我 们 还 观 察 到 , 通 过 增 加MDLCC中的设备数量,可以进一步提高性能。这是因为更多的训练样本包括更多的场景和光源,并且有利于学习更一般化的表示。例如,NUS-600 D上MDLCC的平均误差为3265表2.不同方法对再处理的Gehler-Shi [36]、NUS [14]和Cube+数据集[3]的颜色恒定性结果。最佳和第二个指标分别以红色和蓝色显示。数据集方法格勒施NUS魔方+是说 Med.三最好的25%最差25%是说 Med.三最好的25%最差25%是说 Med.三最好的25%最差25%[第11话]7.555.68 6.35 1.4516.129.917.44 8.78 1.4421.276.803.85 5.21 0.6816.93灰色世界[12]6.366.28 6.28 2.3310.584.593.46 3.81 1.169.853.522.55 2.82 0.607.98基于边的色域[4]6.525.04 5.43 1.9013.584.403.30 3.45 0.999.83–––––[40]第四十话5.334.52 4.73 1.8610.033.352.58 2.76 0.797.183.062.05 2.32 0.557.22[40]第四十话5.134.44 4.62 2.119.263.362.70 2.80 0.897.143.282.34 2.58 0.667.44[18]第十八话4.934.01 4.23 1.1410.203.672.94 3.03 0.987.753.222.12 2.44 0.437.77贝叶斯[22]4.823.46 3.88 1.2610.493.502.36 2.57 0.788.02–––––[5]第五话4.663.48 3.81 1.0010.093.202.56 2.68 0.856.68–––––自然图像统计[23]4.193.13 3.45 1.009.223.452.88 2.95 0.837.18–––––空间谱统计[13]3.592.96 3.10 0.957.613.062.58 2.74 0.876.17–––––基于相交的色域[4]4.202.39 2.93 0.5110.70––––––––––基于像素的色域[4]4.202.33 2.91 0.5010.725.274.26 4.45 1.2811.16–––––Cheng 2014 [14]3.522.14 2.47 0.508.742.181.48 1.64 0.465.03–––––基于示例的[29]2.892.27 2.42 0.825.97––––––––––修正矩[17]2.862.04 2.22 0.706.342.952.05 2.16 0.596.89–––––回归树[15]2.421.65 1.75 0.385.87––––––––––CCC [6]1.951.22 1.38 0.354.762.381.48 1.69 0.455.85–––––DS-Net(HypNet+SelNet)[37]1.901.12 1.33 0.314.842.241.46 1.68 0.486.08–––––[26]第26届世界杯足球赛1.651.18 1.27 0.383.782.231.57 1.72 0.475.151.350.93 1.01 0.303.24FFCC(J型)[7]1.800.95 1.18 0.274.651.991.31 1.43 0.354.751.380.74 0.89 0.193.67FFCC+元数据+语义[7]1.610.86 1.02 0.234.27––––––––––MDLCC1.580.95 1.11 0.373.771.781.29 1.40 0.423.971.240.83 0.92 0.262.911 .一、82,与Gehler-Shi组合时,可进一步降低至1。65当结合所有其他相机。这也证明了我们提出的相机特定的通道重新加权模块的有效性。我们的模型在处理11个设备时仍然有效。4.4. 与最新技术在本节中,我们将我们提出的多域颜色恒常性方法与其他颜色恒常性算法进行比较。我们将我们的方法与Gehler-Shi [36],NUS [14]和Cube+ [3]数据集上的竞争对于NUS数据集,我们遵循以前的工作[7,26],并在8个相机上取每个度量的几何平均值我们通过组合三个数据集中的所有设备来训练我们的模型。Gehler-Shi数据集和NUS数据集的比较方法的结果收集自[7,26]。而对于Cube+数据集,我们使用来自作者网页的开源代码呈现结果。我们在Cube+数据集上重新训练了FFCC [7]和FC4 [26]模型,并且已经仔细调整了超参数以实现最佳性能。实验结果列于表2中。除了最先进的FFCC方法之外,所提出的MDLCC在所有指标上都优于所有竞争方法。具体来说,我们的模型不断优于我们的骨干架构,即,FC4方法,这清楚地验证了多域学习对颜色恒定性的有效性。与FFCC方法相比,我们的模型通常优于仅利用图像内容用于颜色恒定性的基本FFCC模型,并且与另外将相机元数据(曝光设置和相机信息)和语义信息作为输入的完整FFCC模型相当。具体而言,我们的模型在平均误差和最差的25%平均误差方面表现出较好的性能,而在其他三个指标上表现较差。一个可能的原因是,我们的损失函数有降低所有训练样本的平均误差的趋势,这更好地拟合了平均误差和最差25%的指标。4.5. 几枪评价在本节中,我们进行实验来验证所提出的模型的能力,为少数镜头的颜色恒常性问题。我们使用Gehler-Shi,Cube数据集和NUS(NUS-C1)的一个子集作为少量测试数据集。请注意,Cube数据集是Cube+的子集,仅包含室外场景。我们选择Cube而不是Cube+,目的是将我们的方法与最近提出的少镜头Meta学习颜色恒定方法(FMLCC)[31]进行直接比较。为了训练我们的模型,我们使用剩下的7个数据集,即, 来自NUS数据集的7个子集作为训练集,仅在少数激发数据集上微调这些器械特定参数。具体地说,我们将少拍样本的数量K分别改变为1,5,10和20,以获得完全有效的结果。3266表3.几种颜色恒常模型的比较方法测试集NUS-C1立方体格勒施是说Med.三最好百分之二十五最糟糕百分之二十五是说Med.三最好百分之二十五最糟糕百分之二十五是说Med.三最好百分之二十五最糟糕百分之二十五单个设备2.041.451.600.504.551.210.850.900.232.851.661.141.240.383.86FMLCC [31]K=10–––––1.631.081.200.313.892.661.911.990.496.20K=20–––––1.591.021.150.303.852.571.841.940.476.11K=12.932.272.400.956.052.021.751.830.853.673.002.322.490.886.24MDLCCK=52.361.721.870.605.081.631.201.300.503.462.431.761.940.595.33K=102.271.611.810.574.971.561.141.240.433.332.321.681.830.575.17K=202.181.591.750.514.801.471.061.140.393.272.261.601.750.565.08从立方体输入K= 1(1.68< $)K= 5(0.64< $)K= 10(0.48<$)K= 20(0.31<$)GT从Gehler-Shi输入K= 1(3.83)K= 5(0.93)K= 10(0.54)K= 20(0.39)GT图4.少数拍摄颜色恒定性结果的可视化。图像转换为sRGB以进行可视化。两个输入图像是分别取自Cube和Gehler-Shi数据集。我们给出了不同训练样本K的少拍颜色恒常性结果。还给出了角度误差的度数。我们的方法。我们将每个测试数据集分为三个部分。对于每个折叠,我们从剩余的折叠中随机选择K个样本来构建训练样本,这些样本用于学习相机特定的参数。为了避免K个训练样本选择的随机性和干扰,我们重复了10次少镜头实验然后,我们给出10次运行中每个指标的平均值。表3中列出了几次发射的性能。我们选择解盟[31]以供比较,FMLCC的结果是从原始文件[31]复制的。此外,还提供了使用整个数据集进行训练的单个设备颜色恒定性的性能以供参考。与之前的几次拍摄颜色恒定性方法FMLCC [31]相比,我们的模型在大多数指标上都取得了更好的结果。此外,由于FMLCC需要微调所有网络权重,因此它们可能无法在极端的少数情况下提供良好的结果,例如K=1。同时,由于我们的模型只需要重新训练相机特定的权重,我们仍然可以获得良好的颜色恒常性能 。 从 表 3 和 表 2 中 可 以 看 出 , 仅 使 用 单 次 拍 摄(K=1),我们的模型优于大多数基于几何的方法。此外,当使用K=20个训练样本时,我们的模型实现了比较,单一设备模型的性能不佳,使用整个数据集进行训练。我们的少数拍摄的颜色恒定性结果的一些视觉例子4.第一章5. 结论深度网络可以在很大程度上提高大规模注释数据集的颜色恒常性精度。然而,这样的数据集的获取是费力且昂贵的,特别是对于由于设备的区别而需要针对每个相机的独立数据集的颜色恒定性问题。在本文中,我们开始了开拓性的工作,利用多域学习方法的颜色恒常性问题。具体来说,我们利用不同设备的训练数据来训练单个模型,学习互补表示并提高泛化能力。实验结果表明,通过提出的共享模块和相机专用模块,我们的模型比为每个设备训练独立模型获得了更好的我们还测试了在少数镜头设置下的颜色恒常性性能。实验结果表明,该模型可以有效地适应一个新的设备,只有少数,20个训练样本3267引用[1] Mart´ın Abadi, Paul Barham , Jianmin Chen , ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:A大规模机器学习系统。在第12届{USENIX}操作系统设计和实现研讨会({OSDI}16)中,第265-283页[2] Nik olaBanic',KarloKosce vic',Mark oSubasic',andSv enLonc aric'.裁剪:颜色恒定的基准数据集生成器.arXiv预印本arXiv:1903.12581,2019。[3] Ni kolaBan ic´andS v enLon cˇ ari c´. 无监督学习的颜色恒常性。arXiv预印本arXiv:1712.00436,2017。[4] 科布斯·巴纳德色域映射颜色恒定性算法的改进。欧洲计算机视觉会议,第390-403页。Springer,2000年。[5] Kobus Barnard,Vlad Cardei,and Brian Funt. 计算颜色恒常性算法的比较。i:方法学和合成数据的实验。IEEE transactions on Image Processing,11(9):972[6] 乔纳森·巴伦。卷积颜色恒定性。在IEEE计算机视觉国际会议的论文集,第379-387页[7] Jonathan T Barron和Yun-Ta Tsai。快速傅立叶颜色恒常性。 在IEEE会议Comput. 目视 Pattern Recognit,2017.[8] 西蒙·比安科,克劳迪奥·库萨诺,雷蒙多·谢蒂尼。使用cnn的颜色恒定性。在IEEE计算机视觉和模式识别研讨会会议论文集,第81-89页[9] 西蒙·比安科,克劳迪奥·库萨诺,雷蒙多·谢蒂尼。使用卷 积 神 经 网 络 的 单 光 源 和 多 光 源 估 计 。 IEEETransactions on Image Processing,26(9):4347[10] Hakan Bilen和Andrea Vedaldi。 通用表示法:面孔、文字、浮游生物和猫品种之间缺失的一环。arXiv预印本arXiv:1701.07275,2017。[11] David H Brainard和Brian A Wandell。色觉的视网膜理论分析。JOSA A,3(10):1651-1661,1986.[12] 格申·布克斯鲍姆物体颜色感知的空间处理器模型。富兰克林研究所杂志,310(1):1[13] Ayan Chakrabarti,Keigo Hirakawa,和Todd Zickler.空间 光 谱 统 计 的 颜 色 恒 常 性 。 IEEE Transactions onPattern Analysis and Machine Intelligence,34(8 ):1509[14] Dongliang Cheng,Dilip K Prasad,and Michael S Brown.色彩恒常性的发光体估计:为什么空间域方法起作用以及色彩分布的作用JOSA A,31(5):1049[15] Dongliang Cheng , Brian Price , Scott Cohen , andMichael S Brown.使用简单特征的有效的基于学习的光源估计。在IEEE计算机视觉和模式识别会议论文集,第1000- 1008页[16] Chao Dong , Chen Change Loy , Kaiming He , an
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功