没有合适的资源?快使用搜索试试~ 我知道了~
2270颜色恒常性Daniel Hernana-Juarez1,Sarah Parisot1,2,Benjamin Busam1,3,AlesLeonardis1, Gregory Slabaugh1,Steven McDonagh1dhernandez0@gmail.com网站,{sarah.parisot,beneficiary.busam,ales.leonardis,gregory.slabaugh,steven.mcdonagh}@huawei.com1胡阿伟诺亚摘要当代方法将颜色恒定性问题框定为学习相机特定光源映射。虽然可以在相机特定数据上实现高精度,但这些模型取决于相机光谱灵敏度,并且通常对新设备的概括性较差。此外,由于问题的不适定性,回归方法产生的点估计值不能明确说明合理光源解决方案之间的潜在模糊性。我们提出了一个贝叶斯框架,自然地处理颜色恒常性模糊通过多假设策略。首先,我们以数据驱动的方式选择一组可识别的场景光源,并将它们应用于目标图像以生成一组校正图像。其次,对于每个校正的图像,我们使用相机不可知的CNN来估计光源是消色差的可能性。最后,我们的方法明确地从生成的后验概率分布中学习最终的照明估计。我们的似然估计器学习解决一个与相机无关的问题,从而通过将光源估计从监督学习任务中分离出来,实现有效的我们广泛评估-图1.我们的多假设策略允许我们利用多相机数据集。示例图像取自NUS数据集[14]。单摄像机训练:(a)现有技术方法FFCC [7]和(b)我们的方法获得类似的角度误差。使用所有8个数据集相机进行训练:聚集所有图像以(c)定义FFCC直方图中心和(d)使用每个相机的发光体候选集。[R,B]颜色空间图显示训练集照明度DIS-A。G G评估我们提出的方法,并额外设置一个长凳-标记为新的传感器推广而无需重新训练。我们的方法在多个公共数据集上提供了最先进的准确性(高达11%的中值角误差改善),同时保持实时执行。1. 介绍色彩恒常性是数字图像处理流水线的重要组成部分当被视为计算过程时,这涉及在捕获时间存在的场景光源颜色的估计,以及校正图像,使得其外观与在非彩色光源下捕获的场景的外观相恢复场景的光源的算法过程通常被称为计算,贡献。在(d)中,每个相机用不同的颜色编码以突出相机特定的发光体。我们的模型利用额外的数据来实现更低的角度误差。图像在sRGB颜色空间中渲染。自动色彩恒定(CC)或自动白平衡(AWB)。准确的估计对于视觉美学[24]以及下游高级计算机视觉任务[2,4,13,17]至关重要,这些任务通常需要颜色无偏和设备无关的图像。在场景由单个或主要光源照明的普遍假设下,图像的观察像素通常使用在三色光电传感器下捕获的朗伯图像形成的物理模型来建模:2271KKKρk(X)=∫E(λ)S(λ,X)C k(λ)dλk∈{R,G,B}.Ω(一)发光体b)学习估计由候选者校正的图像被非彩色地照射的可能性,以及c)使用估计的后验概率分布来组合候选发光体,我们用所有候选人独立地校正图像其中ρk(X)是像素处的颜色通道k的强度位置X,λ是光的波长,其中E(λ)表示光源的光谱,S(λ,X)是像素位置X处的表面反射率,Ck(λ)是通道k的相机灵敏度函数,在波长λ的光谱上考虑。然后,计算CC的目标变为全局照明颜色ρE的估计,其中:∫并使用浅CNN评估每个解决方案的可能性。我们的网络学习估计给定图像的白平衡正确性的可能与之前的工作相比,我们将相机特定的光源估计从学习任务中分离出来,从而允许训练单个设备不可知的AWB模型,该模型可以有效地利用多设备数据。我们避免了与相机特定训练相关的分布偏移和由此产生的do-main缺口问题[1,41,22],并提出了一个有充分依据的策略来杠杆化多个数据。数据集的原则性组合是ρE=E(λ)Ck(λ)dλk∈ {R,G,B}.(二)Ω基于学习的颜色恒定性的高值给出了单个颜色恒定性数据集的典型小性质(在在方程中求ρE(2)由于存在导致在每个像素X处的相同观测的发光体和表面反射率的无限多个组合,导致不适定问题。A natural and popular solution for learning-based colorconstancy is to frame the problem as a regression task[1、28、25、10、48、34、9]。然而,典型的回归方法提供点估计,并且不提供关于可能的替代解决方案的任何信息。解决方案模糊性存在于许多视觉领域[45,36],并且在存在多模态解决方案的情况下特别成问题特别是对于颜色恒定性,我们注意到,由于问题的不适定性质,多个光源解决方案往往是可能的,具有不同的概率。学习直接估计光源的数据驱动方法会导致学习任务因摄像机灵敏度功能而具有固有的摄像机特定性C.F.当量(二)、这种观察通常表现为传感器域间隙;在单个设备上训练的模型通常对新型相机表现出较差的泛化能力。在这项工作中,我们建议通过多假设估计来解决颜色恒常性问题的模糊性。使用贝叶斯公式,我们离散的光源空间和估计的可能性,每个考虑的光源准确地纠正观察到的图像。我们评估一幅图像在光源校正后的合理性,并在光源空间中收集一组离散的合理解。这种策略可以被解释为框架颜色恒定性作为一个分类问题,类似于最近有前途的工作在这个方向[6,7,38]。离散化策略也被广泛应用于其他计算机视觉领域,例如3D姿态估计[35]和对象检测[42,43],导致例如。最先进的精度改进。更详细地说,我们建议将AWB任务分解为三个子问题:A.选择一组候选人仅数百个图像的数量级)。见图1我们的贡献可概括为:1. 我们将AWB问题分解为一个新的多假设三阶段流水线.2. 我们引入了一种多相机学习策略,允许利用多设备数据集并提高单相机训练的准确性。3. 我们为新相机提供了一个免训练的模型自适应策略。4. 我们报告了两个流行的公共数据集(NUS [14],Cube+[5])的最新性能改进以及Gehler-Shi [47,23]的竞争结果。2. 相关工作经典的颜色恒定性方法利用低级统计来实现灰色世界假设的各种实例:在中性光源下的场景中的平均反射率是消色差的。灰色世界[12]及其扩展[18,50]是基于这些假设,将场景反射率统计(例如,平均值、最大反射率)与场景颜色的消色差之间的关系。相关的假设定义了完美的反射率[32,20],并产生了白色补丁方法。 统计方法是快速的,通常包含很少的自由参数,但它们的性能是高度依赖于强场景内容的假设和这些方法动摇的情况下,这些假设不成立。早期的贝叶斯框架[19]使用贝叶斯规则来计算光源和场景表面的后验分布。 他们模拟了光源并且表面反射率作为线性模型的权重上的截断的多元正态分布。其他贝叶斯作品[44,23],离散光源空间,2272GG图2.方法概述:我们首先使用K -均值聚类[33]生成n个候选发光体的列表(候选发光体被示出在相应的校正图像的左侧)。我们用n个候选者中的每一个独立地校正输入图像,然后用我们的网络估计每个校正图像的似然性。我们使用后验概率分布来组合光源候选者以产生光源估计矩阵。使用角误差损失L通过网络反向传播误差。[r]b]右上角的曲线图示出了候选者Ifbi、最终预测向量Ifbi(蓝色圆圈)和地面实况发光体IfbiGT(绿色圆圈)的后验概率分布(从蓝色到红色编码的三角形)。图像在sRGB颜色空间中渲染通过学习真实世界直方图频率来对表面反射率先验进行建模;在[44]中,先验被建模为光源子集上的均匀分布,而[23]使用训练光源的经验分布。我们的工作使用了贝叶斯公式提出的非线性工程[44,19,23]。我们用CNN估计似然概率分布,CNN还明确学习为每个光源的先验分布建模。完全监督的方法。 早期基于学习的作品[21,53,52]包括组合和直接方法,通常依赖于限制其整体性能的手工制作的图像特征。最近的完全监督卷积颜色恒定性工作提供了最先进的估计精度。已考虑基于局部块的[9,48,10]和完整图像输入[6,34,7,25,28]研究不同的模型架构[9,10,48]以及语义信息的使用[28,34,7]。一些方法将颜色恒定性作为一个分类问题,例如。CCC [6]和后续细化FFCC [7],通过使用识别具有直方图移位的图像重新照明的颜色空间。因此,他们优雅和有效地评估不同的候选光源。我们的方法还离散了光源空间,但我们明确选择了候选光源,允许多相机训练,而FFCC [7]被限制为使用所有直方图箱作为候选和单相机训练。[38]的方法使用K-均值[33]对数据集的illuminants进行聚类,然后应用CNN将问题框定为分类任务;网络输入是单个(预白平衡的)图像,输出结果是K类概率,表示每个发光体(每个类)的前景,解释正确的图像照明。我们的方法首先选择候选光源相似,然而,关键的区别是,我们的模型学习推断图像是否是良好的白平衡或没有。我们问这个问题K次,通过校正图像,独立地,与每个候选光源。这提供了对每个光源的可能性的独立估计,从而使得多设备训练能够改善结果。多设备训练[1]的方法引入了两个CNN方法;第一个网络学习“传感器独立”线性变换(3×3矩阵),RGB图像被变换到这个“标准”颜色空间,然后,第二网络提供预测的发光体。该方法在除测试摄像机外的多个数据集上进行训练,并获得了有竞争力的结果。[37]的工作通过在元学习框架中利用跨不同相机和数据集的注释样本,提供了对先前未见过的相机的快速适应,以及对捕获设备变化的鲁棒性。最近的一种方法[8]假设从网络收集的sRGB图像具有良好的白平衡,2273因此,他们应用简单的去伽马校正来近似逆色调映射,然后用CNN找到非彩色像素来预测发光体。这些网络图像是用未知的摄像头拍摄的,由不同的ISP管道处理,并可能用图像编辑软件进行了修改。尽管有额外的假设,该方法实现了有希望的结果,然而,与监督的最新技术水平不可比较。相比之下,我们提出了一种替代技术,以实现多摄像头训练和减轻良好理解的传感器域差距。我们可以通过使用依赖于相机的光源候选者,使用由不同相机捕获的图像来训练单个CNN。这一财产,作为帐户-P(λ,R)= P(λ)P(R),即表面反射率的知识没有为我们提供关于发光体P(λ)的附加信息|R)= P(λ)。基于这一假设,我们分解这些因素,并分别建模。使用贝叶斯在给定输入图像Y的情况下,P(|Y)= P(Y |P(P)。(四)P(Y)我们对给定光源λ的观测图像Y∫对于依赖于相机的光源,提供快速的模型自适应;如果摄像机照明候选可用,则对于由在训练期间未看到的摄像机捕获的图像,可以实现精确的推断(去除对模型的需要P(Y|)=P( Y | ℓ, R = r) P(R = r)drR= P(R= diag()−1Y)(五)重新训练或微调)。我们分别在第3节和第4节中提供了这些贡献的进一步方法学细节和证据3. 方法设y=(yr,yg,yb)是来自输入图像的像素在线性RGB空间中。我们模拟的全球照明,方程。(2),使用标准线性模型[51],使得每个像素y是表面反射率r=(rr,rg,rb)和由所有像素共享的全局照明体r=(rr,rg,rb)的乘积,使得:yk= rk·kk∈{R,G,B}.(三)给定Y=(y1,. . .,ym),包括m个像素,并且R =(r1,. . .,rm),我们的目标是估计出R,并产生R= diag(R)−1Y。为了估计正确的光源以调整其中R是表面反射率,diag(λ)−1Y是图像与照明校正。术语P(Y|如果R= diag()−1Y,则R = r)为非零。似然率评价校正后的图像是否看起来真实。我们选择使用浅层CNN实例化我们的可能性模型。如果反射率看起来很真实,网络应该学会输出高可能性。我们将每个候选光源的先验概率P(P(n))独立地建模为端到端方法中的可学习参数;这有效地起到了规则化的作用,有利于更可能的真实世界发光体。我们注意到,在实践中,对先验进行建模的函数还取决于诸如环境(室内/室外)、一天中的时间、ISO等因素。 然而,目前可用数据集阻止我们对更复杂的代理进行建模。为了估计光源亮度,我们优化二次成本(最小MSE贝叶斯估计),最小-通过后验分布的平均值来估计:∫输入图像Y,我们建议用具有未知表面重新生成的概率生成模型来框定CC问题。ℓ∗=·P(|Y)d(6)ℓ反射率和发光体。 我们考虑一个集合<$i∈R3,i∈{1,. . .,n}的候选发光体,每个候选发光体应用于Y以生成一组n个暂时校正的图像diag(diagi)-1Y。使用一组校正后的图像作为输入,然后我们训练CNN来识别最可能的光源,使得最终估计的光源是候选的线性组合。在本节中,我们首先介绍我们的一般贝叶斯框架,然后是我们提出的模型主要构建块的实现该方法的概述见图2。3.1. 颜色恒常性的贝叶斯方法根据先前考虑的贝叶斯公式[44,19,23],我们假设光的颜色和表面反射率是独立的。正式这是在以下三个步骤中完成的(c.f.图2):1. 候选人选择(第3.2节):选择一组n个候选光源生成n个校正缩略图(64×64)图像。2. 可能性估计(第3.3节):用CNN独立地评估这n个图像,CNN是一种旨在估计图像良好白平衡P(Y)的可能性的网络|)。3. 光源测定(第3.4节):计算每个候选光源的后验概率并确定最终光源估计概率。这个公式允许估计后验概率分布,允许我们推理一组2274ei可能的照明体而不是产生单个照明点估计(c.f.回归方法)。回归通常不会提供关于一组可能的替代解决方案的反馈,这在替代视觉问题中具有很高的价值[35]。我们的分解提供的第二个好处是原则性的多相机训练过程。单个设备不可知CNN估计光源可能性,并为每个相机执行候选光源的独立选择通过利用跨多个数据集的图像信息,我们提高了模型的鲁棒性。此外,合并小的可用CC数据集提供了一个步骤,利用大容量模型的力量,为这个问题域。当代模特3.2. 候选选择候选选择的目标是离散化特定相机的照明空间,以获得一组代表性的光源(跨越光源空间)。给定从包含校准对象的图像测量的地面实况照明体的集合(即,标记的训练集),我们使用线性RGB空间上的K通过形成我们测量的发光体的n个聚类,我们定义了候选者的集合,i∈R3,i∈ {1,. . .,n}作为聚类中心。K均值光源聚类被预先证明对颜色恒定性是有效的[38],然而,我们还评估了备选候选选择,我们的实验研究证实了一个简单的K-均值方法提供了强大的目标任务性能。此外,K的影响在4.4节中进行了经验评估。然后,由给定相机捕获的图像Y用于产生一组图像,使用发光体可以进行校正。白平衡:log(P(Y |f W(diag()−1Y).(七)函数fW是由模型权重W参数化的训练CNN。当量(7)分别估计每个候选发光体的对数似然。重要的是要注意,我们只训练了一个CNN,用于独立估计每个候选光源的可能性。然而,在实践中,某些候选发光体将比其他候选发光体更常见。[17]我们在《易经》中,有一个经典的说法,就是我们的《易经》。似然对数(P(Y|通过引入可学习的、照明特定的增益G和偏置B参数。增益Glaf-光源可能性的放大偏置项B学习偏好某些发光体,即。贝叶斯意义上的先验分布:B=log(P())。对数后验概率可以表示为:log(P(P|Y))=G·log(P(Y|))+B (八)我们强调学习的仿射变换参数是训练相机依赖的,并在第3.5节中进一步讨论相机不可知因素。3.4.发光体测定我们需要一种可微分的方法来训练我们的模型端到端,因此使用简单的最大后验概率(MAP)推理策略是不可能的。因此,为了估计光源照度,我们使用最小均方误差贝叶斯估计器,其为最小均方误差贝叶斯估计器。由后验均值估计(c.f.当量(6)):Σndidate设置为相机,我们评估每个候选人的准确性。ℓ ∗=ℓi·softmax(log(P(ℓi|(Y))i=1(九)3.3.似然估计我们使用神经元模型对似然估计步骤进行建模,1=log(P(|Y))Σni=1ℓi·e l〇g(P(P)i|Y))。网络,对于给定的光源λ和图像Y,将暂时校正的图像diag(λ)-1Y作为输入,并学习预测可能性P(Y|图像已经很好的白平衡,即看起来像是在非彩色光源下拍摄的照片。基于低容量直方图的方法的成功[6,7]和小数据集的推理训练权衡激发了紧凑的网络设计。我们提出了一个小型CNN,其中一个空间卷积和随后的卷积。层构成1×1卷积与空间池。最后,三个完全连接的层逐渐减少维数为1(参见建筑细节的补充材料)。然后,我们的网络输出是一个单一的值,表示图像是得到的矢量是l2归一化的。我们利用线性RGB空间的K均值质心表示,并在凸包内使用线性插值以确定所估计的场景照度。对于方程(9),我们从[29,38]中得到启发,他们成功地在CC和立体回归中探索了类似的策略,例如,[29]一个类似的软,argmin来估计来自一组候选的视差值我们应用类似的策略进行照明估计,并使用软argmax,它提供了一个线性组合的所有候选人加权的概率。我们使用常用的角度误差损失函数来训练我们的网络端到端,其中,θ和θGT分别是预测光源和真实光源2275关于我们L误差= arccos(πGTπ)(10)3.5. 多设备培训如之前的工作[1,41,22]中所讨论的,由于相机传感器之间的分布偏移,CC模型通常无法使用多个相机数据成功训练,这使得它们本质上依赖于设备并限制了模型容量。一个独立于设备的模型是非常有吸引力的,因为在相机特定的公共颜色恒定性数据集中通常可用的图像数量很少。与收集和标记用于特定新颖设备的新的大数据相关联的成本和时间是昂贵的并且令人望而却步。我们的CNN学会了产生输入图像白平衡良好的可能性。我们认为,以这种方式构建CC问题的一部分会导致设备独立的学习任务。我们评估了这样做第四为了使用多个相机进行训练,我们使用特定于相机的候选对象,但只学习单个模型。具体来说,我们为每个批次使用不同的相机进行训练,使用相机特定的候选人,但在模型训练期间更新一组CNN参数。为了确保我们的CNN是独立于设备的,我们修复了先前可学习的参数,这些参数取决于传感器特定的光源,即。B= 0,G= 1。 以相机依赖的方式学习的这些参数的缺乏直观地限制了模型的灵活性,然而,我们观察到这种缺点通过使用合并的多相机数据集进行训练的能力来补偿,即,更多数据。这种策略允许我们的CNN是相机不可知的,并提供了当来自新相机的数据可用时改进现有CNN质量的选项。然而,我们澄清,我们的白平衡的overarch- ing策略保持使用相机特定的候选光源。4. 结果4.1. 培训详情我们训练我们的模型120个时期,并使用K均值[33],K=120个候选。 我们的批量大小是32,我们使用Adam优化器[30],初始学习率为5×10−3,在10,50和80个epoch后除以2。平均合并后应用50%的脱落率[27]。我们在第一次卷积之前对输入进行对数变换。通过将每个候选校正图像连接到批次维度中,有效的推断是可行的。我们使用PyTorch 1.0 [39]和Nvidia Tesla V100进行实验。第一层是唯一的空间卷积,它改编自[49]并在ImageNet上进行预训练[16]。We fix the weights of thisfirst layer to avoid over-fitting.总重量为22。八千。对于所有实验,在95%的阈值处,对振动对象进行掩蔽、减去黑色电平和剪切过饱和像素我们将图像大小调整为64×64并进行归一化。4.2. 数据集我们使用三个公共数据集进行实验。Gehler-Shi数据集[47,23]包含568张室内和室外场景的图像使用Canon 1D和Canon 5D相机拍摄图像。我们强调了我们对该数据集存在多组不相同的地面实况标签的意识(更多细节请参见[26])。我们的Gehler-Shi评估使用SFU地面实况标签[47]进行(与[26]中的标签命名约定一致)。 NUS数据集[14]最初由8个每个摄像机1210个图像的子集,提供总共1736个图像。Cube+数据集[5]包含1707张用Canon 550 D相机拍摄的图像,包括前domi-nantly户外图像.对于NUS [14]和Gehler-Shi [47,23]数据集,我们使用以前的工作[7,6]中提供的拆分执行三重交叉验证(CV)。Cube+ [5]数据集不提供CV的分割,因此我们使用所有图像进行学习,并使用最近的Cube+ ISPA2019挑战提供的一组相关测试图像进行评估我们比较了挑战排行榜的结果。对于NUS数据集[14],我们还探索了训练多相机模型,从而创建了一组新的CV折叠来促进这一点。我们谨慎地强调,NUS数据集由八个图像子集组成,涉及八个捕获设备。我们的每一个新的折叠捕捉一组不同的场景内容(即。对于每个捕获的场景最多8个相似图像的集合)。这避免了在训练期间看到的类似场景内容上进行测试。我们定义我们的多相机CV,使得多相机折叠i是从所有八个相机捕获的与常见场景有关的图像的连接。我们定义的褶皱在我们的补充材料中可用。4.3. 评估指标我们使用标准的角度误差度量进行定量评估(c.f。当量(10))。我们报告了标准的CC统计数据,以总结调查数据集的结果:平均值、中位数、三均值、最佳25%、最差25%。我们在补充材料中进一步报告了方法推理时间.其他工作的结果取自相应的论文,导致某些方法的统计数据缺失。NUS [14]数据集由8台相机组成,我们报告了所有相机中每种方法的每种统计量的几何平均值,作为文献[7,6,28]中的标准。4.4. 定量评价精确度实验。我们报告了Gehler-Shi [47,23](c.f.表1)。此数据集2276方法是说Med.三最好的25%最差25%[第12话]6.366.286.282.3310.58[第11话]7.555.866.351.4516.12贝叶斯[23]4.823.463.881.2610.49准无监督[8]2.911.98---Afifi等人2019 [1]2.771.93-0.556.53[37]第三十七话2.571.841.940.476.11Cheng等人2015年[15]2.421.651.750.385.872019年[25]2.481.611.800.475.97Oh等人[38个]2.161.471.610.375.12CCC [6]1.951.221.380.354.76DS-Net [48]1.901.121.330.314.84[28]第二十八话1.651.181.270.383.78[28]第二十八话1.771.111.290.344.29FFCC [7](P型)1.610.861.020.234.27我们2.351.431.630.405.80我们的(预训练)2.101.321.530.365.10表1.Gehler-Shi数据集的角度误差统计[47,23]。由于每台相机的图像数量不平衡,因此可以被认为是非常具有挑战性的:有86张佳能1D和482张佳能5D图像。我们的方法无法超越最先进的可能是由于佳能1D的不平衡性质和小尺寸。NUS [14]和Cube+ [5]组合的预训练提供了适度的准确性改进,尽管Gehler-Shi数据集与预训练期间观察到的数据集相比具有显著不同的光源分布我们提供了额外的实验,探索不同的K,K-均值候选选择的补充材料的影响。NUS [14]的结果见表2。我们的方法获得了有竞争力的准确性和先前观察到的趋势,使用额外的数据集(这里是Gehler-Shi [47,23]和Cube+[5])进行预训练,再次改善了结果。在表3中,我们报告了NUS [14]数据集上多器械设置的结果。对于这个实验,我们引入了一组新的训练折叠,以确保场景被很好地分离,并参考第3.5节的多设备训练和第4.2节的相关训练折叠细节。We draw multi-device comparison with FFCC [7], by choosing to centerthe FFCC histogram with the training set (of amalgamatedcamera datasets).请注意,由于我们重新定义了CV折叠,因此结果不能与表2直接比较。当训练同时考虑所有可用的相机时,我们的方法比最先进的方法更准确请注意,多设备训练改善了每个相机数据集的中值角度误差(我们在补充材料中提供了结果)。 整体性能在中位精度方面提高了11%我们在最近的Cube挑战赛中的表现也超过了最先进的水平[31],如表4所示。在Gehler-Shi [47,23]和NUS[14]上进行预训练可以改善我们的平均值和最差95%统计数据。总之,当使用多相机训练时,我们观察到很强的泛化能力(例如,新加坡国立大学[14]C.F. 表2和3)。这些实验表明,表2.NUS的角度误差统计[14]。方法是说Med.三最好的25%最差25%每台设备FFCC [7](modelQ)Ours(pretrained)2.372.351.501.481.691.670.460.475.765.71多设备培训FFCC [7](modelQ)Ours(pretrained)2.592.221.771.331.941.530.520.446.145.49表3. NUS [14]使用多器械交叉验证折叠的角度误差统计(见第4.2节)。FFCC模型Q被认为是公平的比较(缩略图分辨率输入)。方法是说Med.三最好的25%最差25%[第12话]4.443.50-0.779.64[50]第五十话3.512.30-0.568.53V Vuket al. [三十一]6.001.962.250.9918.81Y Qianet al. [三十一]2.211.321.410.435.65K Chenet al. [三十一]1.841.271.320.394.41Y Qianet al. [第四十届]2.271.261.350.396.02Afifi等人2019 [1]2.101.23-0.475.38FFCC [7](J型)2.101.231.340.475.38A Savchiket al. [46个]2.051.201.300.405.24WB-sRGB [3,1]1.831.15-0.354.60我们1.991.061.140.355.35我们的(预训练)1.951.161.250.394.99表4.立方体挑战的角度错误[31]。当照相机的光源分布广泛一致时,利用多照相机训练可获得很大的益处。Gehler-Shi [47,23]相对于替代数据集具有非常不同的光源分布,我们可能无法利用多相机训练的全部优势。 我们注意到FFCC [7]最先进的方法非常浅,因此针对小数据集进行了优化。相比之下,当我们的模型在大型相关数据集上训练时,我们能够获得更好的结果。运行时间。关于运行时间;我们在未优化的PyTorch中实现的推理速度为100毫秒(更多细节请参见补充材料)。方法是说Med.三最好的25%最差25%白补丁[11]9.917.448.781.4421.27[第12话]4.593.463.811.169.85贝叶斯[23]3.502.362.570.788.02Oh等人[38个]2.362.09--4.16准无监督[8]1.971.91---2019年[25]2.251.591.740.505.13[28]第二十八话2.231.571.720.475.15[28]第二十八话2.121.531.670.484.78Afifi等人2019 [1]2.051.50-0.524.48CCC [6]2.381.481.690.455.85Cheng等人2015年[15]2.181.481.640.465.03DS-Net [48]2.211.461.680.486.08[37]第三十七话1.891.341.440.454.28FFCC [7](型号Q)2.061.391.530.394.80FFCC [7](M型)1.991.311.430.354.75我们2.391.611.740.505.67我们的(预训练)2.351.551.730.465.6222774.5. 新型传感器培训为了探索我们模型的相机不可知元素,我们在完整NUS [14]和Gehler-Shi [47,23]数据集的组合上进行训练。如第3.5节所述,唯一剩下的设备相关组件涉及执行每个设备的候选光源选择。一旦模型经过训练,我们从Cube+ [5]中选择候选项,并在Cube挑战数据集[31]上进行测试。我们强调,在模型训练期间,既没有看到Cube+也没有看到Cube挑战图像。为了进行有意义的评估,我们比较了经典和最近的基于学习的[1]相机不可知方法。结果示于表5中。我们获得的结果与表4相当,而没有看到来自目标相机的任何图像,优于基线和[1]。我们澄清,我们的方法使用Cube+ [5]执行候选日期选择,以使候选集适应新设备,而[1]没有看到来自新相机的任何信息。我们提供了额外的实验结果,不同的K值(K-均值候选选择)在柔软的材料。我们观察到K >= 25的稳定性。所需的候选数量较少可能与两个Cube数据集具有合理紧凑的分布有关。4.6. 定性评价我们在图3中提供了Gehler-Shi [47,23]数据集的可视化结果。我们通过增加角度误差对推理结果进行排序,并对5幅图像进行均匀采样。对于每一行,我们示出(a)输入图像(b)我们估计的光源颜色和所得的白平衡图像(c)地面真实光源颜色和所得的白平衡图像。首先对图像进行白平衡,然后应用估计的CCM(颜色校正矩阵),最后进行sRGB伽马校正。在训练和评估过程中,我们屏蔽了Macbeth Color的我们最具挑战性的例子(C.F.)图3的最后一行这突出了与我们的单一全局光源假设相关的限制,这是CC算法的主要部分所我们在补充材料中显示了其他定性方法是说Med.三最好的25%最差25%[第12话]4.443.50-0.779.64[50]第五十话3.512.30-0.568.53Afifi等人2019 [1]2.891.72-0.717.06我们2.071.311.430.415.12表5. Cube挑战的角度误差[31]仅在NUS [14]和Gehler-Shi[47,23]的数据集上训练。对于我们的方法,候选选择是在Cube+ [5]数据集上执行的。5. 结论我们提出了一种新的多假设的颜色恒常性模型,能够有效地学习从图像样本,由多个摄像机捕获我们框架下的贝叶斯公式的问题,并获得数据驱动的似然估计学习分类无色图像。我们强调了由于相机颜色空间差异、光谱敏感性和物理传感器效应而导致的多设备学习的挑战性。我们验证了我们提出的多设备学习解决方案的好处,并在两个流行的颜色恒定性数据集上提供了最先进的结果,同时保持了实时推理约束。我们还提供了证据支持我们的主张,框架的学习问题作为一个分类任务。回归可以导致强性能,而不需要模型重新训练或微调。(a)输入图像(b)我们的预测(c)地面实况错误:0。03°错误:0。65°错误:1. 33°错误:2. 82°错误:14. 62°图3.来自Gehler-Shi [47,23]数据集的示例结果。每行输入,我们的结果和地面实况。要可视化的图像是通过使用递增误差对所有测试图像进行排序并根据该排序均匀地对图像进行采样来选择的图像在sRGB颜色空间中渲染。2278引用[1] 马哈茂德·阿菲菲和迈克尔·布朗。DNN模型的传感器无关在2019年英国机器视觉会议论文集,BMVC 2019,卡迪夫大学,卡迪夫,英国,2019年9月9日至12日,2019年。[2] Mahmoud Afifi和Michael S.布朗还有什么能骗过深度学习?解决深度神经网络性能上的颜色恒定性误差。2019年IEEE计算机视觉国际会议,ICCV 2019,韩国首尔,2019年10月29日至11月1日。[3] 放大图片作者:Mahmoud Afifi,Brian L.Price,ScottCohen,and Michael S.布朗当颜色恒定性出错时:纠正不正确的白平衡图像。 在IEEE计算机视觉和模式识别会议上,CVPR 2019,长滩,加利福尼亚州,美国,2019年6月16日至20日,第1535[4] 亚历山大·安德烈奥普洛斯和约翰·K.佐斯比较兴趣点、显著性和识别算法的实验方法中的传感器偏差。IEEETransactionsonPatternAnalysisandMachineIntelligence,34(1):110-126,2012。[5] 尼古拉·巴尼奇和斯文·隆卡里奇无监督学习的颜色恒常性。第13届计算机视觉、成像和计算机图形理论与应用国际联合会议(VISIGRAPP 2018)- 第4卷:VISAPP,丰沙尔,马德拉,葡萄牙,2018年1月27日至29日,第181-188页[6] 乔纳森·T.巴伦卷积颜色恒定性。在2015年IEEE计算机视觉国际会议,ICCV 2015,智利圣地亚哥,2015年12月7日至13日,第379- 387页[7] 乔纳森·T.巴伦和蔡云达快速傅立叶颜色恒常性。在2017年IEEE计算机视觉和模式识别会议上,CVPR2017,檀香山,HI,美国,2017年7月21日至26日,第6950-6958页[8] 西蒙·比安科和克劳迪奥·库萨诺。准无监督颜色恒常性。在IEEE计算机视觉和模式识别会议上,CVPR2019,长滩,加利福尼亚州,美国,2019年6月16日至20日,第12212-12221页[9] 西蒙·比安科,克劳迪奥·库萨诺,雷蒙多·谢蒂尼。使用cnn的颜色恒定性。在2015年IEEE计算机视觉和模式识别研讨会会议上,CVPR研讨会2015年,美国马萨诸塞州波士顿,2015年6月7日至12日,第81-89页[10] 西蒙·比安科,克劳迪奥·库萨诺,雷蒙多·谢蒂尼。使用卷 积 神 经 网 络 的 单 光 源 和 多 光 源 估 计 。 IEEETransactions on Image Processing,26(9):4347[11] David H Brainard和Brian A Wandell。色觉的视网膜理论分析。JOSA A,3(10):1651-1661,1986.[12] 格申·布克斯鲍姆物体颜色感知的空间处理器模型。富兰克林研究所杂志,310(1):1[13] 作者:Alexandra Carlson,Katherine A.斯金纳和马修·约翰逊·罗伯森。建模相机的影响,以IM-证明了对真实和合成数据的深度洞察力。CoRR,abs/1803.07721,2018。[14] Dongliang Cheng,Dilip K Prasad,and Michael S Brown.色彩恒常性的发光体估计:为什么空间域方法起作用以及色彩分布的作用JOSA A,31(5):1049[15] 作者:Brian L. Price,Scott Cohen,and Michael S.布朗使用简单特征的有效的基于学习的光源估计。在IEEE计算机视觉和模式识别会议,CVPR 2015,美国马萨诸塞州波士顿,2015年6月7-12日,第1000-1008页[16] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Fei-Fei Li. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机协会计算机视觉和模式识别会议(CVPR 2009),2009年6月20- 25日,美国佛罗里达州迈阿密,第248-255页[17] 放大图片作者:Stephen P.博伊德,高登·韦茨斯坦,菲利克斯·海德.脏像素:优化原始传感器数据的图像分类架构。CoRR,abs/1701.06487,2017年。[18] 格雷厄姆·D Finlayson和Elisabetta Trezzi。灰色阴影和颜色恒定性。在The Twelfth Color Imaging Conference:Color Science and Engineering Systems,Technol
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功