基于补丁的加权照明估计：完全卷积网络的改进与效率提升

113 浏览量更新于2023-10-16 收藏 807KB PDF 举报

颜色恒常性

图像处理

身份认证购VIP最低享 7 折!

30元优惠券

4085照明。est. （嘈加权照明est.FC4：具有置信加权池的胡渊明1王宝源2林志颖21清华大学2微软研究yuanmhu@gmail.com，{baoyuanw，stevelin}@microsoft.com摘要颜色恒常性的改进源于卷积神经网络（CNN）的使用。然而，针对这个问题存在的基于补丁的CNN面临着输入输出（已删除色偏）计算颜色恒定性地面实况照明估计估计误差估计模糊性的问题，其中块可能包含不充分的信息来建立照明颜色的唯一或甚至有限的可能范围。具有估计模糊性的图像块不仅在照片中频繁出现为了克服这个问题，我们提出了一个完全卷积网络ar-贴片=模棱两可=照明黄光白光反射率白墙××黄墙示例图像两者都是合理的，但哪一个是正确的呢？在这种架构中，整个图像中的补丁可以为...很多其他的组合根据它们为颜色恒常性估计提供的值来确定不同的置信度权重。这些置信度权重是在一个新的池层中学习和应用的有了这个公式，网络能够自动确定=翔实=白光黄光黄香蕉××白香蕉（不存在）ly从颜色恒定性数据集，而无需额外的监督。所提出的网络还允许端到端训练，并实现更高的效率和准确性。在标准基准测试中，我们的网络优于以前的网络最先进的技术，同时实现120倍的更高效率。输入置信度图鲁棒输出1. 介绍计算颜色恒常性是一个长期存在的问题，其目标是消除图像中的照明偏色。这种形式的颜色校正可以使下游应用受益，例如视觉识别，其中颜色是区分对象的重要特征。尽管对准确的颜色恒定性有各种需求，但由于该任务带来的重大挑战，当前算法仍有很大的改进空间最先进的技术[38，6，7，31，5]已经增强了卷积神经网络（CNN）从大型训练集学习颜色恒定性模型的能力这项工作是胡渊明在微软研究院实习时完成的。图1：问题（上）、挑战（中）和我们的解决方案（下）。一些图像来自颜色检查器数据集[21]。由照片和它们的照明颜色的相关标签组成。这些网络中的许多网络将采样图像块作为输入进行操作，并产生相应的局部估计，随后将其汇集到全局结果中。这种基于补丁的方法的主要挑战是局部估计中通常存在模糊性，如图1（中间）所示。当推断块中的照明颜色或等效地推断局部场景区域内的反射颜色时，通常情况是块包含很少或不包含语义上下文来帮助推断其反射率可能是黄色的白色照明限制可能的反射率较高的照明。est. 信心4086反射或照明。如果在一个补丁中具有-的对象的类别可以是任意反射率的（例如一面粉刷的墙），那么可能存在可以合理地解释图像中补丁的外观的宽范围的照明另一方面，包含具有固有颜色（诸如香蕉）的对象的斑块提供了对于颜色恒定性估计信息更多的线索。在基于补丁的CNN中，这两种类型的补丁被同等对待噪声数据会对基于CNN的估计产生不利影响，如最近关于对象识别[34]和图像分类[41，43]的工作所述。对于颜色恒定性，噪声是一个特别令人担忧的问题，因为模糊的补丁在许多照片中以高频率出现，并且可能会减少更有价值的补丁的影响。为了解决这个问题，我们提出了一个完全卷积- al网络，称为FC4，其中输入图像中的补丁可以在颜色恒定性估计的连续性上有所这是一个很好的公式，它是一个置信度权重，选择用于推断照明颜色的面片的值置信度权重被集成到一个新的池层中，在该池层中，置信度权重被应用于局部块估计，以确定全局颜色恒定性结果。与现有的基于补丁的CNN相比，它顺序地和单独地处理补丁，FC4同时考虑所有图像补丁，这允许在训练过程中比较和学习补丁的有用性。通过这种方式，网络可以从颜色恒定性数据集中学习图像中的哪些局部区域对颜色恒定性有信息，以及如何将它们的信息组合起来以产生最终估计结果。这种具有联合补丁处理和置信度加权池的网络设计不仅在训练和评估阶段区分有用数据和噪声数据，而且还具有其他优势，包括端到端训练，直接处理任意大小的图像以及更快的计算。我们的实验表明，FC4在性能上优于状态-最先进的技术，也不太容易大的估计，信息错误。除了其对颜色恒定性的效用之外，所提出的用于学习和池化置信权重的方案还可以用于其他视觉问题，其中全局估计是从聚合的局部推断确定的。2. 相关工作颜色恒定性用于计算颜色恒定性的方法主要分为两类：基于统计和学习。前者假设自然场景的某些统计特性，例如平均表面反射率为灰色[11]，并求解照明颜色这解释了图像与该属性的偏差。Van De Weijer等人提出了各种基于几何学的方法的统一模型。 [42]。基于学习的技术使用从训练数据学习的模型来这种方法由于其相对于基于统计的方法通常具有更高的准确性而变得普遍。这些技术中的许多采用基于手工特征的模型[12，18，20，35，15]，而最近的作品学习特征使用卷积神经网络[6，31，5，7，38]。在这里，我们将回顾这些后一种作品，这些作品产生了最高的性能，也是最相关的我们。我们建议读者参考[24]和[23]中的调查以了解更多的背景。在基于CNN的方法中，存在对局部补丁作为输入进行操作的方法[38，6，7]，而其他方法直接获取完整图像数据[5，31]。在Bar- ron [5]1的工作中，完整的图像数据是各种色度直方图的形式，为此，卷积滤波器被学习以区别地评估色度平面中可能的照明颜色解决方案。由于空间信息在这些直方图中仅被弱编码，因此语义上下文在很大程度上被忽略。Louet al. [31]而是使用图像本身作为输入。因此，它在全局层面上考虑语义信息，其中语义上有价值的局部区域的重要性难以辨别。学习由于用于颜色恒定性训练的有限数量的全图像而进一步复杂化此外，由于他们的CNN不是完全卷积的，测试图像需要调整大小到预定义的尺寸，这可能会引入图像内容的空间失真。虽然我们的网络也将完整图像作为输入，但它不会受到这些限制，因为它的估计是基于图像内的窗口，并且网络是以完全卷积结构制定的基于补丁的CNN首先由Bianco等人用于颜色恒定性，其中使用传统的卷积网络来提取局部特征，然后将局部特征汇集[6]或传递到支持向量回归器[7]以估计照明颜色。后来，Shi等人。[38]提出了一种更先进的网络来处理估计模糊性，其中，在两分支结构中为每个片生成多个照明假设，并且选择子网络自适应地从假设中选择估计我们的工作还采用了选择机制，但不是选择图像中的哪些补丁用于估计。学习局部区域的语义值使我们的方法对[38]中提到的估计模糊性更具鲁棒性，因为语义模糊的补丁可以被预处理。从照明估计中排出。与基于补丁的CNN相关的是Bianco和Schettini的方法 [8，9]，该方法特别关注面部重建。[1]虽然[5]中的系统只使用了一个卷积层，但我们将其包含在基于CNN的方法的讨论中。4087√ √√基于块基于图像直方图我们[38、6、7][三十一][五]《中国日报》充足的训练数据C×CC语义信息C唯一全球×CEnd-to-end×C×C任意大小的输入C×CC噪声数据掩蔽×--C表1：用于颜色恒定性的不同的基于CNN的方法的特性。颜色恒定性。我们的网络也利用了人脸的优势，但通过学习将它们视为高置信度区域，以一种隐含的方式。表1中总结了不同类型的基于CNN的方法的优点。我们注意到，与[38，6，7]中使用的小补丁相比，我们的网络处理更大的补丁，这些补丁可能具有更多的语义价值，因为它们可以更好地包含对象级别的场景区域。CNN中的噪声数据处理直到最近，噪声数据的问题才在深度学习中得到直接解决关于这个问题的工作集中在识别和分类的标签数据中的噪声[34，41，43]，这可能是由错误标记的图像标签和错误的搜索结果引起的。为了处理这种噪声，已经提出了基于相似图像之间的预测一致性的方法[34]，调整网络输出以匹配标签噪声分布[41]，以及学习概率。相反，使用图像级标签来制定弱监督，其相对于像素标签的潜在分布[32]或简单地多类别标签集[33]来约束像素级损失。相比之下，我们的全卷积网络在通过加权池定义的全局损失函数上强制执行图像级标签。此外，图像级标签不仅用于引导网络产生特定的输出，还用于学习输入图像的哪些部分应用于推断。3. 完全卷积色恒常性给定RGB图像I，我们的目标是估计其全局照明颜色pg=（r，g，b），以便可以通过替换归一化照明颜色pg=pg来从图像中去除其偏色。GT2使用标准光源颜色，通常是纯白色，.ΣT一，一，一。虽然可以有多个发光体3 3 3在一个场景中，我们专注于这项工作的传统问题估计单个全局照明颜色。方法概述我们的方法是找到一个函数fθ，使得fθ（I） =pg尽可能接近真实值在深度学习的背景下，fθ通常表示为表示为由θ参数化的卷积神经网络。我们将颜色表示为标准化的地面真实光照颜色。然后fθ通过最小化损失来学习函数，定义为其估计值pg与地面真实值pg之间的角度误差（以度为单位）：图像、标签和噪声之间关系的TIC模型[43]。与分类和识别的噪声标签不同，颜色恒定性中的噪声是由于斑块-L（p≤g）=180 Arccosπ.Σpg·pg.（一）无法根据其所含信息可靠确定估计的资产我们的网络学习使用颜色恒定性数据集来识别这种噪声，而不需要额外的监督。全卷积结构自从成功用于语义分割[30，36]以来，全卷积网络（FCN）已用于许多需要逐像素输出的任务。在我们的工作中，我们提出了一个完全卷积的结构，不同于传统的如前所述，理想的颜色恒定性函数fθ应该鼓励所有语义信息区域，同时抑制歧义区域的负面影响。因此，我们必须（1）找到一种方法来输出I内每个局部区域的估计值，以及（2）以自适应的方式将这些局部估计值聚合为全局估计值。内尔。假设R ={R1，R2，.， Rn}是I中的重叠局部区域的集合，并且函数g（Ri）输出针对R i的区域光颜色估计。然后，为了使fθ有效地聚集所有的 g（Ri）以生成最终结果，我们定义：上采样以产生逐像素输出被新的池化层所取代，f（I）=p=normalize .ΣΣ c（R）g（R）（二）θg真正的映射到一个单一的输出。以其自信心，池化层，网络能够巧妙地将本地我我i∈R估计成全局估计，并且在训练期间仅向语义上有价值的区域分派监督信号。简而言之，它学习完全卷积网络通常使用像素级注释来训练。为了放松这种对全面监督的需求，最近的语义分割方法已经其中c（Ri）是表示Ri的置信度值的加权函数。直觉上，如果Ri是包含用于照明估计的有用语义上下文的局部区域，则c（Ri）应该很大。在本文中，我们提出了一种端到端的深度学习，可以自然地将g和c嵌入到f中系统，甚至4088图2：AlexNet-FC4的架构。将AlexNet（conv 1-conv 5）替换为SqueezeNet v1.1（conv 1-fire 8加上额外的2×2池），生成SqueezeNet-FC4。尽管我们对G或C都没有明确的监督。网络应该学会融合局部估计的最佳组合，通过自适应地使用每个局部区域的相应g和c，使得模糊补丁的影响将被抑制。为此，我们提出了一种新的架构，基于一个完全卷积网络（FCN）和加权池层，是量身定制的颜色恒定性问题。图2显示了我们网络的架构。3.1. 全卷积体系结构在观察到中级语义信息为照明估计提供了更多线索之后，我们从I中提取中等大小的窗口区域R ={Ri}作为图像的方形子集。对于每个区域，由函数g（Ri）得到的函数表示为pi。不像以前的基于块的方法，如[7]，它在图像上独立地处理每个Ri，而是共同考虑同一图像内的所有局部块，使得可以很好地因此，给定图像，我们希望同时确定局部估计。幸运的是，完全卷积网络可以通过以自然的方式共享所有卷积计算并同时预测所有空间局部估计来实现我们的目标。此外，FCN可以采用任何大小的输入，这避免了采用调整大小的CNN方法可能发生的语义信息失真[31]。我们设计的全卷积网络如图2所示。作为我们提取语义fea的基本模型-对于每个补丁，我们将所有层调整为 AlexNet 的conv5[29]，这些层在ImageNet上进行了预训练[16]。进一步使用相对较大的conv6（6×6×64）和随后的conv7（用于降维的1×1×4）来提取半密集特征图。这些特征图是传递到加权池化层以从局部聚集到全局，以生成如等式11中所述的最终颜色恒定性估计。二、请注意，在半密集特征图中的四个通道中，我们强制前三个通道表示从每个相应的补丁估计的颜色三元组pi=g（Ri），而最后一个通道表示其对最终全局估计的贡献的置信度ci=c（Ri）四个通道通过ReLU层以避免负值，并且最终估计的RGB通道是每个像素的l2归一化我们定义加权估计p iascipi.讨论理论上，无论是浅（即。[38]）或更深的网络（即，VGG-16 [39]或[2]）可以用来取代我们系统中的AlexNet。然而，由于颜色恒定性问题的本质，最佳模型受到至少两个重要属性的约束：（1）网络应该能够提取足够的语义特征来区分用于照明估计的模糊块（例如无纹理的墙壁），以及（2）网络不应该是照明不变的，而是应该对不同的照明颜色敏感。正如我们所看到的，第二个要求违反了在分类任务中训练的网络中嵌入的知识网络与输入图像来自AlexNet的FC4高置信度图像区域半密集特征图conv/ReLU/max池化层conv6、conv7随机初始化conv6：conv7：最大池6 × 6 × 641 × 1 × 4w × × 3恢复图像置信加权池照明颜色 p^g正常化PG求和Wℎ32× 32× 3piWℎ32× 32× 3p^iWℎ32× 32× 1Ci×=4089提取语义信息的能力强的特征通常对变化的照明条件也不敏感，这意味着所提取的特征对照明颜色是不变的。为了在上述两个属性之间找到良好的平衡，我们尝试了不同的网络配置。我们尝试了一个较浅版本的AlexNet，删除了con- v4和/或conv 5，发现性能信心。让我们通过关于局部估计pi和置信度c（Ri）（为简单起见，在下文中表示为ci）对损失函数进行微分来更仔细地加权池定义为Σpg=cipi，（3）i∈R变得更糟，可能是由于语义特征提取能力不足。此外，我们还尝试了其他内核conv6的大小，包括1×1，3×3和10×10，但发现pg=pgGT21=p gΣ2i∈Rcipi。（四）6×6，这是AlexNet af的原始输出大小，根据链式法则，我们得到称为卷积层，导致最好的结果。为了减少模型大小，我们使用SqueezeNet [25] v1.1进行了实验，发现它也会产生良好的结果。L（p∂pˆiCiL（p=·.（五）pg3.2. 置信加权池层如前所述，不同的局部区域可以基于其语义内容在用于照明估计的值上不同。为了区别对待这些补丁，函数c（Ri）被回归以输出相应估计的置信度值。虽然函数c可以是从上面可以看出，在估计值pi中，它们的梯度都有相同的方向，但有不同的方向。与置信度ci成比例的值。因此，对于局部估计，置信度充当监督信号的掩码，这阻止了我们的网络学习噪声数据。同样，对于置信度ci，我们有被建模为单独的完全卷积分支起源，P2L（pP2g）=1·L（pg）·p。（六）从conv 5甚至更低的层，它是更直接的-第一章GT2普雷普岛将其作为第四个渠道，包括每个局部照明估计的三个颜色通道最后的结果只是所有局部估计的加权平均池，如等式n所示3和4请注意，通过设置每个c（Ri）=1，可以将基于补丁的平均池化训练视为我们网络的特殊情况。在我们的网络中，由于FCN架构，卷积运算在同一图像中的补丁之间共享，而对于基于补丁的CNN，每个补丁需要顺序通过同一网络。还存在其它池化方法，诸如全连接池化或最大池化;然而，它们或者缺乏可伸缩性（即，需要特定的输入图像尺寸）或者已经被证明对于颜色恒定性估计不是非常有效。根据[38]，中值池做得更好，因为它可以防止离群值直接对全局估计产生影响，但当估计值的很大一部分是噪声时，它不能完全消除此外，即使我们将其合并到端到端训练管道中，损失每次也只能反向传播到图像中的单个（中值）补丁，忽略补丁之间的成对依赖性关于不同合并方法的比较，请参见表2。数学分析在这里，我们通过更严格的数学分析来说明学习自信的能力来自何处。在反向传播期间，该池化层用作直觉上，只要局部估计有助于全局估计更接近地面真实，网络就会增加相应的置信度。否则，信心就会降低。这正是信心应该如何学习。有关培训周期的详细推导和说明，请参阅补充材料。4. 实验结果4.1. 设置实施和培训我们的网络在TensorFlow中实施[1]。在conv7之后显式输出ci和pi在数学上更清晰，并且在实践中，我们发现直接输出加权估计pi代替，其中ci和pi隐式地是p i的范数和方向，导致类似的精度和更简单的实现。我们通过反向传播来训练我们的网络端到端为了优化，Adam [28]采用了16个批量大小和AlexNet的1×10−4的基本学习率，3×10−4为SqueezeNet。我们将所有的东西都整理好，从预先训练的网络中提取出卷积层。以来颜色恒定性任务与原始图像分类任务完全不同，我们对预训练层使用与最后两层相同的学习率，而不是更小的层，以加快它们对颜色恒定性的适应我们也包括0的dropout [40]概率。5对于conv6，所有层的权重衰减为5×10−5，以帮助防止过度拟合。4090数据扩充和预处理考虑到颜色恒常性数据集的相对较小的大小，我们积极地扩充了数据。为了促进这种增强，我们使用图像的正方形裁剪，这是通过首先随机选择边长为0来获得的。1×101倍于原始图像的短边，然后随机选择广场。作物旋转一个随机角度，-30+30，并且以概率0左右填充。五、当在[37]上训练SqueezeNet-FC 4时，我们通过[0]中的随机RGB值重新缩放图像和地面真值。六，一。4]中。最后，我们将裁剪的大小调整为512px×512px，并将其中的一批输入到网络进行训练。在测试中，图像被下采样到50%，以加快处理速度。由于AlexNet和SqueezeNet是在图像上预训练的geNet[16]，其中图像经过伽马校正以用于显示，我们应用γ=1/2的伽马校正。2在线性RGB图像上，使它们与ImageNet中的图像更相似。数据集两个标准数据集用于基准测试：重新处理的[37]彩色摄像机数据集[21]和NUS 8相机数据集[14]。这些数据集分别包含568和1736张原始图像。在NUS 8相机数据集中，图像被分为8个子集，每个相机约210张图像。因此，尽管图像的总数更大，NUS 8相机数据集上的每个独立实验仅涉及再处理的Color Check-er数据集中图像数量的约1/3对于这两个数据集中的图像，存在Macbeth Color Color Color Color Display（MCC）以获得地面真实光照颜色。MMC的角由数据集提供，并且我们通过将封闭的图像区域设置为RGB=（0，0，0）来掩蔽MCC，用于训练和测试。对这些区域未进行其他特殊处理。这两个数据集都包含不同方向的照片，而Color Doppler Dataset包含来自两个相机的不同大小的照片我们的全卷积网络自然地处理这些任意大小的输入。根据以前的工作，三重交叉验证用于两个数据集。以角度误差为单位报告了几个标准度量：所有误差的平均值、中位数、三均值、最低25%误差的平均值和平均值。最高的25%的错误。对于再处理颜色在数据集中，我们还报告了第95百分位误差。对于NUS数据集，我们还报告了几何平均值（G.M.表5）的其他五个指标。4.2. 内部比较我们比较FC4与采用池层和网络输入的其他组合的变体。对准确度和速度的评估是在经重新处理的彩色多普勒数据集上进行的，结果如表3所示。FC层平均中值加权端到端培训无参数输入噪声数据屏蔽***************我的天*表2：不同合并方法的比较。更多的星星代表更强的属性。池化层为了检验置信加权池化带来的改进，我们通过实验将其与以下替代方案进行了比较：• 全连接（FC）层，将最后一个卷积层的特征图作为输入，并输出RGB值。这与传统的C语言非常相似。不完全卷积的NN。请注意，FC层的一个缺点是其固定的输入大小，这需要重新缩放或修剪图像。由于其可学习的参数，FC层引入了额外的网络复杂性，这可能会使过拟合恶化，特别是在小数据集上。• 平均池化，等同于等权重池化，其中所有区域（无论颜色恒定性的估计值如何）均被相同对待我们注意到，中值池也是一种流行的替代方法，已在以前的技术中使用[38，7]。然而，由于它的梯度通常不被认为是可计算的，端到端的训练不容易执行，所以我们从这个实验中省略了它。尽管如此，中位汇总以及其他汇总方案仍包含在表2的汇总比较中。网络输入我们还比较了我们使用的任意大小的图像（没有图像的完整图像）和其他类型的网络输入：• 贴片，其通常用于先前的方法[38，6，7]。在这里，我们从图像中提取大小为512px×512px的随机块。贴片覆盖率和效率之间存在权衡。与更多贴片的覆盖率更高，因此准确性更好，但效率更低请注意，需要额外的• 带有缩放的完整图像，其中缩放比例和宽高比都经过调整以适应特定的输入大小。调整大小可能会扭曲语义信息。我们测试了池层和网络输入的所有组合。结果列于表3中。2本工作中的所有实验均在NVIDIA GTX TITAN X（Maxwell）GPU上完成。4091是说1.65Ground Truth（右半）输入图像置信度估计图加权估计图像×置信度估计（左半部分）和图3：我们网络的输出示例请注意，在语义值很小的区域中的噪声估计被置信图掩盖，从而导致更鲁棒的估计。角度误差为0。54，4。63，1. 78和4。分别为76方法Med. 三最好百分之二十五最糟糕百分之二十五百分之九十五定量白补丁[10]7.555.686.351.4516.12-基于边的色域[3]6.525.045.431.9013.58-[第11话]6.366.286.282.3310.58 11.3[42]第四十二话5.334.524.731.8610.03 11.0[42]第四十二话5.134.444.622.119.26-[19]第十九话4.934.014.231.1410.20 11.9贝叶斯[21]4.823.463.881.2610.49-[4]第四话4.663.483.811.0010.09-基于相交的色域[3]4.202.392.930.5110.70-基于像素的色域[3]4.202.332.910.5010.72 14.1自然图像统计[22]4.193.133.451.009.2211.7[27]第二十七话3.982.61----空间光谱（GenPrior）[3]3.592.963.100.957.61-Cheng等人2014年[14]3.522.142.470.508.74-[17]第十七届中国国际汽车工业展览会3.502.60---8.60基于实例的[26]3.102.30----修正矩（19色）*[17]2.962.152.370.646.698.23[17]第十七届中国国际汽车工业展览会2.802.00---6.90修正力矩（19边）*[17]3.122.382.590.906.467.80回归树[15]2.421.651.750.385.87-美国有线电视新闻网[7]2.361.98----CCC（dist+ext）[5]1.951.221.38零点三五4.765.85DS-Net（HypNet+SelNet）[38]1.901.12 1.330.314.84AlexNet-FC41.771.11 一点二九0.344.295.44北京赛车pk10开奖结果表3：我们的方法在重新处理的Color Rectangle数据集上的变体的准确度和推理速度2AlexNet和SqueezeNet分别用“A”和“S”表示对于基于补丁的推理加权池，我们显示了不同数量的补丁，表示为xp的结果。当有八个或更多的补丁，我们比较平均和中位数池的本地估计。表4：重新处理的Color Doppler数据集的结果对于每个指标，前三个结果会突出显示，背景颜色会逐渐变暗，以获得更好的结果。对于文献中未报告的计量值，其条目留空。从[ 5 ]中获得了带摆角的校正矩[ 17 ]结果。方法是说Med.三最好百分之二十五最糟糕百分之二十五95岁便士Eval.时间A，FC，8 p，平均1.971.251.410.374.846.110.053A，FC，8 p，Med.2.011.251.410.374.966.180.054A，FC，调整大小1.911.271.400.354.625.670.010A，平均，8 p，平均。1.941.231.390.404.675.880.052A，平均，8分，中等。1.971.291.430.394.745.990.052A，平均值，调整大小1.961.351.470.384.665.730.010A，平均水平，原创1.911.341.440.424.445.970.025A，加权，1 p1.941.281.400.374.686.080.008A，加权，2 p，平均。1.891.201.330.364.645.570.014A，加权，4 p，平均值。1.921.161.320.374.796.340.026A，加权，8 p，平均。1.831.151.320.344.435.800.052A，加权，8 p，中值。1.881.171.330.364.595.640.052A，加权，16 p，平均。1.851.171.330.354.515.920.102A，加权，16 p，中值。1.861.201.320.354.485.520.105A，加权，32 p，平均值。1.831.181.320.354.465.660.204A，加权，32 p，中值。1.851.171.320.344.485.550.2044092讨论结果表明，加权池和使用原始图像作为网络在4093方法平均Med. 三最好百分之二十五最差GM百分之二十五这是因为自动掩蔽了来自语义模糊区域的估计。通过仅组合高置信度（因此方差较低）的局部估计，全局估计的稳定性更高。SqueezeNet-FC42.231.571.720.475.15一点七一表5：NUS 8相机数据集的结果。背景色和背景色的使用方法与表4.放。给定相同类型的输入，启用加权池比FC和平均池有明显的改进。提取更多的补丁被发现在一定程度上减少错误，但增加的评估时间，大大超过使用原始或调整大小的图像。补丁估计的平均值和中值池之间的差异是微妙的。调整大小的输入图像允许一遍推理，但它们的图像失真可能会限制准确性。简而言之，以原始图像作为输入的加权池化同时带来了最高的准确性和效率4.3. 外部比较在这两个数据集上，我们将FC4与以前的最先进方法进行了比较。结果列于表4和表5中。图3中给出了测试输出的一些可视化，补充材料中包含更多内容。在NUS数据集上，我们通过在八个图像子集上取其几何平均值来对每个性能指标进行基准测试，就像以前的工作一样对于大多数指标，FC4的表现优于以前的最先进水平，e.G. [15][16][17][18][19]在重新处理的 Color Data Set上，边缘通常更大，可能是因为我们的网络比CCC和DS-Net更深，因此从更大的数据中受益更多。收集更大的数据集将进一步利用学习能力。稳健性性能指标反映的另一个事实是FC4比以前的方法更稳健S.在这两个数据集上，在最差情况指标（最差-25%和95%）上都获得了显著改善，例如-效率由于颜色恒定性可用作许多其他计算机视觉算法的预处理，以及计算资源有限的移动设备上的白平衡，因此使该过程快速非常重要。t.我们的方法被发现比以前的最先进的方法快两个数量级[38]。一个unoptimized GPU版本的算法需要0。025秒/图像，而[38]为3秒。这种效率可以归因于我们的网络最大化GPU吞吐量的优化实现将进一步提高效率。置信度图不仅屏蔽了噪声补丁，还使网络学习更容易理解。具体来说，我们发现面部、纹理丰富的表面、明亮的斑块、镜面反射和具有有限范围的固有颜色（特别是无色的）的物体通常会导致高置信度。与识别高置信度区域同样重要的是排除低置信度区域，例如纯色斑块，这将导致噪声估计。图2和图3中展示了几个典型的置信度图，补充文档中提供了更多的可视化。学习到的置信度图的平均值可以作为FC 4的更高的置信度与更低的平均误差相关，置信度值不仅在单个图像中有意义，而且在不同图像中也有意义，如补充文档图所示10. 当置信度较低时，使用更稳健（但不一定准确）的方法作为故障安全措施将是未来研究的兴趣所在。5. 结论在本文中，我们提出了区分语义有价值和语义模糊的局部区域的照明颜色估计的概念。基于这个想法，我们开发了一种新的CNN结构，用于颜色恒定性，它可以学习图像块之间的这种区别，以及如何使用这些信息进行训练和推理。我们相信，这种网络架构对于估计质量受局部上下文影响的其他应用（例如基于块的图像分类）可能是有用的。使我们的网络适应这些问题是未来工作的潜在方向。白补丁[10]10.62 10.58 10.4919.45 8.43基于边的色域[3]8.437.057.372.4116.08 7.01基于像素的色域[3]7.706.716.902.5114.05 6.60基于相交的色域[3]7.205.966.282.2013.61 6.05[第11话]4.143.203.390.909.003.25贝叶斯[21]3.672.732.910.828.212.88自然图像统计[22]3.712.602.840.798.472.83[19]第十九话3.402.572.730.777.412.67空间光谱（ML）[13]3.112.492.600.826.592.55[4]第四话3.212.382.530.717.102.49[42]第四十二话3.202.262.440.757.272.49[27]第二十七话3.172.412.550.697.022.48[42]第四十二话3.202.222.430.727.362.46空间光谱（GenPrior）[3]2.962.332.470.806.182.43修正力矩 *（19边）[17]3.032.112.250.687.082.34[17]第17届中国国际汽车工业展览会3.051.902.130.657.412.26Cheng等人[14个]2.922.042.240.626.612.23CCC（dist+ext）[5]2.38一点四八1.690.455.851.74回归树[15]2.36 1.591.740.495.541.78DS-Net（HypNet+SelNet）[38]2.24一点四六1.680.486.081.744094引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.ChenC.，马缨丹属C-硝基，G。S. Corrado，A. Davis，J.Dean ， M. Devin ， S. 盖 - 马瓦特岛。 Goodfellow ，A.Harp，G.Irving，M.Isard，Y.贾，R. 约瑟夫奥维奇湖Kaiser，M.Kudlur，J.L evenber g，D.妈妈，R. Monga、S.穆尔，D.默里角奥拉山舒斯特J. Shlens ， B. 施泰纳岛 Sutskever ， K. Talwar ， P.Tucker，V.Vanhouc k e，V.Vasud ev an ，F.Vie'gas，O.Vinyals，P. 等等，M。Wattenberg，M.Wicke，Y.Yu和X.郑张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensor flow.org获得。5[2] A.阿莱米改进张量流中的初始和图像分类。https://research.googleblog.com/2016/08/improving-inception-and-image.HTML. 4[3] K.巴纳德色域映射颜色恒定性算法的改进。欧洲计算机视觉会议，第390-403页。Springer，2000年。七、八[4] K. 巴纳德湖Martin，A.Coath和B.方特计算颜色恒常性算法的比较二. 图像数据的实验。IEEE Transactions onImage Processing，11（9）：985-996，2002年。七、八[5] J. T. 巴伦卷积颜色恒定性。国际计算机视觉，第379-387页，2015年一、二、三、七、八[6] S.比安科角Cusano和R. Schettini颜色恒常性使用cnn。在计算机视觉和模式识别工作室，第81-89页一、二、三、六[7] S.比安科角Cusano和R. Schettini使用卷积神经网络的单个和多个光源估计。ArXiv电子印刷品，1508.00998，2015年。一二三四六七[8] S. Bianco和R. Schettini 使用面孔的颜色恒定性。在计算机视觉和模式识别，第65IEEE，2012。2[9] S. Bianco和R. Schettini使用面孔的自适应颜色恒定性。IEEE Transactions on Pattern Analysis and MachineIntelligence，36（8）：1505-1518，2014。2[10] D. H. Brainard和B. A. Wandell色觉的视网膜理论分析。JOSA A，3（10）：1651-1661，1986. 七、八[11] G.布克斯鲍姆物体颜色感知的空间处理器模型。富兰克林研究所杂志，310（1）：1-26，1980。二七八[12] V. C.卡尔代湾Funt和K.巴纳德用神经网络估计场景照明色度。JOSA A，19（12）：2374-2386，2002. 2[13] A. 查克拉巴蒂湾Hirakawa和T.齐克勒具有空间-光谱统计的颜色 IEEE Transactions on Pattern Analysis andMachine Intelligence，34（8）：1509-1519，2012. 七、八[14] D. Cheng，D.K. Prasad和M.S. 布朗颜色恒定性的照明估计：空间域方法工作的原因和颜色分布的作用。JOSAA，31（5）：1049- 1058，2014. 六七八[15] D.程湾，澳-地Price，S. Cohen和M. S.布朗使用简单特征的有效的基于学习的光源估计。在计算机视觉和模式识别，第1000- 1008页，2015年。二七八[16] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，第248IEEE，2009年。四、六[17] G. D. Finlayson校正矩照明估计。国际计算机视觉会议，第1904-1911页，2013年七、八[18] G. D. Finlayson，S. D. Hordley，和P. M. Hubel 颜色相关性：一个简单的，统一的框架，颜色恒定。IEEETransactionsonPatternAnalysisandMachineIntelligence，23（11）：1209-1221，2001。2[19] G. D. Finlayson和E.特雷齐灰色阴影和颜色恒定性。在Color and Imaging Conference，卷2004，第37-41页中影像科学与技术学会，2004年。七、八[20] B. Funt和W.雄基于支持向量回归的照明色度估计在Color and Imaging Conference，2004卷，第47-52页中影像科学与技术学会，2004年。2[21] P. V. Gehler，C. Rother，A. Blake，T. Minka和T.点整打贝叶斯颜色恒常性的重新审视。在计算机视觉和模式识别中，第1-8页。IEEE，2008年。一、六、七、八[22] A. Gijsenij和T. Gevers基于自然图像统计和场景语义的颜色恒常性。IEEE Transactions on Pattern Analysis andMachine Intell

下载后可阅读完整内容，剩余1页未读，立即下载