准无监督颜色恒常性的方法在计算机视觉中的应用

13 浏览量更新于2023-10-17 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1准无监督颜色恒常性米兰比科卡大学simone. unimib.it帕维亚克劳迪奥·库萨诺大学claudio. unipv.it摘要我们在这里提出了一种用于计算颜色恒定性的方法，其中训练深度卷积神经网络以在彩色图像中检测已转换为灰度的非彩色像素。该方法不需要任何关于场景中的光源的信息，并且依赖于弱假设，该弱假设由网络上几乎所有可用的图像实现，即训练图像已经近似平衡。由于这一要求，我们将我们的方法定义为准无监督的。在训练之后，由于神经网络的输入的灰度的初步转换，不平衡的图像可以被处理。广泛的实验结果表明，所提出的方法能够优于其他无监督的方法在现有技术的状态，在同一时间，足够灵活的监督微调，以达到与最好的监督方法的性能相当1. 介绍计算颜色恒常性是一个长期存在的问题，它包括校正图像，使它们看起来像是在中性光源下拍摄的。计算颜色恒定性可以有益于许多计算机视觉问题的解决方案，例如视觉识别[14]，监视[22]等，其中颜色是用于区分对象的重要特征。尽管其明显的简单性，这个问题是非常具有挑战性的人类和计算机视觉系统[25，20]。在过去的十年里，我们在解决许多计算机视觉问题的能力方面有了显着的提高。这背后的主要因素是深度学习算法的发展，这些算法可以遵循非常有效的数据驱动方法[35]。因此，已经进行了几次尝试来利用这种机器学习范例来计算颜色恒定性，这并不令人惊讶[7，37，28，38]。然而，在我们看来，这些方法只是部分利用了深度学习的潜力。将深度学习方法应用于颜色恒常性的主要困难在于缺乏用地面真实发光体注释的大型数据集。事实上，用于此目的的数据集通常通过拍摄场景的照片来获得，其中已知色度特性的标准对象（例如，颜色目标）。这种方法对于收集监督式深度学习所需的大型数据集基于机器学习的颜色恒定性方法的另一个问题是，学习的模型通常专用于用用于收集训练集的相同设备获取的图像将其应用于使用其他设备拍摄的图像需要某种形式的适应或再训练[2]。我们在这里提出了一种基于深度卷积神经网络1的计算颜色恒定性的方法。该方法利用公开可用图像的大数据集在准无监督设置中训练网络。不需要关于光源颜色的基本事实。相反，该方法利用训练图像已经手动或通过未指定的自动处理流水线近似平衡的假设。由于这个假设（正如我们将看到的，在实践中很容易实现），我们将我们的方法定义为更详细地，训练神经网络以检测非彩色像素。为此，仅考虑输入图像的灰度版本这样，输出是独立于光源的实际颜色，因此，网络可以在以后应用于平衡和不平衡的图像。检测到的像素的加权平均是最终用于校正输入彩色图像的发光体的估计我们通过在三个通常用于图像识别和检索的大型数据集上训练几个神经网络来验证该方法的可行性。对两个原始图像的注释数据集的评估表明，即使没有来自这些数据集的图像用于训练，也可以获得非常准确的结果所提出的方法的新颖设计确定了重新1源代码和训练模型可用在电子邮件地址：claudio-unipv.github.io/quasi-unsupervised-cc/1221212213与现有技术中的竞争方法相比，具有显著的优点：（i）该方法利用了复杂的神经网络结构，而不需要大的注释图像训练集;（i i）经训练的模型可以应用于用任何照相机获取的不平衡图像，而不需要任何种类的自适应。尽管设置的复杂性，在估计的发光体的准确性相比，有利的文献中报道的那些。特别地，所提出的方法能够优于现有技术中的其他无监督方法。此外，它还可选地支持对特定数据集的监督微调，这使得它可以达到与最佳监督方法相当的性能。2. 相关工作现有的计算颜色恒常性方法通常分为两类：基于统计的和基于学习的。前一类方法对自然场景的统计特性进行假设，并将光源的颜色估计为与这些假设的偏差[46]。后一类方法使用从训练数据中学习的模型来估计光源的颜色。绝大多数最近的方法是基于学习的，因为这种方法允许达到一个普遍更高的准确性相对于基于统计的方法。这些方法中的许多方法都采用了从输入图像中提取的手工特征训练的模型，例如[18，11，21，41，16]，而最近的作品通过使用深度卷积神经网络来学习特征，例如。[7，37，8，44，28]。应用上述深度学习方法的主要困难在于缺乏用地面实况发光体标注的大规模数据集。作为参考，可用于颜色恒定性的最大数据集比其他计算机视觉任务（如视觉类别识别）的数据集小三个数量级[42]。然而，当在交叉数据集设置中使用时，这样的方法往往会降低其性能，需要微调阶段以适应新的数据集。这些原因激发了对新算法的研究，这些新算法不需要具有注释的发光体地面实况的数据集，我们称之为无监督方法，并且产生与现有技术中基于学习的方法相当的结果。为此，我们提出了一种可供选择的颜色恒常性算法分类，分为三个不同的类别：参数的方法，包括依赖于要调整的非常小的参数集的方法，例如[4，19，46];监督，包括需要适当培训阶段的方法，例如[23，12，6];无监督，包括不需要注释数据集的方法，并且可以很容易地应用于新数据集而无需任何形式的适应，例如[34，9]。在下文中，我们回顾这些后者的作品，这是最相关的本文的目的我们请读者调查[26，25]的额外背景。有趣的是，在现有技术中已经提出的第一颜色恒定性算法是无监督算法。例如，白点（或MaxRGB）[34]算法假定从三个颜色通道中的每一个独立获得的最大值表示照明的颜色。灰色世界[9]基于这样的假设，即图像中的平均颜色是灰色，并且光源颜色可以被估计为图像颜色通道中的平均值从灰色的偏移。最近Buzzelli et al.[10]提出了一种深度学习方法，该方法不使用光源注释进行训练，但其目的是提高辅助任务（如对象识别）的性能。因此，该方法学习在没有任何照明地面实况数据的情况下预测发光体颜色，但是它需要用于辅助任务的标签信息。Banic和Loncaric [3]提出了一种称为绿色稳定性假设的启发式方法，该方法可用于通过仅使用原始图像而不使用已知的地面实况照明来微调基于统计的方法的参数值。在[2]中，提出了一种基于无监督学习的方法，该方法在近似训练图像的未知地面实况照明因此，[2]和[3]不需要光源地面实况信息可用，但需要原始训练数据集。Qian等人也需要相同的数据。[40]提出了一种统计颜色恒定性方法，该方法依赖于新颖的灰度像素检测，然后是均值漂移聚类。3. 方法计算颜色恒常性通常分两步来处理：首先估计光源的颜色，然后使用估计值来校正输入图像。在这项工作中，我们提出了一种基于卷积神经网络训练的大型图片数据集的照明估计方法该方法是“准无监督”的，因为其训练过程不依赖于场景中光源的实际颜色的知识。相反，该方法是基于这样的假设，即训练图像在发布之前已经由它们的所有者进行了适当的平衡。因此，我们预计在大多数情况下，光源的颜色看起来接近灰色。我们将该方法定义为在训练之后，为了能够将结果模型应用于不平衡的原始图像，需要解决两个主要问题：（i）这些图像相对于用于训练的图像将是不同种类的，以及（ii）实际的地面实况将可用于评估，12214R gBR gB消色差损失输入图像x均衡灰度权重w照明估计I图1.所提出方法的示意图输入图像x首先被转换为灰度，然后被馈送到卷积神经网络。然后，光源的颜色被估计为输入RGB像素的总和，由网络的输出W加权。在训练过程中，估计用消色差损失函数进行评估。但不是为了训练我们解决了第一个问题，通过将图像转换为灰度，然后将它们传递到网络，使它们几乎独立于场景光源的颜色通过训练网络解决可以被认为是光源估计的代理的问题来解决缺乏地面实况的问题：消色差像素的检测。图1中给出了该方法的概述，在以下章节中解释了细节。一旦已经计算了发光体的颜色的估计，就可以使用该估计来校正输入图像。为此，我们应用von Kries模型[47]，该模型包括通过估计的相应分量缩放像素的颜色分量3.1. 光源估测许多光源估计方法都是基于光源的颜色直接影响图像像素的颜色这一简单事实。这些方法期望通过平均所有或一些像素，场景中相应的反射率抵消，从而留下光源的颜色。这种策略的例子是灰色世界算法（对整个图像取平均值）、白色补丁算法（对一组最亮的像素取平均值）和白点算法（只取亮度最高的像素）。在这里，我们建议训练一个卷积神经网络来选择应该使用哪些像素来估计光源的颜色。更准确地说，估计将是输入像素的加权和，其中权重是网络的输出。对于 H×W 输入 RGB 图像 x（ xij∈R3 ），网络产生权重映射 w （ wij∈[0 ，1]），其用于计算场景照明体I，如下：当从网络或计算机视觉社区使用的数据集获取公共图像时，根据平衡假设，我们希望网络产生非彩色估计。然后，可以将所估计的颜色与灰色轴的发散度用作训练网络的损失函数我们称之为损失消色差损失LA（I），我们根据网络估计I=（Ir，Ig，Ib）T和灰度轴之间的角度的余弦来I+I+ILA（I）= 1 − 。、（二）+3（I2+I2+I2）其中，π=10−4是一个用于稳定比率的小数值。可以很容易地证明损失是非负的，并且只有当IrIgIb时它才接近于零。关键思想是，通过最小化LA（I），网络将学习为可能的像素分配高权重，是无色的。当然，如果网络能够看到输入的RGB图像，那么这个任务将是微不足道的。为了迫使网络学习更精细的策略，我们给它提供了图像的灰度版本。事实上，已经表明可以训练网络来从灰度图像（即，进行自动着色[49]）。在这里，通过消色差损失，我们隐式地训练它来识别灰色像素。这种方法的优点是，即使在平衡假设不成立的情况下，网络学习的内容也可以用于估计光源特别是它是可能的，将其应用到不平衡的图像，形成的数据集通常用于评估颜色恒常性算法。对于这些图像，我们期望网络选择与光源颜色相同的像素，ΣH ΣW xijwij因为它们是场景中哑光灰色物体的一部分，反射光源的高光等。换句话说，I=i=1j=1，（1）Z其中Z是归一化向量以使其具有单位欧几里德范数的因子。利用基本上独立于发光体颜色的信息，我们期望网络将学会对平衡和不平衡图像做出准确的估计Σ·12215R GBR GB然而，为了使这成为可能，必须注意使网络对于用于训练的公共平衡图像和用于评估的不平衡图像同样良好地工作事实上，这两种图像通常具有非常不同的动态范围，可能具有或不具有剪切值等。此外，公共图像可能在sRGB颜色空间中，而测试图像在采集设备的原始格式中。为了使它们的灰度版本具有可比性，我们将它们计算为RGB颜色通道的平均值（对于更复杂的转换，尽可能少地假设），并且我们应用直方图均衡化。均衡自适应地扭曲灰度级，减少使用不同设备拍摄的图像之间的差异，或由不同管道处理。此外，在转换为灰度训练更准确地说，对于每个颜色通道，我们通过应用Sobel算子[45]计算然后，将这两个导数归一化以形成单位长度向量。这个过程产生一个六通道图像（两个导数乘以三个通道），可以用作神经网络的输入。3.3.监督微调尽管这项工作的主要焦点是准无监督设置，但也可以使该方法适应监督学习。为了这样做，用色损耗LC替换（2）中的消色差损耗就足够了，根据估计光源I和目标光源I之间的角度的余弦定义，I=（Ir，Ig，Ib）：假设在sRGB颜色空间中的图像，通过伽马去除进行初步处理，以使其像素值相对于能量呈LC（I，I）=1−联系我们Ir·Ir+Ig·Ig+Ib·Ib..（五）（I2+I2+I2）（I2+I2+I2）c′=.c/12。92，如果c≤ 0。04045二、第四条（3）款（（c +0. 055）/1。055）否则，深度学习模型的监督训练需要一个用合适的基础事实注释的大型数据集。由于这是很难实现的，我们建议遵循微调其中c和c'表示变换前后的三个颜色通道之一[29]。最小化LA（I）的困难在于，由于（1）中的正规化，估计I在w的标度下是不变的。这种不变性的一个结果是，不鼓励网络使用整个[0，1]范围的w，因为它可以为像素分配微小的权重，而不会改变最终的估计。这对优化算法的稳定性产生负面影响。为了推动网络使用更大的权重，我们引入了一个额外的噪声项在等式（1）中，n∈R3n +β-羟甲基纤维素ΣWXWI=i=1j=1中国（4）Z其中，n的三个分量呈正态分布，均值为零，方差为σ2方差越大，网络分配的平均权重就越大，以使噪声的贡献可以忽略不计。噪声项也充当正则化器，仅在训练期间使用。3.2.扩展和变化所提出的方法是相当灵活的，并且可以很容易地适应多种变化。特别地，灰度图像可以由其他信息代替或与其他信息组合我们实验了从每个颜色通道上计算的空间梯度中获得的信息。由于梯度的大小与光源的颜色密切相关，我们只考虑方向。程序[36]。在这种情况下，网络的参数通过大数据集上的准无监督学习来初始化然后，训练过程继续以较小的学习率在较小的注释数据集上进行监督学习3.4. 神经网络架构这项工作中使用的神经网络架构是Isola等人提出的架构的改编。[30]用于图像到图像的翻译。我们选择从该架构中获得灵感，因为它被证明适合图像着色，这是一项与非彩色像素检测有关的任务。该网络以256 ×256灰度图像（可能用梯度信息增强）作为输入，并产生256×256权重图作为输出。这些层形成具有跳跃连接的U形编码器/解码器。有八个卷积，其内核大小为4×4，步幅为2，它们与八个反卷积（转置卷积）配对具有相同的内核大小和步幅。所有这些操作（除了第一个和最后一个）之后是批量归一化和其他非线性（斜率为0的泄漏ReLU）。2用于卷积，常规ReLU用于去卷积）。对于最后一次去卷积，ReLU被sigmoid替换，该sigmoid产生与输入像素相同的权重。在训练期间，前三个解卷积块包括概率为0的丢弃。五、整个网络包括大约5400万个可学习的参数。初步测试表明，简化架构会略微降低最终精度。12216输入输出Flickr照片共享服务，搜索146个最受欢迎的标签。已收集的数据集，以评估图像检索算法。C64 l D1 σ C512 bl D512 br⊕⊕C128BL D64br C512BL D512bdr⊕⊕C256BL D128br C512BL D512bdr⊕⊕C512BL D256br C512BL D512bdr图2.神经网络的结构。在图中，Ck表示具有k个输出通道的卷积。类似地，Dk表示反卷积（转置卷积）。所有卷积和反卷积的核大小都是4×4，步长为2。的其它操作表示为：l→泄漏ReLU，r→ ReLU，b→批量归一化，d→丢弃，σ →乙状结肠，乙状结肠→沿着通道串联同一组中的操作是从左到右执行。4. 实验通过运行Adam优化算法的300000次迭代来训练神经网络[33]。目标函数是消色差损失，如等式（4）中所定义，噪声项的标准偏差设置为100. 每次迭代分析一小批16张图像;学习率为10−4，权重衰减系数为10−5。所有的参数都是在一些初步实验的基础上根据经验设定的。对于深度学习应用，训练数据的质量在这项工作中，我们决定采用三个大的数据集广泛用于训练图像识别和检索系统。Ilsvrc12是互联网大规模视觉识别挑战赛公开提供的数据集[42]，它可能代表了图像识别的最流行基准。该数据集由大约120万个样本组成，这些样本来自为ImageNet计划收集的1000个不同类别[17]。第二个数据集是Places365[50]，其中包括约180万张图像，代表365种不同的场景类别。图像是通过查询几个搜索引擎从WordNet的条款，然后手动注释。该数据集的主要目的是作为场景识别系统的基准。的最后数据集我们认为是 Flickr100k数据集[39]。它由100 071幅图像组成，我们选择了三个不同的数据集，目的是评估训练图像的性质对学习模型的质量有多大影响。Ilsvrc12和Places365包含来自搜索引擎的图像，而Flickr100k包含来自单一来源的图像。Ilsvrc12包括许多“以对象为中心”的图像，很少或没有背景，而Places365专注于整个场景。平均而言，来自Flickr100k的图像似乎比其他两个数据集的图像质量更高。图3报告了来自经过训练的网络处理的三个数据集的一些图像示例（图像来自Ilsvrc12和Places365的验证集以及Flickr100k的训练集）。在选择用于估计发光体的像素时遵循的策略可以通过查看权重来推断。网络通常选择光源，如灯、天空或太阳。在室内场景中，通常选择窗户，光线来自外部。该网络在识别高光和直接从光源漫射光的表面方面似乎这是很常见的情况下，其中暗区被选中：这是由于它们对等式（1）中的和的影响有限。图3还显示，并非所有图像都是均衡的。其中一些呈现出强烈的非中性偏色，这在日落和夜间图像以及一些室内图像中非常明显。然而，由该方法提供的照明估计似乎与图像的内容一致。尽管由于缺乏基本事实，我们无法定量评估估计值，但我们可以观察到根据估计值平衡的图像这表明网络通过对大量“几乎平衡”的图像进行建模，学会了如何平衡离群值4.1. 评价所提出的方法的目的是要达到一个高精度的估计不平衡的图片中的光源的颜色。为了评估这一点，我们处理了两个不同的原始图像数据集，通常用于评估颜色恒定性算法。这两个数据集都包含高分辨率的照片，代表包括颜色校准目标（麦克白色彩）的场景。对于每个图像，通过分析彩色目标中的灰色斑块计算了地面真实光源第一个测试数据集是颜色检查器（CC），由Shi和Funt重新处理[23，43]。它由568张用佳能1D和佳能1D拍摄的图像组成。5D相机第二个数据集是由新加坡国立大学（NUS）的一个研究小组[15]，包括1853张用9种不同的方法获得的图像，122170.42.712.50.40.10.40.45.113.2Ilsvrc12 Ilsvrc12 Ilsvrc12 Places365 Places365 Flickr 100kFlickr100k图3.来自训练集的图像示例，由训练后的网络处理顶行示出了输入图像，每个图像都叠加有表示光源的估计颜色的圆圈。圆内报告了估计值与灰色轴之间的角度差（以度为单位）。第二行报告网络分配给像素的权重（蓝色→0，黄色→1）。第三行报告与估计的光源平衡的图像。三个摄像头。正如Hordley和Finlayson所建议的，我们考虑的误差度量是估计光源和地面真实光源之间的角度[27]。我们通过将训练模型应用于两个测试数据集获得的结果总结在表1中。平均和中位数的角度误差是相当均匀的三个训练集的差异约为0。2度或更低。这一点非常重要，因为它表明用于培训的照片类型并不重要。这也表明，我们的方法依赖于假设（即训练图像已经被平衡），这在实践中很容易满足。对于训练和测试数据集的每一种组合，我们评估了三种不同的变体，这些变体在网络处理的数据类型上有所不同。第一个处理均衡的灰度图像，第二个分析梯度方向，第三个基于两者的组合在所有情况下，单独或组合使用梯度方向，允许获得比仅使用灰度图像更好的结果。对于CC数据集，通过使用灰度和方向在Ilsvrc12上训练的模型获得了最低的中值角度误差。对于NUS，在中值角度误差方面的最佳组合是使用仅使用梯度方向在Flickr 100k对于其余的实验，我们认为在具有灰度和方向的Ilsvrc12上训练的版本作为参考图4显示了处理来自测试集的一些图像的结果。可以注意到，即使在不平衡图像的情况下，网络也会选择有意义的区域，例如代表光源或高光的区域。与训练图像不同，这次选择的相反，他们似乎是在...训练集测试集输入是说中值MaxIlsvrc12CC灰度4.042.6727.88CC方向3.672.5317.62CC两3.462.2321.17Places365CC灰度4.012.6027.72CC方向3.432.3818.31CC两3.602.4521.47Flickr100kCC灰度4.092.6727.09CC方向3.702.4820.86CC两3.592.2520.04Ilsvrc12NUS灰度3.142.2422.39NUS方向2.972.1515.89NUS两3.002.2719.16Places365NUS灰度3.242.3222.66NUS方向2.912.2416.05NUS两3.072.2017.12Flickr100kNUS灰度3.272.3821.28NUS方向2.952.1216.40NUS两2.982.1615.86表1.通过CC和NUS数据集上所提出的方法的变化获得的角度误差（以度为单位）的统计已在具有不同输入的三个数据集上执行训练：均衡灰度、梯度方向以及它们的组合。使用地面实况照明体的颜色显示。结果，根据估计值平衡的图像看起来就好像它们是在中性光源下拍摄的。4.2. 微调当一个带注释的训练集可用时，可以通过微调其参数来提高神经网络的性能。这是通过继续火车来完成的-122185.20.210.45.32.72.83.90.90.6CC CC CC NUS NUS NUS NUS NUS图4.由在ILSVRC 12（灰度版本）上训练的网络处理的测试图像的示例。从上到下，各行显示输入图像、分配给像素的权重以及根据光源估计值平衡的图像输入图像上的圆圈颜色圆圈中的数字是以度表示的角度误差。出于可视化目的，输入和平衡图像已进行伽马校正。数据集平均值中位数最大值CC 2.91（-0.55）1.98（-0.25）19.9（-1.2）新加坡国立大学1.97（-1.03）1.41（-0.86）20.5（+1.6）表2.通过在Ilsvrc12上训练并在两个测试数据集上进行微调括号中的值报告了相对于在准无监督设置中获得的值的差异。以一种有监督的方式使用一个小的学习率。在这里，我们执行了250000次额外的迭代，学习率为10−7，并且没有等式（4）中的噪声项。我们对Color和NUS数据集重复了这个实验在这两种情况下，我们用三重交叉验证评估了最终的性能。表2报告了我们通过微调在Ilsvrc12上训练的神经网络处理灰度图像和梯度方向的组合而获得的结果（为了简洁起见，我们省略了其他变体获得的性能）。对于两个测试数据集，平均值和中位角误差都有所下降。在NUS数据集的情况下，改进特别明显，平均误差的差异超过一个程度。4.3. 与最新技术水平的比较表3报告了现有技术中几种方法的角度误差统计。这些值取自文献或通过执行公开可用的实现获得。方法分为无监督方法、参数方法和有监督方法.这三个类别进一步分为：“在数据集中”，这意味着该方法是在同一个数据集上通过交叉验证进行训练/调整的。颜色恒常性数据集，在其上进行测试;“交叉数据集”，意味着该方法在一个颜色恒定数据集上训练/调整，并在不同的数据集上测试;“无数据集”，意味着该方法没有在任何颜色恒定性数据集上训练/调整。从表3和图5中报告的结果可以注意到，所提出的方法能够优于所有纯无监督算法（即，在CC和NUS数据集上，中值角度误差分别减少了37.9%和9.6%，同时在所有不同的相机上显示出更稳定的性能。在跨数据集环境中，该方法能够优于所有的监督方法。关于参数化方法，我们的方法优于所有的误差统计，除了NUS上的中位数误差有趣的是，在这种情况下，参数在完全监督的设置中，所提出的方法的微调版本能够优于所有参数方法，并与监督方法竞争，获得NUS上最好的平均误差和第二好的中值。5. 结论我们在这里提出了一种用于计算颜色恒定性的方法，该方法利用深度卷积神经网络，并通过准无监督学习过程利用大型未注释数据集。我们训练了该方法的几个变体，这些变体在处理的信息类型和训练数据集中有所不同。实验结果表明，该方法能够取得较好的效果1221920mm 20mm 20mm图5.在CC、NUS和单个NUS相机上，对所提出的方法的中值误差（有和没有微调）进行视觉总结。并与三组算法进行了比较。从左至右：无监督（no-db）、参数化（cross-db）和监督（cross-db）。对于每组，绘制最佳和最差中位误差、四分位距、中位数和平均值。方法颜色检查器是说 Med.Max是说NUSMed.MaxNUS中位数，逐台摄像机C1C600福吉N52奥利锅Sam.儿子N40[19]第19话：一个人，一个人。4.052.5421.873.312.5821.012.372.572.382.542.512.512.512.542.46[3]第四节：与GSA [44.052.5821.153.452.6822.482.452.612.612.592.712.772.632.552.66无监督（in-db）[46 ]第46话：一个人4.033.0818.893.182.4824.162.262.722.332.702.722.622.332.362.36[46]第二次世界大战[3]4.133.3417.783.412.5231.212.272.592.392.662.712.612.632.452.37Banic和Loncaric [2]2.961.701.791.661.721.701.711.631.611.60WP [34]5.973.7445.003.572.4926.872.282.242.742.482.072.622.612.443.67[9]第九章4.763.5924.924.173.1722.343.843.133.293.392.633.072.982.943.50无监督（无数据库）Buzzelli等人（gl. 标准）[10]4.844.1220.804.884.1718.704.124.003.434.193.833.874.374.345.37Buzzelli等人（第标准）[10]5.484.8119.884.323.3722.363.183.153.063.083.063.263.773.024.76提出3.462.2321.173.002.2519.162.272.092.242.212.361.982.012.272.97SoG [19]3.852.4320.893.422.4526.272.282.242.692.362.172.422.532.393.71gGW [4]4.122.5222.513.372.4923.732.432.352.502.292.502.392.612.583.69第一届[46]4.062.6723.053.182.1821.812.372.002.062.231.982.022.132.342.70参数（单位：dB）第二届[46]4.182.6824.053.192.1824.292.291.862.132.161.942.012.072.312.72英国石油公司[32]3.982.612.482.452.482.672.302.182.152.492.623.13Cheng等人[第十五条]3.522.1428.353.022.1223.282.011.892.152.081.872.022.032.332.72灰色像素（边缘）[48]4.603.103.152.20SoG [19]6.083.8537.243.442.5918.402.732.432.702.582.472.412.412.682.94gGW [4]4.662.8431.593.532.7119.872.712.532.812.672.622.562.482.753.14参数（跨数据库）第一届[46]4.062.6723.053.182.1821.812.372.002.062.231.982.022.132.342.70第二届[46]4.262.8223.453.532.6223.002.922.622.582.622.632.332.342.663.20Qian等人[第四十届]3.652.3826.123.162.1521.932.222.071.912.182.062.112.142.143.05贝叶斯[23]4.703.442.812.802.353.203.102.812.413.002.363.53空间-光谱（ML）[3]3.552.932.542.802.322.702.432.242.282.512.702.99空间光谱（GP）[13]3.472.902.392.672.032.452.262.212.222.292.582.89自然图像统计[24]4.093.132.693.042.462.952.402.172.282.772.883.51基于实例的[31]2.892.27[12]第十二话2.891.89[12]第十二届中国国际汽车工业展览会2.561.67Cheng等人[16个]2.421.651.581.571.621.581.651.411.611.781.48监督（in-db）彩色狗[1]1.491.761.721.851.811.941.461.691.891.77Bianco等人[八]《中国日报》2.361.4416.981.771.711.851.751.881.651.591.881.632.00FFCC [6]1.780.9616.251.991.3419.801.341.331.351.451.161.281.471.351.36[38]第三十八话2.161.472.412.152.181.752.752.002.221.531.653.112.68CCC（dist+ext）[5]1.951.222.381.48美国（公告牌成人另类歌曲榜）[28]1.771.112.121.53DS-Net（HypNet+SelNet）[44]1.901.122.241.46建议+微调2.911.9819.91.971.4120.501.591.261.341.521.351.291.301.521.84贝叶斯[23]4.753.113.653.08基于实例的[31]6.505.10监督（跨数据库）[12]第十二话3.873.253.492.872.393.033.723.074.302.003.153.92[12]第十二届中国国际汽车工业展览会3.893.103.522.712.182.423.013.173.292.333.134.32Cheng等人[16个]5.524.524.864.40FFCC [6]3.913.153.192.33表3.在CC和NUS数据集的角度误差方面与最先进技术的性能比较现有技术中的其他无监督方法同时足够灵活，可以在特定数据集上进行监督微调，达到与顶级监督方法相当的性能。在这项工作中，我们专注于准无监督设置。在未来，我们计划更彻底地探索监督微调步骤，可能通过试验更复杂的技术取自文献上的迁移学习和领域适应。确认我们非常感谢NVIDIA公司捐赠用于本研究的TitanXp GPU。12220引用[1] 尼古拉·巴尼奇和斯文·隆卡里奇颜色狗引导全局照明估计，以更好的精度。在计算机视觉理论和应用上，第129-135页，2015年。8[2] Ni kolaBan ic´andS v enLon cˇ ari c´. 无监督学习的颜色恒常性。arXiv预印本arXiv：1712.00436，2017。一、二、八[3] NikolaBanic'andSvenLoncaric'.Greenstabilityappropriation ： Unsupervised learning forappropriatics based illumination estimation.arXiv 预印本arXiv：1802.00776，2018。二、八[4] Kobus Barnard，Vlad Cardei，and Brian Funt.计算颜色恒常性算法的比较。ii：图像数据实验。IEEE图像处理学报，11（9）：985-994，2002年。二、八[5] 乔纳森· 巴伦。卷积颜色恒定性。IEEEInternationalConference on Computer Vision，第 379- 387 页，2015年。8[6] Jonathan T Barron和Yun-Ta Tsai。快速傅立叶颜色恒常性。2017年在IEEE计算机视觉和模式识别会议上发表二、八[7] 西蒙·比安科，克劳迪奥·库萨诺，雷蒙多·谢蒂尼。使用cnn的颜色恒定性。在IEEE计算机视觉和模式识别研讨会上，第81一、二[8] 西蒙·比安科，克劳迪奥·库萨诺，雷蒙多·谢蒂尼。使用卷积神经网络的单光源和多光源估计。 IEEETransactions on Image Processing ， 26 （ 9 ）： 4347-4362，2017。二、八[9] 格申·布克斯鲍姆物体颜色感知的空间处理器模型。富兰克林研究所杂志，310（1）：1-26，1980。二、八[10] 马可·布泽利，约斯特·范·德·魏杰，雷蒙多·舍特蒂尼.从物体识别中学习光源估计 arXiv 预印本 arXiv ：1805.09264，2018。二、八[11] Vlad C Cardei，Brian Funt，and Kobus Barnard.用神经网络估计场景照明色度。Journal of the Optical Society ofAmerica A，19（12）：2374-2386，2002. 2[12] 艾扬·查克拉巴蒂通过学习从亮度预测色度的颜色恒定性。神经信息处理系统的进展，第163-171页，2015年。二、八[13] Ayan Chakrabarti，Keigo Hirakawa，和Todd Zickler.空间光谱统计的颜色恒常性。 IEEE Transactions onPattern Analysis and Machine Intelligence，34（8 ）：1509- 1519，2012。8[14] 陈玉秀，赵廷轩，白胜义，林彦良，陈文钦，徐文辉。社交媒体照片的过滤器不变图像分类。在ACM国际多媒体会议上，第855-858页，2015年。1[15] Dongliang Cheng，Dilip K Prasad，and Michael S Brown.色彩恒常性的发光体估计：为什么空间域方法起作用以及色彩分布的作用。Journal of the Optical Society ofAmerica A，31（5）：1049五、八[16] Dongliang Cheng ， Brian Price ， Scott Cohen ， andMichael S Brown. 使用简单特征的有效的基于学习的光源估计在IEEE计算机视觉和模式识别会议上，第1000-1008页，2015年。二、八[17] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在 IEEE Conference on Computer Vision andPattern Recognition，第248-255页，2009年。5[18] Graham D Finlayson ， Steven D Hordley ， and Paul MHubel.颜色相关性：一个简单的，统一的框架颜色恒定性。IEEE模式分析与机器智能学报，23（11）：1209-1221，2001. 2[19] Graham D Finlayson和Elisabetta Trezzi。灰色阴影和颜色恒定性。在Color and Imaging Conference，卷2004，第37影像科学与技术学会，2004年二、八[20] 大卫 ·H· 福斯特颜色恒定性。 Vision research ， 51（7）：674-700，2011. 1[21] Brian Funt和Weihua Xiong。通过支持向量回归估计光照色度在Color and Imaging Conference，卷2004，第47影像科学与技术学会，2004年2[22] Hiren Galiyawala ， Kenil Shah ， Vandit Gajjar ， andMehul S Raval.基于身高、肤色和性别的监控视频人物检索。arXiv

下载后可阅读完整内容，剩余1页未读，立即下载