灰度像素的新寻找方法

148 浏览量更新于2023-10-17 收藏 977KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8062关于寻找灰度像素YanlinQian1，3，Joni-KristianKa？ma？ ra？ inen1，JarnoNikkanen2，JiriMatas1，31计算科学，坦佩雷大学2英特尔芬兰3布拉格捷克技术大学机器感知中心摘要本文提出了一种新的灰度指数来寻找灰度像素，并证明了它在照度估计中的有效性和效率。灰度指数，简称GI，是使用二色反射模型导出的，并且是免学习的。GI允许估计颜色偏置图像中的一个或多个照明源在标准的单照明和多照明估计基准上，GI优于最先进的统计方法和许多最近的深度方法。GI简单快速，写-几十行代码中的10行，在1080p中处理1080p图像。4秒，使用非优化的Matlab代码。1. 介绍人眼具有适应成像条件和场景照明变化的能力。色彩恒常性的计算机视觉问题，简称CC，正试图赋予消费者数码相机同样的能力。有了然而，给定颜色偏置的图像，检测灰色像素，即，像素观察一个消色差的表面，是一个困难和不适定的问题-想象一张白纸照明的青色光源;还是白光下的青色纸张？另一方面，图像中的“完美”灰色像素指示满足颜色恒定性。因此，从这一点开始，我们将寻找灰色像素和颜色恒定性视为等价问题（也见图1）。①的人。颜色恒常性问题在计算机视觉和图像处理的许多应用中都存在，如计算摄影、本征图像分解、语义分割、场景绘制、目标跟踪等。[18 ]第10段。几十年来，免学习方法（颜色恒定性的经典方法）依赖于照明颜色在整个场景中恒定的假设，因此可以通过全局处理进行估计[6，2，38，17，19，41，12]。这种方法具有独立于采集设备的优点，因为图1：灰色和非灰色图像像素（左）。灰度指数（GI）图（中间，蓝色表示高灰度值）.从GI图估计的全局（右上）和空间变化照明颜色（右）。在每个图像的基础上估计照明特性最近，最先进的基于学习的方法，包括卷积神经网络（CNN），在特定数据集上验证时，表现明显优于统计方法[9，25，22，24，29]。我们认为，基于学习的方法依赖于假设的统计分布的照明和/或场景内容是相似的训练和测试图像。换句话说，基于学习的方法假设给定图像的成像和照明条件可以从先前的训练示例中推断出来，因此变得严重依赖于训练数据[21]。在本文中，我们专注于无学习方法。对于实际示例，考虑当用户从web检索线性RGB（伽马校正）图像并且想要校正其颜色时的情况。在这种情况下，其中所使用的CC方法从未见过来自该相机的图像我们的实验表明，在这种情况下，无学习方法显示出更有前途的和强大的结果相比，基于学习的方法。因此，非常需要对参数（例如，所捕获图像的摄像机和成像过程）不敏感的在大多数相机传感器中，在标准中性照明下，灰度像素在线性RGB图像中呈现为灰度，使得灰度成为估计颜色8063SS我入射照明。我们采用Shafer吸引人的要点是：（一）GI计算简单、快速;（ii）具有明确的物理意义;（iii）它可以在一定程度上处理镜面高光（从定性比较）;（iv）其允许像素级照明估计;（v）其提供跨不同相机的一致预测。在单照明和多照明颜色恒常数据集上的综合结果表明，GI优于最先进的免学习方法，并在跨数据集设置中达到最先进的水平。2. 相关工作考虑我使用线性数码相机传感器捕获的图像，经过黑电平校正，没有饱和度。在二色反射模型中，在一个全局照明源下的（x，y）处的像素值可以被建模为[33]：∫基于学习的方法[9、25、22、24、29、31、32]目的从大量的训练数据中建立将捕获的图像I与所寻求的照明L相关联的模型在性能最好的最先进的方法中，CCC方法[3]在2D对数色度空间中有区别地学习卷积滤波器。该框架随后使用色度环上的快速傅立叶变换来加速[4]。Chakrabarti等人 [8]通过学习条件色度分布来利用归一化亮度进行照明预测。DS-Net [35]和FC4 Net[28]是两种深度学习方法，其中前者使用双分支CNN架构从多个照明猜测中选择估计基于学习的方法在相当准确地预测预先记录的“地面实况”照明颜色方面取得了很大的成功 3、第二。 4.2）。修正矩法[14]也可以被认为是一种基于学习的方法，它需要为每个数据集训练校正矩阵。I（x，y）=γ（x，y）Fi（λ）L（λ）R（x，y）（λ）dλIb∫+γ（x，y）BFi（λ）L（λ）R（x，y）（λ）dλ，（1）免学习方法通过对照明和反射率的局部或全局规则性进行先验假设来估计照明。最简单的这样其中I（x，y）是（x，y）处的像素值，L（λ）是全局光谱分布，Fi（λ）是传感器灵敏度，i={R，G，B}用于三色照相机，λ为波长。色项Rb（λ）和Rs（λ）说明了体和表面反射，分别，而消色差项γb和γs是上述两种类型反射的强度。此外，在窄光谱响应Fi（λ）的假设下，等式（1）被简化为：1进一步简化为[3]：I（x，y）=W（x，y）<$L+V（x，y）<$L，（2）其中，λ表示阿达玛积，W（x，y）= [γ（x，y）R（x，y），γ（x，y）R（x，y），γ（x，y）R（x，y）]T，方法是灰色世界[7]，它假设反射率的全局平均值是消色差的。通过将其限制为局部补丁和高阶梯度来推广这种假设，已经导致了更强大的基于几何学的方法，例如白色补丁[6]，一般灰色世界[2]，灰色边缘[38]，灰色阴影[17]和LSRS [19]，其中[12]。基于物理的方法[37，15，16]，通过理解图像形成的物理过程（例如，双色模型），从而能够对高光和相互反射进行建模。大多数基于物理学的方法基于多条二色线的交叉来估计照明，使得它们在玩具图像和仅具有几个表面的图像上工作良好，但在自然图像上经常失败[16]。最新的基于物理的b b，Rbb，Gbb、B方法依赖于最长的二色性线段，V（x，y） = [γ（x，y）R（x，y），γ（x，y）R（x，y），γ（x，y）R（x，y）]T，假设Phong反射模型成立，ss，Rss，Gss，BL= [FR LR，FG LG，FB LB]T，（3）其中，{R，G，B}下标表示与Fi相交的谱的相应部分。当量2示出- 在照相机捕获的全局光L下，在图像I中形成像素值，所述像素值对应于呈现身体W和表面反射V的场景中的位置。CC的目标是估计L以便恢复W，给定I.基于解决该问题的策略，我们将颜色恒常性方法分为两类：以学习为基础，自由学习的方法。8064光的存在[39]。虽然我们的方法是基于二色模型，我们将我们的方法归类为统计方法，因为该方法的核心是根据一些观察到的图像统计信息找到灰度像素我们建议读者参考[26]以了解有关基于物理的方法的更多细节。最接近GI的方法是Xiong等人 [40]和Yang等人 [41]的灰色像素。Xiong等人 [40]的方法基于特殊的LIS空间搜索灰色表面，但它依赖于相机。灰色像素[41]最接近我们的工作，因此在第二节中详细介绍。3 .第三章。8065Rγ+ γR3. 灰度指数我们首先在二色反射模型（DRM）的背景下回顾先前的灰色像素[413.1. 灰色像素在[41]Yang等人 [41]声称可以通过一组约束来寻找灰色像素。然而，它们的公式通常识别灰色像素，这些灰色像素显然是彩色像素。这一现象已被注意到，但没有得到适当的分析。在这里，我们分析了GP使用DRM，并指出了潜在的故障情况下，原来的配方。假设窄带传感器，等式1简化为：I（x，y）=γ（x，y）FiLiR（x，y）+γ（x，y）FiLiR（x，y），(a)（b）（c）（d）（e）（f）图2：查找灰色像素。(a)输入图像。(b)计算灰度指数GI。较深的蓝色表示较高的灰度。(c)使用（a）中的相应像素颜色（绿色）渲染的N%最灰色像素。(d)估计照明颜色。（e）地面实况颜色。（f）使用（d）校正的图像。哪里|我|表示亮度幅度（IR+IG+IB）。我bb，我ss，ii∈{R，G，B}.（四）在这种情况下，中性界面反射（NIR）假设确定，对于灰色像素，然后，接着是Yang等人。[41]中，我们应用l〇g（·）和局部最小化算子C{·}（高斯的拉普拉斯算子，参见Sec.4Rj，R=Rj，G=Rj，B=在这种情况下，Eq。7简化为：其中j∈{s，b}[3 0]。在了解更多详情），并获得C{log（I（x，y））}=C{log（ Fi Li R（x，y））}C{1o g（1 R）−1o g（|我|）}=C{lo g（FRLR）+lo g（γbR<$b+γsR<$s）}−C{lo g（（FRLR+FGLG+FBLB）（γbR<$b+γcR<$s））}。（八）我b，我..（x，y）+C日志（x，y）（x，y）Rs，ibs（x，y）b我.（五）在一个小的局部邻域中，投射照明并且传感器响应可以被假定为常数[41]，使得C{log（FR LR）}= 0并且C{log（（FR LR+FG L G+ F G LG）}= 0，如果γs=0（意味着没有表面反射），我们得到：FB LB）}=0，导致： .γR<$+γR<$C{log（ I（x，y））}= C{log（ γ（x，y） R（x，y））}。（六）C{log（I）−lo g（|我|）}=C日志Bbc的灰色（九）我b b，我RγR<$+γR<$=0。BBC S如果γs/= 0，由于γb和γsRs之间的相互作用，b我由方程式 5、那些彩色像素可能会被错误地识别为灰色像素。GP的核心是，当γs=0时，均匀灰色表面上的非均匀强度投射可以在每个通道中引起相同量的“对比度”。光的强度变化可能是由于表面和照明之间的几何形状（阴影）以及不同表面之间的几何形状（遮挡）造成的为了解决这一问题，我们采用了二色反射模型，探索了在更复杂的环境中识别灰度像素的另一条途径。3.2. 基于二色反射模型的灰度指数为了简单起见，在后续中我们将去掉上标（x，y），因为所有操作都应用于以（x，y）为中心的局部邻域。我们首先在对数空间中计算红色通道和亮度的残差，然后将局部对比度算子C{·}应用于等式5如：C {1o g（1 R）−1o g（|我|）}=C {log（FRLR）+log（γbRb，R+γsRs，R）}−C {log（FR LR（γb Rb，R+γs Rs，R）+FG LG（γb Rb，G+γs Rs，G）+FB LB（γb Rb，B+γs Rs，B））}，（7）8066当量（9）是灰度像素的必要但不是充分条件。一个更严格的要求检测灰像素给出了扩展方程。9到多一个颜色通道（使用冗余的所有通道，R和B的光谱响应在传感器中很少重叠）为：C{1o g（1 R）−1o g（|我|（1）A（1）A（2）B（3）|我|）}=0. （十）从等式（7）定义了灰度指数w.r.t.I（x，y）如：（1）（2）（1）（|我|）}，C{10 g（IB）−10 g（|我|（11）其中，·是指2范数。GI越小，对应的像素越可能是灰色的。此外，我们对局部对比度施加限制，以确保C{Ii}>R，G，B}，（12）其中，λ是小的对比度阈值。计算GI的过程分为两个步骤：8067MˆT1. 使用等式计算初步GI图。11个国家。2. 丢弃GI中没有空间线索的像素，使用等式12个。为了削弱主要由摄像机噪声引起的孤立灰度像素的影响，在7×7窗口中对GI图进行平均为了说明，图图2示出了计算GI及其预测照明的流程图。建议GI不同于GP在两个重要方面。首先，它利用一种新的机制来检测灰度像素的基础上，一个更完整的图像形成模型，导致不同的配方。其次，建议的GI工程没有选择性地增强亮和暗像素，根据他们的亮度。换句话说，所提出的GI不会削弱暗像素的影响。3.3. GI在颜色恒常性中的应用色彩恒常性是灰色像素的直接应用-埃尔斯在此，我们描述了从灰色像素计算照明颜色的两个流水线：单照明和多照明管道。当场景仅包含一个全局照明时，管道是直接的。如图2，在根据GI对所有图像像素进行排序后，将全局照明计算为前N %像素的平均值。给定由多个光源投射的场景，期望的输出是逐像素照明图。与[41]类似，首先计算GI图，然后将前N%像素的K均值聚类为预设数量的M个聚类。现在，在聚类的基础上应用平均，给出聚类m的照明矢量Lm。最终的空间照明图使用以下公式计算：ΣMLi（x，y）= ωmLi，i∈{R，G，B}（13）m=1其中ωm控制像素I（x，y）到集群m，写为：ΣM数据集• Gehler-Shi数据集[34，22]：单照明，568高动态线性图像，2个摄像头1.• NUS 8相机数据集[12]：单照明，1，736个高动态线性图像，8个相机（相机列表见表2• MIMO数据集[5]：多照明，78个线性图像，58个实验室图像和20个较硬的野生图像。单照明实验设置• 在Eq. 11是大小为5个像素的高斯滤波器的拉普拉斯算子。• 用于颜色估计的最佳灰度像素的比例被设置为N= 0。百分之一。• 对比度阈值设置为1e=1e−4这些参数是根据初始网格选择的搜索（见第4.3节），并在两个数据集的所有实验中保持固定。多照明实验设置• 局部对比度算子和对比度阈值与单光源实验中的相同。• 所选像素的比例被设置为N= 10。0%的百分比因为涉及更多的发光体。• 测试的聚类数M为2、4和6。基于学习的方法的数据集偏差当使用来自被划分为训练集和测试集的单个数据的图像进行训练时，最先进的基于学习的方法（例如，[4]）以明显的优势胜过最好的免学习方法。然而，重要的是要知道这些值是如何产生偏差的，因为训练集和测试集中的图像通常共享相同的相机和相同的场景。可能发生的是，基于学习的方法过度拟合在真实情况下不可用的相机为了研究数据集偏差，我们评估了交叉数据集中几种最好的基于学习的方法ωm=eDM2σ2/en=1Dn2σ2，（14）ting，其中方法在一个数据集上训练（例如，”又云：“一人一物，一人一物。这使得evalu-评估基于学习的算法的性能，其中Dm是从像素到像素的欧几里得距离。簇M的质心。当量14鼓励附近的像素共享类似的照明。4. 评价我们在两种颜色恒定性设置中评估GI：（1）单照明估计，其中整个捕获场景的照明由红色、绿色和蓝色通道的单个色度向量描述;以及（2）多照明估计，其中在每个场景中存在两个或更多个有效照明体。此外，我们在跨数据集环境中进行了实验，这对基于学习的方法非常有挑战性。看过镜头和场景性能指标作为标准工具，在色彩恒常性文件，我们采用了角误差arccos（LL）ǁL ǁǁL ǁ在估计的照度L和地面实况L之间的关系作为性能度量。所得结果总结见表1，并在第4.1节和第4.2节中进行了讨论。4.1. 单一数据集设置单数据集设置是相关作品中最常见的设置，允许使用k倍进行广泛的预训练1相机：Canon 1D，Canon 5D−−8068表1：CC方法的定量评价。所有值都对应于角度误差（以度为单位）。我们按以下顺序报告相关工作的结果：1）引用的论文，2）Barron等人的表[1]和表[2]。[4，3]被认为是最新和全面的，3）颜色恒定性基准测试网站[23]。我们在未报告的结果上留下了破折号。在(a) 比我们的方法更差的基于学习的方法的结果用灰色标记。训练时间和测试时间以秒为单位报告，如果在原始论文中报告，则平均每个图像。(a) 单数据集设置格勒施平均中值三平均最好的25%最差25%是说中值NUS 8摄像头Trimean最好的25%最差25%基于学习的方法（相机已知设置）[25]第二十五话6.525.045.431.9013.584.403.303.450.999.83基于像素的色域[25]4.202.332.910.5010.725.274.264.451.2811.16贝叶斯[22]4.823.463.881.2610.493.502.362.570.788.02自然图像统计[24]4.193.133.451.009.223.452.882.950.837.18空间光谱（GenPrior）[9]3.592.963.100.957.613.062.582.740.876.17修正力矩1（19边）[14]3.122.382.590.906.463.032.112.250.687.08[14]第一届中国国际汽车工业展览会2.962.152.370.646.693.051.902.130.657.41基于范例的[29]2.892.272.420.825.97–––––Chakrabarti等人 2015 [8]2.561.671.890.526.07–––––Cheng等人 2015 [13]2.421.651.750.385.872.181.481.640.465.03DS-Net（HypNet+SelNet）[35]1.901.121.330.314.842.241.461.680.486.08CCC（dist+ext）[3]1.951.221.380.354.762.381.481.690.455.85美国（公告牌成人另类歌曲榜）[28]1.771.111.290.344.292.121.531.670.484.78FFCC [4]1.780.961.140.294.621.991.311.430.354.75GI3.071.872.160.437.622.911.972.130.566.671 对于正确矩[14]，我们报告了[3]的复制和更详细的结果，与原始结果略有不同：平均值：3.5，中位数：19种颜色的2.6，平均值：2.8，中位数：Gehler-Shi数据集上的19条边为2.0。∗我们用星号标记基于Exemplar的方法，因为它是在未校正的blacklevel数据集上训练和测试的(b) 跨数据集设置训练集NUS 8-相机格勒施平均测试集格勒施NUS 8-相机运行时间是说中值三平均最好的25%最差25%是说中值三平均最好的25%最差25%火车测试基于学习的方法（不可知相机设置），我们的贝叶斯[22]4.753.113.501.0411.283.653.083.161.037.3376497Chakrabarti等人 2015 [8]经验3.492.872.950.947.243.873.253.371.347.50–0.30Chakrabarti等人 2015 [8] End2End3.522.712.800.867.723.893.103.261.177.95–0.30Cheng等人 2015 [10]5.524.524.791.9612.104.864.404.431.728.872450.25FFCC [4]3.913.153.341.227.943.192.332.520.847.01980.029基于物理的方法IIC [36]13.6213.5613.459.4617.98–––––––Woo等人， 2018 [39]4.302.863.310.7110.14–––––––生物学方法[20]第二十话4.002.60––––––––––ASM 2017 [1]3.802.402.70–––––––––免学习方法白色补丁[6]7.555.686.351.4516.129.917.448.781.4421.27–0.16灰色世界[7]6.366.286.282.3310.584.593.463.811.169.85–0.15通用GW [2]4.663.483.811.0010.093.202.562.680.856.68–0.91[38]第三十八话5.134.444.622.119.263.362.702.800.897.14–1.30[38]第三十八话5.334.524.731.8610.433.352.582.760.797.18–1.10[17]第十七话4.934.014.231.1410.203.672.943.030.997.75–0.47灰色像素（边缘）[41]4.603.10–––3.152.20––––0.88LSRS [19]3.312.802.871.146.393.452.512.700.987.32–2.60Cheng等人 2014 [12]3.522.142.470.508.742.932.332.420.786.13–0.24GI3.071.872.160.437.622.911.972.130.566.67–0.40基于学习的方法的交叉验证。该设置的结果总结见表1a。所有8069在所比较的方法中，到本文提交之日为止，FFCC[4]取得了最好的整体性能8070表2：NUS 8相机数据集上的每个相机评估。最后一列中的Std是指8个摄像机上的统计数据的标准偏差（例如NUS 8相机数据集佳能佳能Fujifilm尼康奥林巴斯松下三星索尼STD1DS Mark3600DX-M1D5200E-PL6DMC-GX1NX2000SLT-A57Cheng等人2014年[12]是说2.932.813.152.902.762.962.912.930.1152中值2.011.892.152.081.872.022.032.330.1465三2.222.122.412.192.052.312.222.420.1309最佳-25%0.590.550.650.560.550.670.660.780.0798最差-25%6.826.507.306.736.316.666.486.130.3558查克拉巴蒂等[8]（最佳），在Gehler-Shi上训练，在这里测试是说3.003.263.123.263.313.303.303.320.1056中值2.172.482.452.482.502.492.482.560.1171三2.312.642.602.642.722.692.682.750.1365最佳-25%0.740.830.830.830.850.840.830.860.0390最差-25%6.777.046.897.047.117.127.167.120.1312GI是说3.022.852.892.852.842.862.862.750.0753中值1.871.961.981.961.971.971.971.890.0420三2.162.122.152.122.152.172.132.070.0321最佳-25%0.540.550.550.550.560.560.550.530.0114最差-25%7.296.796.866.796.706.756.816.510.2198表3：MIMO数据集的定量评估实验室（58）现实世界（20）方法中值是说中值是说无所事事10.510.68.88.9Gijsenij等人[27日]4.24.83.84.2通用报告格式[5]2.62.63.34.1[41]第2.202.883.515.68GI（M=2）2.092.663.323.79GI（男性=4）2.092.653.473.96GI（男性=6）2.072.603.493.94这两个数据集。值得注意的是，交叉验证对统计方法的性能没有影响。因此，为了避免重复，竞争性非学习方法的性能在表1b中仅显示一次。出于可视化的目的，基于学习的方法的结果，优于所提出的GI的突出显示为灰色。值得注意的是，很明显，即使在对基于学习的方法友好的设置中，GI也优于几种流行的基于学习的方法（从Gamut [25]到行业标准校正矩[14]），而不需要广泛的训练和参数调整。GI的直观示例如图所示。3 .第三章。与最好的基于学习的方法（例如， [8]），图3：单一照明Gehler-Shi的定性结果。从左至右：角度误差、输入图像、GI、被选为灰色像素的前1%像素、估计的照明颜色、地面真实颜色和使用预测照明的校正图像。麦克白的彩色图像总是被掩盖，因为GI发现完美的灰色补丁作为灰色像素。GI在其角度误差分布中具有明显的重尾（例如，在最差的25%情况下），这表明如果灰色像素在整个数据集（例如，自然图像）上被i.i.d，则GI将是更优的基于学习的方法使用3重交叉验证在这些“罕见”情况下表现良好，0.772.502.780.818071平均值盖勒-施二氏平均值中位数1e-21e-11e01e-21e-11e01e-21e-11e01e-21e-11e0（一）（b）第（1）款(c)(d)图5：（a，b）Gehler-Shi的平均和中值角度误差对应于不同N和θ（见正文）的色图;（c，d）NUS 8-相机。图4：（多照明）MIMO数据集的定性结果从左到右，颜色偏置输入，地面实况空间照明，我们使用GI的空间估计，我们校正的图像。通过包含更多的训练数据（例如，通过10倍交叉验证）[8]。4.2. 交叉数据集设置我们能够重新运行贝叶斯方法[22]，Chakrabarti等人。[8]、FFCC [4]和Cheng等人 2015 [13]的方法请注意，此方法列表包括FFCC，它在相机已知设置中显示了最佳的整体性能。从所提供的代码中，我们发现了不同的方法来纠正黑色电平和饱和像素。为了保持一致性，我们使用了统一的校正过程（在补充中给出），该过程也适用于GI。当我们在一个数据集上进行训练并在另一个数据集上进行测试对于本节中报告的结果，我们使用了每种方法的最佳或最终设置：贝叶斯（GT）的贝叶斯; Em-pathology和端到端的培训Chakrabarti等人。 [8];Cheng et al.的30棵回归树;全图像分辨率和2个FFCC通道。所得结果总结见表1b。从这个表中可以清楚地看出，GI优于所有基于学习的方法和统计方法。所有选定的基于学习的方法在以下方面表现较差：与一些统计方法相比（例如，LSRS [19]，Cheng等人2014 [12]）。在这种情况下，基于学习的方法的性能下降并不奇怪。例如，在[4]中，可以看到FFCC在预处理滤波器（两个环绕线段）中为Gehler-Shi建模了两个不同的相机灵敏度，这在交叉数据集设置中将不正确地用于评估NUS 8相机数据集的性能。NUS 8-Camera Benchmark的一个特别之处在于它包含8台共享相同场景的摄像机。我们利用这个特性来评估良好的无学习和基于学习的方法。这些结果总结在表2中，其中GI在8个相机上实现了更稳定的结果（标准方差较小）。由于篇幅限制，我们建议读者参考[12]，以获得使用其他方法的单个相机的更多结果，包括但不限于[2，38，25，22，9]。在[12]的表2中的所有方法中，GI对相机硬件不太敏感。4.3. 参数网格搜索GI中仅有的两个参数是：被选择为灰度的像素的百分比N%用于照明估计，以及Eq. 12用于去除没有空间线索的区域前者限制了测量照明规范的域范围，类似于深度学习中的感受野，而后者仅通过明显的激活，如ReLU激活。图5总结了所获得的中值和平均角度误差，在Gehler-Shi数据集和NUS 8相机数据集上对参数进行网格搜索，其中 N∈{10−2 ， 10−1 ， 1 和N∈{10−5 ， 10−4 ， 10−3} 设置（ N=1e−1 和 N =1e−4）可以在两个数据集的平均值和中位数误差之间实现良好的权衡。显示的参数网格似乎松散，但相反，这表明我们的方法对跨数量级的参数调整是鲁棒的。4.4. 多照明设置作为灰度指数的一个副产品，我们在多光照数据集上评估了所提出的表3表明，尽管GI并非设计用于处理空间照明变化，但它仍然优于性能良好的方法[5，41]，具有明显的裕度。从真实世界图像的平均值来看，很明显GI可以更好地处理多照明情况。将聚类M的数量从2增加到6进一步改善了我们对室内图像的结果，但对野生图像没有改善。图4示出了使用GI预测的空间估计由于K均值使用的欧氏距离，GI预测在具有复杂几何形状的一些场景中并不尖锐，但仍然获得最佳的总体错误率和合理的视觉颜色校正。3.033.143.543.073.073.473.213.273.641e-51e-41e-31.841.892.131.871.872.102.002.012.341e-51e-41e-33.242.932.883.232.912.843.322.992.891e-51e-41e-32.221.971.912.271.971.952.392.071.961e-51e-41e-3N，百分比N，百分比N，百分比N，百分比80721.(b)（c）第（1）款图6：（a）使用地面实况校正的Gehler-Shi示例图像，其中存在两种不同的(b)我们在减少盒子大小（从A到E）的情况下测试CC方法。(c)颜色偏向（a）。表4：在Gehler-Shi的不同大小裁剪图像上测试GI，FFCC，给定来自 [11]的照明分割。由以MCC为中心的尺寸递减的框裁剪（图6b中从框A到框E）。具体来说，这些框是通过将前一个框的宽度和高度减半来生成的。表4a和4b中总结的结果显示了一个关键事实：在单照明子集中，随着测试框变小（从框A到E），GI产生更大的角度误差。相反，在双照明子集中，这种趋势是相反的。GI的性能随着测试盒的缩小而降低是有道理的，因为可用的参考点较少。对双照明子集中异常趋势的合理解释是MCC主要放置在一个照明中，反映了有偏见的这个问题限制了GI的性能上限，也可能限制了其他统计颜色恒定性方法的性能上限。基于学习的方法（尤其是基于CNN的方法）受此问题的影响较小，因为它们可以学习对一些结构信息进行推理，(a) 双照明设置Gehler-Shi：66张双照明图像平均值中位值三均值最佳-25%最差-25%GI(b) 单照明设置Gehler-Shi：502张单照明图像平均值中位值三均值最佳-25%最差-25%GI例如全图像色度直方图、场景的物理几何形状、MCC放置的位置。正如预期的那样，FFCC在较小的盒子上表现较差。考虑到这些结果，我们认为，基于学习的方法和统计方法应该通过考虑它们在单数据集和跨数据集场景中的相应优势和局限性5. 关于“Ground-truth”的问题我们研究了GI做出不稳定预测的情况（见不稳定情况的补充），并观察到，在某些图像中，存在由两个照明源投射的灰色像素。Cheng等人注意到了类似的问题。[11]，他声称在Gehler-Shi [34]中，有66个双照明图像。这个问题的一个例子如图所示。六、在图6（a）中，其中箭头A和B附近的像素共享相同的表面（白墙）但具有不同的照明，B附近的像素的颜色接近麦克白色图（MCC）。在这种情况下，我们的GI做了很好的工作，在确定灰色像素，按照设计的规则，并找到灰色像素躺在两个光源，但这是在一个大的角度误差的代价。作为第一印象，我们假设这是由于MCC更受其中一个光源的支配。我们设计了一个简单的实验来研究我们的观测结果。对于Gehler-Shi中的66个双照明图像（在[11]中给出）和其余502个单照明图像的列表，我们在图像上测试GI和FFCC [4]（全分辨率，2通道，在整个Gehler-Shi上预训练6. 结论提出了一种新的计算灰度的方法--灰度指数。它依赖于二色反射模型，可以准确地检测灰度像素。在单光照估计和多光照估计任务上的实验验证了GI的有效性和效率。在标准基准测试中，GI比最先进的免学习方法在约0.4秒内更准确地估计照明。GI有一个清晰的物理解释，我们相信它可以用于其他视觉任务，例如。本征图像分解研究还得出了其他结论：基于学习的方法通常在跨数据集设置中表现较差;当在颜色检查器被零掩盖的图像上进行测试时，基于学习的方法仍然可以利用颜色检查器的位置以及对场景和相机特定特征的过拟合。致谢这项工作得到了芬兰商务部的资助。第1848/31/2015号。J. Matas得到了OP VVV资助项目CZ.02.1.01/0.0/0.0/16 019/000076信息学研究中心的支持。引用[1] A. Akbarinia和C. A.帕拉加超越经典感受野的颜色恒常性。TPAMI，2017。5A 6.124.545.240.7013.72一2.781.792.030.416.75B 6.063.884.900.9214.08B2.951.862.120.417.28C 6.023.635.040.9214.55C3.322.302.490.507.96D 5.463.464.130.7713.69D3.932.973.140.708.90东4.962.943.450.5312.42E4.813.793.940.8210.74FFCC [4]FFCC [4]A3.111.672.250.448.00一1.680.941.160.274.22B 3.441.842.390.428.69B1.721.011.200.274.30C 4.012.472.920.5610.03C1.841.111.290.294.58D 4.643.133.530.6211.38D2.131.291.430.365.45东4.993.293.720.6011.92E2.391.391.580.386.178073[2] K. 巴纳德河谷Cardei和B.方特计算颜色恒常性算法的比较i：方法和实验与综合数据。TIP，11（9）：972-984，2002. 一、二、五、七[3] J. T.巴伦卷积颜色恒定性。在ICCV，2015年。二、五[4] J. T. Barron和Y. T.蔡快速傅立叶颜色恒常性。在CVPR，2017年。二、四、五、七、八[5] S.比格普尔角Riess，J. Van De Weijer，and E.安-杰洛普洛。条件随机场多光源估计。IEEE Transactions onImage Processing，23（1）：83-96，2014。四、六、七[6] D. H. Brainard和B. A. Wandell色觉的视网膜理论分析。JOSA A，3（10）：1651-1661，1986. 一、二、五[7] G.布克斯鲍姆物体颜色感知的空间处理器模型。富兰克林研究所杂志，310（1）：1-26，1980。二、五[8] A. 查克拉巴蒂通过学习从亮度预测色度的颜色恒定性2015年，在NIPS中。二五六七[9] A.查克拉巴蒂湾Hirakawa和T.齐克勒具有空间-光谱统计的颜色恒常性。TPAMI，34（8）：1509- 1519，2012.一、二、五、七[10] X. Chen和C.齐特尼克MindsEye：一种用于图像字幕生成的循环视觉表示。 CVPR，2015。 5[11] D. Cheng，中国山核桃A.卡梅尔湾Price，S. Cohen和M.S.布朗两个光源估计和用户校正偏好。在CVPR，2016年。8[12] D. Cheng，D.K. Prasad和M.S. 布朗颜色恒定性的照明估计：空间域方法工作的原因和颜色分布的作用。JOSAA，31（5）：1049- 1058，2014年5月。一、二、四、五、六、七[13] D.程湾，澳-地Price，S. Cohen和M. S.布朗使用简单特征的有效的基于学习的光源估计。CVPR，2015。五、七[14] G. D. Finlayson 校正矩照明估计。在ICCV，第1904-1911页，2013年。二、五、六[15] G. D. Finlayson和G.谢弗二色性颜色恒常性的凸和非凸光源约束。见CVPR，第1卷，第I-I页。IEEE，2001年。2[16] G. D. Finlayson和G.谢弗使用约束二色反射模型求解颜色恒常性。IJCV，42（3）：127-144，2001. 2[17] G. D. Finlayson和E.特雷齐灰色阴影和颜色恒定性。彩色成像会议（CIC），2004年。一、二、五[18] D. H.福斯特颜色恒定性。Vision research，51（7）：674- 700，2011. 1[19] S.高，W.汉，K.杨角，澳-地Li和Y.李局部表面反射统计的有效色恒常性。2014年，在ECCV一、二、五、七[20] S.- B.高，K.- F.杨角Y.李和Y。- J. Li。使用双折射的颜色恒定性TPAMI，37（10）：19735[21] S.- B. Gao，M.张角Y. 李和Y。-J. 李通过降低相机光谱灵敏度的变化来改善JOSA A，34（8）：1448-1462，2017。1[22] P. V. Gehler，C. Rother，A. Blake，T. Minka和T.点

下载后可阅读完整内容，剩余1页未读，立即下载