基于深度展开网络的光照谱估计及多光谱图像照度比较

11 浏览量更新于2023-10-14 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2672基于深度展开网络李强付玉琦沃尔夫冈·海德里希沙特阿拉伯阿卜杜拉国王科技大学{yuqi.li，qiang.fu，wolfgang.heidrich}@ kaust.edu.sa摘要比较多级本文研究了多光谱图像中的光照谱估计问题。我们将问题转化为一个约束矩阵分解问题，并提出了一种用于单全局和多个illumination估计的方法，其中从用于求解矩阵因子的交替方向乘法（ADMM）优化构建实光谱反射率合成多光谱图像估计网络估计的光谱反射率化问题。为了缓解多光谱训练数据的缺乏，我们构建了一个大型多光谱反射图像照明光谱比较估算照度数据集生成合成数据，并使用它们来训练和评估我们的模型。仿真和实际实验结果表明，该方法的性能优于现有的光谱照明估计方法，并能很好地推广到各种场景和光谱。1. 介绍作为材料的固有物理特性，光谱反射率是广泛视觉任务的丰富信息源，包括物体识别和材料复制，以及人类技术和科学成像问题。然而，获取准确的光谱反射图像需要额外的逐图像校准，以补偿场景中的照明条件，例如使用已知参考[21]或专用测量设备[2]。不幸的是，这种校准通常是麻烦的，并且在具有多个不同照明源的复杂照明情况下经常失败。一种实用的解决方案是从捕获的多光谱图像中估计照明光谱，并将反射光谱和照明光谱分离以用于进一步的目的。该照明估计问题是高度欠确定的;因此需要正则化来约束解以满足多光谱反射和照明的图像先验。近年来，已经研究了许多估计照明光谱的方法。最它们中的任一个利用多光谱图像的统计或提取镜面反射分量来估计illu。图1.我们的光谱反射率和照度估计方法的框架虽然可以使用多光谱的图像先验，但不能充分考虑多光谱反射和照明的图像先验。还存在应用卷积神经网络（CNN）来估计照明光谱的一些尝试。然而，在我们看来，这样的方法不灵活以适应各种照明光谱，并且它们在缺乏大型图像数据集的情况下受到限制。此外，据我们所知，现有的方法都不能处理多光谱图像中的多个illuminants。这些限制促使我们建立一个大型的多光谱反射图像数据集，并提出了一种基于深度神经网络（DNN）的灵活光照估计方法。我们的方法利用通过使用真实光谱反射图像和照明光谱合成的多光谱图像数据集来训练网络，如图所示。1.我们将照明估计问题转换为一个约束矩阵分解问题，并提出了一个优化启发展开多级网络来解决这个问题。我们的网络可以通过在合成大小的数据集上训练并利用反射图像的非局部先验以及照明光谱的低秩和全变差（TV）先验来实现比以前的方法更准确的估计。本文的贡献可概括如下：我们提出了一种新的约束矩阵因子化采用多级循环展开神经网络-·2673致力于解决多光谱照明估计问题。我们的数据驱动方法从真实捕获的反射图像中明确学习非局部先验，并通过低秩和TV正则化来提高估计精度。所提出的方法显著优于现有的方法。我们提出了第一个工作，以处理单全局照明和多个照明估计多光谱图像。在合成多光谱图像上的仿真和在真实图像上的实验都表明了该方法的灵活性、有效性和推广能力。我们建立了现有最大的光谱反射图像数据集，由400个高质量的多光谱图像组成，为照明估计模型的训练和评估提供了通用基准。2. 相关作品近来，已经做出了许多努力来研究三色RGB图像的颜色恒定性[6，19，30，26，13，15，16，17，18，19]。1，31]和照明光谱估计[17，18，16，15，28，35，24]。对于光照光谱估计的任务，大多数以前的方法的灵感来自颜色恒常性的方法，并可以分为基于统计和基于学习的方法。基于统计的方法许多提出的方法基于所捕获的场景的统计特性，并且通过利用来自这样的假设的先验来估计照明光谱。在颜色恒定性问题中，一些经典方法假设照明颜色可以直接从整个捕获图像的平均响应（Gray-World）[6]、从具有最大光谱响应的像素（Max-RGB）[19]或从捕获图像中的边缘像素（GrayEdge）[30]获得。这些假设在光谱照明估计问题中也保持并表现良好[17，18]。利用这些假设，分别估计光谱功率分布（SPD）函数的每个波长通道的强度。这种方法的局限性在于它们通常需要场景中的高光谱分集，并且在具有较小分集的场景中往往失败。其他一些人假设捕获图像中的镜面反射可以提供场景照明的信息[16，28]，但他们依赖于非朗伯表面来提取镜面成分。此外，还利用光谱反射的低秩特性来限制照明和反射光谱的分离[35]。然而，完全依赖于单个假设对于一般场景中的准确光谱照明估计是有限且不充分的。而且，这些方法中的大多数都是应用该方法使用固定的超参数集，估计精度对超参数的选择和特定的成像场景敏感。基于学习的方法在大多数最近的颜色恒定性方法中经由深度学习来估计照明颜色[26，13，1，31]。利用具有地面实况照明颜色的大规模图像数据，这些方法通常可以相对于基于统计的方法实现更高的准确度。为了将基于学习的模型的使用扩展到多光谱域，基于CNN的方法[24]利用多尺度retinex模型作为前端网络，并使用CNN估计照明光谱。然而，将上述基于学习的方法应用于多光谱域的主要困难是缺乏具有地面实况照明光谱的多光谱图像的大规模图像数据集。此外，由于光谱照明的维度比3通道彩色照明的维度高得多，因此先前的基于CNN的方法往往难以推广到与训练集不同的照明光谱。因此，构建大规模数据集和设计更灵活的网络架构是使用深度学习估计照明光谱的两个关键挑战。最近，基于优化的循环展开网络已被用于图像恢复任务中的各种传感矩阵上，并取得了优异的结果[33，20]。本文考虑到光照光谱的高维性，采用展开网络结构来处理光照估计问题。上述方法中的大多数假设场景上的均匀照明，并且仅关注于估计单个全局照明。多重照明估计可以处理更一般的场景中的空间变化的照明。多个照明估计处理多个照明的直接策略是对像素进行聚类。根据可能的照明和相关联的反射率[10]将像素划分到超像素区域中，然后应用单照明估计方法[9]或在数据集中寻找参考[14]以局部估计像素照明。其他基于聚类的方法首先估计局部光照，并利用条件随机场[4]和因子图[23]来优化其全局分布。这些方法的成功表明，聚类可以帮助提高多照明估计。此外，一些方法[12，7]对照亮场景的灯光数量或场景中变化照明的平滑度施加约束，这可以提高照明和反射分离的性能，因为反射通常在空间和颜色域中具有比照明高得多的多样性。基于深度学习的方法[5，27]··2674× ×××个2⎪2R←||+Q（R），R（k+1）←0≤Rq≤1||* 表示L的核范数作为低秩denois-||∗denotes thenuclear norm of L as a low-rank denois-× ××Q+二、二RqF2α02Q2FQRQ+ α1（R（k+1）−Rq（RQ最近也提出了这个问题。该方法借鉴了聚类的思想和上述多光照估计方法中所使用的约束条件来处理多光照。我们将从问题公式开始介绍我们的多光谱照明估计模型。3. 方法3.1. 问题公式化并且估计的反射率R被限制在物理合理性的范围[0，1]内。3.2. 优化ADMM算法适用于有效地解决上述优化问题。我们的目标是将AD- MM展开为多级网络。通过引入辅助变量M、Lr、Lt和Rq，等式（1）(1)相当于：min1||I − M||2+ Q（Rq）+ ηr ||Lr ||† + ηt||Lt||电视让我们考虑从分辨率为m，n，c的多光谱相机拍摄的多光谱图像I，其中m，n表示图像的空间分辨率，并且c表示图像的空间分辨率。L、R2FS.T. M=L×R，Lt，Lr=L，Rq=R，L r，L t ≥ 0，0 ≤ R q≤ 1。（二）图像中光谱通道的数量。我们的方法将多光谱图像表示为二维mn c矩阵，并且旨在将其分解为每像素照明光谱L和每像素光谱反射率R，这两者也表示为维度mn c的矩阵。也就是说，I=L R，其中表示阿达玛乘积。值得注意的是，我们的目标是处理两个单-全局照明和多个照明估计。在通过将约束优化问题转换为无约束优化问题，上述问题的增广拉格朗日量由下式给出：Lα0，α1，α2，α3（L，R，M，Lr，Lt，Rq;UM，U Lr，ULt，U Rq）=1||I−M||F+∠UM，M−L × R∠+ ||M−L×R||F+Q（Rq）+∠U，Rq−R∠+α1||Rq−R||2+ηr||Lr||†+ηt||Lt||电视α22α32+∠U，L−L+||L−L||+U，L−L+||L−L||、在单一照明估计的情况下，照明估计Lrr2rFLtt2吨F（三）光谱向量L被视为所有像素共享相同光谱的秩一矩阵。而在多照明估计的情况下，我们需要估计图像的逐像素照明光谱。我们的方法把照明估计作为一个控制应变矩阵分解问题：min1||I − L × R||2+ ηr ||L|| † + ηt||L||TV + Q（R），其中，UM、ULr、ULt和URq是表示对偶变量的拉格朗日乘子，α0、α1、α2和α3是加权参数。为了最小化Eq. (3)关于这些变量，AD-MM将等式的问题划分为：(3)为每个变量的子问题，并交替优化变量迭代。第k次迭代中的每个变量的更新由等式给出。(4)和等式（六）、L、R2FS.T. L ≥ 0，0 ≤ R≤ 1，（一）⎧⎪R(k+1)←,在光谱维度中使用照明的正则化器，电视在空间维度上的定义为（k+1）⎪URQI+α0L（k）R（k+1）−U（k）||L||表示illu的总变差（TV）正则化子⎩⎪(k+1)（k）α0+1（k+1）绝对梯度的积分，ηr和ηt表示权重-ed参数。使用非局部正则化器重新反射率考虑了非局部数据冗余，并受到现有RGB照明估计方法的激励。可以看出，变量R（k+1）、M（k+1）和U（k+1）具有封闭式更新规则。注意这里有一个不等式约束0≤Rq≤1存在于变量的更新步骤Rq，辅助变量Rq+，对偶变量UR得双曲正弦值.ODS对图像区域进行聚类，以获得更鲁棒和更准确的结果如在SEC中所述二、在图像处理场，总变差正则化惩罚虚假细节，同时保留图像中的边缘[25];低-相应的加权参数α4被引入非负约束。变量更新为如下所示：秩正则化器的目的是重建只有的Qα1R（k+1）+α4R（k）U（k）−U（k）′（k+1）q++Rq+Rq，RQ其中Q（R）表示反射率R的非局部先验，←UM←L（k）（α0M（k）+U（k））+α1R（k）+U（k）MqRqα0L（karg minα1||）L（k）+α1U（k）（k+1） RqRq−R+α12675·因为场景通常仅由QQFQ+谱的作用;和TV正则化是用于估计s-Q少数基础[29]。光照问题的低秩正则化α1+α4R（k+1）←argmin ||R −R′（k+1）||二加二Q（R），几个不同的照明源，因此照明可以R（k+1）←c lip.R（k+1）−U（k）/α4，[0，1]Σ，α1+α4Q（QRq+Rq+Rq+QQ+2676矩阵可以表示为低维线性组合。⎪⎩U(k+1)←U(k) +α4（R（k+1）−R（k+1））。2677在空间维度上平滑地改变照明。注意估计的照度L被约束为非负，2678而不是显式地给出正则化模型Q（）2679和邻近算子来优化Rq，我们直接学习2680M2681ank低-ral农洛克ank低-ral农洛克ank低-ral农洛克秩R+t+r++LL←⎪⎨R（k+1）Lr≥0α2U（kF2DT（DLt，τtv）−DLtLtLt不U（k+1）←U（k）+α3（L（k+1）−L（k+1）），LrLtMαL（k+1）+αL（k）U（k）−（k）L（k+1）←argmin ||L −L′（k+1）||2+2ηt||L||在每次迭代中的块的位置。我们将展示优势⎪⎪2⎪.ΣLr（k+1）←ΣT（Σi，τ（k））UiV*（8）RUV（k+1）（k）（k+1）（k+1）旧参数多光谱照明Le多光谱反射比Re图2.我们的深度展开网络架构。每个阶段包含一个矩阵分解（MF）块和三个深度去噪块（低秩、全变差和多头Transformer）。具有自注意神经网络块的邻近算子的求解器。以这种方式，空间光谱反射图像先验不被显式地建模，而是从网络块学习。网络块将在第3.3节中介绍。其余变量的更新规则为：应用阈值函数来优化变量Lr：Ci，i=1其中Σ*是矩阵L′（k+1）的SVD分解，（k）⎪⎧(α0M(k)+U(k))ⓈR(k+1)+α2L(k)+α3（k）+U（k）+U（k）2并且τrank表示阈值参数。类似地，Lt更新为：L（k+1）←MrLtLrLt，α0R（k+1）R（k+1）+α2+α3L（k+1）=（1−γ（k））L（k）+γ（k）L′（k+1）L（k+1）←argminα2||Lr−L（k+1）+L（k+1）U（k）二个Lr||+ηr||Lr||*tt（k）T.（k）不（k）（k）Σ（九）Argminα2||Lt −L+Lt||+ηt||Lt||电视不Lt≥0U←U+α2（L-L ），α2F其中D是计算图像梯度ρ（k）的矩阵表示加权参数，并且τ（k）表示阈值。LrLrr电视MM⎪⎩U(k+1)←U(k)+α0(L(k+1)×R(k+1)−M(k+1)),（3.3.展开网络同样，变量L（k+1）、U（k+1）、U（k+1）和U（k+1）具有封闭形式的解。注意，目标函数-L（k+1）和L（k+1）的部分约束它们是非负的。基于数学公式的估计过程的问题，我们提出展开的最优如图所示，使用R化来构造K阶段神经网络。在ive处，因此辅助变量Lr+、Lt+、对偶变量UL的其他两个集合，UL，并引入相应的加权参数α_5，α_6来处理非负约束。在图2中。该网络进行端到端训练，以遵守基本乘法模型，并同时利用所提出的先验知识。每个网络级由一个线性矩阵因式分解块和三个去噪块组成，⎪⎧（k+1）α2L（k+1）+α5L（k）U（k）（k）U表示优化中的一次迭代。较使用具有固定值的参数，放松参数-中文（简体）⎪α2+α5Lr+Lr这些参数可以加速优化的收敛，从而L（k+1）←argmin||L− L′（k+1）||2 +2ηr||*||∗,RrrLr⎪Fα2+α5r、可以减少迭代次数除此之外，最优的′（k+1） 26t++Lt+ULt，参数也可以帮助理解真正的贡献-⎨⎪不α2+α6tttL不Fα2+α6T TV在消融研究中优化参数带来的。L（k+1）←max L（k+1）−U（k）/α5，0，在矩阵分解块中，变量（L，L，R+R⎪Lr+tL（k+1）←max多光谱图像我1阶段K-1 阶段第K阶段L不L（1）不LRL（1）RLtLrLt（K-1）L（K-1）RLtLrReLU...Lr（K）RqRqRq...Transformer低级&电视Transformer低级&电视MFMF低级&电视MFTransformer+ρ、（--2682Σ--不我光照变量Lr和Lt分别通过低秩去噪块和TV去噪块来更新，具有可训练性。⎪URUQ+L（k+1）−U（k）/α6，0，Lr，Lt+，Lr+，R，Rq，Rq+，M，UL，UL ，UL，UL、t+tLt+t rt+r+、、、U（k+1）←U（k）+α5（L（k+1）−L（k+1）），URqM）被更新为七个可训练参数-Lr+⎩Lr+rr+特斯α（i= 0，···，6），根据等式（四）（五）（六）（七）。那个...为了优化相关联的分量L（k+1）和L（k+1），参数τrank、τtv和ρ符合等式（8）和Eq。Rt我们简单地应用软阈值操作（x，τ）=max（x τ，0）x分别对应于每个更新步骤。软|X|（九）、因此，每个阶段包含10个可训练重量或阈值参数U（k +1）←U（k）+α6（L（k+1）−L（k+1））。Lt+Lt+不t+⎪2683M n标度1：r=1（×个）× 8rR rM n×个m×n×cM nR rm× n × c（×个）×cr2R rRqm×n×cRQ（k+1）SoftmaxM n（×个）×cr2R rM n（×个）× 8rR r标度2：r=2标度3：r=4×个×个2×个×个×个高度m和宽度n，Mn×cr平均值Mn提取我们拍摄了400张高质量的多光谱图像图3.用于反射图像去噪的多尺度Transformer的架构红色虚线表示面片提取和张量 resh。模仿mΣ×n×cme a.nscchaΣnels，其中RRRR该比例尽可能接近1，以增强网络的鲁棒性并避免琐碎的解决方案。我们构建了一个五阶段展开网络，该网络在NVIDIAGeForce GTX 1080 Ti GPU上运行。我们使用Pytorch构建了我们的模型，并将其训练到40个epoch。为了优化，采用Adam，其中批量大小为2，并且学习率为3 × 10- 4。单个图像的计算可以在三秒钟内完成。4. 仿真和实验4.1. 光谱数据集具有c个通道的贴片和空间分辨率r×r。表示矩阵乘法表示逐元素加法。反射变量Rq通过基于变换器的去噪块更新，如图1B所示。3. Transformer是一种广泛使用的架构，其采用非局部自注意机制用于各种视觉任务[11]，并且非局部注意在图像恢复方面的优越性已在以前的文献中显示[22，34]。在我们的网络中，基于多头Transformer的块有效地从输入反射图像中搜索相干块以提取深度特征，以软方式根据它们的相似性对它们进行聚类，并最终在不同尺度上改进每个块以减少优化中引起的噪声。自注意机制在反射图像去噪中既有效又灵活，因为它可以利用块之间的冗余，并且对光谱内容没有约束;而其他去噪架构，例如残差卷积块，尽管具有数百个变换器参数，但当嵌入到我们的网络中时，在反射图像去噪方面表现出非常小的改进。因子分解法的一个困难是退化平凡解的存在性。为了避免这样的解决方案，大多数先前的方法使用光照的余弦相似性损失来训练或评估它们的模型。然而，这种损失对低强度像素中的图像噪声敏感。为了确保所提出的方法的鲁棒性并迫使估计的反射率满足实际反射率的先验，我们选择缩放的估计的照明和反射率的均方误差（MSE）的加权组合作为我们的损失函数，表示为：我们的训练反射率数据（见图1）（见第4（a）段）。这些图像包括室内和室外场景的混合物，使用紧凑的基于扫描的高光谱照相机来获取：Specim IQ。所捕获的图像具有512 - 512像素的空间分辨率和范围从400 nm至1000 nm的204个光谱带。从这些图像中，我们合成了一个大的训练集，具有一系列不同的模拟照明条件。为了准备训练数据，使用白色参考图从测量的多光谱图像计算每个像素处的反射光谱。我们在可见光范围内从400nm到700nm以10nm的间隔均匀地采样光谱，得到总共31个通道。然后，我们将反射图像裁剪为256 256个子图像，以移除白色参考表面。我们在[0，1]的范围内对多光谱反射进行归一化，最后随机选择320张反射图像用于生成训练集，并在剩余的80张图像上测试我们的方法的性能。每一组都有平衡数量的室内/室外场景。为了合成各种模拟照明下的多光谱图像，我们通过收集标准照明的SPD、来自公共数据集的一些人工光源- s1和来自公共数据集的太阳光来构建光谱照明数据集2。一些样品如图所示。第4（b）段。为了避免过度拟合，我们排除了一些类似的SPD，选择了40个代表性的光谱照明来生成我们的训练集，并选择了其他十个光谱照明来生成测试集。我们通过反射图像和照明的SPD的随机乘法来合成多光谱图像数据集。单全局照明和多全局照明二、二L= ||sLe− Lgt||2+ φ1||Re/s − Rgt||2+ φ2|log（s）|与s=（Lgt，Le>，（Le，Le∠其中s表示照明的尺度，φ1和φ2表示加权参数（我们设置φ1= 0）。2，φ2= 0。001经验），Lgt和Le表示真实值和估计的照度，Rgt和Re表示真实值和估计的反射率。注意第三项强制模拟了三种光照估计。在单一照明估计的情况下，我们直接将单一照明的SPD乘以反射图像以模拟捕获的多光谱图像。而在多个照明估计的情况下，我们首先随机选择1http://galileo.graphycs.cegepsherbrooke.qc.ca/app/fr/lamps2http://www.nrel.gov/grid/solar-resource/assets1 × 1个1 × 1个1 ×1 × 1个3 × 32684×个ΣMF TV LRNL天然人工(a) （b）照明光谱合成照明（c）空间变化照明合成图4.（a-b）我们数据集的代表性样本RGB图像在CIE标准光源D65下用CIE 196410◦标准观察员。（c）合成空间变化照明的操作三个照明光谱li（i= 1，2，3），并为每个照明的空间分布生成三个随机的二维基于正弦的函数wi（x，y）随机空间分布函数表示每个照明的贡献，其被定义为：所有三个正则化器，我们的方法导致重建质量的显着改善。在消融研究中，我们试图通过使用由10个3 - 3卷积层和两个跳过连接组成的残余块（resblock）来替换每个阶段中的变压器。然而，重新阻塞在很大程度上是无效的。Aisin（ωi1（x+pi1））sin（ωi2（y+pi2））（ωi1（x+pi1））（ωi2（y+pi2））（十）该优化框架表明，只考虑局部信息的块不适合处理其中A、ω、p分别是随机强度、频率、相位。我们将空间分布函数wi至w′i归一化，并确保每个约束的总和是一个常数，这里我们让归一化函数的和i=1，2，3w¯i=1. 我们的空间变化照明是由三个照明的线性组合产生离子光谱如图所示。第4（c）段。最后，我们通过将反射图像与生成的照明相乘来合成大量的多光谱图像，用于训练和评估。为了量化这些方法的估计精度，我们分别计算了真实光源lg和估计光源le之间的绝对误差ΔS和角度误差ΔA。这两个错误在以前的工作中经常使用：ΔS= ||lg−le·（lg，le✅||1，ΔA=arccos。（lg，le✅Σ。在我们的模型中对反射图像进行去噪表1. 用于多照明估计的消融研究ΔSΔA平均标准值平均标准值固定固定的固定×4.23 2.36 0.290.23C×C C4.35 2.02 0.34 0.27C C×C4.21 2.44 0.35 0.26C C C ×3.63 1.90 0.25 0.19C C C resblock 3.50 1.85 0.24 0.18C C C C C2.84 1.37 0.21 0.154.3.单全局光照估计估计单个全局照明光谱是假设照明光谱均匀地分布在捕获的图像上的传统问题。我们的方法可以直接应用于通过对估计的照度执行平均池化来（le，le∠4.2.消融研究||·||Le||le||的光谱立方体，而无需诉诸额外的学习。我们将我们的方法与五种现有方法进行了比较，包括GrayEdge [17]，LRMF [35]，ISNL [28]和P-为了充分研究可训练权重参数和每个去噪块（LR：低级别，电视：总变异，NL：在我们的展开网络中，我们进行了六次消融模拟，用于估计我们的数据集上的多个照明。定量结果示于表1中。结果表明，与使用固定参数值相比，可训练参数可以带来15%的绝对误差减少。同样明显的是，TV和LR是我们模拟中两个最关键的正则化器。可能的原因是，这两个正则化显式约束的照明光谱估计。结合WIR [24]。具体地，GrayEdge是经典颜色恒定性方法的变体; LRMF和ISNL要么利用光谱反射的低秩先验，要么提取光谱反射来估计全局光照; PWIR是一种基于CNN的方法，用于查找图像中的光源不变特征。虽然PWIR可以预测全分辨率图像的照明，它实际上使用双三次插值来实现的目标，所以我们分类PWIR作为一个单一的全局照明估计方法。在模拟中，我们将五种方法与我们的方法在使用我们的多光谱反射图像和CAVE多光谱图像生成的两个合成数据集上进行了比较。L1w1×个L2×个w2L3×个w3照明空间光谱分布户外室内wi（x，y）=2685平均标准差数据集方法图5.五种单全局光照估计方法的比较顶部：捕获的多光谱图像的渲染RGB图像（从左到右：自行车、绘画、墙壁、土豆、饮料）底部：估计的照明光谱和地面实况的SPD数据集[32]。图5显示了五种方法在我们的数据集上估计的SPD的比较。我们的方法表现最好，无论频谱，tra是平滑的或有尖锐的尖峰。令人惊讶的是，经典的GrayEdge方法优于许多最近的方法，但它无法匹配我们的方法的性能，特别是在估计平滑照明光谱时。虽然基于CNN的方法PWIR使用比我们的方法更多的参数进行训练，但在大多数情况下都失败了。我们认为这是因为CNN很难推广到不同的光谱，而不是它已经训练过的光谱。我们还可以观察到，ISNL在纯漫射场景中表现不佳（例如，图中的第三列LRMF的性能不稳定，并且高度依赖于超参数的选择。表2. 单光照估计方法的比较。数据集方法ΔSΔA2.29 2.42 0.20 0.14这再次表明PWIR CN-N的过度拟合，并且难以推广到其他场景。4.4. 多重光照估计由于没有现有的多光谱图像的多照明估计方法除了PWIR，我们比较了我们的方法与两个国家的最先进的多照明估计方法的RGB图像，通过变换，形成他们的方法从 RGB 域到光谱域。这两种方法是 BUTD [8] 和AngularGAN [27]，其中BUTD是一种在RGB图像中提取颜色不变结构并基于统计量映射颜色的方法，AngularGAN是一种具有U网生成器的基于像素到像素GAN的方法。我们在我们的数据集和CAVE数据集上训练和比较了这三种方法。表3. 多种光照估计方法的比较。ΔSΔA平均标准差平均标准差BUTD4.25 1.21 0.41 0.37我们LRMFISNL4.343.965.403.060.42 0.410.35 0.20我们的角度GAN 3.770.960.38 0.30建议数2.841.370.21 0.15PWIR3.520.620.49 0.37电话：+86-0512 - 8888888传真：+86-0512 -8888888建议1.801.330.16 0.11洞穴AngularGAN 3.891.160.41 0.29洞穴灰边2.48 2.40 0.32 0.26LRMF 2.81 2.60ISNLPWIR 4.62 1.62建议数2.651.220.31 0.16如表3所示，我们的方法的估计误差明显小于其他方法。值得注意建议1.87 1.40 0.28 0.24表2显示了五种方法的估计误差以及误差统计（平均值和标准差）。PWIR和我们的方法在我们的数据集上进行训练，并在两个数据集上进行测试，以评估泛化能力。我们的方法的估计精度显着优于其他人，无论使用的数据集。PWIR在CAVE数据集上的表现比我们的数据集差。与误差的低方差一起我们的方法甚至显示出与单照明估计情况下的其它方法的结果相比具有竞争力的结果。我们方法的参数数量只有AngularGAN的十分之一。与其他普通的基于CNN的方法（PWIR）一样，AngularGAN在单光照估计中表现得比其他方法更稳定，但也更容易过拟合。光照估计角度误差的比较在图中可视化。6.我们通过将估计的反射率渲染到RGB图像来显示角度误差，其中2686×个捕获的光谱图像估计照明光谱的角度误差捕获的光谱图像估计照明光谱的角度误差估计光谱反射率图像估计光谱反射率图像GTBUTDAngularGAN提出GTBUTDAngularGAN提出图6.上图：从合成的多光谱图像渲染的RGB图像，以及三种方法的估计角度误差下图：从地面真实的光谱反射图像渲染的RGB图像和通过三种方法估计的估计反射图像捕获的光谱图像估计的照明光谱捕获的光谱图像估计的照明光谱估计光谱反射率图像灰色边缘MaxSpecBUTDAngularGAN提出灰色边缘MaxSpecBUTDAngularGAN提出图7.估计的照明光谱和反射图像的比较。两个场景都由两个带滤光片的全光谱灯我们在每个场景中的两个十字架的位置处显示了五种照明估计方法的估计光谱反射图像被渲染为RGB图像以用于可视化。标准D65照明。我们的反射图像显示出更均匀的外观，这表明更准确的多重照明估计。我们还可以观察到BUTD的估计精度高度依赖于参数的选择，并且它可能引入偏离的颜色伪影;而AngularGAN不能很好地处理空间变化的照明。4.5. 真实图像我们将我们的方法与两种单照明方法（GrayEdge和MaxSpec[17] ）和两种多照明估计方法（ BUTD 和AngularGAN）在多于一种照明下捕获的真实多光谱图像上进行了比较。所使用的多光谱相机也是SpecimIQ，空间分辨率为512 - 512。使用的光源包括太阳光、卤素灯和LED灯。我们在这些光源前添加了彩色滤光片，以增加照明光谱的多样性。为了获得照明光谱的地面实况，我们在每个捕获场景的对象上附加了一些白色参考。估计光谱图和从估计反射图像渲染的RGB图像的两个比较在图中给出。7.利用非局部去噪先验，我们的方法提供了比AngularGAN和BUTD更准确和干净的结果，并且在具有相同光谱反射率的大斑块上表现得更好，这在照明估计问题中是一个挑战。同样明显的是，我们的方法提供了最稳定的估计结果，因为背景墙的颜色（光谱反射率）在两个场景中是一致的。5. 结论我们提出了一个端到端的展开网络架构，用于解决多光谱光照估计问题。与以前的方法不同，我们的方法可以处理单全局照明和多个照明估计，并且由于使用了去噪先验，因此显著优于以前的方法。有前途的业绩在合成图像和真实图像上的实验结果表明了该方法的有效性、灵活性和推广能力。我们构建了一个用于训练和评估的大型光谱反射图像数据集，社区可以将其用于未来的训练和分析工作。在未来，我们将扩大光谱反射图像数据集，并探索使用硬件编码[3]将光谱照明估计应用于一般成像系统。2687引用[1] Mahmoud A Fiand Michael S Brown 。深度白平衡编辑。在IEEE/CVF计算机视觉和模式识别会议论文集，第1397- 1406页[2] Sara Alvarez-Cortes，Timo Kunkel和Belen Masia。光谱功率分布的实际低成本恢复。在Computer GraphicsForum，第35卷，第166Wi- ley在线图书馆，2016年。[3] Seung-Hwan Baek ， Hayato Ikoma ， Daniel S Jeon ，Yuqi Li，Wolfgang Heidrich，Gordon Wetzstein，andMin H Kim.端到端超光谱深度成像与学习衍射光学。arXiv预印本arXiv：2009.00463，2020。[4] Shida Beigpour ， Christian Riess ， Joost Van DeWeijer，and Elli Angelopoulou.使用条件随机场的多光源估计 IEEE Transactions on Image Processing ， 23（1）：83[5] 西蒙·比安科，克劳迪奥·库萨诺，雷蒙多·谢蒂尼。使用卷积神经网络的单光源和多光源估计 IEEETransactions on Image Processing，26（9）：4347[6] 格申·布克斯鲍姆物体颜色感知的空间处理器模型。富兰克林研究所杂志，310（1）：1[7] Dongliang Cheng ， Abdelrahman Abdelhamed ， BrianPrice，Scott Cohen，and Michael S Brown.两个光源估计和用户校正偏好。在IEEE计算机视觉和模式识别会议集，第469-477页[8] Shao-Bing Gao，Yan-Ze Ren，Ming Zhang，and Yong-Jie Li.结合自下而上和自上而下的视觉机制，在不同的照明下保持颜色恒定 IEEE Transactions on ImageProcessing，28（9）：4387[9] Arjan Gijsenij，Rui Lu，and Theo Gevers.多个光源的颜色恒定性。IEEE Transactions on image processing，21（2）：697[10] Lin Gu，Cong Phuoc Huynh，and Antonio Robles-Kelly.空间变化照明的分割和估计。IEEE transactions onimage processing，23（8）：3478[11] 韩凯，王云鹤，陈汉庭，陈兴浩，郭建元，刘振华，唐业辉，安晓，徐春静，徐义兴，等.视觉Transformer的研究概况。arXiv预印本arXiv：2012.12556，2020。[12] EugeneHsu，Tom Mertens，Sylvain Paris，Shai Avidan和Fr e'doDurand。用于空间变化白平衡的光混合估计ACM SIGGRAPH 2008论文，第12008.[13] 胡渊明，王宝源，林志颖。Fc4：具有置信度加权池的完全卷积颜色恒定性。在IEEE计算机视觉和模式识别会议论文集，第4085[14] Hamid Reza Vaezi Joze和Mark S Drew。基于范例的颜色恒常性和多重照明。IEEE Transactions on PatternAnalysis and Machine Intelligence，36（5）：860[15] 哈里斯·艾哈迈德·汗。多光谱图像照明不变性表示。博士论文，Bou r gogneFranche-Com te´，2018。[16] Haris Ahmad Khan、Jean-Baptiste Thomas和Jon YngveHardeberg。多光谱图像中基于高光的光源估计在图像和信号处理国际会议上，第517Springer，2018.[17] Haris Ahmad Khan、Jean-Baptiste Thomas、Jon YngveHard-eberg和Olivier Laligant。多光谱成像中的光照估计JOSA A，34（7）：1085[18] Haris Ahmad Khan、Jean-Baptiste Thomas、Jon YngveHard-eberg和Olivier Laligant。用于多光谱恒定性的光谱自适应变换。 Journal of Imaging Science andTechnology，62（2）：20504[19] Edwin H Land和John J McCann。亮度和视网膜理论。Josa，61（1）：1[20] Yuqi Li，Miao Qi，Rahul Gulve，Mian Wei，RomanGenov，Kiriakos N Kutulakos，and Wolfgang Heidrich.基于安德森加速展开网络的端到端视频压缩感知。2020年IEEE国际计算摄影会议（ICCP），第1IEEE，2020年。[21] 李玉琦、王冲、赵解宇、袁庆树通过样本优化使用三色照相机进行高效光谱重建The Visual Computer，34（12）：1773[22] Ding Liu ， Bihan Wen ， Yuchen Fan ， Chen ChangeLoy，and Thomas S Huang.用于图像复原的非局部递归网络。第32届神经信息处理系统国际会议论文集，第1680-1689页，2018年[23] 劳伦斯·穆廷布和安东尼奥·罗伯斯-凯利。基于因子图统计推断的多光源颜色估计。IEEE Transactions onImage Processing，25（11）：5383[24] 安东尼奥·罗伯斯-凯利和冉伟。一个卷积神经网络用于彩色和光谱图像的像素级光源恢复2018年第24届国际模式识别会议（ICPR），第109IEEE，2018年。[25] Leonid I Rudin，Stanley Osher，and Emad Fatemi.基于非线性全变分的噪声去除算法。Physica D

下载后可阅读完整内容，剩余1页未读，立即下载