NIR2RGB转换下最佳LED光谱复用的研究

70 浏览量更新于2023-10-25 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12652用于NIR2RGB转换的最佳LED光谱复用Lei Liu1 <$，Yuze Chen1 <$，Junchi Yan1 <$，Yinqiang Zheng2*1上海交通大学CSE MoE人工智能重点实验室2东京大学{loklz，cyz2096，yanjunchi} @ sjtu.edu.cnyqzheng@ai.u-tokyo.ac.jphttps://github.com/cccyz/NIR2RGB摘要夜间视频监控的行业实践是使用辅助近红外（NIR）LED，通常集中在850 nm或940 nm，用于场景照明。NIR LED用于节省功耗，同时隐藏监视覆盖区域以防止人类肉眼看到。采集到的一些现有的研究试图通过深度学习将这样的NIR图像转换为RGB图像，这不能提供令人满意的结果，也不能推广到训练数据集之外。在本文中，我们的目标是通过检查单芯片硅基RGB相机在NIR照明下的成像机制来打破可靠的NIR到RGB（NIR2RGB）转换的基本限制，并提出通过深度学习来检索最佳的LED实验结果表明，通过适当地复用接近可见光谱范围的NIR LED，比使用850nm和940nm LED，可以显著改善该平移任务。1. 介绍视觉监控系统应确保全天连续稳定地捕获高质量图像。然而，由于环境照明的变化，场景的图像将呈现出相当大的不同。在白天，相机在充足的日光下工作良好，而在可见光很少的情况下，效果并不令人满意。为了提高成像质量，一个一般的想法是利用额外的照明来增强图像，类似于普通相机添加闪光灯单元以增加照明或延长曝光时间的情况。然而，长时间曝光会导致运动模糊[4]，并且使用*前两位作者贡献相同。最后两个是相应的作者。本研究得到了上海市科技重大专项（2021SHZDZX0102）和日本科学研究所（JSPS KAKENHI）资助号20H05951的部分资助。白光的亮度会很容易暴露监控范围，这在许多应用情况下是不需要的。由于人眼对波长在720nm以上的光不敏感，因此近红外（NIR）LED已广泛用于夜间监视。NIR LED利用相机硅传感器在NIR波段附近的灵敏度，使其能够在没有可见光的情况下获得视觉信息。具体而言，850nm和940nm窄带NIR LED通常用于监视设备。但在大多数情况下，即使不存在亮度和噪声问题，使用NIR LED获取的原因有两个方面：1) RGB三通道的相机光谱灵敏度（CSS）在850nm和940nm附近几乎重叠，因此难以记录2）许多材料的反射光谱在850nm以上变得不可分辨。这使得一对一映射变得困难。最近的作品[11，14，22，23]试图直接从NIR图像中恢复RGB，但恢复的RGB图像的质量基本的限制在于，当使用现有的850 nm和940 nm LED进行照明时，NIR和RGB之间的映射变得模糊不清。因此，一个自然的问题是如何找到LED的组合，使得NIR2RGB转换任务将更加适定性。在本文中，我们建议检索最佳的LED复用，合理地最大化不同材料在NIR波段的可扩展性，并最终实现稳定的NIR2RGB恢复。基于摄像机成像原理，我们建立了两个寻找最佳LED光谱复用的标准：第一，基于典型光谱曲线，我们设定了最大化可分辨颜色数量的目标，最佳LED光谱复用应该最大化整体三通道颜色变化。其次，更直接地，最佳LED组合应该对应于最小的NIR2RGB图像重建误差。通过深度学习，直接将NIR2RGB的重构损失降到最低，12653这可以通过点亮一组LED来物理地实现。这项工作的主要重点是：1) 我们不是简单地开发另一个用于NIR2RGB转换的网络，而是为社区带来了一个新的视角，即如何通过对现有NIR LED的照明多路复用进行工程设计来增强这项任务。2) 我们提出了两种优化方案来检索最佳的LED光谱复用：i）最大化的可区分的颜色的数量的基础上，典型的反射光谱的方差; ii）最小化NIR 2 RGB的翻译误差直接。据我们所知，这是针对NIR2RGB转换的最佳LED光谱选择的第一项工作因此，与开发复杂增强模型的大多数作品[5，13，253) 我们已经收集并发布了一个名为IDH（室内-暗光-高光谱图像）的高光谱图像（HSI）数据集，以在质量和数量方面补充现有的HSI数据集。据我们所知，IDH是第一个模拟夜间监控成像的大范围HSI数据集实验结果表明，该方法能有效地生成高质量的RGB图像。2. 相关工作低光图像增强。已经提出了许多方法来增强可见光范围内的弱光图像。直方图均衡化[1]试图在不对图像去噪的情况下扩大灰度分布Retinex [19]可以通过层分离和合成用于低光图像增强近年来，研究人员致力于将深度学习应用于图像增强。像Low-light Net [12]，Multi-Scale Retinex Net [21] 和 Single Image ContrastEnhancement [3]这样的模型都有很好的实验结果，当环境仍然有弱光照时。然而，他们往往会失败，在黑暗的环境中，例如。野生领域与天空光只有，其中捕获的RGB信号几乎是无法区分的噪音。我们针对这种具有挑战性的情况，但引入近红外LED照明，以避免信噪比的问题。着色。目前的彩色化方法主要是针对灰度图像的RGB恢复而开发的。[6]基于预测和地面实况（GT）之间的欧几里德距离的优化实现灰度到RGB恢复。[27]在饱和度和色彩丰富度方面显示出更好的结果。在他们的方法中，颜色预测模块通过利用深度学习来执行多模式建模，以增加每个像素中颜色预测的选择。此外，[8，10，26]的方法也获得了优异的着色结果。所有这些工作，包括我们的工作，都是将无色图像转换为RGB图像。然而，从灰度图像的彩色化只需要恢复色度信息，因为亮度已经包括在输入中。相比之下，NIR2RGB任务更具挑战性，因为它必须处理来自具有域间隙的输入的色度和亮度恢复。NIR2RGB。近红外光对人眼是不可见的，但可以被硅基传感器捕获。因此，它适用于低光成像。为了恢复RGB图像，[11]提出了一种用于NIR2RGB转换的深度卷积神经网络（CNN）。我们的想法是训练RGB和NIR图像之间的直接传输网络，而无需在召回阶段提供任何指导。[22]提出了基于CNN和GANs的近红外图像彩色化方法。该模型独立学习三个通道，因此收敛速度更快。然而，它们的结果在对比度和亮度上都是不足的根本的障碍在于映射的模糊性，当处理在广泛使用的850 nm和940 nm LED下捕获的NIR图像时。最近，[24]试图在深红色闪光灯照明下捕获的明亮图像的帮助下增强弱RGB信号。虽然选择680 nm深红光是基于人眼敏感度的特性，这也是我们依赖的一个关键因素，但这项工作与我们的工作有着根本的不同。首先，他们假设弱RGB信号的色度，但我们只使用近红外信息。其次，他们假设配备了IR截止滤光片，因此不能接收任何长于700 nm的光。我们在人眼敏感度较弱的700nm以上的近红外范围内工作，并尝试将近红外图像转换为RGB。3. 方法如上所述，现有的解决方案难以实现NIR2RGB转换的稳定性和有效性。为了解决这个问题，除了优化模型在接下来的部分，SEC。3.1介绍了我们选择最优LSM的建议。秒3.2介绍了基于U-Net [20]和GAN的NIR2 RGB转换模块此外，更多的细节在SEC中提供。三点三所提出的方法的整个框架在图中示出。1.一、3.1. 最优LSM选择模块我们尝试直接输入固定的LED组合进行RGB转换。不同的输入导致非常不同的结果，更好的结果倾向于选择某些LED。因此，我们认为有必要设计基于不同理论的最优LSM搜索的选择模块。RGB方差最大化（RVM）。即使在NIR波段拍摄的图像具有三通道，也是类似的12654翻译模块输出生成的图像……NIR图像HSI现场.∫选择模块RVM1JNTLM1JN图1.我们的方法将最佳LSM选择和RGB转换结合到一个统一的基于CNN的框架中。RVM（RGB方差最大化）和TLM（目标损失最小化）的最优LSM黑色和红色箭头分别表示训练和测试阶段。对于人眼来说，是单通道灰度图像。原因是NIR波段中的RGB响应值在通道之间几乎相同对于许多物体的反射光谱，对应的RGB强度非常接近，因此捕获的图像看起来是灰色的。如果我们的选择模块能够让特定材质和颜色的像素承载更多的信息，肯定会对后续NIR2RGB转换的效果和鲁棒性有所帮助。我们认为，这些信息可以通过一个充分的-10.80.60.40.20650700750800850900950100010501100…NIR图像LED1 ...J …选定图像最近RGB通道的强度变化很大。有了这个想法，我们需要确定颜色的来源作为典型的光谱曲线（TSC）。我们比较了两种方案：1）使用标准ColorCheck [15]生成TSC; 2）对训练集中的所有光谱进行聚类以获得TSC。考虑到从某个数据集获得的LSM容易受到数据集分布的影响，而具有典型颜色的标准ColorCheck更稳定，图2. 最佳LSM（LED光谱复用-基于TLM的选择：1）从具有它们各自的LSM的HSI中提取一组NIR图像; 2）将NIR图像分成三个通道; 3）对每个通道的图像集使用相同的选择模块其平均值作为最终结果：我们选择使用ColorCheck来生成TSC。通过光电转换得到三通道这一过程的获得-平均值（Ivar），我var =lsm，var≥k0、其他（二）可以用公式表示为：目标损失最小化（TLM）。除了基于直觉的RVM选择外，我们还设计了另一种选择，II=NIR（Ti，w·Lw·Cw）dw+Ni，i∈N，（1）基于目标丢失的翻译模块，可以与后续的翻译模块集成。这两种方案的比较和整合见第2节。4.第一章其中Lw和Cw分别表示NIR LED光谱（NLS）Ti，w表示ColorCheck中第i种颜色的光谱曲线Ni是指系统的整体噪声，包括摄像机的暗电流噪声和高斯白噪声，而这两种噪声可以通过对几个独立的测量值进行平均来很大程度上消除。注意TSC和CSS都是固定的，那么决定I的是具有不同光谱Lw的LED。因此，对于每个LSM，存在N个典型颜色的响应I我们用蛮力的方法枚举出每一个可能的LSM，通过等式1得到相应的I1，并计算每个颜色的RGB三通道强度的方差直接对不同颜色的方差求和不可避免地会导致信息的丢失，并使模型难以恢复更多的颜色。因此，我们设置一个阈值k来计算每个LSM中方差达到阈值的颜色的数量选择具有最大数字的最小二乘模型，为了选择最佳的LSM，在对应数据集的第一个处的所有LSM下合成每个HSI的NIR图像。令Cj（j =1，...，J）表示第j个LSM。然后，经由训练数据集的第j个LSM和第t个HSI的合成NIR图像可以由下式给出Yj，t=CjXt。（三）对于数据集中的每个场景，通过使用每个LSM堆叠所有NIR图像，选择网络获得输入：yt=k（Y1，t，. Yj，t，...， YJ，t）。（四）根据成像原理，合成图像可以被看作是将来自NIR图像的RGB通道的相应强度相加。在选择过程中，我们设计了一个基于CNN的最优LSM选择模块请注意，12655选择层中的权重应该是正的，因为负的NIR在现实生活中是没有意义的。12656××不不××不∥ −∥不不不L（V）=Y（V）−Y，s.t.V≥0，（6）在针对具有来自HSI的所有LSM的NIR图像进行堆叠之后，最优LSM选择等效于yt中的NIR图像选择，如图2所示。NIR图像通道被分成三个通道分支，它们是我们的选择模块V的输入。V的大小是J1Oi，其中Oi= 1是第i个频道因此，V的输出可以描述为：其中y（R）、y（G）和y（B）表示y中的所有通道。ICVL东京技术IDH（我们的）规模（场景×波长）201×480 16×59112×（36+3）mm拍摄环境室外室内室内实拍RGB†✓✕✓白平衡✕ ✕✓表1.数据集比较。36是指用于合成NIR图像的波长数（650nm-1000 nm），3是指在可见光下获得的每个场景的RGB图像我们的15S5C摄像机。†：ICVL和IDH都有实拍RGB图像，而必须使用白光LED规格-t t t在TokyoTech中测试生成RGB图像。：只有IDH调整可以通过在所选择的NIR图像Yt和相应的最佳复用NIR图像之间的正稀疏约束下最小化均方误差来确定V中的权重1ˆ2t tt=1其中Yt是第t个输出，Yt是第t个相应的最优LSM。V是选择模块的权重。3.2. RGB转换模块严格来说，这里的RGB是指可见光波段的RGB图像。两种图像类型之间的转换的主要目的是学习从NIR到RGB空间的非线性映射。为此，我们使用[9]构建了基于条件GAN的翻译模型。对于GANs中的生成器G，输入和输出在分辨率和结构上是相同的，这意味着G不仅要提取输入NIR图像的特征，还要将其恢复为具有相同结构和分辨率的RGB图像。为了满足这一要求，白平衡，可以减少色偏。选择对于TLM，给出了一个大的LSM和HSI集合，从而可以从具有不同LSM的HSI集合合成多个NIR图像。然后，将近红外图像集放入网络中，搜索最佳LSM及其对应的近红外图像进行RGB转换。通过对生成器的优化，使生成器生成的图像更接近于恢复后的RGB图像，最终可以使用经过良好训练的生成器实现NIR到RGB的转换。测试时，在选定的最小二乘法下获取输入的近红外图像，将其输入到经过训练的转换模块生成器中，得到相应的RGB图像。RGB转换模块的参数由α表示。对于GANs中的生成器G，其目标有两部分：1）G的输出与地面真值之间的L1距离;2）具有正确判断的CJD输出的MSE因此，目标Lt被写为：L（α）=1<$$>D（G（Y，α））−1 <$2+λL（G（Y，α），Z），度量体系结构，我们设计了一个16层的U-Net作为基本结构。在网络G中，输入通过ttt tt=11吨不（七）8层向下采样。在网络的中间此外，在第i层和第16-i层之间存在跳过连接，其连接这两层之间的每个通道，并提供更多的低级信息以帮助翻译。对于非线性网络D，它用来给出网络G的输出是否能与地面真值区分开的概率。我们在输出图像上创建一个N N补丁，称为PatchGAN。该算法对图像中的每一个N-N块进行L1-损失判断，并尝试分类该块是否是真实的。在贴片通过卷积通过图像之后，获得响应的平均结果作为输出。3.3. 学习策略选择和翻译模块是我们模型的两个主要部分。在训练过程中，RVM的结果被输入到RGB转换模块作为一个最优的LSM其中，Gt是第t个输出，Yt是来自LSM选择模块的对应的所选NIR图像Zt是相应的地面实况。λ是预定义的参数。整个网络的联合训练是通过最小化：L=Ls（V）+τLt（α），（8）其中τ是预定义的超参数。注意，在Eq. 6，对应于所选择的最优LSM的Y t（V）不需要在联合训练过程中被标记，因此Yt（V）Yt2可以忽略，我们将其替换为V中的最大值作为相应的LSM。有了这个se-选择后，可以合成NIR图像并输入到转换模块以获得RGB图像。由于V中的值应该是非负的，所以卷积层中的所有权重通过均匀分布被初始化为正，并且稍后在反向传播中计算的所有负数将被设置为零。12657B$一CE图3.我们的设备（左）和场景（右）准备IDH，这是由5个组件标记的彩色框。A：IDS UI-3860 CP灰度相机;B：FLIRBFLY-13 S2 C彩色相机;C：THORLABS Kurios-XE 2可调谐滤光片（范围从650 nm到1000 nm，间隔为10 nm）;D：分束器;E：FLIRGS-U3- 15 S5 C彩色相机。4. 实验4.1. 设置和协议数据集。用三组光谱数据进行评价：（1）HSI。HSI通过场景在不同波长处的反射光谱来堆叠。波长范围从420 nm到1000 nm。根据人眼的感光度[24]，420nm-700 nm用于可见光波段（RGB）图像合成，700nm-1000 nm用于NIR图像合成。我们使用的HSI的主要来源是：ICVL [2]，TokyoTech [17]和室内暗光高光谱图像（IDH）。这三个HSI的详细信息如下所示。2)近红外LED光谱（NLS）。我们测量了14个窄带LED的光谱，其能量主要集中在700 - 1000 nm之间。我们的最佳LSM是这些LED的组合。此外，在可见光波段，我们还测试了白光 LED （ Panasonic-PremiumX ）的RGB图像显示。3）CSS。我们测量了去除红外截止滤光片后的三个相机：FLIR GS 3-U3- 15 S5 C、FLIRBFLY-U3- 13 S2 C和EO 2113 C的响应曲线CSS是不同的-因为这些相机中的硅模块是不同的。ICVL和TokyoTech都是公共高光谱数据集。ICVL中的HSI通过使用Specim PS Kappa DX4高光谱相机和用于空间扫描的旋转载物台在充足的光线下拍摄东京理工大学的HSIs是通过使用一个单色相机和两个VariSpec可调滤波器。它需要近红外波段的反射光谱，而大多数开源数据集只有可见光波段的窄波长范围。ICVL和TokyoTech是极少数能够满足我们需求的数据集，但ICVL不包括室内场景，TokyoTech的规模也不够大。因此，我们已经拍摄了IDH，以扩大大范围高光谱图像数据集的规模/多样性。见table 1，以便在这些数据集之间进行更详细的比较。图图3示出了为IDH收集图像的设备和我们使用一个光纤光源与卤素灯，发射可见光和近红外光UI-3860 CP灰度相机与Kurios-XE 2可调滤光片一起用于记录650 nm至1000 nm的光谱图像，间隔为10nm15S5C摄像机用于记录RGB图像。这两个摄像机通过几何校准精确对准。13S2C摄像头用于采集RGB图像进行测试。数据处理. 1）数据集的波长间隔不同。ICVL中的NLS 和 HSI 的间隔分别为 0.76nm 和 1.25nm ，而TokyoTech和IDH中的CSS和HSI的间隔由于可调谐滤波器的采样精度而为10nm我们将所有的间隔设置为10nm用于对准。2)由于我们使用的LED是窄带的，照明强度主要分布在波峰附近（约60nm），并且在其他波长处非常低由于暗补偿的不准确性，低于检测阈值的强度被证明是负的。我们直接将它们设置为零，因为NLS的值将影响我们模型中相应LED的权重3)在合成NIR和RGB图像时，调整白平衡以防止颜色偏移太多，并且所有RGB图像（IDH中的实拍除外）都由上述相同的白色LED合成，使图像的整体色调更加稳定。指标. 恢复图像的质量是评估模型和LED性能的关键。峰值信噪比（PSNR），SSIM（结构相似性）和均方根误差（RMSE）被用来量化恢复图像和地面真实值之间的差异。用Delta-E评价修复体的颜色具体而言，PSNR是最常见和广泛使用的客观测量方法，用于比较RGB图像。SSIM显示了亮度、对比度和空间结构的相似性。当值为1时，这意味着这两个图像相同。RMSE表示预测值和观测值之间的差值的平方根Delta-E表示真实图像和复原图像之间的平均色差，分数越低，人类越难区分这两种颜色。基线。在这一部分，我们设计了多个实验进行比较，结果列于表1。二、请注意，所有涉及的方法都可以用于NIR2RGB转换。在第一组中，选择了几种基于深度学习的彩色化方法进行比较。除了[27]在第27话中，2，工作[5]训练了一个具有成对低/正常光图像的一致反射率和光照平滑度的网络MBLLEN[13]在真实的夜间场景中实现了良好的性能，因为该网络可以同时处理各种因素，包括亮度，对比度，伪影和噪声。所有这些方法的结果都是多次实验的平均值。在[7]中，两种低光图像增强技术是12658†‡SIG17 Retinex-Net MBLLEN LIME ECCV 16DUALCycleGAN着色单位切割快速切割随机RVM TLM GT图4. ICVL在典型场景下的视觉质量比较。ODS用于图像到图像的转换和彩色化。Cy- cleGAN[28]是一种用于两个域之间的风格转换的方法，它实现了源和目标之间的迁移，彩色化[9]的目的是对灰度图像进行彩色化，即将黑白图像变为彩色图像。UNIT[16]提出了一种共享潜在空间映射，并提出了一种基于耦合GAN的无监督图像到图像的转换框架。CUT和Fast-CUT [18]提出基于对比学习在两个域之间直接建立对应关系，以最大化它们的互信息。为了公平的比较，我们在最优LSM下为所有方法提供TLM标准的合成图像在评估时，所有方法都已根据我们的数据进行了重新训练。使用FLIR GS 3-U3- 15 S5 C的CSS与来自ICVL的原始高光谱数据合成输入图像。作为LSM，表2.前视红外GS 3-U3- 15 S5 C CSS下不同方法的恢复。前两组包含第二节中的各种方法。4.1，所有的模型都在ICVL上进行了训练，输入与我们的模型相同。最后两组包含基于我们的工业LED转换模块和LSM选择的结果。对于比较方法MBLLEN（MB），分别使用具有Poisson噪声的低光照图像和没有附加噪声的图像来训练两个模型v1和v2。：将恢复过程由我们的翻译模块完成。：删除我们模型的选择模块，并将其替换为随机生成的组合放入翻译模块。通过照明图估计提出。这两种方法都是基于Retinex建模，旨在通过保留图像的突出结构同时去除冗余纹理细节来估计照明图。在[26]中，设计了一种方法来产生充满活力和逼真的色彩，在灰度图像和NIR图像中都有很好的效果和[25]使用自动曝光校正来为低光图像产生高质量的结果。第二组也包含几个经典的甲基-TLM是已知的，输入数据可以单独合成，并且这些方法的输入与我们模型中的TLM相同。此外，彩色化还必须进行一个预处理步骤，即将合成的NIR图像和RGB图像转换到Lab空间，以分别获得真实输入和地面实况我们比较了我们的最佳LSM与监控中我们分别取出850nm和940nm LED作为我们的转换模块的输入。最后，为了验证翻译模块和选择模块的组合是否有更好的效果，我们去掉选择模块，生成一个随机组合进行翻译，这一步也可以看作是与高效图像翻译模型的一个比较.4.2. 主要结果选项卡. 图2列出了基线的比较和我们的度量方法，图4和图5是相应的可视化显示。结果表明，我们的方法在重建指标和图像质量方面都具有优势。选项卡. 4是CycleGAN [28]22.310.768.428.18彩色化[9]16.950.559.8514.97UNIT [16]21.580.709.0511.14[第十八话]20.500.628.8010.03快速切割[18]19.470.599.3511.19850nm激光22.010.628.548.68940nm紫外线21.850.658.468.61随机数22.940.688.308.60RVM（我们的）24.210.808.017.33TLM（我们24.530.807.747.28方法峰值信噪比（dB）联系我们RMSE↓Delta-E↓[27]第二十七话12.520.5210.5510.49Retinex-Net [5]8.990.2310.3513.06MB-v1 [13]†11.110.5610.3211.05MB-v2 [13]†12.260.4610.5511.00石灰[7]8.510.3310.4513.83ECCV 16 [26]双[25]12.96 0.52 10.5410.52 11.9512659数据集ICVL东京技术IDH度量PSNRSSIMRMSE德尔塔-EPSNRSSIMRMSE德尔塔-EPSNRSSIMRMSE德尔塔-E15S5CRVM24.20540.80058.01207.332516.53800.62479.124113.426326.07070.80066.18204.5289TLM24.52630.79387.84387.278216.33090.64089.255013.671225.00170.78716.48294.944313S2CRVM25.59410.83437.63596.464717.80950.69469.130212.047325.34640.80636.13644.8523TLM24.94530.80647.71026.879317.03590.68859.409612.966525.98910.81646.26604.69602113CRVM24.08100.78847.85787.459116.21890.62459.256913.6378----TLM24.23250.78847.85787.257216.27430.65479.318813.6128----表3.利用所提出的方法，在不同条件下，从近红外到RGB的转换结果LED73976076879680481884585287288889492394897315S5CRVM0.24650.32210.28690.05730.02210.01100.00720.00800.00660.00580.00580.00570.00530.0050TLM0.15380.46150.38460000000000013S2CRVM0.21960.29450.25280.08200.03770.02170.01270.01410.00980.00890.00890.00950.00990.0095TLM0.08330.48610.4306000000000002113CRVM0.12350.70590.170600000000000TLM0.12660.40510.35440.11390000000000表4.不同CSS下选择模块中ICVL的最优LSM比。所有值都是标准化的，0表示小于10−4。训练后的选择模块中的最优LSM。选项卡. 图3和图6显示了我们的方法基于不同相机和数据集的结果，结果表明我们的方法有效地实现了NIR2RGB，并且具有良好的质量。选择模块是否有效？图5显示了行业中常用的LED和我们的最优LSM之间的一致性，两者都是单独训练的。显然，选择模块的输出直接影响模型的恢复性能，我们的选择模块确实找到了一个更好的LSM。根据Tab。2、TLM的结果略好于RVM。注意，TLM与相机类型和数据集有关，而RVM仅与相机有关，因此我们可以得出结论，TLM在特定数据集和相机的情况下提供更好的结果，但RVM在光线条件变化时更鲁棒。翻译模块的性能。选项卡. 3在相同条件下比较了RVM和TLM。我们在数据集内限定RGB转换的性能。一个更好的，较好的RGB恢复结果对应于一个更好的LSM，如表中所4.第一章在联合训练过程之后，我们的方法成功地基于三种不同的 CSS 选择了最优的LSM，结果表明两种方法在同一CSS中的LSM略有不同。4.3. 进一步研究和分析我们的模型在不同的摄像机，颜色分布和光照条件下都取得了很好的效果。具体来说，我们使用三个相机的不同CSS来合成NIR和RGB图像。Tab中的结果。3和图6显示我们的选择模块的输出随CSS而变化，而最终的恢复图像在指标和人眼的直观感知方面是令人满意的。这意味着我们的模型具有很强的容忍度，可以应用于各种相机。此外，根据Tab。1，这三个数据集在颜色分布和光照条件上有很大的差异。ICVL中的场景在充足的光线下，其相应的输出-GT最佳选择850nm 940nm图5.与广泛使用的NIR LED进行视觉比较。推杆很棒。同样，在我们的IDH中，即使缺乏可见光，我们的模型仍然可以很好地恢复NIR图像。这不仅验证了我们的模型是有效的夜间监控系统的图像恢复，但也显示了其对颜色分布和光照条件的变化的鲁棒性。我们进一步给出了几个RGB转换模块的例子此外，还讨论了最优LSM选择的效果。NIR2RGB转换。我们的方法主要是寻找在物理世界中有内在联系的两类图像之间的非线性映射。我们采用输入NIR图像来指导RGB信息转换，其通过堆叠输入NIR图像来建模。图4和Tab。结果表明，我们设计的非线性映射网络结构比Sec. 2中的弱光增强、彩色化和域转移方法具有更好的性能。4.1.LSM选择。为了评估选择模块的有效性，我们将其删除，然后将固定的随机东京技术IDHICVL12660740nm760nm770纳米图7.利用窄带LED实现与LSM相对应的光谱。左侧是用于调整LED功率以适应目标光谱的仪器右边是拟合结果。NIR输出GT图6.在所研究的数据集ICVL和IDH上，在2个复用方案中的三个相机对五个典型场景的视觉比较。第一行为地面实况，其余行分为RVM和TLM两部分，每一部分从上到下分别为15S5C、13S2C和2113C的结果- 将LED多路复用到平移模型中，使得Tab中最后三行的结果。结果表明，选择模块的加入使结果更好。它表明，可以通过选择合适的LED来改善NIR2RGB转换。此外，如图5所示，最佳LSM优于工业中最常用的LED。选项卡. 3进一步表明，在实验设置的情况下，RVM和TLM倾向于选择接近可见光波段的LED当波长超过800 nm时，CSS的值在三个通道中几乎相同，这意味着在此范围内使用LED会导致缺乏映射到RGB空间的信息。信息的减少与颜色恢复的性能有关，TLM倾向于选择能够产生更多可区分信息的LSM同时，RVM的结果接近TLM的结果，这证明了我们的颜色方差最大化方案在第二节。3.1做工作具体而言，RVM的结果与图8.当在相机13S2C和真实世界中的数据集IDH上应用TLM的最优LSM时的恢复结果。由于TSC是一个固定的标准，因此数据集的更改不会影响模块的输出。对于TLM，当改变数据集时，LED模型是稳定的，只有权重略有变化。也就是说，我们的选择模块可以很好地应用于夜间监控在各种光照条件下，作为最佳的LSM选择模块是足够稳定的摄像机固定。设备上验证。我们选择了基于TLM选择模块和摄像头13S2C的LSM来验证其在设备上的适用性。图7中的拟合结果表明，实现的LED光谱与LSM基本相同。我们捕获了几个近红外图像与实现LED作为照明源，并把它们放入我们的模型。图8表明我们的模型在真实场景中工作良好。5. 结论我们已经探索了实现稳定的NIR到RGB转换的基本障碍。夜间视频监控的行业实践启发我们检索更好的窄带NIR LED的光谱复用，这是通过一种新颖的选择模块来实现的，以便最大限度地提高翻译任务的准确性设计了两种多路复用优化策略，其性能已使用现有的光谱数据集和一个新捕获的。我们还注意到，不同数据集的质量对此问题的深入调查是我们今后的工作。ICVLIDHRVMTLMGT12661引用[1] Mohammad阿卜杜拉·瓦杜德马里兰州HasanulKabir，M. Ali Akber Dewan和Oksam Chae。一种用于图像对比度增强的动态直方图均衡方法。IEEE Transactions onConsumer Electronics，53（2）：593- 600，2007。2[2] 波阿斯·阿拉德和阿哈德·本·沙哈。从自然rgb图像中稀疏恢复超光谱信号。在ECCV，2016年。5[3] 蔡建瑞、古书航、张磊。从多曝光图像学习深度单图像对比度增强器IEEE Transactions on Image Processing，27（4）：2049-2062，2018。2[4] Chen Chen，Qifeng Chen，Jia Xu，and Vladlen Koltun.学会在黑暗中看东西。在CVPR，2018年。1[5] 魏琛，王文静，杨文涵，刘家英。用于弱光增强的深度retinex分解。2018年英国机器视觉会议。二、五、六[6] 泽州丞、庆雄杨、宾胜。深着色。在ICCV，2015年。2[7] 郭晓洁，李宇，凌海滨。Lime：通过照明图估计进行低光图像增强。 IEEE Transactions on imageprocessing，26（2）：982-993，2016。五、六[8] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.要有颜色！全局和局部图像先验的联合端到端学习，用于自动图像彩色化和同步分类。ACM Transactions onGraphics，35（4）：1-11，2016。2[9] Phillip Isola，Junyan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。二、四、六[10] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。学习自动着色的表示。在ECCV，2016年。2[11] 马蒂亚斯·利默和亨德里克·PA·伦施。使用深度卷积神经网络的红外在IEEE机器学习和应用国际会议上，第61-68页。IEEE，2016. 一、二[12] Kin Gwn Lore ， Adedotun Akintayo ， and SoumikSarkar.Ll-net：一种用于自然低光图像增强的深度自动编码器方法Pattern Recognition，61：650-662，2017. 2[13] Feifan Lv，Feng Lu，Jianhua Wu，and Chongsoon Lim.Mbllen：使用cnns的低光图像/视频增强。在BMVC，第220页，2018年。二、五、六[14] Feifan Lv，Yinqiang Zheng，Yicheng Li，and Feng Lu.一个集成的24小时彩色成像增强解决方案在AAAI人工智能会议论文集，2020年。1[15] Calvin S McCamy，Harold Marcus，James G Davidson，et al. A color-rendition chart.J. App. Photog. Eng ， 2（3）：95-99，1976. 3[16] 刘明宇，Breuel Thomas和Kautz Jan.无监督图像到图像翻译网络。在神经信息处理系统国际会议上，2017年。6[17] YusukeMonno，HayatoTeranaka，KazunoriYoshizaki，Masayuki Tanaka，and Masatoshi Okutomi.单传感rgb-nir成像：高质量的系统设计和原型实现。IEEESensors Journal，19（2）：497-507，2018。5[18] 朴泰成，阿列克谢·A·埃夫罗斯，理查德·张，朱俊艳.非配对图像到图像翻译的对比学习。参见ECCV，第319-345页。Springer，2020年。6[19] 安娜·贝尔·恩·佩特罗，卡特琳娜·斯伯特和让·米歇尔·莫雷尔。多尺度视网膜。在线图像处理，第712[20] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。2[21] 梁申、岳子涵、樊峰、陈泉、刘世豪、马洁。 MSR-net：使用深度卷积网络的低光图像增强。arXiv预印本arXiv：1711.02488，2017。2[22] 我的妻子L·苏·阿雷兹，天使D·萨帕和鲍里斯·X·V·内蒂米拉 . 基于三重 dcgan 结构的红外图像彩色化。在CVPR，2017年。一、二[23] Guangming Wu，Yinqiang Zheng，Zhiling Guo，ZekunCai ， Xiaodan Shi ， Xin Ding ， Yifei Huang ， YiminGuo，and Ryosuke Shibasaki.了解如何在一天内恢复视频监控的可见颜色。在ECCV，2020年。1[24] 熊锦辉，王健，沃尔夫冈·海德里希，和Shree Na- yar.使用深红色闪光灯在额外的黑暗中观看。在CVPR，2021年。二、五[25] 张庆，聂永伟，郑伟世。用于稳健曝光校正的双照明估计。在CGF，2019年。二、六[26] Richard Zhang、Phillip Isola和Alexei A

下载后可阅读完整内容，剩余1页未读，立即下载