多困扰，这使得它们成为照明条件无关的机器视觉的理想选择

50 浏览量更新于2023-10-16 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5798基于对抗性多光谱自适应Ukcheol Shin Kwanyong Park Byeong-Uk Lee Kyunhyun Lee In So Kweon韩国科学技术高等研究院（KAIST）韩国大田{shinwc159，pkyong7，byeonguk.lee，kyunhyun.lee，iskweon77} @ kaist.ac.kr摘要近年来，基于热图像的三维理解逐渐引起人们的关注，照明条件无关的机器视觉。然而，热图像的困难在于由于其低对比度和无纹理特性而导致的此外，引入额外的模态需要进一步的约束，如复杂的多传感器校准和同步数据采集。为了在没有此类约束的情况下利用额外的模态信息，我们提出了一种新的训练框架，该框架由不成对多光谱图像的自监督学习和特征级对抗适应组成。在训练阶段，我们利用不成对的RGB/热视频和部分共享的网络架构，由模态特定的特征提取器和模态独立的解码器。通过共享网络设计，深度解码器可以利用未配对RGB图像的自监督信号。图像级adversar- ial适应最大限度地减少RGB和热特征之间的差距，并最终使热编码器提取代表性和信息性的功能。基于所提出的方法，训练的深度网络显示出优于以往的最先进的方法的结果。1. 介绍3D理解任务的自监督学习，如深度，姿势和场景流估计[45，44，35，11，3，15，16，24]已经研究了减少昂贵和仔细的地面实况数据创建过程的负担。此外，最近的深度和姿态估计的自监督学习研究[43，13，3]几乎达到了可比的水平。有监督的基线[9，28，1]。然而，大多数研究都是针对RGB图像域的. 因此，这些作品显示出严重的脆弱性和性能下降，根据照明和天气条件，如在低光，多云，下雨，有雾和下雪的场景。长波红外摄像机，也称为热成像摄像机，保持一致的图像质量，因为热成像摄像机受天气和照明条件变化的影响较小。此外，由于它具有足够的图像分辨率，因此密集机器感知，例如密集语义分割[38，39]和深度估计[27，37]也是可能的。因此，用于鲁棒机器人视觉的基于热图像的3D视觉应用[7，20，37，27]最近逐渐引起关注。然而，热成像的难点在于其成像特性.热图像往往具有低对比度和低纹理信息，这是以前的自监督深度和姿态估计方法的最基本来源。为了解决热特性的问题，先前用于热图像的自监督深度估计方法[20，37，27]利用RGB彩色图像。Kim等人[20]和Luet al. [27]利用成对的立体RGB图像和立体RGB热图像进行空间图像重建为此，他们需要一个专门的传感器系统，该系统由立体RGB和一个与分束器共享同一主轴的热成像相机组成，或者由位置非常接近的立体RGB和立体热成像相机组成（图10）。1-（a））。Shin等人[37]使用具有成对RGB热图像的时间图像重建基于该方法，他们带来了基于热图像的深度估计任务的性能改善。然而，该方法也继承了上述多传感器问题，如复杂的多传感器校准和同步数据采集（图11）。1-（b））。为了解决热特性和多传感器问题，本文提出了一种新的训练框架，该框架结合了非配对多光谱图像的自监督学习和特征级对抗自适应，用于热图像的单目深度估计。所提出的方法有效地利用了额外的模态信息，而不需要任何额外的约束，如专用硬件，多传感器校准过程和传感器同步相比，以前的方法[20，27，37]（图。1-（c））。5799(a) 严格的时空约束[20，27]图1：RGB-热训练数据所需的约束。以往的热图像自监督深度估计方法在训练阶段使用RGB图像作为辅助自监督源。然而，为此目的，先前的方法[20，27，37]需要专门的硬件设置来构建精确对准的RGB-热图像对[20，27]，困难的多传感器外部校准过程[37]，以及RGB和热流之间的时间同步[20，27，37]。另一方面，我们提出的方法充分解决了RGB和热图像之间的约束。我们的贡献可归纳如下：• 我们提出了一种非配对RGB热图像的自监督学习方法，通过利用深度解码器共享、非配对多光谱图像重建和局部一致性热图像缩放方法来提供自监督信号并有效地将RGB域知识转移到热域。• 我们提出了一种对抗性特征自适应方法，通过最小化RGB和热特征之间的特征空间域间隙来增强热图像编码器的特征表示能力。• 我们证明了所提出的方法在ViViD基准数据集[23]上的定量和定性性能都优于先前的最先进方法，而不需要任何额外的约束。2. 相关作品2.1. 基于热图像最近，来自热图像的自监督深度估计方法受到关注[20，27，37，36]，以利用热图像的天气和照明条件不可知属性。然而，热图像的困难在于其图像特性，如低对比度和低纹理信息，这削弱了图像重建损失的自我监督信号。因此，大多数先前的工作[20，27，37]利用辅助的自监督源来训练深度估计网络。Kim等人[20]利用成对立体RGB图像和来自热图像的估计深度图的空间图像重建。为此，他们设计了一个传感器系统，包括两个RGB相机，一个热成像相机和一个分束器，用于RGB热成像相机的主轴对准[7]。Lu等人[27]还需要一个专门的硬件系统，RGB立体和热立体摄像机。他们利用图像翻译网络来合成类似热的左图像。然后，利用类热左热像和真实右热像之间的空间重构损失来训练深度网络。Shin等人[37]利用具有成对RGB热图像的时间重建损失来训练单视图深度和多视图姿态网络。这些方法[20，27，37]通过利用额外的自我监督资源来提高性能。然而，这些方法需要额外的约束，例如专门的图像设置，复杂的多传感器校准和同步数据采集。另一方面，我们提出的方法不需要任何额外的约束，通过利用对抗域自适应和自监督学习的未配对的RGB热视频。2.2. 无监督域自适应无监督领域自适应（UDA）的目的是将知识从有标记的源领域转移到无标记的目标领域。它在许多计算机视觉任务上取得了显着进展，如图像分类[41]，语义分割[40]和对象检测[5]。UDA的一个常见策略是通过在源域和目标域之间构建共享的嵌入空间来减少域间隙。在这个目标下，许多作品都引入了对抗训练[14]，它们之间的主要区别是嵌入空间是共享的（例如图像级[29，31，46，29，6，18，12]，特征级[29，31，46，29，6，18，12]）。水平[41，5，18，32]和预测水平[40，4，26，30，21，25]）。然而，大多数工作仍然针对的场景，从标签丰富的域到未标记的域在RGB模态。除了以前的工作，我们研究跨通道迁移学习设置，视每一个通道作为一个独立的域。此外，我们没有使用昂贵的注释，而是在这两个域上利用深度和姿态估计的自监督学习。因此，我们的网络是以完全无监督的方式训练的。(b)时空限制[37](c)没有时空限制（我们的）5800自我自我自我自我图2：我们建议的培训框架的整体流程。我们的框架的整体架构包括两个特定于域的编码器（Ethr和Ergb），一个域共享的解码器，和解码器。给定未配对的RGB和热图像，网络估计每个图像域上的深度（Drgb和Dthr）和相对姿态（Prgb和Pthr然后，通过重建每个图像序列，用自监督损失Lself训练网络同时，特征级域自适应明确地引导热提取器通过RGB和热特征图（f rgb和f thr）之间的对抗性损失L adv来包含代表性特征提取能力。3. 方法3.1. 方法概述所提出的方法旨在解决弱自我监督的热图像的问题，通过利用额外的模态信息，而不需要多传感器校准，同步数据采集，和一个专门的硬件设置。所提出的利用不成对的RGB和热图像的方法的思想二、首先，我们设计了一个部分共享的网络架构来传播一个不成对RGB的自监督损失Lrgb热视频和特征级自适应，我们提出的方法有效地利用了附加的模态信息，而不依赖于多传感器校准、同步数据采集和专用硬件设置。3.1.1培养目标该方法在训练阶段利用不成对的RGB和热图像来利用RGB域的有效自监督信号。我们提出的方法主要包括两种学习方法;基于非配对RGB热图像的自监督学习图像. 在这里，我们认为模态特定编码器是-因为我们观察到RGB和热图像有很高的RGB自我和Lthr）和特征空间域自适应，外观差距和数据分布差异。通过共享网络设计，深度解码器可以利用未配对的RGB和RGB的自监督损失。RGB和热特征之间的对抗性损失Ladv。我们训练单视图深度和多视图姿态估计网络的总体训练损失如下：热图像（Lrgb，Lthr）。RGBthrself selfLtotal=Lself+Lself+λadvLadv，（1）然而，热编码器Ethr仍然遭受in-充分的自我监督，因为损失Lrgb是不适当的-其中Lself表示自监督学习损失，与热编码器相连。因此，第二，我们ex-λadv是对抗损失Ladv的比例因子。自我-针对RGB域L rgb的有监督学习损失，在特征空间中采用了一种域自适应方法传播提供额外的自我监督，并将RGB编码器Ergb的代表性特征提取能力转移到热编码器Ethr。因此，该治疗-MAL编码器甚至可以从低纹理的热图像中学习提取信息丰富的特征图。基于网络设计，对不成对RGB-- 经由共享深度解码器从RGB源到热目标域的深度提取知识。对抗损失Ladv通过最小化RGB和热特征空间之间的域间隙来增强热特征编码器Ethr请注意，训练器是用训练器损耗Ldis训练的。（L5801⭢·不−S不|N|n=1n|N|⭢Σn=1n3.2. 对抗性多光谱特征自适应在两种模态上的自监督信号的指导下，以域不变的方式训练共享深度解码器，使得f thr和f rgb这两个特征都被很好地解码到深度空间中。然而，与RGB特征提取器Ergb相比，热特征提取器Ethr仍然倾向于提取较少区别的特征。虽然RGB和热图像在输入分布上有很大的差异，但根据场景的深度，它们的特征空间应该具有很强的空间和局部相似性因此，我们利用这一洞察力，通过对它们的特征进行对抗性对齐，将知识从RGB转移到热域。热域。训练单视图深度和多视图姿态估计网络的自监督训练损失如下：Lself=Lrec+λgcLgc+λsmLsm，（4）其中Lrec指示图像重建损失，Lgc是几何一致性损失，Lsm是边缘感知深度平滑性损失，并且λgc和λsm是超参数。在下面的小节中，我们使用两个连续的图像[It，Is]（即，目标图像和源图像）以获得简明的解释。3.3.1图像重建损失如图2、深度和姿态网络估计深度图Dt和相对相机姿态Pts，3.2.1鉴别器损失鉴别器ψ试图区分给定特征是从RGB还是热域生成的连续图像I，I. 之后，以逆扭曲方式利用源图像Is、目标深度图D t和相对姿态P t生成合成图像I t [45]。特征提取器Ethr 和dis-S图像重建损失，包括L1不同-criminator_thr帮助特征提取器E_thr从热图像生成具有RGB特征f_rgb的不可区分的特征f_thr训练判别器的损失函数LDis定义如下：通过测量合成尺寸和原始目标图像之间的差异来计算结构相似性指数图（SSIM）[42]，如下所示：L=L（f）），0）+L（f））、1）、（2）L（I，I）= γ（1 − SSIM（I，I））+（1 − γ）||我-我...||、DisMSEthrMSERGBpett t2t不t t1（五）其中，LMSE（）表示预测器的预测结果，LMSE是均方误差损失。其中γ表示SSIM和L1损耗之间的比例因子。3.2.2对抗性损失对抗损失的目的是通过最小化RGB特征f rgb和热特征f thr之间的域间隙来增强热提取器E thr的表示能力。这个过程是通过特征提取器Ethr和搜索器之间的竞争来完成的。热特征提取器E thr努力使判别器将给定的热特征E thr错误分类为属于RGB特征空间。对抗性损失，其使得特征提取器Ethr提取RGB 域类特征，定义如下：Ladv=LMSE（k（fthr），1），（3）3.3.2局部一致性热图像缩放如图3，典型的热像仪在内置管道中生成相对比例的热图像[8]。摄像机通过使用RAW图像的最小值和最大值对RAW图像进行归一化，将RAW热图像转换为缩放热图像因此，当场景内的温度分布改变时，缩放的热图像的整体对比度也改变。此外，温度过高或过低的物体会导致像室内图像那样的零对比度图像。因此，我们提出了一种局部一致的热图像缩放方法，以保持时间的一致性，并增加图像重建过程中的图像细节建议的缩放方法公式如下：IT=clampT，原始t，t−1，t+1-τmin，τmin，τmax，3.3. 自我监督训练如图2、网络是在一个自我训练中训练的t，t−1，t+1τmax−τmin（六）通过用固有矩阵、估计的深度图和估计的深度图其中定义了局部最小值-最大值（τmin，τmax）当τmin=1N%（IT，raw，σ）且τmax=相对相机姿势。即使是热成像侦察-1ΣN%（I T，raw，1−σ）。本地最小值-基于图像的损失信号被传播到共享深度解码器Dsh，并导致从RGB到通过在σ每个图像的第（1σ）百分位值。我们利用百分位值来排除过高和过低的温度.我结构损失提供了一个弱的自我监督信号，RGB-th和5802·rec−|VP|自我汽车PE不不汽车PE不不PE不SpΣΣ帧t-1帧t帧t+1(a) 默认热像仪(b) 我们提出的方法图3：局部一致的热图像缩放。典型的热成像摄像机在默认设置（a）中产生相对比例的热图像。因此，当场景内的温度分布变化时，热图像的整体对比度此外，过高或过低的温度测量会导致零对比度图像，如室内图像（左上图）。观察.之后，使用局部最小值-最大值来生成局部一致的缩放热图像。函数的作用是：在上限和下限之间夹取一个值。我们使用一幅原始的热图像作为网络的输入，局部一致的缩放图像用于重建和平滑损失的计算。3.3.3平滑度损失由于图像重建损失通常不能在低纹理和同质区域提供信息性的自我监督，因此我们将估计的深度图正则化，通过添加边缘感知平滑度来获得平滑属性3.3.5无效像素掩码我们通过检查深度一致性[3]和静态像素[11]过滤掉无效的重建信号，如下所示：L=1M·M·L（I，I），（9）VP其中，自发现掩码Mself[3]排除了定义为Mself=1Ddiff的移动物体和遮挡区域，自动掩码Mauto[11]排除了在相邻帧之间保持相同定义为M=L（Ie h，Ie h）

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

多困扰，这使得它们成为照明条件无关的机器视觉的理想选择

机器视觉光源选择

如何成为一名机器视觉工程师

机器视觉 高角度环形光

机器视觉光源的选择 csdn

机器视觉与matlab

机器学习和机器视觉的关系

机器视觉国内发展历程

工业机器视觉基础知识

简述机器视觉系统光源和镜头的作用

机器视觉专业到底适合女生吗

机器视觉不是计算机视觉

机器视觉工程师应聘攻略

机器学习和机器视觉有关联吗

写一个机器视觉的PPT

机器视觉有哪些资料可以学习

机器视觉 霍恩著 pdf

csdn 机器视觉 焦距 分辨率关系

使用pycharm学习机器视觉

机器视觉研究方向及现状分析

Pytorch文本分类(imdb数据集)，包含DataLoader数据加载，最优模型保存

最新资源

机器视觉高角度环形光

机器视觉霍恩著 pdf

csdn 机器视觉焦距分辨率关系