深度学习对齐的ToF模块实现高精度RGB-D深度测量

188 浏览量更新于2023-10-16 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9994Time-of-Flight RGB-D模块的深度端到端对准和优化邱迪1，2庞嘉豪1孙文秀1杨成熙1商汤科技2香港中文大学sylvesterqiu@gmail.com，jpang@connect.ust.hk，{sunwenxiu，yangchengxi}@ sensetime.com摘要最近，为移动RGB相机配备用于主动深度感测的飞行时间（ToF）传感器越来越流行然而，对于现成的ToF传感器，必须解决两个问题以便获得相对于RGB相机的高质量深度，即1）在线校准和对准;以及2）用于ToF深度感测的复杂误差校正。在这项工作中，我们提出了一个框架，通过深度学习联合对齐和细化首先，估计RGB图像和ToF振幅图像之间的交叉模态光流以用于对准。然后，通过改进的内核预测网络来细化对齐的深度，该网络执行内核归一化并在动态卷积之前应用偏差为了丰富端到端训练的数据，我们还使用计算机图形学工具合成了一个数据集。实验结果表明，我们的方法的有效性，实现国家的最先进的ToF细化。1. 介绍如今，基于飞行时间（ToF）传感器的RGB-D相机模块在移动设备中变得越来越流行。以负担得起的成本，它提供便携式主动深度测量。通常，与单目或立体相机模块[12，18，22，29，30]相比，ToF传感器为短距离感测提供更高精度的深度值[16]。然而，现成的ToF RGB-D相机模块存在两个问题：(i) 视角差异：深度测量最初是从ToF传感器的视角定义的，因此深度图像和RGB图像之间的对准是必要的;(ii) 误差测量：ToF传感器的深度测量遭受不同类型的误差，例如多径干扰、噪声等。*两位作者的贡献相等。庞家豪是通讯作者，这篇文章是他在商汤科技工作期间完成的。(a)未对齐的错误深度图像。（二）我们的结果。图1：针对弱校准的ToF RGB-D模块的ToF深度图像该场景是从我们的合成ToF-FlyingThings 3D数据集中选择的。这两个问题阻碍了ToF RGB-D相机模块直接用于计算摄影、增强现实和视频娱乐等应用。多视图几何体揭示了第一个问题。事实上，RGB图像和ToF幅度图像之间的像素对应关系可以在给定来自伴随着完整相机参数集的任一图像的真实深度的情况下计算[17]。然而，在部署过程中的动态变化下，移动ToF RGB- D相机参数很少能一劳永逸地校准事实上，现代RGB相机通常配备有光学图像稳定（OIS）系统，该系统动态地改变主点，以及ToF RGB-D相机模块的其他这些影响可以通过RGB摄像机的主点cx，cy和相对平移参数tx，ty的变化来充分建模[7，37];而其余参数可以视为不变。因此，需要对ToF RGB-D相机模块进行在线校准和对准。通过上述实际设置，我们假设ToF传感器和RGB相机已经用标准程序进行了校准，例如：，与[38]，并且因此具有已知的初始相机参数。然而，该集参数{cx，cy，tx，ty}在部署期间发生变化。我们将这种ToF RGB-D相机模块称为弱校准，被打断了因此，在下文中，我们还假设ToF幅度图像和ToF深度图像两者都是近似的。9995对于我们的框架，已经根据初始相机参数校正并扭曲到RGB相机的视点，1然而，对{Cx，cy，tx，ty}的随机扰动导致未对准;因此必须进行在线对准。虽然一个简单的解决方案是在运行中匹配它们的关键点，但这种方法在实践中失败了，因为ToF相机的成像过程与标准RGB相机的成像过程有很大的不同[16]。最重要的是，ToF振幅图像由位于模块上的单个光源照亮此外，由于使用红外频率，所以相同的材料在ToF振幅图像和彩色图像中可能具有显著不同直接应用多视图几何，另一个困难是第二个问题-错误的测量-如上所述。ToF传感器通过估计接收到的红外光的相移来近似真实深度，所述相移由场景几何形状、材料、光源本身等确定。除了电子设备常见的热噪声外，主要的误差来源是多径干扰（MPI）-源于ToF传感器的机制-使深度测量值远于实际测量值[16]。鉴于对准和细化问题的耦合性质，在高质量ToFRGB-D数据的帮助下解决它们将是有益的在本文中，我们提出了一种新的端到端深度学习框架，解决了由现成的ToF RGB-D模块产生的深度图像的对齐和细化任务我们的主要贡献包括：(i) 为了解决对齐问题，我们提出了一种有效的两阶段方法，用于估计ToF幅度和RGB图像之间的跨模态流，利用原始深度测量，并使用专用数据增强技术进行训练。(ii) 对于ToF深度细化问题，我们提出了一种有效的架构，ToF内核预测网络（ToF-KPN），它也采用RGB图像。通过对原始KPN的简单更改，我们可以在降低MPI的同时提高深度质量。(iii) 很难收集足够的具有高质量地面实况的真实数据用于训练。因此，我们用计算机图形学中的工具为我们的问题合成了一个大小为200的数据集。我们称我们的数据集为ToF-FlyingThings 3D，因为我们让各种物体漂浮在场景中，类似于FlyingThings 3D数据集[25]。我们称之为深度端到端对齐和优化框架亲爱的我们的论文组织如下。我们1根据ToF传感器的机制[16]，我们注意到ToF振幅图像及其相应的ToF深度基本上是对齐的。审查第2节中的相关工作。在第3节中，我们阐述了我们的框架，在第4节中，我们详细介绍了我们的数据生成和收集策略。实验在第5节中给出，结论在第6节中提供。2. 相关工作据我们所知，我们是文献中第一个为ToF RGB-D相机模块提出端到端深度对齐和细化框架的人。由于现有的工作都没有与我们相同的设置，我们简要回顾了与我们的框架的两个组成部分相关的工作，即跨模态对应匹配和ToF深度图像细化。跨模态对应匹配。我们的工作进行在线跨模态密集对应匹配，即。在ToF幅度图像和RGB图像之间进行光流估计，以解决对准问题。问题.在文献[5]中，作者提出了Log-Gabor直方图描述子（LGHD），它采用多尺度、多方向的Log-Gabor滤波器从多光谱图像对中提取特征描述子，而Shen等人提出了一种基于多尺度、多方向的Log-Gabor直方图描述子（LGHD）。 [31]利用多模态图像集中存在的结构变化。在[8]中，Chiu等人提出了交叉模态立体声，通过最佳组合红、绿、蓝三个通道来模拟红外图像，从而提高Microsoft Kinect [39]的准确性。最近的一项工作[40]应用深度神经网络来解决使用校正的近红外和RGB图像进行交叉光谱立体匹配的挑战性问题，其中提出了一种新的材料感知损失函数，专门用于车辆视觉中的应用。上述工作都没有将ToF幅度作为替代模态，也没有在弱校准立体声下匹配对应性。此外，我们的方法估计流量利用由ToF传感器获得的深度图像，而其他作品不考虑它。ToF深度图像细化。存在显著数量的关于减轻连续波ToF深度图像的误差的工作。早期的作品，如[13，11，10，27]，通常采用简化的假设，如MPI的双路径公式，导致封闭形式的解决方案或昂贵的优化。另一个工作流集中在采集侧，例如使用GHz频带而不是MHz频带中的信号来减轻漫射环境中的MPI [15，20]，或者以顺序多次捕获为代价利用光路的对极几何结构[3]这些方法可以产生物理上准确的结果，但尚未准备好进入市场。与我们的方法密切相关的是最近基于深度学习的工作，它利用了物理上精确的合成数据。在[24]中，自动编码器（U-Net）用于直接学习MPI校正深度，而[34]则从针对端到端ToF成像管道的原始相关测量Guoet al.[14]提出了深度学习方法，可以处理来自多个9996.不Xt，t，c，cty+cyXyX(2)¨XyXy(a)粗略光流估计。（b）利用ToF深度图像的流细化图2：跨模态流估计的架构概述首先通过FlowNetC估计粗略的光流然后，通过结合ToF传感器的深度测量来对于流细化，我们通过估计扰动相机参数进行深度流转换。转换后的流和粗流被送入一个小型融合网络，以获得细化流。帧融合。所有这些工作都是为了纯粹地细化ToF传感器的深度图像，因此它们不考虑相应的彩色图像。3. 调整和优化本节说明了我们用于联合对齐和细化的端到端框架。特别地，我们首先估计了用于图像对准的交叉模态稠密光流，然后提出了一种新的用于深度细化的结构--ToF核预测3.1. 交叉模态稠密流估计我们通过估计一个流（表示为W∈Rh×w×2）来解决对齐问题，其中RGB图像（表示为IRGB）和ToF幅度图像（表示为IToF）分别被视为第一和第二图像我们表示单通道h×w的翘曲操作，为了计算粗略的流量，我们采用了代表性的架构FlowNetC [9]，尽管有更高级的选择，例如。，PWC-Net [35]也适用。FlowNetC是一个具有跳跃连接的U-Net，其中编码器部分包含一个连体塔，后面是一个计算成本量的相关层。该粗略流量估计模块在图2a中示出。在第二阶段中，我们通过使用ToF传感器获得的深度图像来细化流程，轻量级融合CNN特别地，我们首先将深度图像从ToF相机的视角（由DToF表示）扭曲到RGB相机的视角，DRGB，即，DRGB=DToFRaw。对于弱校准模块，我们可以容易地估计一组新的通过解决以下最小二乘问题，计算ToF振幅图像（初始校正后）和RGB图像之间的相机参数{t，t，c，c}，2图像I通过流（翘曲场）W作为I翘曲=IW，Xy我扭曲（p），n+Wy（p）），（1）Σ¨。tx+ cyWΣ¨2.即，{t，t，c，c}= arg min（p）−DRGB（p）x¨其中Iwarped（p）表示im的第p=（m，n）个像素年龄I，对于I（p）也是如此;Wx，Wy ∈Rh×w是估计光流的x和y分量的如（1）中的扭曲操作相对于扭曲场是可微的[19]。与经典的光流估计方法相比，最近的方法通过卷积，解决这个问题相当于解决一个线性系统。tem，这是可微的。因此，它被嵌入为在我们的优化网络中。然后，我们可以将DRGB转换为另一个估计流Wconvt（下标convt表示它是从深度图像转换而来的），由下式给出：人工神经网络（CNN）不仅具有强大的学习能力，适应能力，但也更善于利用水疗中心，W转换=⋆XDRGBt+c电子邮件 .（三）y+c跨多个尺度的局部和非局部信息[23，9]。因此，我们将匹配任务转换为使用CNN估计交叉模式密集光流。我们将估计任务分为两个阶段：1）粗略光流W粗∈Rh×w×2估计; 2）流精化。在第一阶段中，我们仅基于IRGB和IToF，而在第二种情况下，我们利用ToF传感器的深度图像来细化流动细节。DRGBy最后，我们连接W粗糙和Wconvt，并将它们输入到一个轻量级的融合U-Net中，输出细化的流Wrefn。该融合CNN的架构在图2b中示出。在计算了精确的流量[2]这一公式的详细推导过程在柔软的材料中给出。X粗糙ypDRGB（p）¨¨9997，Σ^^pΩGT¨¨pΩΣs，pNsΩGT12其绝对值的总和，即、K2W（i）= W（i）|、（五）|,(5)^p pi=1p其中Wp（i）是Wp的第i个条目。其次，解决MPI是具有挑战性的，因为它几乎均匀地在大区域内引入粗差，并且很难通过滤波来解决。因此，我们建议首先添加偏置项b（p），旨在校正MPI，然后使用内核Wp 对于边缘感知滤波：D出局（p）=WT·patch（[D+b]（p）），（6）图3：使用所提出的ToF内核预测网络（ToF-KPN）进行深度细化的架构概述。这里，Wrefn，其被应用于输入深度以用于稍后的深度细化，即，，DToF参考文献为了方便起见，我们在本文的其余部分中简单地使用 D 来表示最终的翘曲深度DToFWrefn3.2. 通过ToF核预测网络进行细化众所周知，ToF深度测量会受到MPI等误差、此外，翘曲深度D不保证与RGB图像紧密对准。因此，用于深度细化的后处理过程是必不可少的。核预测网络（KPN）是最近提出的一种模型，它以数据驱动的方式对图像进行边缘感知自适应滤波[6，26，36]。给定深度图像D，普通（原始）KPN使用具有跳过连接的U-网来预测每个像素的仅在其周围操作的内核。ing补丁。具体来说，对于输出核大小为k的KPN其中patch（[D+b]（p））表示D+b上以像素p为中心的片。我们将改进的KPN称为ToF-KPN，因为它是为ToF深度图像细化而设计的它将RGB图像IRGB、扭曲的ToF幅度图像IToF_refn和扭曲深度D，并输出用于对D进行逐元素滤波的参数。其过滤方案如图3所示。我们已经进行了广泛的消融研究，并将在第5.2节中讨论我们的改良效果。这些简单的更改可以显著提高vanilla KPN的结果。3.3. 损失函数在我们的工作中，训练数据由具有完美地面真实值的合成数据和真实数据组成。为了在流量估计和深度细化中实现鲁棒性，我们将图像大小上的平均损失应用于训练。交叉模态光流估计。本模块中使用了跨多个尺度的损失。尤其是，我们-注意网络输出在尺度s乘W（s）和相应的由W（s）响应地面真值，其中n∈ {粗糙，refn}。然后给定一个训练样本，其相关损失为L=<$αsW（s）（p）−W（s）（p）。（七）（k= 3），这里W（s）（p）和W（s）（p）都是R2向量，Ns表示布雷格特Dout（p）=WT·patch（D（p））+b（p），（4）其中 Dout是输出深度， Dout（p）是其第p个像素，patch（D（p））∈Rk2表示以像素p为中心的D的矢量化块.逐像素核Wp∈Rk和偏差b∈Rh×w是KPN的输出。换句话说就是KPN输出是一个大小为h×w×（k2+ 1）的三维体。我们将为ToF深度图像细化提供改进的KPN-该比例的像素数。我们用同样的重量-将因子αs作为FlowNetC的因子[9]。深度细化。选择适当的损失函数对于在没有MPI的情况下从RGB图像学习正确的几何形状和该模块中使用了输出深度及其梯度上的101个特别地，给定输出深度Dout和对应的地面实况深度Dgt，其相关联的损失为它与（4）有两个主要的不同之处。首先，我们根据经验发现，在深度细化L深度=1N出去p（p）−Dgt（p）2001年（八）任务的香草KPN倾向于产生非常小的幅度的内核Wp在这种情况下，（4）退化为+λD出来（p）−Dgt （p）1991年，9998Doutbandb和KPN的行为就像一个U-Net。为了充分利用KPN的滤波作用，我们对核权值进行了归一化处理其中N是像素的数量，使用离散Sobel算子计算梯度[33]。在我们的实验中9999Xy图4：我们的数据集示例。第一行显示了我们的合成数据集的实例，从左到右分别是RGB图像、ToF幅度、ToF深度图像和地面实况深度。第二行显示了我们真实数据集的实例，从左到右分别是RGB图像，ToF幅度，ToF深度图像和置信度掩模。我们使用青色来表示蒙版上的可用像素。我们设置λ= 10以让ToF-KPN学习具有最小MPI的正确几何形状，同时保留细节。我们总结了三个损失函数，L粗糙，Lrefn和L深度，用于整体端到端训练。4. 数据集和增强4.1. 合成数据生成由于ToF深度感测的机制，不容易减轻ToF深度测量的误差，例如，通过使用更长的曝光时间或更高的调制频率[15，20]。因此，为ToF相机收集大量地面实况深度图像是非常具有挑战性的。ToF信号处理[4，34，14，24]的先前工作选择使用计算机图形的瞬时渲染合成数据[19，32]。我们从这些先前工作的经验中学习来合成我们的数据集。从技术上讲，我们遵循苏等人提供的方法。[34]在合成数据生成中。另外，我们随机将各种大小的不同类型的对象放入公开的Blender场景中，共有6250个不同的视图，用于培训我们的框架.我们将物体放置在在补充材料中找到。4.2. 真实数据收集我们还收集了一个真实的数据集，其中有几部智能手机配备了RGB摄像头和松下ToF深度传感器[1]。每个数据样本由RGB图像、ToF振幅图像、深度图像和二进制掩码，所有大小均为640×480。二元掩模指示高置信度的深度测量的位置在训练期间，只有具有高置信度的深度测量值才被视为通过仔细校准，在收集每个数据样本时，我们通过扭曲将深度图像、ToF幅度图像、二进制掩模和RGB图像对准到同一视点。我们的真实数据集包括400个在不同光照下采集的场景，其中42%的样本属于室内，其余的属于室外。这些数据样本补充了上述合成数据集。同样，保留20%的真实数据用于测试，其余用于训练。图4的第二行显示了真实数据的实例。4.3. 通过多视图几何的数据增强我们现在配备了合成数据（第4.1节）和真实数据（第4.2节），其中每个数据样本都很好地对齐。在对齐模块和端到端训练的训练过程中，我们从对齐的训练样本中动态生成未对齐的训练样本。通过这种方式，我们通过确保未对齐的ToF和RGB训练数据尽可能多地覆盖相机参数的允许扰动来增强鲁棒性扰动范围由所使用的装置确定。具体来说，对于每个样本，我们统一采样cx，cy在± 2以内。输入图像大小的5%。对于尺寸为640×480的图像，这些扰动可能导致真正的对准偏离初始校准20个像素，或者更多. 在我们的ToF RGB-D相机模块的所有初始tx中，我们将具有最大绝对值的t x表示为t ′，对于t ′也是如此然后我们对tx和ty进行X y[25]第25话，我的朋友t′的±30%以内和t′。多视图cal流量估计因此，我们将数据集称为ToF-FlyingThings3D我们还使用Blender中的Cycles渲染相应的RGB图像。这些一起形成{ToF振幅、RGB、ToF深度}三元组，现成的ToF RGB-D相机模块的输出相应的地面实况深度从Blender的Z通道获得每个数据样本由ToF幅度、RGB图像、ToF深度图像和地面实况深度图像组成，所有尺寸均为640×480，并且在相同的视点处生成我们随机留出20%的数据其余的用于训练，其余的用于测试。图4的第一行显示了我们合成数据的一个示例。有关合成数据集的更多详细信息，我们使用生成的{tx，ty，cx，cy}来计算从ToF传感器的角度来看，一个虚拟的RGB相机。通过此流程，我们将地面实况深度和RGB图像扭曲到虚拟RGB相机的视图，从而获得用于训练的地面实况深度和RGB图像。我们还计算了关于RGB图像作为第一图像和ToF幅度图像作为第二图像的地面真实逆流。该反向光流被用作用于训练对准模块的监督信号。请注意，我们还更新了置信度掩码，这些掩码指示由于扭曲而导致的遮挡像素或无效深度值这些掩模用于优化（2）和损失计算，其中10000不考虑无效像素的贡献5. 实验5.1. 培养规格我们已就调整及优化单元采用预先培训策略。在预训练期间，对齐模块以逐阶段的方式进行训练，也就是说，我们首先训练FlowNetC仅用于粗略的流估计，然后我们包括流细化模块，两者都用于20个epoch。同时，我们对ToF-KPN进行了40个epoch的预训练。最后，我们将对齐和细化模块堆叠在一起，进行10个时期的整体端到端微调。对于所有训练，我们使用ADAM优化器[21]批量大小为3，其中图像被随机裁剪为384×512。当从头开始训练时，学习率被设置为4×10−4，而在整体微调期间，学习率被设置为1×10−5。在这两种情况下，我们采用0的阶梯衰减率。7向每两个时期后的学习率。我们的实现基于TensorFlow框架[2]。所有模型都在Nvidia GTX 1080 Ti GPU上训练。第5.2节和第5.3节中报告的结果基于分别训练的对齐和细化模块，第5.4节中报告的结果基于联合微调的DEAR框架。5.2. 消融研究融合网络的流程细化。图2b中的相机参数估计充当将原始深度信息带入流估计的中间步骤，连同融合网络，其细化粗略的光流。本文中，我们在真实数据集和合成数据集上定量地评估在添加光流细化之前和之后的流使用平均终点误差（AEPE）作为客观评价的指标我们首先使用合成数据和真实数据来验证我们的对齐模块的准确性。具体而言，我们应用第4.2节中描述的方法从随机采样的相机参数生成测试数据。为了模拟不同水平的扰动，我们生成6组数据，每组包含1000个{ToF振幅，RGB，ToF深度}三元组伴随着地面实况流，其中扰动是相同的。随着标准偏差的增加而偏离正态分布我们的实验发现，流细化模块始终导致准确性的提高（表1）。在图5中，我们还定性地证明了流动细化的效果。使用ToF-KPN进行深度细化。回想一下，对于深度细化，我们的目标不仅是增强深度细节，RGB ToF放大器图5：结合原始ToF深度测量的光流细化极大地细化了流质量。标准偏差σ2.00 4.00 6.00数据集房Syn.房Syn.房Syn.精炼前1.281.521.482.101.592.70直接融合1.291.551.502.161.632.79细化后1.151.341.311.871.362.45表1：流量优化前后的平均终点误差实验结果表明，我们提出的ToF-KPN架构可以实现优异的细化质量。具体来说，我们验证了我们的细化模块的性能，表示为TO F-KPN，针对几个网络和超参数变化，它们是：• U-NET：一个与我们的TO F-KPN的主干具有相同结构的U-Net，但它直接回归深度。它使用与T0F-KPN相同的损失函数（8）来监督。• NO GRAD：与TO F-KPN相同，除了与TO F-KPN的（8• NO NORM：与TO F-KPN相同，除了不执行内核归一化步骤（5）。• AFT BIAS：与TO F-KPN相同，除了在应用内核之后添加偏差。• N O N ORM A FT B IAS：与N O N ORM相同，除了在应用内核后添加偏差，即香草KPN如（4）中所示。• NO NORM NO BIAS：与NO NORM相同，只是没有添加偏倚项。我们遵循[4，34]中的实验方法来分析模型行为。具体地，我们以升序对4米范围内的输入深度与地面实况深度之间的逐像素误差进行排序，并将它们分成四个分位数，通过该分位数对像素进行分类。第一个分位数（0-25%）由被识别为具有低误差的像素组成，而第二个分位数（25-50%）和第三个分位数（50 -75%）是中误差和高误差像素。最后一个分位数中的误差被视为离群值。对我们的合成ToF-FlyingThings 3D数据集的测试分割，我们计算总体MAE以及各个类别的MAE，并在表2中报告它们。我们首先观察到，我们的TO F-KPN提供了最好所有错误级别的MAE。通过比较TO F-KPN利用RGB图像，但也降低了ToF深度传感误差，如MPI和传感器噪声。这3条引自[24]，详情请参阅正文。10001(a) RGB图像（b）ToF深度（c）Vanilla KPN(d)TOF-KPN（我们的）（e）地面实况（f）（c）（g）我们的图6：图像片段的深度细化结果。香草KPN，即，NONORMAFTBIAS在（c）中，产生主导偏差项和递减核，其行为非常接近简单的U-网。如（f）所示，偏置图像与深度本身非常相似相比之下，我们的方法产生良好的偏差图像（g）。ToF幅度ToF深度图像表2：ToF-FlyingThings 3D数据集上深度细化模块的模型设计的定量研究。模型平均绝对误差（MAE）（cm参数编号低误差中间错误高错误所有[24]第二十四话4.31 3.524.692.6米Su等人 [34个]4.58 4.14 4.574.9024.3百万TO F-KPN w/o RGB2.21 1.93 2.212.442.6米表3：在ToF-FlyingThings 3D数据集上与竞争性ToF深度图像细化方法的定量比较注意，在该比较中，没有彩色图像用作输入。和N O G RAD，我们注意到，最大的增益来自加权梯度损失，没有它，它导致至少60。9%的增长。对于相同的损失函数，不同的模型结构也会导致不同的性能。表现最差的KPN变体是N O N OR-M A FT B IAS，即vanilla KPN（4），它既不进行核归一化，也不首先添加偏差。对于这个模型，我们根据经验发现，当内核在训练过程中退化为零时，偏差很快占主导地位。因此，该网络的行为非常类似于U-NET，如第3.2节所述。为了减轻这种现象并充分利用KPN的能力，可以使用内核归一化或预先应用偏差，从而导致略微较小的MSE（AFT BIAS和NO NORM）。然而，我们进一步注意到，对于N O N ORM，偏置项几乎没有贡献，因为它的性能与没有偏置项的性能相似，即，，不。执行内核归一化和添加偏见摆在首位，因为我们的T O F-KPN导致最佳性能与实质性的边缘，金为6。比第二好的模型A FT B IAS高8%。从主观上比较了NO NORM AFTBIAS和TO F-ToF深度值 [ 34 ]第24届中国国际纺织品博览会TOF-KPN（我们的）图7：显示了扫描线上不同方法的深度值以及地面实况。绿色箭头表示遭受严重MPI效应的位置。KPN也显示在图6中，其中NO NORM AFT BIAS具有主导偏差，而我们的TO F-KPN给出了更可信的结果。5.3. ToF深度图像细化方法的比较我们将我们提出的ToF-KPN与基于深度神经网络的最先进的ToF深度图像细化方法进行了比较。ToF-FlyingThings 3D实验我们比较我们的建议与其他两个代表性的方法。第一种是Su等人提出的深度端到端ToF管道[34]其将原始相关测量作为输入。在实验中，我们直接使用他们发布的模型，因为我们的ToF-FlyingThings3D数据集使用与[34]相同的场景和设置第二种竞争方法是基于自动编码器的DEEPTOF框架，该自动编码器直接处理现成的ToF深度图像[24]。原始的DEEP TO F采用了一个比我们的模型小的模型，它是在他们的真实数据集上训练的。为了公平比较，我们用我们的U-NET主干替换他们的模型，并在我们的合成数据集上训练它。我们还应用欧几里德范数作为损失函数，如[24]所示。注意，这两种方法将ToF深度图像和ToF幅度作为输入，即，不使用RGB图像。为了公平起见，我们训练了一个版本的TO F-模型平均绝对误差（MAE）（cm低误差中间错误高错误所有U-NET1.711.421.521.79NO GRAD2.191.781.962.43NO NORM1.601.371.511.73AFT BIAS1.521.291.391.62NO NORM AFT BIAS1.641.381.521.76NO NORM NO BIAS1.631.371.501.74TO F-KPN（我们1.441.191.291.5110002(a) RGB图像（b）ToF幅度（c）ToF深度（d）DEAR的结果（e）ToF深度+RGB（f）DEAR + RGB图8：深度端到端对齐和细化框架的可视化结果在前两行中，我们显示了合成数据的结果，而最后两行是由弱校准的ToF RGB-D相机模块拍摄的真实数据。KPN，不将RGB图像作为输入。MAE方面的客观结果见表3。我们看到，我们的方法，TO F-KPN，实现了最佳的性能与最小数量的模型参数。在图7中，我们展示了我们通过沿着扫描线绘制深度值来减少MPI的能力[14]第十四话我们比较了我们的改进与多反射模块（MRM）在FLAT的120静态测试图像提供的FLAT数据集。该MRM使用KPN架构，但执行过滤，ING上的原始相关测量。我们在FLAT中的静态训练数据集上微调我们的模型，使用从libfreenect2[28]中使用的默认去锯齿算法获得的深度作为输入。请注意，我们不会在没有完整背景环境的对象图像上进行训练或测试，这些图像几乎没有MPI错误，但占用了整个FLAT数据集的一半左右。在测试中，我们实现了0的MAE。69cm，而MRM为3. 88厘米。5.4. 深度端到端对准和细化框架的评估在最后一个实验中，我们在合成数据集和真实数据集上评估了我们的深度端到端对齐和细化（DEAR）框架的整体性能。为此，我们产生150个额外的错位用于测试的{ToF振幅、RGB、ToF深度}三元组（伴随地面实况深度）。它们被渲染成在由随机采样的相机参数定义的新颖视图Eters 可视化结果如图8所示，其中前两行显示的是合成数据的结果，而其余行显示的是真实数据的结果为了可视化对齐质量，在图8的最后两列中，我们分别将RGB图像与对应的输入深度DToF和输出深度Dout量化，通过组装单独训练的对齐和细化模块，然后将它们应用于合成数据，平均深度MAE从十四岁61厘米到2. 90厘米。通过联合微调整体DEAR框架，平均MAE进一步降低至二、81厘米。这表明，我们的建议能够产生高质量的细化深度，也与相应的RGB图像很好地对齐。更多的结果可以在补充材料中找到。6. 结论我们已经提出了DEAR，一种用于弱校准ToF RGB-D相机模块的深度端到端对齐和细化框架我们的对准模块估计交叉模态光流，整合来自ToF深度的信息;我们的改进模块基于专门设计的内核预测网络，解决了错误的ToF深度测量。为了获得高质量的训练数据，我们使用计算机图形学工具合成了一个数据集ToF-FlyingThings 3D。综合实验已经进行，以证明我们的建议的有效性。10003引用[1] 松下 3D 传感解决方案。 https ： //b2bsol.panasonic.biz/semi-spt/apl/en/3d-tof/. 5[2] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在第12届USENIX操作系统设计和实现研讨会（OSDI）上，第265-283页，2016年。6[3] SupreethAchar ， JosephRBartels ， WilliamLWhittaker ， Kiriakos N Kutulakos ， and Srinivasa GNarasimhan. Epipo- lar飞行时间成像。ACM Transactionson Graphics（ToG），36（4）：37，2017。2[4] Amit Adam，Christoph Dann，Omer Yair，Shai Mazor，and Sebastian Nowozin.实时形状、照明和反射的贝叶斯飞行时间。IEEE Transactions on Pattern Analysis andMachine Intelligence，39（5）：851-864，2017。五、六[5] 克里斯提安·阿吉莱拉，安吉尔·D·萨帕和里卡多·托莱多。LGHD：用于匹配非线性强度变化的特征描述符。IEEEInternationalConferenceonImageProcessing（ICIP），第178-181页，2015年。2[6] 史蒂夫·巴科、蒂伊斯·沃格尔斯、布赖恩·麦克威廉姆斯、马克·迈耶、扬·诺·va` k、艾尔·x·哈维尔、普拉迪普·森、托尼·迪罗斯和法布里斯·德塞勒。核预测卷积网络用于去噪蒙特卡罗渲染。 ACM Transactions onGraphics（TOG），36（4）：97-1，2017。4[7] 布伦特·卡尔达尼。数码相机的光学图像稳定。IEEE控制系统杂志，26（2）：21-22，2006年。1[8] Wei-Chen Chiu，Ulf Blanke，and Mario Fritz.通过交叉模态立体声改善kinect。英国机器视觉会议，第1卷，第3页，2011年。2[9] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。FlowNet：使用卷积网络学习光流。在IEEE计算机视觉和模式识别会议（CVPR）的会议论文集，第2758-2766页，2015年。三、四[10] Daniel Freedman ， Yoni Smolin ， Eyal Krupka ， IdoLeichter，and Mirko Schmidt.SRA：快速消除TOF传感器的一般多径欧洲计算机视觉会议，第234-249页。Springer，2014. 2[11] 斯特凡·福克斯飞行时间相机图像中的多径干扰补偿。第20届国际模式识别会议，第3583-3586页。IEEE，2010。2[12] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议（CVPR）中，第270-279页1[13] John P Godbaz，Michael J Cree和Adrian A Dorrington。amcw激光雷达中混合像元/多径干扰问题的封闭形式反演在Computational Imaging X，第8296卷，第829618页，2012中。2[14] Qi Guo，Iuri Frosio，Orazio Gallo，Todd Zickler，andJan Kautz. 通过学习解决3D ToF伪影10004扁平数据集。欧洲计算机视觉会议（ECCV），第381-396页。Springer，2018. 二、五、八[15] Mohit Gupta、Shree K Nayar、Matthias B Hullin和Jaime Martin。相量成像：基于相关的飞行时间成像的推广。 ACM Transactions on Graph-ics（ToG），34（5）：156，2015。二、五[16] Miles Hansard ， Seungkyu Lee ， Ouk Choi ， andRadu Patrice Horaud. 飞行时间相机：原理、方法和应用。Springer Science Business Media，2012. 一、二、四[17] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。1[18] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理 IEEE Transactions on pattern analysis andmachine intelligence，30（2）：328-341，2007. 1[19] MaxJaderberg ， KarenSimonyan ， AndrewZisserman，Koray Kavukcuoglu.空间Transformer网络。神经信息处理系统（NIPS）的进展，第2017-2025页，2015年。三、五[20] 阿丘塔·卡丹比和拉梅什·拉斯卡用GHz外差法重新思考机器视觉飞行时间。IEEE Access，5：26211-26223，2017。二、五[21] 迪德里克山口金玛和吉米·巴。 Adam：随机最佳化的方法。国际学习代表大会（ICLR），2015年。6[22] Yue Luo，Jimmy Ren，Mude Lin，Jiahao Pang，Wenxiu Sun，Hongsheng Li，and Liang Lin.单视图立体匹配。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第155-163页1[23] Wei-Chiu Ma ， Shenlong Wang ， Rui Hu ， YuwenXiong，and Raquel Urtasun.深度刚性实例场景流。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年。3[24] Julio Marco，Quercus Hernandez，Adolfo Munoz，Yue Dong ， Adrian Jarabo ， Min H Kim ， XinTong

下载后可阅读完整内容，剩余1页未读，立即下载