没有合适的资源?快使用搜索试试~ 我知道了~
1CNN-SLAM:具有学习深度预测Keisuke Tateno1,2,Federico Tombari1,Iro Laina1,Nassir Navab1,3{tateno,tombari,laina,navab}@ in.tum.de1CAMP -TU Munich2 Canon Inc.3约翰霍普金斯大学德国慕尼黑日本东京美国摘要鉴于卷积神经网络(CNN)在深度预测方面的最新进展,本文研究了如何部署来自深度神经网络的预测深度图,以实现准确和密集的单目反射。我们提出了一种方法,其中CNN预测的密集深度图自然地与从直接单目SLAM获得的深度测量融合在一起。我们的融合方案在单目SLAM方法往往失败的图像位置中进行深度预测,例如。沿着低纹理区域,反之亦然。我们演示了使用深度预测来估计重建的绝对尺度,从而克服了单目SLAM的主要限制之一最后,我们提出了一个框架,有效地融合语义标签,从一个单一的帧,密集的SLAM,从一个单一的视图产生语义在两个基准数据集上的评估结果表明了该方法的鲁棒性和准确性。1. 介绍从 运动 恢 复结 构 (SfM ) 和同 时 局部 化 和映 射(SLAM)是计算机视觉和机器人领域中高度活跃的研究领域的总称,其目标是从3D和成像传感器进行3D场景重建和相机姿态估计。最近,旨在将从移动深度传感器获得的范围地图融合在一起的实时SLAM方法已经变得越来越流行,因为它们可以用于从移动机器人到无人机的几种类型的自主代理的导航和映射,以及用于许多增强现实和计算机图形应用。这是诸如Kinect Fusion [21]的体积融合方法以及基于RGB-D数据的密集SLAM方法[30,11]的情况,除了导航和映射之外,还可以用于精确的场景重建。前两位作者对本文的贡献相等图1. 所提出的单目SLAM方法(a)可以估计比现有技术(b)好得多的绝对尺度,这对于许多SLAM应用(诸如AR)是必要的,例如,骨架被增强到重建中。c)我们的方法可以从单个视图产生联合3D和语义重建结构然而,这样的方法的主要缺点是深度相机具有若干限制:实际上,它们中的大多数具有有限的工作范围,并且基于主动感测的那些不能在阳光下工作(或表现不佳),因此使得重建和映射在户外环境中不太精确(如果不是不可能的话)。一般来说,由于深度相机不像彩色相机那样普遍存在,因此许多研究兴趣都集中在来自单个相机的密集和半密集SLAM方法上[22,4,20]。这些方法的目标是通过在相邻帧对上进行小基线立体匹配来估计当前视点的深度图,从而实现单目场景的实时重建工作假设是相机随时间在空间中平移,使得成对的对比帧可以被视为构成立体装备。立体匹配通常通过颜色一致性或依赖于关键点提取和匹配来进行单目SLAM方法的一个主要限制是绝对尺度的估计。事实上,即使相机6243(a)拟议方法(b)LSD-比例不正确(c)我们的联合3D和语义重建6244精确地执行姿态估计和场景重构,这种重构的绝对比例固有地保持模糊,限制了在增强现实和机器人领域中的大多数前述应用中的单目SLAM的使用(图1中示出了一个示例)。1,b)。一些方法建议通过将场景与预定义的一组3D模型进行匹配来经由对象检测来解决该问题,以便基于估计的对象大小来恢复初始比例[6],然而这在场景中不存在已知形状的情况下失败。单目SLAM的另一个主要限制由纯旋转相机运动下的姿态估计表示,在这种情况下,由于缺乏立体基线而不能应用立体估计,从而导致跟踪失败。最近,已经出现了一种新的研究途径,即通过学习方法从单个图像进行深度预测。特别是,以端到端的方式使用深度卷积神经网络(CNN)[16,2,3深度学习方法的一个优点是可以从示例中学习绝对比例,从而从单个图像中预测,而不需要基于场景的假设或几何约束,这与[10,18,1]不同。这样的深度图的主要限制是这样的事实,即尽管全局准确,但深度边界往往局部模糊:因此,如果像[ 16 ]中那样将这样的深度融合在一起用于场景重构,则重构的场景将完全缺乏形状细节。相关地,尽管提出了用于单视图深度预测的几种方法,但到目前为止,深度预测在更高级别的计算机视觉任务中的应用大多被忽视,文献中只有几个例子[16]。这项工作背后的主要思想是利用两个世界的最佳效果,并提出一种单目SLAM方法,该方法通过深度网络和直接单目深度估计将深度预测融合在一起,从而产生密集场景重建,其同时在绝对比例方面是明确的并且在跟踪方面是鲁棒的。为了恢复模糊的深度边界,CNN预测的深度图被用作密集重建的初始猜测,并通过依赖于类似于[4]中的小基线立体匹配的直接SLAM方案来连续细化。重要的是,小基线立体匹配有可能细化预测深度图像上的边缘区域,这是它们往往更加模糊的地方同时,从CNN预测的深度图获得的初始猜测可以提供绝对尺度信息以驱动姿态估计,使得与基于CNN预测的深度图相比,估计的姿态轨迹和场景重构在绝对尺度方面可以显著更准确。最先进的单目SLAM技术。图1,a)示出了一个示例,该示例说明了利用诸如本工作中提出的精确绝对比例进行场景重建的有用性此外,可以使跟踪更鲁棒,因为CNN预测的深度不会受到上述纯旋转问题的影响,因为它是在每个帧上单独估计的。最后但并非最不重要的是,该框架可以实时运行,因为CNN的深度预测和深度细化的两个过程可以同时在相同架构的不同计算资源上进行-分别是GPU和CPU。最近CNN的另一个相关方面是,相同的网络架构可以成功地用于不同的高维回归任务,而不仅仅是深度估计:一个典型的例子是语义分段[3,29]。我们利用这一方面来提出我们的框架的扩展,该框架使用像素级标签来将语义标签与密集SLAM进行连贯和有效的融合,从而从单个视图实现语义连贯的场景重建:一个例子示于图1。1,c)。值得注意的是,据我们所知,语义重建仅在最近才显示出来,并且仅基于立体[28]或RGB-D数据[15],即在单眼的情况下从来没有。我们验证了我们的方法与两个公共SLAM基准对最先进的单眼SLAM和深度估计的比较由于CNN预测的深度依赖于训练过程,因此我们展示了训练集取自完全不同的环境和与评估基准中可用的RGB传感器不同的RGB传感器的实验,以便描绘我们的方法的能力-特别是与实际用途相关的能力-以推广到新的,看不见的环境。我们还展示了我们的联合场景重建和语义标签融合在真实环境中的定性结果。2. 相关工作在本节中,我们回顾了与我们的框架中整合的两个领域相关的工作,即:SLAM和深度预测。SLAM存在关于SLAM的大量文献。从被处理的输入数据的类型的角度来看,可以将方法分类为基于深度相机的[21,30,11]和基于单目相机的[22,4,20]。相反,从方法论的角度来看,它们被分类为基于特征的[12,13,20]和直接[22,5,4]。鉴于本文的范围,我们将在这里只关注单目SLAM方法。对于基于特征的单目SLAM,ORB-SLAM[20]在姿态估计精度方面可以说是最先进的。这种方法依赖于提取6245每个输入帧每个关键帧图2. CNN-SLAM概述。从输入图像中提取稀疏ORB特征,以执行场景的稀疏重建以及估计相机姿态,还采用局部束调整和姿态图优化。对于直接单目SLAM,[22]的密集跟踪和映射(DTAM)通过使用具有正则化方案的短基线多视图立体匹配在GPU上实时实现密集重建,使得深度估计在彩色图像中的低纹理区域上更平滑。此外,大规模直接SLAM(LSD-SLAM)算法[4]提出了使用半密集地图表示,其仅跟踪输入图像的梯度区域上的深度值,这允许足够的效率以在CPU上实时实现直接LSD-SLAM的扩展是最近的多级映射(MLM)算法[7],其提出了在LSD-SLAM之上使用密集方法以增加其密度并提高再现精度。由于深度学习的最新进展,来自单个视图的深度预测在计算机视觉社区中获得了越来越多的关注经典的深度预测方法采用手工制作的特征和概率图形模型[10,18]来产生正则化的深度图,通常对场景几何形状进行强假设。最近开发的深度卷积架构在深度估计精度方面显著优于先前的方法[16,2,3,29,19,17]。有趣的是,[16]的工作报告了将密集SLAM的深度预测作为应用的定性结果。特别地,预测的深度图被用作Keller的基于点的融合RGB-D SLAM算法的输入3. 提出的单目语义SLAM在本节中,我们说明了所提出的3D重建框架,其中CNN预测的密集深度地图与从直接单目SLAM获得的深度测量融合在一起。此外,我们还展示了CNN预测的语义分割如何与全局重建模型相融合。图中的流程图。2勾画了我们框架的流水线。我们采用基于关键帧的SLAM范例[12,4,20],特别地,我们使用[4]中的直接半密集方法作为基线。在这种方法中,视觉上不同的帧的子集被收集作为关键帧,其姿态基于姿态图优化而受到全局细化。同时,通过估计帧与其最近的关键帧之间的变换,在每个输入帧处执行相机姿态估计。为了保持高帧率,我们建议仅在关键帧上通过CNN预测深度图。特别地,如果当前估计的姿态远离现有关键帧的姿态,则从当前帧中创建新的关键帧,此外,通过测量每个深度预测的逐像素置信度来构建不确定性图。由于在大多数情况下,用于SLAM的相机不同于用于获取CNN训练数据集的相机,因此我们提出了深度图的特定归一化过程,旨在获得对不同内在相机参数的鲁棒性。当另外执行语义标签融合时,我们采用第二个卷积网络来预测输入帧的语义分割。最后,在关键帧上创建姿态图,以便全局优化它们的相对姿态。该框架的一个特别重要的阶段,也代表了我们的提议的一个主要贡献,是用于通过小基线立体匹配来细化与每个关键帧相关联的CNN预测的深度图的方案,这是通过强制关键帧和相关联的输入帧之间的颜色一致性最小化来实现的。特别地,深度值将主要围绕具有梯度的图像区域被细化,即,其中核线匹配可以提供改进的精度。这将在第3.3和3.4小节中概述。相关地,传播细化深度的方式由与每个深度值相关联的不确 定 性 驱 动 , 根 据 特 别 提 出 的 置 信 度 测 量 ( 在Subsec.3.3)。框架的每一个阶段现在在以下小节中详细说明相机姿态估计逐帧深度细化CNN深度预测CNN语义分割关键帧初始化姿态图优化全球地图和语义标签融合输入RGB图像6246不不不不不TT我不我3.1. 相机姿态估计相机姿态估计受到[4]中的关键帧方法的启发具体地,系统保持关键帧 k1,.. kn∈ K作为在其上执行SLAM重构的结构元素。每个关键帧ki与关键帧姿态Tki、深度图Dki和深度不确定性图Uki相关联。与[4]相比,我们的深度图是密集的,因为它是通过基于CNN的深度预测生成的(参见Subsec. 3.2)。不确定性图测量每个深度值的置信度而不是[4]将不确定性降低到一个大的恒定值,我们的方法根据深度预测的测量置信度对其进行验证(在子节中描述)。3.3)。在下文中,我们将通用深度图元素称为u=(x,y),其范围在图像域中,即,u∈R2,u∈R2的齐次表示. 在每个帧t,我们的目标是估计当前相机3.2. 基于CNN的深度预测和语义分割每次创建新的关键帧时,都会通过CNN预测相关的深度图。我们采用的深度预测架构是[16]中提出的最先进的方法,基于残差网络(ResNet)架构[9]到全卷积网络的扩展。特别是,架构的第一部分基于ResNet-50 [9],并在ImageNet上使用预先训练的权重进行初始化[24]。架构的第二部分将ResNet-50中最初提出的最后一个池化和全连接层替换为一系列由解池化和卷积层组合组成的残差上采样块。在上采样之后,在输出表示预测深度图的1通道输出图的最终卷积层之前应用损失函数基于反向Huber姿态Tki = [Rt,tt]∈SE(3),即 转换是-函数[16]。由3×3旋转矩阵Rt∈SO(3)和三维平移向量t∈R3组成。通过基于目标函数的加权高斯-牛顿优化最小化当前帧的强度图像It和最近关键帧ki的强度图像Iki之间的光度残差来估计该变换。你好,Tki遵循其他方法对于深度预测和语义分割任务采用相同的架构[3,29],我们还重新训练了这个网络,用于从RGB图像预测像素级语义标签。为了处理这个任务,我们修改了网络,使其具有与类别数量一样多的输出通道,并采用了软最大层和交叉熵损失函数,通过反向传播和随机梯度下降(SGD)来最小化是E(Tki)=ρu<$∈<$σ不. .ru,Tki中国(1)值得一提的是,尽管原则上,tic分割算法可以使用,这项工作的主要目标是展示如何帧明智的分割,其中ρ是Huber范数,σ是测量残差不确定度的函数[4]。这里,r是光度残差,定义为:在我们的单目SLAM框架内,可以成功地融合站地图3.5)。.Σru,Tki=Iki(u)−It. .πKTkiVkΣΣ(u).(二)3.3. 关键帧创建和姿态图优化tion使用预训练的CNN进行深度预训练的一个限制是,考虑到我们的深度图是密集的,为了效率起见,我们将光度残差的计算仅限制在位于高颜色梯度区域内的像素子集上,该区域由图像域子集u∈u定义。此外,在(2)中,π表示将3D点映射到2D图像坐标的透视投影函数.Σπ[xyz]=(x/z,y/z)(3)措辞是,如果用于SLAM的传感器具有与用于捕获训练集的传感器不同的固有参数,则所得到的3D重建的绝对比例将是不准确的。为了改善这个问题,我们建议调整通过CNN回归的深度,其中当前相机的焦距fcur与用于训练的传感器的焦距ftr之间的比率为D (u)=fcurD (u)(5)而Vki(u)表示从关键帧的深度图计算的顶点图的3D元素Vk(u)=K−1ustecDk(u)(4)其中K是摄像机内禀矩阵。一旦获得T ki,世界坐标系中的当前相机姿态被计算为Tt=T kiTk。kiftrki其中D_ki是由CNN从当前关键帧图像Ii直接重建的深度图。图3显示了(5)中定义的调整过程在基准ICL-NUIM数据集[8]序列上的有用性(比较(a)与(b))。如图所示,调整过程之后的性能显著我不是我6247pp不()=()=KKK我K(A) 位姿轨迹精度比较25002000GroundTruth最接近的key-帧kj为DK (v)1500(a)原始深度预测Ukj (v)=JDkiU(u)J(v)+σ2(七)1000500(b) 与调节其中v=π.KTkiV王空军Σ(u)而在[4]之后,σ2是0-1350-1200-1050-900-750-600-450-300-1500150-500(B) 深度估计精度比较(c) 调整和完善白噪声方差用于增加传播的非确定性然后,根据加权方案准确度:33.99%55.75%64.52%D(u)=Ukj(v)·Dki(u)+Uki(u)·Dkj(v)kiU我 (u) +Ukj(v)(8)UKI (u)=Ukj(v)·Uki(u)Uk(u)+Uk(v).(九)RGB图像I j(a) 原始深度预测(c)调整后和细化图3.(a)直接CNN深度预测,(b) 在深度调整之后,以及(c)在深度调整和细化之后,在(A)姿态轨迹精度和(B)深度估计精度方面。蓝色像素表示正确估计的深度,即在地面实况的10%以内。在ICL-NUIM数据集的一个序列上进行比较[8]。改进了使用由CNN直接预测的深度图。改进表现在深度精度以及姿态轨迹精度方面。此外,我们将每个深度图Dki与不确定性图Uki相关联。在[4]中,这个映射是通过将每个元素设置为一个大的常数值来初始化的。由于CNN在每个帧处为我们提供密集图,但不依赖于任何时间正则化,因此我们建议通过基于当前深度图与最近关键帧上的其相应场景点之间的差异计算置信度值来代替初始化我们的因此,该置信度测量每个预测的深度值在不同帧之间的相干程度:对于那些最后,姿态图也在每个新键处更新-帧,通过用已经存在于图中的共享相似视场的关键帧创建新的边(即,具有小的相对姿态)与新添加的关键帧。此外,关键帧的姿态每次都通过姿态图优化进行全局优化[14]。3.4. 逐帧深度细化该阶段的目标是基于在每个新帧处估计为了实现这个目标,我们使用在[5]的半密集方案中描述的小基线立体匹配策略,通过在当前帧t的每个像素处计算深度图Dt和基于沿着对极线的5像素匹配的不确定性图Ut这两个图基于估计的相机姿态Tki与关键帧ki对准。估计的深度图和不确定性图然后直接与最近的关键帧ki的深度图和不确定性图融合,如下:U(u)·D(u)+U(u)·D(u)与高置信度相关联的元素,连续重新Dut kikitiUki(u)+Ut(u)(十)优化过程将比一个在[4]。UKIuUt(u)·Uki(u)Uki(u)+Ut(u)(十一)具体地,不确定性图Uki被定义为当前关键帧ki的深度图与最近关键帧kj 的深度图之间的逐元素平方差,其根据估计的变换Tki进行加权重要的是,由于所提出的基于CNN的预测,关键帧与密集深度图相关联,因此可以密集地执行该过程,即,每个元素从Ki到kj.王空军. .ΣΣΣ2[15]《易经》云:“君子之道,焉可诬也?沿高梯度区域细化深度值。由于在低纹理区域内观察到的深度往往具有U(u)=Di(u)−DkjKTkiV王空军(u).(六)高不确定性(即,Ut中的高值),所提出的方法将自然地导致细化的深度图,其中为了进一步提高每个新初始化的关键帧的准确性,我们提出在其深度图和不确定性图已经用新输入帧进行细化之后,将其深度图和不确定性图与从最近的关键帧传播的深度图和不确定性图融合(这显然不适用于第一关键帧)(深度细化过程在子节3.4中描述)。为了实现这一目标,我们首先定义一个传播的不确定性映射,KK我Kπ我6248接近高强度梯度的元素将通过在每帧处估计的深度来细化,而越来越多的低纹理区域内的元素将逐渐保持来自CNN的预测深度值,而不受不确定深度观测的影响。图3示出了所提出的深度图细化过程对深度图的序列的有效性。6249基准ICL-NUIM数据集[8]。该图在(c)中报告了在深度图的调整和深度细化之后获得的性能,示出了相对于先前情况的深度估计和姿态轨迹的显著改进。3.5.全局模型与语义标签融合所获得的关键帧集合可以被融合在一起以生成重建场景的3D全局模型。由于CNN被训练为除了深度图之外还提供语义标签,因此语义信息也可以通过我们表示为语义标签融合的过程与3D全局模型的每个元素相关联。在我们的框架中,我们采用了[27]中提出的实时方案,其目的是将从RGB-D序列的每个帧获得的深度图和连接分量图逐渐融合在该方法使用全局分割模型(GSM)来随时间对每个3D元素的标签分配进行平均,从而对逐帧分割中的噪声具有在我们的情况下,姿态估计被提供作为算法的输入,因为经由单目SLAM来估计相机姿态,而输入深度图是仅与所收集的关键帧的集合相关联的深度图。在这里,我们使用语义分割图,而不是[27]中的连通分量图。结果是场景的3D重建,在新的关键帧上递增地构建,其中每个3D元素与用于训练CNN的集合中的语义类相关联。4. 评价我们在这里提供了一个实验评估,以验证我们的方法在跟踪和重建精度方面的贡献,通过对两个公共基准数据集(Subsec.4.1),以及针对纯旋转摄像机运动的鲁棒性的定性评估(第4.1小节)。4.2)和语义标签融合的准确性(Subsec. 4.3)。该评估是在一台台式PC上进行的,该PC具有2.4GHz的Intel Xeon CPU和16GB的RAM以及具有8GB VRAM的Nvidia Quadro K5200 GPU。至于我们方法的实现,尽管CNN网络的输入/输出分辨率为304×228 [16],但输入帧和预测深度图都转换为320×240,作为所有其他阶段的输入。此外,基于CNN的深度预测和语义分割在GPU上运行,而所有其他阶段在CPU上实现,并且在两个不同的CPU线程上运行,一个专用于逐帧处理阶段(相机姿态估计和深度细化),另一个执行关键帧相关处理阶段(关键帧初始化、姿态图优化以及全局地图和语义标签融合),因此到让我们的整个框架能够实时运行。我们使用来自两个公共基准数据集的序列,即 ICL-NUIM 数 据 集 [8] 和 TUM RGB-D SLAM 数 据 集[26],前者是合成的,后者是用Kinect传感器采集的。这两个数据集都提供了相机轨迹和深度图方面的地面实况。在我们所有的实验中,我们使用了在NYU Depthv2数据集的室内序列上训练的CNN模型[25],以测试网络对看不见的环境的泛化能力;还因为该数据集包括深度地面实况(由使用Microsoft Kinect相机获取的深度图表示)和语义标签融合所需的像素语义标签注释。特别是,我们在标记子集的官方训练分割上训练语义分割网络,而深度网络则使用来自原始NYU数据集的更多帧进行训练,如[16]所述语义标注包括4个超类:地板、垂直结构、大型结构/家具、小型结构。值得注意的是,训练数据集的设置与我们评估方法的设置非常例如,NYU Depth v2包括许多客厅,厨房和卧室,这在TUM RGB-D SLAM中是缺失的,专注于办公室,办公桌,物体和人。4.1. 与SLAM最新技术水平的比较我们将我们的方法与LSD-SLAM1 [4]和ORB-SLAM2[20]的公开实现进行比较,这两种方法分别是直接和基于特征的方法的单目SLAM代表中的两种最先进方法为了完整性,我们还与REMODE [23]进行了比较,REMODE [ 23 ]是专注于密集单目深度图估计的最先进方法。REMODE的实现取自作者最后,我们还将我们的方法与[16]中的方法进行比较,该方法使用CNN预测的深度图作为最先进的基于深度的SLAM方法(基于点的融合[11,27])的输入,基于[27]4的作者的可用实现。考虑到单目SLAM方法估计绝对尺度的模糊性,我们还通过使用地面实况深度图自举其初始尺度来评估LSD-SLAM,如在[4,20]中的评估中所做的至于REMODE,由于它需要在每帧处的相机姿态估计作为输入,因此我们使用通过具有自举的LSD-SLAM估计的轨迹和关键帧。根据[26]中提出的评估方法,表1报告了基于绝对轨迹误差(ATE)的相机姿态精度,计算为均方根1github.com/tum-vision/lsd_slam2github.com/raulmur/ORB_SLAM2https://www.github.com/uzh-rpg/rpg_open_remode3campar.in.tum.de/view/Chair/ProjectInSeg6250表1. 比较ICL-NUIM和TUM数据集上的绝对轨迹误差[m]和正确估计深度的百分比(TUM/seq 1:fr 3/长办公室家庭,TUM/seq2:fr 3/无结构纹理,靠近环,TUM/seq 3:fr 3/结构纹理远。ABS.轨迹误差Perc.正确深度我们方法LSD-BS[4]美国LSD[4]美国ORB[20个]莱娜[16个]我们方法LSD-BS[4]美国LSD[4]美国ORB[20个]莱娜[16个]雷莫德[23日]ICL/office 00的情况。2660.5870.5280.4300.33719号。4100.6030.3350.01817.1944.479ICL/office 10的情况。1570.7900.7680.7800.21829岁1504.7590.0380.02320.8383.132ICL/office 20.2130的情况。1720.7940.8600.509三十七2261.4350.0780.04030.63916.7081ICL/living00的情况。1960.8940.5160.4930.23012.8401.4430.3600.027十五岁0084.479ICL/living10的情况。0590.5400.4800.1290.060十三岁0383.0300.0570.02111.4492.427ICL/living20.3230的情况。2110.6670.6630.38026.5601.8070.1670.014三十三岁。0108.681TUM/seq10的情况。5421.7171.8261.2060.80912.4773.7970.0860.03112个。9829.548TUM/seq20.2430的情况。1060.4360.4951.337二十四岁0773.9660.8820.05915.41212.651TUM/seq30.2140的情况。0370.9370.7330.724二十七岁3966.4490.0350.0279.4506.739Avg.0的情况。2460.5620.7720.6430.512二十二岁4643.0320.2260.02918.4527.649准确度:66.18%57.15%11.91%12.26%颜色地面实况我们原始深度预测LSD-SLAMREMODE图4. 在深度图准确性和密度方面的比较(从左起)地面实况,来自我们的方法的细化关键帧,来自CNN的相应原始深度预测,来自LSD-SLAM [4]的细化关键帧,来自REMODE [23]的自举和估计的密集深度图,来自ICL-NUIM数据集[8]的(office2)序列。准确度值意味着在该关键帧上正确估计的深度密度。对于每个评估序列,估计的相机平移和地面实况相机平移之间的平方误差。此外,我们评估重建精度和密度,通过评估的百分比的深度值的差异与相应的地面实况深度小于10%。考虑到表中的观察结果,我们的方法总是能够报告相对于单目方法高得多的姿态轨迹精度,这是由于它们的上述绝对尺度模糊性。有趣的是,即使在应用自举之后,我们的技术的姿态准确度平均也高于LSD-SLAM的姿态准确度,这意味着所提出的深度融合方法的固有有效性,在重建方面也存在相同的好处,因为估计的关键帧不仅比LSD-SLAM和ORB-SLAM报告的关键帧更准确,而且更密集此外,我们的方法还报告了更好的性能, 姿态和重建准确度两者,也与[16]中的技术相比,其中CNN预测的深度被用作SLAM的输入而没有任何细化,这再次证明了所提出的方案细化模糊边缘和CNN预测的错误估计的深度最后,我们在深度图精度方面也明显优于REMODE。关于由CNN(如[16]中所采用的)和RE估计的深度图的增加的准确性,6251模式,以及较高的密度相对于LSD- SLAM也显示在图。4.第一章该图将地面实况与使用我们的方法的细化关键帧、来自CNN的相应原始深度预测、来自LSD-SLAM [4]的使用bootstrap ping的细化关键帧以及来自REMODE的估计密集深度图进行比较。我们的方法不仅展示了相对于LSD-SLAM高得多的密度,而且细化过程有助于显著减少基于CNN的预测的模糊伪影,从而提高整体深度准确性。此外,我们可以注意到,REMODE倾向于沿着低纹理区域失败,与我们的方法相反,我们的方法可以通过利用CNN预测的深度值来密集地估计这些区域上的深度4.2. 纯旋转运动如上所述,与标准单目SLAM相比,我们的方法的优点之一是,在纯旋转运动下,仍然可以通过依赖CNN预测的深度来获得重建,而其他方法在连续帧之间缺乏立体基线的情况下会失败。为了描述这种好处,我们在TUM数据集的(fr 1/rpy)序列上评估了分别通过我们的方法和LSD-SLAM与地面实况相比获得的重建如图所示6252:地板:垂直结构/墙壁:大型结构/家具:小型结构GroundTruth我们的LSD-SLAM图5.通过地面真实深度(左)、所提出的方法(中)和LSD-SLAM [4](右)获得的重建之间的主要包括纯旋转相机运动的序列的比较。图6. 办公室序列(顶部,我们自己采集)和来自NYU Depth V2数据集[25]的一个序列(厨房0046)(底部)的重建和语义标签融合结果。重建用颜色(左)和语义标签(右)显示。5.可以看出,即使相机运动是纯旋转的,我们的方法也可以重建场景结构,而LSD-SLAM的结果是明显有噪声的,因为估计深度所需的立体基线对于大多数帧是不够的。我们还尝试了ORB-SLAM在这个序列上,但它完全失败了,因为缺乏必要的基线来初始化算法。4.3. 联合3D和语义重建最后,我们展示了我们的方法实现的联合3D和语义重建的一些定性结果图中示出了三个示例6,它报告了从我们自己的设置获取的序列和来自NYU Depth V2数据集的测试集的两个序列重建的办公室场景[25]。ICL-NUIM数据集的序列living 0的另一个例子如图所示。1,c)。这些图还以绿色报告了估计的摄像机轨迹。据我们所知,这是第一次使用单目相机进行联合3D和语义重建。在姿态和重建质量以及语义标签融合方面的其他定性结果是包括在补充材料中。5. 结论我们已经展示了如何通过深度神经网络将SLAM与深度预测集成是解决传统单目重建固有局限性的一个有前途的方向,特别是在估计绝对尺度、沿着无纹理区域获得密集深度以及处理纯旋转运动方面。所提出的利用小基线立体匹配来细化CNN预测的深度图的方法自然地克服了这些问题,同时在存在相机平移和高图像梯度的情况下保持了直接单目SLAM的鲁棒性和准确性。整体框架能够联合重建场景,同时将语义分割标签与全局3D模型融合,为单目相机的场景理解未来的研究途径通过用深度预测闭合循环来表示,即通过几何细化的深度图改进深度6253引用[1] E. Delage,H. Lee和A. Y. Ng.室内单幅图像自主三维重建的动态贝叶斯网络模型。在Proc. Int. Conf.计算机视觉和模式识别(CVPR),2006年。2[2] D. Eigen和R.费格斯。预测深度,表面法线和语义标签与一个共同的多尺度卷积架构。In In Proc. Int.计算机视觉会议(ICCV),2015年。二、三[3] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行预测。神经信息处理系统(NIPS),2014年。二、三、四[4] J.恩格尔,T. Schps和D.克莱姆斯LSD-SLAM:大规模直接单目SLAM。欧洲计算机视觉会议,2014。一二三四五六七八[5] J. Engel,J.Sturm和D.克莱姆斯用于单目摄像机的半密集视觉在IEEE国际计算机视觉会议(ICCV),2013年12月。二、五[6] D. Ga'l v ez-L' pez,M. Salas,J. D. Tardo's和J. 蒙蒂尔。实时单目物体猛击。机器人奥顿系统,75(PB),2016年1月。2[7] W. N. Greene,K. P.Lommel和N.罗伊 多级映射:实时密集单目猛击。2016年IEEE机器人与自动化国际会议(ICRA),2016年5月。3[8] A. Handa,T. Whelan、J.McDonald和A.戴维森RGB-D视觉里程计、3D重建和SLAM的基准。在IEEE Intl. Conf.on Robotics and Automa-tion , ICRA , Hong Kong ,China,May 2014. 四、五、六、七[9] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。计算机视觉与模式识别(CVPR),2016年。4[10] D. Hoiem,A.Efros,和M。赫伯特从一个单一的图像几何背景在计算机视觉和模式识别(CVPR),2005年。二、三[11] M. Keller,D.Lefloch,M.Lambers,S.Izadi,T.Weyrich和A.科尔布基于点融合的动态场景实时三维重建。在3D视觉国际会议(3DV)上,第1-8页。IEEE,2013年。一、二、三、六[12] G. Klein和D.默里小型AR工作空间的并行跟踪和映射。在 过 程 中 2007年 国 际 混 合 现 实 与 增 强 现实研 讨 会( International Symposium on Mixed and AugmentedReality,ISMAR)二、三[13] G. Klein和D.默里提高了基于关键帧的SLAM的灵活性.欧洲计算机视觉会议(ECCV),2008年。2[14] R. Kuemmerle , G. Grisetti , H. 斯 特 拉 斯 达 特 湾Konolige,以及W. Burgard g2o:图优化的通用框架。IEEEInternationalConference on Robotics and Automation(ICRA),2011年。5[15] K. 莱湖,澳-地Bo和D.狐狸. 用于3d场景标注的无监督特征学习机器人与自动化国际会议(ICRA),2014年。2[16] I. 莱纳角 Rupprecht,V. Belagiannis,F. Tombari,以及N.纳瓦布使用全卷积残差网络进行更深的深度预测。IEEEInternational Conference on 3D6254Vision(3DV)(arXiv:1606.00373),2016年10月。二三四六7[17] B. Li,C.沈,Y. Dai,A. V. den Hengel和M.他外使用深度特征和分层CRF回归从单眼图像的深度和表面法线 估 计 在 Proc. Conf. Computer Vision and PatternRecognition(CVPR),第1119-1127页,2015中。3[18] B. Liu,S. Gould和D.科勒从预测的语义标签进行单图像深度估计。在计算机视觉和模式识别(CVPR),2010年。二、三[19] F. Liu,C.Shen和G.是林书用于从单个图像进行深度估计的深度卷积神经在Proc. Conf. Computer Vision andPattern Recognition(CVPR),第5162-5170页,2015中。3[20] R. 穆尔-阿塔尔M. M. 蒙铁尔和J。D. 笨蛋Orb-slam:一个多功能和精确的单目slam系统。IEEE Trans.Robotics,31(5):1147-1163,2015。一二三六七[21] R. A. Newcombe,A.J. Davison,S.Izadi,P. Kohli,O. Hilliges,J.肖顿D. Molyneaux,S. Hodges,D. Kim和A.菲茨吉本KinectFusion:实时密集表面映射和跟踪。在2011年10月的第10届IEEE混合和增强现实国际研讨会上,第127-136页一、二[22] R. A.纽科姆,S。Lovegrove和A. J·戴维森Dtam:实时密集跟踪和映射。在IEEE International Conference onComputer Vision(ICCV),第2320一、二、三[23] M. 皮佐利角Forster和D.斯卡拉穆扎REMODE:探头,单眼实时密集重建。IEEEInternational Conference onRobotics and Automation(ICRA),2014年。六、七[24]O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A. 卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。国际计算机视觉杂志(IJCV),115(3):211-252,2015年。4[25] N. Silberman,D. Hoiem、P.Kohli和R.费格斯。室内分割和支持从rgbd图像推断。ECCV,2012年。六、八[26] J. Sturm,N. Engelhard,F. Endres,W. Burgard和D.克雷 默 斯 。 RGB-D SLAM 系 统 评 估 基 准 。 2012 年IEEE/RSJ智能机器人和系统国际会议,第573-580页,2012年10月。6[27] K. 塔泰诺角,澳-地Tombari和N.纳瓦布在密集slam上实现实时和可扩展的2015. 6[28]诉 维尼特,O. 米克西克,M. 利德加德,M.尼斯纳S. Golodetz,V. A. 普里萨卡留岛 Kaühler,D. W. Murray,S. Izadi,P. Perez,and P. H. S.乇大规模语义场景重建的 增 量 密 集 语 义 立 体 融 合 。 IE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功