没有合适的资源?快使用搜索试试~ 我知道了~
5855用于密集视觉SLAM的学习网格迈克尔·布洛赫1,特里斯坦·莱德洛1,罗纳德·克拉克1,斯特凡·卢特内格2,安德鲁·J。戴维森11帝国理工学院戴森机器人实验室2智能机器人实验室为英国伦敦帝国学院摘要估计运动摄像机的运动和周围的几何形状仍然是一个具有挑战性的推理问题。从信息论的角度来看,随着包含更多信息,估计应该会在本文中,我们使用三角形网格作为紧凑和密集的几何表示. 为了允许简单和快速的使用,我们提出了一个基于视图的配方,我们预测的平面内顶点坐标直接从图像,然后采用剩余的顶点深度组件作为自由变量。通过使用基于残差的推理技术,实现了信息的灵活和连续集成。这个所谓的因子图将所有信息编码为从自由变量到残差的映射,其平方和在推理过程中最小化。我们建议使用不同类型的可学习残差,这些残差经过端到端的训练,以提高其作为信息承载模型的适用性所有组件的详细评估提供了合成和真实的数据,证实了所提出的方法的实用性。1. 介绍虽然对密集视觉同步定位和映射(SLAM)算法的大量兴趣可能是由于它们能够创建完全密集的环境3D重建(这是许多任务的重要要求,如机械手抓取规划,增强现实和安全机器人导航),但密集SLAM背后的原始动机之一是在本地化[23]。有人认为,由于估计的质量只能通过额外的测量来提高,因此利用图像中所有像素的密集方法应该能够比稀疏系统具有更好的性能。然而,这种信息论的主张只有在正确的概率模型是正确的假设下才是正确的。图1:三个示例帧的输入图像、求和特征激活和预测三角形网格。虽然平面内顶点坐标是直接从图像预测的,但剩余的顶点深度坐标是可优化的,并且将基于学习的残差来推断用于所有其他数据。这在实际的密集SLAM系统中通常不是一个关键的原因是,全密集系统使用的直接光度测量(其取决于照明和反射)具有残差,该残差在场景的许多部分中没有通过相同的计算简单的高斯/M估计器模型很好地建模此外,仅来自所有像素测量的大量测量数据已经意味着考虑估计之间的所有交叉相关性的完全概率性推断在[9,24]中对这些问题进行了很好的讨论。其结果是,基于稀疏特征的SLAM与密集重建作为一个层已经成为标准的实用方法,而不是[23]使用密集模型本身作为主地图的吸引人的承诺。决定稠密推理算法的计算成本和模型精度的关键因素之一是几何表示的选择如在5856CodeSLAM [1]中,我们对适合于基于关键帧的密集视觉SLAM的表示感兴趣;具体地,我们需要足够强大以准确地捕获观察到的场景的表示由于这个原因,我们选择依赖于三角形网格,因为它们能够以很少的自由度表示密集的几何形状。类似于[38,41],我们在2.5D中建模网格以进行数值和计算考虑。特别是,我们采用了基于视图的参数化,将图像平面坐标视为可学习的量,并将顶点深度视为可优化的量。具体地,神经网络基于单个输入图像预测网格顶点的图像平面坐标,使得当优化深度时可以很好地重建然而,代表权的选择只是整个制度的一部分。测量需要持续集成,以保证有效利用可用信息。与直接学习预测状态更新的系统相比,我们希望有一种更灵活的方法,可以连续集成新信息,而不受固定数量的帧或优化步骤的限制。为此,我们使用因子图公式,这是贝叶斯估计领域中一种成熟的方法[16]。所有可用信息都以残差的形式编码,残差是待估计变量的函数虽然这可以用进一步的残差来补充,但我们实现了两种类型的残差:保存先验信息的先验残差(例如,平滑度)和从相同场景内容的不同观测中提取信息的立体残差。然而,与传统的因子图不同,我们建议在优化框架内学习残差,以促进各个组件之间的协同作用。虽然这依赖于大型数据集的可用性,但它能够使用高维和强描述性的模型,其性能超过手动调整的模型。与以前的工作相比,特别是CodeSLAM [1],它也提倡使用紧凑的表示来实现密集的视觉SLAM,我们介绍了以下两个关键的新颖性:• 2.5D三角形网格作为场景几何的紧凑表示,其中图像平面坐标为由网络从单个图像预测,并且其中深度坐标是可优化的量。• 一个因素图制定,使用可学习的残差量身定制的建议表示,并允许连续和灵活的集成传感器信息,mation2. 相关工作传统的密集单目SLAM系统(如DTAM [23])通常使用具有密集2.5D深度图的关键帧来表示场景几何形状。估计每像素深度值在计算上是昂贵的,因此对推理方法进行近似,通常交替地优化姿态和地图并忽略互相关。这些系统中使用的残差基于光度误差,由于均匀纹理、遮挡或其他干扰,光度误差通常没有得到很好的约束。为了解决这个问题,通常会添加一个正则化器,通常基于平滑度[23]或平面[5]假设。最近,为了克服密集SLAM的这些问题中的一些许多方法(例如,[40,32,33,37,3])主张使用完全端到端的系统来从视频中预测姿势和深度。虽然这些系统通常在自动驾驶数据集上表现良好,但估计中使用的帧数是固定的,并且通常无法保证预测之间的时间一致性。其他方法,特别是CNN-SLAM [31],试图将网络预测与立体声约束相结合。立体约束基于每像素应用,因此不保留全局一致性,并且虽然CNN-SLAM对每个新的关键帧执行姿态图优化,但在过去的关键帧中描述的场景几何形状没有用新的测量进行优化。DeepTAM [39]使用单独的跟踪和映射网络,映射网络采用DTAM风格的成本量,然后用几个基于学习的模块来细化预测。与传统的密集SLAM系统一样,DeepTAM不会对姿势和深度进行联合优化,并且过去关键帧的几何形状不会使用新信息进行更新。由于优化完全密集场景几何结构的高计算成本,已经有许多尝试来找到密集3D再现的紧凑表示。大多数工作都是基于利用简单的正则性,如室内场景中的平面区域[27,15],但这种手工设计的表示最终将局限于它们可以准确捕捉的场景。最近,CodeSLAM [1],与我们自己的工作最密切相关,提出在深度自动编码器的潜在空间中学习可优化的代码,从而实现在密集视觉里程计中对姿势和地图的联合估计同样,BA-Net[30]使用深度神经网络来预测一组基础深度图,使用基础元素的线性组合的系数作为关键帧深度的可优化表示。他们更进一步,并结合Levenberg-Marquardt(LM)优化来训练表示,该优化具有固定的迭代次数和可学习的阻尼因子。与我们的系统不同,BA-Net无法联合优化多个关键帧。5857网格是一种强大而流行的表示场景几何的方法[38]。存在使网格适应图像数据的方法的许多示例(例如,[12,11])或将网格拟合到给定的点、深度或视差(例如,[2、14、26、10])。其他工作尝试生成3D网格使用深度神经网络([17,34,13]),优化([7,8])或两者[20],但这些通常集中在单个对象重建上。在MeshStereo [38]中,作者强调了获得为手头任务设计的网格的重要性出于这个原因,我们将网格顶点坐标拆分为可学习的平面内坐标和可优化的深度坐标,并训练网络以产生平面内坐标,该平面内坐标在使用地面实况优化后使重建误差最小化。最近已经提出了一些数据驱动的替代方案在[28]和[35]中,提出了基于学习的方法来开发用于密集图像对齐的鲁棒特征在[6]中,作者通过使用预训练的CNN特征进行对齐来尝试使用除了密集图像对齐之外,其他工作还集中在使用基于学习的先验来约束密集深度图的优化。例如,[36]使用网络预测的法线作为密集3D重建的先验。我们学习残差的方法是新颖的,因为训练是直接在优化框架中完成的,确保它们是为了使用我们的网格表示进行密集视觉SLAM而优化的。3. 图像条件三角网格化表示和度量之间的关系在任何推理算法中起着关键作用。虽然网格可以用少量参数表示3D场景结构,但将网格与相机信息相关通常涉及某种渲染。这种渲染过程可能很复杂[18],并且如果需要诸如雅可比矩阵之类的差分量,则对于实时密集视觉SLAM来说太慢。为了解决这些问题,我们选择使用基于视图的2.5D三角网格;也就是说,我们表示相对于相机帧的顶点坐标,并且不同地处理平面内坐标和深度坐标。平面内坐标被视为可学习的量,并由深度神经网络预测,该深度神经网络根据图像内容调节这些坐标。然而,顶点的深度坐标表示自由度的实际程度,并且不由任何神经网络预测,而是通过优化过程获得。3.1. 2.5D中的网格渲染为了保证可微性,我们对网格使用固定的连通性,并且只对每个顶点k ∈ {1,. . . N}个。顶点坐标被分割转化为平面内坐标ck(在齐次表示中)和深度xk的倒数,使得vk=ck/xk。使用反深度的动机有两个:首先,与逆深度相关联的不确定性更紧密地遵循高斯分布[22],其次,当假设三角形在3D中是平面时,完整的逆深度图与各个顶点的逆深度之间的关系是线性的 。 这 意 味 着 我 们 可 以 直 接 从 顶 点 逆 深 度 x =(x0,. . . ,xN)通过线性映射:D(x)=J(c)x,(1)其中映射(或雅可比矩阵)J(c)是平面内坐标c =(c0,. . . ,c N),并且基本上由可以经由光栅化获得的重心权重组成。由于平面内坐标在推断时是恒定的,所以像素和三角形之间的关联不改变,并且在预测平面内网格坐标之后,可以针对每个帧预先计算上述雅可比矩阵J(c)。此外,与CodeSLAM [1]相反,雅可比矩阵是稀疏矩阵,因为每个像素的逆深度仅取决于三个相关顶点。因此,稀疏操作可用于减少训练和测试时的计算3.2. 在平面坐标基于帧的图像内容I预测平面内顶点坐标c,即c=c(I)。这是使用深度神经网络实现的,该网络首先使用U-Net [25]计算像素特征,然后基于顶点局部邻域中的特征激活来扭曲规则三角形网格(见图2)。通过定义Nr个等距顶点来生成规则网格行,然后沿这些行交替分布Nc和Nc-1个类似于特征编码器网络在CodeSLAM [1]中,U-Net由四对下采样卷积和四对上采样卷积以及相应的跳过层组成。每对中的第一卷积层使用步长2,并且编码器的特征通道的大小为(16,16,32,32,64,64,128,128),解码器具有类似的设置所有卷积的核大小都是3(除了第一个卷积,它的大小是7),后面是整流线性单元。为了从特征激活到顶点坐标,我们提取每个规则网格顶点周围的补丁,并计算坐标位置的扰动,选项。从最后一层的所有16个通道中提取大小为25×25的斑块,并直接将其转换为Versatile。通过将每个面片通过一个完全连接的层,并将其输出添加到规则网格顶点的坐标中,来生成网格顶点的位置。边界顶点将强制停留在帧边界上。5858并且这通过预测的平面内坐标C.由于我们不需要编码器(因为这个功能现在由最小二乘优化来执行),我们的优势在于可以用不完整的深度数据来训练网络,其中丢失的像素被忽略。图2:从图像到网格:输入图像通过具有跳过层的U-Net馈送以产生逐像素特征。在规则网格顶点的补丁被提取,然后通过一个完全连接的层,以产生扰动的顶点位置。3.3. 训练损失训练过程的目标是获得能够生成适合于表示基于视图的3D几何形状的网格的网络我们建议通过直接在3D重建上定义训练损失来做到这一点。对于给定的一组平面内顶点坐标,我们计算在最小二乘意义上最适合逆深度图的相应顶点深度由于顶点x的逆深度坐标与逆深度图D(x)之间的关系是线性的,因此我们可以通过求解法方程在单个步骤中计算最佳拟合:J(c)TJ(c)x= J(c)TD。(二)由于我们依赖于三角形网格来近似环境,并且通常这将永远不会导致完美拟合,因此将存在一些剩余的重建误差(参见图3中的示例)。这可以通过求解x然后代入等式来计算(一):E=. I− J(c)(J(c)TJ(c))−1J(c)TD。(三)在消除x之后,最终重构误差将是预测的平面内坐标c的函数。因此,使用重建误差作为损失,将鼓励导致较低重建误差的坐标,这通常通过使坐标与高曲率区域重合来实现(参见图1)。最终的损失被定义为优化后的残差平方,这可以在大多数最先进的深度学习框架中实现,包括反向传播。J(c)的计算依赖于差分光栅化,为了快速实现,我们假设网格三角形不能超过一定的大小(图像高度的一半),并且没有重叠的三角形。这大大简化和加速了计算,并且通过辅助损耗来强制执行这两个额外的并行处理。与CodeSLAM [1]相比,逆深度渲染需要4. 误差项和先验知识在单目视觉设置中,环境的几何形状和相机的运动都是未知的。类似于其他最近的工作[1,30],我们希望在基于关键帧的设置中联合这个问题可以用公式表示为因子图[16],其中每个关键帧i与两个变量相关联:姿态Ti和顶点的逆深度x i。然后,通过与相关变量相关联的因子对与图的各个部分有关的任何信息进行编码。在本设置中,提出了两种类型的因子:• 仅连接到单个关键帧的倒数深度的先验因子。这可用于对平滑度约束进行编码并减少比如说,网格• 与两个关键帧的姿势和反向深度相关联的立体因素。这是用来结合信息从图像与知识-这两个都是对同一场景的观察。采 用 残 差 表 示 法 , 先 验 因 子 被 编 码 为 映 射 pi(xi),并且立体声因子被编码为映射sij(xi,xi,Ti,Ti),其中i和j是k个帧索引,并且其中映射可以取决于图像Ii和Ij。这种方法的优点在于,可以组合因子以表示任意数量的帧,可以容易地对附加信息进行编码并将其添加到系统中(例如,来自其他传感器模态),并且可以应用其他概率方法,例如边缘化(变量消除)。4.1. 先验因素先验因子pi(xi)显式地编码关于场景几何形状的先验知识,并且可以以图像Ii为条件。但是先验也可以手动建模,例如惩罚不太可能对应于真实场景的粗糙网格。然而,在这里,我们建议通过使用与第3.2节中所采用的相似设置来学习数据驱动的先验,以预测平面内顶点坐标。特别是,我们使用相同的U-网架构来预测特征激活和提取每个顶点的补丁。基于这些补丁三种不同类型的线性稀疏先验计算。为了编码独立的顶点深度信息,我们直接5859图3:基于不同表示的逆深度重建的比较。从左至右:输入图像、地面实况逆深度、具有学习先验的基于网格、针对地面实况优化的基于网格、具有先验的基于CodeSLAM、针对地面实况优化的基于CodeSLAM。将每顶点片Pk变换为每顶点残差pvtx(xk)=avtx(Pk)xk+bvtx(Pk)其中avtx和bvtx被实现为全连接层。这是扩展到允许三角形相关的信息进行编码,以及,如倾斜线索。为此,对于每个三角形,t=(xk,xl,xm),其中堆叠片Pt=(Pk,Pl,Pm),计算形式为ptri(t)=atri(Pt)t+btrri(Pt)的线性残差。最后,对边e=(xk,xl,xm,xn)也做同样的处理,它包括两个相邻三角形的所有顶点。所有分量被聚合成稀疏矩阵A(I)和向量b(I)以获得组合线性矩阵A(I)。虽然在完美的朗伯和平滑环境中,使用光度残差是适当的,但它通常具有小的收敛盆地,并且对于非朗伯效应和遮挡缺乏鲁棒性因此,我们想要更进一步,并尝试基于其对齐性能来学习立体声残差。作为第一个设计规范,我们希望残差是尺度无关的,因此选择它仅是密集对应ui,uj的函数。此外,我们希望残差是对应关系的一个相当简单的函数,以便实现预计算并允许快速迭代。因此,我们建议首先预处理图像i和j乘以Y(·),然后查找对应关系,最后p-ply一些轻量级映射r(·):siju(xi,xj,Ti,Tj)=r(Y(Ii)[ui],Y(Ij)[uj]).(七)这是特征度量误差[6,30]的稍微更一般的形式我们再次利用卷积并选择Y(·)以具有与第3.2节中讨论的相同的架构,除了不同数量的输出fea之外。真实渠道在预测两个图像中的特征并通过密集对应将它们匹配之后,映射r(yi,yj)为每个像素el生成残差。它由两部分组成(另见图4):r(yi,yj)=(yn−yn)·w(yi,yj),(8)所有顶点逆深度的先验:i jp(x)= A(I)x + b(I).(四)图3通过描绘其最小二乘解提供了该先验的可视化。4.2. 立体声系数立体因子用于利用关键帧之间的重叠视场 它将图像中的信息与它们代表对同一场景的观察这一事实相结合。对应的残差sij(xi,xj,Ti,Tj)可以并且应该取决于图像Ii和Ij。这种残差的一个可能的例子是光度误差。 这可以通过首先计算从帧i到帧j的所有像素的密集对应来实现u=π(T−1T π−1(u,D(x)[u]),(5)其中第一部分计算特征向量的第n个元素的差,并且不包括任何额外学习的分量以避免冗余。第二部分由多层感知器(MLP)w(·)组成,其生成残差的加权。它是的3个隐藏层的大小Nw,并具有标量输出。我们对特征通道Ny、残差维数和隐藏层维数Nw的不同组合进行了实验,发现Ny= 3、单个残差和Nw= 3的组合表现良好。虽然在优化期间,出于效率原因没有通过w计算梯度,但是w可以接管加权功能并且例如降低不可靠对应的权重。请注意,训练过程中的反向传播将通过优化步骤计算,并将更新所有可学习的组件,包括MLPw。jj iiii ii其中方括号符号[u]表示在像素u处的查找,π将齐次点坐标投影到像素坐标,并且π-1使用倒数深度反向投影到齐次点坐标。 有了这个,标准的单向像素光度残差可以用公式表示为[19]:siju(xi,xj,Ti,Tj)=Ii[ui]−Ij[uj]。(六)4.3. 训练设置保持训练尽可能接近测试设置通常是有益的,因此我们通过推出内部因子图优化来训练网络权重,这是通过阻尼高斯-牛顿迭代完成的。然而,由于计算的原因,必须限制变量的数量和优化步骤(见图5)。我们只优化一个顶点深度的倒数,5860伊伊朱伊杰图4:输入图像以及生成的纹理和权重(蓝色低,红色高)。两者都作为立体声残差r的一部分被学习。在左下角的示例中,可以观察到墙上的镜面反射是如何被降低权重的。将反深度调整为一个常数值。用于训练的最终损失由完整图像上的逆深度重建损失组成此外,不是仅使用3个迭代步骤之后的重构误差,而是在所有迭代上对误差求和并通过先前迭代的误差加权。这再次降低了具有非常接近的对象的训练示例的权重,这可能会干扰训练过程。总之,与测试设置的差异是迭代次数有限,缺乏姿势优化,深度渲染阻尼高斯牛顿Xn反向深度的恒定初始化以及仅使用两个关键帧。下面的评估部分将调查其中的一些差异。然而,我们想强调的是,与许多其他方法相比,使用基于残差的公式提供了高度的模块化,并且除了其他好处之外,还可以组合任意数量的关键帧。对应计算功能图5:基于成对帧训练可学习残差的设置。初始深度顶点坐标x0被初始化为常数值,并与网格网络输出c组合以生成深度图D。这随后被转换成密集的对应关系U使用地面实况相对姿态T。 最后,无论是前p和立体残差r被评估并用于计算阻尼高斯-牛顿更新步骤Δx。由于这需要计算雅可比行列式,因此也计算这些雅可比行列式(突出显示的箭头)。在训练过程中,会推出多个步骤,并使用重建误差来更新p、Y和r中的残差相关权重。单向两帧设置并仅采取3次迭代步骤。 也就是说,在训练期间,我们从数据集中采样图像对Ii和Ij以及它们的相机姿态Ti和Tj,并如下构造最小二乘问题:L(x)=p(x)2+s2(u,u)(9)ui5. 实验评价与讨论5.1. 数据集和训练设置在训练期间,我们需要具有重叠视场的成对帧。在数据模态方面,我们需要访问相关帧的图像、深度和姿态。我们使用SceneNet RGB-D [21](SN)作为合成数据集,TUM对于这两种情况,我们将图像转换为灰度,128×96的分辨率,并通过拾取连续帧来创建配对(我们跳过TM的7帧以增加基线)。我们发现有必要通过扰动整体规模来增加数据集,以避免过度拟合学习的由于数据集大小有限,在TM上进行微调时,这一步骤尤为重要我们使用Nr= 9行顶点和Nc= 11列(95个顶点)。所有网络都使用ADAM优化器进行训练。网状网络在SN上训练8个epoch,使用64的批量大小和1e-4的初始学习率。它在30个时期内对TM进行微调,学习率1E-5。残差生成网络使用32的批量大小和1 e-4的初始学习率在SN上训练6个它在TM上微调了40个历元。=A(I)x2 Σ2+ b(I)n+r(Y[u],Y[u]),5.2. 场景深度我我我i i jjui预测网格的定性例子显示其中这些项使用缩写Yi=Y(Ii)来写出。虽然xi是受优化步骤影响的变量,但训练将最终损失反向传播到可学习的先验分量A和b以及立体声分量Y和w(经由r)。反演深度的初始化起着重要的作用。在观察到网络会利用任何形式的噪声初始化过程后,我们选择了初始化。在图1中我们观察到网格的顶点是如何被吸引到深度不连续性或高曲率区域,如房间角落。该图还描绘了在补丁提取之前发生的来自U形网的最后一层的总激活蓝色区域(低激活)吸引顶点,而红色区域排斥它们。不同的属性可以评估,以分析所提出的网格表示的适用性,为视觉运动。D*- Ln我CXnDDnWUnGT*L我YRYCp5861表1:不同稀疏表示产生密集深度图的能力的比较。在SN(Mesh SN)上训练的学习网格,在SN上训练并在TM(Mesh TM)上微调的学习网格,与学习网格具有相同数量顶点的规则网格,以及在SN和TM数据集上根据[39每个表示都针对地面实况深度图进行优化。DS错误网格SN网格TM注册网格CodeSLAMSN L1库存0.00910.0105 0.0159 0.0198L1相对于0.02200.0247 0.0370 0.0464TML1 inv 0.02080.0188 0.0267 0.0346L1相对于0.04620.04200.0586 0.0751表2:使用学习的先验时重建性能的比较。对于标记为AS的指标,图像已通过单个因子自动缩放以匹配地面实况。DS错误网格SNMesh TM CodeSLAML1 inv 0.1864 0.25150.1692L1相对值0.37020.5907 0.3742SNL1 inv AS0.07440.1250 0.1243L1相对AS0.15660.2751 0.2814L1 inv 0.28970.1291 0.2981L1相对于0.57860.22890.6056TML1 inv AS 0.14850.0704 0.1710L1相对AS 0.30530.1427 0.3675表3:具有不同优化设置的两帧评估(固定:固定姿势,自由:自由姿势,自由+缩放:在平均逆深度上具有额外残差的自由姿势)和初始化(gt:地面实况,gtn:具有噪声的地面实况,const:常数,id:标识)。所有L1 inv.DS损失深度姿势固定自由自由+比例序号gt 0.0439 0.1343 0.0592SN gtn gt 0.0438 0.1342 0.0595SN常数gt 0.0499 0.1688 0.0635SN gt gtnSN gt idSN常量IDTM gt idTM常数ID序号gt 0.0581 0.0614 0.0579SN gtn gt 0.0578 0.0639 0.0588SN常数gt 0.1321 0.2017 0.1167SN gt gtnSN gt idSN常量ID表4:多帧结果,L1 inv在16个SN样本上平均。框1 2 4 8 16L1 inv0.0687 2019年12月31日星期一和几何估计。我们首先看看最好的可能的重建,可以通过拟合网格地面真相逆深度图。这是针对SN和TM进行的,我们比较了仅在SN上训练的网格,在TM上微调的网格,常规网格和基于CodeSLAM的128D编码[1]。与DeepTAM相同的反向L1(L1 inv [1/m])重建度量[39]和DeMoN [32]以及相对误差(L1 rel [1])报告在表1中。所有报告值均为1000个样品的平均值。对于SN,这些是1000个验证序列的第一个示例。对于TM,每第40帧被采样。在SN的L1 inv低于0.011/m的情况下,可实现的重建误差非常低,并且表明这不是所提出的网格表示的限制。该误差也低于利用规则网格或基于CodeSLAM的编码获得的误差虽然相当微不足道,但在TM上微调网格有一些好处,但由于数据集的大小(77,555个训练示例),这总体上是一项困难的工作。图3显示了优化的重建的一些示例针对网格化和CodeSLAM的地面实况的结构。它还描述了学习的先验知识,这是我们想要研究的另一组量。虽然先验本身不一定需要匹配有意义的深度图,但是所获得的基于先验的预测表明情况就是这样,并且这些可以例如用于初始化。我们在表2中对此进行了量化,表2报告了针对学习的网格和CodeSLAM(经由零代码预测)的SN和TM上的先验的重构准确性。如所预料的那样,当与以前的最优网格比较时,得到的误差增大了。与最佳网格相比,在TM上微调时可以观察到更大的效果。此外,CodeSLAM似乎实现了类似的单次重建,但这是通过其编码之前的更强尺度来解释的。在校正尺度偏移后,我们的网格方法导致显著降低的误差。5.3. 多帧设置训练过程与最终设置在多个方面不同。这包括所采用的帧的数量、变量的选择、迭代的数量以及变量的初始化。光度特征度量5862Image Groundtruth Optimal 16 8 4 2 1Prior图6:针对不同帧数优化的单个关键帧。0.80.70.60.50.40.30.20.10.00 2 4 6 810迭代工程优化程序,使用预测的网格,但随后采用测光误差和网格上的虽然这似乎实现了类似的性能时,提供良好的初始化,其性能恶化与穷人的初始化。我们可以在查看用于立体声残差的特征激活和相应的加权时解释我们增加的收敛盆地(见图4)。与原始图像相比,可视化的纹理表现出更高的平滑度,并且当查看权重时,可以观察到诸如镜面反射的干扰被掩盖。图7显示了多个示例的迭代步骤的误差。我们可以观察到,重建误差持续下降,即使我们通过训练期间使用的三次迭代也最后,图7:16个SN示例的10次迭代的L1 inv重建误差。绿色:中位数,红色:平均值。表3收集了在两帧设置中完成的实验的多个结果。与训练相反,这执行20个高斯-牛顿迭代步骤,其中如果需要,阻尼已经被适配。此外,它显示了不同的初始化和不同的优化程序的最终重建误差。后者包括具有固定姿态的优化(类似于训练)、具有自由姿态的优化以及具有自由姿态但具有附加平均逆深度约束的优化(使用地面实况平均逆深度实现为附加残差)。我们可以观察到,当我们打开姿态自由度时,重建效果更差。这是由于无标度训练(标度被随机扰动以改善先验和立体声残差之间的平衡)引起的标度漂移。这通过最后的优化设置来确认,该最后的优化设置经由额外的残差引入尺度信息并且实现与具有固定地面实况姿态的设置类似的结果。此外,我们提供了不同的初始化,从地面真理恒定的深度和身份构成的结果 。 对 于 SN 和 TM( 没 有 地 面实 况 姿 态 可 用 于 验证),我们观察到,使用额外的尺度残差限制了不同初始化的效果特别是,身份姿态初始化可以非常远离实际的地面真相,这表明我们获得了一个大的收敛盆地。在表3中,我们还提供了一个手的结果在图6和表4中,我们报告了相对于多个其它帧优化关键帧的深度的随着帧数的增加,即使在训练期间只使用单个对,误差也会减少。6. 结论在本文中,我们研究了使用三角形网格的运动和几何形状的联合估计使用单目相机。我们研究了如何通过使用基于视图的公式来有效地使用网格,使用深度神经网络预测平面内顶点坐标,并将顶点深度保持为可优化的数量。在第二步中,这由学习残差补充,以允许可用信息的模块化整合。这用于学习纯粹的数据驱动先验以及利用由观察相同场景产生的图像中包含的信息的残差。对合成数据集和真实数据集的广泛实验评估证实了许多设计选择,但也证实了保持训练接近最终设置的重要性从这里继续,我们想要研究减少数据集需求的方法我们还计划扩展到一个完全成熟的SLAM系统,可能会研究以世界为中心的网格以及使用增量编辑和细化程序。致谢本文的研究得到了Dyson Technology Ltd.的支持。L1-inv误差[1/m]5863引用[1] 迈克尔·布洛施、扬·恰尔诺夫斯基、罗纳德·克拉克 、 斯 特 凡 · 洛 伊 特 内 格 和 安 德 鲁 ·J. 戴 维 森CodeSLAM- 学习密集视觉SLAM的紧凑、可优化的表示。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。二、三、四、七[2] 安德烈·a的Bo' dis-Szomoru' ,海·koRiemenschneider和吕克·范·古尔。超像元网格用于快速保边曲面重 构 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)上,2015年。3[3] Vincent Casser、Soeren Pik、Reza Mahjourian 和Anelia Angelova。没有传感器的深度预测:利用结构从单目视频中进行无监督学习。在2019年全国人工智能会议(AAAI)的会议记录中。2[4] Ronald Clark,Michael Bloesch,Jan Czarnowski,Stefan Leutenegger , and Andrew J. 戴 维 森 LS-Net:学习求解单目立体的非线性最小二乘.在欧洲计算机视觉会议(ECCV)的论文集,2018。2[5] Alejo Concha和Javier Civera DPPTAM:从单目序列进行密集分段平面跟踪和映射。IEEE/RSJ智能机器人与系统会议(IROS)IEEE,2015年。2[6] Jan Czarnowski,Stefan Leutenegger和Andrew J.戴维森语义纹理的鲁棒密集跟踪。在2017年国际计算机视觉研讨会(ICCVW)上。三、五[7] Ama eülDelaun o y和MarcPollef e ys。密集多视图三维建模的光度束平差在IEEE计算机视觉和模式识别会议(CVPR)上,2014年。3[8] 艾玛·艾尔·德朗和伊曼纽尔·普拉多斯。用于优化基于三角形网格的曲面的梯度流:应用于处理可见 性 的 3D 重 建 问 题 。 International Journal ofComputer Vision(IJCV),95(2):100-123,2011. 3[9] Jakob Engel,Vladlen Koltun,and Daniel Cremers.直接稀疏测程法。IEEE Transactions on PatternAnalysis and Machine Intelligence(PAMI),2018年。1[10] Guilherme Pinto Fickel , Claudio R. Jung , TomMalzbender , RaminSamadani , andBruceCulbertson.基于图像域三角剖分的立体匹配与视图插值IEEE图像处理,22:3353-3365,2013。3[11] Orcun Goksel和Septimiu E.萨尔库迪安基于图像的变 分 网 格 。 IEEE Transactions on MedicalImaging,30:11-21,2011。3[12] Alberto Gomez , Veronika A. Zimmer , BisheshKhanal , Nicolas Toussaint , and Julia A.施 - 亚伯 。 过 度 分 割 图 形 。 arXiv 预 印 本 arXiv :1806.00411,2018。3[13] 放大图片作者:David G.金布莱恩·罗素马修·奥布里PAPIASNET:一个学习3D表面生成的方法。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。3[14] Rui Huang,Danping Zou,Richard Vaughan,andPing Tan.使用玩具无人机进行基于图像的主动建模。IEEE机器人与自动化国际会议(ICRA),2018年。3[15] 迈克尔·凯斯无限平面的同时定位和映射。IEEE机器人与自动化国际会议,2015年。2[16] Michael Kaess 、 Hordur Johannsson 、 RichardRoberts 、 Viorela Ila 、 John Leonard 和 FrankDellaert。iSAM 2:使用贝叶斯树进行增量平滑和映 射 。 International Journal of Robotics Research(IJRR),2012.出现。二、四[17] 放 大 图 片 作 者 : Angjoo Kanazawa , ShubhamTulsiani,Alexei A.埃弗罗斯和吉坦德拉·马利克从图像集合中学习特定类别的网格重建在2018年欧洲计算机视觉会议(ECCV)上3[18] HiroharuKato 、 YoshitakaUshiku 和 TatsuyaHarada。神经3D网格渲染器。在IEEE计算机视觉和模式识别会议(CVPR),2018年。3[19] ChristianKerl,JürgenSturm,andDanielCremers. 用于RGB-D相机的密集视觉SLAMIEEE/RSJ智能机器人与系统会议,2013年。5[20] Chen-Hsuan Lin,Oliver Wang,Bryan C Russell,Eli Shechtman,Vladimir G Kim,Matthew Fisher和Simon Lucey。用于视频对齐的3D对象重建的光度网格优化。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年。3[21] JohnMcCormac、AnkurHanda、StefanLeutenegger和Andrew J.戴维森场景网RGB-D:500万张合成图像能否在室内分割上击败通用ImageNet预训练?在2017年国际计算机视觉会议(ICCV)的会议记录中。65864[22] 何塞·玛丽亚·马丁内斯·蒙铁尔,哈维尔·西韦拉,和安德鲁·戴维森.单目SLAM的统一逆深度参数化 。 在 Proceedings of Robotics : 科 学 与 系 统(RSS),2006年。3[23] Richard A.作者声明:作者声明:作者声明:戴维森DTAM:实时密集跟踪和映射。在2011年国际计算机视觉会议(ICCV)的会议记录中一、二[24] 放 大 图 片 作 者 : Andrew J. Davison 和 StefanLeutenegger。单眼视觉里程计:稀疏联合优化还是密集交替?IEEE机器人与自动化国际会议,2017年。1[25] Olaf Ronneberger , Philipp Fischer , and ThomasBrox.U-Net:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议(MICCAI),2015年。3[26] Antoni Rosinol,Torsten Sattler,Marc Pollefeys,and Luca Carlone.具有结构规则性的增量式可视化惯 性 三 维 网 格 生 成 。 arXiv 预 印 本 arXiv :1903.01067,2019。3[27] 雷纳托·F放大图片作者:Paul H. J. Kelly和AndrewJ.戴维森致密平面SLAM。在2014年国际混合和增强现实研讨会(ISMAR)上。2[28] 坦纳·施密特理查德·纽科姆和迪特尔·福克斯。密集对应的自监督视觉描述符学习。IEEE机器人与自动化国际会议(ICRA),2017年。3[29] 尤尔根·斯特姆,尼克·拉斯·恩格尔哈德,费利克斯·恩德雷斯,沃尔-弗拉姆·伯加德,丹尼尔·克雷默斯。RGB-D SLAM系统的评估基准。IEEE/RSJ智能机器人与系统会议(IROS),2012年。6[30] 承周唐、平谈。BA-Net:密集束调整网络。在国际学习表征会议(ICLR)的会议记录中,2019。二、四、五[31] 馆野圭介,费德里科·汤巴里,纳西尔·纳瓦布。在密集slam上实现实时和可扩展的增量分割。IEEE/RSJ Conference on Intelligent Robots andSystems(IROS),2015年。2[32] Benjamin
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功