没有合适的资源?快使用搜索试试~ 我知道了~
实时深度图融合的基于机器学习方法
4887RoutedFusion:学习实时深度图融合SilvanWeder苏黎世联邦理工学院JohannesSchoünbergerMicrosoftMarc Pollefeys苏黎世联邦理工学院/微软马丁河OswaldETH苏黎世摘要深度图的有效融合是大多数最先进的3D重建方法的关键部分。除了要求高精度外,这些深度融合方法还需要可扩展和实时能力。 为此,我们提出了一种新的基于机器学习的实时深度图融合方法。类似于Curless和Levoy的开创性深度图融合方法,我们仅更新局部体素组以确保实时能力。我们提出了一个神经网络,而不是一个简单的线性融合的深度信息,预测非线性更新,以更好地考虑典型的融合错误。我们的网络是由一个2D深度路由网络和一个3D深度融合网络,有效地处理传感器特定的噪声和outliers。这对于表面边缘和薄对象特别有用,对于这些对象,原始方法遭受增厚伪影。我们的方法优于传统的融合方法和相关的学习方法的合成和真实数据。我们证明了我们的方法在重建精细的几何细节从噪声和离群污染的数据在各种场景中的性能。1. 介绍多视点三维重建是计算机视觉领域的一个重要融合来自多个相机视点的深度图是大多数最近3D重建流水线中的重要处理步骤[59,58,27,1,44,43,12,10],特别是对于真实的三维重建。时间应用[21,37,55,11]。我们从机器学习的角度重新审视了通过深度图融合进行3D重建的问题。 这项任务的主要困难是处理各种数量的噪声,离群值和丢失的数据。融合噪声深度图的经典方法[9,21]是对截断符号距离函数(TSDF)进行平均。这种方法有很多优点:1+)更新是本地的(截断的),可以在常量中完成时间为固定数量的深度值。体素网格的高层次使用可以通过体素哈希[37]或八叉树[49]轻松减少。2+)在线更新易于实现,噪声测量融合到[9]第九话图1:标准TSDF融合与我们学习的深度图融合方法(基于Kinect数据[48])。由于更明智的决策过程中,我们的方法更好地handles噪声和精细的几何细节。只有很少的操作。3+)由于局部独立更新,该方法在计算上是廉价的并且高度可并行化。然而,该方法也有一些缺点:1-)平均值仅是零均值高斯噪声的最佳估计,但实际误差分布通常是非高斯的、非中心的和深度相关的。2-)更新是线性的,并且必须根据预期的噪声水平进行表面的最小厚度调整。因此,增厚伪影沿着表面边缘和对于薄对象结构变得明显。3-)当从相反方向进行薄物体的深度测量时,这个问题甚至更加严重。然后,曲面消失,因为线性TSDF更新相互抵消。4-)线性融合权重在TSDF聚集期间没有适当地考虑视图方向依赖性沿观察方向的噪声水平通常与正交方向上的噪声水平非常不同。5-)融合方法无法处理总离群值。深度图必须预先过滤,否则不正确的测量将使场景变得混乱。6-)融合参数-4888必须针对特定场景和传感器来调整ETER,并且通常难以在运行时间和重建质量的不同方面之间找到良好的折衷在本文中,我们的目标是解决上述缺点,同时保持所有的优点,trans-mapping方法与合理的额外的计算时间,仍然满足实时要求。为此,我们提出了一种学习方法,将噪声和离群污染的测量融合到单个表面中,执行非线性更新以更好地处理对象边界和薄结构,并且对于实时应用来说足够快。图1显示了我们方法的示例输出。总之,本文• 提出了一种基于学习的实时深度图融合方法。由于其紧凑的架构,它只需要很少的训练数据,并且不容易过度拟合。• 我们提出了一个可扩展的和实时的神经架构,是独立的场景大小。因此,它适用于大量的现实世界场景。• 我们显示了标准TSDF融合的缺点的显著改进它具有两个优点:1)它具有自然从多视图设置产生的各向异性噪声分布; 2)它通过避免不一致的更新来减轻薄对象和表面边界上的表面增厚效应。2. 相关工作体积深度图融合。通过他们的开创性工作,Curless和Levoy [9]提出了一种用于融合噪声深度图的优雅方法,该方法后来被KinectFusion [21]等众多作品采用,更可扩展的概括如体素哈希[37,33]或分层场景表示,如体素八叉树[16,49,34]和分层哈希[24]。特别是对于像Infini-TAM [23]这样的SLAM管道,体积融合由于其实时能力而成为标准方法。在这种情况下,它也被扩展为变得更准确和鲁棒[8],以及通过场景部分的额外表面配准来改善SLAM,以考虑[55,32,11]中提出的姿势漂移。具有额外中值滤波的方法[42,34,33]提高了鲁棒性,并且仍然具有实时能力,但有效性有限。全局优化方法[59,27]如果进一步利用语义信息[19,6,20,44,43],则可以更好地处理噪声和离群值,但它们在计算上昂贵且不具备实时能力。在[65,31]中,作者提出了基于阴影恢复形状的已融合SDF几何形状的细化方法。这些方法中的绝大多数直接融合RGB-D图像,Zoll hofer等人。[66]请提供最近的调查。所有这些方法通过更新测量深度周围的更宽的体素带来处理噪声测量,从而导致薄几何形状上的增厚伪影。基于曲面的融合方法基于表面的方法用局部点样本逼近表面,这可以进一步编码附加的局部属性,例如法线或纹理信息。已经提出了多种方法e.G. MRSMap [50]使用八叉树来存储多分辨率surfel数据。基于点的融合方法[25,29]将surfel表示与下一段讨论的概率融合相结合。ElasticFusion [55]处理实时循环闭合并在线校正所有表面估计。Scho?ps等[47]提出了一种具有实时网格构造的深度融合方法基于面元的方法的缺点是缺少面元之间的连通性信息。非结构化的邻域关系只能通过最近邻搜索来建立或通过空间划分数据结构来简化。在我们的工作中,我们决定依靠体积表示,但将我们的方法扩展到非结构化设置是未来工作的一个有趣途径。概率深度图融合。 为了解释输入深度图中和沿着不同视线方向的不同噪声水平,融合问题也可以被转换为概率密度估计[15],同时通常假设高斯噪声模型。Keller等人[25]提出一种基于点的融合方法,其直接更新点云而不是体素网格。Lefloch等人[29]将该思想扩展到基于各向异性点的融合,以便在从不同入射角观察表面时考虑不同的噪声水平。Zienkiewicz等人的基于网格的融合方法。[64]允许在已知固定拓扑的各种网格分辨率上进行深度融合Woodford和Vo- giatzis [56]的概率融合方法在[52,51]中也使用了类似的基于射线的可见性约束,但由于射线势的复杂优化,这些方法不具备实时能力。各向异性深度图融合方法还跟踪融合协方差[57]。类似地,PSDF Fusion [13]示例对方向相关传感器噪声进行建模。与我们的方法相反,所有这些方法都假设特定的噪声分布,主要是高斯分布,这通常不能正确地模拟真实的传感器观测。基于学习的重建方法。已经提出了几种基于学习的方法来融合、估计或改进几何形状。SurfaceNet [22]联合估计多视图立体深度图及其体融合,但由于每个相机视图需要完整的体素网格,因此对内存的要求非常高。在[30]中,在经典TSDF融合上学习多视图一致性。RayNet [39]使用马尔可夫随机场沿着射线势对视图依赖性进行建模3DMV [10]将2D视图信息与预融合的TSDF场景相结合,以共同优化形状和语义。里格勒等4889根据输入深度计算深度布线从全局体素网格中提取TSDF值基于局部体素网格的计算深度融合将预测的TSDF值更新到全局体素网格Vt−1Vt−1V*t−1VtV*t−1vtDt德维特Ct图2:将深度图集成到全局TSDF卷中的系统概述。 2D深度布线网络接受深度输入,并决定TSDF体积内每条射线的更新位置。该网络校正噪声,离群值和缺失值,并进一步估计每射线的置信度值。然后,对于每条射线,我们提取一个深度和视图相关的局部体素网格(浅蓝色),其中也包括相邻的射线。我们沿着每条射线采样S值,以表面为中心。然后,深度融合网络采用现有TSDF值的局部网格、深度和置信度来预测适当的更新。然后,预测的TSDF值(红色)被写回全局卷。我们的方法学习输入深度的鲁棒加权,并执行非线性更新,以更好地处理噪声,离群值和薄对象。al. [40]使用标准TSDF融合深度图,随后用神经网络对融合模型进行后处理此外,基于分层体积深度学习的方法[3,7,12]解决了噪声测量,离群值和缺失数据的影响所有这些方法都对RX×Y×Z定义在整个场景上。融合过程是渐进的,即:使用Curless和Levoy [9]引入的更新方程,对于位置x,每个深度图被一个接一个地积分为Wt−1(x)·Vt−1(x)+w(x)·v(x)具有高内存需求的体素网格不是真实的,时间能力。 此外,有几个作品,学习Vt(x)=t tWt−1(x)+wt(x)(一)基于输入图像预测3D网格[18,17,54]。学习场景表示。Ladicky等人[28]利用随机森林通过学习的局部点特征从点云直接估计等值面此外,对于在隐式空间中学习3D重建的方法存在多种建议[35,38,5,36]。这些方法显示了有希望的结果,但它们仅在单位立方体上操作,因此仅限于单个对象或小场景,并且它们不适合于在线重建。与所有这些方法相反,我们的方法与场景的大小无关此外,我们的方法在在线过程中使用学习,这允许利用已经融合的信息来融合新的深度图。在[2,60]中,作者提出了神经模型,该模型可以学习用于SLAM应用的紧凑且可优化的2.5D深度表示。DeepTAM [62]也解决了SLAM,但映射部分严重依赖于手工制作的照片和相应的权重,以形成深度估计的传统成本量这些方法都没有解决全局模型融合。3. 方法我们首先回顾标准的TSDF融合方法,提供上下文和介绍符号之前,我们提出了我们的学习TSDF融合方法。3.1. 标准TSDF融合标准TSDF 融合整合给定深度图D t=1 , . , T∈RW×H从已知视点Pt∈ SE(3)和摄像机本征函数Kt转化为离散的带符号距离函数Vt∈ RX×Y×Z和权函数Wt∈Wt(x)=Wt−1(x)+wt(x),(2)从零初始化卷V0和W0开始。带符号的距离更新vt及其对应的权重wt将下一深度图Dt在时间步长t处的深度测量值积分到TSDF体积中。这些更新函数传统上被截断之前和之后的表面,以确保有效的运行时间和鲁棒的重建的精细结构的表面给出嘈杂的深度测量。截断距离参数的选择通常需要繁琐的手动调整以适应特定场景和深度传感器以及考虑运行时间。如果截断距离选择得太大,则由于更大的增厚伪影,薄结构的重建变得更加困难,并且由于必须针对每条射线更新更多的体素,融合过程变得更相反,小的截断距离导致时间有效的更新,但不能处理深度测量中的较大噪声在本文中,我们克服了这一限制,学习功能vt自动从数据。我们的系统是基于相同的上述更新方程和我们的学习功能只有很少的计算开销相比,传统的TSDF融合。因此,我们的方法有利于实时深度图融合,并可以很容易地集成到现有的重建系统。 在下面,我们详细描述我们提出的方法3.2. 系统概述我们的方法包含两个网络组件:深度路由网络和深度融合网络。该流水线由以下四个基本处理步骤组成,如图2所示:4890t−1t−1不不不不t−11. 深度路由:深度路由网络采用原始深度图D t并估计去噪和异常值校正的深度图Dt,并进一步估计相应的置信度图C t.此网络路由深度位置,以便沿每条观察光线读取和写入TSDF2. TSDF提取:根据路由深度值D,我们使用TSDF提取局部相机对齐的体素网格通过三线性插值从对应的全局体素网格Vt-1、Wt-1得到数据Vt和权重Wt。3. 深度融合:的深度融合网络获取前面处理步骤深度图,而第三维度S表示沿射线采样的窗口的局部深度采样维度这个数S与标准TSDF融合中 对于每条射线,局部窗口独立地以其各自的深度值Dt 为中心,并从体积Vt-1中离散地采样到固定数量的S值。我们根据场景的分辨率选择采样的步长,并使用三线性插值来消除采样伪影。随后的深度融合的输入It是所有可用的局部信息的组合,即,校正的深度图Dt、置信度图Ct以及(D,C,W,V) 并计算本地提取的TSDF值V和TSDF权重Wt tt−1t −1t−1t−1TSDF更新版本4. TSDF更新集成:预测的TSDF更新将v坐标转换回全局坐标系,It=ΣtCt∗t−1∗Σt−1 ∈RW × H×(2S+2).(三)得到vt,然后将其集成到全局TSDF vol中。使用等式中的TSDF更新来计算Vt,Wt。(1)、(2)。这些处理步骤将在下一小节中详细介绍3.3. 深度路由使用深度路由网络,我们在将深度图传递到深度融合网络之前对深度图进行预处理,其主要动机是去噪和异常值校正。为此,该网络预测去噪深度图和每像素置信度图C t=1,.,T∈RW×H。图3展示了我们的网络架构,它使用了一个全卷积的U-Net [41]。具有用于置信度和深度预测的联合编码器和单独的解码器。此外,我们不使用归一化层,因为它通过向结果添加深度依赖性偏差而对深度预测性能产生负面影响。深度图和置信度图由两个单独的解码器处理,瓶颈层的输出用作其输入。3.4. TSDF提取不是像在标准TSDF融合中那样独立地处理视图t的每条射线,而是故意选择基于较大邻域的数据来计算TSDF更新,以便对表面位置做出更明智的决定。此外,2D输入数据还保存关于表面位置的有价值的信息,如通常由深度不连续性指示的。我们认为,融合网络可以最好地受益于2D和3D数据源时,他们已经在对应,因此提出了一个视图对齐的局部邻域提取。然后,3D TSDF数据和2D输入数据可以容易地连接并馈送到网络中因此,为了有效地实时更新全局数据Vt-1,Wt-1,我们提取局部、视图相关的TSDF体积和相应的在随后的更新预测步骤之前,我们显式地过滤总离群值,其中Ct Cthr,并将它们在It中的相应特征值设置为零。3.5. 深度融合我们的深度融合网络将局部3D特征体积I t作为输入,并预测局部TSDF更新v∈RW×H×S。 该架构在两个维度上是完全卷积的,并且信道维度沿着摄像机观察方向。我们的网络是相对紧凑的,从而有利于实时计算。我们的深度融合网络以两阶段的方式运行,如图3所示。第一阶段编码局部和全局信息的视锥。我们顺序地通过两个连续卷积层的编码块传递输入3D特征体,其中两个连续卷积层具有交织批量归一化、使用泄漏ReLU的非线性激活和丢弃层。每个块的输出与其输入连接并通过下一个块。随着每一个区块,神经网络的感受野这种顺序的特征提取导致在100维特征向量中的每一个射线的视锥。第二个网络零件采用特征体积并预测沿每条射线的TSDF更新。特征的数量通过使它们通过具有两个1×1卷积层的卷积块来顺序地减少,所述卷积层与泄漏ReLU、批归一化和dropout layers.在最后一个块中,我们在第一层中直接从40个特征减少到20个,然后在最后一个卷积层中减少到S个TSDF值,其中我们在输出上应用tanh-激活,将其映射到范围[-1,1]。注意,预测的TSDF更新值v可取任何值。网络可以决定不更新TSDF,重量V∗t−1 ∈RW×H×S。 前两卷所有,例如,在异常值的情况下。 相反,它可以减少尺寸W、H对应于现有TSDF值的影响的宽度和高度,如果它们包含离群值的话。WVD,ˆ4891不图3:建议的网络架构。我们的深度路由网络由一个U-Net(深度1)和两个独立的解码器组成,解码器预测校正后的深度图和相应的置信度图。深度融合网络在一系列编码块100中沿着每条射线提取特征然后,这些特征用于预测沿射线的TSDF更新3.6. TSDF更新积分所有光线i上的损失函数为为了计算更新的全局TSDF体积,L= 1000ˆ∗∗ ˆ∗(五)我们将预测的局部TSDF更新变换回全局坐标系。为此,我们应用先前提取步骤的逆操作,即,我们使用相同的三线性插值权重重新分布值。事实上,我们实际上重新调整了此任务的更新权重wt,其中W t累积场景中每个体素的飞溅权重。此外,我们还将W t用于过滤后极端离群值1。3.7. 损失函数和训练程序我们管道中的两个网络分两步进行训练首先,我们训练深度路由网络,然后使用预训练的路由输出来训练融合网络。深度路由网络。我们通过计算绝对深度值以及深度图梯度的L1损失,以监督的方式训练深度预测头,如[14]中所提出的。为了训练信心头,我们选择了自我监督的方法[26]。因此,最终损失函数具有以下形式:ΣL2D=ciL1(yi,yi)+ciL1(yi,yi)−λlogci(4)我其中,yi、yi分别是像素i处的预测深度值和地面实况深度值,并且ci ∈Ct是置信度值。超参数λ根据经验设置为0。015深度融合网络 尽管预处理在路由网络中,滤波后的深度图可能仍然包含噪声和异常值,这些噪声和异常值应当由深度融合网络进一步处理。每个全局TSDF更新步骤应当a)整合关于真实几何信息的新信息,并且b)不破坏有价值的、先前融合的表面信息。我们通过在融合期间在时间t选择随机更新步骤并惩罚更新后的日志之间的差异,3Dλ1L1(Vti,Vi)+λC DC(Vti,Vi)我这里,L1表示原始TSDF值上的L1损失,并且Dc表示沿着每条射线i计算的TSDF值的符号之间的余弦距离。的目标第一项是保留精细的表面细节(通过L1的方式),而项DC确保表面位于符号距离场的零交叉处 权重λ1= 1且λ C= 0。1是经验发现的。4. 实验在本节中,我们首先介绍其他实现细节和我们的实验设置。接下来,我们评估和讨论我们的方法对合成和真实世界数据的有效性。我们证明,我们的方法优于传统的TSDF融合和国家的最先进的基于学习的方法在重建精度方面,只有很少的计算开销。4.1. 实现细节所有网络都在PyTorch中实现,并在NVIDIA TITANXp GPU上训练。我们使用RMSProp优化算法训练了两个网络,tum 0. 9,深度路由网络的初始学习速率为1 e-5,深度融合网络的初始学习速率为1 e-3。丢弃层的概率设置为0。二、对于所有专家-因此,我们在顺序过程中训练我们的神经网络,其中我们首先预训练深度路由,然后预训练深度融合网络。端到端的联合改进并没有改善系统的总体性能。为了训练深度路由网络,我们使用从100个ModelNet[61]或ShapeNet [4]对象中采样的10K帧,并使用人工斑点噪声对其进行扰动。数据被打包成大小为4的批,梯度为在更新工艺路线之前,∗W∗·V+w·v校准体积V=t−1t−1t∗ ∗t∈RW×H×S,网络权重 由于tWt−1+wt局部真实值V∈RW×H×S. 因此,我们定义TSDF更新方程,我们必须使用批量大小为1的批量来训练我们的深度融合网络。但是,每批更新1详见补充材料。体积中的大量体素,4892损失的定义,并与批量归一化,我们在训练过程中获得强大的收敛。由于我们的网络只有很少的参数,所以很难过拟合,只需要很少的训练数据。事实上,我们可以在ModelNet [61]或ShapeNet [4]中的10个模型上训练整个网络(给定一个预先训练的深度路由网络),总共有1000个深度图,并且它已经可以稳健地推广到其他场景。此外,我们可以在20个epoch中从头开始训练网络(每个epoch在所有1000帧中通过一次)。除非另有说明,我们使用S=9和C thr=0。9所有实验2.对于所有实验,我们使用体素大小0。008m,对应于ShapeNet和ModelNet的网格分辨率为1283运行时间。对于一个深度图(W=320,H=240),通过深度路由网络和深度融合网络的前向传递分别花费0.9ms和1.8ms,而整个流水线以15fps运行这些数字可以通过更有效的实现来改进,但已经满足实时要求。4.2. 结果我们在合成和真实世界数据上评估了我们的方法,并与传统的TSDF融合[9]作为基线以及Dong等人提出的最先进的PSDF融合方法进行了比较。[13 ]第10段。此外,我们将最先进的基于学习的3D重建方法Occu-pancyNetworks [35]和DeepSDF [38]进行了比较。评估指标。 为了量化我们的方法的性能,我们通过将估计的TSDF与地面实况进行比较来计算以下四个度量• MAD:计算所有TSDF体素的平均绝对距离,并测量精细表面细节的重建性能。• MSE:均方误差损失计算如下:所有TSDF体素,并测量大表面偏差上的重建性能。• 准确性:我们比较了占用网格上的实际重建准确性。我们在地面实况中提取占用网格,并通过前牵引具有负TSDF值的所有体素• 联合上的交集(IoU):我们在占用网格上计算交集,这是一个替代的性能指标的准确性。这些指标不仅量化了我们的管道将深度图融合到TSDF中的程度,还量化了它在对占用进行分类和重建几何结构方面的表现。4.3. 合成数据为了评估我们的方法2进一步评价见补充材料。方法MSE疯Acc.IOU[e-05][%][0,1][38]第三十八话464.00.049966.480.538[35]第三十五话56.80.016685.660.484TSDF融合[9]11.00.007888.060.659TSDF融合+路由27.00.008487.480.650我们的无路由5.90.005193.910.765我们5.90.005094.770.785表1:ShapeNet上的定量结果[4]。我们的方法优于TSDF融合和其他基于学习的方法融合噪声(σ=0。005)从ShapeNet对象渲染的深度图。路由网络的好处随着噪声水平的提高而增加(见图1)。(五)。[38]第三十八话Occ.Net. [35]第三十五届美国[9]图4:ShapeNet上的定性结果[4]。我们的方法优于所有其他方法,在重建精细的细节(见汽车车轮和扰流板),并产生更光滑的表面(输入噪声水平σ =0。005)。图是用人工深度相关的乘性噪声分布扰动的。对于ModelNet和ShapeNet,我们从官方的训练测试分割中随机抽取训练和测试数据。ShapeNet。然后使用在ShapeNet上训练的模型来评估我们的方法与其他方法相比的性能因此,我们从测试集中融合了60个对象(每个测试类10个-飞机,沙发,灯,桌子,汽车,椅子)的噪声深度图,这些对象在训练期间没有看到。为了进行比较,我们在Occupan-cyNetworks的情况下使用提供的预训练模型来完成点云。在DeepSDF的情况下,我们使用作者提供的代码从头开始训练该评价的定量结果如表1所示。我们的方法在所有指标上都优于标准TSDF融合以及纯基于学习的方法OccupancyNetworks [35]和DeepSDF [38]我们的方法显着提高了融合隐式网格的精度以及它们的IoU,MAD和MSE分数。结果还表明,我们的路由网络的潜力。然而,我们的路由网络的全部好处只有在查看真实世界的数据实验和图5时才变得明显。48930.0350.0300.0250.0200.0150.0100.0050.01 0.030.05噪声0.01 0.03 0.05表2:我们的方法对3D场景数据的定量评估(MAD[mm])[63]。在3D场景数据上,该方法优于标准TSDF融合方法这些实验也显示了我们的路由网络的好处图5:不同噪声水平σ的评估。 左图显示了不同噪声水平σ∈{0。010 03,0。05}。 我们的路由网络稳定了我们的方法以及标准的TSDF融合,高噪声水平,埃尔斯在右边,我们展示了标准TSDF和我们的方法在ModelNet测试数据上的相应定性这些图显示了我们的方法的去噪能力,其中标准TSDF融合完全失败。图4说明了我们的方法在处理噪声和重建薄结构方面的优势。与标准TSDF融合相比,地面实况中的平坦表面在我们的结果中显得更平滑。此外,薄结构被更好地重建并且包含更少的伪影。增厚的工件在汽车的轮辋上也是可见的,我们的方法产生了准确的结果,DeepSDF和OccupancyNetworks都失败了。DeepSDF和OccupancyNetworks都倾向于对训练数据中不太常见的表面细节进行过度平滑,例如汽车的扰流板或者椅子腿上的细节模型网。为了测试我们的方法{0。010 03,0。05}并将其与标准TSDF fu.锡永我们还分析了深度路由网的效果通过在我们的管道中忽略它并结合标准TSDF融合对其进行测试来处理融合结果。图5显示了我们的流水线在所有测试噪声水平下的性能都优于标准TSDF融合。它还表明,我们的深度路由网络稳定的融合数据corrupt与极端的噪音水平。当用于数据预处理时,我们的深度路由网络也改善了标准TSDF融合的结果。4.4. 真实世界数据我们还对真实世界的数据集进行了评估,并与其他最先进的融合方法进行了比较。由于缺乏地面实况数据,我们使用在合成ModelNet数据上训练的模型,使用人工和经验选择的深度相关噪声分布,σ=0。01. 因此,我们还表明,我们的方法不一定要在真实世界的数据上进行训练,但可以从仅在有噪声的合成数据上进行训练中鲁棒地推广到真实域3D场景数据[63]. 为了量化重建结果的改善,我们评估我们的方法相比,标准的TSDF融合的场景提供周等人。[63]。由于没有体积地面实况效用-应用于现实世界的数据时。对于这些场景,我们使用标准的TSDF融合来融合每个场景的所有帧,然后,我们只融合每10帧使用标准的TSDF融合以及我们的方法进行评估。表2显示了融合3D场景数据集的5个场景的定量重建结果[63]。我们的方法在所有场景上的性能都显着优于标准TSDF融合,而无需对真实世界的数据进行训练。我们进一步展示了在图8中的加莱市民场景中与标准TSDF以及PSDF融合[13]的定性比较。结果表明,与标准TSDF融合和PSDF融合相比,我们的方法更好地重建了精细的几何细节(手、手指和面部),并产生了更平滑的表面[13]。有关此数据集的更多定性示例,请参阅补充材料。[53]第五十三话.为了评估我们的方法在薄结构上的性能,我们还评估了街道标志数据集,同样没有微调网络。 该数据集由50个RGB帧组成,我们使用COLMAP SfM流水线[45,46]来计算相机姿态和深度图。图6显示了不同最新方法在该场景下的定性结果。我们的方法明显优于TV-Flux [58]和标准TSDF,同时产生与射线势[43]相当的结果。结果也使我们的路由网络的好处显而易见。与路由,我们的方法重建更好的完整性和更少的噪音文物比。请注意,TV通量和射线势都涉及在减少噪声和完成缺失数据之前进行平滑的离线优化这就阻止了这些方法的实时应用,因为这个小场景上的射线势在集群上运行了许多小时。RGB-D数据集7-场景[48]。为了在Kinect数据上定性评估我们的方法,我们融合了7-Scenes [48] RGB-D数据集。对于每个场景,我们选择了第一个轨迹,并使用我们的管道以及标准的TSDF融合来融合它。在图7中,我们表明,与标准TSDF融合相比,我们的方法显著降低了噪声并减轻了表面增厚效应。值得注意的是,椅子腿和桌子边缘的重建具有比标准TSDF融合更高的保真度。此外,我们的方法在去噪和去除场景中的离群点方面表现出很强的性能。模型网重构中的MAD我们的无路由标准TSDF标准TSDF,带路由我们MAD [mm]标准TSDF我们方法休息室复印室石墙仙人掌花园义民TSDF0.00950.01100.01170.01040.0126我们的无路由0.00550.00570.00470.00550.0071我们0.00510.00510.00430.00520.00674894[43]第四十八话:我的世界标准TSDF [9]Ours w/o Routing Ours图6:我们的方法在路标数据集上的定性结果[53]。我们的方法在重建薄表面方面优于标准TSDF融合以及TV-Flux [58],同时显示出与射线电位相当的性能[43]。我们的方法推广得相当好,因为它是在ModelNet上训练的,从来没有看到立体深度图的噪声和离群值统计,也没有看到这个场景的形状统计,因此输出不太完整(C thr= 0)第五章)标准TSDF [9]我们的w/o路由我们的图7:RGB-D数据集7-场景头部场景的定性比较[48]。我们的方法显著减少了噪声伪影和增厚效果-特别是在椅子腿的薄几何形状[13]第十三话图8:加莱市民场景的定性比较[63]。我们的方法重建的手和面部几何的细节程度比标准的TSDF融合和PSDF融合。5. 结论我们提出了一种新的实时深度图融合方法,解决了标准TSDF融合的常见局限性[9]。由于学习的非线性TSDF更新-而不是手工制作的线性更新-我们的在对象边缘和薄结构处出现一致的重建结果。将我们的网络架构拆分为2D深度路由网络和3D深度融合网络,可以有效地处理不同处理阶段的噪声和此外,可以从少量训练数据中学习特定于传感器的噪声分布。我们的方法优于竞争的方法在合成和真实的数据实验。由于其低计算要求和紧凑的架构,我们的方法有可能取代标准的TSDF融合,在各种任务和应用。致谢。特别感谢来自日本东芝的Akihito Seki,他进行了富有洞察力的讨论和评论,极大地改进了论文。本研究由东芝和情报高级研究项目活动(IARPA)通过内政部/内政部商业中心(DOI/IBC)合同编号D17 PC 00280提供部分支持。的美国政府被授权为政府目的复制和分发重印本,尽管上面有任何版权注释免责声明:本文所载的观点和结论是作者的观点和结论,不应被解释为必然代表IARPA、DOI/IBC或美国政府的政策或认可,无论是明示还是暗示。政府的4895引用[1] 作 者 : ChristophVogel , Audr e yRichard , JanD.Wegner,Thomas Pock,and Konrad Schindler.大规模语义3D重建:用于多类别体积标记的自适应多分辨率模型。在Proc. International Conference on Computer Visionand Pattern Approximation(CVPR),2016中。1[2] Michael Bloesch、Jan Czarnowski、Ronald Clark、StefanLeutenegger和Andrew J.戴维森Codeslam-学习密集视觉SLAM的紧凑,可优化的表示在Proc.计算机视觉和模式识别国际会议(CVPR),第2560-2568页,2018年。3[3] Yan-Pei Cao,Zheng-Ning Liu,Zheng-Fei Kuang,LeifKobbelt,and Shi-Min Hu.学习用级联的全卷积网络重建高质量的3d形状。欧洲计算机视觉会议(ECCV),第626-643页,2018年。3[4] 天使XChang,Thomas Funkhouser,Leonidas Guibas,Pat Hanrahan , Qixing Huang , Zimo Li , SilvioSavarese , Mano-lis Savva , Shuran Song , Hao Su ,Jianxiong Xiao,Li Yi,and Fisher Yu.ShapeNet:一个信息 丰 富 的 3D 模 型 库 。 技 术 报 告 arXiv : 1512.03012[cs.GR],斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所,2015年。五、六扫描计算机视觉和模式识别国际会议(CVPR),2018年6月。第1、3条[13] 魏东,王秋媛,王欣,查宏斌。Psdf融合:应用于即时三维资料融合与场景重建之机率符号距离函数。 在proc 欧盟计算机视觉会议(ECCV),2018年9月。二、六、七、八[14] Simon Donne和Andreas Geiger使用连续重投影学习在Proc.国际计算机视觉和模式识别会议,第7634-7643页,2019年。5[15] 段勇,裴明涛,贾云德。实时多视点立体视的概率在Proceedings of the 21st International Conference onPattern Recognition , ICPR 2012 , Tsukuba , Japan ,November 11-15,2012,pages 368-371,2012中。2[16] Simon Fuhrmann和Michael Goesele。 融合 多尺度的深度图。ACM事务处理图表,30(6):148:1-148:8,2011. 2[17] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格r-cnn。 在proc 国际计算机视觉会议(ICCV),2019年10月。3[18] 放大图片作者:David G. Kim,Bryan C.罗素和马修·奥布里。Atlasnet:一张纸-[5] 陈志勤和张浩。学习隐式字段我是一个小男孩学习3D表面生成的方法。在生成 式形 状建 模国际 计算 机视 觉与 模式 识别会 议(CVPR),2019年。3[6] 放大图片作者:IanCherabie r,ChristianH?ne,MartinR.奥斯瓦尔德,和马克波勒费斯。使用体素块的多标记语义3d重建。2016年国际3D视觉会议(3DV)。2[7] 放大图片作者:JohnL. S chonber ge r,MartinR. 作者声明:Author,ThomasW.学习三维重建的先验知识。欧洲计算机视觉会议,2018年9月。3[8] Sungjoon Choi,Qian-Yi Zhou,and Vladlen Koltun.室内场景的RO-BUT重建。在Proc. International Conferenceon Computer Vision and Pattern Recognition(CVPR),第5556-5565页,2015年。2[9] Brian Curless和Marc Levoy。从距离图像建立复杂模型在第23届计算机图形和交互技术年会的会议录中,SIGGRAPH 1996,新奥尔良,LA,USA,1996年8月4-9日,第303-312页,1996年。一二三六八[10] 安吉拉·戴和马蒂亚斯·尼斯纳3dmv:用于3d语义场景分割 的 联 合 3d 多 视 图 预 测 。 欧 洲 计 算 机 视 觉 会 议(ECCV),第458-474页,2018年。一、二[11] AngelaDai , MatthiasNie ßner , MichaelZoll höfer ,ShahramIzadi,and Christian Theobalt.Bundlefusion:使用动态表面重新整合的实时全局一致3d重建。ACM事务处理图表,36(3):24:1-24:18,2017. 一、二[12] Angela Dai , Daniel Ritchie , Martin Bokeloh , ScottReed,JürgenSturm,andMatthiasNießner.Scancomplete:大规模场景完成和3D语义分割Proc. 国际计算机视觉与专利会议燕鸥识别(CVPR),第216-224页,2018年。3[19] 克里斯田·哈恩,克里斯托弗·扎克,安德烈·科恩,罗兰·昂斯特和马克·波勒费斯。联合三维场景重建与类别分 割 。 在 Proc. International Conference on ComputerVision and Pattern Recognition(CVPR),第97-104页2[20] 克里斯田·哈恩,克里斯托弗·扎克,安德烈·科恩和马克·波勒费斯。密集语义三维重建。IEEE Transactionson Pattern Analysis and Machine Intelligence,39(9):1730-1743,2017。2[21] 放大图片作者:Richard A. Newcombe,David Kim,Otmar Hilliges , David Molyneaux , Steve Hodges ,Pushmeet Kohli , Jamie Shotton , And
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功