没有合适的资源?快使用搜索试试~ 我知道了~
930基于学习的ICP场景华盛顿大学Steven M.华盛顿大学图1.给定一个RGBD序列从一个移动的摄像机,我们产生一个三维CAD重组的场景。虽然融合重组(上图)包含孔洞和噪声几何体,但我们的重组(下图)将场景建模为一组来自CAD数据库的高质量3D形状。摘要通过在房间内移动深度传感器,我们可以计算环境的3D CAD模型,捕获房间的形状和内容,如椅子,桌子,沙发和桌子。我们不是重建几何体,而是将场景中的每个对象与数千个对象的CAD模型进行匹配、放置除了全自动系统之外,关键的技术贡献是基于深度强化学习的将CAD模型与3D扫描对齐的新方法这种方法,我们称之为基于学习的ICP,通过学习最佳匹配点和对象视点的条件,超越了文献中的先前ICP方法。LICP学习仅使用合成数据进行对齐,并且不需要在真实场景扫描中对对象姿势或关键点对进行匹配的地面实况注释。虽然LICP是在合成数据上训练的,并且没有3D真实场景注释,但它在真实场景中的表现优于学习的局部深度特征匹配和基于几何的对齐方法在Sce-neNN [23]和ScanNet [14]的真实场景数据集以及SUNC[56]的合成场景上评估了所提出的高品质的结果证明了一系列的现实世界的场景,与鲁棒性杂波,观点,和闭塞。1. 介绍三维场景重建是计算机视觉的一个基本挑战。大多数重建技术集中在估计表面几何形状,以网格、点、云、体素或其他低级表示。假设您可以访问世界上每个对象的3D模型数据库;然后您可以通过识别哪些对象位于哪些位置并将其放置在那里来生成场景模型我们称这种变形的重建问题场景重组。虽然以前这样的方法在规模上是不可行的,但像ShapeNet[10]这样的大型CAD存储库的出现开始使场景重新组合对于现实世界的场景变得易于处理。场景重组相对于场景重建具有许多优点。首先,重建方法通常会生成孔洞并仅捕获可见的表面,而重组则会生成更完整的模型,包括背面和隐藏的几何形状(见图1)。1)。其次,CAD模型是干净的,分段的,并且经过手工优化,因此更适合游戏,VR,机器人等应用。第三,重组后的模型可以通过移动对象、替换对象来轻松编辑,并且通常带有语义标签和注释部分。重组并不是一个新的想法,可以追溯到20世纪60年代的第一我们介绍了第一个全自动的3D场景重组,RGBD序列作为输入,并产生一个模型的场景组成的最佳匹配的CAD模型,从数千个3D CAD模型。此外,我们提出了一种新的基于学习的ICP技术,用于对齐CAD模型扫描的几何形状。931图2.LICP网络架构:我们网络的输入由扫描对象和参考CAD模型组成(左)由几何网络(中)处理。通过监督损失来训练几何网络,以预测3D体素标签(黄色)。然后将输入表示连接起来,形成策略网络的输入(右),该网络通过策略梯度进行训练,以预测动作分布和值(橙色),从而最大化ICP奖励函数。还结合了辅助奖励函数(黄色),其估计3D CAD模型相对于扫描形状的旋转程度将3D对象模型与深度扫描对齐是计算机视觉和几何处理中的一个经典问题,也是许多实际应用的主要内容,包括地图绘制,机器人和可视化。迭代最近点算法(ICP)[7]的工作原理是在寻找模型和深度图像(或其他传感器数据)之间的最近点,求解对齐两个点集的最佳变换,并迭代直到收敛。当模型初始化接近解时,ICP及其变体可以鲁棒地收敛,但在没有良好初始化或存在显著遮挡和场景杂波的情况下会受到影响。匹配区分性局部3D特征[27,17,61,49,50]是一种替代方案,它放宽了初始化要求,使其更鲁棒,但对于将合成CAD模型与真实场景匹配不太有效,其中1)模型简单且特征贫乏,2)模型和真实对象的形状仅大致一致。为了解决这些问题,我们在强化学习框架中将3DCAD模型与RGBD扫描对齐的问题LICP完全在合成场景上训练,而不需要真实场景中的对象姿态对齐或关键点对的尽管如此,我们的定量评估表明,LICP优于以前的方法在真实场景中。我们展示了我们的方法的应用程序,为全自动场景重组的复杂的真实环境中填充不同类型的毛皮,表现出高度的闭塞。我们重新组合的场景由ShapeNet中数千个3D CAD模型中最匹配的CAD模型组成。2. 相关工作推断3D对象姿态和场景重组涉及计算机视觉和图形学中的现有工作,如下所述。ICP:ICP由[13]和[7]引入,并解决两个点集之间的转换。 许多研究多年来一直致力于改进这种方法,包括[47,13,46]。在现有方法关注特征的情况下,表示和优化,我们引入了一个数据驱动和基于学习的方法。3D形状对齐、3D特征和关键点匹配:通过ICP进行密集对齐的替代方案是检测鲁棒特征(也称为关键点),以促进形状对齐。[27]提出了自旋图像,并使用RANSAC进行形状对齐。几何描述符的其他示例是几何直方图[17]、签名和直方图[61]、特征直方图[49]以及点云库[50]中提供的更多内容。然而,关键点方法可能对噪声敏感,并且并不总是表现良好,特别是对于通常是分段平面和特征贫乏的匹配CAD模型。局部特征对对称性不鲁棒(例如,所有的椅腿可以具有相同的特征)。模型拟合方法,也称为配准方法,试图将输入与训练模型对齐,但不使用描述符[7,26,65]。这些方法不包括学习,使得它们不能受益于大量数据以获得关键点检测和匹配的鲁棒性。像[22,55,19,31,39,35,29]这样的技术通过将实例级3D网格模型拟合到观察到的深度图来估计完整的场景几何形状与这些方法相比,我们的模型通过CAD形状学习全局模型来对齐姿势。用于CAD扫描对准的最新方法[4]需要手动注释和管理对象CAD模型与真实扫描之间的3D关键点对应关系的大型数据集。[4]使用收集的注释数据来学习CAD模型和扫描之间的对应关系。然而,我们提出的方法只使用可用的合成数据在训练过程中,而不需要注释的关键点对应在CAD和真正的扫描域。虽然不需要注释的数据,我们提出的方法在测试时的真实场景中表现良好。同样为了在测试时找到对应关系,[4]使用地面真实对象集或有限的CAD模型集,而我们的方法可以从无约束的对象集中找到对应的CAD模型。3D全卷积几何网络旋转估计共享权重3D全卷积几何网络三维体素预测3D几何网络政策网络ICP奖励相机变换深度扫描3DCAD模型值行动932对象级RGBD场景重建:与我们的方法一样,SLAM++[51]使用KinectFusion [ 40 ]执行房间规模语义对象重建,然后进行3D形状识别。此外,SLAM++只使用了少数3D对象模型(与ShapeNet中的数千个),并且不包含基于学习的方法。3D CAD场景模型生成:几个先前的作品提出了使用各种技术生成基于CAD的房间模型的方法。这些方法的示例是来自文本描述的CAD [11],示例基于方法[16]或优化空间中的家具布置[68,37]。场景模型也可以通过将3D对象与给定图像[52,34]匹配,使用RGBD图像[21]渲染低保真度合成模型或通过分析布局和家具并联合优化其放置来重组每个场景[25]来生成。体素预测和形状完成:几位作者已经研究了单个对象形状完成和体素类别预测[45,60,66]。在本文中,我们使用体素类别预测作为辅助损失函数来学习3D表示,但我们的模型的输出是具有正确姿势的3DCAD模型而不是体素网格。因此,我们做形状完成,但与先前的体素形状完成方法相比,我们的方法产生具有形状语义的CAD网格。形状姿态估计:来自照片或深度图像的单个对象3D姿态识别也与我们的工作有关[3,28,51,33,24,62,5,64]。然而,我们的方法不同,因为我们通过以下方式学习最佳匹配点:以客观观点为条件。深度特征学习和深度强化学习:许多研究人员已经使用深度神经网络来学习3D特征表示[56,69]。最近,深度强化学习(RL)方法已经获得了相当大的关注,因为它们成功地学习了有效的策略来玩游戏[38,53]并在机器人技术中获得了有前途的性能[20,2]。深度RL的成功部分在于其在解决黑盒不可微优化问题中的适用性[59]。我们基于分数近似选择正确相机变换动作的方法与一类称为策略梯度的RL技术密切相关[6,63]。在我们的方法中,我们有一个基于两个点云的ICP分数的不可微奖励函数,我们希望通过使用随机梯度下降和遵循策略梯度更新规则来学习导致获得最大奖励的策略3. 该方法我们首先描述我们基于学习的ICP(LICP)方法。然后,我们解释了如何使用LICP重组,ING从输入点云的场景对于场景重组,3D对象检测和3D语义分割用于提取场景中的对象实例然后,LICP应用于匹配和对齐三维物体CAD模型的场景几何分割区域。LICP旨在估计自然真实场景中扫描的刚性物体的变换参数。由于对象间遮挡、自遮挡和杂乱,这是一项挑战性任务。我们训练了一个深度神经网络,该网络将与参考CAD模型配对的扫描形状(查询)作为输入,并学习推断应应用于参考CAD模型的转换,以使其点云与查询扫描最佳对齐(图1)。2)。为了学习这样的模型,我们利用这样一个事实,即我们可以对参考CAD对象应用任何变换,并使用光线跟踪模拟变换后对象的深度图(点云)为此,我们生成了一组3D扫描的训练集,每一个都与具有已知6DoF参数的3D对象配对我们提出的学习问题,在RL框架中的任务是预测最好的行动,应适用于参考形状,这样我们就可以生成查询输入扫描。每个动作编码将应用于参考3D形状的可能的3D通过应用每个动作,我们产生一个奖励,反映了转换后的3D形状与查询形状的匹配程度3.1. 使用Deep RL进行我们提出了一个RL框架中的参考形状的3D姿态估计的问题假设我们有一个参考形状Xr,它以参考姿势Pr呈现。使用此参考形状,我们希望学习预测从完整场景扫描中裁剪出的任何查询3D对象扫描Xq3D扫描可能包含大量的遮挡,使对准过程复杂为了表示3D模型,我们使用基于体素的3D特征表示函数Φ(X)用于参考和查询形状。RL代理的目标是选择对查询对象的转换操作,以最大化未来奖励的预期总和。我们的奖励函数,显示了如果执行点对点局部最近点对齐,查询形状与引用形状的匹配分数(详见第3.2节)。考虑一个由状态s∈ S和动作a∈ A定义的马尔可夫决策过程(MDP).每个3D旋转相机变换是RL代理可以潜在地应用于3D形状的动作a。我们将利用相机变换θ捕获的每对查询对象扫描和参考对象扫描定义为状态s:(Φτ(Xq),Φτ(Xr))。每个摄像机变换动作a可以将代理转移到- 通过捕获参考对象Xr的3D扫描来获得新状态。我们将每个旋转度维的动作空间统一离散为32个仓的列表,其中每个仓对应于具有固定角度的旋转变换通过离散化降低动作空间的复杂度,加速了学习,使其更有效的样本。3.2. ICP奖励每个训练实例由利用与参考3D对象配对的未知相机姿态τ捕获的扫描查询对象Φτ(Xq)933不图3.顶部检索的CAD模型为每个对象实例分割作为查询。点云查询使用表面法线进行颜色编码X河 在选择动作a之后,我们应用相应的相机变换a并渲染参考形状Xr的变换后的点云Φa(Xr)。我们的奖励函数接受查询对象的点云Φτ(X q)和在由a施加的相机变换下捕获的参考对象的点云Φa(X r),并产生反映两个点云可以匹配得多好的得分值。我们利用ICP匹配分数作为反馈来计算奖励函数f。r(s,a)=f(Φτ(Xq),Φa(Xr))(1)3.3. 通过REINFORCE我们的奖励函数是不可微的。为了解决这个黑盒优化问题,我们选择使用RE- INFORCE学习规则[63],我们的目标是找到a策略π θ(a|s),其中参数θ最大化期望的奖励的总和:J(θ)=Eρθτ[R t],其中R t=γ t−1r(s t,at). 这种期望与生成的政策πθ。该目标相对于参数θ的梯度可以通过下式计算:Eθ[t <$θlog π(s t|a t)(R t-b t )],其中b t是基线,不依赖于未来的状态和动作。按照众所周知的方法,我们选择基线为E[R t|在实践中,我们用随时间更新的奖励的平均值来近似它。为了加速训练,我们用一个辅助奖励函数来增强从REINFORCE学习规则中获得的损失函数,该辅助奖励函数特别适合我们的形状姿势估计任务。该损失函数对估计参考CAD模型和形状查询扫描之间的旋转角度的误差进行编码,并且对应于地面实况旋转和回归旋转之间的平方距离之和。我们使用基于当前策略产生的概率的随机动作采样。我们使用dropout [57,18]在RL [59]中结合随机动作选择和标准ε贪婪策略,以提供学习中的探索。3.4. LICP网络架构从稀疏回报中学习复杂的形状表示是非常具有挑战性的,需要大量的三角形。人症相反,我们在监督方法中使用密集体素类别标签学习形状表示,如下所示。冻结学习的形状表示网络,我们计算3D观察信号的特征,并使用单独的网络来学习用于找到对象姿态的策略。3D几何网络:对于3D几何特征表示,我们使用3D全卷积网络,该网络将3D体积作为输入,并学习以监督的方式产生每体素类别标签,使用对象类别上的softmax损失函数。我们的几何网络的每个塔都使用[56]的 3D全卷积架构,其中包含几个3D卷积层。输入体积生成:我们的观测信号是2D深度图的形式,我们将其转换为截断距离函数(TDF)值的体积网格。TDF表示可以编码单个深度图像和多个深度图像。具体地,每个体素取指示该体素的中心到最近的3D表面之间的距离的值。在[69]之后,这些值被截断,归一化,然后反转为1和0之间,分别表示在表面上和远离表面。政策网络:我们的策略是通过一个由三层组成的全连接网络学习的,每层有256个单元,后面是dropout和ReLU,使用第3.2节和第3.3节中的策略学习和损失与奖励函数。培训详情:我们在张量流[ 1 ]中实现我们的模型,并使用随机梯度下降,学习率为0。001,衰减因子为0。九十五我们在仿真中训练了超过100万个训练样本的3D几何和策略网络。3.5. 使用模拟生成训练数据我们使用SUNC场景生成合成训练数据[56]。在每个房间里,我们移动相机在一个人的高度,同时在场景中的不同对象。我们产生了一个广泛的摄像机角度:偏航变化在[-180,180]之间,俯仰取决于物体的高度,并在[-90,90]之间变化,滚转随机取[-10,10]度的值。为了产生各种各样的视点,我们用少量的噪声抖动照相机对于每个视图,我们捕获深度图像并裁剪934图4.场景的重组CAD模型的定性示例每个示例都显示了扫描图像中相机的视图。左侧为场景,右侧为从同一视图重组的CAD。我们的方法可以成功地重组杂乱的场景与大量的干扰对象(第一行)和大量的闭塞在场景中填充许多家具对象和在有限的空间(第二和第三行)。由于扫描的网格与附近对象(底部行,右侧)的范围不明确,或不同视图中缺乏可区分的形状特征(底部行,中间的橱柜),可能会发生不太准确的CAD重组框围绕对象,其中还包含其他对象的某些部分。然后,我们将部分点云作为输入传递到网络我们将3DCAD模型的网格光栅化为点云,并将生成的点云作为网络的参考输入。点云的截断距离函数用作网络的输入。3.6. 场景重组我们的场景重组流水线需要从真实场景的RGBD视频中产生的点云。我们应用3D对象检测和语义分割提取3D对象实例。然后,我们使用我们训练的3D几何网络的输出(见图2)来查找CAD模型集中最近的3DCAD模型,并将其用作参考3D形状。最后,我们部署LICP来将3D CAD模型与对象实例分割对齐,如第3.1节所述。3D物体检测:我们使用两步物体检测机制[43,12,30]如下。我们训练了一个与类别无关的区域建议网络,该网络为点云上的不同3D边界框提供对象性得分。我们同时训练另一个网络,用于对每个对象类别的3D边界框进行分类。两个网络共享基于VGG架构的特征提取层[54]。我们使用交叉熵损失的区域建议和分类网络。我们还使用x和y维度中的回归损失以及对象沿Z轴的较低和较高范围的zl和zh来学习3D框的偏差,或者与地平面正交。我们通过旋转重力方向,然后使其轴与地平面上的主导X-Y为了从点云计算特征图,我们使用点云表示的正交投影,并从不同高度的平面中提取特征[12]。对于训练,我们使用来自SUNC [56]的渲染深度图像,如3.5所述。我们使用由视野中的多个对象组成的整个场景用于每个相机姿势。 我们设置0。5作为3D检测框的交集大于并集(IoU)的阈值,并使用非最大抑制来去除与较高评分检测具有高重叠的低评分3D框。我们通过3D对象检测找到对象的平移和缩放,并将推断的平移和缩放应用于CAD模型。3D语义分割:干净的对象实例分割对于我们方法的对齐阶段很重要。例如,当椅子靠近桌子时,椅子的3D边界框可以包括桌子的某个部分,反之亦然。为了从每个对象检测的检测边界框中去除这些干扰因素,我们结合了在点云上推断的语义分割。我们将3D检测框内的所有点我们还删除了带有“地板”和“墙”标签的点。我们遵循[41,32,42]在点云上训练语义分割,并学习所有对象类别的模型9350.70.60.50.40.30.20.10.80.60.40.20.00.0 0.2 0.4 0.6 0.8 1.00.60.50.40.30.20.10.0 0.2 0.4 0.6 0.8 1.01.00.80.60.40.20.00.0 0.2 0.4 0.6 0.81.00.0 0.2 0.4 0.6 0.81.0召回召回召回召回图5.所提出的LICP方法与真实数据上的局部特征匹配和对齐方法的比较(值越低越好)。图例仅显示在右侧图上以提高可读性,并且所有图的方法颜色都相同以及地板和墙壁类。房间布局估算和场景可视化:我们使用从3D点云分割推断的墙壁点来估计房间布局。对于地平面(X,Y)上的每个点,我们计算沿Z轴聚合的墙3D点的数量。地平面上具有高频率的墙壁体素的位置定义房间的边界我们使用地板体素的范围,只要扫描在边界中没有墙一旦计算完地平面上的所有墙壁体素,我们就运行凹壳算法来找到房间边界。我们推断地板平面的位置在Z处,其具有通过3D点的语义分割推断的地板体素的最高频率。每个对象的颜色由属于对象实例分割的点云的中心点颜色估计。基于与一组纹理图像的特征相似性来选择地板纹理。4. 实验在我们的实验中,我们想研究:1)与非学习的先前方法相比,我们基于学习的ICP的准确性如何,2)我们的方法与基于深度特征的关键点匹配方法相比如何,以及3)如何将我们的模型应用于非结构化和杂乱的真实世界环境的场景CAD模型重组。为了回答这些问题,我们评估我们的方法的性能定量和定性。对于现实世界的评估,我们使用公开可用的SceneNN [23]和ScanNet[14]数据集。Sce-neNN和ScanNet测试集分别包含来自不同现实世界室内空间的这些场景点云是从各种办公室、卧室、客厅、厨房等扫描的,并且展示了非结构化的真实世界场景的多样化集合,这些场景填充有来自许多干扰物对象的各种家具类型、样式和杂乱类型。这些场景是用商品深度相机扫描的,我们使用融合输出。4.1. 定量评价我们评估我们的方法在真实和合成场景中的家具对象的6DoF姿态估计的准确性。我们将我们的结果与[13,48、69、15、8、70、67、9、36]。 对于评估标准,我们计算扫描网格与具有预测姿态的CAD模型之间的对准误差。为了计算对齐分数,为输入扫描中的每个点找到CAD模型上的最近点,并计算表面法线之间在合成数据实验中,我们使用参考CAD模型上的点与点之间的距离,并在给定我们可以访问模拟中的对象的地面真实网格的情况下进行扫描。对真实数据的定量评价:为了评估LICP用于6DoF对象位姿估计的有效性,我们将地面实况点云片段和对象标签合并。我们使用我们训练的3D几何网络的特征表示从[56,58]的1550个CAD模型的数据库中找到最近的3D CAD模型,并将其用作参考CAD模型。图3中的几个示例显示了检索到的CAD模型的对象样式匹配的质量。我们比较了LICP与局部特征匹配和文献中ICP的变化。对于局部特征匹配,我们与FPFH [48]的手工设计几何特征进行比较,通过3DMatch [69]和LORAX [15]学 习 局 部 深 度 特 征 匹 配 局 部 特 征 后 , 我 们 使 用RANSAC进行粗配准,然后使用点到面ICP [13]进行CAD模型和输入扫描的精细对准。为了与LORAX进行比较,我们使用[15]的发布代码进行超点提取,并使用通过GAN从合成对象CAD模型的点云以无监督方式学习的局部深度特征。我们还与Sparse ICP[8](ICP的一种变体,输入噪声),以及ICP的PCL实现。图5总结了我们的定量比较结果。在图5如图5所示,我们的方法优于所有上述现有方法。我们还比较了LICP与其他基线和变体的建议LICP与不同的组合的损失和奖励功能。旋转预测仅使用图2中学习网络的对象旋转估计输出,而不使用我们的RL组件。旋转预测,ICP点到平面使用LICP网络的旋转估计输出,并将ICP点到平面应用于更精细的 观测。椅子SKDe沙发Lorax稀疏ICPPCL-ICPICP点对面,3D匹配ICP点对面,几何特征可视点云,ICP自转预测LICPw/oRL(RotationPred,ICP)LICPw/oPoseSupervisionLICP(我们的)表曲面法向误差9360.2250.2000.1750.1500.1250.1000.0750.0500.0250.300.250.200.150.100.050.250.200.150.100.050.160.140.120.100.080.060.040.0 0.2 0.4 0.6 0.81.0召回0.0 0.2 0.4 0.6 0.81.0召回0.0 0.2 0.4 0.6 0.81.0召回0.0 0.2 0.4 0.6 0.8 1.0召回图6. 所提出的LICP方法与鲁棒性和全局对齐算法在合成数据上的比较(值越低越好)。对象对齐。可见点云,ICP仅使用来自预测对象姿态的点云的可见点进行ICP对准。LICP w/o Pose Supervision使用仅用RL组件训练的策略网络,并且没有辅助损失的强对象姿势监督。所有这些变体的性能都低于我们的完整LICP模型,该模型结合了基于ICP的奖励和辅助损失来学习策略网络。此外,0.120.110.100.090.080.070.060.05沙发ICP点-面LICP(我们的)0.050.100.150.200.250.300.350.40初始表面距离0.250.200.150.100.05椅子ICP点-面LICP(我们的)0.050.100.150.200.250.300.35零点四初始表面距离只有RL的LICP接近LICP,这表明LICP性能主要是通过RL学习而不是强对象姿势监督获得的。我们无法访问输入扫描中形状的地面真实CAD模型,我们使用重组CAD和输入扫描之间 我们绘制了表面法向误差与每个类别的召回率,即表面法向误差低于每个误差值的样本的百分比。注意,扫描和CAD模型对之间的最小平均ICP距离永远不会变为零,因为ICP方法的点云输入对被不同地采样并且永远不会相同。合成数据的定量评价:我们在SUNC [56]测试集上进行测试,其中对象被放置在具有逼真家具布置的3D场景中。该实验在几个输入CAD模型和输入扫描上执行。对准误差是扫描中的物体表面与参考CAD模型之间的平均表面点距离(以米为单位)在这个实验中,我们测试合成扫描,我们有地面真实表面的扫描对象。因此,我们可以计算在扫描中参考CAD的表面和CAD的表面我们将LICP与鲁棒的全局对齐算法进行比较:快速全局配准[70],全局最佳算法Go-ICP [67],GOGMA[9],Super 4PCS [36]和稀疏ICP [8]。我们还比较了LICP与点-面ICP [13],以及ICP的FPFH几何特征和PCL实施。结果总结见图6。我们的LICP比对性能大大优于其他全局和鲁棒的比对方法。我们还评估了LICP对对象扫描输入和参考CAD模型之间的大方向差异的鲁棒性,并与图7中的Chen和Medioni ICP [13]进行了比较。参考CAD模型初始化为每个实验的不同方向图7.评估我们提出的LICP方法用于使用合成数据将具有显著方向差异的3D CAD模型与输入扫描对齐。是的。在图7中,x轴显示初始化误差,而y轴显示ICP收敛后的最终对准误差虽然这两种方法都降低了对准误差,但与[13]相比,LICP获得了更低的最终误差。4.2. 定性评价实景形状对齐:图4展示了通过应用我们的算法从真实场景的深度扫描(左侧)重构(右侧)的场景CAD模型的几个示例,其中估计最佳匹配的CAD模型和6Dof对象姿态。图4中的第一行显示了在大量场景混乱的情况下的几个重组的CAD场景模型。例如,左上角的两把椅子的表面被随机物体填充,蓝色办公椅(第一排,中间图)的靠垫被衬衫遮挡。虽然这样的任意对象在深度扫描中导致显著量的噪声,但是我们的方法可以合理地估计6DoF姿态和对象样式图4中第二行的示例显示了由于密集场景而导致的显著遮挡的场景。如图所示,我们的方法很好地处理了这种遮挡,并产生了具有准确对象姿态和样式的CAD场景模型。在图4的底行中示出了几个故障情况,其中估计的对象姿态不太准确。例如,在第四行的中间示例中,由于在橱柜的正面和右侧面之间缺乏强区别性的形状此外,在第四行的左侧示例中,检索到的扶手椅样式不准确,因为无法从扫描的点云中准确获得GOGMAICP点到面,几何特征稀疏-ICP快速全球注册PCL-ICPGo-ICPSuper4PCSLICP(我们的)椅子床书桌面距误差沙发最终表面距离(误差)937扫描重组扫描重组扫描重组第一场第二场第三图8. 使用我们提出的全自动方法进行场景重组。 针对三个不同的场景示出了场景重组。在对于每个场景,顶行示出了场景的自顶向下视图;中间行和底行展示了每个场景的两个特写视图摄像机位置和姿态在自上而下视图上是彩色编码的)。因为与附近物体的高度遮挡。实景重组:我们将我们的全自动场景重组方法部 署在真实场景上,如图8所示。对于每个场景,我们绘制了两个不同的特写镜头视点和由我们的方法重组的场景的自顶向下视图,并显示了相应的从扫描中得到的图像。如图8所示,这些场景密集地填充有不同的家具,并且场景扫描包含许多孔。尽管有许多遮挡和漏洞,我们的方法产生令人满意的场景recompo-itions。使用TITAN Xp GPU,对于具有平均复杂度的典型场景,3D对象检测的计算时间约为6.5秒,3D语义分割的计算时间约为9.5LICP 3D CAD对齐每个对象实例需要1.22秒,其中3D几何网络需要0.65秒,策略网络需要0.008秒,ICP奖励需要0.56秒。期间的表面点可视化 推论:当使用任意姿势的对象扫描查询时,LICP学习为参考CAD模型的表面点分配不同的权重。基于可见表面点计算参考CAD模型中的表面点的分配权重通过光线跟踪从推断的动作捕获可见表面点,即,摄像机变换乘以由我们的策略网络中的值函数估计的值。这些权重反映了每个曲面点在推断正确变换动作时的贡献。图9显示了当从不同视点扫描查询时,为不同对象获得的表面点权重。分配的权重取决于查询形状的视点。当使用左侧扶手椅查询LICP时,参考扶手椅左侧的可见表面点获得更高的权重,反之亦然。同样,具有不同姿势和动作的办公椅-图9.不同样本的学习权重(右)和各种查询扫描视点(左)的可视化。从参考CAD模型的四个不同视图显示学习的权重权重值以颜色编码,从低(蓝色)到高(红色)。前两行显示,根据查询扫描视点,为同一参考CAD模型的表面点分配了不同的权重提供了排除模式。LICP将较高的权重分配给未被遮挡的表面点,并忽略被遮挡表面点的贡献。图9的底行示出了桌子和L形沙发实例的表面点的所产生的权重中的类似模式。5. 结论在本文中,我们计算3D场景重组从由移动相机从真实场景捕获的RGBD扫描序列。我们提出了一种基于学习的形状对齐方法,称为基于学习的ICP(LICP)。LICP将深度3D特征学习与强化学习相结合,并且能够推断相对于参考形状的6DoF对象变换。通过利用大规模形状3D数据库和学习各种对象姿态的变换策略,LICP对场景杂波和部分遮挡具有鲁棒性。我们在不同现实世界扫描上的实验结果表明,与各种基线相比,我们的方法具有很高的致谢这项工作得到了华盛顿大学动画研究实验室和谷歌的部分支持938引用[1] M. 阿巴迪山口Barham,J.Chen,Z.Chen,中国山核桃A.Davis,J.迪恩M. Devin,S.盖马瓦特湾Irving,M. Isard等人张量流:一个大规模机器学习系统。在OSDI,2016。[2]M. Andrychowicz,D. Crow、黑冠草A.作者:Ray,J.十方P. 韦林德, B. 麦克格鲁 J. 托宾 P. 阿比尔和W.扎伦巴后见之明体验回放。在NIPS,2017年。[3] M. Aubry,D. Maturana,A.埃夫罗斯湾Russell和J.西维克Seeing 3D Chairs:使用大型cad模型数据集进行基于示例部件的2D-3D对齐CVPR,2014。[4] A. Avetisyan , M. Dahnert , A. 戴 , M. Savva , A. X.Chang和M.尼斯纳Scan 2cad:学习rgb-d扫描中的cad模型对齐。在CVPR,2019年。[5] A.班萨尔湾Russell和A.古普塔。Marr再访:经由表面法线预测的2D-3D对准。在CVPR,2016年。[6] J. Baxter和P. L.巴特利特无限时域策略梯度估计。人工智能研究杂志,2001年。[7] Besl和N. D.麦凯三维形状配准方法。在Sensor Fusion IV中:控制范例和数据结构。国际光学与光子学学会,1992年。[8] S. Bouaziz,A. Tagliasacchi和M. Pauly.稀疏迭代最近点。第十一届Eurograph-ics/ACMSIGGRAPH几何处理研讨会论文集。欧洲制图协会,2013年。[9] D. Campbell和L.彼得森Gogma:全局最优高斯混合对齐。在CVPR,2016年。[10]A. X. 张, T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang,Z. Li,S. Savarese,M. Savva,S.宋,H. 苏肖湖,加-地Yi和F. Yu. ShapeNet:一个信息丰富的3D模型库。技术报告arXiv:1512.03012 [cs.GR],斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所,2015年。[11] A. X. 张,M。Savva和C.D. 曼宁学习空间知识以产生文字至3d场景。在EMNLP,2014年。[12] X. Chen,H. Ma,J. Wan,B. Li和T.夏用于自动驾驶的多视角三维物体检测网络。在CVPR,2017年。[13] Y. Chen和G.梅迪奥尼通过多幅距离图像配准的目标建模。图像和视觉计算,10(3):145[14] A. Dai , A. X. 张 , M 。 Savva , M. Halber , T.Funkhouser和M.尼斯纳扫描:室内场景的丰富注释的3D重建。在CVPR,2017年。[15] G. Elbaz,T. Avraham和A.费舍尔使用深度神经网络自动编码器进行定位的3D点云注册。在CVPR,2017年。[16] M. 费希尔,D.Ritchie,M.Savva,T.Funkhouser和P.汉-拉汉。基于实例的三维物体排列合成。TOG,2012年。[17] A. Frome,D. 胡贝河 Kolluri,T. B u?low和J. 马利克使用 区域 点描 述符 重 新 识 别距 离数 据中 的 对象 。见ECCV,2004年。[18] Y. Gal和Z. Ghahramani脱落作为一种有效近似:在深度学习中表示模型的不确定性。InICML,2016.[19] A. Geiger和C.王. 从单个rgb-d图像联合推断3d对象和布局德国模式识别会议。施普林格,2015年。[20] S. Gu,E. Holly,T. Lillicrap和S.莱文深度强化学习,用于机器人操作与异步离线策略更新。在ICRA,2017年。[21] R. Guo,C. Zou和D.霍伊姆预测室内场景的完整3d模型。arXiv预印本arXiv:1504.02437,2015年。[22] S. 古普塔山口阿尔贝拉兹河。Girshick和J. 马利克将3d模型与杂乱场景的rgb-d图像对齐。CVPR,2015。[23] B.- S. 华,Q.-H. Pham,D.T. Nguyen,M.-K. 特兰湖F.Yu和S.- K.杨场景:一个场景网格数据集与一个符号。2016年国际3D视觉会议(3DV)。[24] Q. Huang,H.Wang和V.科尔顿。通过图像和形状集合的联合分析实现单视图InSIGGRAPH,2015.[25] H. Izadinia,Q. Shan和S. M.塞茨Im2cad。在CVPR,2017年。[26] H. Jiang 和 J. 萧 rgbd 图 像 中 长 方 体 匹 配 的 线 性 方 法CVPR,2013。[27] A. E. Johnson和M.赫伯特在杂乱的3d场景中使用自旋图像进行TPAMI,1999年。[28] N.霍尔木兹,T. Simon,A. Efros和Y.酋长使用库存3D模型在单张照片中进行3D对象操作。InSIGGRAPH,2014.[29] Y. M. 金,N.J. Mitra,D.M. Yan和L.Guibas 获取具有可变性和重复性的3d室内环境TOG,2012年。[30] J. Ku,M. Mozifian,J. Lee,A. Harakeh和S.瓦斯兰德从视图聚合联合生成3d建议和对象检测。IROS,2018年。[31] K. Lai和D.狐狸.利用网络数据和领域自适应进行三维点云目标识别。国际机器人研究杂志,2010年。[32] Y.利河,巴西-地布,M。Sun和B.尘Pointcnn:X转换点上的卷积。在NIPS,2018年。[33] J. J. Lim,A. Khosla和A.托拉尔巴FPM:基于零件的精细姿态模型和3D CAD模型。2014年,在ECCV[34] Z. Liu,Y. Zhang,W. Wu,K. Liu和Z.太阳模型驱动的室内场景建模从一个单一的图像。在2015年第41届图形接口会议上[35] O. Mattausch,D.帕诺佐角穆拉岛Sorkine-Hornung,和R.帕哈罗拉大规模杂乱室内扫描的目标检测和分类。在计算机图形学论坛。Wiley Online Library,2014.[36] N. Mellado,D. Aiger和N. J. Mitra超级4pcs:通过智能索引快速全球点云注册。计算机图形论坛,第33卷,第205-215页。Wiley Online Library,2014.[37] P. Merrell,E. Schkufza,Z. Li,M. Agrawala和V. 科尔顿 。 使 用 室 内 设 计 指 南 的 交 互 式 家 具 布 局 。InSIGGRAPH,2011.[38]V. Mnih,K. Kavukcuoglu,D. Silver,黑胫拟天蛾A. A.Rusu,J. 维尼斯M. G. Bellemare,A.格雷夫斯山Riedmiller,A.K. 菲杰兰,G. Ostrovski等人通过深度强化学习实现人性化控制。Nature,2015.939[39] L. Nan,K.Xie,和A.沙夫一种用于复杂室内场景理解的搜索-分类方法TOG,2012年。[40] R. A. 纽科姆,S。 伊扎迪河 希利格斯,D。莫利诺D. Kim , A. J. 戴 维 森 , P. Kohli , J. Shotton , S.Hodges,和A.菲茨吉本运动融合:实时密集表面映射和跟踪。在Mixed and Augmented Reality(IS-MAR)中,2011年第10届IEEE国际研讨会,第127-136页。IEEE,2011年。[41] C. R. Qi,H. S
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功