增强型RGB-D融合:对象厚度预测的3D重建方法

107 浏览量更新于2023-10-16 收藏 1.02MB PDF 举报

机器学习

3D重建

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1517X-Section：增强型RGB-D融合Andrea Nicastro1，Ronald Clark1，Stefan Leutenegger21戴森机器人实验室，2智能机器人实验室，伦敦imperial.ac.ukRGB-D 2RGB-D3RGB-D 4RGB-D 5RGB-D6厚度1厚度2厚度3厚度4厚度5厚度图1：我们的方法使用对象横截面厚度的预测来提高体积重建质量。顶行显示了建议的管道的输入，即RGB-D帧。下图，横截面预测。中间从左到右，通过我们的增强TSDF融合算法进行增量重建。摘要详细的3D重建是应用于机器人、增强现实和虚拟现实的一个重要挑战，在过去几年中取得了令人印象深刻的进展。深度相机（RGB-D）的可用性以及增加的计算能力推动了进步，例如，以GPU的形式-但也要感谢在这个过程中加入机器学习。在这里，我们提出了X-Section，这是一种RGB-D 3D重建方法，它利用深度学习来对厚度进行对象级预测，这些预测可以很容易地集成到体积多视图融合过程中，我们提出了对流行的KinectFusion方法的扩展。本质上，我们的方法允许在由RGB-D摄像机感测到的后面完成一般室内场景中的形状，这可能是至关重要的，例如，用于机器人操作任务或高效的场景探索。预测对象厚度而不是体积使我们能够以相当高的空间分辨率工作，而不会对所采用的卷积神经网络的存储器和训练数据要求激增在一系列定性和定量评估中，我们展示了如何准确预测物体厚度并重建包含多个物体的一般3D场景1. 介绍物体形状和场景中不可见部分的知识在机器人操作和自主探索等应用中起着至关重要的作用。在机器人操作中，对物体几何形状的理解显然会影响抓取点的选择。类似地，在自动导航中，关于场景中的占用空间与自由空间的任何附加信息都是有帮助的。在地图绘制过程中融合看不见的信息，可以实现更有效的探索和更快的地图覆盖。机器学习的最新进展推动了单视图3D重建的改进。然而，开发的技术不一定容易与现有技术的空间映射系统集成。在这项工作中，我们提出了一种新的方法来重建嵌入在场景中的对象，允许可扩展的多视图重建的单个对象和组。我们提出的任务是以视图为中心的横截面厚度的形式预测感测表面后面的几何。我们将厚度预测网络X-Section嵌入到一个管道中，该管道允许将我们的方法扩展到场景级别。为了集成多个视图并恢复3D几何，我们建议修改截断符号距离函数（TSDF）融合。此外，我们的框架可以很容易地与其他映射方法配对，如贝叶斯概率映射[23]。有几个原因更喜欢2D预测，而不是1518不zR而不是一次就能估计出完整的3D形状其中一个此外，使用重建算法来恢复3D几何形状放松了重建分辨率和网络预测之间的耦合在对不同类型的基于学习的重建方法的广泛研究中[32]，作者还发现，以视图为中心的像素预测比以对象为中心的基于体素的模型更好地推广到由于获得这项任务的训练数据具有挑战性，我们引入了一个由合成图像和真实图像组成的新数据集我们使用域随机化为YCB数据集[3]的模型渲染RGB、深度和厚度为了在真实数据上实现良好的性能，我们对来自[43]的真实序列进行了微调，并绘制了对齐对象的厚度。与X光机类似，我们通过对物体的合成模型进行光线追踪并测量观察表面与其后面的第一个表面该横截面厚度的图示如图2所示。图2：横截面厚度图示。t是被射线r击中并投影在主轴Z上的表面的厚度。简而言之，我们认为我们的工作有四个方面的贡献：• 一种新的任务，预测视图相关的2D每像素厚度，可用于有效地恢复3D体积。• 从RGB-D或深度和轮廓（DS）到使用预测厚度的3D桌面场景的完整3D重建的完整管道• YCB对象的106k合成视图和34k真实视图的厚度数据集，以及RGB，深度和轮廓图像以及渲染更多内容的代码意见.• 使用预先训练的权重进行训练和预测代码，以重现结果。本文的结构如下。本文首先回顾了体融合、RGB-D形状补偿和单视图RGB重建方法的相关研究工作。然后，我们介绍我们的方法和我们训练模型的数据集。最后，我们评估我们的模型的性能上真正的RGB-D序列。2. 相关工作表面预测和空间映射从RGB-D图像重建场景的最常用方法涉及将多个帧配准并融合到3D体素网格中。由KinectFusion [27]流行的这种体积融合方法通过首先跟踪相机姿势来工作，然后使用Curless和Levoy [9]的集成方法将深度图像融合到体积中。已经引入了各种改进，主要集中在减少跟踪漂移[7]和增加可以重建的场景的大小。例如，Kintinuous [41]使用滑动体积来映射大空间。BundleFusion [10]通过全局束调整和重新整合到映射过程中来减少跟踪漂移。[39]通过树数据结构解决了效率瓶颈。随着深度学习的出现，人们对学习几何、结构和语义先验以增强重建过程产生了很大的兴趣。例如，[40]利用表面法线预测来改进单目重建。[35]使用语义分割以及RGB-D重建来创建室内场景的注释地图。最近，Fusion++[24]介绍了一种以对象为中心的大规模映射方法，该方法构建了由多个TSDF组成的地图，每个TSDF表示单个对象实例。体积完成许多方法建议从RGB-D信息开始完成场景。Song等人。[34]和ScanComplete [11]推断网格图中缺失的体素以及语义标签。十月-NetFusion [30]描述了一种使用八叉树数据结构的深度学习融合过程他们的方案可以被看作是从深度图中学习一个隐式表面，有助于在融合时降低噪声和抑制离群值。Voxlet [12]对部分重建的3D体素网格进行操作。其他方法[44]使用GAN来训练RGB-D到体素预测器。这些方法的主要缺点是，由于其3D卷积是存储器和计算密集型的，限制了它们在实时应用中的使用，因此它对于融合多个视图是低效的。基于轮廓的重建Shape from Silhouette方法使用从不同视点拍摄的多个轮廓图像重建物体的3D形状[1]。与我们的方法更密切相关的是[29]，其中作者沿着轮廓提取曲线，并通过找到粘附到边缘曲线的光滑表面来重建对象。然而，这种方法要求物体是对称的，并且轮廓图像垂直于对称轴拍摄。单视图3D重建的经典方法1519x截面作物Mask R-CNNx截面组成单视图重建[28，8，18，19，45]依赖于强几何先验。虽然这些方法在简单的场景上显示了一些令人印象深刻的结果，但它们缺乏捕捉真实物体形状复杂性的能力深度学习的出现大大提高了可以从单个视图重建的场景和对象的复杂性和质量像[6，31，38，20，14，42，13，46，2，15，38]这样的方法都试图从2D视图和/或轮廓重建3D对象。在最好的情况下，这些方法提供了一个以视图为中心的重建，需要恢复对象的平移和缩放，这本身就是一项具有挑战性的任务。在预测处于规范姿态的情况下，必须估计完整姿态和尺度。在并行工作中，[33]将室内场景表示为四个深度层除了第一层之外，深度层表示对象沿射线的全部延伸。这可能在非凸形状的情况下产生伪影我们的工作不同的定义的厚度之间的距离观察表面和它的背部和补偿的几何形状的不完整的表示方法与多帧深度融合算法的集成。图3：横截面预测管道概述。RGB帧被传递到Mask R-CNN。生成的边界框和蒙版用于处理RGB和深度数据，并裁剪单个对象。X-Section为每个对象运行，输出在厚度框架中组成。3. 方法预测整个场景的厚度是一个非常迫切的问题。我们的方法是基于这样的想法，即将这个复杂的问题分解成更小，更简单的任务，使解决方案更容易找到。我们首先将场景分解为对象实例，然后为图像中的每个对象生成估计然后，我们将多个预测组合到单个帧中，该帧可用于融合过程以获得场景的3D模型。如图3所示，我们的系统总共包括五个步骤。对象检测器、预处理阶段、预测操作和最终合成，随后是融合步骤。首先，对象检测器将RGB帧作为输入，并输出一组边界框和遮罩-我们使用现成的解决方案。在流水线的第二阶段，对象检测器的输出被预处理以输入到我们的估计网络。X-Section网络针对每个对象运行。最后，将每个对象的预测合并到单个厚度帧中，并传递到重建算法，该算法输出体素网格中的体积表示3.1. 目标检测和实例分割我们的方法依赖于任何对象检测器，提供边界框以及对象的分割掩模对于当前的工作，我们选择了基于ResNet [17]的Mask R-CNN [16]的现成版本，并在MS-COCO数据集[22]上进行了训练。Mask R-CNN的替代方案包括MaskLab [5]或DCAN [4]。3.2. 前处理物体检测器的输出必须在移动到估计阶段之前进行我们将边界框扩展为4：3的形状比例，并使用它们来获得RGB和深度补丁以及相应的轮廓。为了弥合训练和测试深度图像之间的差距，我们将对象区域的平均值和背景的平均值减去相应的像素。通过这种方式，我们的目标是推动网络只关注形状，而不是绝对深度值。来自深度传感器的图像通常是不完整的。在测试时，我们运行一个额外的修复步骤，如[37]所述，以恢复由于传感器噪声而丢失的数据。3.3. 厚度网络架构我们提出的估计厚度的网络具有编码器-解码器结构，其中输入图像被减少到具有2048个通道的3x 4维度的代码考虑到我们的任务与对象识别的密切关系，并考虑到可用数据集的有限大小，我们使用基于ResNet的编码器，并在ImageNet上预先训练权重。由于我们的输入与训练网络的原始输入不同，我们添加了一个额外的卷积层，该卷积层采用堆叠的深度和轮廓图像（或RGB和深度）并输出3通道特征图像。解码器由上采样块组成，然后是两个卷积层，除了最后一个是线性的之外，所有层都有ReLu [25]激活有在网络的编码器和解码器部分之间没有跳过连接。我们通过最小化预测厚度和地面真实厚度之间的L2损失来图15204描述了基于ResNet101的示例架构。ResNet-101图4：X-Section由ResNet编码器和5个上采样模块组成。第一层混合编码器使用的3通道堆栈中的输入。每个上采样块由双线性上采样-conv 1-conv 2组成。除了编码器中的剩余连接之外，我们不使用跳过层不仅产生表面，而且明确地重建对象的占用体积。通过对每帧的TSDF进行加权平均来融合多帧。当更新体素时，相应的权重递增。4. 数据集为了生成厚度数据，我们需要一个包含每个物体完整模型的数据集大多数大型RGB- D数据集[26，34，21]提供具有深度和对象实例的2D图像，但不提供关于对象的完整3D数据。满足此要求的数据集是YCB数据集[3]。YCB由92个对象组成，属于77个类。该数据集提供具有从图像提取的纹理的水密网格。3.4. 增强型TSDF融合2D厚度预测可用于通过融合多个帧或甚至形成单个视图来恢复3D形状。为此，我们引入了一种基于Curless和Levoy方法的增强型3D融合算法[9]。厚度信号对深度测量的亲和力允许容易地集成到现有框架中。1.00.50.00.51.0电话：+86-0512 - 88888888传真：+86-0512 - 88888888距离（m）图6：具有合成YCB数据集预测的训练数据示例。由于域随机化和子采样，对象很难识别。厚度是由一个完全训练的网络预测的，其性能报告如下。图5：我们的厚度增强TSDF和标准TSDF的曲线图。我们展示了一个1.0 m厚2.0 m的表面示例。新的TSDF φ（z）的值取决于截断值τ，该截断值τ定义了前表面和后表面分别位于其中的边缘;d和t表示像素u处的深度和厚度值，z表示沿着对应于该像素的相机射线的位置：1z≤d−τ，d−z[36]表明，某些属性的随机化导致了关于该特征的学习的鲁棒化。因此，我们渲染对象与随机数量的灯光，强度，颜色和位置。这种域随机化方法旨在引导网络忽略环境特征并专注于形状线索。我们的渲染管道以640×480的分辨率渲染深度和RGB，对象与相机的距离是随机的。然后，我们使用对象的边界框裁剪图像，并使用双线性sam调整裁剪的大小τd−τ z d+τ，pling，模拟物体检测过程。增加更多φ（z）=−1d+τ≤z≤d+t−τ，d+t-z（一）现实背景我们把渲染对象放在前面从纽约大学−τd+t−τ z d+t+τ，n=1z≥d+t+τ。所得到的TSDF曲线如图5所示。与[27]等方法相比，该重建算法数据集[26]。所得到的数据集包括YCB数据集中86个对象的每个模态2000个图像。图6示出了训练数据集的样本以及网络预测和地面实况横截面。交叉-标准TSDF我们上采样1上采样2Resblock 8-13上采样3重新封锁4-7上采样4重新封锁1-3上采样5Conv+子样品Resblock14-16TSDF值1521图7：使用真实边界框和分割对YCB视频数据集进行预测截面厚度使用Blender1中的自定义着色器渲染。根据设计，着色器仅返回可见曲面厚度。后续曲面将被忽略。这一选择的灵感来自于我们对多视图融合的关注。我们的方法允许通过融合多个视图的预测厚度来增量细化通过不预测未观察到的表面的厚度，我们避免了从幻觉结构中整合错误的信息为了弥合真实数据和合成数据之间的差距，我们在[43]中提出的YCB视频数据集上微调网络。该数据集由90个表格视频组成Asus Xtion Pro Live拍摄的顶级场景。每个RGB和深度图像都伴随有语义标签、边界框和对象相对于相机的姿态我们利用这些信息在Blender中复制场景并渲染厚度帧。然后，我们使用边界框和标签来裁剪深度和厚度的单个对象的补丁，并创建相应的轮廓。通过这种方式，我们渲染100个厚度图像for each每of 80 of the videos视频.5. 结果为了分析该方法的有效性，我们训练了X-Section并设计了三个实验。在2D中，我们与验证集进行比较。由于我们的方法从RGB-D帧预测看不见的信息，因此可以将其视为形状完成问题。因此，我们对管道进行并且示出相对于场景的体素化表示的差异。ResNet主干在ImageNet上进行了预训练，整个网络训练了40个epoch，学习率为1e−5，批量为50，128x92张图像。我们保留10%的数据集作为验证集。该模型然后对来自YCB视频的数据进行微调，省去12个序列用于验证。我们发现10个时期足以达到令人满意的结果。5.1. 二维评估据我们所知，还没有提出相关的方法来预测物体的横截面厚度。因此，我们采用训练集中对象的所有像素的平均厚度作为参考。我们测试了X-Section的两种变体，一种是ResNet 50，另一种是ResNet 101。两个网络都是在相同数量的数据上训练的。我们将tp和tp定义为地面实况和预测厚度，分别在N个像素上，我们计算度量：1Σ|tp−tp|ABS.相对差异=，（2）N tp1tp−tp2平方相对差=，N t p[12]第12话最后，我们融合多个预测对数均方根=.1Σlogtp−logt1https：//www.blender.org/Np地面实况我们深度pRGB +标签p1522我们ResNet 101ResNet 50基线DSRGB-DDSRGB-D绝对相对差96.0443.8194.3013.8964.047平方相对差4.0740.0470.0560.0450.059RMSE（线性）0.0260.0150.0150.0130.014RMSE（log）1.5450.7000.6930.6710.689表1：YCB视频数据集的2D评估结果。厚度以米为单位测量。我们测试不同的输入，深度与轮廓（DS）和RGB与深度（RGB-D）。基线是训练数据集上的平均厚度。结果汇总在表1中。正如预期的那样，网络在所有测试中的表现都优于平均值。可以注意到，两个不同版本的X-Section之间的性能差距并不显著。这表明，将场景分解为较小的组件简化了任务，需要较小的网络。需要进行更彻底的调查，以得出结论，并作为未来的工作。基线的绝对相对差的大值是任务的以视图为中心的公式化的结果，该公式化使得数据依赖于观察射线的因此，在光线与曲面相切的对象边界处，厚度值X-Section为这个指标产生如此低的值的事实表明，网络实际上已经学会了连贯地预测形状。5.2. RGB D与深度和轮廓为了隔离大部分信息的存储位置，我们训练了一个以RGB和深度作为输入的网络，以及一个以深度图像和轮廓作为输入的网络。如表4和表2所示，使用RGB和深度会导致性能下降。当输入中传递掩码时，网络在进行预测时考虑掩码，并且这引导学习更好地利用存储在描绘对象的像素中的是5厘米，使它很难直接测试它在桌面scenar- ios。相反，Voxlets [12]在桌面场景中展示，并提供经过训练的模型和数据。我们在[12]发布的数据集上运行我们的管道，我们选择了8个检测率最高的场景作为地面实况，我们使用提供的体素网格大多数实例对网络来说是全新的，它们的形状也不平凡。数据集的对象的示例是盒子、鞋子、茶壶和铸造头。我们认为这个困难的场景彻底测试了网络的泛化能力。我们在单个帧上运行我们的流水线，并将我们的单视图重建与Voxlet中图10显示了用我们的方法重建的场景，我们实现的仅深度融合算法，Voxlet的输出和参考完整卷。在使用第3.4节中描述的算法融合TSDF体积中的预测之后，我们通过在3D网格中对获得的TSDF值进行二进制化来恢复occu-duration值我们将体素分类为占用，如果TSDF值-UE小于截断值τ，否则为自由。将Vg称为地面真值体积，将Vx称为用X截面预测重构的体积，可以计算交集对并集、精确度和召回率为：虽然原则上RGB数据应该包含形状重建的重要信息，但这种类型的输入IOU=不VgSV x，P=ptpt， R =.是受领域适应影响最大的。是VgVxpt+ntpt+nf也要考虑到深度保留了形状的直接信息，并且它可能导致网络忽略颜色数据中的线索。该分析倾向于使用2.5D草图进行形状恢复。然而，对这种类型的算法的最佳输入的更强的结论需要更彻底和精确的分析，这超出了这项工作的范围。5.3. 与Voxlets的我们的重点是检索几何信息从一个不完整的测量环境。这使得这项工作与3D形状完成密切相关，例如[11]或[12]。前一种方法的体素分辨率其中pt是真阳性预测的数量（因此，被正确预测为属于对象体积的体素），nt表示真阴性的数量，并且nf表示假阴性的数量。表4显示了X-切片相对于基线的几个百分比的年龄点。我们对这些数据的方法的准确性背后有几个原因。一个关键因素是，用于此基准的对象与数据集中的对象不相比较，因此网络不仅看到了新的视图，而且看到了所有输入的新模型和新类此外，我们的方法不能完成没有深度读数的场景。这导致当对象被1523基线我们的（X-部分）ResNet 101个碱基ResNet 50基VoxletsDFDSRGB-DDSRGB-DIOU0.7130.3270.7610.6200.7590.651精度0.8930.8870.8940.8750.8370.882召回0.7790.3410.8360.6800.8900.713表2：检测到所有对象的序列与Voxlet [12]的比较结果作为基线，我们采用Voxlets和我们通过TSDF平均（DF）实现的深度融合算法。图8：在YCB视频序列中提出的增强融合。顶行，深度帧与TSDF平均（DF）的融合。最下面一行，建议的增强融合。我们选择了空间距离遥远的帧。从左到右，帧0、60、120和270的融合闭塞另一方面，Voxlet试图填补空白，在所选指标中得分更高。为了研究错误对象检测器的影响，我们在所有对象都成功分割的序列上运行管道如表2所示，在这种情况下，预测的准确性超出了Voxlets的实现;显示出令人印象深刻的泛化能力。目标检测阶段的使用导致在通用性方面的折衷。隔离单个对象可以跨不同的系统和环境移植，而不需要任何重新训练或微调。然而，Voxlet需要在每种不同的场景类型上进行训练。5.4. 多帧融合评估X-Section管道的主要应用是在多帧融合系统中集成厚度预测。YCB视频数据集[43]提供了对象相对于相机的相对我们使用此信息组成的场景，并产生一个坚实的体素化被用作地面实况近似。图7显示了我们的流水线在验证的样本帧上的结果数据集。使用第3.4节中的算法，我们融合了12个验证序列中每个序列的前50帧的预测。图9报告了根据数据集的序列0052和0048融合的每个帧计算的度量。在这两个场景中，我们报告的IoU和召回率几乎是通过仅融合深度帧获得的两倍。这是显式重建体积而不是像传统TSDF融合算法那样仅重建表面的结果。然而，我们准确地恢复物体的形状也很重要这反映在精度指标上。在这种特定情况下，恢复的体素中有90%是真阳性，与仅使用传感器读数的仅深度融合的性能相匹配。表3报告了每个验证序列的所有度量的平均值。IoU和召回率总是有利于建议的管道。在某些序列上，我们的方法在精度方面略有不足。由于所提出的方法预测了困难场景中的不可见表面，因此网络预测了一小部分假阳性。这个缺点可以通过预测一个DF我们1524004800490050005100520053DF我们DF我们DF我们DF我们DF我们DF我们IOU0.2990.5350.3460.5130.2330.3920.3550.7350.2640.6930.2520.395精度0.7870.8410.7450.6590.8720.8040.8940.9010.9110.8810.4840.535召回0.3260.5960.3930.6980.2410.4330.3710.7800.2710.7640.3450.600表3：对YCB视频数据集前50帧的平均多帧融合的评估[43]。我们比较我们的修改后的TSDF融合的第3.4节和深度只有融合算法，标记DF。00481.00.80.60.40.20.01.00.80.60.40.20.0IOU01020304050IOU01020304050召回01020304050召回精度01020304050精度01020304050DF VOXLETS参考我们的DF VOXLETS参考图10：重建结果和与Voxlet的比较。每行显示两个不同的重建场景。从左到右：使用预测厚度的融合算法的结果、通过TSDF平均（DF）的仅深度融合的结果、Voxlet的输出和参考模型。图9：为确认保留的YCB视频数据集[43]的两个序列的多帧融合评价。上序列0048，下序列0051。红色实线表示我们的方法的结果，蓝色虚线显示仅深度融合算法的性能。每个像素的不确定性，并将其用于概率映射。这方面的调查留待今后工作进行。图8报告了另一个验证序列的多视图融合结果。重建的场景从观察到的表面的背面示出。对于桌面场景，帧在空间上相对远离下一行显示了第3.4节中描述的厚度融合算法的结果。结果表明，一致的预测和随着时间的推移，重建质量提高。每当没有厚度信息时（例如，具有表表面），仅融合深度（即，传统的TSDF）。6. 结论和今后的工作在这项工作中，我们提出了一个新的任务，预测的横截面厚度的对象在一个场景。我们介绍了一个模型来解决这个问题，它涉及到将场景分解为单个对象，预测厚度，然后重新组合场景。我们的实验表4：我们在Voxlets数据集上对Mask R-CNN缺失检测的八个序列的方法进行了3D评估。我们通过TSDF平均（DF）显示了对Voxlet和仅深度融合的比较。表明，我们可以训练我们的模型，并通过对传统融合算法的简单扩展来恢复物体的3D为了克服域自适应的困难，我们对现实世界的图像进行了微调。这被证明是测试时间性能的核心。我们证明了预测对象的横截面厚度的方便性和紧凑性，以及它在重建场景中的有用性。此外，预测一个层仅具有将估计限制于观察到的表面的优点，避免了由网络幻觉场景的不可观察部分引起的不准确性另一方面，这可能产生不完整的模型。有不同的方法来处理这个问题，我们的目标是在未来的工作中调查一些。005101020304050DF OursVoxletsDF我们（ResNet 101 -DS）IOU0.6220.2340.440精度0.8110.6950.703召回0.7350.2610.5361525引用[1] 布鲁斯·鲍姆加特。计算机视觉的一种多面体表示法。在1975年5月19-22日的会议记录中，国家计算机会议和博览会，第589ACM，1975年。2[2] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。用卷积神经网络进行生成和判别体素建模。arXiv预印本arXiv：1608.04236，2016。3[3] Berk Calli，Aaron Walsman，Arjung Singh，SiddharthaSrini-vasa，Peter Abbeel，and Aaron M.美元. 操纵研究中的基准：使用耶鲁大学伯克利分校的对象和模型集。IEEE Robotics Automation Magazine，22（3）：36-52，2015年9月。二、四[4] Hao Chen ， Xiaojuan Qi ， Lequan Yu ， Qi Dou ， JingQin，and Pheng-Ann Heng. Dcan：用于组织学图像对象实例分割的深度轮廓感知网络。医学图像分析，36：135-146，2017。3[5] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割。arXiv预印本arXiv：1712.04837，2017。3[6] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上，第628-644页施普林格，2016年。3[7] Ronald Clark，Michael Bloesch，Jan Czarnowski，StefanLeutenegger，and Andrew J Davison.学习解决单目立体的非线性最小二乘。在欧洲计算机视觉会议（ECCV）的会议记录中，第284-299页，2018年。2[8] Antonio Criminisi，Ian Reid，and Andrew Zisserman. 单视图计量。International Journal of Computer Vision，40（2）：123-148，2000. 3[9] Brian Curless和Marc Levoy。从距离图像建立复杂模型第23届计算机图形和交互技术年会论文集，第303-312页ACM，1996年。二、四[10] AngelaDai ， MatthiasNie ßner ， MichaelZoll höfer ，ShahramIzadi，and Christian Theobalt.Bundlefusion：使用动态表面重新整合的实时全局一致3d重建。ACMTransactions on Graphics（TOG），36（4）：76a，2017. 2[11] Angela Dai ， Daniel Ritchie ， Martin Bokeloh ， ScottReed，JürgenSturm，andMatthiasNießner.Scancomplete：用于3D扫描的大在CVPR，第1卷，第2页，2018年。二、六[12] Michael Firman，Oisin Mac Aodha，Simon Julier，andGabriel J Brostow.从单个深度图像结构化预测未观察到的在IEEE计算机视觉和模式识别会议论文集，第5431-5440页，2016年。二五六七[13] Matheus Gadelha，Subhransu Maji和Rui Wang。从多个对象的2D视图的3D形状归纳在3D Vision（3DV），2017年国际会议，第402-411页。IEEE，2017年。3[14] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习对象的可预测和生成矢量表示在欧洲计算机视觉会议上，第484-499页施普林格，2016年。3[15] JunYoung Gwak，Christopher B Choy，Manmohan Chan-draker，Animesh Garg，and Silvio Savarese.具有对抗约束的弱监督三维重建。在3D视觉（3DV），2017年国际会议上，第263IEEE，2017年。3[16] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。在2017年国际计算机视觉会议（ICCV）的会议记录中。3[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第770-778页，2016年。3[18] Derek Hoiem、Alexei A Efros和Martial Hebert。自动照片弹出。在ACM图形交易（TOG），第24卷，第577-584页中。ACM，2005年。3[19] 堀友一安住健一新井清进入图片之旅：使用蜘蛛网接口从单个图像制作动画。第24届计算机图形和交互技术年会集，第225-232页。ACM出版社/Addison-Wesley出版公司1997. 3[20] Andrey Kurenkov ， Jingwei Ji ， Animesh Garg ， VirajMehta，JunYoung Gwak，Christopher Choy，and SilvioSavarese. Deformnet：用于从单个图像重建3d形状的自由形式变形网络。arXiv预印本arXiv：1708.04672，2017。3[21] Wenbin Li ， Sajad Saeedi ， John McCormac ， RonaldClark ， Dimos Tzoumanikas ， Qing Ye ， YuzhongHuang，Rui Tang，and Stefan Leutenegger.内部网：大规模多传感器照片逼真的室内场景数据集。2018年英国机械视觉会议（BMVC）。4[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C. 劳伦斯·齐特尼克。微软coco：上下文中的公用对象。计算机视觉- ECCV 2014，第740-755页，2014年3[23] Charles Loop ， Qin Cai ， Sergio Orts-Escherano ， andPhilip A.小周啊。一个封闭形式的利用发生概率的中子聚变方程。在2016年第四届国际3D视觉会议（3DV）上，第380-388页，2016年10月。1[24] John McCormac ， Ronald Clark ， Michael Bloesch ，Andrew Davison，and Stefan Leutenegger. Fusion++：体积对象级猛击。在2018年3D视觉国际会议（3DV）上，第32-41页。IEEE，2018年。2[25] 作者声明：Dr.辛顿校正线性单元改善受限玻尔兹曼机。在2010年第27届国际机器学习国际中，ICML3[26] Pushmeet Kohli Nathan Silberman，Derek Hoiem和RobFergus。室内分割和支持从rgbd图像推断。ECCV，2012年。41526[27] Richard A. 作者： Newcombe ， Shahram Izadi ， OtmarHilliges，David Molyneaux，David Kim，Andrew J.戴维森，这是科希，杰米·肖顿，史蒂夫·霍奇斯，安德鲁·菲茨吉.运动融合：实时密集表面映射和跟踪。2011年10月，第10届IEEE混合与增强现实，第127二、四[28] Mukta Prasad和Andrew Fitzgiant。曲面的单视图重建计算机视觉和模式识别，2006年IEEE计算机协会会议，第2卷，第1345-1354页IEEE，2006年。3[29] Mukta Prasad，Andrew W Fitzgills，and Andrew Zisser-man. 从轮廓快速可控的3d建模在Eurographics（ShortPresentations），第9-12页，2005年。2[30] Gernot Riegler，Ali Osman Ulusoy，Horst Bischof，andAn- dreas Geiger. Octnetfusion：从数据中学习深度融合。在3D视觉（3DV），2017年国际会议上，第57-66页。IEEE，2017年。2[31] Abhishek Sharma Oliver Grau和Mario FritzVconv-dae：无对象标签的深度体积形状学习。欧洲计算机视觉会议，第236施普林格，2016年。3[32] Daeyun Shin Charless Fowlkes和Derek Hoiem。像素、体素和视图：单视角三维物体形状预测的形状表示方法研究。在IEEE计算机视觉和模式识别会议（CVPR），2018。2[33] Daeyun Shin，Zhile Ren，Erik B Sudderth，and CharlessC Fowlkes.用于三维场景重建的多层深度和核线特征变换。在IEEE计算机视觉国际会议（ICCV）的会议中，2019年。3[34] Shuran Song、Fisher Yu、Andy Zeng、Angel X Chang、Mano-lis Savva和Thomas Funkhouser。语义场景完成从一个单一的深度图像。第30届IEEE计算机视觉与模式识别会议论文集，2017年。二、四[35] 尼克·欧·桑德豪夫、T·朗·T·范、亚·阿西夫、迈克尔·米尔福德和伊恩·里德。有意义的地图与面向对象的语义映射。在智能机器人和系统（IROS），2017年IEEE/RSJ国际会议上，第5079- 5085页。IEEE，2017年。2[36] Martin Sundermeyer、Zoltan-Csaba Marton、MaximilianDurner、Manuel Brucker和Rudolph Triebel。基于隐式3d方向学习的rgb图像6d目标检测。在欧洲计算机视觉会议（ECCV）上，2018年9月。4[37] 亚历山德鲁·泰莱亚一种基于快速行进法的图像修复技术。 J. Graphics ， GPU ， Game Tools ， 9 ： 23-34 ，2004。3[38] Shubham Tulsiani、Alexei A Efros和Jitendra Malik。多视图一致性作为学习形状和姿态预测的监督信号。计算机视觉和模式识别（CVPR），2018年。3[39] Emanuele Vespa ， Nikolay Nikolov ， Marius Grimm ，Luigi Nardi，Paul H. J. Kelly和Stefan Leutenegger。支持符号距离和占用映射的高效基于八叉树的体积slam。IEEE Robotics and Automation Letters，3（2）：1144-1151，2018年4月。2[40] Chamara Saroj Weerasekera，Yasir Baghdf，Ravi Garg，and Ian Reid.使用表面法线的密集单目重建。在机器人与自动化（ICRA），2017年IE

下载后可阅读完整内容，剩余1页未读，立即下载