RevealNet：通过RGB-D扫描揭示物体背后的完整几何形状

83 浏览量更新于2023-10-25 收藏 1.84MB PDF 举报

2098

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2098RevealNet：在RGB-D扫描中看到物体背后德国慕尼黑工业大学图1：RevealNet将RGB-D扫描作为输入，并学习“看到物体背后”：从扫描的彩色图像和几何体（编码为TSDF）中，检测观察场景中的对象（作为3D边界框和类标签），并针对每个对象，预测该对象的完整几何体作为每个实例的遮罩（在可见和不可见区域中）。摘要在3D重建期间，通常情况下，人们无法从所有视图扫描每个单独的对象，从而导致在捕获的扫描中丢失几何形状。这种缺失的几何形状可能从根本上限制了许多应用，例如，机器人需要知道看不见的几何形状以在物体上执行精确的抓取。因此，我们引入语义实例完成的任务：从场景的不完整的RGB-D扫描中，我们的目标是检测各个对象实例并推断它们的完整对象几何形状。这将为与场景中的对象进行交互开辟新的可能性，例如虚拟或机器人代理。我们通过引入RevealNet来解决这个问题，RevealNet是一种新的数据驱动方法，可以联合检测对象实例并预测其完整的几何形状。这使得能够将扫描的场景分解成单独的、完整的3D对象，包括隐藏的和未观察到的对象部分。RevealNet是一个端到端的3D神经网络架构，利用联合颜色和几何特征学习。我们的3D网络的完全卷积性质使得能够在单个前向传递中以大型室内环境的规模有效地推断3D扫描的语义实例完成。我们发现，预-口述完整的对象几何结构提高了3D检测和实例分割性能。我们对新任务的真实和合成扫描基准数据进行了评估，在ScanNet上，我们在mAP@0.5中的表现优于最先进的方法超过15，在SUCG上的mAP@0.5超过181. 介绍理解3D环境是计算机视觉、图形和机器人等许多任务的基础特别地，为了有效地导航，并且此外与环境交互，对场景的几何形状和其包括的对象的理解是必要的。这与重建的RGB-D扫描的部分性质形成对比;例如，在一个实施例中，因为传感器堵塞例如，对于一个探索环境的机器人来说，它需要推断物体在哪里，以及它看到的物体后面是什么，以便有效地导航或执行抓取等任务。也就是说，它不仅需要场景中对象的实例级知识，而且还需要估计这些对象的缺失几何形状此外，对于内容创建或混合现实应用程序，捕获的场景必须是可分解的2099转换成其完整的对象组件，以便实现诸如场景编辑或虚拟-真实对象交互的应用;也就是说，仅仅针对观察区域分割对象实例通常是不够的。因此，我们的目标是解决这个任务的先前的方法已经独立地解决了这些任务：3D实体分割从部分扫描的可见表面分割对象实例[43，14，46，45，18，26，23，8]，3D扫描完成方法预测整个场景几何形状[39，7]，但缺乏单个对象的概念。相比之下，我们的方法侧重于实例级别，因为实例的知识对于实现与环境中的对象的交互是必不可少的。此外，语义实例完成的任务不仅是重要的，使对象级的理解和与3D环境的交互，但我们也表明，预测完整的对象几何形状的形式语义实例分割的任务。因此，为了解决语义实例完成的任务，我们建议考虑实例检测和对象完成端到端，完全可区分的方式。从场景的输入RGB-D扫描中，我们的RevealNet模型可以看到物体的背后，以预测每个物体首先，对象边界框检测和回归，其次是对象分类，然后预测完整的对象几何形状。我们的方法利用了一个统一的骨干，从实例检测和对象完成预测，使信息流从完成到检测。我们结合了扫描场景的彩色图像和3D几何形状的特征，以及全卷积设计，以便有效地预测不同大小场景的完整对象分解为了解决真实世界扫描的语义实例完成任务，其中地面真实完整几何不容易获得，我们进一步为ScanNet [4]引入新的语义实例完成基准，利用Scan2CAD [1]注释来评估语义实例完成（和语义实例分割）。总之，我们提出了一个完全卷积的端到端3D CNN公式来预测3D实例完成，该公式在mAP@0.5上的实际性能比最先进的解耦方法在语义实例完成方面高出15.8。全球扫描数据，mAP@0.5合成数据为18.5：• 我们介绍了语义实例完成的任务3D扫描;• 我们提出了一种新的，端到端的3D卷积网络，它预测3D语义实例完成对象边界框，类标签，并完成物体几何形状，• 语义实例完成任务可以提高语义实例分割和检测性能。2. 相关工作目标检测和实例分割卷积神经网络的最新进展现在已经开始推动2D图像的目标检测和实例分割取得令人印象深刻的进展[9，33，23，32，20，13，21]。结合合成和真实世界3D数据[4，39，2]的日益可用性，我们现在看到3D对象检测[37，38，31，30]的更多进步。滑动窗口[37]从深度图像预测3D对象边界框，设计手工制作的功能，以滑动窗口的方式检测对象。然后，深度滑动优化[38Frustum PointNet [31]通过首先检测2D图像中的对象，然后将检测到的框投影到3D中以产生最终细化的框预测，来解决RGB-D帧的对象检测问题。VoteNet [30]提出了在深度学习的背景下通过端到端可区分架构进行Hough投票的重新模拟，用于3D检测目的。最近，已经引入了几种方法来执行3D实例分割，适用于单帧或多帧RGB-D输入。Wang et al. [43]引入了SGPN，通过聚类语义分割预测来对点云进行操作。Li等人。[46]利用基于对象提议的方法来预测点云的实例分割。同时，Hou et al.[14]提出了一种利用联合颜色-几何特征学习的方法，用于体积数据上的检测和实例分割。Lahoud等人[18]提出使用多任务损失来预测实例分割。Yang et al. [45] and Liu et al.[22]两者都使用自下而上的方法来预测点云的实例分割。我们的方法还杠杆年龄基于锚的对象建议机制检测，但我们利用对象完成预测实例完成，以及表明，完成对象级几何可以提高检测和实例分割性能的体积数据。3D扫描完成3D形状的扫描完成一直是几何处理中研究已久的问题，特别是用于清理破碎的网格模型。在这种情况下，传统方法主要集中在通过局部拟合几何图元或通过连续能量最小化来填充小孔[40，27，47]。点云输入上的表面重建方法[15，16]也可以以这种方式应用于局部优化缺失表面。其他形状完成方法利用先验，如对称性和结构先验[42，24，29，210036，41]或CAD模型检索[25，34，17，19，35]来预测扫描完成。最近，已经开发了利用生成式深度学习的方法来预测3D形状的完整几何形状[44，6，11，12]。Song等人[39]扩展了边界形状，以预测单个深度帧的体素占用，利用几何占用预测来实现改进的3D语义分割。最近，Dai et al.[7]提出了用于全3D场景的数据驱动扫描完成的第一种方法，利用完全卷积的自回归方法来预测完整的几何形状以及3D语义分割。Songet al. [39]和Dai et al.[7]表明推断完整扫描几何形状可以改进3D语义分割。通过我们的3D语义实例完成方法，该任务不仅能够实现需要场景的基于实例的知识的新应用程序（例如，虚拟或机器人与场景中对象的交互），但我们也表明，实例分割可以受益于实例完成。3. 方法概述我们的网络将RGB-D扫描作为输入，并学习将来自彩色图像和3D几何形状的特征连接在一起，以告知语义实例的完成。该架构如图所示。二、输入3D扫描被编码为体积网格中的截断有符号距离场（TSDF）。为了将其与来自RGB图像的颜色信息相结合，我们首先使用RGB图像上的2D卷积层提取2D特征然后，联合特征被馈送到编码器-解码器骨干中，该骨干利用一系列3D残差块来学习语义实例完成任务的表示。通过锚点建议和边界框回归来检测对象;然后使用这些预测的对象框来从主干编码器中裁剪和提取特征，以预测对象类标签以及每个检测到的对象的完整对象几何形状作为每体素占用。我们总共采用了五种损失来监督图1所示二、检测包含三种损失：(1)使用二进制交叉熵来指示存在对象的对象性，（2）使用Huber损失来回归3D边界框位置的框位置，以及（3）使用交叉熵来分类类别标签损失。在检测之后，完井压头包含两个损失：使用二进制交叉熵预测每个体素占用的每个实例完成损失，以及使用二进制交叉熵对场景中所有对象的表面体素进行分类的代理完成损失。我们的方法运行在一个统一的骨干检测接着是实例完成，使对象完成通知对象检测过程;这导致有效的3D检测以及实例完成。它的完全卷积性质使我们能够在3D扫描的裁剪块上进行训练，但在单个前向传递中对整个场景进行测试，从而将扫描有效地分解为一组完整的对象。4. 网络架构从RGB-D扫描输入，我们的网络对扫描的重建几何结构进行操作，编码为体积网格中的TSDF，以及彩色图像。为了从颜色和几何形状中联合学习，首先使用2D语义分割网络[28]在2D中提取颜色特征，然后将其反向投影到3D中以与TSDF特征组合，类似于[5，14]。这使得能够从两种数据模态中学习互补的语义特征。然后，这些特征被输入到我们的网络的骨干，该网络以编码器-解码器风格构造。编码器-解码器主干由一系列五个3D残差块组成，其生成五个体积块。特征图F={fi|i=1。-是的-是的5}。编码器导致空间维度减少了4倍，并且对称-RIC解码器导致空间维度扩展4倍。跳过连接链接空间对应的编码器和解码器特征。有关网络体系结构的更详细描述，请参阅附录。4.1. 彩色背投由于原始颜色数据的分辨率通常比3D几何结构高得多，为了有效地从颜色和几何结构特征中学习，我们通过将从RGB图像学习的2D CNN特征反向投影到3D来利用颜色信息，类似于[5，14]。对于每个体素位置vi=（x，y，z），通过摄像机的内、外矩阵求出其在二维视图中的像素位置pi=（x，y）。我们将位置vi处的体素特征分配给学习到的2D CNN特征向量pi。为了处理相同体素Vi的多个图像观察，我们应用逐元素视图池化;这也允许我们的方法处理不同数量的输入图像。请注意，这种反向投影是可微分的，允许我们的模型进行端到端的训练，并受益于RGB和几何信号。4.2. 对象检测对于对象检测，我们预测每个检测到的对象的边界框以及类标签。为了通知检测，从骨干编码器的特征图F2和F3提取特征我们在这两个特征图上定义两组锚点，As={ai|i=1。-是的-是的Ns}，2101φ图2：我们的RevealNet网络架构将RGB-D扫描作为输入。彩色图像用2D卷积处理，以在反向投影到3D之前对信息进行空间压缩，以与扫描的3D几何特征合并（以下[5，14]）。这些关节特征用于对象检测（作为3D边界框和类标签），然后是每个实例的几何完成，用于语义实例完成任务。与[14]相比，它利用单独的骨干进行检测和实例分割，我们的网络为检测和完成头维护一个统一的骨干，允许完成任务直接通知检测参数。Ab={ai|i=1。-是的-是的Nb}分别表示较大的锚与较大的感受野的特征图相关联。这些锚点As、Ab通过地面实况3D边界框的k均值聚类来对于我们的实验，我们使用Ns+Nb= 9。在这些Ns+Nb簇中，Ab是具有任意轴的>1个。125米，其余的都是A。然后处理两个特征图F2和F3 通过3D区域建议来回归3D对象边界框。3D区域建议首先采用1×1×1卷积层来输出每个潜在锚点的对象分数，从而生成对象特征图，2（Ns+Nb）个通道用于正和负对象性概率。另一个1×1×1卷积层用于预测3D边界框位置，作为锚点的6维偏移量;然后我们应用非卷积层。最大抑制基于客观分数。我们对偏移量与锚点大小的对数比使用Huber损失来回归最终的边界框预测：从F2和F3的边界框位置。我们使用3D兴趣区域池化层将裁剪特征图的大小统一到4×4×4的空间维度，以输入到对象分类MLP。4.3. 实例完成对于每个对象，我们推断其完整的几何形状，通过预测每体素占用。在这里，我们使用预测对象边界框从主干的特征图F5中裁剪特征这些特征通过一系列的5个3D卷积来处理，这些卷积保持其输入的空间分辨率。然后使用二进制交叉熵损失将完整的几何学预测为体素占用。我们为每个类别预测N类潜在的对象完成，并根据预测的对象类别选择最终的预测我们将真实边界框bi和掩码mi定义为γ={（bi，mi）|i= 1。. . N b}。=µ−µ锚xφ锚φintn= ln（）锚此外，我们定义预测边界boxesbxi以及预测的掩码m=γ={（b∈，m∈）|i=1。-是的-是的 N}。你-I I IB其中μ是盒子中心点，φ是盒子宽度。最后的边界框损失是：在训练中，我们只训练与地面实况边界框重叠的预测边界框. 12={（b，m，b，m）|Io U（b≠，b）≥0. 五、L=2μ m，如果|∆| ≤ 2|，否则。|,otherwise.我我我我我我<$（b<$ ，m<$）∈γ<$，<$（b，m）∈γ}我我我使用这些预测的对象边界框，然后我们使用从然后，我们可以定义每个实例的实例完成损失∆2102我显示表浴缸垃圾桶沙发椅子内阁书架avg场景完成+实例分割1.650.644.5511.259.099.090.185.455.24实例分割+形状完成2.273.901.141.6814.869.937.113.035.49我们的13.1611.2813.6418.1924.7915.878.6010.6014.52我们的21.947.6312.5528.2420.3822.5813.429.5117.03我们的26.8613.2122.3128.9329.4123.6415.3514.4821.77表1：在mAP@0.5下，ScanNet [ 4 ]扫描上的3D语义实例完成，Scan2CAD [1]目标。我们的端到端公式实现了比替代的解耦方法更好的性能，这些方法首先使用最先进的扫描完成[7]，然后使用实例分割[14]方法或首先使用实例分割[14]，然后使用形状完成[6]。相关的配对：1ΣL=BCE（sigmoid（m），m′），5.2. 优化我们从头开始联合训练我们的模型我们complm′（v）=|Ω|.Ωmi（v）如果v∈b<$i<$bi0否则。我我使用批处理大小为64的SGD优化器进行对象propos-ALS和16用于对象分类，以及所有正边界框预测（>0.5IoU与地面真值框）用于对象完成。我们使用0.005的学习率，我们进一步引入了一个全局几何完成损失的整个场景的水平，作为一个中间代理。为此，我们使用特征图F5作为二进制交叉熵损失的输入，其目标是场景的所有完整对象实例的组成L几何=BCE（sigmoid（F5），ε（bi，mi）∈γ）.我们的直觉是在训练期间通过将此额外约束添加到最后一个特征图F5中的每个体素来获得强梯度。我们发现，这种全局几何完成损失进一步有助于最终实例完成的性能;参见第6节。5. 网络训练5.1. 数据输入3D扫描表示为编码在体积网格中的截断有符号距离场（TSDF）。TSDF是通过体积融合[3]在3D重建过程。对于我们所有的实验，我们使用的体素大小为104。7cm和3个体素的截断。我们还输入RGB-D扫描的彩色图像，我们使用它们的相机姿势将其投影到3D网格。我们在合成和真实扫描上训练我们的模型，计算机-通过k -均值聚类对9个锚点进行聚类;对于真实世界的ScanNet [4]数据，这会导致4个小锚点和5个大锚点，对于合成SUNC [39]数据，这会导致3个小锚点和6个大锚点。在测试时，我们利用全卷积设计来输入场景的完整扫描及其颜色图像。在训练过程中，我们使用随机的96×48×96作物（4. 5× 2。25× 4。5米）的扫描场景，随着贪婪选择≤5个图像，覆盖裁剪中的大多数对象几何形状。只有那些有50%考虑了作物内部的各种几何形状每10万步衰减0.1倍我们在一台Nvidia GTX 1080 Ti上训练我们的模型20万步（约60小时）以实现收敛此外，我们使用地面实况来增加用于训练对象完成的数据边界框和分类以及预测对象检测。6. 结果我们评估了我们的方法在SUNC [39]场景的合成扫描以及真实世界ScanNet [4]扫描上的语义实例完成性能，其中我们从与Scan2CAD [1]提供的ScanNet对齐的CAD模型中获得地面实况对象位置和几何形状。为了评估语义实例完成，我们在完整的掩码上使用平均精度度量（在IoU 0. （五）。定性结果示于图1A和1B中。3和4与最先进方法的比较为seman，semantic实例完成。表1和表2分别针对我们的真实扫描和合成扫描的语义实例完成任务的最新技术水平评估了我们的方法。ScanNet扫描[4]与Scan2CAD [1]目标（为完整的对象几何结构提供地面实况）的定性比较如图所示。3.第三章。我们比较国家的最先进的三维实例分割和扫描完成的方法顺序使用;也就是说，首先对预测的实例分割应用3D实例分割方法，然后是形状完成方法，以及首先对输入的部分扫描应用场景完成方法，然后是3D实例分割方法。对于3D实例分割，我们评估了3D-SIS [14]，它在密集体积网格表示（我们使用的表示）上实现了最先进的性能，对于扫描完成，我们评估了3D-SIS [14]。2103图3：具有Scan2CAD [1]目标的真实ScanNet [4]场景的定性结果右边是特写镜头请注意，不同的颜色表示可视化中的不同对象实例。我们的方法有效地预测了完整的单个对象几何形状，包括丢失的结构组件（例如，缺少椅腿），在输入扫描观察中的不同程度的不完全性。EPN [6]形状完成方法和ScanComplete [7]场景完成方法。我们的端到端的方法，语义实例完成的结果显着改善，证明由于从实例完成对象检测的信息流的性能。例如，这允许我们的实例完成更容易地适应检测中的一些不准确性，这严重阻碍了解耦方法。请注意，ScanComplete模型应用于ScanNet数据是在合成数据上训练的，因为缺乏完整的地面实况场景数据（Scan2CAD只提供对象地面实况）。实例补全是否有助于实例检测和分割？我们还可以通过获取预测的完整掩码和输入的部分扫描几何之间的交集，来评估语义实例分割任务上的语义实例完成预测。2104驾驶室床椅子沙发 tabl门风德国广播公司Cntr 书桌机架风扇Curtdrsr Mirr电视 nigh 辛劳水槽灯浴奥斯特尔奥弗恩奥普洛普avgSC + IS3.00.6 19.5 0.8 18.1 15.9 0.000.01.02.3 3.0 0.0 0.50.09.2 10.4 23.9 3.49.10.00.00.09.15.5IS + SC0.30.07.40.43.09.10.00.00.20.0 0.0 0.0 2.30.03.00.02.60.01.80.00.00.04.61.5没有颜色19.05 41.8 38.2 11.9 23.9 9.10.00.02.5 21.6 9.1 0.0 12.6 4.6 49.4 33.8 63.4 36.9 38.8 14.7 15.90.023.820.5没有代理12.9 46.1 39.4 26.8 30.3 1.0 15.90.09.1 18.2 3.4 0.0 1.10.0 43.6 34.0 69.1 32.4 29.6 31.1 14.60.023.320.9我们14.7 58.3 38.2 28.8 29.5 0.0 15.9 54.6 9.1 12.1 9.1 0.0 6.20.0 49.4 33.5 61.2 34.5 29.5 27.1 16.40.023.524.0表2：在mAP@0.5时合成SUNC [39]扫描上的3D语义实例完成。我们的语义实例完成方法实现了比其他方法更好的性能，这些方法具有解耦的最先进的扫描完成（SC）[7]，然后是实例分割（IS）[14]，以及实例分割，然后是形状完成[6]。我们还评估了我们的方法，没有颜色输入（没有颜色），没有完成代理网络骨干（没有代理）的损失。图4：SUNC数据集的定性结果[39]（左：全扫描，右：特写镜头）。我们对RGB-D图像进行采样，从SUNC场景内的随机相机轨迹重建不完整的3D扫描。请注意，不同的颜色表示可视化中的不同对象实例。将其作为预测的实例分割掩码。我们表明，预测实例完成有助于实例分割，评估我们的方法对3D语义实例分割有和没有完成，扫描，Net [4]和SUNC [39]扫描，以及3D-SIS [14]，这是一种联合预测3D检测和实例分割的方法，它也对密集的体积度量数据进行操作，在这方面实现了最先进的性能。21053D检测实例分割3D-SIS [14]25.7020.78Ours（nocompl）31.9324.49我们的（没有颜色）29.2923.55我们的（无代理）31.5225.92我们36.3930.52表3：在mAP@0.5下使用Scan 2CAD [1]注释的Scan-Net[ 4 ]扫描上的3D检测和实例分割。我们评估我们的实例完成的实例分割和检测任务的方法，以证明我们的con-sumption，实例完成任务有助于实例分割和检测。我们评估我们的方法与-出完成（无compl），没有颜色输入（无颜色），没有完成代理网络骨干（无代理）的损失。预测实例完成显著提高了预测实例分割和检测的性能（我们的与无完成）。我们还与3D-SIS[14]进行了比较，3D-SIS是一种用于3D密集体积数据（我们使用的表示）的3D检测和实例分割的最先进方法。3D检测实例分割3D-SIS [14]24.7020.61Ours（nocompl）29.8023.86我们的（没有颜色）31.7531.59我们的（无代理）34.0532.59我们37.8136.28表4：在mAP@0.5时对合成SUNC [ 39 ]扫描的3D检测和实例分割。为了证明实例完成任务对于实例分割和3D检测的好处，我们在实例分割任务上评估了我们的语义实例完成方法和合成数据。在表3和表4中，我们可以看到它还提高了3D检测和语义实例分割性能。颜色输入可以帮助吗？我们的方法将3D扫描几何形状作为TSDF以及相应的彩色图像作为输入。我们评估了有和没有颜色输入流的方法;在真实和合成扫描中，颜色输入显着提高了语义实例完成性能，如表1和表2所示。7. 限制我们的方法在语义实例完成任务中显示出巨大的潜力，但仍然存在几个重要的限制。首先，我们为完整的对象几何体输出一个二进制掩码，它可以限制完成所表示的细节量;诸如距离场或稀疏3D表示的其它3D表示[10]可以潜在地解析更大的几何细节。我们的方法还使用轴对齐的边界框对象检测，这将是有帮助的，另外预测对象的方向。我们也不考虑对象随时间的移动，这包含了动态环境中语义实例完成的重要机会8. 结论在本文中，我们通过预测RGB-D扫描中单个对象的丢失几何形状来解决“看到对象背后”的问题。这为与3D对象的复杂交互提供了许多可能性，例如高效导航或机器人抓取。为此我们3D检测预测实例完成明显有利于3D检测和实例分割（我们的与无完成）。表示.我们发现，预测实例完成显着的好处实例分割，由于一个更统一的理解对象的几何结构。此外，我们在表3和表4中评估了对3D检测的影响;预测实例完成也显著提高了3D检测性能。请注意，与使用单独的主干进行检测和实例分割的3D-SIS [14]相比，我们的统一主干帮助3D掩码信息（完整或不完整）通过检测参数传播，以提高3D检测性能。全局完成代理的作用是什么？在表1和表2中，我们展示了几何完成代理损失的影响;在这里，我们看到这种损失提高了语义实例完成性能，引入了语义实例完成的新任务RevealNet是一种新的基于3D CNN的方法，用于联合检测物体并预测其完整的几何形状。我们提出的3DCNN从颜色和几何特征中学习来检测和分类对象，然后以端到端的方式预测对象完整几何形状的体素占用率，这可以在单次向前传递中在完整的3D扫描上运行在真实和合成扫描数据上，我们的表现明显优于最先进的语义实例完成方法。我们相信，我们的方法使更高层次的场景理解的重要一步，并有助于实现基于对象的交互和场景的理解，我们希望这将开辟新的研究途径。致谢这项工作得到了ZD.B、Google研究资助、Nvidia教授合作伙伴关系、TUM-IASRudolfM oßbauerFell奖学金和ERCStartingGrantScan 2CAD（804724）的支持。2106引用[1] Armen Avetisyan ， Manuel Dahnert ， Angela Dai ，Manolis Savva ， Angel X. Chang 和 Matthias Nießner 。Scan 2cad：学习rgb-d扫描中的cad模型对齐在proc 计算机视觉和模式识别（CVPR），IEEE，2019。二五六八[2] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D：从室内环境中的RGB- D数据中学习2017年3D视觉国际会议。2[3] Brian Curless和Marc Levoy。从距离图像建立复杂模型第23届计算机图形和交互技术年会论文集，第303-312页ACM，1996年。5[4] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在proc 计算机视觉与模式识别（CVPR）IEEE，2017年。二五六七八[5] 安吉拉·戴和马蒂亚斯·尼斯纳3dmv：用于3d语义场景分割的联合3d多视图预测在2018年欧洲计算机视觉会议（ECCV）上三、四[6] Angela Dai ， Charles Ruzhongtai Qi ， and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成。在Proc.计算机视觉和模式识别（CVPR），IEEE，2017。三五六七[7] Angela Dai ， Daniel Ritchie ， Martin Bokeloh ， ScottReed，JürgenSturm，andMatthiasNießner.Scancomplete：用于3D扫描的大在Proc.计算机视觉和模式识别（CVPR），IEEE，2018。二三五六七[8] Cathrin Elich ， Francis Engelmann ， Jonas Schult ，Theodora Kontogianni，and Bastian Leibe. 3d-bevis：鸟瞰图实例分割。 arXiv 预印本 arXiv ： 1904.02199 ，2019。2[9] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。2[10] 本杰明·格雷厄姆和劳伦斯·范德马滕。子流形稀疏卷积网络。arXiv预印本arXiv：1706.01307，2017。8[11] Xiaoguang Han ， Zhen Li ， Haibin Huang ， EvangelosKalogerakis，and Yizhou Yu.使用深度神经网络进行全局结构和局部几何推断的高分辨率形状完成。IEEEInternationalConferenceonComputerVision（ICCV），2017年。3[12] ChristianH¨ ne，ShubhamTulsiani，andJitendraMalik. 三维物体重建中的高分辨率arXiv预印本arXiv：1704.00710，2017年。3[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980IEEE，2017年。2[14] Ji Hou ， Angela Dai ， and Matthias Nießner.3D-SIS ：RGB-D扫描的3D在proc 计算机视觉和模式识别（CVPR），IEEE，2019。二，三，四五七八[15] Michael Kazhdan，Matthew Bolitho，and Hugues Hoppe.泊松曲面重建在Proceedings of the fourth Eurographicssymposium on Geometry processing，第7卷，2006中。2[16] Michael Kazhdan和Hugues Hoppe筛选泊松曲面重建。ACM Transactions on Graphics （TOG），32（3）：29，2013. 2[17] Young Min Kim，Niloy J Mitra，Dong-Ming Yan，andLeonidas Guibas.获取具有可变性和重复性的3d室内环境。 ACM Transactions on Graphics （ TOG ）， 31（6）：138，2012。3[18] Jean Lahoud ， Bernard Ghanem ， Marc Pollefeys ， andMartin R Oswald.通过多任务度量学习的3d实例分割arXiv预印本arXiv：1906.08650，2019。2[19] Yangyan Li ， Angela Dai ， Leonidas Guibas ， andMatthias Nießner.实时三维重建的数据库辅助对象检索。计算机图形论坛，第34卷，第435-446页。WileyOnline Library，2015. 3[20] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在CVPR，第1卷，第4页，2017年。2[21] Tsung-YiLin ， Priyal Goyal ， Ross Girshick ， KaimingHe，and PiotrDoll a'r. 密集目标检测的焦面损失。IEEE关于模式分析和机器智能的交易，2018。2[22] 陈柳和古川康孝。Masc：用于3d实例分割的稀疏卷积多尺度arXiv预印本arXiv：1902.04478，2019。2[23] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。2[24] Niloy J Mitra，Leonidas J Guibas，and Mark Pauly. 3d几何图形的部分与近似对称检测。在ACM Transactions onGraphics（TOG），第25卷，第560-568页中。ACM，2006年。3[25] 南亮亮，谢可，安德烈·沙夫。一种用于复杂室内场景理解的搜索-分类方法。ACM Transactions on Graphics（TOG），31（6）：137，2012. 3[26] Gaku Narita ， Takashi Seno ， Tomoya Ishikawa ， andYohsuke Kaji.全景融合：在线体积语义映射-平在一级的东西和东西。 arXiv 预印本 arXiv ： 1903.01177 ，2019。2[27] Andrew Nealen ， Takeo Igarashi ， Olga Sorkine ， andMarc Alexa. Laplacian网格优化在第四届国际会议上的计算机图形和互动技术在澳大拉西亚和东南亚，第381-389页。ACM，2006年。2[28] Adam Paszke、Abhishek Chaurasia、Sangpil Kim和Eu-genio Culurciello。Enet：一个用于实时语义分割的深度神经网络架构。 arXiv 预印本 arXiv ： 1606.02147 ，2016。3[29] Mark Pauly，Niloy J Mitra，Johannes Wallner，HelmutPottmann，and Leonidas J Guibas.发现结构21073D几何中的规则性。在ACM图形交易（TOG），第27卷，第43页。ACM，2008年。3[30] Charles R Qi，Or Litany，Kaiming He，and Leonidas JGuibas.点云数据中三维目标检测的深度霍夫投票。arXiv预印本arXiv：1904.09664，2019。2[31] Charles R Qi ， Wei Liu ， Chenxia Wu ， Hao Su ， andLeonidas J Guibas.从rgb-d数据中检测三维目标的截头体点网arXiv预印本arXiv：1711.08488，2017。2[32] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在IEEE计算机视觉和模式识别集，第779-788页，2016年。2[33] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年。2[34] 邵天佳，徐伟伟，周坤，王敬东，李东平，郭柏宁.用rgbd摄像机进行室内场景语义建模的交互方法ACMTransactions on Graphics（TOG），31（6）：136，2012. 3[35] 石一飞，龙品新，徐凯，黄辉，熊岳山。数据驱动的三维场景理解上下文建模。计算机图形，55：55-67，2016。3[36] 伊万·西皮兰，罗伯特·格雷戈尔，托拜厄斯·施莱克。局部三维网格的近似对称性检测。在计算机图形论坛，第33卷，第131-140页。Wiley Online Library，2014. 3[37] 宋舒然和肖健雄。用于深度图像中的3d对象检测的滑动形状。在欧洲计算机视觉会议上，第 634-651页。Springer，2014. 2[38] 宋舒然和肖健雄。rgb-d图像中非模态3d目标检测的深度滑动形状。arXiv预印本arXiv：1511.02300，2015年。2[39] Shuran Song、Fisher Yu、Andy Zeng、Angel X Chang、Mano-lis Savva和Thomas Funkhouser。语义场景完成从一个单一的深度图像。第30届IEEE计算机视觉与模式识别会议论文集，2017年。二三五七八[40] 奥尔加·索金和丹尼尔·科恩-奥尔。最小二乘网格。在形状建模应用中，2004年。191 -199页。IEEE，2004年。2[41] Pablo Speciale，Martin R Oswald，Andrea Cohen，andMarc Pollefeys.凸变分三维重构的对称先验。欧洲计算机视觉会议，第313-328页。施普林格，2016年。3[42] Sebastian Thrun和Ben Wegbreit。从对称中塑造。在第十届IEEE计算机视觉国际会议IEEE，2005年。3[43] 王维岳，余元，黄千贵，和乌尔里希·纽曼.用于三维点云实例分割的相似性组建议网络。在IEEE计算机视觉和模式识别会议论文集，第2569-2578页，2018年。2[44] 吴志荣，宋舒然， Aditya Khosla ， Fisher Yu ， Lin-guang Zhang ， Xiaoou Tang ， and Jianxiong

下载后可阅读完整内容，剩余1页未读，立即下载