RfD-Net：点云语义实例重构的新方法

177 浏览量更新于2024-01-22 收藏 4.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4608RfD-Net：基于语义实例重构的聂银宇1、2吉厚3韩晓光1、马马蒂亚斯·尼斯纳31伯恩茅斯大学3慕尼黑工业大学图1：从3D场景的不完整点云（N×3）（左），我们的方法学习共同理解具有语义标签的3D对象，姿势（中）和完整的对象网格（右）。摘要从点云的语义场景理解是特别具有挑战性的，因为点仅反映底层3D几何的稀疏集合。以往的工作通常是将点云转换成规则的网格（如体素或鸟瞰图），并采用基于网格的卷积来进行场景理解。在这项工作中，我们引入了RfD-Net，它可以直接从原始点云联合检测和重建密集的物体表面。我们的方法不是用规则的网格表示场景，而是利用点云数据的稀疏性，并专注于预测具有高对象性的形状。通过这种设计，我们将实例重建解耦为全局目标定位和局部形状预测。它不仅减轻了从稀疏3D空间学习2D流形表面的困难，每个对象建议中的点云传达了支持隐式函数学习的形状细节，以重建任何高分辨率表面。我们的实验表明，实例检测和重建呈现出互补的效果，其中形状预测头显示出与现代3D建议网络骨干一致的改善对象检测的效果定性和定量的评估进一步表明，我们的方法始终优于国家的最先进的，并提高了超过11的网格IoU在对象重建。1. 介绍语义场景重建在机器人导航和交互等应用中受到越来越多的关注。联系邮箱：hanxiaoguang@cuhk.edu.cn室内设计它专注于从部分观察（例如图像或3D扫描）中恢复3D场景中对象的对象标签，随着2D CNN的发展，从图像中重建的实例实现了有吸引力的结果[20，45，36，59，33]，但仍然受到深度模糊的影响，从而导致有缺陷的对象位置。与图像相比，点云提供的表面几何形状在很大程度上解决了对象定位问题[49，2，65，7，31]。然而，其固有的稀疏性和不规则性挑战了基于网格的CNN在点云上的直接使用，以进行语义实例重建。由于遮挡、视图约束和弱照明，扫描3D场景通常会导致丢失几何图形，其中单个对象无法在所有视图中覆盖先前的工作已经探索了各种策略来恢复丢失的形状，例如深度修复、体素/TSDF预测和形状检索。深度修复[23，47，28，55]旨在在单个视图中完成深度图。使用2D CNN，这些方法在表面点恢复方面取得了令人满意的结果。为了完成具有被遮挡内容的场景，许多方法将2D CNN扩展到3D，并自然地用体素/TSDF网格表示3D场景[57，63，37，16，13，26，43，14]。该策略还使得能够解码体素标签以在语义或实例级别上完成场景。然而，场景级中昂贵的3D卷积形状检索[3，4，5，30]提供了一种替代方法，通过搜索与不完整对象尽可能相似的CAD模型来预测形状。然而，精度和计算效率取决于模型数据集规模。与体素/TSDF相比，点云呈现稀疏性，并且更具有可扩展性以进行有效学习。到4609据我们所知，很少有作品试图直接从点学习语义实例级别的对象网格。在这项工作中，我们提供了一个从检测重建框架RfD-Net，用于直接从原始点云进行端到端语义实例重建（参见图1）。我们的设计是基于这样的见解，即对象检测提供空间对齐，使更好的局部形状重建。另一方面，稀疏点云中的对象形状指示应该反向改进3D检测的局部几何形状它将场景重建问题归结为全局定位和局部形状预测两个方面。我们的方法嵌入的形状重建头与3D检测器骨干。它利用点云的稀疏性，专注于预测高对象检测到的形状通过这种设计，我们的方法允许隐式函数学习以更高的分辨率重建曲面。在我们的实验中，我们观察到关节形状重建和3D检测呈现互补效果。部署形状预测头在改进现代基于点的检测器方面显示出一致有效，反之亦然，这使得我们的方法在3D检测和实例重建方面始终优于总的来说，我们的贡献如下：• 我们提供了一种新的学习模式，语义实例重建。据我们所知，这是第一个学习方法，预测实例语义与几何直接从点云。虽然先前的方法严重依赖于3DCNN来从体素化场景中学习• 我们提出了一个新的端到端的架构，即RfD-Net，学习对象的语义和形状从稀疏的点云。该方法将语义实例重构分解为全局对象定位和局部形状预测两部分，并通过跳跃传播模块将两部分连接起来，以便于联合学习。通过这种方式，我们的形状生成器支持隐式学习，这直接克服了现有技术中的分辨率瓶颈[26]。• 联合学习对象姿势和形状带来了复杂的好处。实验结果表明，该方法对现代检测技术的改进效果是一致的，在实例检测完成率方面达到了最先进水平，在物体重建方面将网格IoU提高了11以上。2. 相关工作在本节中，我们主要总结了3D深度学习在形状完成，场景完成和从点云重建实例级场景方面的最新工作。形状完成。形状补全的目的是从部分扫描中恢复物体丢失的几何形状。从点云输入，许多方法完成由点[66，58，39，46，29，61]，体素[15，22]，SDF，[38，48，10，42，11]和网格[21，24]。他们中的大多数都有类似的模式，即，为了利用逐点卷积对不完整扫描进行编码（例如，PointNet或PointNet++[51，52]），并预测不可见的部分，孔或缺陷表面，同时保持形状拓扑。他们更注重单个目标的完整性。在这项工作中，我们利用最近的进展，在形状完成场景重建。它支持我们的方法来重建高分辨率的物体在3D场景。场景完成。场景完成的重点是预测，ING所有对象，包括可见和不可见的几何形状从一个不完整的扫描。与形状完成不同为此，一些作品尝试在扫描中对深度帧进行补绘以恢复对象表面[23，47，28，55]。这些方法借鉴了2D CNN，在表面点恢复方面取得了令人印象深刻的结果。类似地，更多的工作将CNN的优势扩展到3D [19，16，13]。他们将不完整的扫描离散化为体素或TSDF网格，并使用3D CNN预测每个体素的占用率，以实现场景的完整性。通过全卷积设计，它还支持与完成联合的场景理解任务，例如语义完成或分割[57，67，35，40，63，60、34、37、9、26、14]。然而，昂贵的3D CNN消耗了大量的计算，这阻碍了它们有限的分辨率，这在实例对象上表现得更加明显在我们的工作中，我们直接从点云中学习。仅考虑检测到的具有高对象性的对象，这使我们能够以更高的分辨率预测网格。实例重建。不仅仅是恢复现场的几何形状。实例重构是指对象的局部化和重构.随着3D扫描仪的出现，早期的工作[44，56，32，8]集中在近似的解决方案，即语义建模。利用CAD模型或具有非线性优化的基元重新确定对象形状在此之后，3D深度学习将这个过程改造成一种可学习的方式，模型检索可以用深度特征匹配代替[3，4，5，30]。语义建模虽然呈现了精细的形状模型，但匹配相似度和推理效率直接依赖于CAD数据集规模。最接近我们的主题是语义实例重构（或完成）。[43]探索了从体素化点云预测形状以及对象检测的可能性。先前的最新技术[26]将3D扫描离散化为TSDF网格，并使用3D CNN预测语义实例的发生率。作为男人-因此，它们的场景分辨率（1096 ×48×96）受到以下限制：繁重的3D CNN计算。因此，我们利用将重建其中以高对象性检测到的对象的点云的稀疏性它支持单个对象重建以恢复高分辨率形状，并共同提高3D对象检测性能。4610图2：网络架构概述。从具有N个点的输入点云，3D建议网络骨干建议被解码成Db-dim框参数的Np个对象建议（D p-dim特征）。通过Top-Nrank dropout层，我们在稀疏点云中保留了具有更高对象性的Nd个建议。建议的这个子集被认为是独立地将相邻的Mp点云分组对齐到聚类中。每个点簇通过我们的点编码器被编码成一个Ds-dim矢量，以回归空间查询点的二进制占用率（x-y-z）来生成网格。3. 方法我们在图2中展示了RfD-Net的架构。我们的方法遵循的基本原则，理解三维场景与在此基础上，我们设计了由三维探测器、空间Transformer和形状发生器组成的网络。我们构建了尽可能通用的架构，用于从点云学习实例形状，这应该灵活地兼容现代基于点的3D建议网络骨干[49，65]。具体地，从输入点云，3D检测器生成框建议以从稀疏3D场景定位对象候选者。然后，我们设计了一个空间Transformer来选择正框建议，并将局部点云分组对齐，以用于下一个对象形状生成。形状生成器独立地学习规范系统中的占用函数来表示命题的形状。我们详细说明每个模块的细节如下。3.1. 在点云中学习对象建议从输入点云P∈RN×3，我们采用VoteNet [49]作为骨干，提出具有Dp-dim特征Fp∈RNp×Dp的Np箱提案。我们使用Fp来预测Db-dim盒参数，包括中心c∈R3，尺度s∈R3，航向角θ∈R，语义标签l和对象性得分sobj（如[49]中参数化的客观性得分是对建议是接近（0.3 m，正）还是远离（>0.6 m，负）任何地面实况对象中心进行分类。我们用2层MLP回归箱参数。在这一部分中，对Fp中的各个提案特征fp进行了总结局部区域的语义和框几何信息，其与原始输入相比具有更高级别模块（参见第3.3节）。它增强了从形状生成到对象检测的梯度反向传播，并且在提高具有不同3D检测主干的对象检测性能方面表现出一致的有效性（参见第5.3节中的分析实验）。3.2. 将点转换为本地点客观辍学。为了获得用于形状生成的对象点，我们开发了一个空间Transformer来将输入点云分组在框建议中，其中对象点在每一个提案中，都被转换并对齐到一个本地规范系统中（见图2）。在组对齐过程之前，我们在训练期间只保留所有建议中的Nd个正框。我们采用Top-Nrank dropout来保留具有较高客观性的Nd个提案（Nd= 10）.与图像不同，三维点云呈现出严重的稀疏性，自由空间占据了大部分区域。阴性样本太多（例如，如果考虑所有框提议，则将涉及没有/很少点或远离任何对象的框此外，大量的计算也降低了方法的效率。在我们的实验中讨论了不同数量的积极建议的影响。在推理过程中，我们用3D NMS模块[49]替换对象丢弃层以产生输出框。组对齐。在Nd个正框建议内，我们从输入点云中采样点。我们使用组层[52]将位于这些盒中心{ci}半径r它产生N-d团簇和M-p在每个集群点，其中我们表示点clus-由{Pc}（i = 1，2，...，Nd，Pc∈ RMp×3）。后来，我我点在我们的方法中，Fp也被用来扩展lo-使用我们的跳跃传播生成形状的cal点我们将不同簇中的点排列成一个典型的共同点，坐标系它是对输入点进行归一化，4611我我我p我我我pp图3：从对象提案生成形状。从正Nd对象提案中的3D点，我们的方法首先学习去噪器（使用PointNet [51]层）以去除背景点。这些清理后的点随后通过具有跳过连接的前提议框特征进行扩展，然后被编码为新的提议特征以解码空间占用值。通过Marching Cubes [41]在预测占用网格上获得对象网格。消除形状预测的空间平移和旋转中的方差。我们通过以下方式制定此流程：Pc=我R−1Σ（θi）+θR·[Pc−（ci+c）]，（一）其中，P= c表示对齐的点簇r。 Ci和θi表示从3D探测器预测的相应盒中心和航向角。 R（·）∈R3×3是旋转矩阵. 因为在这些数据之间会有偏差预测的中心航向角和相应的地面实况，我们通过下式从输入点聚类Pc学习调整（ΔR，Δc）图4：训练中的概率形状生成。从形状发生器到3D检测器的梯度反向传播，并共同改善了形状预测和物体检测（参见第5.2节中的消融）。从扩展的点集群，我们进一步部署PointNet [51] de-.已与剩余控制室签署协议。将它们编码成一个集合[MLPR，MLPc]= MLP 2max{MLP 1（p）}。（二）的新提案特征f∈RDs。∈Pc我在等式2中，每个聚类Pc中的3D点是独立的。形状解码器。我们隐式地将3D形状表示为一个偶然的机会在[4 2，1 1，5 4]上的平移y f u nct i。也就是说，从空间i点p∈R3在形状边界立方体中采样，我们使用MLP1进行动态处理，并逐点进行最大池化在通过MLP2回归到（WAR，WARc）之前，将其转换为全局特征向量。到目前为止，我们已经获得了具有相应建议特征的对齐的3D点{Pc}{fp}正框提案的{Fp}3.3. 从方案生成形状我们在图3中演示了形状生成模块。我们的形状生成器由两部分组成：一个跳跃传播编码器，用于使用聚类扩展建议特征{fp}点{Pc};形状解码器，用于学习spa的形状以扩展提案功能为条件的试用点跳过P ropagation。从建议{Pc}中的3D点，我们首先部署去噪器以保留前景点用于形状生成。它是用PointNet [51]层实现的，以分类一个点是否属于前景。我们使用逐点ReLU层移除这些背景点每个建议中的前景点随后通过跳过连接与来自3D检测器的对应建议特征fp 我们将上游建议特征传播到每个3D点，因为它总结了对象类别和3D尺寸的信息。我们使用它作为形状先验知识来通知解码器进行有效的形状近似。跳跃传播模块桥接学习预测其二进制占用值o∈ {0，1}（形状内部/外部），条件是输入观测（f）。与[42]一样，我们采用条件批归一化[17，18]层来使解码器条件化回归居住价值的建议。此外，由于对象点云通常是部分扫描的，因此它们可能具有多种形状解释。为此，我们将此解码器构建为概率生成器，模型[64，1]（见图4）。具体来说，从输入点{p}，occupancy {o}和建议特征f，我们采用[42]中的潜在编码器并预测均值和标准差（μ，σ）以近似标准正态分布。我们在我们的分布上采样以产生潜在码z ∈RL。然后，在逐点求和之前，将{p}和z处理为具有单层MLP的相等维度，并馈送到五个条件块以回归占位符{o}。在推理期间，潜在代码z是设置为零，我们使用Marching Cubes算法[41]以从空间占用网格中提取网格表面。4. 端到端学习在本节中，我们总结了端到端训练的学习目标和相应的损失。p4612p盒子丢失。3D检测器预测具有语义标签l的提议对象性得分sobj、框中心c、尺度s、航向角θ。与[49]一样，我们用交叉熵监督框建议的对象性损失（Lobj），以分类如果它们位于0.3米（正）或以上范围内，0.6米（负）到任何对象中心。具有积极客观性的建议书将受到以下箱子损失的监督我们使用Smooth-L1loss来监督箱中心损失Lc，并遵循[50，27]将尺度损失Ls和航向角损失Lθ分解为分类的混合，阳离子（交叉熵）和回归（平滑-L1）损失，也就是说，λclsLcls+Lreg.我们使用交叉熵作为语义分类损失（LI）。每个建议都与最近的地面实况框配对进行训练。为了使用VoteNet作为主干，我们涉及额外的投票损失Lv，如[49]所示。至此，上述损失可归结为箱损L箱加权求和。形状损失。对于每个建议中的点，我们用交叉熵监督前景分割损失Lseg。形状生成器学习（µ，σ）以近似标准正态分布，从中抽取一个潜在码z来预测空间查询点{ p }的占用值{o}，条件是建议特征f {o}。那么L形可以用公式表示为：[26]，我们在所有实验中使用官方的训练/测试分裂，并考虑八个对象类别。指标. 我们从场景理解和物体重建两个方面对该方法进行了评价，包括三维检测、单物体重建和语义实例的完成。如[26]所述，3D IoU阈值为0.5（mAP@0.5）时的平均精度用于评估3D检测和语义实例完成，我们采用3D IoU进行单对象重建中的网格评估实施. 我们的网络在预训练3D提案网络之前进行了端到端训练。我们将批量大小设置为8，并在预训练中采用1 e-3的初始学习率，在端到端训练中采用1 e-4的初始学习率，其下降幅度为0.5 每80个epoch。总共使用了240个epoch。在推理过程中，我们用3D NMS [49]替换对象丢失（见第3.1节）以输出3D框，其中这些框中的对象网格从128个3occu-3网格中提取并用Marching Cubes [41]重建。所有对象网格在一个规范系统中预测，并转换为3D场景与预测框姿势。我们在补充文件中提供了完整的参数列表、层规格和效率内存比较标杆我们将我们的方法与上述指标进行比较与之前的国家的最先进的作品在现场reflecc-[25]第26话，一个人，一个人，1L形=NΣNdΣΣKLce（oi，j，oi，j）完全[14]。我们还通过嵌入不同的3D建议网络来di=1j=1Σ（三）骨干网，包括BoxNet [49]，MLCVNet [65]，+KL（p（zi）p（zi））+λsegLseg，[62 ]第62话. 所有结果在我们的实验-使用相同的数据集和分割来训练和测试元素其中，Lce和KL表示交叉熵损失，KL表示相对于交叉熵损失的方向。oi，j和oi，j对应于第j个空间点的预测和地面实况占用我们保留3D扫描的几何数据作为比较的输入。对于一些需要彩色图像的方法，我们保持其原始配置的内联。在第i个临时提案中，p（zi）是预测分布，潜在代码Zi的分布。p（zi）是目标分布，它被设置为标准正态分布[42]。总的来说，我们端到端地训练网络，损失了L=Lbox+λLshape。补充材料中详细说明了平衡不同损失的重量5. 结果和评价5.1. 实验装置数据在我们的实验中使用了两个数据集。1）ScanNetv2 [12]由1，513个真实世界扫描组成，点云在实例级别标记。2)Scan2CAD [3]将ShapeNet [6]模型与ScanNet中的对象实例对齐。它提供对象网格。我们按照[42]对这些对象网格进行预处理，以准备用于形状学习的空间点和ocu值。我们仅使用ScanNet的点云作为输入（在训练和测试中随机采样 80K点），并预测由Scan2CAD监督的对象边界框和网格内联5.2. 与最先进技术的比较定性比较。我们将我们的语义实例完成方法与第一个和当前最先进的工作RevealNet [26]进行了比较。图5说明了ScanNet测试集上不同场景复杂性的一些定性结果（参见补充文件中的更多比较RevealNet将输入扫描离散化为体积网格，该网格被预处理为截断的有符号距离场（TSDF）。他们的网络以3D CNN块为骨干它还可以将2D图像特征反向投影到TSDF网格，以扩展输入扫描的表示。在我们的方法中，只需要几何输入。图5中的结果表明，我们的方法提供了更好的对象框和形状细节质量。原因可能有三个方面：1。与用3DCNN处理整个场景的RevealNet不同，我们的方法利用了点云的稀疏性，并专注于具有更高对象性的对象建议它4613(a) [26]第二十六话 (b)RevealNet [26]（仅限地理位置）（c）Ours（仅限地理位置）（d）GT图5：ScanNet v2上语义实例重构的定性结果[12]。请注意，RevealNet [26]将扫描的场景预处理为TSDF网格，而我们的方法仅使用原始点云。使我们能够忽略那些空白空间并节省计算负荷以高分辨率（128-D）重建感兴趣的对象; 2.将场景体素化为网格显示出在表示精确对象框方面的不足（即，具有轴对齐取向的离散框坐标）;3.我们的形状生成器呈现出联合效果，进一步改进了3D检测器并实现了更好的对象定位。我们进一步定量评估我们的方法对单个任务如下。考虑了两种配置来探索3D检测和形状生成模块之间的互补效果，即，训练我们的网络端到端（w/ joint）或单独训练3D检测器和形状生成器，另一个固定（w/ojoint）。3D物体检测我们通过以下方式与现有技术作品 3D-SIS [25] 、 ML-CVNet [65] 和RevealNet [26]相比（见表2）。3D-SIS将多视图RGB图像融合到TSDF网格中（通过将2D CNN特征反向投影到3D体素）作为输入。它将Faster RCNN [53]的检测模态从2D图像平面调整为3D体素网格。MLCVNet [65]通过考虑对象之间的上下文信息扩展了VoteNet [49]。从结果中，我们观察到，通过联合训练，我们的形状生成模块改进了3D提案网络骨干（即，W/O联合训练），并且帮助我们的方法优于现有技术，这也显示出对其他主干一致有效（参见分析实验）。4614显示浴缸垃圾桶沙发椅子表内阁书架地图Inst Seg [25] + Shape Comp [15]2.271.141.6814.869.933.907.113.035.49扫描补偿[14] +插入分段[25]1.654.5511.259.099.090.640.185.455.24[26]第二十六话13.1613.6418.1924.7915.8711.288.6010.6014.52我们的（不含接头）23.9619.0018.4913.6710.842.8110.1412.6513.94Ours（w/joint）26.6727.5723.3415.7112.231.9214.4813.3916.90表1：语义实例完成的比较。（Inst Seg [25] + Shape Comp [15]）和（Scan Comp[14][25][26 ][27][28][29mAP评分是在网状IoU阈值为0.5时测量的输入地图3D-SIS [25]Geo+图像25.70[65]第六十五话仅地理位置33.40[26]第二十六话仅地理位置29.29我们的（不含接头）仅地理位置32.63Ours（w/joint）仅地理位置35.10表 2 ： ScanNet v2 上的 3D 对象检测。 3D-SIS [25] 和RevealNet [26]结果由作者提供。MLCVNet结果使用原始网络重新训练[65]。参见补充文件中的每个类别分数。对象重建。我们用3D网格IoU评估单个物体的重建质量，其中预测的形状在一个规范系统中与地面进行比较语义实例完成。我们评估我们的方法在语义实例级的场景完成它测量预测的对象网格在3D场景中覆盖地面实况的程度。我们将我们的方法与最先进的工作RevealNet [26]进行了比较。我们还遵循他们的实验，依次将实例分割[25]与形状完成[15]的现有技术相结合，或将扫描完成（[14]）与实例分割[25]相结合，以实现实例级场景完成。如上所述，在我们的方法中的对象网格预测具有更高的分辨率（128-d）。为了进行公平的比较，我们将场景体素化为与它们相同的分辨率。结果列于表1中。这表明，我们的联合方法在很大程度上优于解耦方法，并超过了最先进的 [26]。W/W/O接头的比较真相（与3D检测分离）。请注意，RevealNet [26]中的所有预测和地面实况共享相同的坐标系，即TSDF网格。 RevealNet体素化3D场景，统一体素大小为104。7cm，这导致比例为4的场景的体素约为96×48×96。5×2。25×4。5米然而，对象是以相同的分辨率独立重建的，我们的方法为了进行公平的比较，我们给出了不同分辨率（16-d，32-d，64-d）的结果，并对所有仅使用几何输入的方法进行了基准测试（参见表3中的比较）。实验结果表明，联合训练3D检测器和形状生成器可以提高单目标重建的性能。这意味着更好的盒子建议将产生更好的空间对齐和关于对象属性的有意义的描述（例如，大小和类别），其通知形状生成器更好地近似目标形状。结果还表明，我们的网格质量优于RevealNet，具有较大的边缘（超过11个点）。请注意，64-d的分辨率甚至超过了垂直轴上的场景分辨率[26]。决议3D IoU[26]第二十六话avg. 27-D20.48我们的（w/w/o关节）16-D37.0235.75我们的（w/w/o关节）32-D31.8130.21我们的（w/w/o关64-d26.6524.97节）表3：物体重建的比较。每门课的分数都在补充档案里。4615培训进一步解释了形状生成和3D检测，这与前者的结果是一致的，每个模块的改进将有利于其他模块。对于具有非常薄的结构的对象（例如桌子），我们的方法没有显示出优势，因为3D检测中的轻微未对准更可能影响它们的网格覆盖到3D场景中的地面实况，尽管对象网格被很好地重建。5.3. 分析实验不同的脊椎。在我们的网络中，我们使用VoteNet[49]部署3D提案网络的骨干。我们改变了我们的骨干，以探索联合训练是否仍然有利于其他3D检测网络。我们在实验中考虑了BoxNet [49]，MLCVNet[65] 和 VoteNet+Dynamic Graph CNN （ DGCNN ）[62] 。 BoxNet 直接从点云中的分组点预测 3D 框MLCVNet是VoteNet的一个变体版本，它考虑对象之间的上下文信息。为此，我们还在投票之间配置动态图连接[62]表4中的结果表明，联合训练中的梳理形状预测一致地改善了具有不同骨架的3D不同的点稀疏度。从点云学习使我们的网络适应不同尺度的输入点。我们测试了我们的方法在不同点稀疏度上的鲁棒性，其中我们的网络是用20K，40K4616(a) 20K输入点（b）40K输入点（c）80K输入点（d）GT图6：不同点稀疏度的场景重建。无接头带接头BoxNet [49]20.3122.79[65]第六十五话33.4034.77[62]第六十二话29.8832.30我们32.6335.10表4：具有不同主链的3D检测。8万个输入点。图6和表5中的结果表明，我们的方法仍然可以用非常稀疏的输入（20K）生成合理的场景。3D检测实例完成20K33.8914.3940K34.7515.2380K35.1016.90表5：不同比例的输入点的比较。不同的客观性。在第3.2节中，我们采用ObjectenessDropout来保持具有更高对象性（Top-Nd）的建议框。它确保有意义的对象点作为输入，以从这些积极的建议中学习形状。因此，高Nd将涉及负面建议（例如远离任何对象）并且破坏形状学习，而低Nd将降低学习效率。我们在表6中列出了使用不同Nd的效果。Nd3D检测实例完成534.3314.481035.1016.903033.3714.34特征到点簇，但没有点去噪器（c3）。所有这些配置都是联合训练的。我们在表7中列出了比较结果。结果表明，形状生成的特征提取主要影响下游的形状生成器，进而影响实例的完成，其中结合建议特征和点簇与我们的跳跃传播产生最佳配置。3D检测实例完成C134.8313.97C234.8514.33C335.0315.42充分35.1016.90表7：跳跃传播消融。6. 结论我们提出了一种新的学习模式，即RfD-Net，直接用于点云的语义实例重建。它以一种从检测到重构的方式来解决这个问题。通过全局对象定位和局部形状预测来预测实例形状，并与空间Transformer和跳跃传播模块相连接，以桥接从形状到检测的信息流。它促进了互补效应，并共同提高了3D检测和形状生成的性能实验结果进一步表明，该方法在场景重建中获得了更好的网格质量，在物体重建中优于现有的方法。表6：客观性缺失的不同阈值的结果。在我们的网络中使用了Nd不同的跳跃传播。在第3.3节中，我们传播该提案的特点是{f}到点簇{Pc}的形状3D检测和语义实例完成。致谢。本项目得到国家重点研发&计划项目（项目编号：2018YFB1800800）、广东省重点领域&研发计划项目（项目编号：2018YFB1800800）、2018B030338001，广东省科研项目编号：2017ZT07X152，国家自然科学基金项目61902334，沈-一代为了研究其效果，我们配置了额外的用于形状生成的特征传播的三种方法：1.从没有点簇的建议特征解码形状（Cl）; 2.从没有建议特征的点簇学习形状（c2）; 3.宣传这项建议Zhen 基础研究（一般项目） JCYJ 20190814112007258 ， TUM-IASRudolfM oßbauerFell 奖学金， ERC 启动资助Scan 2CAD（804724），德国研究基金会（DFG）资助，伯恩茅斯大学和中国留学基金会。我们也要感谢Angela Dai教授为我们的工作提供视频配音。4617引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.学习3d点云的表示和生成模型。机器学习国际会议，第40-49页。PMLR，2018年。4[2] Syeda Mariam Ahmed和Chee Meng Chew。基于密度聚类的点云三维目标检测在IEEE/CVF计算机视觉和模式识别会议论文集，第10608-10617页，2020年1[3] Armen Avetisyan ， Manuel Dahnert ， Angela Dai ，Manolis Savva，Angel X Chang，and Matthias Nießner.Scan 2cad：学习rgb-d扫描中的cad模型对齐。在IEEE计算机视觉和模式识别会议论文集，第2614-2623页，2019年。一、二、五[4] Armen Avetisyan，Angela Dai，and Matthias Nießner. 3d扫描中端到端cad模型检索和9dof对齐在IEEE计算机视觉国际会议论文集，第2551-2560页，2019年。一、二[5] ArmenAvetisyan ， TatianaKhanova ， ChristopherChoy ， Den- ver Dash ， Angela Dai ， and MatthiasNießner.Scenecad：预测rgb-d扫描中的对象对齐和布局。arXiv预印本arXiv：2003.12622，2020。一、二[6] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Manolis Savva，Shuran Song，Hao Su，et al.Shapenet：An information-rich 3d model repository. arXiv预印本arXiv：1512.03012，2015。5[7] Jintai Chen，Biwen Lei，Qingyu Song，Haochao Ying，Danny Z Chen，and Jian Wu.基于点云的三维目标检测的层次图网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第392-401页，2020年。1[8] Kang Chen，Yu-Kun Lai，Yu-Xin Wu，Ralph Martin，and Shi-Min Hu.使用上下文信息从低质量rgb-d数据ACM Transactions on Graphics，33（6），2014。2[9] Xiaokang Chen ， Kwan-Yee Lin ， Chen Qian ， GangZeng，and Hongsheng Li.通过半监督结构先验的3D草图感知语义场景完成。在IEEE/CVF计算机视觉和模式识别会议论文集，第4193-4202页，2020年。2[10] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE/CVF计算机视觉和模式识别会议论文集，第5939-5948页2[11] Julian Chibane，Thiemo Alldieck，and Gerard Pons-Moll.特征空间中用于三维形状再现和完成的隐式函数。在IEEE/CVF计算机视觉和模式识别会议论文集，第6970-6981页第二、四节[12] Angela Dai，Angel X Chang，Manolis Savva ，MaciejHal- ber，Thomas Funkhouser，and Matthias Nießner.扫描：室内场景的丰富注释3d重建。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页，2017年。第五、六条[13] 安吉拉·戴克里斯蒂安·迪勒和马蒂亚斯·尼斯纳Sg-nn：用于自监督场景完成RGB-D扫描。在IEEE/CVF计算机视觉和模式识别会议论文集，第849-858页，2020年。一、二[14] Angela Dai ， Daniel Ritchie ， Martin Bokeloh ， ScottReed，JürgenSturm，andMatthiasNießne r. Scancomplete：大规模的场景完成和三维扫描的语义分割。在IEEE计算机视觉和模式识别会议论文集，第4578-4587页，2018年。一、二、五、七[15] Angela Dai ， Charles Ruzhongtai Qi ， and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成。在IEEE计算机视觉和模式识别会议论文集，第5868- 5877页，2017年。二、七[16] Angela Dai ， Yawar Siddiqui ， Justus Thies ， JulienValentin，and Matthias Nießner. Spsg：从rgb-d扫描生成自监督摄影测量场景。 arXiv 预印本 arXiv ：2006.14660，2020。一、二[17] HarmDeVries，FlorianStrub，Je're'mieMary，HugoLarochelle，Olivier Pietquin和Aaron C Courville。通过语言调节早期视觉处理。神经信息处理系统的进展，第6594-6604页，2017年。4[18] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。arXiv预印本arXiv：1606.00704，2016年。4[19] Michael Firman，Oisin Mac Aodha，Simon Julier，andGabriel J Brostow.从单个深度图像结构化预测未观察到的在IEEE计算机视觉和模式识别会议论文集，第5431-5440页，2016年。2[20] 乔治娅·吉克萨里，吉坦德拉·马利克，贾斯汀·约翰逊.网格r-cnn。在IEEE计算机视觉国际会议论文集，第9785-9795页，2019年。1[21] Thibault Groueix，Matthew Fisher，Vladimir G Kim，BryanCRussell，andMathieuAubry. 本文介绍了一种学习三维表面生成的方法.在IEEE计算机视觉和模式识别会议论文集，第216-224页，2018年。2[22] Xiaoguang Han ， Zhen Li ， Haibin Huang ， EvangelosKalogerakis，and Yizhou Yu.使用深度神经网络进行全局结构和局部几何推理的高分辨率形状完成。在IEEE国际计算机视觉会议论文集，第85-93页，2017年。2[23] Xiaoguang Han，Zhaoxuan Zhang，Dong Du，MingdaiYang，Jingming Yu，Pan Pan，Xin Yang，Ligang Liu，Zixiang Xiong Xiong，and Shuguang Cui. 基于体积引导渐进式视图修复的深度强化学习，用于从单个深度图像完成3d点场景。在IEEE计算机视觉和模式识别会议上，第234-243页，2019年。一、二[24] Rana Hanocka，Gal Metzer，Raja Giryes和Daniel Cohen-Or。Point2mesh：可变形网格的自先验。arXiv预印本arXiv：2005.11084，2020。2[25] Ji Hou，Angela Dai，and Matthias Nießner. 3d-sis：rgb-d扫描的3d扫描实例分割进行中-4618

下载后可阅读完整内容，剩余1页未读，立即下载