点云卷积：高效重构三维物体表面

56 浏览量更新于2023-10-25 收藏 3.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6302POCO：点卷积曲面重构Alexandre Boulch1Renaud Marlet1，21Valeo.ai，巴黎，法国2LIGM，EcoledesPonts，Uni vGustav eEif fel，CNRS，Marne-la-Valle'e，法国摘要隐式神经网络已被成功地用于从点云的表面重建。然而，他们中的许多人面临的可伸缩性问题，因为他们编码的isosurface-面对一个单一的潜在向量的功能，一个完整的对象或场景。为了克服这一限制，一些方法在粗糙的规则3D网格或3D补丁上引入潜在向量，并对它们进行插值以回答占用查询。在这样做时，它们失去了与物体表面上采样的输入点的直接联系，并且它们在空间中均匀地跟踪信息，而不是在最重要的地方，即，接近表面。此外，依赖于固定的补丁大小可能需要离散化调整。为了解决这些问题，我们建议使用点云卷积并计算每个输入点的潜在向量。然后，我们使用推断的权重对最近的邻居执行基于学习的插值。在目标和场景数据集上的实验表明，该方法在大多数经典度量上的性能明显优于其他方法，产生更精细的细节，更好地重建更薄的体积。该代码可在https://github.com/ valeoai/POCO上获得。1. 介绍从物体或场景表面采样的3D点构建表面或体积表示具有从数字孪生处理到增强现实和虚拟现实的许多应用。更便宜的传感器直接产生3D点（深度相机，低成本激光雷达）和成熟的多视图立体技术[88，89]对图像进行操作，为这种重建提供了越来越多的机会。传统的3D重建方法[4]通常将目标表面表示为在某些先验约束下的优化问题的解。可能是杠杆老化可见性或正常信息，它们通常可扩展到大型场景，并对噪声和异常值提供相当大的鲁棒性[47，51，71，81，94，103，110，123]。尽管有些人试图应对密度变化[9，42，43]，但这些方法的共同局限性是它们无法正确完成场景中密度较低的部分输入（65536分）SA-ConvONetPOCO（我们的）(a) 第一场56分40秒10分19秒(b) 场景2 1小时38分17分22秒图1.MatterPort3D。POCO在Synthetic Rooms 10k上训练。采样或丢失（通常由于遮挡）。各种手工制作的先验试图解决这个完整性问题：局部或全局平滑度[58]，分解成几何图元[87]（特别是分段平面人造环境[3，6，14，28，72]）和结构化[53，79]。数据驱动的先验也已被探索，基于形状检索[30]，可能与去-6303→点级形状编码局部解码输入点云输入点级别查询点邻域图2. 我们的方法（推理）概述。给定在表面上采样的3D点，我们在每个输入点处构造潜向量。然后，为了估计空间中给定查询点的占用率，我们用推断的权重插值邻域中的相对占用率分数。最后，使用一种形式的Marching立方体基于占用查询（白色模糊表示不确定性）重建网格[73]第七十三话但其适用性仍然有限。为了使用更丰富的先验知识，已经提出了使用显式形状表示的基于学习的方法。基于体素的方法利用规则的网格结构，将基于2D图像的技术扩展到3D，但由于大量内存消耗而受到分辨率限制[20，68，111]。用神经网络直接生成网格仍然很困难[33]，并且在实践中仅限于模板变形[35]。某些形式的隐式表示已用于点云生成，但提供的几何和拓扑信息要弱得多[29，55，119]。显式设计的隐式表示取得了更大的成功，其中网络编码一个函数R3R，表示体积占用[15，69]或到表面的距离[70，77]。这样的模型不需要离散化，可以解决任意的拓扑结构。更多前-准确地说，离散化仅发生在网格生成阶段，使用诸如Marching cubes [63]的算法。然而，由于缺乏平移等方差的全连接架构，大多数现有方法仅对单个对象进行操作，无法应用于任意场景。然而，最近的一些方法[17，18，22，45，80，102]通过卷积神经网络（CNN）获得了一种形式的平移等方差。至少在理论上，它们可以因此扩展到更大的场景，可能受益于本地和非本地信息。但它们是在顶点可能远离输入点云的体素化离散化上操作的因此，它们失去了与物体表面上采样它们也是次优的，因为保持概率或距离信息的特征或潜在向量或多或少地均匀分布在空间中，而不是集中在必须做出困难决定的地方，即，接近表面。我们的方法，基于点卷积，克服了这些问题如图2所示。我们的贡献是：• 我们将表示隐函数的特征附加到输入点。它不仅将点的位置保留到后期处理阶段，而不是过早地将它们抽象出来，而且它还将信息集中在最重要的地方：靠近表面。• 我们使用点卷积来计算特征，这可以产生自然的覆盖范围和可扩展性，以适应任意大小的场景。（而不是定制另一个特定的网络架构，我们依赖于一个通用的点卷积骨干，当设计出更好的点卷积时，它提供了改进的前景。）• 我们不依赖于手工设计的平均形式，而是将先前的学习扩展到插值，我们将其应用于查询相关特征，而不是全局特征，因为它会带来更好的结果。• 我们提出了一个有效的测试时间增强处理高密度或大尺寸的输入。• 虽然简单，但我们的方法在对象和场景数据集上都优于其他方法，产生更精细的细节。它对域转移（对象训练，场景测试）具有鲁棒性，并且比过拟合场景或从头开始推断每个查询的方法更快。2. 相关工作2.1. 3D表示体素是学习表示3D体积的自然选择[20，68，111，113然而，它们在空间上具有立方复杂性，由于内存限制导致粗糙的离散化。多尺度细化[23，39]和基于稀疏性的八叉树[84，85，98]仅部分降低了符合3D网格的影响。注意解码查询时占用位置查询点卷积主干6304输入= 50k点N列车=N测试=3kN列车=N测试=3kN列车=N测试=10kN列车=N测试=10kN视图=10N视图=10Points2Surf图3. 现实世界通过POCO在不同设置和Points2Surf重建的真实世界模型点云也被生成为稀疏的3D表示，具有各种密度和采样分布[1，29，55，65，108，119，120]。点处理和生成不会受到由3D网格引起的复杂性和离散化的影响;然而，在表示实际表面和体积方面，应用范围有限。网格是许多用途的首选表示，例如可视化和模拟，但它们很难直接从神经网络中产生（顶点回归和面构造）[74]。因此，大多数现有方法更倾向于通过变形几何图元[35，56，104，107]，体素化近似[33，54]或学习模板[36，46]来操作。不是实际推断顶点，网格也可以从Delaunay四面体化上推断的标签中提取[64]。隐式表示依赖于神经网络来建模表达给定3D点的占用率[15，69]或其到表面的距离的函数，无论是有符号[34，70，77]，无符号[18]还是符号不可知[2，8]。有符号或无符号距离场（SDF，UDF）通常被截断（TSDF，TUDF）并通过多层感知器（MLP）进行估计。然后，可以使用各种方法（如Marching cubes[63]）从该事件或距离场中提取等值面体素、点和网格顶点本质上是离散表示，而隐式表示提供了几乎无限的分辨率。此外，虽然基于网格的方法努力加强水密性、限制自相交并解决复杂拓扑（非亏格0），但从隐式表示重建的网格保证是水密的并且没有自相交。此外，他们可以很容易地建模任意复杂的拓扑结构。这些优点可以解释这种表示最近的成功，包括在没有3D监督的情况下从图像建模3D形状[60，75，93]，使用纹理[76]或特定渲染[61]。从occu-距离或距离场出发，ShapeGF [10]通过学习其对数密度的梯度场来建模形状，然后在形状的高似然区域上采样点并对其进行网格化。其他工作还研究了将形状和隐式曲面分解为部分[26，31，32，44，78，101]，可能过拟合网络以生成或渲染单个对象或场景[59，67，92，95，109，118，121]。然而，可扩展性是所有这些方法的问题。虽然它们可以很好地编码一个对象或一类对象，但它们无法处理涉及多个对象的任意场景即使考虑单个物体，并假设有一个强大的解码器，单个或几个特征向量的编码也很难发展成详细的形状信息。使用周期性激活函数[92，96]或在输入图像上添加2D卷积分量[86，116]有所帮助，但还不够。一种解决方案是在规则的3D网格上分割输入点，并优化每个体素的一个潜在向量[11]（DeepLS），可能来自重叠的输入补丁。补丁分裂也可以是不规则的，并且优化驱动以支持自相似性，全局后优化以翻转不一致的局部符号[121]（SAIL-S3）。但是，无论这些方法是只优化潜在向量还是优化整个网络，对于补丁解码，它们都会使表面重建显着变慢，导致测试集减少。此外，这些方法依赖于完全连接的架构，而我们相信，卷积，特别是点卷积[5，7，40，52，62，66，100，105，112，117]，是可扩展性和增加细节的关键。2.2. 隐式表示LIG [45]沿着规则的3D网格划分输入点云，以创建3D补丁并以中等比例捕获多个对象共享的局部几何形状。对于这些补丁中的每一个，3D CNN然后计算一个局部特征向量，该特征向量通过一个简化的IM-NET[16]进行SDF解码。然而，稍后，仅利用学习的解码器;不推断局部嵌入。给定一个输入点云，网格上的潜在向量从头开始优化，以最小化目标函数，类似于用于训练的损失。LIG还需要提供定向法线，以利用已知在形状内部或外部的点。然而，这可能会引入人造背面，其可以在后处理阶段部分地被相比之下，我们可以在没有法线的情况下工作，我们直接在曲面点上而不是在规则网格上使用卷积进行运算，我们直接在曲面点上使用卷积进行运算。6305输入SPR神经样条LIG38秒5分09秒5分22秒1分21秒8分11秒5分12秒3分55秒25分17秒5分00秒5分05秒46分44秒5分08秒我们17最小32秒18分钟04秒20分44秒23分59秒图4. 场景网。完整场景的部分视图。点云上的颜色指示法线的方向。使用推断嵌入而不需要任何繁重的优化。IF-Net [17]引入了一个多尺度的3D金字塔，在离散体素网格上对齐并在不同尺度的体素上训练的卷积编码器。查询点的占用率由解码器决定，解码器将在该点处针对每个金字塔级别提取的内插特征作为输入。相比之下，我们不离散成体素;我们使用点云卷积。此外，我们学习如何插值的潜在向量，而不是使用一个基本的三线性插值。最后，我们提供场景上的结果，而不仅仅是对象。NDF [18]使用与IF-Net相同的多尺度编码，但依赖于UDF而不是用于解码的占用。它允许生成非常密集的点云，直接啮合到可能的开放表面中。SG-NN [22]使用稀疏3D卷积[19]在自监督设置中学习TSDF，训练部分扫描完成。相比之下，我们使用点卷积和推断占用率，而不是SDF，这更容易学习。ConvONet [80]还使用基于网格的卷积，训练预测占用率的自动编码器。(It[69]它只使用一个编码和完整的con。nection.）对于输入点云，编码器是对点而不是体素化离散化进行操作的浅PointNet[82]，解码器是3D U-Net[21]。3D点的占有率是从网格特征的三线性插值推断的。除了3D卷积之外，还提出了基于在几个空间方向DP-ConvONet [57]是考虑此类方向的动态族的变体。SA- ConvONet [97]使用隐式字段的符号不可知优化在输入上过拟合预训练的ConvONet模型。它以计算时间为代价提高了精度。当推理应用于网格时，其顶点或中心可能远离输入点，上述方法失去了与输入表面样本的直接连接。它们也是次优的，因为保持信息的潜在向量在空间中均匀分布，而不是集中在最重要的地方，即，接近表面。为了解决这些问题，我们使用点卷积并计算每个输入点的潜在向量然后，我们使用学习的权重插值最近邻居的偶然性决定AdaConv [102]像我们一样使用点卷积，但ag-1000点/平方米100例/m2500例/m220例患者/m26306−∈→ΣP∈P∈ N−∥ −∥NNP潜在矢量坐标K32 3占用预测（空或满）线性层输出大小32SoftMax平均值总和矩阵乘法图5. 架构由查询点q的k个相邻点p的基于卷积的编码器E产生的潜在向量z p（红色正方形）是：（1）用相对查询位置q p（黄色正方形）扩增，（2）用3层逐点MLP R（绿色帧）重新编码成相对潜在向量zp、q（绿色正方形），（3）与推断权重sp、q（灰色正方形）组合（蓝色帧）成潜在向量zq（蓝色正方形），（4）用线性层D（粉红色帧）解码成占用对数oq和概率oq（粉红色正方形）。在自适应体素网格上聚集多尺度信息，同时我们将特征附加到更靠近表面的点此外，它需要定向法线，与我们相反。RetrievalData [91]沿着规则网格分割场景，并通过卷积层将每个3D块编码为潜在向量。但是，它不是使用它们进行解码，而是从训练集中检索相似的块，并将它们的距离场组合起来创建一个表面，从而提高了完成能力。相比之下，我们是完全卷积的，隐式函数是通过插值推断的特征直接获得的，而不需要维护用于训练的数据集样本，并且具有更强的泛化能力。Points2Surf [27]为每个查询点收集一片邻居（这提供了卷积风格）和全局采样的输入点，以帮助为局部距离场提供符号。局部块和全局子采样通过MLP以创建被连接并解码成有符号距离的潜在向量相反，我们直接获得非本地信息，因为我们的感受野要大得多此外，我们更快，因为我们只计算有限数量的潜在向量（每个输入点一个），我们稍后在给定查询点的情况下用于插值，而Points2Surf对局部+全局点进行采样，并针对每个查询点遍历整个编码器，即，随着Marching-cubes分辨率的增加，为了推断查询点的占用率或距离，计算单个对象或场景的几个隐向量的方法要么选择最合适的隐向量进行解码，通常在多尺度网格中[102]，要么插值查询邻居的隐向量[17，18，45，57，80，97]。我们也执行插值，基于输入点上计算的特征。然而，给定一个查询点，我们不插值功能本身，但占用日志，因为我们的实验表明，它会导致更好的结果。此外，我们使用学习的插值而不是通常的三线性插值[17，18，45，57，80，97]或逆距离距离加权[83]。虽然本质上不同，但学习也被用于[91]混合检索到的块。3. 我们的方法目标. 给定一组在表面上采样的3D点作为输入，可能带有噪声，我们的目标是构建一个控制器。连续函数ω：R3[0，1]表示在任何给定查询点qR3处的占用概率oq= ω（q）。我们用神经网络学习这个函数，使用数据集，在整个空间中采样的点云，并标记为0（在空白空间中）或1（在形状内）。然后可以提取形状的表面作为具有占用水平0.5的隐函数ω概况. 我们的方法包括以下步骤：1. 我们将输入点p∈ P编码为潜在向量zp。2. 给定一个任意的查询点q，我们考虑P中输入点的邻域Nq，从其插值。3. 对于每个邻域p∈ Nq，我们从zp和局部坐标q-p构造一个相对潜向量zp，q。4. 我们提取重要性权重sp，q对相对特征向量zp，q求和：zq=p∈Nqsp，qzp，q.5. 我们将得到的特征向量zq解码为两个完整的-清空logitsoq，并将其转换为概率oq。这些步骤如图5所示，将在下面详细介绍。绝对编码。点卷积首先产生一个对于每个输入点p，潜在向量zp=E（p）。编码器E可以通过任何点云分割主干来实现，仅改变最后一层以产生具有某个选定维度n的向量作为向量的大小zp。(In 在我们的实验中，卷积主干是 FKAConv [7] ，n=32。为了也使用法线（可选），输入点仅使用3个法线坐标进行增强。查询邻居。给定一个任意的查询点q（当训练或在测试时预测占用率时），我们从输入点构造一组邻居q(In我们的实验，q是q的k个最近邻，k=64。相对编码。我们增加的潜在向量zp每个邻居pq具有查询点q相对于p的局部坐标q p。这些增强的潜在向量然后由MLPR处理以产生相对潜在向量zp ，q=R（zpq p），其中是关联。(In我们的实验，zp和zp，q具有大小n=32。）特征加权。作为PRNet [106]，我们观察到嵌入zp，q的范数倾向于与它们的重要性相关，暗示输入点p对于确定查询点q的占用有多重要，给定p的邻居和q的位置w.r.t. p. 我们用它来推断占用2基于注意力的加权6432逐点MLPReLU激活323232326307中国n∈Nq∈P∈PPPP−P∈Psoftmaxed为sp，q，i，平均为sp，q=1ispqi（在相对潜在向量zp，q的权重。具体地说，我们使用注意力机制（图5中的蓝色框）：相对嵌入zp，q经过一个由权重向量w参数化的线性层，也是大小为n，产生相对权重wp，q=w zp，q，通过softmax在q上将其归一化为正插值权重sp，q和为1。我们实际上使用多头策略来获得一种形式的集成。我们学习h个独立的线性层，由h个对应的权重向量（wi）i=1. h，产生-最后，将h相关权重wp，q，i=wizp，q，thatnGT输入ConvONet POCO（我们的）在我们的实验中，我们使用h=64。插值查询点q处的特征向量zq为从相邻的隐向量zp，q内插，作为加权和zq=psp，qzp，q。译码线性层D解码特征向量zq转换为占用分数oq=D（zq），其是将位置q分类为占用或未占用的双对数向量，其然后经由softmax转换为占用概率oq。损失函数为了训练网络，我们使用交叉熵损失来惩罚错误的占用预测。请注意，使用二进制交叉熵，如在IF-Net[17]或ConvONet [80]，导致相同的结果。4. 改进适应高密度。我们用固定数量的N个输入点训练我们的网络，以便于小型化。(In我们的实验，Ntrain=3k或10k。）在测试时，如果表面更密集地采样，则骨干的感受野可能缺乏足够的全局上下文来决定表面的哪一侧是满的还是空的，除非定向法线也提供有点。一种足够扩大感受野的方法是对输入点云进行下采样，但这自然会导致细节丢失。为了减少这种影响，我们依赖于测试时间增强（TTA）[50]，这可以被视为一种集成形式：我们对不同子样本的几次运行进行然而，在我们的情况下，聚集最终结果（如TTA [90]中经常做的那样）将非常耗时，因为我们必须这样做才能回答每个查询的占用率，基本上是将推理运行时间乘以子样本的数量。相反，我们执行TTA在潜在的向量水平，从而运行-宁几次，只有我们的方法的第一步（绝对溶质编码），查询解码之前。它取决于输入点的数量（附加一个潜在向量），而不是查询点的数量，后者要大得多。具体地说，我们随机创建足够的子样本，使得每个点p至少被N次观看，并在所有样本上平均每个zp(In实验，N视图=10。）的子样本是通过顺序挑选具有与出现在先前子采样中的次数p相反的优先级的点p适应大尺寸。由于我们的方法是卷积的，图6. ShapeNet。该方法在3k个有噪声的pts上进行了训练和测试。它自然地适应于任意大小的输入点云。然而，虽然可能包含数百万个点，但GPU分类在实践中限制了可以由主干一起处理的点 N 测试的数量。 (We 使用 N 测试=100k。）与语义分割一样[7]，我们可以使用滑动-窗口与最大大小N的测试块重叠。或者，如上所述，我们可以通过迭代地挑选低优先级点p及其N个测试1个最近邻居来进行子样本。(In我们的实验，N视图=3。）场景缩放。在推断时，输入点云的尺度可能与训练集中的尺度不同。由于基于点的主干可能对尺度和密度的变化敏感，因此我们重新缩放输入，使得点与其最近邻之间的平均距离为在训练集和测试点云中都是一样的。5. 实验我们的实验对象和场景，在不同的点密度制度，有或没有正常的信息取决于基线的方法，我们比较。由于现有方法通常在某些设置中表现良好，但在其他设置中表现不佳，因此大多数已发表的论文倾向于在不同的数据集或特定配置中进行评估：训练/测试点的数量，添加的噪声，法线，泛化等。为了公平起见，我们在这些方法的设置中进行评估（当提供足够的信息时），而不是强加给它们特定的设置。它还说明了我们的方法，以适应各种配置的能力。6308k=1K=8k=640.799 6.9512019年12月31日4.069 0.929k=128（c）刑警组织。特征一团 rel.IoU ↑ CD↓NC↑3.611 0.9300.8760.882×5.1. 数据集、基线和指标ShapeNet[13]，如[20]所预处理的，包含13个类中形状的水密网格，具有train/val分割和8500个用于测试的对象。如[80]所述，我们从每个网格（在每个时期）中采样3000个点，并应用具有零均值和标准差0.05的高斯噪声。Synthetic Rooms[80]有5000个合成场景，这些场景具有随机墙，并使用ShapeNet对象填充我们使用[80]形状剩余PointNetFKAConv0.661 10.583 0.8170.8824.0690.929（b）没有。插值邻居IoU ↑CD↓NC↑场景的复杂程度，物体的大小。ABC[48]是一组CAD模型，主要是机械零件。我们使用[27]中的分割和点预处理：4950个形状用于训练，100个用于验证，100个用于测试。Famous[27]包含22种不同起源的形状，例如，斯坦福大学3D扫描仓库[49]。[122]如[27]所准备的，Thingi10k有100种形状。SceneNet[37，38]是室内场景的合成数据集最大值平均值平均值反距离反距离单头注意力多头注意力监测仪2019年12月31日3.703 0.933以与[41]相同的方式准备的数据产生34个场景。MatterPort3D[12]也有室内场景。我们使用与[97]准备和使用的相同的2个场景：65k pts。基线是在第2.2节中介绍的最先进的方法中绘制的。我们还比较了SPR [47]，这是一种流行的基于非学习的重建方法，需要定向法线（这是一个强假设），并且可能需要修剪参数调整（表中的因子64）.除非另有说明，否则我们的方法使用FKA-Conv主干[7]，特征大小n=32，如ConvONet [80]或LIG[45]，k=64个邻居，h=64个插值头，并且不使用法线或TTA。隐式函数的网格生成使用Marching立方体[63]完成，对象分辨率为 2563 ， SceneNet 为 1 cm ，MatterPort3D为2 cm指标. 我们使用以下常用度量：体积IoU、对称倒角L1-距离102（CD）、正态一致性（NC），即，一个网格中法线和另一个网格中最近邻法线的平均绝对余弦，以及阈值为1%（FS）的F分数[99]表面度量通过点采样来近似。5.2. 替代和消融研究为了证明我们的算法选择是正确的，我们在泛化模式下对ShapeNet进行了实验，在椅子上进行训练，但对所有类进行评估。我们使用与[69，80]相同的训练/测试分割，评估130个形状（每个类10个）。从表1（a）中可以看出，卷积骨干FKAConv [7]比具有剩余连接的基于PointNet的分割网络[69，82]更有效，后者丢失了小规模信息[83]。虽然从k=64个邻居插值而不是k=128的CD和NC稍差（参见选项卡. 1（b）），它具有更好的IoU，速度更快;我们在以下. 我们注意到，我们得到更好的结果与多头表1. 替代研究。我们在ShapeNet椅子上训练，没有法线，3k个输入点，有噪音，除非另有说明，FKAConv主干，k=64个邻居，最大插值。我们测试了13个ShapeNet类中的每个类的10个模型。我们插值全局特征zp或相对特征zp，q。注意（使用h=64而不是h=1）并且当内插相对特征而不是全局特征时（参见，选项卡. （c）第1段。最后一个泰伯2和图3显示了TTA策略的好处，模型在ABC上用3k和10k点训练。5.3. 重建没有法线的重建由于运行时间较长，只有少数已发布的方法在整个ShapeNet数据集上进行评估。我们在所有指标上都优于他们，并具有显著的优势（表3）。我们重建了更精细的细节（图6），并且我们没有与ConvONet相同的填充体积的趋势;相反，我们可以生成更容易的薄表面，这解释了我们优越的IoU。我们优于其他方法，以及合成房间（表4），在那里我们也捕捉更精细的细节。概括。LIG是专门为可扩展性和通用性而设计的。它学习从给定的数据集重建小的形状补丁，然后将其应用于任何新的对象或场景。Points2Surf也是一种补丁学习方法，尽管它对输入的全局视图的要求及其运行时间使其不太适合场景重建。我们与LIG进行比较，在ShapeNet对象上训练这两种方法（使用LIG需要的法线）并在SceneNet上进行测试。我们更好地概括（Tab。5）在所有密度下，盖-捕捉更精细的细节，而不是擦除薄对象（图。4）.我们比较Points2Surf，在相同的环境中进行ABC训练我们在大多数设置上都优于 Points2Surf （选项卡）。 2 ），无论是在 ABC 和推广到法莫斯和Thingi10k。Points2Surf仅(a)点骨干IoU↑ CD↓ NC↑0.8830.854 5.331 0.9020.8773.9470.9352012年12月31日0.879 3.6860.9340.895 3.7020.9386309×测试集方法噪声设置ABC（100个形状）不，不。变量n 最大值n著名（22形状）不，不。 med-n.最大值n稀疏稠密Thingi10k（100种形状）不，不。med-n.最大值n稀疏稠密DeepSDF[77个国家]8.41 12.51 11.3410.08 9.8913.17 10.41 9.499.168.8312.289.568.35AtlasNet[35]第三十五届4.694.04 4.474.694.544.144.914.355.295.194.905.645.02SPR[47个]2.493.29 3.891.671.803.412.171.601.781.813.232.351.57Points2Surf[27日]1.802.14 2.761.41 一点五一2.521.93 一点三三1.411.472.622.11一点三五POCO N列车=N试验=3k1.872.262.901.561.752.991.991.701.471.643.212.001.55POCO N train =N test =3k，N视图=101.772.10 2.68 一点四1.542.93 一点七八一点五一点三九1.46两块五毛五一点八三1.40POCO N列车=N试验=10k1.722.152.721.571.613.041.921.571.501.572.822.081.51POCO N列车=N测试=10k，N视图=101.70 2.01 两块五一点三四一点五2.75一点八九一点五一点三五1.442.34 1.95一点三八表2. ABC，Famous，Thingi10k. 使用10次扫描对ABC形状进行训练，可变高斯噪声（在[0，0. 05L]，L最大箱长）。ABC、Famous和Thingi 10 k测试集上的倒角距离为100，如[27]所述：“no-n”。(no noise），'var-n.'（变量噪声，作为训练），'max-n'。（σ=0. 05L），'med-n.'（σ=0. 01L）、“稀疏”（5次扫描）、“密集”（30次扫描）。只有SPR使用法线。方法IoU↑ CD↓ NC↑ FS↑ ONet[69]0.761 0.870.8910.785ConvONet[80] 0.884 0.44 0.938 0.942[57]第五十七话2019- 04 - 25 00：00：00POCO（我们的）0.9260.300.950表3. ShapeNet。该方法在3k个有噪声的pts上进行了训练和测试。方法IoU↑ CD↓NC↑FS↑Onet[第六十九话]0.475 2.030.7830.541[47]第四十七话[47]第四十七话-2.23 0.866 0.810-0.69 0.890 0.892表4. 合成房间基于学习的方法在10k个有噪声的pts上进行训练和测试。只有SPR使用法线。数字来自[57，80]。在非常嘈杂或密集的输入，只有一个很小的余量。没有法线的场景重建。我们在MatterPort 3D场景上与SA-ConvONet进行了比较（图1），其实际设置相同（下采样至65536点）。我们的重建不如SA-ConvONet平滑，但具有更精细的细节。由于SA-ConvONet在ConvONet之上的推断时间过度拟合许多网络，因此它也明显较慢。5.4. 讨论和限制我们的方法是适合于单对象和整个场景重建。然而，尽管它可以处理点密度的大幅变化，但当缺少大部分时，它无法完成形状。除了像[22，24，25，91]这样的一些方法之外，目前只有针对对象的方法可以做到这一点，对于在训练时已知的类，但它们根本无法重建场景。当没有提供法线时，推断表面方向需要广泛的上下文信息。但高密度可能会降低感受野，导致定向失败-神经样条函数[110]3.760.8150.6563LIG[45]1.520.9230.8757POCO（我们的）0.840.9600.9600pts/m2方法CD↓NC↑FS↑20SPR[47个]5.270.7720.4392100SPR[47个]1.960.8530.7709500SPR[47个]0.860.9360.9787神经样条函数[110]1.150.9310.9228LIG[45]0.970.9610.9643POCO（我们的）0.570.9840.9941ConvONet[80][57]第五十七话2015年12月31日零点八 0.420.912 0.960POCO（我们0.919 0.9806310× ×1000 SPR[47]0.73 0.967 0.9957LIG[45个]0.840.9780.9750POCO（我们的）0.530.9930.9987Oracle(4Mpts）0.500.9950.9998表5.场景网。 LIG和POCO在ShapeNet上训练10k点，法线（无噪音）。测试在具有法线的场景网上进行（无噪波）。神经样条使用1024的网格大小，10kNystr o？ m样本，8 8 8块。数字与[45]不同，因为我们必须重新生成不可用的防水网格：我们使用[41]，分辨率为500 k，高于[45]，在CAD模型没有体积的情况下获得更精细和更薄的细节;作为[45]，我们忽略体积与面积比> 0.13的场景，得到34个场景。“Oracle”是针对自身进行评估的基础事实（两个不同的采样）。文物和艺术品。我们的TTA只部分解决了这个问题;直接在主干层处理会更好。尽管如此，POCO达到了对象和场景重建的艺术状态，有或没有定向法线。它对与训练集非常不同的形状和场景显示出良好的泛化能力关于方法和实验的更多细节在补充材料中。感谢Gilles Puy富有成果的讨论。LIG[45个]0.87 0.975 0.9773POCO（我们的）0.992 0.99876311引用[1]Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.学习3D点云的表示和生成模型。在2018年的国际机器学习会议（ICML）上。3[2]Matan Atzmon和Yaron Lipman。SAL：从原始数据中学习形状的符号不可知论。在计算机视觉和模式识别（CVPR）会议上，2020年。3[3]J.P. Bauchet和F.拉法基动态形状重建。ACM Transactions on Graphics（TOG），39（5），2020。1[4]放大图片作者：David M.放大图片创作者：Joshua A.Levine，Andrei Sharf，and Claudio T.席尔瓦基于点云数据的曲面重构技术研究现状。在欧洲图形会议（EG），2014年。1[5]亚历山大·布尔奇ConvPoint：用于点云处理的连续卷积。计算机图形（CG），88：24-34，2020。3[6]亚历山大·布尔奇，马丁·德·拉·戈尔塞，雷诺·马勒.基于边角正则化的分段平面三维重建。计算机图形论坛（CGF），33（5）：55-64，2014年。1[7]Alexandre Boulch Gilles Puy 和 Renaud Marlet FKA-Conv：用于点云卷积的内核对齐。2020年亚洲计算机视觉会议（ACCV）。三五六七[8]Alexandre Boulch Gilles Puy 和 Renaud Marlet Nee-Drop：使用落针从稀疏点云进行自监督形状表示。在3D视觉国际会议（3DV），2021年。3[9]A. 博迪斯-索莫鲁，H。 Riemenschneider和L. 范古尔。城市重建中机载数据和街道数据的有效体积融合。2016年国际模式识别会议（ICPR）。1[10]蔡若金、杨关道、哈达尔·阿韦尔布赫-埃洛尔、郝泽昆、塞尔日·贝隆吉、诺亚·斯纳夫利和巴拉斯·哈里哈兰。学习形状生成的梯度场欧洲计算机视觉会议（ECCV），2020年。3[11]放大图片作者： Rohan Chabra， Jan Eric Lenssen ，Eddy Ilg，Tanner Schmidt，Julian Straub，S.Lovegrove和Richard A.新库姆。深度局部形状：学习局部SDF先验以进行详细的 3D 重建。欧洲计算机视觉会议（ECCV），2020年。3[12]Angel Chang ， Angela Dai ， Thomas Funkhouser ，Maciej Halber ， Matthias Niebner ， Manolis Savva ，Shuran Song ，Andy Zeng和 Yinda Zhang。 Matterport3D：从室内环境中的RGB-D数据中在3D视觉国际会议（3DV）中，第667-676页IEEE，2017年。7[13]A.X. Chang，T.A.作者声明：P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H.Su，J. Xiao，L. Yi和F. Yu. ShapeNet：一个信息丰富的 3D 模型库， 2015 年。 arXiv 预印本 arXiv ：1512.03012。7[14]Anne-Laure Chauve ， Patrick Labatut 和 Jean-PhilippePons。基于大规模非结构化点数据的鲁棒分段平面三维重建和完成在会议上-计算机视觉和模式识别（CVPR），第1261-1268页，2010年。1[15]Z. Chen和H.张某学习隐式字段生成形状建模。在计算机视觉和模式识别会议（CVPR），2019年。二、三[16]陈志勤和张浩。学习生成式形状建模的隐式字段。在计算机视觉和模式识别会议（CVPR），2019年。3[17]J. Chibane，T. Alldieck和G.庞莫尔特征空间中的隐函数用于三维形状重建和完成。在计算机视觉和模式识别会议（CVPR），2020年。二、四、五、六[18]Julian Chibane 、 Aymen Mir 和 Gerard Pons-Moll 。Neural unsigned distance fields for implicit functionlearning.在神经信息处理系统会议（NeurIPS），2020年。二三四五[19]Christopher Choy ， JunYoung Gwak ， Silvio Savarese.4D时空ConvNets：Minkowski卷积神经网络。在计算机视觉和模式识别会议（CVPR），2019年。4[20]克里斯托夫·B. Choy，Danfei Xu，JunYoung Gwak，Kevin Chen，and Silvio Savarese. 3D

下载后可阅读完整内容，剩余1页未读，立即下载