3D点云的几何原语监督拟合方法

43 浏览量更新于2023-10-19 收藏 17.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

26520对3D点云进行几何原语的监督拟合0Lingxiao Li* 1 Minhyuk Sung* 1 Anastasia Dubrovina 1 Li Yi 1 Leonidas Guibas 1,201 斯坦福大学 2 Facebook AI研究0摘要0将几何原语拟合到3D点云数据中填补了低级别数字化3D数据与底层3D形状的高级结构信息之间的差距。因此，它可以在3D数据处理中实现许多下游应用。长期以来，基于RANSAC的方法一直是这种原语拟合问题的黄金标准，但它们需要仔细调整每个输入参数，因此在具有不同形状的大型数据集上无法很好地扩展。在这项工作中，我们引入了监督原语拟合网络（SPFN），这是一个端到端的神经网络，可以在不需要任何用户控制的情况下稳健地检测不同尺度上的多个原语。该网络使用地面真实原语表面和输入点的原语成员身份进行监督。我们的架构首先预测每个点的属性，然后使用差分模型估计模块计算原语的类型和参数，而不是直接预测原语。我们在一个新的ANSI3D机械零件模型基准上评估了我们的方法，并且在最先进的基于RANSAC的方法和直接神经预测上取得了显著的改进。01. 引言0最近的3D扫描技术和大规模3D仓库扩大了3D几何数据处理的机会。然而，大部分扫描数据和这些仓库中的模型都以数字化的点云或网格表示。这种低级别的3D数据表示限制了我们几何操作的能力，因为缺乏与形状语义对齐的结构信息。例如，当编辑由几何原语构建的形状时，了解每个原语的类型和参数的知识可以极大地帮助产生合理的结果（图1）。为了解决数字化数据中缺乏这种结构信息的问题，在这项工作中，我们考虑将3D点云映射到最适合底层形状的几何原语的转换问题。0*相等贡献0SPFN0编辑0图1：我们的网络SPFN生成了一系列几何原语，这些原语可以精确地适应输入的点云，即使对于微小的片段也是如此。然后，可以使用预测的原语进行结构理解或形状编辑。0用一组简单的几何组件表示对象是计算机视觉中的一个长期问题。自20世纪70年代以来[3,19]，许多研究人员对解决这个问题的基本思想进行了修订，甚至直到最近[31,34,9]。然而，这些先前的工作大多旨在解决感知学习任务；主要关注的是解析形状，或者生成几何的粗略抽象与边界原语。相反，我们的目标是在存在输入噪声的情况下，精确地将几何原语拟合到形状表面上。对于这个原语拟合问题，基于RANSAC的方法[28]仍然是标准。这些方法的主要缺点是找到合适的算法参数的困难。例如，如果接受候选原语的拟合残差阈值小于噪声水平，可能会出现过分分割，而过大的阈值会导致算法错过小片段的原语。这个问题不仅发生在处理有噪声的扫描数据时，而且在解析3D仓库中的网格时也会发生，因为将原始形状离散化为网格会掩盖形状表面的准确局部几何。对于大量不同形状类别的仔细用户控制的需求，阻止了基于RANSAC的方法的扩展。这种缺点激发了我们考虑使用监督深度学习框架。原语拟合问题可以26530可以将其视为模型预测问题，最简单的方法是使用神经网络直接回归参数空间中的参数。然而，基于直接测量参数差异的回归损失并不能反映实际的拟合误差-输入点与基本元素之间的距离。这种误导性的损失函数可能会显著限制预测准确性。为了克服这个问题，Brachmann等人[4]将RANSAC流程整合到端到端神经网络中，通过可微分的过程替换假设选择步骤。然而，他们的框架只预测单个模型，将其扩展为预测多个模型（在我们的情况下为基本元素）并不直观。Ranftl等人[26]还引入了一种通过内点权重预测进行模型拟合的深度学习框架。我们将这个想法扩展到我们的设置中，预测表示多个基本元素模型的每点成员权重。在这项工作中，我们提出了监督基本拟合网络（SPFN），它以点云作为输入，并预测具有准确参数的不同类型的可变数量的基本元素。为了进行鲁棒估计，SPFN不直接输出基本元素参数，而是预测三种类型的每点属性：点到基本元素的成员关系、表面法线和点所属的基本元素类型。我们的框架支持四种类型的基本元素：平面、球体、圆柱体和锥体。这些类型是CAD模型中最主要的组成部分。根据这些每点属性，我们的可微模型估计器以代数方式计算基本元素参数，使拟合损失完全可反向传播。我们的方法的优势在于网络可以利用训练中每点属性的现成监督。已经证明，使用直接消耗点云作为输入的神经网络可以解决每点分类问题（成员关系、类型）[24,25]。法线预测也可以通过类似的神经网络有效处理[2,10]。我们使用我们的新型数据集ANSI3D机械零部件模型进行训练和评估所提出的方法，该数据集包含17k个CAD模型。在训练中，通过解析CAD模型并提取基本元素信息来提供监督。在我们的比较实验中，我们证明了我们的监督方法与广泛使用的基于RANSAC的方法[28]相比具有很大的优势，尽管在训练和测试中使用了来自不同类别的模型。即使我们提供更高分辨率的点云作为输入，我们的方法与[28]相比也显示出更好的拟合精度。0主要贡献0•我们提出了SPFN，一种端到端的监督神经网络，它以点云作为输入，并检测具有不同尺度的可变数量的基本元素。0•我们的可微基本模型估计器解决了一系列线性最小二乘问题，从而使整个流程可端到端训练。•我们使用一种新颖的CAD模型数据集来展示我们网络的性能，该数据集包含机械组件的模型。02. 相关工作0在大量关于将基本元素拟合到3D数据的先前工作中，我们仅回顾了将基本元素拟合到对象而不是场景的方法，因为我们的目标用例是个别机械零件的扫描点云。有关更全面的回顾，请参阅调查[13]。0基于RANSAC的基本拟合。RANSAC [8]及其变种[30, 20,6,14]是计算机视觉中最常用的基本检测方法。Schnabel等人[28]最近发表的一篇重要论文介绍了一种基于鲁棒RANSAC的框架，用于在密集点云中检测多种不同类型的基本元素。Li等人[17]在[28]的基础上进行了扩展，引入了一种基于它们之间关系的提取基本元素的后续优化方法。作为RANSAC方法的下游应用，Wu等人[32]和Du等人[7]提出了一种从输入点云或网格反向工程构造实体几何（CSG）模型的过程。尽管这些RANSAC变种在各自领域展示了最先进的结果，但它们的性能通常取决于对每个形状类别进行仔细繁琐的参数调整。此外，需要点法线，而这些法线在3D扫描中不容易获得。相比之下，我们的监督深度学习架构只需要点云数据作为输入，在测试时不需要任何用户控制。0基于网络的基元拟合。最近的方法在监督 [ 34 ] 和无监督 [31 , 29 ]设置下使用神经网络来解决基元拟合问题。然而，这些方法在准确性上受到限制，仅支持有限数量的类型。在 Zou等人的工作 [ 34 ] 和 Tulsiani 等人的工作 [ 31 ]中，仅预测长方体，因此只能作为输入形状或图像的粗略抽象。CSGNet [ 29 ]能够预测更多种类的基元，但准确性较低，因为参数提取是通过对离散化参数空间进行分类来完成的。此外，它们的强化学习步骤需要渲染CSG模型以生成每次训练迭代的视觉反馈，使计算变得复杂。我们的框架可以端到端地训练，因此不需要昂贵的外部过程。03. 监督式基元拟合网络0我们提出了监督式基元拟合网络（SPFN），它接收由点表示的输入形状。P ∈ ℝ$×&'W ∈ [0,1]$×.'N ∈ ℝ$×&'T ∈ [0,1]$×1'A26540输入点云0网络0变量0可微分模块0外部求解器0输入0监督0PointNet++0Softmax022 -归一化0Softmax0基元重新排序（第 3.1 节）0地面真实表面 S0基元 A0成员关系 W0法线 N0类型 T0模型估计（第 3.2 节）0�0�残差0�轴0�分割0�法线0�类型0损失（第3.3 节）0'W 'N P0C：点的数量 D：基元的数量E：基元类型的数量0监督0成员关系0法线0类型0图2：网络架构。PointNet++ [ 25 ] 接收输入点云 P 并输出三个每点属性：点到基元的成员关系 ˆ W ，法线 ˆ N和关联的基元类型 ˆ T 。地面真实基元的顺序与基元重新排序步骤（第 3.1 节）中的输出匹配。然后，从模型估计步骤（第3.2 节）中的点属性估计输出基元参数。损失定义为五个损失项的总和（第 3.3 节）。0点云 P ∈ R N × 3 ，其中 N是点的数量，并预测最适合输入的一组几何基元。SPFN的输出包含每个基元的类型和参数，以及分配给它的输入点的列表。我们的网络支持 L = 4种基元类型：平面、球体、圆柱体和圆锥体（图 3），我们将这些类型分别用 0 、 1 、 2 、 3索引。在本文中，我们将使用 {∙} i, : 和 {∙} : ,k 表示矩阵的第i 行和第 k 列。0在训练过程中，对于每个具有 K个基元的输入形状，SPFN利用以下地面真实信息作为监督：点到基元的成员关系矩阵 W∈ { 0 , 1 } N × K ，非定向点法线 N ∈ R N × 3 ，以及有界的基元表面 { S k } k =1 ,...,K。对于成员关系矩阵，W i,k 表示点 i 是否属于基元 k ，使得 ∑ K k =1 W i,k ≤ 1。注意，W : ,k ，W 的第 k 列，表示分配给基元 k 的点段。我们允许 K针对每个形状变化，W 可以有零行表示未分配的点（不属于任何 K个基元的点；例如，它属于未知类型的基元）。每个 S k 包含关于第 k个基元表面的类型、参数和边界的信息，我们用 t k ∈ { 0 , 1 , . . . , L − 1 }表示其类型，并用 A k 表示其类型特定参数。除了 P ，我们还在监督中包括 S k的边界，因为 P可能存在噪声，并且我们在评估每个基元损失时不歧视小表面（参见方程式 17）。为了方便起见，我们定义了每点类型矩阵 T ∈ { 0 , 1 } N × L 。0通过T_i,l =ΣKk=11(Wi,k=1)1(tk=l)，其中1(∙)是指示函数。0SPFN在训练时的流程如图2所示。我们使用PointNet++[25]分割架构来处理输入点云P。稍作修改的是，我们在PointNet++流程的末尾添加了三个独立的全连接层，以预测0以下是每个点的属性：点到原始的成员关系矩阵ˆW∈[0,1]N×K1，无定向点法线ˆN∈RN×3和每个点的原始类型ˆT∈[0,1]N×L。我们使用softmax激活函数来获得ˆW和ˆT的行中的成员概率，并将ˆN的行归一化以限制法线的l2范数为1。然后，我们将这些每点的数量输入到我们的可微模型估计器（第3.2节）中，该估计器根据每点的信息计算原始参数{ˆAk}。由于这最后一步是可微的，我们能够通过PointNet++反向传播任何类型的每原始损失，因此训练可以端到端地完成。请注意，我们不假设groundtruth原始的一致排序，因此我们不假设我们预测的ˆW的列的任何排序。在第3.1节中，我们描述了用于处理这种排序不匹配的原始重新排序步骤。在第3.2节中，我们介绍了用于预测原始参数{ˆAk}的可微模型估计器。在第3.3节中，我们定义了损失函数中的每个术语。最后，在第3.4节中，我们描述了实现细节。03.1. 原始类型重新排序0受到Yi等人的启发[33]，我们计算成员矩阵W和ˆW的所有列对之间的放松交并比（RIoU）[15]。对于两个指示向量w和ˆw，RIoU定义如下：0RIoU(w, ˆw) = 0∥w∥1 + ∥ˆw∥1 - wTˆw. (1)0两个矩阵的列之间的最佳一对一对应关系（由RIoU确定）由匈牙利匹配[16]给出。我们重新排序了ground truth primi-01为了符号的清晰，我们现在假设预测的原始数量等于K，即groundtruth原始数量。有关如何在没有先验知识的情况下预测ˆW的详细信息，请参见第3.4节。!"#!"!"#!"#N�i=1wi(aTPi,: − d)2.(3)N�i=1wi(∥Pi,: − c∥2 − r2)2.(6)Solving ∂�Nj=1 wjPj,:�NwjPTi,:Pi,: −vTv − (aTv)2 − r�2,(8)26550图3：原始类型和参数。每个S_k中的边界信息与参数A_k一起定义了原始类型k的（有界）区域。另一方面，点段W:，k提供了对该有界区域的近似。0然后根据此对应关系对groundtruth原始进行重新排序，以便将groundtruth原始k与预测的原始k匹配。由于在输入集中，微小扰动将导致匹配结果的变化的概率为零，因此整个流程在几乎所有地方都是可微的。因此，我们使用外部的匈牙利匹配求解器来获得最优匹配索引，然后将其注入到我们的网络中以允许进一步的损失计算和梯度传播。03.2. 原始模型估计0在模型估计模块中，原始参数{Ak}是以可微的方式从预测的每点属性中获得的。由于每个原始的参数估计是独立的，因此在本节中，我们将假设k是一个固定的原始索引。模型估计模块的输入包括P，输入点云，ˆN，预测的无定向点法线，以及ˆW:，k，预测的成员关系矩阵ˆW的第k列。为简单起见，我们将w = ˆW:，k∈[0,1]N和ˆA =ˆAk。对于p∈R3，令Dl(p,A)表示p到类型为l且参数为A的原始的距离。计算ˆA的可微模块如下所示。平面。平面由A = (a,d)表示，其中a是平面的法线，满足∥a∥=1，平面上的点为{p∈R3：aTp=d}。然后0D 2 平面 ( p , A ) = ( a T p − d ) 2 . (2)0然后我们将 ˆ A 定义为作为 A函数的加权平方距离的最小化器：0E 平面 ( A ; P , w ) =0� N i =1 w i a T P i, : � N i =1 w i . 将其代入方程 3，得到：0E 平面 ( a ; P , w ) = ∥ diag ( w ) Xa ∥ 2 , (4)0其中 X i, : = P i, : −0� N i =1 w i P i, : � N i =1 w i .因此最小化问题变为：0ing E 平面 ( A ; P , w ) over a 变成了一个满足 ∥ a ∥= 1 的齐次最小二乘问题，其解为0给出为矩阵 diag ( w ) X 的最小奇异值对应的右奇异向量v 。正如 Ionescu 等人所示 [ 11 , 12]，可以通过SVD计算反向传播关于 v 的梯度。0球体。球体由参数 A = ( c , r ) 描述，其中 c ∈ R 3是中心， r ∈ R 是半径。因此0D 2 球体 ( p , A ) = ( ∥ p − c ∥ − r ) 2 . (5)0在球体情况下（圆柱体和圆锥体的情况也是如此），平方距离不是二次的。因此，在参数上最小化加权平方距离，就像在平面上那样，只能通过非线性迭代求解器来实现 [ 18]。相反，我们考虑最小化另一种距离概念的加权和：0E 球体 ( A ; P , w ) =0∂r 2 = 0 得到 r 2 = 1 � N i =1 w i � N j =1 w j ∥0c ∥ 2 。将其代回方程 6 ，我们得到一个关于 c的二次表达式，作为最小二乘问题：0E 球体 ( c ; P , w , a ) = ∥ diag ( w ) ( Xc − y ) ∥ 2 , (7)0其中 X i, : = 2 � − P i, : +0� 和 y i =0� N j =1 w j P T j, : P j, : � N j =1 w j .这个最小二乘问题可以通过求解0可以通过可微的方式进行Cholesky分解求解 [ 21 ]。0圆柱体。圆柱体由参数 A = ( a , c , r ) 来描述，其中 a∈ R 3 是轴的单位向量， c ∈ R 3 是中心， r ∈ R是半径。我们有0D 2 圆柱体 ( p , A )= ��0其中 v = p − c。与球体情况类似，直接最小化平方真实距离是具有挑战性的。相反，受到 Nurunnabi 等人的启发 [ 22]，我们首先估计轴 a，然后进行圆拟合以获得其他参数。观察到圆柱体上的点的法线必须垂直于 a ，因此我们选择 a 来最小化：0E 圆柱体 ( a ; ˆ N , w ) = 最小化 �� diag ( w )ˆNa �� 2 , (9)0这是一个齐次最小二乘问题，与方程 4相同，可以以相同的方式求解。一旦获得轴 a，我们考虑通过原点的法线为 a 的平面 P，并注意到圆柱体在 P上的投影应该形成一个圆。因此，我们可以选择 c 和 r为最适合投影点 { Proj a ( P i, : ) } N i =1 的圆，其中 Proja ( ∙ ) 表示投影到 P 上。这与球体情况（方程 6）完全相同，因此可以以类似的方式求解。��2, (10)Econe(c; ˆN) =�diag (w)�ˆNc − y��2,(11)θ =1�Ni=1 wi�Ni=1 wi arccos��aTPi,:−c∥Pi,:−c∥�� .(12)1(Wi,: ̸= 0)H(Ti,:, ˆTi,:),(16)Ep∼U(Sk)D2tk(p, ˆAk),(17)26560圆锥体。圆锥体由参数 A = ( a , c , θ ) 来描述，其中 c ∈ R 3 是顶点， a ∈ R 3是从顶点指向圆锥体轴的单位向量， θ ∈ (0 , π02 ) 是半角。然后0D 2 cone ( p , A ) 2 = 最小化 ∥ v ∥ sin最小化 | α − θ | , π0其中 v = p − c，α = arccos � a T v ∥ v ∥ �。与圆柱体情况类似，我们使用多阶段算法：首先分别估计a 和 c，然后估计半角 θ。我们利用顶点 c必须是圆锥体表面上所有切平面的交点这一事实。使用预测的点法线 ˆN，多平面交点问题可以通过最小二乘法来求解，类似于方程 7：0其中 y i = ˆ N T i, : P i, : 。为了得到轴方向a，观察到如果点 i 属于圆锥体，则 a 应该是通过所有 N i的平面的法线。这只是一个平面拟合问题，我们可以通过最小化方程 3 来计算 a，其中我们将 P i, : 替换为 ˆ N i, :。如果 a 不是从 c 进入圆锥体，则翻转 a的符号。最后，使用顶点 c 和轴 a，半角 θ简单地计算为加权平均值：03.3. 损失函数0我们将损失函数 L 定义为以下五个项的无权重和：0L = L 分割 + L 范数 + L 类型 + L 残差 + L 轴 . (13)0每个损失项将在下面描述一个输入形状。0分割损失。当输入点云的分割接近于真实值时，可以更准确地估计基元参数。因此，我们对每对真实基元和其在预测中的对应进行最小化 (1 − RIoU )：0L 分割 = 10K0| 1 − RIoU ( W : ,k , ˆ W : ,k ) | .(14)0点法线角度损失。为了准确预测点法线 ˆN，我们最小化真实法线和预测法线之间的绝对余弦角度：0L 范数 = 10N0| N T i, : ˆN i, : | 的绝对值。(15)0取绝对值是因为我们的预测法线是无定向的。0每点基元类型损失。我们最小化每点基元类型 ˆ T 的交叉熵H（忽略未分配的点）：0L 类型 = 10N0其中 1 ( ∙ ) 是指示函数。0拟合残差损失。最重要的是，我们最小化所有 k = 1, . . . , K的 S k 与由 ˆ A k 参数化的预测基元 k之间的期望平方距离：0L 残差 =10K0其中 p � U ( S ) 表示 p 在有界表面 S上均匀采样时的期望，D 2 l ( p , ˆA ) 是 p 到具有参数 ˆ A的类型 l 的基元的平方距离，如第 3.2节中所定义。请注意，无论其相对于整个形状的表面积如何，方程 17 中的每个 S k都具有相等的权重。这使我们能够检测到其他无监督方法可能忽略的小型基元。请注意，在方程 17中，我们使用了地面实际类型 t k，而不是根据 ˆ T推断出的预测类型，然后由 ˆ W适当加权。我们这样做是因为耦合多个预测可能会使损失函数更加复杂，导致训练不稳定。然而，在测试时，基元 k的类型被预测为0ˆt k = argmax l0i =1 ˆT i,l ˆ W i,k . (18)0轴角损失。使用SVD估计平面法线和圆柱/锥体轴时，当预测的ˆW导致退化情况时，例如当具有非零权重的点的数量太小或具有实质权重的点在平面法线估计（方程4）中形成接近线的狭窄平面时，这种方法可能会变得数值不稳定。因此，我们使用余弦角损失来规范化轴参数：0L轴 = 10K �0� 1 − Θ t k ( A k , ˆ A k ) �，(19)0其中 Θ t ( A , ˆ A)表示平面（法线）、圆柱（轴）和锥体（轴）的 | a T ˆa |，以及球体（所以损失变为零）的1。03.4. 实现细节0在我们的实现中，我们假设所有形状的输入点的数量为固定值N。虽然地面实际基元的数量在输入形状之间有所变化，但我们选择一个整数K max作为预测值，以固定输出成员矩阵ˆ W的大小，使K max不小于1NNi=1 arccos |NTi,: ˆNi,:| .1KKk=1 Ep∼U(Sk)26570输入形状中的最大基元数。在第3.1节中进行匈牙利匹配后，忽略ˆW中未匹配的列进行损失计算。在测试时，我们解除0N > �丢弃，其中�丢弃=0.005N对于所有实验。这只是一个相当任意的小阈值，用于筛除未使用的片段。在评估期望E p � U ( S k ) ( ∙)在方程17中时，训练中的即时点采样需要很长时间。因此，在预处理数据时，期望值被近似为在S k上均匀采样的M个点的平均值。04. 实验04.1. ANSI机械组件数据集0为了训练和评估所提出的网络，我们使用美国国家标准学会（ANSI）[1]的CAD模型，这些模型由TraceParts[27]提供机械组件。由于没有现有的针对这类对象的扫描3D数据集，我们通过在这些模型上生成噪声样本来训练和测试我们的网络。从504个类别中，我们随机选择每个类别最多100个模型，以实现平衡和多样性，并通过类别对训练/测试集进行划分，使训练和测试模型来自不同的类别，结果为13,831/3,366个模型在训练/测试集中。我们指出，我们考虑的四种基元类型（平面、球体、圆柱体、锥体）在我们的数据集中平均覆盖了94.0％的每个模型的面积百分比。在从模型生成点样本时，我们仍然包括不属于这四种类型之一的表面。所有模型中的每个形状的最大基元数不超过20。我们设置Kmax = 24，在ˆW中添加4个额外的列，以允许神经网络将少量点分配给额外的列，有效地标记那些因为阈值�丢弃而未分配的点。从CAD模型中，我们提取包括其边界在内的基元信息。然后，我们合并共享完全相同参数的相邻基元表面的相邻部分；这是因为在CAD模型中表示边界的困难，因此例如一个完整的圆柱体将被分割成两个镜像的半圆柱体的不相交并集。我们丢弃了基元的微小部分（小于整个面积的2％）。每个形状都被归一化，使其质心位于原点，并且形状的轴对齐边界框包含在每个轴上的[-1，1]范围内。在实验中，我们首先在每个形状的整个表面上均匀采样8192个点作为输入点云（N =8192）。这是通过首先在形状的离散化网格上进行采样，然后将所有点投影到其几何表面上来完成的。然后，我们随机在表面法线方向上对点云施加[-0.01，0.01]范围内的噪声。为了评估拟合残差损失Lres，我们还均匀采样每个形状的512个点0用于逼近 S k ( M = 512 ) 的基元表面。04.2. 评估指标0我们设计了以下评估指标。每个量都是针对单个形状描述的，并且这些数量的平均值是在所有测试形状上报告的。对于每个基元的指标，我们首先按照第 3.1节的方法进行基元重新排序，以使预测和真实基元的索引匹配。0• 分割平均IoU : 1 K � K k =1 IoU ( W : ,k , I ( ˆ W : ,k ))，其中 I ( ∙ ) 是one-hot转换。0• 平均基元类型准确率 : 1 K � K k =1 1 ( t k = ˆt k) ，其中 ˆt k 在公式 18 中。0• 平均点法线差异 :0• 平均基元轴差异 :01 � K k =1 1 ( t k = ˆt k ) � K k =1 1 ( t k = ˆt k ) arccos � Θ tk ( A k , ˆ A k ) � 。只有当预测类型正确时才进行测量。0• 平均/标准差 { S k } 残差 :0D 2 ˆt k ( p , ˆA k ) 。与之相反的是0损失函数 L res 的表达式中使用了预测类型 ˆ t k。相应地，{ S k } 残差标准差被定义。0• { S k } 覆盖率 :0D 2 ˆt k ( p , ˆA k ) < � � ，其中 � 是阈值。0• P 覆盖率 :0D 2 ˆt k ( P i , : , ˆA k ) � < � � ，其中�是阈值。0当预测的基元数量小于 K 时，匈牙利匹配的输出中将少于K个匹配对。在这种情况下，我们修改基元类型准确率、轴差异和 { S k }残差均值/标准差的指标，只对匹配对进行平均。04.3. 与Ef�cient RANSAC [ 28 ] 的比较0我们将SPFN的性能与Ef�cient RANSAC [ 28 ]以及混合版本进行比较，其中我们将神经网络的预测作为RANSAC的输入。我们使用CGAL [ 23 ] 实现的Ef�cientRANSAC，使用其默认的自适应算法参数。按照常规做法，在所有实验中我们运行算法多次（我们的所有实验中运行3次），并选择输入覆盖率最高的结果。与我们的流程不同，Ef�cientRANSAC需要点法线作为输入。我们使用标准的jet-�tting算法 [ 5 ]从输入点云中估计点法线，然后将其输入到RANSAC中。ǫ = 0.01ǫ = 0.02ǫ = 0.01ǫ = 0.021Eff. RANSAC [28]+J43.6852.9211.427.540.072 ± 0.36143.4263.1665.7488.632Eff. RANSAC [28]*+J*56.0743.906.922.420.067 ± 0.35256.9572.7468.5892.413Eff. RANSAC [28]+J*45.9046.996.875.850.080 ± 0.39051.5967.1272.1192.584Eff. RANSAC [28]+J*+ ˆW69.9160.566.872.900.029 ± 0.23474.3283.2778.7994.585Eff. RANSAC [28]+J*+ ˆW+ˆt60.6892.766.876.210.036 ± 0.25165.3173.6977.0192.576Eff. RANSAC [28]+ ˆN+ ˆW+ˆt60.5693.138.157.020.054 ± 0.30761.9470.3874.8090.837DPPN (Sec. 4.4)44.0551.33-3.680.021 ± 0.15846.9971.0259.7484.378SPFN-Lseg41.6192.408.251.700.029 ± 0.17850.0462.7462.2377.749SPFN-Lnorm+J*71.1895.446.874.200.022 ± 0.18876.4781.4983.2191.7310 SPFN-Lres72.7096.668.741.870.017 ± 0.16279.8185.5781.3291.5211 SPFN-Laxis77.3196.478.286.270.019 ± 0.18880.8086.1186.4694.4312 SPFN (ˆt → Est.)75.7195.958.541.710.013 ± 0.14085.2590.1386.6794.9113 SPFN77.1496.938.661.510.011 ± 0.13186.6391.6488.3196.30SPFN-LsegSPFN-LresSPFN-Laxis26580指标方法分割 (平均IoU)0基元类型(%)0点法线 ( ◦ )0基元轴 (◦ )0{ S k } 残差均值 ± 标准差0{ S k } 覆盖率 P 覆盖率0表1：所有实验的结果。+J表示使用从输入点云计算的喷射拟合[5]的点法线。星号*表示使用高分辨率（64k）点云。有关评估指标的详细信息，请参见第4.2节，有关每个实验的描述，请参见第4.3至4.5节。在第3-5个指标中，数值越低越好，其余指标越高越好。0Ground Truth0Eff.RAN.+J0Eff.RAN.*+J*0Eff.RAN+ ˆ N+ ˆ W + ˆ t0DPPN0SPFN -Lnorm + J *0SPFN0图4：不同方法的基元拟合结果。结果使用将点段投影到输出基元上，然后三角化生成的网格进行渲染。有关每种方法的详细信息，请参见第4.3至4.5节。0我们在表1中报告了SPFN和EfficientRANSAC的结果。由于EfficientRANSAC可以承受更高分辨率的点云，我们分别使用与SPFN相同的8k输入点云（行1）和以相同方式采样和扰动的另一个64k输入点云（行2）进行测试。即使与高分辨率点云的结果相比，SPFN在所有指标上的表现也优于EfficientRANSAC。具体而言，当阈值ε =0.01时，{Sk}和P覆盖率数值差距较大，表明我们的SPFN更精确地拟合基元。0我们还通过引入每点的效率RANSAC进行了测试0由SPFN预测的属性。我们首先只使用Lseg损失训练SPFN，然后对于预测的成员矩阵ˆW中的每个段，我们使用EfficientRANSAC预测一个单独的基元（表1，第4行）。然后我们依次在训练中添加Ltype和Lnorm损失，并在EfficientRANSAC中使用预测的基元类型ˆt和点法线ˆN（第5-6行）。当使用神经网络对输入点云进行分割时，EfficientRANSAC的{Sk}和P覆盖率都显著提高，但仍低于SPFN。请注意，由神经网络预测的点法线和基元类型并不能改善RANSAC中的{Sk}和P覆盖率。图5显示了当地面真实基元的尺度变化时，ε =0.01的{Sk}覆盖率。当利用网络的分割结果时，EfficientRANSAC的覆盖率有所提高，但在尺度较小时仍然较低。相比之下，SPFN在所有尺度上都具有一致的高覆盖率。We also consider a simple neural network named DirectParameter Prediction Network (DPPN) that directly pre-dicts primitive parameters without predicting point proper-ties as an intermediate step. DPPN uses the same Point-Net++ [25] architecture that consumes P, but different fromSPFN, it outputs Kmax primitive parameters for every prim-itive type (so it gives 4Kmax sets of parameters). In training,the Hungarian matching to the ground truth primitives (Sec-tion 3.1) is performed with ﬁtting residuals as in Equation17 instead of RIoU. Since point properties are not predictedand the matching is based solely on ﬁtting residuals (so theprimitive type might mismatch), only Lres is used as the lossfunction. At test time, we assign each input point to theclosest predicted primitive to form ˆW.The results are reported in row 7 of Table 1. Comparedto SPFN, both {Sk} and P coverage numbers are far lower,particularly when the threshold is small (ǫ = 0.01). Thisimplies that supervising a network not only with groundtruth primitives but also with point-to-primitive associationsis crucial for more accurate predictions.26590图5：{Sk}覆盖率与基元尺度的关系。0我们还考虑了一种名为直接参数预测网络（DPPN）的简单神经网络，它直接预测基元参数，而不是将点属性作为中间步骤进行预测。DPPN使用相同的PointNet++[25]架构，消耗P，但与SPFN不同，它为每种基元类型输出Kmax个基元参数（因此它给出4Kmax组参数）。在训练中，与地面真实基元的匈牙利匹配（第3.1节）是根据拟合残差而不是RIoU进行的，使用的损失函数是方程式17中的拟合残差。由于不预测点属性并且匹配仅基于拟合残差（因此基元类型可能不匹配），只使用Lres作为损失函数。在测试时，我们将每个输入点分配给最接近的预测基元以形成ˆW。结果在表1的第7行中报告。与SPFN相比，{Sk}和P覆盖率数值都要低得多，尤其是当阈值很小（ε =0.01）。这表明，监督网络不仅使用地面真实基元，而且使用点到基元的关联对于更准确的预测至关重要。04.4. 与直接参数预测网络（DPPN）的比较04.5. 消融研究我们进行了消融研究，以验证每个损失项的效果。在表1的第8-11行中，我们报告了在排除Lseg，Lnorm（使用从64k点计算的喷射拟合法线），Lres和Laxis时的结果。当不使用分割损失Lseg（-Lseg）时，覆盖率下降最多。尽管点法线更准确，但使用从64k输入点云计算的点法线而不是预测它们（-Lnorm + J*）时，覆盖率也下降。这意味着SPFN以更好地适应基元而不仅仅准确预测法线的方式预测点法线。如果不包括拟合残差损失（-Lres），我们会看到覆盖率和分割准确性下降。排除基元轴损失Laxis时，覆盖率也会下降。0图6：使用真实扫描结果。左边是测试集中的3D打印CAD模型。0不仅会降低轴的准确性，还会降低覆盖率（特别是{Sk}覆盖率）。第12行（ˆt →Est.）显示了在拟合残差损失（方程17）中使用预测类型ˆt而不是地面真实类型t时的结果。结果与SPFN相容，但略差于我们在训练中将类型和其他预测解耦的方法。04.6. 使用真实扫描结果0为了测试真实噪声模式，我们使用DAVID SLS-23D扫描仪对一些测试模型进行了3D打印和扫描。请注意，SPFN在合成噪声上训练成功地重建了包括小段在内的所有基元（图6）。05. 结论0我们提出了监督式基元拟合网络（SPFN），这是一种完全可微的网络架构，可以从带有噪声的3D点云中预测出不同数量的几何基元。与直接预测基元参数相比，SPFN预测每个点的属性，然后使用一种新颖的可微模型估计器

下载后可阅读完整内容，剩余1页未读，立即下载