结构关系网络：用于推理3D点云中局部区域的结构依赖性

37 浏览量更新于2023-10-18 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1点云段跃奇1，2，3，俞铮1，2，3，陆继文1，2，3，周杰1，2，3，田齐41清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心4华为诺亚duanyq14@mails.tsinghua.edu.cn; yu-zheng15@mails.tsinghua.edu.cn; lujiwen@tsinghua.edu.cn;jzhou@tsinghua.edu.cn;huawei.com摘要盒子角落的对称性，显示器表面的连续性，躯干和其他身体部位之间的联系-这表明3D物体可能在局部结构之间具有共同的和潜在的内部关系本文提出一个有效的即插即用模块，称为结构关系网络（SRN），用于推理3D点云中局部区域的结构依赖性。现有的点集网络架构（如PointNet++）单独捕获局部结构，而不考虑它们的内部交互。相反，我们的SRN通过建模它们的几何和位置关系来同时利用本地信息，这对我们的人类理解3D对象起着关键作用。建议的SRN模块是简单的，可解释的，并且不需要任何额外的监督信号，可以很容易地配备现有的网络。在基准数据集上的实验结果表明，通过使用SRN模块捕获结构关系，3D点云分类和分割任务有希望得到提升。1. 介绍近年来，由于各种扫描设备的普及，三维点云数据得到了快速发展。通常，点云数据由S-解析和无序的3D点表示。与通常具有规则排列的像素的2D图像相比，分析具有不规则结构的3D点云更具挑战性[39]。早期的工作主要集中在提取手工制作的3D特征，其目的是利用点集的统计特性，并特别设计* 通讯作者图1.常见3D对象中高度相关的局部结构示例。在图中，红色椭圆表示重复的对称局部区域，橙色椭圆表示连续表面（局部结构共享同一平面），绿色椭圆表示连接部分的连接点。我们观察到，大多数真实世界的3D对象包含高度相关的局部结构，这是我们人类对它们进行推理的以呈现对变换的鲁棒性[26]。一般来说，这些方法可分为两类：内在特征[3，5，33]和外在特征[30，31，22，7，15]，其中代表性的手工3D特征包括自旋图像[15]，快速点特征直方图（FPFH）[30]和热核签名（HKS）[33]。随着深度学习方法在2D图像处理和理解方面的巨大成功，已经提出了为3D点云数据设计网络架构的先驱工作[26，28，25，17，43]。初始PointNet通过逐点空间编码和聚合直接从输入点云中学习全局特征，这获得了令人鼓舞的性能[26]。虽然PointNet不捕获点云的局部信息，但扩展工作PointNet++证明了局部结构开发的重要性[28]。为了捕捉局部结构，Point-Net ++设计了采样层和分组层来获取局部子云，并对局部区域进行单独949950通过在每个子云上执行点特征嵌入。然后，PointNet++通过池化操作聚合局部特征以进行整体表示，从而获得逐点排列的不变性。然而，由于简单的池化操作，它未能考虑局部区域之间的潜在结构相互作用，这是理解3D对象的关键组成部分之一。如图1所示，大多数真实世界的3D对象具有高度相关的局部结构，例如重复的对称区域，连续表面和连接部分，并且当分析3D对象时，我们人类推理这种内部结构关系是一种基本能力。结构关系推理在三维物体理解中起着至关重要的作用，特别是对于只提供点的坐标而没有进一步信息的点云例如，如果我们正在学习从他们的3D形状中识别“人类”的物种更重要的是，我们需要对它们的结构关系进行推理，比如两条胳膊和两条腿的对称性，以及躯干和其他身体部位之间我们也可以注意到对称的两个大机翼在第一眼的飞机。这些关系是理解人、飞机以及其他物体的整体三维结构的关键组成部分，利用结构关系可以更好地把握它们的语义。在本文中，我们提出了一个简单的模块命名的结构关系网络（SRN）的原因，局部区域之间的相互作用，它可以插入到现有的网络，而无需额外的标签。我们的SRN受到最近关系网络的启发[32，13，45]。虽然大多数现有方法对图像和视频的空间或时间关系进行建模，但SRN旨在捕获3D点云中局部区域之间的更具体地说，我们计算每个局部结构与其他结构之间的几何和位置相互作用，以推断它们的关系，从而使学习的局部特征不仅编码3D结构，还编码与其他局部区域的依赖性。在我们的实验中，我们为我们的SRN配备了广泛使用的PointNet++架构[28]，以显示其有效性，这也广泛适用于点云上具有局部结构开发模块的网络。在ModelNet [38]、ScanNet [9]和ShapeNet [6]数据集上的实验结果显示，3D点云分类和分割有了实质性的与PointNet++管道相比，2. 相关工作点云上的深度学习：近年来，深度学习方法已被用于各种2D视觉分析任务，并取得了出色的性能[18，10，12]。然而，这些方法不能被忽视。直接应用于3D点云。虽然2D图像的像素规则地位于图像平面上，但3D点云数据的结构是不规则的，因此CNN中的一些基本操作不适用。解决这个问题的一个直观想法是将3D空间划分为体素化形状[23，38，27，9]。然而，由于三维点云数据通常是稀疏的，这些方法的缺点是分辨率低，计算量大。最近，一些深度学习结构被特别设计为将3D点云作为输入[26，28，25，29，39，19，20，14，2，44，40]。例如，Qi等人 [26]提出了一种名为PointNet的网络架构，通过将点特征融合到具有最大池的全局表示中，从而呈现逐点排列的不变性。由于PointNet未能捕获对卷积成功起关键作用的局部结构，他们通过将点分层分组到不同级别以进行局部特征提取，将PointNet进一步扩展到PointNet++[28]。以下工作，如自组织网络（SO-Net）[19]，相似性组提议网络（SGPN）[36]和PointCNN [20]也强调了3D点云局部结构开发的重要性。然而，它们未能充分利用局部子云之间的结构关系，而我们的人类在3D对象理解中很大程度上依赖于局部子云。相反，所提出的SRN模块的目的是在没有任何额外的监督信号的情况下对这种局部交互进行推理。关系推理：关系推理旨在推理实体之间的交互，这是人类的基本能力。然而，这样的关系是传统的网络架构难以学习。最近，关系模块已经被仔细设计来解决这些问题[32，13，37，45，34，8，16，24]。例如， Santoro 等人。 [32]提出了一种用于视觉问答（VQA）任务的关系网络（RN）Hu等人。 [13]提出了一种基于注意力模块的对象关系模块，用于对象检测。 Zhou 等人。 [45] 设计了一个时间关系网络（TRN）来推理不同尺度下视频帧之间的相互作用。虽然这些方法大多旨在利用图像和视频中的空间或时间关系，但很少有人关注 3D 数据的关系推理。Suwajanakorn等人。 [34]提出了一种用于特定类别的3D关键点提取的KeypointNet，这是3D点云推理中最相关的工作。虽然这两种方法都是针对3D点云数据设计的，但KeypointNet的目标是通过推理点与类别之间的关系来检测潜在的关键点。我们的主要贡献是第一次尝试推理三维物体的结构关系利用结构关系，模型能够更全面地理解3D对象951图2.结构关系网络（Structural Relational Network，SRN）。对于每个输入点云，我们首先获得局部子云，以提取它们的几何特征u和平均坐标v，它们被连接成局部特征x。然后，我们使用我们的SRN来捕获本地子云P i和其他P j之间的几何和位置关系。最后，我们将这两种关系融合，得到了P i的最终结构关系yi。在此图中，我们使用四种不同的颜色来表示不同的局部区域，并将红色子云设置为Pi以便于说明。(Best以颜色查看）。3. 该方法在本节中，我们首先介绍了所提出的结构关系网络，它通常可以插入到具有局部特征提取模块的3D点云上的深度神经网络中。然后，我们详细介绍了如何配备我们的SRN模块，以广泛使用的PointNet++架构。最后，本文重点介绍了该方法与现有方法的不同之处，并介绍了具体的实现细节.3.1. 结构关系网络设P为点集，其中每个点由3D坐标特征表示，其中存在从整体点云P中提取的局部子云P1。由于只提供了点集的坐标，没有进一步的信息，在此基础上，我们提取了局部几何特征ui∈Rd，gv和h是函数，yi是Pi的习得结构关系特征。在（1）中，成对函数gu和gv分别旨在利用Pi和Pj之间的几何关系和位置关系，然后h融合这两种关系，随后是al-1Pj的逐元素和。最后，我们利用函数f来得到Pi的最终结构关系。图1示出了所提出的SRN模块的图示，其旨在学习Pi和其他Pj之间的结构关系。我们学习了几何和位置的相互作用，结构关系开发，这都是重要的三维点云理解。我们遵循[32]，首先连接ui和每个uj，以及vi和每个vj以分别构造gu和gv成对函数gu和gv捕捉了P和其他P之间的几何和位置关系。那我们...平均位置v∈R3来描述每个子云P，i，j我利用另一个成对函数h来融合这两种因此，这些特征包含几何和位置每个地区的信息。受图像和视频的关系推理模块的启发[32，13，45]，我们的目标是推理每个Pi和其他Pj之间的结构关系。每个局部子云的几何特征u和位置特征v在结构相互作用中起着至关重要的作用例如，通过几何推理来挖掘重复的局部模式，通过位置推理来捕捉连锁关系因此，我们通过共同学习几何和局部关系来定义第i个局部子云和其他子云之间的结构交互SRN（xi）：关系的完整描述，并总结了结果的变化Pj，使（1）不变的排列。最后，我们使用函数f来获得最终的关系表示yi。在SRN中，我们利用多层感知器（MLP）来实现函数gu和gv，参数分别由所有局部子云对共享，并且分别为h和f的1×1卷积。所学习的yi为本地子云描述。我们利用残差块来对yi和ui（它们共享相同的维度）求和，然后将vi连接起来作为局部子云Pi的最终表示。建议的SRN模式有两个关键优势Σyi=f日h（gu（ui，uj），gv（vi，vj））n，（1）规则：1) 对于每个局部子云Pi，SRN模块学习其与所有局部子云的其中i和j都是局部区域f，gu，Pj的索引。因为点集只包含点坐标952图3.配备SRN的PointNet++的网络架构我们首先对每个输入点云进行采样并分组为G个子云，然后使用PointNet模块为每个子云提取局部特征uPointNet模块包含一个多层感知器和一个用于特征融合的最大池层。然后，我们使用所提出的SRN模块来获得关系特征y，其由具有剩余连接的u求和并由v连接。我们执行两次过程来提取多尺度局部特征。最后，我们采用PointNet模块来获得整体点云的最终输出特征。(Best以颜色查看）。在没有进一步信息的情况下，SRN同时考虑局部区域之间的几何和位置关系，这两者在3D点云数据中起着至关重要的作用与现有的点云局部特征相比，SRN利用了结构关系的额外信息作为重要补充。2) SRN支持可变数量和排列的本地子云。即使对于相同的点云，局部区域的数量和排列也可能由于不同的子云分组算法而不同。SRN利用成对函数g的共享参数和元素求和运算，通过保持相同的输出大小，对输入大小3.2. PointNet ++SRN将局部几何特征和平均坐标作为输入，学习结构关系特征作为输出。由于我们简单地使用局部特征的拼接结果来替换原始特征，因此它通常可以应用于具有点云局部特征提取模块的深度神经网络架构PointNet++ [28]是一种基于3D点云的最新网络架构，它已经取得了非常有前途的性能。本文以Point-Net ++为代表，详细介绍了SRN的设备，并分析了实验改进。在PointNet [26]的基础上，PointNet++通过对点进行采样和分组以进行局部结构开发，利用了额外的分层架构与其直接学习-Point-Net ++从整体点云中提取全局特征，首先进行迭代最远点采样和基于bal-1查询的分组，得到局部子云，然后利用PointNet单独学习局部特征。PointNet++通过采样层、分组层和PointNet层三个关键层分层学习局部特征，并将多尺度特征进行组合。图3显示了配备SRN的PointNet++的网络结构。我们不是简单地利用局部特征u和v进行表示，而是通过SRN学习关系特征y以提供必要的补充，该补充与具有剩余块的原始网络集成对于点云分类任务，我们利用学习的整体特征进行表示，并采用 1024-512-256 全连接层，然后是softmax分类器。对于点云分割任务，我们遵循[28]，采用点特征传播方法获得原始点云中每个点的逐点得分。3.3. 讨论在本小节中，我们将我们的SRN与现有的关系网络和基于局部特征的方法进行比较，以突出差异。与现有关系网络的区别：近年来，已经提出了几种关系网络（RN）来推理实体之间的相互作用[32，13，45]。它们利用空间和语义关系在图像的对象之间[32，13]，或者在视频中的帧之间建模时间关系[45]。在我们的工作中，我们专注于三维点集的局部子云之间的结构关系，这广泛存在于现实世界的三维物体，953并且在人类理解它们方面扮演着重要的角色。为了更好地捕捉结构关系，我们同时利用子云的几何和位置相互作用，这两者在3D结构理解中都是至关重要的。据我们所知，所提出的SRN是第一次推理点云特征学习的结构关系与基于局部特征的方法的区别：3D点云数据的最新深度学习方法证明了局部区域的重要性[28，39，20]。一般来说，这些方法采用分层结构来覆盖，在不同尺度上真实的局部结构，然后整合局部特征进行整体表示。但是，它们都是独立地处理各个局部区域，忽略了重要的结构关系，因而不能完全理解三维物体的整体性。相反，我们的SRN捕获几何和位置关系，为3D局部结构描述提供必要的补充信息，这能够提高现有点云网络架构的性能，作为一个简单的即插即用模块。3.4. 实现细节在整个实验中，我们使用Tensorflow [1]包来构建我们的模块。对于每个3D点云输入，我们从3D网格中随机采样1，024个点来构建点集。每层的尺寸和其他细节如图3所示。在第一个SRN模块中，我们推理了每个局部区域与随机选择的32个局部区域之间的结构关系。在第二个SRN模块中，我们对每个子云的所有子云进行推理。我们没有对点云进行数据增强，并将最终表示的维度固定为1，024。在实验中，我们将最大训练epoch数设置为250，batchsize设置为16在训练开始时，我们根据经验将每200K步的学习率设置为0.001，衰减率设置为0.7。4. 实验我们在广泛使用的三维点云数据集上进行了实验，以评估所提出的SRN模块。更具体地说，我们首先测试了配备SRN的PointNet++分别在点云分类和分割任务上的性能，并与最先进的方法进行了比较。我们还设计了跨数据集评估来测试泛化能力。然后，我们用消融研究来说明SRN的有效性。最后，我们可视化了t-SNE结果和局部子云之间的结构关系，以进行直观的说明，并分析了实验中的关键观测结果。为了进行公平比较，我们在所有网络上使用了相同的PointNet++网络结构和SRN-PointNet ++表1.在ModelNet40和ScanNet数据集上与最先进方法的分类准确率（%）比较。方法ModelNet40ScanNet[21]第二十一话87.5-[27]第二十七话89.974.9O-CNN [35]90.6-PointNet [26]89.2-[20]第二十话91.777.9[28]第二十八话90.677.1SRN-PointNet ++91.579.7表2. SRN-PointNet ++在Model-Net 40和ScanNet上的跨数据集评估，分类精度（%）。Train /TestModelNet40ScanNetModelNet4091.575.6ScanNet86.579.7数据集，唯一的区别是SRN模块的设备。4.1. 数据集我们采用了三个基准点云数据集进行实验评估，其中包括ModelNet40 [38]，ScanNet [9]和ShapeNet [6]。我们遵循标准评估协议来测试性能。1) ModelNet40数据集包含40个类别，12，331个3D网格模型，分为9，843个训练模型和2，468个测试模型。2) ScanNet数据集[9]包括1，513个扫描和重建的室内场景，我们使用1，201个场景作为训练集，其余312个场景作为测试集。3) ShapeNet数据集[6]涵盖55个常见对象，t类别，约51，300个模型，其中我们采用ShapeNet Part数据集，包含16个类别，16，880个模型。模型分为14，006个训练分割和2，874个测试分割，其中每个点与点云分割任务的逐点标签相关联。4.2. 定量结果在本小节中，我们首先分别在点云分类和分割任务上评估了所提出的SRN- PointNet++，并设计了跨数据集实验。然后，我们进行了消融研究，以更深入地分析SRN。点云分类：分类通常被认为是检验954表3.分割部分IoU（%）与ShapeNet Part数据集上的最新方法的实验比较。在表中，比较的基线方法分别是场探测神经网络[21]，体积CNN [27]，各向异性CNN [4]，SyncSpecCNN [42]，PointNet [26]，全卷积点网络[29]和PointNet++ [28]。类FPNN卷ACNNSSCNNPNFCPNPN++SRN-PN++飞机81.075.176.481.683.484.082.382.4袋78.472.872.981.778.782.879.779.8帽77.773.370.881.982.586.486.188.1车75.770.072.775.274.988.378.277.9椅子87.687.286.190.289.683.390.590.7耳机61.963.571.174.973.073.673.769.6吉他92.088.487.893.091.593.491.590.9刀85.479.682.086.185.987.486.286.3灯82.574.477.484.780.877.483.684.0笔记本95.793.995.595.695.397.795.295.4摩托车70.658.745.766.765.281.471.072.2马克杯91.991.889.592.793.095.894.594.9手枪85.976.477.481.681.287.780.881.3火箭53.151.249.260.657.968.457.762.1滑板69.865.382.182.972.883.674.875.9表75.377.176.782.180.673.482.883.2是说81.479.479.684.783.784.085.185.3如果深度模型和方法实现有希望的分类精度，则它们通常在其他任务上表现良好我们将我们的 SRN-PointNet++与ModelNet 40 [38]和ScanNet [9]数据集上的最先进方法进行了比较。表1显示了与现有方法相比的分类结果，其中我们共享PointNet++ [28]和我们的SRN-PointNet++的相同网络架构和超参数进行直接比较。我们使用粗体数字来表明配备SRN后PointNet++的性能得到了提高通常，ScanNet中的点虽然PointNet++通过分层捕获多尺度局部结构，但它将局部特征与简单的最大池化操作集成在一起，并且无法利用它们的结构关系。相反，所提出的S-RN模块明确地推理局部结构的几何和位置关系，使得所学习的深度模型更好地理解点云的整体结构简单的即插即用SRN模块成功地提高了PointNet++在Model-Net 40和ScanNet数据集上的性能。更具体地说，我们观察到ScanNet的改进大于配备SRN模块的ModelNet。由于ScanNet中的点云结构较为复杂，局部结构不合理，因此对点云内部结构关系的推理对于更全面的理解起着重要的作用。F-PNN [21]，Vol.[27]和O-CNN [35]都是体积。基于深度学习的方法，其遭受3D点云数据的低分辨率。我们的SRN-PointNet++直接消耗点集作为输入，并优于这些方法。PointCNN [20]在3D点云上设计了X卷积操作，并实现了最先进的性能。表演。相反，所提出的SRN-PointNet++模型能够在ModelNet 40 上获得类似的结果，并在更复杂的ScanNet上获得更好的性能。该方法利用多层感知器和1×1卷积进行映射，而不是对三维点云数据进行精心设计的X卷积运算，从而探测局部区域之间的结构关系由于ModelNet 40（3D对象）和ScanNet（室内场景）中的点云数据之间存在很大差异，我们还进行了跨数据集实验，以测试所提出的SRN-PointNet++的泛化能力对于跨数据集评估，我们在一个数据集上训练网络并在另一个数据集上进行测试，使用学习的模型提取特征并采用线性SVM作为分类器。表2显示了在ModelNet40和ScanNet上进行的跨数据集实验的实验结果我们观察到，如果我们选择不同的训练和测试数据集，由于数据差异，性能会下降。然而，差距是小的，跨数据集的实验结果仍然与现有的最近的方法。跨数据集实验证明了SRN PointNet ++的泛化能力。此外，它表明，学习的结构关系是常见的不同类型的三维点云数据。955表4.在ModelNet 40（MN 40）上，在不同关系和集成方法下，SRN-PointNet++的分类准确率（%）的比较方法关系一体化公司简介PointNet++--90.6SRN-PointNet ++GeoConcat91.0SRN-PointNet ++GeoRes90.7SRN-PointNet ++LocConcat91.1SRN-PointNet ++LocRes91.2SRN-PointNet ++Geo + LocConcat91.3SRN-PointNet ++Geo + LocRes91.5图4.ModelNet 40数据集上t-SNE的可视化结果关于SRN PointNet ++点云分割：分割任务比分类更具挑战性，因为它需要毛皮-对点云数据的进一步理解。我们使用ShapeNet Part数据集[6]与点云分割任务的现有方法进行比较。我们遵循[42，29]，采用部分平均IoU来评估分割结果，计算每个类别的IoU加权通过对每个3D对象的详细比较，我们能够对所提出的SRN-PointNet++进行完整的观察。表3说明了ShapeNet Part数据集上点云分割的实验比较在比较的基线方法中，SyncSpecCNN [42] [11]是专门为3D语义分割任务设计的，而其他方法-是一种通用的三维特征学习方法。我们观察到，建议SRN-PointNet++获得了最先进的性能，在最终的结果相比，现有的方法上的点云分割的任务。配备了我们的SRN模块，SRN-PointNet ++在16个身份中的13个身份中超过了PointNet++，这证明了结构关系推理对于3D点云理解的有效性。虽然SyncSpecCN- N [42]学习同步光谱CNN用于3D数据增强，但SRN-PointNet++作为一般点云分析方法在点云分割任务上实现了更好的性能。FCPN [29]是最新的点云深度学习方法，它设计了一个全卷积点网络来处理大规模3D数据。相反，我们的SRN-PointNet++通过简单的操作利用结构关系，在最终结果中优于FCPN。实验结果表明，SRN PointNet++在处理相对困难的点云分割任务时是消融术研究：除了与基准数据集上的最新方法进行直接比较外，我们还在ModelNet40上进行了消融实验，以进一步分析SRN的属性。为了充分利用结构局部区域之间的关系，我们同时考虑了几何和位置的相互作用，我们测试的影响的关系类型，只使用它们中的每一个。在SRN- PointNet++中，采用残差块对局部结构特征和关系特征进行融合，并与另一种常用的拼接融合方法进行了比较。表4显示了消融研究中Model-Net 40的分类准确度。在表中，Geo和Loc分别是几何关系和位置关系。我们比较了SRN-PointNet++的性能，分别或同时利用它们。 Concat和Res表示将结构特征与级联（[y，u，v]）和残差块（[y+u，v]）融合。我们观察到，捕捉几何或位置关系能够提高PointNet++的性能，这在理解3D对象时接近我们的人类，因为我们可能会注意到重复的结构和零件的链接。最佳性能是通过同时考虑这两种关系获得的拼接和残差块是特征组合的常用方法。通过详细的比较，我们观察到两种聚合方法的性能差距很小，这表明了学习的关系特征的自适应性。由于残差块不需要增加特征长度，我们在整个实验中采用残差块来降低计算成本。4.3. 定性结果在本小节中，我们首先可视化了所提出的SRN-PointNet ++的t-SNE结果。图4显示了可视化结果。我们观察到，大多数类是分离的，类内变化很小，这证明了SRN-PointNet ++的区分能力对于更详细的分析，我们研究了最混合的领域，以找到有较大困难的类别，以正确分类。我们发现最令人困惑的美食-956图5.具有高响应的局部区域的可视化结果。在图中，不同的颜色表示不同的局部区域。(Best以颜色查看）。SRN-PointNet++的优势是：1）床头柜，2）梳妆台，3) 衣柜和X盒子。这些对象共享类似的3D结构，与飞机和汽车等其他类别相比也相对简单。一方面，它们的类间距离很小，导致特征学习和分类的难度很大另一方面，我们的SRN模块捕获这些对象的相似结构关系，并由于其简单和规则的结构而导致相似的编码。因此，与其他类相比，这些类相对更容易被SRN-PointNet++错误分类我们还在我们的SRN- PointNet++中可视化了学习到的结构关系与第二个 SRN 的高响应。图 5 显示了ModelNet40数据集的可视化结果。我们观察到，高度相关的局部结构被捕获与几何和位置的相互作用，如对称的重复部分（第一行），局部区域共享同一平面（第二行）和不同部分的基本联系（第三行）。尽管不同类别的点云差异很大，但我们的SRN模块仍然能够利用局部结构之间的共同和潜在关系。应该注意的是，我们没有利用额外的标签或精心设计的损失函数来训练这种结构关系。相反，捕获这些关系的目的是更好地理解语义。换句话说，SRN在学习理解对象时发现了与人类相似的局部交互，这也证明了在3D对象分析中利用结构关系的重要性4.4. 分析上述对基准数据集的实验表明了以下四个关键观察结果：1) SRN模块成功地提高了PointNet++在分类和分割任务上的性能，这表明了结构关系推理在三维点云数据中的有效性。对于具有足够局部结构的复杂点云数据，该方法的改进效果更为显著。2) 在ModelNet 40和Scan-Net上的跨数据集评估表明，我们的SRN-PointNet++具有很强的泛化能力，尽管数据存在差异，但仍能捕捉到常见的结构关系。3) 烧蚀研究表明，几何和局部相互作用对描述局部区域之间的结构关系都很重要。当同时利用这两种关系时，可以实现最佳结果。此外，我们还证明了局部结构特征和关系特征的不同聚集方法对SRN- PointNet++的性能没有很大影响。4) 虽然监督信号仅提供点云的类别，但可视化结果表明，我们的SRN模块能够捕获高度相关的局部结构，而无需特定的标签。5. 结论在本文中，我们提出了一个简单的，即插即用的模块命名为SRN的原因之间的结构关系的局部区域的三维点云，这对我们的人类分析三维物体起着重要的作用虽然大多数现有的方法通过简单的池化操作聚合局部特征，从而忽略了重要的结构相互作用，但我们的SRN明确地捕获它们的几何和位置关系，以更好地理解整体结构。建议的SRN模块可以配备现有的模型，其中我们详细介绍了SRN-PointNet++架构作为一个代表性的方法。在基准数据集上的实验结果表明，我们的SRN在点云分类和分割任务上显著提高了原始网络的性能消融研究和可视化结果也表明，我们的SRN模块捕捉几何和位置的基本结构关系。确认这项工作得到了国家自然科学基金U1813218、61822603、U1713214、61672306和61572271的部分资助作者感谢先生。李朝建先生及李朝建先生。朱海东进行了宝贵的讨论。957引用[1] 陈志峰，陈志峰.放大图片作者：Andy Davis，JeffreyDean ， Matthieu Devin ， Sanjay Ghemawat ， Ian J.Goodfellow ， Andrew Harp ， Geoffrey Irving ，MichaelIsard，YangqingJia，Ra f alJo'zef o wicz，LukaszKaise r，Man- junathKudlu r ， JoshL ev enbe r g ， DanMan e' ，RajatMon g a，Sherry Moore，Derek Gordon Murray，Chris Olah ， Mike Schuster ， Jonathe Shlens ， BenoitSteiner，Ilya Sutskever，Kunal Talwar，Paul A.放大图片创作者：JohnW. 维加斯，奥里奥尔·维亚尔斯，皮特·瓦登，马丁 · 瓦滕伯格，马丁 · 威克，袁宇，郑晓强.TensorFlow：异构分布式系统上的大规模机器学习。arXiv，abs/1603.04467，2016。5[2] Mikaela Angelina Uy和Gim Hee Lee。PointNetVLAD：基于深点云检索的大规模地点识别。在CVPR中，第4470-4479页，2018年。2[3] Mathieu Aubry，Ulrich Schlickewei，and Daniel Cremers.波核签名：形状分析的量子力学ICCVW，第1626-1633页，2011年。1[4] Da videBoscaini ， JonathanMasci ， EmanueleRodola` ，andMichael Bronstein.用各向异性卷积神经网络学习形状对应关系。在NIPS，第3189-3197页，2016年。6[5] Michael M Bronstein和Iasonas Kokkinos。用于非刚性形状识别的尺度不变热核特征。在CVPR，第1704-1711页，2010年。1[6] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese ， Manolis Savva ， Shuran Song 和 Hao Su 。Shapenet：一个信息丰富的3D模型库。arXiv预印本arXiv：1512.03012，2015。二、五、七[7] Ding-Yun Chen，Xiao-Pei Tian，Yu-Te Shen，and MingOuhyoung.基于视觉相似性的三维模型检索。在计算机图形论坛，第223-232页，2003年。1[8] Xinlei Chen，Li-Jia Li，Li Fei-Fei，and Abhinav Gupta.超越卷积的迭代视觉推理在CVPR中，第7239-7248页2[9] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Niessner 。ScanNet：室内场景的丰富注释3D重建。在CVPR中，第5828-5839页，2017年。二、五、六[10] 罗斯·格希克。快速R-CNN。在ICCV，第1440-1448页，2015中。2[11] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用子流形稀疏卷积网络进行3D语义分割。CVPR，第9224-9232页，2018年。7[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。2[13] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei. 用于对象检测的关系网络在CVPR中，第3588-3597页二、三、四[14] 紫建耀和李金熙。3D网络：用于点云配准的弱监督局部3D特征在ECCV中，第607-623页2[15] Andrew E Johnson和Martial Hebert。使用自旋图像在杂乱的3D场景中进行有效的对象识别。TPA-MI，第433-449页，1999年。1[16] Justin Johnson ， Bharath Hariharan ， Laurens van derMaaten ， Judy Hoffman ， Li Fei-Fei ， C LawrenceZitnick，and Ross B Girshick.推断和执行程序以进行可视化推理。在ICCV，第3008-3017页，2017年。2[17] 罗曼·克洛科夫和维克多·伦皮茨基从单元格- s中退出：用于识别3D点云模型的深度kd网络。在ICCV，第863-872页，2017年。1[18] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS，第1097-1105页，2012中。2[19] Jiaxin Li，Ben M Chen，and Gim Hee Lee. SO-Net：用于点云分析的自组织网络在CVPR中，第9397-9406页2[20] Yangyan Li ， Rui Bu ， Mingchao Sun ， and BaoquanChen. 美国有线电视新闻网。arXiv预印本arXiv：1801.07791，2018。二、五、六[21] Yangyan Li，Soeren Pirk，Hao Su，Charles R Qi，andLeonidas J Guibas. FPNN：用于3D数据的现场探测神经网络。在NIPS，第307-315页，2016年。五、六[22] Haibin Ling和David W Jacobs.使用内部距离的形状分类TPAMI，29（2）：286-299，2007. 1[23] Daniel Maturana和Sebastian Scherer。VoxNet：用于实时对象识别的3D卷积神经网络在IROS中，第922-928页，2015年。2[24] 拉斯莫斯·伯格·帕尔姆乌尔里希·帕奎特和奥勒·温瑟用于复杂关系推理的回流关系网络arXiv预印本arXiv：1711.08028，2017。2[25] Charles R Qi ， Wei Liu ， Chenxia Wu ， Hao Su ， andLeonidas J Guibas.Frustum PointNets用于从RGB-D数据进行3D对象检测。CVPR，第918-927页，2018年。一、二[26] Charles R Qi， Hao Su ，Kaichun Mo， and Leonidas JGuibas.PointNet：用于3D分类和分割的点集深度学习。在CVPR中，第652-660页，2017年。一二四五六[27] Charles R Qi，Hao Su，Matthias Nießner，Angela Dai，Mengyuan Yan，and Leonidas J Guibas.用于3D数据对象分类的体积和多视图CNN。在CVPR中，第5648-5656页，2016年。二、五、六[28] Charles Ruizhon

下载后可阅读完整内容，剩余1页未读，立即下载