点云深度学习：PointNet的应用

191 浏览量更新于2023-10-17 收藏 2.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1PointNet：用于3D分类和分割的点集深度学习Charles R.苏启浩莫开春列奥尼达斯J。斯坦福大学摘要点云是一种重要的几何数据结构。由于其不规则的格式，大多数研究人员将这些数据转换为规则的3D体素网格或图像集合。然而，这使得数据不必要地庞大并且引起问题。在本文中，我们设计了一种新型的神经网络，直接消耗点云，它很好地尊重输入点的排列不变性。我们的网络，名为PointNet，提供了一个统一的架构，从对象分类，部分分割，场景语义解析的应用程序。虽然简单，PointNet却非常高效。从经验上看，它显示出与现有技术相当的强大性能，甚至优于现有技术。理论上来说我们提供分析以理解网络已经学习了什么以及为什么网络相对于输入扰动和损坏是鲁棒的。1. 介绍在本文中，我们将探索能够推理3D几何数据（如点云或网格）的深度学习架构。典型的卷积架构需要高度规则的输入数据格式，如图像网格或3D体素的格式，以便执行权重共享和其他内核优化。由于点云或网格不是规则格式的，大多数研究人员通常在将这些数据馈送到深度网络架构之前将这些数据转换为规则的3D体素网格或图像集合（例如，视图）。然而，这种数据表示变换使得所得到的数据不必要地庞大，同时还引入了量化伪像，其可以模糊数据的自然不变性。出于这个原因，我们专注于使用简单点云– and name our resulting deep nets点云是一种简单统一的结构，避免了网格的组合不规则性和复杂性，因此更易于学习。然而，PointNet* 表示贡献相等。马克杯？桌PointNet分类零件分割语义分割图1. PointNet的应用我们提出了一种新的深网架构，消耗原始点云（点集），而没有体素化或渲染。它是一个统一的架构，学习全局和局部点特征，为许多3D识别任务提供了一个简单，高效和有效的方法。仍然必须尊重点云只是一组点，因此不变的排列，其成员，需要一定的对称化的净计算。还需要考虑刚性运动的进一步不变性我们的PointNet是一个统一的架构，它直接将点云作为输入，并输出整个输入的类标签或输入的每个点的每个点段/部分标签。我们的网络的基本架构非常简单，因为在初始阶段，每个点都被独立地处理。在基本设置中，每个点仅由其三个坐标（x，y，z）表示。可添加通过计算法线和其他局部或全局特征。我们的方法的关键是使用一个对称函数，即最大池。有效地，网络学习一组优化函数/标准，其选择点云的感兴趣的或有信息的点，并对它们的选择的原因进行编码。网络的最终完全连接层将这些学习到的最优值聚集到如上所述的用于整个形状的全局描述符中（形状分类），或者用于预测每个点的标签（形状分割）。我们的输入格式很容易应用刚性或仿射变换，因为每个点都独立变换。因此，我们可以添加一个依赖于数据的空间Transformer网络，该网络试图在PointNet处理数据之前将其规范化，以便进一步改进结果。652653我们提供了一个理论分析和实验评估我们的方法。我们表明，我们的网络可以近似任何集函数是连续的。更有趣的是，我们的网络学会了通过一组稀疏的关键点来总结输入点云，这些关键点大致对应于可视化的对象骨架。理论分析提供了一个理解为什么我们的PointNet是高度鲁棒的输入点的小扰动，以及腐败通过点插入（离群值）或删除（丢失数据）。在一些基准数据集上，从形状分类，部分分割到场景分割，我们通过实验将PointNet与基于多视图和体积表示的最先进方法进行了比较。在统一的架构下，我们的PointNet不仅速度快得多，而且还表现出与现有技术相当甚至更好的性能。我们工作的主要贡献如下：• 我们设计了一种新的深网结构，适合于在三维环境中消耗无序点集;• 我们展示了如何训练这样的网络来执行三维形状分类，形状部分分割和场景语义解析任务;• 我们提供了深入的经验和理论分析的稳定性和效率，我们的方法;• 我们说明了所选的神经元在网络中计算的3D功能，并开发其性能的直观解释。神经网络处理无序集的问题是一个非常普遍和基本的问题-我们希望我们的2. 相关工作点云功能点云的大多数现有功能都是针对特定任务手工制作的。点特征通常对点的某些统计特性进行编码，并且被设计为对某些变换保持不变，这些变换通常被分类为内在[2，21，3]或外在[18，17，13，10，5]。它们也可以分为局部特征和全局特征。对于一个特定的任务，找到最佳特征组合不是小事。3D数据上的深度学习3D数据有多种流行的表示形式，导致各种学习方法。体积CNN：[25，15，16]是将3D卷积神经网络应用于体素化形状的先驱。然而，体积表示由于数据稀疏性和计算成本而受到其分辨率的限制3D卷积。FPNN [12]和Vote 3D [23]提出了处理稀疏性问题的特殊方法;然而，他们的操作仍然是在稀疏的体积上，这多视图CNN：[20，16]已经尝试将3D点云或形状渲染成2D图像，然后应用2D conv nets对其进行分类。通过精心设计的图像CNN，这一系列方法在形状分类和检索任务上实现了主导性能[19]。然而，光谱CNN：一些最新的作品[4，14]在网格上使用光谱CNN。然而，这些方法目前被限制在流形网格上，如有机物体，它不清楚如何将它们扩展到非等距形状，如家具。基于特征的DNN：[6，8]首先将三维数据转换为矢量，通过提取传统的形状特征，然后使用全连通网络对形状进行分类。我们认为它们受到提取特征的表示能力的约束。从数据结构的角度来看，点云是一组无序的向量。虽然深度学习中的大多数工作都集中在常规输入表示上，如序列（语音和语言处理中），图像和体积（视频或3D数据），但在点集的深度学习中没有做太多工作。Oriol Vinyals等人[22]最近的一项工作研究了这个问题。他们使用具有注意力机制的读-处理-写网络来消费无序输入集，并表明他们的网络具有对数字进行排序的能力。然而，由于他们的工作集中在通用集合和自然语言处理应用，缺乏几何在集合中的作用。3. 问题陈述我们设计了一个深度学习框架，直接使用无序点集作为输入。点云是表示为一组3D点{Pi|i=1，… n}，其中每个点Pi是其（x，y，z）坐标加上诸如颜色、法线等的额外特征通道的向量。为了简单和清楚起见，除非另有说明，否则我们仅使用（x，y，z）坐标作为我们点对于对象分类任务，输入点云直接从形状采样或从场景点云预先分割我们提出的深度网络为所有k个候选类输出k个分数。对于语义分割，输入可以是用于部分区域分割的单个对象，或者是用于对象分割的区域分割我们的模型将为n个点中的每一个和m个语义子节点中的每一个输出n×m个分数类别654分类网络分割网络图2. PointNet架构。分类网络以n个点作为输入，应用输入和特征变换，然后通过最大池化聚合点特征输出是k个类的分类分数分段网络是分类网络的扩展它连接全局和局部特征，并输出每点得分。“mlp” stands for multi-layer perceptron, Batchnorm用于具有ReLU的所有层丢弃层用于分类网中的最后一个MLP4. 点集深度学习我们的网络（第4.2节）的架构受到了Rn（第4.1节）中点集属性的启发。4.1. R~ n中点集的性质我们的输入是来自欧几里得空间的点的子集。它有三个主要特性：• 混乱。与图像中的像素阵列或体积网格中的体素阵列不同，点云是没有特定顺序的点集合换句话说，消耗N个3D点集的网络需要对N！输入集按数据馈送顺序的排列。• 点之间的相互作用。这些点来自具有距离度量的空间。这意味着点不是孤立的，相邻点形成有意义的子集因此，该模型需要能够从附近的点捕获局部结构，以及局部结构之间的组合相互作用。• 变换下的不变性。作为几何对象，学习的点集应该对某些变换保持不变。例如，一起旋转和平移点不应修改全局点云类别或点的分割。4.2. PointNet架构我们的完整网络架构在图2中可视化，其中分类网络和分段网络共享大部分结构。请阅读管道图2我们的网络有三个关键模块：最大池化层作为对称函数来聚合来自所有点、局部和全局信息组合结构以及对齐输入点和点特征的两个联合对齐网络。我们将在下面单独的段落中讨论这些设计选择背后的原因。对称功能为无序输入在秩序为了使模型对输入置换不变，存在三种策略：1）将输入排序为规范顺序; 2）将输入作为一个序列来训练RNN，但是通过各种排列来扩充训练数据; 3）使用简单的对称函数来聚合来自每个点的信息。这里，对称函数将n个向量作为输入并输出对输入顺序不变的新向量。例如，+和*运算符是对称的二元函数。虽然排序听起来像是一个简单的解决方案，但在高维空间中，实际上并不存在相对稳定的排序。一般意义上的点扰动。这一点很容易用矛盾来说明。如果存在这样的排序策略，它定义了一个高维空间和一维实数直线之间的双射映射。它不难看出，要求排序对于点扰动是稳定的等价于要求该映射随着维数减小而保持空间邻近性，这是在一般情况下不能实现的任务。因此，排序并不能完全解决排序问题，并且当排序问题持续存在时，网络很难学习从输入到输出的一致映射。如实验所示（图5），我们发现直接在排序的点集上应用MLP的表现很差，尽管比直接处理未排序的输入稍微好一些。使用RNN的想法将点集视为序列信号，并希望通过训练RNN输入变换年龄：64，64特征变换马来西亚劳动党（64，128，1024）最大1024mlp（512，共享共享nx1024全局特征K输出得分点要素T-Net3x 3变换T-Net64 x64变换n x 1088矩阵乘法矩阵乘法共享共享劳动党（512，256，128）劳动党（128，男）输入点NX3NX3NX64NX64nx128NXM输出得分655F对于随机排列的序列，RNN将变得对输入顺序不变。然而，在“OrderMatters”[ 22 ]中虽然RNN对于小长度（几十个）序列的输入排序具有相对较好的鲁棒性，但很难扩展到数千个输入元素，这是点集的常见大小。经验上，我们还表明，基于RNN的模型没有我们提出的方法表现得那么好（图5）。我们的想法是通过对集合中的变换元素应用对称函数来近似定义在点集合上的一般函数f（{x1，. . . ，xn}）n = g（h（x1），. . . ，h（x n）），（1）其中f：2RN→R，h：RN→RK和g：RK×··· ×RK→R是一个对称函数。`˛¸Xn从经验上讲我们的基本模块非常简单：我们通过多层感知器网络近似h，g通过单变量函数和最大池化函数的组合来实现。通过实验发现这是很好的工作。通过一个h的集合，我们可以学习一些f虽然我们的关键模块看起来很简单，但它具有有趣的属性（参见5.3节），并且可以在一些不同的应用程序中实现强大的性能（参见5.1节）。由于本模块的简单性，我们还能够提供第4.3节中的理论分析。如果点云经历某些几何变换（例如刚性变换），则点云的语义标记必须是不变的。因此，我们期望通过我们的点集学习的表示对于这些变换是不变的。一个自然的解决方案是在特征提取之前将所有输入集对齐到规范空间。Jaderberg 等人 [9] 介绍了空间Transformer的概念，通过采样和插值来对齐2D图像，通过在GPU上实现的专门定制的层来实现。与[9]相比，我们的点云输入形式使我们能够以更简单的方式实现这一目标。我们不需要发明任何新的层，也不需要像在图像情况下那样引入别名我们通过一个迷你网络（图2中的T-网）预测仿射变换矩阵，并将该变换直接应用于输入点的坐标迷你网络本身类似于大网络，由点无关特征提取、最大池化和全连接层等基本模块组成。有关T网络的更多详细信息，请参见补充资料。该思想还可以进一步扩展到特征空间的对齐。我们可以在点特征上插入另一个对齐然而，特征空间中的变换矩阵维数远高于空间变换矩阵，这大大增加了优化的难度。因此，我们将正则化项添加到我们的softmax训练损失中。我们将特征变换矩阵约束为接近正交矩阵：本地和全局信息聚合来自上述部分的输出形成向量[f1，. . . ，f K]，其是输入集的全局签名。我们可以很容易Lreg =I−AAT2，（2）在形状全局特征上训练SVM或多层感知器分类器以用于分类。然而，点分割需要局部和全局知识的组合。我们可以通过一种简单而高效的方式来实现这一点。我们的解决方案可以在图2（分割网络）中看到。在计算全局点云特征向量之后，我们通过将全局特征与每个点特征连接来将其反馈给每个点特征。然后，我们基于组合的点特征提取新的每点特征-这次每点特征知道局部和全局信息。通过这种修改，我们的网络能够预测依赖于局部几何和全局语义的每个点的数量。例如，我们可以准确地预测每个点的法线（补充图），验证网络能够从点的局部邻域总结信息在实验中，我们还表明，我们的模型可以实现国家的最先进的性能上的形状部分分割和场景分割。其中，A是由迷你网络正交变换将不会丢失输入中的信息，因此是期望的。我们发现，通过添加正则化项，优化变得更加稳定，我们的模型取得了更好的性能。4.3. 理论分析我们首先展示了我们的神经网络对连续集函数的通用逼近能力。通过集合函数的连续性，直观地，对输入点集合的小扰动不应极大地改变函数值，诸如分类或分割分数。形式上，令X={S：S<$[0，1]m，|S|=n}，f：X→ R是X上关于t到Hausdorff距离dH（·，·）的连续集函数，即，对任意yS，S′∈X，若dH（S，S′）<δ，则|f（S）−f（S′）|<。我们的定理表明，f可以被我们的网络任意近似在最大池化层处给定足够的神经元，即，钾（1）足够大。656滑板袋手枪耳机火箭刀笔记帽完整输入灯椅子..表马克摩托车吉他车飞机部分输入图3. 零件分割的定性结果。我们可视化的CAD部分分割结果在所有16个对象类别。我们展示了部分模拟Kinect扫描（左块）和完整ShapeNet CAD模型（右块）的结果定理1设f：X →R是连续集函数w. r.tHausdor f f距离dH（·，·）.∀ǫ>0，n是连续函数h和对称函数g（x1，. . . ，xn）= γ MAX，使得对任意S ∈ X，表1. ModelNet40上的分类结果。我们的网络在3D输入的深度网络我们解释了定理的含义。 (a)说明如果C S中的所有点都保持不变，则f（S）直到输入损坏都不变;它也不随额外的噪声而改变指向NS。 (b)说CS只包含有界点的数目，由（1）中的K确定。换句话说，f（S）实际上完全由有限子集CS<$S确定..Σ。..小于或等于K个元素。因此，我们称CS为. f（S）−γMAX{h（xi）}xi∈S. <ǫS的临界点集和K是f的瓶颈维数。结合h的连续性，这解释了其中x1，. . .，xn是S中任意排序的元素的完整列表，γ是连续函数，MAX是向量最大运算符，它将n个向量作为输入并返回元素最大值的新向量这个定理的证明可以在我们的教科书材料中找到。关键思想是，在最坏的情况下，网络可以学习将点云转换为体积表示，通过将空间划分为相等大小的体素。然而，在实践中，网络学习了一种更聪明的策略来探测空间，我们将在点函数可视化中看到。瓶颈维度和稳定性理论上和实验上我们发现，我们的网络的表达性强烈地受到最大池化层的维度的影响，即，K在⑴中。在这里，我们提供了一个分析，这也揭示了与我们的模型的稳定性相关的属性。我们定义u=MAX{h（xi）}为f的子网络xi∈S其将[0，1]m中的点集映射到K维向量。下面的定理告诉我们，输入集中的额外噪声点不太可能改变我们网络的输出：定理2假设u： X→RK 这样，u=MAX {h（xi）}和f = γ <$u。然后，xi∈S(a) 如果CS< $T<$NS，则f（T）=f（S）;(b) |C S| ≤ K我们的模型w.r.t点扰动，腐败和额外的噪声点的鲁棒性。鲁棒性类似于机器学习模型中的稀疏性原理。直觉上，我们的网络学习总结形状，一组稀疏的关键点在实验部分，我们看到关键点构成了物体的骨架5. 实验实验分为四个部分。首先，我们展示了PointNets可以应用于多个3D识别任务（第5.1节）。其次，我们提供了详细的实验来验证我们的网络设计（5.2节）。最后，我们将网络学习的内容可视化（5.3节），并分析时间和空间复杂度（5.4节）。5.1. 应用在本节中，我们将展示如何训练我们的网络来执行3D对象分类、对象部分分割和语义场景分割1。即使我们正在研究一个全新的数据表示（点集），我们也能够在几个任务的基准测试中获得相当甚至更好的性能。我们的网络学习可用于对象分类的全局点云特征我们在ModelNet40 [25]形状分类基准上评估我们的模型。有来自40个人造物体类别的12，311个CAD模型，分为9，843个1补充资料中包含更多应用实例，如基于对应和点云的CAD模型检索。输入#视图精度avg. 类精度整体SPH [11]网格-68.2-[25]第二十五话体积177.384.7[第15话]体积1283.085.9子卷[16]体积2086.089.2LFD [25]图像1075.5-MVCNN [20]图像8090.1-我们的基线点-72.677.4我们的PointNet点186.289.2657是说Aero袋帽车椅子耳朵电话吉他刀灯笔记本电机马克杯手枪火箭滑冰板表#形状269076558983758697873921547451202184 283661525271[24]第二十四话-63.2---73.5---74.4------74.8[26]第二十六话81.481.078.477.775.787.661.992.085.482.595.770.691.9 85.953.169.875.33DCNN79.475.172.873.370.087.263.588.479.674.493.958.791.8 76.451.265.377.1我们83.783.478.782.574.989.673.091.585.980.895.365.293.0 81.257.972.880.6表2. ShapeNet零件数据集上的分割结果。度量为点的mIoU（%）。我们比较了两种传统方法[24]和[26]以及我们提出的3D全卷积网络基线我们的PointNet方法在mIoU中达到了最先进的水平培训和2,468次测试。虽然以前的方法集中在体积和多视图图像表示，我们是第一个直接工作的原始点云。我们根据面面积均匀采样网格面上的1024个点，在训练过程中，我们通过随机旋转对象沿向上轴增加点云，并通过具有零均值和0.02标准差的高斯噪声抖动在表1中，我们比较了我们的模型与以前的作品，以及我们的基线使用MLP从点云提取的传统特征（点密度，D2，形状轮廓等）。我们的模型在基于3D输入（体积和点云）的方法中达到了最先进的性能。只有完全连接的层和最大池，我们的网络在推理速度上获得了很大的领先优势，并且可以很容易地在CPU中并行化。我们的方法和基于多视图的方法（MVCNN[20]）之间仍然存在一个小差距，我们认为这是由于可以通过渲染图像捕获的精细几何细节的丢失。3D对象部件分割部件分割是一项具有挑战性的细粒度3D识别任务。给定3D扫描或网格模型，任务是分配零件类别标签（例如椅子腿、杯柄）到每个点或面。我们对来自[26]的ShapeNet零件数据集进行了评估，该数据集包含来自16个类别的16，881个形状，总共标注了50个零件。大多数对象类别都标记有两到五个部分。地面实况注释标记在形状上的采样点上。我们制定的部分分割为每点分类问题。评估指标为mIoU点。对于类别C的每个形状S，为了计算形状的mIoU：对于类别C中的每个部件类型，计算地面实况和预测之间的IoU。如果地面实况和预测点的并集为空，则将部分IoU计数为1。然后，我们对类别C中的所有部件类型的 IoU 进行平均，以获得该形状的mIoU。要计算类别的mIoU，我们取该类别中所有形状的mIoU的平均值。在本节中，我们将我们的分割版本PointNet（图2的修改版本，分割网络）与两种传统方法[24]和[26]进行比较，这两种方法都利用了逐点几何特征和形状之间的对应关系，以及我们自己的3D CNN基线。有关3D CNN的详细修改和网络架构，请参见补充部分。在表2中，我们报告了每个类别和平均IoU（%）评分。我们观察到平均IoU改善了2.3%，我们的净击败了大多数类别的基线方法。我们还进行模拟Kinect扫描实验，以测试这些方法的鲁棒性。对于ShapeNet零件数据集中的每个CAD模型，我们使用Blensor Kinect Simulator [7]从六个随机视点生成不完整的点云。我们使用相同的网络架构和训练设置在完整形状和部分扫描上结果表明，我们仅损失5.3%的平均IoU。在图3中，我们给出了完整和部分数据的定性结果。可以看出，虽然部分数据相当具有挑战性，但我们的预测是合理的。场景中的语义分割我们的部分分割网络可以很容易地扩展到语义场景分割，其中点标签成为语义对象类，而不是对象部分标签。我们在斯坦福3D语义解析数据集上进行实验[1]。该数据集包含Matterport扫描仪在6个区域（包括271个房间）进行的3D扫描。扫描中的每个点都用来自13个类别（椅子、桌子、地板、墙壁等）的语义标签之一进行注释。加上杂乱）。为了准备训练数据，我们首先按房间分割点，然后将房间采样成面积为1m × 1m的块。我们训练PointNet的分割版本来预测平均IoU总体精度我们的基线20.1253.19我们的PointNet47.7178.62表3. 场景中语义分割的结果。度量是13个类别（结构和家具元素加上杂波）的平均IoU和按点计算的分类精度。表椅子沙发板是说#实例455136355137Armeni等人[1]第一章46.0216.156.783.9118.22我们46.6733.804.7611.7224.24表4. 场景中的3D物体检测结果。度量是在3D体积中计算的658阈值IoU 0.5的平均精度。659（1，2，3）（2，3，4） ......这是什么？（1，3，1）顺序式模型图4. 语义分割的定性结果。顶行是带有颜色的输入点云底行是在与输入相同的相机视点中显示的输出每个块中的每个点类。每个点由XYZ、RGB和关于房间的归一化位置（从0到1）的9维向量表示。在训练时，我们在每个块中随机抽取4096个点。在测试时，我们对所有点进行测试我们遵循与[1]相同的协议，使用k倍策略进行训练和测试。我们将我们的方法与使用手工制作的点特征的基线进行比较。基线提取相同的9维局部特征和三个额外的特征：局部点密度、局部曲率和法线。我们使用标准的MLP作为分类器。结果示于表3中，其中我们的PointNet方法明显优于基线方法。在图4中，我们示出了定性分割结果。我们的网络能够输出平滑的预测，并且对缺失点和遮挡具有鲁棒性。基于我们的网络输出的语义分割，我们进一步构建了一个使用连接组件进行对象建议的3D对象检测系统（详见补充）。我们在表4中与先前的最先进方法进行比较。先前的方法是基于滑动形状方法（与CRF后处理），其中支持向量机在体素网格中的局部几何特征和全局房间上下文特征上训练。我们的方法在报告的家具类别上大大优于它。5.2. 建筑设计分析在本节中，我们通过控制实验验证我们的设计选择。我们还显示了我们的网络的超参数的影响。与替代序不变量的比较方法如4.2节中所述，至少有三种选择用于消耗无序集输入。我们使用ModelNet40形状分类问题作为试验台来比较这些选项，下面的两个对照实验也将使用这个任务。我们比较的基线（如图5所示）包括未排序和已排序的多层感知器图5. 三种实现顺序不变性的方法。应用于点的多层感知器（MLP）由5个隐藏层组成，神经元大小为64，64，64，128，1024，所有点共享MLP的单个副本。靠近输出的MLP由大小为512、256的两个层组成。点作为n×3阵列，RNN模型将输入点视为序列，以及基于对称函数的模型。我们实验的对称操作包括max池化、平均池化和基于注意力的加权和。注意力方法类似于[22]中的方法，其中从每个点特征预测标量分数，然后通过计算softmax跨点归一化分数。然后在归一化分数和点特征上计算加权和。如图5所示，最大池化操作以较大的获胜幅度实现了最佳性能，这验证了我们的选择。输入和特征转换的有效性表5展示了我们的输入和特征转换（用于对齐）的积极效果。有趣的使用输入转换给出0。8%的性能提升。正则化损失是高维变换工作所必需的。通过结合变换和正则化项，我们实现了最佳性能。鲁棒性测试我们表明我们的PointNet，而简单和有效的，是强大的各种输入腐败。我们使用与图5中输入点被归一化为单位球面。结果在图6中。对于缺失点，当缺失50%的点时，精度仅下降2。4%和3。8%相对湿度最远和随机输入采样。我们的网络对异常值也是鲁棒变换精度没有一87.1输入（3x3）87.9功能（64x64）86.9特征（64x64）+注册87.4两89.2表5. 输入特征变换的效果。指标是ModelNet40测试集上的总体分类准确度rnn rnn小区小区...rnn单MLPMLPMLPMLPMLPMLP排序（1、2、3）（二、三、四）（1、2、3）（1，3，MLPMLPMLP输入输出......66010090807060504030Furcourse随机00.20.40.60.81缺失数据比率1009080706050403020XYZXYZ+密度0.10.20.30.40.5异常值比率908070605040300 0.05 0.1扰动噪声标准不大于全局形状描述符。5.4.时空复杂度分析表6总结了空间（网络中的参数数量）和时间（浮点运算/样本）图6. PointNet稳健性测试。该指标是整体的在ModelNet40测试集上的分类精度。左：删除点。最远意味着原始1024个点是用最远采样采样的。中间：插入。均匀分布在单位球面中的离群值。右：扰动。将高斯噪声单独添加到每个点。如果你在训练中看到了这些我们评估了两个模型：一个在具有（x，y，z）坐标的点上训练;另一个在（x，y，z）加上点密度上训练。即使20%的点是离群值，网络也有超过80%的准确率。图6右示出了网络对点扰动是鲁棒的。5.3. 可视化PointNet在图7中，我们可视化了一些样本形状S的临界点集CS和上限形状NS的一些结果（如Thm2中所讨论的）。两个形状之间的点集将给出完全相同的全局形状特征f（S）。我们可以从图7中清楚地看到，临界点集CS，那些对最大池化特征有贡献的点集，总结了形状的骨架。上限形状NS示出了给出与输入点云S相同的全局形状特征f（S）的最大可能点云。CS和NS反映了PointNet的鲁棒性，这意味着丢失一些非关键点根本不会改变全局形状特征f（S）。通过将边长为2的立方体中的所有点通过网络转发，并选择点函数值（h1（p），h2（p），· · ·，hK（p））为图7. 临界点和上限形状。虽然临界点共同确定给定形状的全局形状特征我们对所有图形进行颜色编码以显示深度信息。我们的分类PointNet的复杂性我们还比较PointNet的一组有代表性的体积和多视图的基础架构在以前的作品。虽然MVCNN [20]和Subvolume（3D CNN）[16]实现了高性能，但PointNet在计算成本方面更有效（以FLOP/样本衡量：效率分别为141倍和8倍）。此外，就网络中的#param而言，PointNet比MVCNN更节省空间（参数少17倍）。而且，PointNet的可扩展性更强-然而，由于卷积占主导地位的计算时间，多视图方法根据经验，PointNet能够在Tensor-Flow上使用1080X GPU每秒处理超过100万个点，用于点云分类（约1K对象/秒）或语义分割（约2个房间/秒），显示出实时应用的巨大潜力。#参数FLOPs/样品PointNet（vanilla）PointNet0.8M3.5M148M440M子卷[16]16.6M小行星3633MMVCNN [20]60.0M62057M表6.用于3D数据分类的深度架构的时间和空间复杂度。PointNet（vanilla）是不带输入和特征转换的PointNet分类FLOP代表浮点运算。“M”代表百万。子体积和MVCNN使用来自多个旋转或视图的输入数据的池化，没有它，它们的性能要差得多。6. 结论在这项工作中，我们提出了一种新的深度神经网络PointNet，直接消耗点云。我们的网络为许多3D识别任务提供了统一的方法，包括对象分类，部分分割和语义分割，同时在标准基准测试中获得与现有技术相当或更好的结果。我们还提供理论分析和可视化，以了解我们的网络。谢谢。作者衷心感谢三星GRO基金、ONR MURI N00014 - 13-1-0341基金、NSF基金IIS-1528025、GoogleFo- cused研究奖、Adobe公司的礼物和NVIDIA的硬件捐赠。准确度（%）上限形状临界点集原始形状准确度（%）准确度（%）661引用[1] I. 阿尔梅尼岛 Sener，A. R. Zamir，H. 江岛，澳-地布里拉基斯M. Fischer和S. Savarese大规模室内空间的三维语义解析。在2016年IEEE计算机视觉和模式识别国际会议上。六、七[2] M.奥布里，美国Schlickewei和D.克莱姆斯wave内核签名：形状分析的量子力学方法。在计算机视觉研讨会（ICCV研讨会），2011年IEEE国际会议上，第1626IEEE，2011年。2[3] M. M.布朗斯坦和我。Kokkinos用于非刚性形状识别的尺度不变热核特征。在计算机视觉和模式识别（CVPR）， 2010年IEEE会议上，第1704-1711页。IEEE，2010。2[4] J. Bruna，W. Zaremba、A. Szlam和Y.乐存。图上的谱网络和局部连通网络。arXiv预印本arXiv：1312.6203，2013。2[5] D.- Y.陈锡铭P. Tian，Y.- T. Shen和M.欧英基于视觉相似性的三维模型检索研究。在计算机图形论坛，第22卷，第223-232页。Wiley Online Library，2003. 2[6] Y. Fang，J.Xie，G.戴，M.Wang，F.Zhu，T.xu和E. 黄。3D深度形状描述符。在IEEE计算机视觉和模式识别会议论文集，第2319-2328页，2015年。2[7] M. 格施万特纳河 Kwitt，A. Uhl和W. 普雷 BlenSor：Blender Sensor Simulation Toolbox Advances in VisualComputing 。第 6939 卷的 Lecture Notes in ComputerScience ，第 20 章，第 199-208 页。 Springer Berlin/Heidelberg，Berlin，Heidelberg，2011. 6[8] K. Guo，L. Zou和X. 尘通过深度卷积神经网络进行3D网格标记。ACM Transactions on Graphics（TOG），35（1）：3，2015. 2[9] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。在NIPS 2015。4[10] A. E. Johnson和M.赫伯特在杂乱的3d场景中使用自旋图像进行有效的物体识别 IEEE Transactions on patternanalysis and machine intelligence，21（5）：433 2[11] M. Kazhdan，T. Funkhouser和S.鲁辛凯维奇三维形状描述器的旋转不变球谐表示。在2003年关于几何处理的研讨会，第6卷，第156-164页中。5[12] Y. Li，S. Pirk，H.苏C. R. Qi和L.吉巴斯Fpnn：用于3d数据的现场探测神经网络。 arXiv 预印本 arXiv ：1605.06240，2016年。2[13] H. Ling和D. W.雅各布斯使用内部距离的形状分类。IEEEtransactionsonpatternanalysisandmachineintelligence，29（2）：286-299，2007。2[14] J. Masci，D. Boscaini，M. Bronstein和P.范德海恩斯黎曼流形上的测地线卷积神经网络在IEEE计算机视觉研讨会国际会议论文集，第37-45页2[15] D. Maturana和S.谢勒Voxnet：用于实时对象识别的3D卷积神经网络在IEEE/RSJ智能机器人与系统2015年9月。二、五[16] C. R. Qi，H.苏，M。尼斯纳A.戴，M.Yan和L.Guibas用于三维数据对象分类的体积和多视图cnn。在Proc.Computer Vision and Pattern Recognition （ CVPR ），IEEE，2016。二、五、八[17] R. B. Rusu，N. Blodow和M.比兹快速点特征直方图三维配准。机器人与自动化，2009年。ICRA'09。 IEEE国际会议，第3212-3217页。IEEE，2009年。2[18] R. B. Rusu，N. Blodow，Z. C. Marton和M.比兹使用持久特征直方图对齐点云视图。2008年IEEE/RSJ智能机器人与系统国际会议，第3384-3391页。IEEE，2008年。2[19] M. Savva，F.Yu，H.苏，M。奥诺湾Chen，中国粘蝇D.科恩-奥尔，W. Deng， H. Su，S. Bai，X. Shrec16跟踪从shapenet核心55的大规模3D形状检索。2[20] H. Su，S. Maji、E. Kalogerakis和E. G.学习米勒。用于三维形状识别的多视图卷积神经网络。InProc. ICCV，to appear，2015. 二五六八[21] J.孙先生Ovsjanikov和L. Guibas基于热扩散的简明可证信息多尺度签名。计算机图形论坛，第28卷，第1383-1392页。Wiley Online Library，2009. 2[22] O. Vinyals，S. Bengio和M. 库德鲁订购材料：序列到集合的序列。arXiv预印本arXiv：1511.06391，2015。二四七[23] D. Z.王和我。波斯纳在线点云目标检测中的投票。Proceedings of the Robotics ： Science and Systems ，Rome，Italy，1317，2015. 2[24] Z.武河，巴西-地Shou，Y. Wang和X.刘某通过标签传播的交互式形状共分割。计算机图形，38：248- 254，2014。6[25] Z. Wu ， S.Song ，中国黑杨 A.Khosla ， F. 于湖，加 - 地Zhang，X.唐和J.肖。3d shapenets：体积形状的深度表示。在IEEE计算机视觉和模式识别会议论文集，第1912-1920页二、五[26] L. Yi，V.G. Kim，D.锡兰岛C.沈，M。Yan，H. 苏C. 卢角，加-地Huang，黄背天蛾A.Sheffer和L.Guibas 三维形状集合中区域标注的可扩展SIGGRAPH Asia，2016.6

下载后可阅读完整内容，剩余1页未读，立即下载