没有合适的资源?快使用搜索试试~ 我知道了~
11734点云分析藤原健和桥本太一LINE公司{kent.fujiwara,taiichi.hashimoto}@ linecorp.com摘要通过ELM权重的隐式表示局部嵌入形状表示我们提出了一种新的表示点云封装的底层结构的本地特性。关键的想法是嵌入一个隐含的表示-将点云,即距离场,网络.一个神经网络用于嵌入点周围的距离场的一部分。将生成的网络权重连接起来,用作相应点云实例的表示。为了实现权重之间的比较,极限学习机(ELM)作为嵌入网络。尺度和坐标变化的不变性使用我们的表示的实验结果表明,我们的建议是能够类似或更好的分类和分割性能相比,国家的最先进的基于点的方法,同时需要更少的训练时间1. 介绍非结构化点云数据的分析是计算机视觉中的中心主题之一,因为现在可以通过商业传感器轻松捕获各种对象的三维数据。点云在自动驾驶和机器人等关键领域发挥着重要作用,其中周围环境的空间信息至关重要[4,31]。点云数据也可以解释为集合,其分析已知具有各种应用[48]。与2维图像不同,3维点云通常是无序的、非结构化的,并且在任意坐标系中表示。因此,没有直接的方法将卷积神经网络应用于点云,尽管它们最近在分析2D数据方面取得了成功。目前的许多方法试图通过将点云转换为体素数据甚至渲染图像来创建规则表示。然而,在这些情况下,原始点的信息丢失,使得诸如逐点标注分配之类的任务变得显著图1:拟议的代表性。一种特定类型的神经网络,极限学习机器,负责在点云中的点周围嵌入隐式表示的局部部分。来自ELM的可训练权重β连接成单个矩阵,是对应点云实例的表示(在这种情况下:StanfordBunny)。该表示可以用于分类和分割等任务。更加困难.这一事实需要一种不同的方法来产生3D点云的表示。点云的理想表示还应该对原点位置的任意变化具有鲁棒性,用于描述点云数据的3D坐标系的比例、方向和比例传统的三维点云数据分析方法通常试图获得这样的表示,通过应用各种变换并向训练数据添加扰动来增强数据。我们提出了一种新的点云表示,封装点云周围的局部信息,并解决了诸如坐标系统的变化,缩放和置换的鲁棒性等问题。如图1,其核心思想是将一个点云实例的隐函数嵌入到多个神经网络中,神经网络的权值作为点云实例的特征。我们首先将每个点云转换成一个隐式函数,距离场。我们使用固定采样点的球体来获取每个实例的距离场我们把一个球体放在每一个11735点云中的点以获取距离场。然后将距离场嵌入到神经网络中的每个采样球中,使隐式表示对采样点排列不变性。一个网络负责表示一个采样球体内的距离场。来自所有网络的权重被连接成一个矩阵,用作相应点云实例的表示。我们通过采用特定类型的神经网络来嵌入距离字段,从而实现每个实例的网络权重之间的一致性:极限学习机(ELM)。该表示,从本地嵌入网络获得的权重组成,可以通过改变网络组件和对齐的距离字段的坐标变化和缩放不变。尺度不变性是通过在每个ELM中使用ReLU激活层来实现的,坐标不变性是通过使用采样点的规范坐标来实现的,通过将距离场与每个实例唯一的距离值分布确定的规范空间对齐来获得。该表示的主要贡献在于它提供了一种简单的方法来捕获局部细节。实验表明,我们的方法可以提供国家的最先进的准确性,在分类和分割,并对扰动,如旋转和缩放是强大的。我们的表示只需要简单的神经网络来执行这些任务,从而减少了训练时间。2. 相关工作随着深度学习技术的进步和更多的数据集[35,2]开始向公众开放,点云分析已经发展成为计算机视觉领域的一项存在利用3D信息的各种top-ics,包括形状检索[39]、对应[41]和配准 [37]。点云数据分析的方法主要集中在寻找一种可以用来训练神经网络以提取点云特征信息的表示方法。目前的方法可以分为两类:基于网格的方法[47,23,42,13,8]和点-基于方法[27,15,18,20,49]。除了这两个类之外,还尝试组合不同的表示[28],以及使用生成网络将形状嵌入到潜在空间中的方法[45,1][10,14]。基于网格的方法试图将点云转换为规则结构,以允许局部信息的卷积。基于体素的方法[47,23]将点云转换为体素数据。由于体素是有序和结构化的,卷积可以简单地通过应用3D滤波器来进行然而,这些方法的准确性在很大程度上取决于体素的分辨率。尽管最近努力使体积方法更有效[30,7,16],但已知这些方法在计算上要求更高,体素的数量。基于图像的方法[36,42,13]将点云转换为2D渲染,并使用2D卷积神经网络进行各种分析。已知基于图像的方法在形状分类任务中非常成功,因为它们利用外部预训练模型,通常使用各种2D图像数据集进行训练。然而,这些方法不能应用于诸如分割的任务,其中标签需要被分配给各个点。基于网格的表示对于坐标变化也是协变的,并且需要来自多个视点的数据。一些方法将几何数据转换为2D平面数据[34,32]。这些方法需要重力的方向,而重力的方向不一定是可用的。我们的表示不需要这样的监督,因为我们通过投影到规范姿势来实现旋转不变性。基于点的方法尝试直接使用点的坐标。PointNet [27]提出将点云数据直接输入神经网络。该方法通过在高维空间中应用对称函数来获得全局特征,避免了点置换问题这一提议导致了直接在点上操作方法的新趋势[29,20]。由于PointNet为整个点云生成全局签名,因此最近的方法提出了从点云获取局部信息的策略。各种方法引入结构,如k-d树和图,以捕获非结构化点之间的局部关系[15,43,33,44,17]。其他方法提出了新的卷积策略,以收集来自相邻点的信息[46,49,22,19,40]。也有人尝试引入各种局部签名,例如到相邻点的距离和局部表面法线之间的角度,并使用它们来表示点云[5,6,50,21]。我们的方法共享相同的哲学,将本地信息周围的点云。我们捕获每个点周围的距离场,并使用神经网络将其封装在一个固定大小的向量中。最近,有人建议在进行分析之前设计点云的非监督表示[9]。Li等[18]提出首先通过创建自组织映射并识别对每个个体唯一的一组节点来对每个点云实例进行非监督学习节点信息以及邻域信息用于训练深度神经网络。我们的方法还进行预处理,以无监督的方式学习每个实例的表示。我们设计了嵌入策略来捕获对象点周围的隐所提出的方法还旨在实现不变性的重要元素,如缩放,点排列,坐标变化。最近的方法使用神经网络来嵌入用于建模目的的形状的隐式表示[24,3]。Park等人[26]使用从一组采样点获得的距离场来训练自动解码器,自动解码器返回潜在11736固定权重可训练权重图2:隐式表示:距离场Φ。颜色越深表示距离越远。采样球体(2D中的黑色圆圈)放置在每个表面点(蓝色)上.对应于所提供的距离场的矢量潜在向量以及采样坐标用于训练深度神经网络以学习各种形状的距离场。我们建议使用神经网络的权重作为表示,而不是使用自动解码器来获得给定距离场的签名。我们的方法实现了不变性的采样点排列,以及不变性的坐标值的缩放。图3:嵌入神经网络:极限学习机。第i个点的距离场Φ嵌入ELM中。在所有点云实例的采样球体之间,m个采样点x中的x是相同每个球体中的采样点的坐标被归一化,相应的表面点p作为每个球体的中心因此,归一化球面i内的距离为φPi(x)=min。(二)p~其中p=p−pi是3. 该方法我们提出了一种新的方法,克服了困难的非结构化点云的表示。我们的方法包括两个步骤:将点云数据转换为隐式表示,距离场,以及隐式表示的网络嵌入。3.1. 隐式表征:距离场选择距离场作为表示的原因有两个第一,它实现了点置换的不变性。无论点的顺序如何,相同的点集都会产生相同的距离场。第二个原因,也是我们方法的关键,是距离是尺度协变的。当坐标值被缩放时,距离也被相同的因子缩放这对于将距离嵌入到具有尺度交换性质的神经网络中实现尺度不变性给定由n个表面点p∈R3组成的点云P,在周围空间x∈ X中的采样点处的距离函数φ被定义为:φ(x)= min x− px。(一)p∈P在实践中,我们在点云P中的每个表面点的顶部准备我们称之为采样球体的东西,如图2所示采样球体由分布在球体内的m个采样点x组成。在该方法中,以第i个点pi为中心的曲面点。距离场, 照这样, 与坐标变化当采样球体和目标形状旋转时,采样点的坐标发生变化,但球体内部的距离场保持不变。我们定义每个采样球体的半径相对于封装整个点云的球体的半径如果底层形状是局部的或开放的,我们将采样球体的半径定义为从每个点到其第k个最近点的平均距离,假设所有点云中的点密度是均匀的。3.2. 隐式表示然后将来自每个采样球体的距离场嵌入到神经网络中,使得其权重捕获每个采样球体内的距离的特征对于每个表面点p,我们训练一个神经网络来捕捉它周围距离场的特征。常规神经网络具有多种权重组合的可能性,因为输入到隐藏层权重W和对应的隐藏到输出层权重β在训练期间被同时优化。为了实现神经网络权重之间的比较,它们必须嵌入在相同的度量空间中。因此,我们采用了一种特定类型的神经网络,即极限学习机(ELM)[12]。在这种方法中,我们采用了一个简单的3层ELM。ELM是一种前馈神经网络,其输入到11737常用计算:1独特的计算:每个球体1个图4:高效的嵌入策略。由于采样球体中的点相对于中心被归一化,因此伪逆H<$=f(WX)<$只需要计算一次。该矩阵乘以从每个点周围的采样球体获得的距离值,为我们提供了每个采样球体的唯一权重β,而无需重复计算伪逆。隐藏层的权重是固定的W,如图所示3.第三章。ELM的输入是以表面点为中心的每个采样球体中的采样点X∈Rm×3我们训练ELM返回ΦPi(X),即从采样到点到点云P中最近的点。 目标-ELM的功能是图5:坐标不变表示。 原始示出了可以被认为是距离场的0级集合的点。尽管随机旋转原始模型,我们的方法对齐距离场。βf(WX+b),它是向量f(WX+ b)和可训练权重β之间的内积。 固定W等价于将欧几里得度量引入β的度量空间。在不定义内积的情况下,从ELM获得的可训练权重β不能容易地进行比较。第二个目的是效率。 我们可以利用采样球的结构,利用所有球中的采样点是相同的和归一化的事实,使训练过程显着有效。通常,可训练权重β的计算需要伪逆H†=(cI+HH)−1H为β=Φ(X)−βf(WX+b)2,(3)计算的次数与采样次数相同iβiPii球体;球体 但是,如前所述,我们使用其中βi∈Rk是网络权值,f是非线性激活函数,W∈Rk×3是随机权值,b∈Rk是随机偏差。为了获得权重β,使得网络输出与目标ΦPi(X)匹配,我们只 需 要 求 解 H=f ( WX+b ) 的 伪 逆 , 以 获 得βi=H<$ΦP(X),或者更稳健地,获得β=(cI+HH)−1HΦP(X),(4)相同的归一化采样点集来捕获每个球体内的局部距离场因此,我们可以定义H=f(WX+b)对于所有采样点都相同。这意味着在整个数据集中仅需要计算一次伪逆Ht,如图4所示。为了同时获得所有采样球体的权重β,我们将采样球体获得的所有距离场连接到单个矩阵中,使得我我β=(cI+HH)−1HΦP(X),(5)其中,c是添加到哈哈哈。为了反映尺度,我们将c设置为采样点X的方差。根据定义,我们能够获得唯一解β,而不管X的排列如何。我们将所有ELM的W固定到一个公共的正交化随机矩阵,如在先前的工作[12]中所提出的权重β由距离场值确定。我们将利用ELM的这一特性为每个采样球体提供一组唯一的权重β3.2.1固定W我们在固定输入到隐藏层的权重W之后有两个目的。第一个可以从ELM的公式中观察到ELM通过计算获得输出值其中ΦP(X)∈Rm×n和β∈Rk×n是矩阵,其第i列分别包含到第i个采样球的距离和由此产生的ELM权重。3.3. 实现坐标和比例不变性我们可以将ELM权重β设计为对坐标值和尺度不变。通过修改嵌入ELM的输入,并通过为ELM选择特定的激活层来实现不变性。3.3.1坐标不变性:典范投影我们将距离场投影到一个四维正则空间上,以实现旋转不变性。我们引入一个117381 2mF图6:建议的表示的网络架构包含局部距离场信息的ELM权重该特征被馈送到后续网络中以进行分析。在分割任务中,我们将全局特征与对应于每个点的原始ELM权重连接起来。采样矩阵X=Σx,x,· · ·,x ∈Rm×3以及对应的采样距离向量ΦP(X)=3.3.2尺度不变性:ReLU激活函数我们通过利用Σ Σ⊤φ(x),φ(x),· · ·,φ(x)∈Rm且级联1 2米宽矩阵M=X ΦP(X)。然后,我们对M应用奇异值分解(SVD),以获得M =USV(六)由于SVD的结果可能包含符号模糊性,我们建议使用所有可能的符号排列来转换数据。给定一个输入数据,我们准备一个向量c由1和-1组成。我们将符号应用于V,V<$=VC,(7)其中C是以c为元素的对角矩阵可以看出,通过修改eq.6至M<$=MV<$,V<$为将数据矩阵投影到4维标准空间。投影允许基于距离场的变化将距离场与4D空间中的唯一姿势对齐,如图1B中所示。第五章论证了应用V′的效果。我们将在实验中证明对表面点密度的修正线性单元(ReLU)的尺度交换性质[25]。我们采用它作为ELM的激活函数f,并从方程中去除偏置项。(三)、修改后的嵌入ELM现在表示为β=βΦP(X)−βf(WX<$b)<$2,(8)其中X<$b∈Rm×(4+ 1)是带有附加列的X <$。额外的一列是由X <$中所有值的标准偏差缩放的偏差。 在这个过程中,我们已经删除了偏置项,并将其插入到输入矩阵中。为了证明尺度不变性,我们考虑将尺度因子s应用于输入X¯b的情况。由于距离的性质,输出ΦP(X)也被缩放因此,eq.(8)被修改为sΦP(X)<$β<$<$f(WsX<$b).(9)由于ReLU允许通过正值,因此缩放因子s可以移动到激活功能之外:在规范空间中的表示现在是不变性的旋转到模糊的符号V。我们决心sΦP(X)nβnβf(WX<$b).(十)通过从可能的符号排列中准备所有的变化来消除这种模糊性。ELM的输入是X<$=X V<$X,即4 D规范空间中采样点的坐标。 V<$X∈R3×4是V <$的前三个方向。ELM被训练以返回对应于距离向量ΦP(X)的距离向量Φ P(X)。到采样点。距离向量从输入中删除,以避免琐碎的解决方案。为了有效地求解V<$X,我们在整个点云实例周围放置一个全局球体。的距离values within the sphere is used to align each instance to aunique pose.全局球体仅用于对齐全局距离场。对准后,将采样球放置在表面点上以获得局部距离场。神经内隐嵌入榆树距离场权分割片段分数...n × c分类类分数...C1 × 1024特征学习...全局特征共享FC共享FCn × k共享FC共享FCFCFC最大池化11739比例因子s相互抵消,使网络权重β保持不变。这使得我们的修改版本的ELM是不变的点云的缩放。ReLU的变体,如LeakyReLU,也保留了这种特性,可以用作激活函数。4. 实验我们的方法是用Keras实现的,所有的计算都是在Intel(R)Xeon(R)Silver 4114 CPU@2.20GHz计算机上执行的,我们利用图形卡来加速距离计算中涉及的矩阵的乘法。我们11740使用了类似于PointNet [27]的网络配置,如图6所示。特征学习网络包含4个共享分类准确度(%)方法预训练数据MN 10 MN 40全连接层(1024个节点)。批次归一化MV [36]-90.1和ReLU在每层之后应用。批量大小为16。多姆[42]-93.8VIP [11]是的Img92.04.1. 分类精度[13]第十三话我们首先使用所提出的表示分类[47]第四十七话83.5 77.0基准数据集ModelNet10/40[47]。为了与其他方法进行公平的比较,我们首先将通过将数据集中的CAD模型设置为零均值,Auth. [34] 88.4 83.9Kdtree [15] 94.0 91.8PNet++-91.9将模型封装在一个单位球体中,然后统一,[第18话]无Pt+N95.793.4在模型表面上进行正式采样,如先前工作[27]。对2048个表面点进行采样。重力的方向在这个数据集中是已知的。为了与其他方法进行比较,我们还使用原始点云数据之前,提出的投影距离场的计算。我们准备了2048个采样球体,相当于表面点的数量,每个球体训练一个ELM来参数化数据集中的每个实例,并将训练和测试集中的所有数据转换为ELM权重。这些被用作代表每个个体形状的特征。如[38]所述,固定随机权重被正交化,以改善回归结果。具有3个隐藏层(512,256,128个节点)的MLP,具有dropout(0。4保持率)作为分类网络。表1显示了Model-Net10和ModelNet40数据集的分类精度我们将我们的结果与一些最先进的方法进行了比较。表的上半部分显示了依赖于点云网格化数据渲染的方法的结果。这些方法通常使用外部数据集进行预训练。因此,这些方法的结果不能与基于点的方法直接一致。表的下半部分显示了基于点的方法。我们的表 示 在 ModelNet10 上 取 得 了 最 好 的 结 果 , 在ModelNet40上取得了第二好的结果。使用m=1024个采样点,嵌入尺寸为k=256的ELM,以及半径为0的采样球体,获得了最佳结果。3 .第三章。与其他方法类似,将归一化和点坐标信息连接起来,改进了使用我们表示的分类结果,但失去了尺度不变性,因为点坐标随尺度变化,而我们的表示不随尺度变化。使用到k-最近邻的平均距离(k=256)作为采样球半径实现了类似的结果:九十六。2%,93。ModelNet10和40分别为2%。有趣的是,在我们的表示中添加噪声,一种常见的数据增强做法,导致了较低的准确性。这是因为使用ELM的嵌入已经包含了一些误差幅度,这基本上等同于1.该方法在测试阶段采用各种变换进行表决。其他方法没有明确进行此操作,因此,排除了使用此投票方案所获得的结果。[20] 1000万美元PConv [46]-92.5KPConv [40]-92.9RSCNN [21]1-92.9[49]第四十九话我们的无重量95.7 92.2我们的无W+Pt+N96. 7 93. 2表1:ModelNet10和40上的结果比较。我们的方法比大多数最先进的方法都要好,每个实例只有一个表示。这导致直接向原始点云数据添加噪声4.2. 与嵌入有关的元素的影响为了观察每个元素对结果表示的描述性的影响,我们改变ELM权重W的维度k、采样球体的半径以及每个球体内的采样点的数量m在每个实验中,我们固定了两个元素,并改变了第三个元素,以查看分类准确率的变化图7是观察ModelNet10和ModelNet40数据集的每个元素的影响的实验结果。图中使用了每个组合的10次评估的平均值和标准差。从结果中可以看出,当所有元素设置得太低时,分类精度较低,这是预期的。然而,当元素被设置为更高的值时,在显示出精确度的轻微回归之前,精确度达到峰值。在嵌入中涉及更多的信息,并且具有少量节点的ELM不能完全封装周围距离场呈现的细节。我们还注意到,从理论上讲,将所有元素设置为更大的值将导致每个表面点周围的更精细的表示,从而提高分类精度。但是,数据的大小将呈指数级增长,需要大量的内存使用。在这个实验中,我们为每个元素设置了上限阈值,以保持所提出的表示紧凑。虽然大多数点分类方法依赖于深度117411009896949290888664 128 256512ModelNet 10 ModelNet 40(a) k的维数100989694929088860.1 0.2 0.30.4ModelNet 10 ModelNet 40(b) 采样球10098969492908886256 512 10242048ModelNet 10 ModelNet 40(c) 采样点数量m图7:不同设置下的分类准确度(%)变化(7a)ELM权重的维度k的影响(7b)采样球半径的影响。(7c)每个球体中采样点的效果。分类准确度(%)点数(n)2048 1024 512 256模型网10 96.7 95.9 94.3 93.5模型网40 93.2 92.7 91.1 90.1表2:改变原始点云点数n后的分类精度分类准确度(%)最大角度0π π3π sc.k=256。我们使用相同的分类网络来获得结果。从表2中的结果可以看出,该方法可以相对准确地分类实例这可以归因于这样的事实,即隐式表示,距离场,是鲁棒的原始点云的密度。结果表明,我们的代表充分利用的鲁棒性。4.4.规范嵌入为了证明对坐标变化和尺度等各种因素的不变性,我们测试了所提出的方法的准确性时,测试数据进行转换和缩放。4 244这在现实生活中很常见,因为并非所有对象都是P++[29] 91.9 36.4 40.5 41.1 44.3 44.2[18]第93话.85.第八十五届世界妇女大会884.982.6818839表3:ModelNet在测试数据扰动后,神经网络结构,我们的分类网络是相对简单的,需要较短的时间进行训练。对于每个采样球体中具有512个样本点的ModelNet40数据集的分类,并且ELM权重的维数设置为k=256,所提出的方法需要大约110分钟来训练神经网络,而本文介绍的最有效的方法SO-Net大约需要1804.3.对曲面点数的鲁棒性为了观察所提出的隐式表示对点云中点的数量的鲁棒性,我们在计算距离场之前从点云中采样点的子集,并使用它来训练所提出的方法中的ELM。我们在点集中的每个点上准备了一个采样球体,每个球体包含半径为0的1024个采样点。3,并将其嵌入ELM中,直立在桌面上。我们应用随机旋转沿所有三个轴和缩放的测试数据,并观察对分类精度的为了使比较公平,我们没有对任何方法的训练数据进行数据增强。在这里,我们将我们的方法与代表性的基于点的方法PointNet++ [29]和SO-Net [18]进行了比较,基于公开的代码。我们之所以选择这些方法,是因为与其他基于点的方法相比,我们的方法和这些方法的计算效率相对较高。为了比较每个表示的方差,我们首先对测试数据进行随机旋转,以观察学习的模型是否可以用于分类旋转数据。表3显示了在对测试数据应用随机旋转并限制最大角度后,三种方法的分类准确度。数字表示10次尝试的中值。当将随机旋转应用于所有三个旋转轴时,先前的方法开始在更多旋转下表现不佳。相比之下,我们的方法,甚至在大量的旋转后,应用优于别人。这表明我们的表示在正则空间中对齐,并且仅受到旋转引起的采样噪声的轻微扰动。通过应用随机旋转来增强训练数据只能稍微改善现有方法的结果,因为存在无限的可能性。11742并集上的交集(IoU)是说空气袋帽车椅子耳朵好吧。kni。Lam.腿mot.马克杯皮斯特。岩石斯卡选项卡.第二十七条83.783.478.7 82.5 74.989.673.091.585.9 80.8 95.365.293.081.257.972.880.6[29]第二十九话85.182.479.0 87.7 77.390.871.891.085.9 83.7 95.371.694.181.358.776.482.6Kd [15]82.380.174.6 74.3 70.388.673.590.287.2 81.0 94.957.486.778.151.869.980.3SO [18]84.982.877.8 88.0 77.390.673.590.783.9 82.8 94.869.194.280.953.172.983.0我们85.284.080.4 88.0 80.290.777.591.286.4 82.6 95.570.093.984.155.675.682.1表4:使用基于PointNet架构的方法得到的ShapeNetPart分割图8:使用我们的表示法的分割结果的可视化。上一篇:Ground Truth下图:我们的结果。各种形状可以摆的姿势这一事实表明,其他基于点的方法需要更多的数据扩充来处理所有可能的旋转扰动。最后一列比较了旋转和尺度扰动后的分类精度。旋转,最大角度为π/4,缩放比例为0。5应用于所有点云坐标。其他方法的结果进一步降低,而我们的方法保持83的准确度。9%。4.5.点云分割我们还验证了所提出的表示通过分割的点云数据的基础上每点标签的连续性我们使用ShapeNetCore Part数据集进行实验。该数据集由12145个训练数据和2873个测试数据组成,由16个类和50个标记部分组成。为了公平比较,我们遵循以前的工作中指出的协议,例如PointNet++ [29]和SO-Net[18]。我们以与分类过程中相同的方式将采样球体放置在每个点的顶部。来自ELM的参数被用作对应点的局部表示。如图6,我们将局部ELM权重与从合并分割网络的第一部分的输出获得的中间全局特征相关联。我们还使用法线和原始点坐标以及连接表示,并对每个点进行分类。因子的设置,例如采样点的数量、ELM di-mension和采样球半径从分类实验中继承:1024、256和0。3所示。分割结果在图中可视化。8.我们将我们的表示结果与表4中采用基于PointNet的网络体系结构的最先进方法进行了比较。我们遵循先前的工作,并使用点交于并集(IoU)来比较结果。使用我们的表示的分割结果实现了最好的平均IoU,并在大多数类中优于最先进的方法。与SO-Net的结果相比,我们的方法在12共16个类别。 由于我们的建议可以作为一个要素以及点坐标,制图表达可以可以直接插入到更复杂的网络中[19,22]。5. 结论该建议的灵感来自于这样一种观察:如果神经网络能够学习非常复杂的函数,这些函数可以准确地区分各种类别,那么它们也应该能够学习代表一种形状的函数。结果表明,我们的建议是更具描述性,但更有效的处理比以前的方法。不进行端到端训练,只需要无监督学习来封装本地距离字段。我们的方法是有用的,实现各种不变性,表示非结构化点复杂。我们的方法源于这样一种信念,即形状应该被预处理到一个统一的参数空间中,而不是试图通过数据增强手动准备所有可能的形状变化。正如在坐标和标度扰动的实验中所证明的那样,当引力轴方向未知时,目前的许多方法都失败了。提出的进行点云分析的方法需要考虑点云的方向不可用的各种理论上,本文中给出的结果可以得到改进,因为嵌入ELM中使用的随机固定权重没有经过训练以提高后续任务(例如分类)的准确性。作为未来的工作,我们将寻求一种方法来调整固定的ELM权重。寻找有效的方法封装更详细的信息也是另一个研究方向。11743引用[1] Amir Arsalan Soltani,Haibin Huang,Jiajun Wu,TejasD Kulkarni,and Joshua B Tenenbaum.利用深度生成网络通过建模多视图深度图和轮廓来合成3d在Proceedingsof the IEEE conference on computer vision and patternrecognition,第1511-1519页[2] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。[3] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE计算机视觉和模式识别会议论文集,第5939-5948页[4] 大卫M科尔和保罗M纽曼。在户外环境中使用激光测距数据进行3d猛击。机器人与自动化,2006年。ICRA2006年。2006年IEEE国际会议论文集,第1556-1563页。IEEE,2006年。[5] Haowen Deng,Tolga Birdal,and Slobodan Ilic.Ppf折叠网:旋转不变三维局部描述子的无监督学习。在欧洲计算机视觉会议(ECCV)的会议记录中,第602-618页[6] Haowen Deng,Tolga Birdal,and Slobodan Ilic. Ppfnet:全局上下文感知局部特征,用于鲁棒的3d点匹配。在IEEE计算机视觉和模式识别集,第195[7] Martin Engelcke、Dushyant Rao、Dominic Zeng Wang、Chi Hay Tong和Ingmar Posner。Vote3deep:使用高效卷积神经网络在3D点云中进行快速对象检测2017年IEEE机器人与自动化国际会议(ICRA),第1355-1361页[8] Feng Yifan , Huxuan You , Zizhao Zhang , RongrongJi,and Yue Gao.超图神经网络在AAAI人工智能会议论文集,第33卷,第3558-3565页[9] 藤原健,佐藤郁郎,安白满,吉田雄一,坂仓义明。用于形状 分类的规范和 紧凑点云表 示。arXiv预印本arXiv:1809.04820,2018。[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672[11] Zhizhong Han , Mingyang Shang , Yuhang Liu , andMatthias Zwicker.查看帧间预测gan:通过学习全局形状存储器来支持局部视图预测的3D形状的无监督表示学习。在AAAI人工智能会议上,2019。[12] Guang-Bin Huang,Qin-Yu Zhu,and Chee-Kheong Siew.极限学习机:理论与应用神经计算,70(1):489[13] Asako Kanezaki ,Yasuyuki Matsushita,and YoshifumiNishida.旋转网:使用来自无监督视点的多视图的联合对象分类和姿态估计。在IEEE计算机视觉和模式识别会议论文集,第5010-5019页[14] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。第二届学习表征国际会议(ICLR 2014),2014年4月。[15] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞:用于三维点云模型识别的深度kd网络。在IEEE计算机视觉国际会议论文集,第863-872页[16] Sudhakar Kumawat 和 Shanmuganathan Raman 。 Lp-3dcnn:在3D卷积神经网络中揭示局部相位在IEEE计算机视觉和模式识别会议论文集,第4903-4912页[17] 桓磊、纳维德·阿赫塔尔、阿杰马勒·米安。三维点云的八叉树引导的球面核cnn。在IEEE计算机视觉和模式识别会议论文集,第9631-9640页,2019年[18] Jiaxin Li,Ben M Chen,and Gim Hee Lee. So-net:用于点云分析的自组织网络。在IEEE计算机视觉和模式识别会议论文集,第9397-9406页,2018年[19] Jinxian Liu , Bingbing Ni , Caiyuan Li , JianchengYang,and Qi Tian.层次点集学习的动态点聚集。在IEEE计算机视觉国际会议论文集,第7546-7555页[20] Xinhai Liu,Zhizhong Han,Yu-Shen Liu,and MatthiasZwicker. Point2sequence:使用基于注意力的序列来学习3D点云的形状在AAAI人工智能会议论文集,第33卷,第8778-8785页[21] Yongcheng Liu , Bin Fan , Shiming Xiang , andChunhong Pan.用于点云分析的关系-形状卷积神经网络。在IEEE计算机视觉和模式识别会议,第8895-8904页[22] Jiugeng Mao,Xiaogang Wang,and Hongsheng Li.用于三维点云理解的插值卷积网络。在IEEE计算机视觉国际会议论文集,第1578-1587页[23] Daniel Maturana和Sebastian Scherer。Voxnet:用于实时对象识别的3D卷积神经网络。在Intelligent Robots andSystems ( IROS ) , 2015IEEE/RSJInternationalConference on,第922-928页中。IEEE,2015年。[24] Lars Mescheder,Michael Oechsle,Michael Niemeyer,Se- bastian Nowozin , and Andreas Geiger.Occupancynetworks:Learning 3d reconstruction in function space.在IEEE计算机视觉和模式识别会议论文集,第4460-4470页,2019年[25] Vinod Nair和Geoffrey E Hinton。修正线性单元改进受限玻尔兹曼机。第27届机器学习国际会议(ICML- 10),第807-814页,2010年[26] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf:学习连续符号距离函数用于形状表示。在IEEE计算机视觉和模式识别会议论文集,第165-174页11744[27] Charles R Qi, Hao Su ,Kaichun Mo , and Leonidas JGuibas.Pointnet:对点集进行深度学习,用于3D分类和分割。在IEEE计算机视觉和模式识别集,第652[28] Charles R Qi,Hao Su,Matthias Nießner,Angela Dai,Mengyuan Yan,and Leonidas J Guibas.用于三维数据对象分类的体积和多视图cnn。在IEEE计算机视觉和模式识别会议的论文集,第5648-5656页[29] Charles Ruizhongtai Qi,Li Yi,Hao Su,and Leonidas JGuibas. Pointnet++:度量空间中点集的深度层次特征学习。神经信息处理系统,第5105-5114页,2017年[30] Gernot Riegler、Ali Osman Ulusoy和Andreas Geiger。Octnet:以高分辨率学习深度3D表示在IEEE计算机视觉和模式识别会议论文集,第3577-3586页[31] Radu Bogdan Rusu 、 Zoltan Csaba Marton 、 NicoBlodow、Mi-hai Dolha和Michael Beetz。面向家庭环境的基于三维点云Robotics and Au-campus Systems,56(11):927[32] 施宝光、宋白、周志超、向白。Deeppano:用于三维形状 识 别 的 深 度 全 景 表 示 。 IEEE Signal ProcessingLetters,22(12):2339[33] Martin Simonovsky和Nikos Komodakis。图上卷积神经网络中的动态边缘条件滤波器。在IEEE计算机视觉和模式识别集,第3693-3702页[34] Ayan Sinha,Jing Bai,and Karthik Ramani.使用几何图像深度学习3d形状表面在欧洲计算机视觉会议上,第223-240页[35] Shuran Song,Samuel P Lichtenberg,and Jianxiong Xiao.Sun rgb-d:一个rgb-d场景理解基准测试套件。在IEEE计算机视觉和模式识别会议论文集,第567-576页[36] Hang Su,Subhransu Maji,Evange
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功