没有合适的资源?快使用搜索试试~ 我知道了~
球面分形卷积神经网络用于点云识别
robotics, where the viewpoints, density and other attributesof points may vary a lot in different scenarios. Therefore,point cloud processing algorithms should be resistant to ro-tations, perturbations, density variability and other noisecoming from sensor and environment. Although several ef-forts have been devoted to learn robust feature from non-uniform density [18] and 3D rotations [6], the robustnessof point cloud processing algorithm is still far from perfect.Existing algorithms usually fail to balance performance androbustness, where models with strong representation capa-bility [16, 18] cannot generalize well to unseen rotationsand rotation equivariant algorithms [6, 5] show relativelyinferior performance.Deep convolutional neural networks [12, 20, 9] haveled to a series of breakthroughs for image recognition andshown strong representation power and generalization ca-4520球面分形卷积神经网络用于点云识别0饶永明,陆继文,周杰清华大学自动化系,中国智能技术与系统国家重点实验室,中国北京国家信息科学与技术研究中心,中国0raoyongming95@gmail.com; {lujiwen, jzhou}@tsinghua.edu.cn0摘要0我们提出了一种基于球面对称性的通用、灵活和三维旋转不变的点云识别框架。通过引入正二十面体格点及其分形来近似和离散化球面,可以轻松实现卷积来处理3D点。基于分形结构,提出了一种分层特征学习框架和自适应球面投影模块,以端到端的方式学习深度特征。我们的框架不仅继承了卷积神经网络在图像识别中的强大表示能力和泛化能力,还将CNN扩展到学习对旋转和扰动具有鲁棒性的特征。所提出的模型既有效又稳健。全面的实验研究表明,与最先进的技术相比,我们的方法在3D对象分类和部分分割任务上可以取得竞争性的性能,同时,在旋转的3D对象分类和检索任务上,与其他旋转不变模型相比,性能优势明显。01. 引言0点云处理的深度学习方法[16,0最近,基于3D体素或图像集合(即视图)的3D对象推理技术[18,22,6]引起了广泛关注。与直接处理3D点相比,直接处理3D点云更具挑战性。点云处理的固有困难来自其不规则格式,这使得捕捉3D对象的局部结构成本高昂。为了解决这个问题,先前的工作[18]利用局部点集来通过动态查询每个位置的最近点来近似局部结构,这在训练和推断过程中引入了相当大的计算成本,并且需要精心设计的模块来处理不同区域的非均匀密度。点云通常是使用3D扫描仪获得的,用于自动驾驶和机器人等实际应用中,点的视点、密度和其他属性在不同场景中可能有很大的变化。因此,点云处理算法应该对来自传感器和环境的旋转、扰动、密度变化和其他噪声具有抵抗能力。尽管已经有一些工作致力于从非均匀密度[18]和3D旋转[6]中学习鲁棒特征,但点云处理算法的鲁棒性仍然远未达到完美。现有的算法通常无法在性能和鲁棒性之间取得平衡,具有强大表示能力的模型[16,18]无法很好地推广到未见过的旋转,而旋转等变算法[6,5]的性能相对较差。深度卷积神经网络[12,20,9]为图像识别带来了一系列突破,并展示了强大的表示能力和泛化能力。0图1.对未见过的旋转的泛化能力与ModelNet40的准确性。虽然先前的点云深度学习算法显示出最先进的准确性,但它们在未见过的方向上的泛化能力较差。此外,当出现任意旋转时,所有其他方法的性能都会急剧下降。我们的模型在准确性和泛化能力上都表现出优越的性能。4530卷积神经网络在各种任务中具有出色的性能。其巨大成功的原因之一是CNN的分层架构,其中来自低、中和高层的特征自然地集成在一起,并且特征可以层次化地丰富。由于图像的规则网格格式,特征图可以很容易地进行池化或上采样,这使得CNN能够使用多尺度层次结构沿着不同的感受野学习和丰富特征。卷积神经网络的先前成功也表明,保持稳定的邻域操作非常重要。稳定性有两个方面,即邻居的稳定选择和邻居的稳定性。对于卷积神经网络,图像网格作为一个良好的自然规则模式,可以很容易地与卷积核结合起来,以保证不变的邻域。由于点数据中不存在这种属性,因为不同的点云通常以不同的拓扑结构组织,我们不能始终同时保持稳定的选择(例如,k个最近点)和邻居的稳定性(例如,半径r内的点),因为密度不均匀。为了解决这些挑战,我们在这项工作中提出了一种用于点云识别的替代框架,名为球面分形卷积神经网络(SFCNN),以有效且稳健地学习深度点云特征。与直接从原始点集或其抽象中学习特征的现有方法不同,我们引入了一个由正二十面体格点和其分形组成的新结构,以近似和离散化连续球面。更具体地说,我们设计了一个可训练的神经网络,将原始点自适应地投影到分形结构上,这有助于我们的模型抵抗旋转和扰动,同时最大程度地保留输入3D形状的细节。卷积、池化和上采样操作可以在这些格点上轻松定义和实现。基于分形结构,我们提出了从基于CNN的图像识别中采用的网络结构,以提高点云识别的表示能力和泛化能力。由于局部操作的稳定性和球面对称性,我们的模型在鲁棒性和有效性方面超过了大多数先前的算法,如图1所示。对ModelNet40分类[27]、ShapeNet部分分割[29]和SHREC'17扰动检索[19]进行的全面实验研究表明,我们的方法在3D对象分类和部分分割任务上可以与最先进的技术相媲美,同时,在旋转的3D对象分类和检索任务上,与其他旋转不变模型相比,性能大幅优越。02. 相关工作0在3D物体识别方面取得了巨大的发展。3D物体可以用各种格式表示,这导致了不同的学习方法。这些方法可以分为三类:基于视图的方法、基于体素的方法和基于点的方法。基于视图的技术[23]将一组2D视图作为3D形状推理的输入,其中可以直接采用用于图像处理的CNN。通常,对于每个视图独立地应用共享的CNN进行单视图识别,然后在推理过程中将来自不同视图的特征聚合到单个表示中。体素方法[27,14,17]在体素化的形状上应用3D卷积神经网络,这在稀疏的3D网格带来了计算瓶颈,因此只能建立相对较浅的网络和低输入分辨率。点云方法首先由Qi等人[16]提出,直接使用点云进行推理,从而显著加速3D形状推理。最近关于基于点的方法的研究[18,22]表明,在3D物体识别方面,与更低的计算成本相比,性能相当甚至更好,并且证明了这组方法的有效性和效率。然而,基于点的方法的鲁棒性在最近的研究中很少被探索。0不规则数据上的特征学习:Qi等人[16]在不规则数据上开创了一种新型的深度学习方法,通过利用3D坐标上的对称函数实现了输入顺序不变的特征学习。这项工作通过从每个点单独学习的特征进行聚合来探索点云上的特征学习。局部信息在特征学习中很重要,这已经通过CNN架构的成功得到证明。后续的工作PointNet++[18]通过利用点之间的局部结构改进了原始方法,这是通过为每个点密集查询和融合相邻点来实现的。Su等人[22]以不同的方式捕捉局部结构,其中原始点被映射到高维格子中,因此可以使用双边卷积层处理点云。与他们的方法类似,本文中也引入了格子结构来提高点处理的效率和稳定性,但我们的方法进一步利用了球形格子结构,并且可以推广到包括分类、部分分割和检索在内的各种任务。0鲁棒特征学习:鲁棒性对于点云处理系统在实际应用中至关重要。已经有一些努力改进特征学习算法的鲁棒性。例如,Qi等人[16]采用辅助对齐网络来预测仿射变换矩阵,并将该变换应用于输入点和中间特征,使模型对仿射变换具有抗性。与引入辅助的方法不同,我们的方法通过自适应投影和分层结构来提高特征学习的鲁棒性。…4540输入0自适应投影0对称卷积0编码器网络0跳跃连接0跳跃连接0解码器网络0部分分割0全局最大池化 + + 连接 连接0MLP分类器0“椅子”0分类0图2.SFCNN的整体结构。我们提出的特征学习框架可以轻松地扩展到从点云识别到分类、检索和部分分割等各种任务。在我们的框架中,输入点被自适应地投影到离散化的球体上。然后,设计了一个分层特征学习架构来捕捉点云的局部和全局模式。来自不同层次的特征被总结起来形成输入数据的表示。由于对称投影和分层结构的好处,我们的框架既有效又稳健。0在辅助网络中,Esteves等人在球面上定义了几个SO(3)等变操作来处理3D数据,可以实现更好的不变性并很好地推广到未见过的旋转。然而,该模型受到了不完善的投影方法和在频域上定义的卷积操作的影响,与在规则网格上的空间卷积相比,显示出较差的能力。此外,球面CNN最初是为体素化形状设计的。据我们所知,这项工作是第一个研究点云处理算法旋转不变性的尝试。除了设计鲁棒的架构外,数据增强也是改善神经网络鲁棒性的常用技术。然而,这需要更高的模型容量并带来额外的计算负担。此外,之前的研究[6]还表明,像对输入数据进行任意3D旋转这样的激进数据增强会在不使用鲁棒架构时损害识别性能。我们展示了我们的模型具有足够的容量来与不同的数据增强方法结合使用,并且在应用较少的增强时比其他模型更鲁棒。03.1.预备知识0我们提出了一种受卷积神经网络图像识别启发的方法。由于点云的不规则格式,我们首先将3D点映射到由分形化的正二十面体格点形成的离散化球面上。然后定义了具有多尺度层次结构的卷积神经网络。我们的模型可以很容易地扩展到点云识别任务,如分类和部分分割。03.方法03.1.准备知识0我们的SFCNN的整体框架如图2所示,其中一个多层感知器分类器可以添加到来自不同层次的特征上进行分类,而受到图像语义分割类似架构的启发,我们设计了一个编码器-解码器网络来进行部分分割。���������������Consider a rotation R that is applied on the input pointcloud. We can donate the rotated point p as p′ = v′ + δv′,where v′ is a new vertex which p′ is assigned to. Sinceonly the nearest k points are assigned to the correspondingvertex, we can assume ||v|| >> ||δv||. In order to makeprojection module resistant to rotation, we propose a newcoordinate pv, named aligned spherical coordinate, to re-place p as a more robust representation. pv can be obtainedby applying a rotation matrix Rv derived from Rodrigues’rotation formula:pv = RvpT , Rv = 2(v + u)T (v + u)(v + u)(v + u)T − I,(2)4550图3.不同的球面离散化方法。(a)是等角采样。(b)-(f)是由提出的等面积采样方法产生的离散化球面,其分形级别从0到4不同。0我们的算法可以在保持鲁棒性的同时捕捉完整3D对象的局部结构。之前的工作[6,3]使用等角采样来离散化球体,其中细胞的面积沿着纬度变化很大。这将导致不同旋转之间的显著不一致性,因此需要更高的模型容量来学习不变特征。相反,我们使用等面积球面采样来构建我们的模型。在实践中,我们使用一个正二十面体和其分形来离散化球体,以最大程度地接近球体,因为柏拉图立体是球面多面体中最高度对称的。注意,完美对称的离散化球体是不存在的[6,25]。然而,我们的实证研究表明,通过适当的数据增强和特征学习过程可以克服这个问题。等角采样和我们的差异如图3所示。0考虑一个包含 n 个点的点云,可以表示为一组 3D 点 X ={ p 1 , p 2 , ..., p n } ,其中每个点 p i 包含 3D 坐标 p i= ( x i , y i , z i )。在更一般的情况下,点可以带有表示表面法线、外观信息等的附加特征。我们的方法将 X 投影到球形格点 L = ( V,E ) 上的一组 N 个特征 { F i | F i ∈ R n , i = 1 , ..., N },其中 L 可以被看作是一个无向图,包含 N 个顶点 V ={ v i | i = 1 , ..., N } 以及一组相应的边 E ,每个特征 F i与一个唯一的顶点 v i 相关联。与之前的工作[6,25]通过手工规则投影点不同,我们引入了类似于PointNet的参数化投影模块,以最大程度地保留输入点云的细节和结构。在实践中,我们0考虑应用于输入点云的旋转 R 。我们可以将旋转后的点 p表示为 p ′ = v ′ + δ v ′ ,其中 v ′ 是一个新的顶点,将p ′ 分配给它。由于只有最近的 k个点被分配给相应的顶点,我们可以假设 || v || >> || δ v||。为了使投影模块对旋转具有抵抗力,我们提出了一种新的坐标 p v ,称为对齐的球面坐标,以取代 p作为更鲁棒的表示。 p v可以通过应用从罗德里格斯旋转公式导出的旋转矩阵 R v获得:0对齐的球面坐标:由于输入点被分配给了格点上的顶点,我们可以将点坐标 p 表示为顶点坐标 v 和偏移向量 δ v的和: p = v + δ v 。 (1)0其中 u是一个对所有顶点和点共享的单位向量(我们在实现中使用u = (0 , 0 , 1) ), I 是单位矩阵, R v是一个旋转矩阵,可以将向量从 v 旋转到 u。这个变换将所有被分配给 v 的点对齐到 v的局部坐标系。直观地说,因为所有的点都被旋转到 u,所以 p v 和 p ′ v 之间的差异只取决于 p的局部结构,因此当 p 被分配给不同的 v 时, p v是鲁棒的。由于自由度没有严格限制,变换后的点 p v不是完全旋转不变的,但是通过使用我们提出的坐标系,我们可以显著减少在点上应用旋转时输入坐标的变化。同时,每个 k个点的局部结构可以完全保留。实际上,偏移向量的变化可以被视为对输入点云的小随机偏移,这在之前的基于点的算法中被用作数据增强方法以避免过拟合[16,18]。因此,我们的方法4560N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0N/A0图4. 构建块的详细结构。 (a)是球形特征学习的基本块。基本块可以用于执行对称卷积、特征池化和上采样。(b)是从[9]中采用的残差块,以实现更深的特征学习。0在应用中可以实现对3D旋转非常强大的鲁棒性。0可逆性约束:在我们的实践中,球形投影模块与后续的CNN模型联合进行端到端训练,这极大地增加了优化的难度。因此,我们提出了一种与最终目标结合的正则化方法。具体来说,我们约束投影是可逆的:0L inv = d CH (X, i f (F i)), (3)0/0F l +1 i = Conv(max j(Conv(concat(F l i, F l j)))), (4)0其中 d CH 是Chamfer距离,f是将晶格上的特征映射到多个3D点的多层感知机。通过添加这个约束,训练过程可以更稳定,模型可以获得更好的泛化能力和性能。03.3. 球形晶格上的卷积0卷积操作可以在规则球形晶格上轻松实现。与2DCNN中的卷积类似,球形晶格上的卷积在局部区域操作。对于球形晶格上的每个顶点 v i ,卷积操作以 v i 及其相邻顶点{ v j | d L ( v i , v j ) = 1 } 作为输入,其中 d L 是在晶格 L上定义的图距离度量。与图像上的卷积不同,我们无法定义相邻顶点 { v j | d L ( v i , v j ) = 1 }的一致顺序。受图卷积神经网络[15]和[16]提出的对称函数的启发,我们通过计算实现对称卷积:0F l +1 i = Conv(max j (Conv(concat(F l i, F l j)))), (4)0其中 F l i 表示第 l 层在 v i 处的特征,Conv表示卷积操作,卷积核大小为1,将相邻顶点的特征与 v i的特征沿通道维度连接起来,以融合空间信息并保持对称性,然后在 v i的所有相邻顶点上执行通道最大池化。我们的卷积块的详细结构如图4所示,每个块由两个常见的卷积-批归一化[10]-ReLU结构组成,我们还采用了图像识别中的残差学习[9]的思想,以实现更深的网络。03.4. 球形分形结构0给定一组不同分形级别的球形晶格 { L i } ,其中 L 0表示正二十面体晶格,M是模型的最高分形级别,输入点被投影到该级别,我们可以基于上述提出的卷积操作自然地定义一个基于层次特征学习的框架。注意,所提出的卷积操作可以直接用于同一分形层次中的特征学习,并在来自较高分形级别的特征上执行具有6个相邻顶点数量的池化操作。对于来自较低分形级别的特征上采样,我们采样2个相邻顶点,并将这两个顶点的均值作为新特征,如果当前顶点不存在于上一个晶格中,则只复制当前顶点。由于球形晶格的不完美对称性,原始正二十面体晶格的顶点只有5个满足 d G = 1的邻居。在实践中,我们不使用球形分形结构中的 L 0来提高跨层次一致性。实际上,所提出的对称卷积对于相邻顶点数量是鲁棒的,因此晶格中的缺陷不会对性能造成显著影响。SFCNN用于点云分类和检索的网络架构总结如表1所示。对于部分分割任务,我们使用编码器-解码器网络来预测每个点的标签。对于每个点,我们将3D坐标与不同分形级别的最近顶点的特征连接起来,形成每个点的最终特征。03.5. 实现0我们的所有模型都可以在单个GTX 1080tiGPU上进行训练。我们的模型使用Adam[11]优化器进行训练,基本学习率为0.001,每20个epoch衰减学习率0.8倍。分类和检索任务的模型训练250个epoch,部分分割的模型训练400个epoch。我们将小批量大小固定为32用于分类和检索任务,16用于部分分割任务,并将权重衰减设置为1e-5。在所有实验中,我们随机采样点数从512到1536,使我们的模型对不同密度的点云具有鲁棒性。我们随机丢弃[21]4570表1.SFCNN用于分类和检索的架构。每个块的通道数显示在括号中。下采样在第2阶段、第3阶段和第4阶段的第一个块中进行。Ni表示第i个分形级别中的顶点数。我们在MLP投影模块的末尾添加了一个maxpool层,以总结每个顶点的采样k个相邻点。在投影模块的最后一个全连接层之前使用了一个Non-Local[26]层,以更好地捕捉局部结构。C是分类任务中的类别数,K是通道宽度。0阶段名称输出大小架构0投影N 4 × 16 K MLP(8 K,8 K,16 K)0阶段1 N 4 × 16 K016 K16 K0× B0阶段2 N 3 × 32 K032 k32 k0× B0阶段3 N 2 × 64 K064 K64 K0× B0阶段4 N 1 × 128 K0128 K128 K0× 20分类器C MLP(512,128,C)0特征后跟分类器,分类/部分分割任务的概率为0.8/0.5,以避免过拟合。我们在所有任务中使用1024个点进行测试,并使用投票技巧来提高性能。04. 实验0我们在三个不同的基准数据集上进行了实验,包括ModelNet40分类[27],SHREC'17扰动检索[19]和ShapeNet部分分割[29]。以下描述了实验、结果和分析的细节。04.1. ModelNet 3D形状分类0在本节中,我们在ModelNet40数据集的分类任务上评估了我们的模型,并将我们的方法与最先进的3D形状识别技术进行了比较。我们还通过旋转数据和对抗攻击生成的扰动来评估所提出方法的鲁棒性。为了更好地理解所提出的方法,我们还进行了几个消融实验。主要结果:ModelNet40包含40个类别的12,311个CAD模型。我们使用标准分割[16,18],其中9,843个形状用于训练,2,468个形状用于测试。按照[6]的方法,我们使用了三种不同的设置进行评估:1)训练和测试与0方位旋转(z/z),2)使用任意旋转进行训练和测试(SO3/SO3),以及3)使用方位旋转进行训练,而在任意旋转(z/SO3)下进行测试。结果见表2。所有其他模型在z/SO3和SO3/SO3设置中都出现了明显的分类性能下降,即使是SO(3)等变方法[6](分别在SO3/SO3和z/SO3下分别为2%和12.2%)。可以观察到我们的模型具有相对较小的准确性下降,并在不同的设置下始终优于其他方法。请注意,像[28]这样的最近提出的点云方法在z/z设置上的性能略好于我们的方法。然而,这些算法主要是基于PointNet及其后继算法构建的,当点云旋转时不够稳健。0我们进一步对提出的框架进行了全面的消融实验,以检验我们模型的有效性。我们在网络架构和投影模块上进行了不同设置的测试,如表3所示。关于网络架构的消融研究:我们评估了不同通道数和层数的模型。我们可以看到,当应用更深和/或更宽的网络时,性能和对未见旋转的泛化能力一致增加。我们的模型显示出与图像卷积的CNN类似的性质,这表明SFCNN成功地继承了CNN的强泛化能力,并且在模型容量增加时具有良好的泛化能力。0关于投影模块的消融研究:我们还对球面投影模块进行了实验。实验结果表明,采样邻居点数k对我们的模型来说至关重要且敏感。当选择较大的k值时,为每个顶点采样过多的点会破坏顶点的局部性,因此该模型在z/z和z/SO3设置下的泛化能力较差。相反,当为每个顶点采样较少的点时,可能更难捕捉输入点云的局部结构,但也会提高顶点的局部性。我们发现k =16的模型在检索和部分分割等不同任务中表现出卓越的性能和泛化能力。0对抗鲁棒性:点云算法的鲁棒性也取决于模型是否对随机扰动具有抵抗力。之前对图像识别模型的鲁棒性研究表明,深度学习算法很容易被称为对抗性示例的小的最坏情况扰动所欺骗。一个自然的问题是3D识别算法是否也会被这种扰动所欺骗。毫不奇怪,通过应用一种广泛使用的对抗性攻击算法,称为FGSM [8],我们可以形成对抗性示例。4580表2.我们模型与ModelNet40数据集上最先进的方法的分类准确率(%)比较。我们报告了在z/z、SO3/SO3和z/SO3三个基准上的准确率。我们的模型在所有三个基准上都表现出优越的性能。我们的模型甚至可以很好地泛化到未见过的旋转。†表示MVCNN80x的训练数据不仅限于方位角。0方法 输入 输入大小 z/z SO3/SO3 z/SO30VoxNet [14] voxel 30 3 83.0 87.3 - SubVolSup [17] voxel 30 3 88.5 82.7 36.6 SubVolSup MO [17] voxel 30 389.5 85.0 45.5 Spherical CNN [6] projected voxel 2 × 64 2 88.9 86.9 76.70MVCNN 12x [23] view 12 × 224 2 89.5 77.6 70.1 MVCNN 80x [23] view 80 × 224 2 90.2 86.0 81.5 †0PointNet [16] xyz 2048 × 3 89.2 83.6 14.7 PointNet++ [18] xyz 1024 × 3 90.7 85.0 21.2 PointNet++ [18] xyz+ normal 5000 × 6 91.9 85.8 19.7 PointCNN [13] xyz 1024 × 3 91.7 84.7 44.50我们的 xyz 1024 × 3 91.4 90.1 84.8 我们的 xyz + normal 1024 × 6 92.3 91.0 85.30表3.在ModelNet数据集上的消融研究。所有模型都以1024个没有法线的点作为输入。我们进行了多个消融实验来检验我们模型的有效性。我们在通道宽度K、块数量B、采样邻居数量k、坐标对齐和可逆性约束等不同设置上进行了测试。我们在每个组中显示了最佳结果。0方法 z/z z/SO30基准模型(带对齐,不带可逆性)基准模型(K = 4,B= 2,k = 16)90.2 83.20架构 更宽 × 1.5 (K = 6, B = 2, k = 16) 90.5 84.4 更宽× 2 (K = 8, B = 2, k = 16) 90.8 84.7 更深 (K = 4, B =3, k = 16) 90.7 83.7 更宽和更深 (K = 8, B = 4, k = 16)91.0 85.00投影模块:k更大 k(K = 4,B = 2,k = 64)89.5 82.0k更小(K = 4,B = 2,k = 4)89.7 83.50投影模块:对齐和可逆性 w/o对齐(K = 4,B = 2,k =16)90.3 47.20w/可逆性(K = 4,B = 2,k = 16)90.8 83.70最佳模型 w/可逆性(K = 8,B = 3,k = 16)91.4 84.80通过使用梯度上升策略对点云进行扰动。在表4中,我们展示了PointNet和我们的模型都可以通过添加小的扰动来欺骗,其中扰动的最大绝对值限制为ε,即 || δ || ∞ <ε。与随机采样的扰动相比,对抗性扰动可以被视为一种更有效的工具来检验点云的鲁棒性。0Table 4.在ModelNet上对抗鲁棒性的比较。我们展示了我们的模型、PointNet和PointNet++对不同ε的白盒FGSM攻击的性能。我们的模型在对抗性攻击下更加鲁棒。0PointNet PointNet++ 我们的模型0基线 89.6 90.7 91.40FGSM ε = 0 . 002 44.7 47.5 69.4 FGSM ε = 0. 01 32.6 39.2 52.10在最坏情况下,点云算法的准确性都会显著下降,尽管PointNet和我们提出的模型都受到了较大的影响,但我们的模型更加鲁棒。04.2. SHREC'17 3D形状检索0我们还在ShapeNet Core[4]上进行了3D形状检索实验,遵循SHREC'173D形状检索竞赛的扰动协议[19]。我们的形状检索模型是在竞赛提供的训练和验证集上训练的。为了与之前的方法进行公平比较,模型遵循了[6]中的实践,其中使用了辅助的批内三元组损失和softmax分类损失。在我们的实现中,跟随分类器的特征进行了L2归一化,并用作输入点云的不变描述符。余弦相似度用于计算样本之间的距离。其他细节与[6]相同。实验结果在表5中呈现。在没有技巧的情况下,我们的方法可以大幅超越所有其他算法,包括本次竞赛的获胜者。与SHREC'17中的大多数参与方法相比,我们的方法和实现简单而高效,证明了所提方法的有效性。4590Table 5.在SHREC'17竞赛的扰动数据集上,我们将我们的模型与最先进的方法进行了3D检索性能比较。我们报告了通过标准评估指标(包括精确度、召回率、F-score、平均精度(mAP)和归一化折扣累积增益(NDCG))测量的性能。我们使用微宏平均mAP来排名性能,参考文献[19]。在没有技巧的情况下,我们的方法可以大幅超越其他方法。0微宏0方法 PN R@N F1@N mAP NDCG PN R@N F1@N mAP NDCG 分数0SHREC'17参与方法 Furuya [7] 0.814 0.683 0.706 0.656 0.754 0.607 0.539 0.503 0.476 0.560 0.566 Tatsuma [24]0.705 0.769 0.719 0.696 0.783 0.424 0.563 0.434 0.418 0.479 0.557 Zhou [2] 0.660 0.650 0.643 0.567 0.701 0.4430.508 0.437 0.406 0.513 0.4870球面CNN [6] 0.717 0.737 - 0.685 - 0.450 0.550 - 0.444 - 0.565 球面CNN [5] 0.701 0.711 - 0.676 - 0.443 0.508 -0.406 - 0.5410我们的模型 0.778 0.751 0.752 0.705 0.813 0.656 0.539 0.536 0.483 0.580 0.5940Table 6. ShapeNet PartSegmentation数据集上的部分分割结果。我们报告了所有部分类别的平均IoU,并报告了每个类别的IoU,其中我们使用'EP'和'SB'分别表示耳机和滑板。0方法 mIoU 飞机 包 杯子 汽车 椅子 EP 吉他 刀 灯笼 笔记本电脑 电动机 杯子 手枪 火箭 SB 桌子0PointNet [16] 83.7 83.4 78.7 82.5 74.9 89.6 73.0 91.5 85.9 80.8 95.3 65.2 93.0 81.2 57.9 72.8 80.6 PointNet++ [18]85.1 82.4 79.0 87.7 77.3 90.8 71.8 91.0 85.9 83.7 95.3 71.6 94.1 81.3 58.7 76.4 82.6 SyncSpecCNN [30] 84.7 81.6 81.781.9 75.2 90.2 74.9 93.0 86.1 84.7 95.6 66.7 92.7 81.6 60.6 82.9 82.1 SPLATNet3D [22] 84.6 81.9 83.9 88.6 79.5 90.173.5 91.3 84.7 84.5 96.3 69.7 95.0 81.7 59.2 70.4 81.3 SpiderCNN [28] 85.3 83.5 81.0 87.2 77.5 90.7 76.8 91.1 87.383.3 95.8 70.2 93.5 82.7 59.7 75.8 82.80我们的方法 85.4 83.0 83.4 87.0 80.2 90.1 75.9 91.1 86.2 84.2 96.7 69.5 94.8 82.5 59.9 75.1 82.904.3. ShapeNet语义部分分割0作为一个通用框架,SFCNN可以应用于各种点云处理任务。我们可以通过采用编码器-解码器网络架构将我们的框架轻松扩展到3D形状语义分割。ShapeNetPart数据集[29]是一个广泛使用的用于评估3D部分分割的基准数据集,包含来自16个类别的16,681个对象。每个对象有2-6个部分标签。我们报告了包括所有部分类别的平均IoU和每个类别的IoU在内的标准评估指标,遵循之前的工作。实验结果如表6所示。我们的模型获得了85.4的mIoU,与最先进的方法相比,表现非常有竞争力。我们的实验证明了我们的框架在不同任务中捕捉和理解局部和全局结构的强大能力。同时,我们的模型也非常高效。在相似的硬件配置上,训练PointNet++和SPLATNet3D在ShapeNet上的部分分割任务分别需要3.5天和2.5天[22],而我们的模型在单个1080ti GPU上可以在不到24小时内收敛。05. 结论0在本文中,我们提出了基于球对称性的SFCNN框架,它是一个通用、灵活且具有3D旋转不变性的点云识别框架。我们的框架展现了与图像识别的CNN类似的特性,并将CNN扩展到学习对旋转和扰动具有鲁棒性的特征。全面的实验研究证明了所提出的模型的有效性和鲁棒性。我们的方法在ModelNet40分类和ShapeNet部分分割任务上与最先进的技术相比具有竞争力的性能。同时,我们的模型在旋转的ModelNet和SHREC'17扰动形状检索任务上也表现出优越的性能。0致谢0本工作部分得到了中国国家重点研发计划(Grant2017YFA0700802)和国家自然科学基金(Grant61822603,Grant U1813218,Grant U1713214,Grant61672306和Grant 61572271)的支持。4600参考文献0[1] Vijay Badrinarayanan, Alex Kendall, 和 Roberto Cipolla.Segnet: 一种用于图像分割的深度卷积编码器-解码器架构.arXiv预印本arXiv:1511.00561, 2015. 30[2] Song Bai, Xiang Bai, Zhichao Zhou, Zhaoxiang Zhang, 和Longin Jan Latecki. Gift: 一个实时且可扩展的3D形状搜索引擎.在CVPR, 页码5023-5032, 2016. 80[3] Zhangjie Cao, Qixing Huang, 和 Ramani Karthik.通过球面投影的3D对象分类. 在3DV, 页码566-574. IEEE, 2017. 40[4] Angel X Chang, Thomas Funkhouser, Leonidas Guibas,Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese,Manolis Savva, Shuran Song, Hao Su, et al. Shapenet:一个信息丰富的3D模型库. arXiv预印本arXiv:1512.03012, 2015.70[5] Taco S Cohen, Mario Geiger, Jonas K¨ohler, 和 MaxWelling. 球面CNN. arXiv预印本arXiv:1801.10130, 2018. 1, 80[6] Carlos Esteves, Christine Allen-Blanchette, AmeeshMakadia,和Kostas Daniilidis. 使用球面CNN学习SO(3)等变表示.在ECCV, 2018年1月3月4月6月7月8日.0[7] Takahiko Furuya和Ryutarou Ohbuchi.深度聚合局部三维几何特征用于三维模型检索. 在BMVC,2016年8月.0[8] Ian J Goodfellow, Jonathon Shlens,和Christian Szegedy.解释和利用对抗性示例(2014). arXiv预印本arXiv:1412.6572.0[9] Kaiming He, Xiangyu Zhang, Shaoqing Ren,和Jian Sun.深度残差学习用于图像识别. 在CVPR, 2016年1月5月.0[10] Sergey Ioffe和Christia
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功