没有合适的资源?快使用搜索试试~ 我知道了~
Modeling Local Geometric Structure of3D Point Clouds using Geo-CNNShiyi Lan1Ruichi Yu1Gang Yu2Larry S. Davis11University of Maryland, College Park2Megvii Inc (Face++)sylan@cs.umd.edu, {yrcbsg, lsd}@umiacs.umd.edu, yugang@megvii.comAbstractRecent advances in deep convolutional neural networks(CNNs) have motivated researchers to adapt CNNs to di-rectly model points in 3D point clouds.Modeling localstructure has been proven to be important for the success ofconvolutional architectures, and researchers exploited themodeling of local point sets in the feature extraction hi-erarchy. However, limited attention has been paid to ex-plicitly model the geometric structure amongst points in alocal region. To address this problem, we propose Geo-CNN, which applies a generic convolution-like operationdubbed as GeoConv to each point and its local neighbor-hood. Local geometric relationships among points are cap-tured when extracting edge features between the center andits neighboring points. We first decompose the edge fea-ture extraction process onto three orthogonal bases, andthen aggregate the extracted features based on the anglesbetween the edge vector and the bases. This encourages thenetwork to preserve the geometric structure in Euclideanspace throughout the feature extraction hierarchy. GeoConvis a generic and efficient operation that can be easily inte-grated into 3D point cloud analysis pipelines for multipleapplications. We evaluate Geo-CNN on ModelNet40 andKITTI and achieve state-of-the-art performance.1. IntroductionWith the development of popular sensors such as RGB-D cameras and LIDAR, 3D point clouds can be easilyacquired and directly processed in many computer visiontasks [64, 19, 38, 30, 55, 28, 16, 56, 8, 61].Althoughhand-crafted features on point clouds have been utilized formany years, recent breakthroughs came with the develop-ment of convolutional neural networks (CNNs) inspiringresearchers to adapt insights from 2D image analysis withCNNs to point clouds.One intuitive idea is to convert irregular point clouds intoregular 3D grids by voxelization [31, 63, 51, 5], which en-xyzpq***DecomposeAggregateEdge FeaturexyzpqFigure 1. Modeling Geometric Structure between Points via Vec-tor Decomposition. We first decompose the edge features alongthree orthogonal directions and apply direction-associated weightsto extract directional descriptions. Then we aggregate them ac-cording to the vector’s orientation to construct compact edge fea-tures between point p and q.ables CNN-like operations to be applied. However, volu-metric methods suffer from insufficient resolution, due tosparsely-occupied 3D grids and the exponentially increas-ing memory cost associated with making the grid finer. Tolearn 3D representation at high resolution, kd-tree and oc-tree based methods hierarchically partition space to exploitinput sparsity [24, 39]. But those methods focus more onsubdivision of a volume rather than local geometric struc-ture. An important architectural model that directly pro-cesses point sets is PointNet [33], which aggregates fea-tures from points using a symmetric function.To im-prove the ability to handle local feature extraction, Point-Net++ [35] aggregates features in local regions hierarchi-cally. However, these methods still ignore the geometricstructure amongst points by treating points independentlyin the global or local point sets.One recent attempt to model geometric relationshipsbetween points is EdgeConv [50], which extracts fea-tures from each point and its local k-nearest-neighborhood.EdgeConv extracts edge features between a center point andits neighboring points. The geometric structure betweentwo points p and q is represented by the vector ⃗pq. How-ever, EdgeConv only models the distance between points(which is the norm of ⃗pq) when constructing the neighbor-hood, and it ignores the direction of the vector, which leadsto loss of local geometric information. Considering that3D coordinates are given at the input level of most point19989990在点云分析流程中,人们可能合理地认为几何信息可能会从坐标中隐式地学习到。然而,当前的方法在几何建模方面可能存在以下两个挑战:首先,点之间的几何关系可能会被三维坐标的大方差所淹没,这使得直接从数据中学习变得困难;其次,当前的方法将三维坐标投影到一些高维空间,这可能无法保留原始欧几里德空间中点的几何结构,特别是当特征提取层次结构很深时。0为了解决这些问题,我们提出了一种新颖的类卷积操作GeoConv,以明确地对特征提取层次结构中的点之间的几何结构进行建模。GeoConv应用于每个点及其由半径确定的局部球形邻域。如图1所示,表示两个点之间几何结构的向量�pq可以分解为三个正交基。基于这个向量分解,我们将两个点之间的边特征投影到三个固定的正交基(图1中的�x,�y,�z)上,并应用与方向相关的权重矩阵(图1中的W�x,W�y,W�z)来提取沿每个方向的特征;然后,我们按照�pq与基之间的角度将它们按比例聚合(图1中的θ�pq,�x,θ�pq,�y,θ�pz)。通过将边特征提取过程分解为三个正交方向,我们减小了点云的绝对坐标的方差,并鼓励网络独立地学习每个基方向上的边特征;通过根据边向量与基之间的几何关系聚合特征,我们明确地对点之间的几何结构进行建模。以这种方式进行学习将复杂的几何结构学习问题分解为更简单的问题,同时仍然保留几何信息。最后,为了提取中心点的局部特征,我们根据�pq的范数对局部邻域中所有点的边特征进行加权。GeoConv的另一个优点是它能够进行特征级别的多视图增强。我们的分解-聚合方法使我们能够通过操纵角度通过重新加权特征来近似点云的旋转。0通过堆叠多个具有不断增大邻域大小的GeoConv层,我们构建了Geo-CNN,以分层方式提取具有不断增大感受野的特征。我们通过通道最大池化来聚合来自所有点的特征,以保持置换不变性。GeoConv是一个通用模块,用于对点的局部几何结构进行建模。它可以轻松集成到不同的3D点云分析流程中,例如3D形状分类、分割和物体检测。我们在ModelNet40和KITTI上评估了Geo-CNN,并取得了最先进的性能。02. 相关工作0受到最近3D传感器技术的发展的推动,人们越来越关注在3D点云上开发高效和有效的表示方法,用于形状分类、形状合成和建模、室内导航、3D物体检测等领域。一些早期的工作构建了手工设计的特征描述符,以捕捉局部几何结构和模拟形状之间的局部相似性。最近,深度神经网络被用来直接从数据中学习表示。一种直观的建模非结构化几何数据的方法是体素化,它将点云表示为一个规则的三维网格,可以很容易地应用三维卷积神经网络。然而,体积方法通常会产生在空间中稀疏占据的三维网格。与制作更细的网格相关的指数级计算成本限制了每个体积网格的分辨率,并导致量化伪影。由于其规则结构和可扩展性相对于均匀网格,一些索引技术如kd树和八叉树也被应用于模拟点云,但这些方法更多地侧重于对体积的细分,而不是对局部几何结构的建模。为了直接对每个三维点进行建模,PointNet、PointNet++及其变种通过对称函数聚合点特征来构建全局描述符。与处理单个点不同,一些最近的工作通过构建局部邻域图并在连接相邻点对的边上应用类似卷积的操作来利用局部结构。然而,与我们提出的Geo-CNN相比,上述所有方法都没有明确地对三维点的几何结构进行建模,而几何结构由两个点之间的向量的范数和方向表示。我们提出的GeoConv操作通过基于向量分解的分解和聚合方法对点的几何结构进行建模,并可以轻松集成到用于3D物体识别、分割和检测任务的不同流程中。与模拟点云的原生3D格式不同,基于视图的技术将3D对象表示为一组2D视图,这与用于图像分析任务的标准CNN兼容。为了从不同方向的3D对象中聚合信息,多视图方法被应用于汇集从不同渲染的2D视图中提取的特征,通常比使用单个视图获得更好的性能。受此启发,我们通过在特征级别近似旋转输入点云的不同方向来增强3D点的不同方向。(1)⃗b∈B⃗q100003.我们的方法0我们提出了一种通用的操作GeoConv,以显式地模拟局部区域中的几何结构。通过堆叠多层具有不断增大感受野的GeoConv,我们构建了一种基于几何诱导的卷积神经网络(Geo-CNN),以在欧几里德空间中分层地提取保留点之间几何关系的特征。然后,我们通过通道最大池化来聚合每个点的特征,以提取点云的全局特征描述符。03.1.使用Geo-CNN进行分层特征提取0以一组3D点作为输入,我们通过在每个点及其局部邻域上应用类似卷积的操作(GeoConv)来利用局部几何结构。我们通过堆叠多个具有不断增大邻域大小的GeoConv层来构建Geo-CNN。我们逐渐扩大卷积的感受野,并抽象出越来越大的局部区域,以分层地提取特征并保留点在层次结构中的几何结构(如图2(a)所示)。考虑一个具有n个点的C维点云。我们将Geo-CNN的第l层中点p的特征表示为Xl�p∈RC。通常,输入级别的3D点由它们的3D坐标和额外的特征(如外观、表面法线等)表示。对于每个点p,我们使用以该点为中心、半径为r的球构造其局部邻域。GeoConv应用于点p及其邻域中的所有点q,其中N(�p,r)={�q|∥�p-�q∥�r}。第l+1层应用的GeoConv操作的一般公式是:0Xl+1�p = s(�0�q ∈ N(�p,r)h(q,r)0= WcXl�p +0�0�q ∈ N(�p,r)d(0�q ∈ N(�p,r) d(�p,�q,r)0我们从中心点�p和表示中心点与其邻近点之间关系的边缘特征中聚合特征。Wc是用于从中心点提取特征的权重矩阵。g(�p,�q)是模拟边缘特征的函数,将在第3.2节中定义,我们根据点�p与�q之间的距离使用d(�p,�q,r)对不同邻近点的特征进行加权:0d(�p,�q,r) = (r - ∥�p - �q∥)² (2)0d(�p,�q,r)满足两个期望的性质:(1)随着∥�p-�q∥的减小而单调减少;(2)随着r的增加,即我们的操作的感受野变大,0具有相似距离到中心点p的点之间的权重函数d(∙)的差异将减小。经过几个GeoConv层后,我们应用通道最大池化来聚合每个单独点的特征,以构建点云的全局特征描述符。这个特征描述符可以输入到用于3D形状识别、分割或检测网络的分类器中。GeoConv是一个通用的运算符,可以轻松集成到当前的3D点集分析流程中,以提取局部特征并保留欧几里德空间中的几何结构。03.2. GeoConv:基于基向分解和聚合的局部几何建模0GeoConv操作最重要的部分是它对边缘特征的建模方式。一种直接的方式是应用神经网络或多层感知机(MLP)来计算每个边缘的激活。然而,由于边缘几何的大方差,这种方法很容易出现过拟合问题,边缘几何由向量�pq表示。另一方面,上述操作也可能将特征投影到某个高维空间中,其中点之间的原始欧几里德几何结构不被保留。在三维欧几里德空间中,任何向量都可以由其在三个正交基(�x,�y,�z)上的投影表示,向量在每个基上的投影范数表示该方向上的“能量”。因此,我们使用三个正交基来分解边缘特征提取的过程:我们分别应用与方向相关的权重矩阵W�b来提取每个方向上的边缘特征。然后,我们根据向量�pq在每个基上的投影来聚合与方向相关的特征,以保留几何结构。在实践中,为了区分每个基的正向和负向,我们考虑六个表示为的基:0B = {(1, 0, 0), (-1, 0, 0), (0, 1, 0), (0, -1, 0), (0,0, 1), (0, 0, -1)} (3)0如图2(c)所示,六个基向量将空间分为8个象限,特定象限中的任意向量可以由B中的三个基向量组成。给定一个相邻点q,我们首先定位它所在的象限(我们通过将p设置为原点来考虑一个相对坐标系)。然后,我们将向量pq投影到该象限的三个基向量上,并计算pq与每个基向量之间的角度(如图2(d)所示)。我们应用表示为W�b的方向相关的权重矩阵来提取沿每个方向的边缘特征,并按照以下方式聚合它们:0g(�p, �q) = �0cos2(θ�pq,�b)W�bXl�q(4)…10010y0z0q-x0-y -z0x0y0z0p0q0q2 q10q3 q40p0q0(a)0(b)(c)(d)(e)0图2.Geo诱导卷积神经网络(Geo-CNN)。我们将Geo-CNN应用于从点集中分层提取特征表示。对于每个点p,GeoConv应用于其由半径r定义的局部球形邻域。我们通过在网络的较高层(如(a)中的较大圆圈所示)增加r来扩大GeoConv的感受野。在p的局部邻域中,我们计算点p与所有相邻点q'之间的边缘特征,并使用距离测量函数d(∙)加权它们,如(b)所示。为了提取点p和q之间的边缘特征,我们首先定位点q所属的象限,在以p为原点的坐标系中,如(c)所示。然后,我们通过与该象限的三个基向量之间的角度计算点pq和三个基向量之间的边缘特征,如(d-e)所示。0其中Xl�q是第l层中点q的特征,B�q是根据点�q所在象限从B中选择的三个基向量的集合。沿每个方向的特征与cos2(θ�pq,�b)系数聚合,该系数对应于每个投影分量的范数与�pq范数之比的平方,并且它们自然地总和为1。通过使用基于基向量的分解来建模边缘几何,我们的网络学习独立提取每个方向的表示。与直接从输入3D坐标的大方差中学习相比,这降低了学习任务的复杂性。通过沿每个基向量聚合特征,我们明确地建模了每个点与其邻居之间的边缘向量的几何结构。通过使用GeoConv学习几何建模,我们在分层特征提取框架的每个级别上建模和保留了3D点云的几何结构。03.3. 使用Geo-CNN在特征级别上近似3D多视图增强0受之前的工作[45,23]的启发,通过利用具有不同虚拟相机视图的渲染2D图像来聚合3D对象的信息,我们也可以通过旋转3D点来从不同方向进行采样,然后汇总多视图表示以增强来自不同视图的信息。在3D空间中,点云的任何旋转都可以分解为绕�z的旋转0轴和由�x和�y张成的平面周围的旋转。为了简化起见,本文中的“旋转”指的是绕�z轴的旋转;我们的分析可以很容易地扩展到其他情况。在训练时,将多个3D视图合并到训练数据中的一种天真的方法是使用旋转后的点集作为数据增强,但是这种方法通常会导致我们基线模型以及其他一些工作(例如[35,33])的性能更差。一个可能的原因是当前的方法无法从多个3D视图引入的大方差中高效地学习到紧凑的模型。另一种方法是为每个3D视图训练一个特定的模型,并聚合多个网络的输出,这将大大增加模型的复杂性。我们在网络中使用GeoConv操作在特征级别上近似旋转,而不是在输入级别上进行多视图增强。这是通过在不同方向上共享边缘特征的计算,并仅更改聚合模型来完成的。具体而言,我们通过操纵GeoConv中的聚合步骤来近似多视图训练和测试:0g MV (�p, �0v ∈ V w v 0cos 2 (θ �pq v ,�b) W �b X �q (5)0其中w v 是学习的权重,用于融合多视图特征;θ �pq v ,�b是旋转边缘向量与固定基之间重新计算的角度。……1 x Creduc…1 x Creduc…4.3. Geo-CNN for 3D Object Detection100201 x Cin0W c01 x Cout01 x Cout0中心点01 x Cin0W enl01 x Cout0邻居点101 x Cin0W enl01 x Cout0邻居点q0图3.GeoConv的实现。填充的框表示具有其维度的点特征。黑色框是操作。我们采用类似瓶颈的结构,首先使用我们的分解-聚合方法提取具有较低维度的边缘特征,然后扩大维度以匹配从中心点提取的特征。我们根据公式(1)聚合每个点的边缘特征。04. 实现细节04.1. GeoConv模块0GeoConv层的输入/输出为n × C in 和n × Cout,其中n是点的数量,C in 和C out是每个点特征的输入/输出维度。对于每个点,我们构建其由超参数r定义的局部球形邻域。我们应用大小为C in × Cout的权重矩阵Wc从中心点提取特征。对于边缘特征提取,我们应用受ResNet[21]启发的瓶颈模块,首先提取具有较低维度C reduc的特征(我们将此层称为“减少层”),然后按图3所示扩大其维度。GeoConv的超参数是半径r。在实践中,我们将训练数据分为训练集和验证集,并应用交叉验证来选择每个层的半径。04.2. 用于3D形状分类的Geo-CNN0对于ModelNet40[51]的3D形状分类,我们随机从对象的3D模型中采样1,000个点。输入特征是3D坐标和表面法线(总共6个输入通道)。Geo-CNN有两个分支:(1)类似于PointNet++[35],我们从每个1,000个点中采样16个最近邻,并在每组16个点上应用三个全连接(FC)层,输出维度为64-128-384。每个点的输出大小为1 ×384。(2)对于第二个分支,我们将相同的输入点输入到一个FC层中,将它们投影到64维特征空间。然后我们应用第一个GeoConv层,其中C in = 64,C reduc = 64,C out=128。接下来是一个具有256个输出通道的FC层和一个具有C in = 256,C reduc = 64和C out =512的GeoConv层。此时,我们对从两个分支提取的特征进行通道合并,得到每个点的896维特征向量。接下来,我们0应用第三个GeoConv,其中C in = 896,C reduc = 64,Cout =768,然后是最后的FC层,输出为2048维。然后对所有点进行通道最大池化以聚合特征。我们对汇总的全局特征描述符进行形状分类。构建三个GeoConv层的局部邻域的半径分别为0.15、0.3和0.6(3D坐标在ModelNet40中进行了归一化)。在GeoConv模块的每个FC层和每个减少层之后都应用批量归一化和ReLU。0作为通用的特征提取模块,Geo-CNN可以轻松应用于基于点的3D物体检测的任何流程中。我们遵循FrustumPointNetV1流程,在分割网络中替换了一些层级为Geo-Conv层。FrustumV1的3D实例分割PointNet中有3个MLP模块[32],总共有9个FC层用于特征提取。我们直接将所有的FC层替换为GeoConv层。为了公平比较,GeoConv层的输出维度与替换的FC层完全相同。第一个MLP块中的2个层的半径为0.15-0.2;第二个块中的3个层的半径为0.3-0.4-0.4;第三个块中的4个层的半径为0.3-0.2-0.1-0.1。我们还尝试替换FrustumPointNet中的盒子估计模块中的FC层,但结果稍微差一些。一个可能的原因是,与分割相比,边界框回归更依赖于对对象的全局信息进行建模,而不是对局部点集的几何结构进行建模。0对于3D物体检测流程,我们基于对象检测流程(类似于2D对象检测方法[ 36 , 18 , 15 , 14 ])在[ 32]中生成的2D框提议构建视锥体。然后,我们使用带有GeoConv的点分割网络对每个视锥体中的对象上的点进行分类,并消除由背景点云引起的噪声。最后,我们使用与[ 32]相同的盒子估计网络来获取3D边界框的方向、大小和质心。GeoConv的实现与ModelNet相同。04.4.基准0我们的基准模型与Geo-CNN具有非常相似的架构,只有在边缘特征提取过程中有两个不同之处:首先,基准模型通过简单地对不同点的边缘特征求平均来融合这些特征,而不像GeoConv那样根据距离测量d(∙)对特征进行加权;其次,在减少层,GeoConv沿每个方向使用三个单独的权重,而基准模型则应用单个权重矩阵来提取边缘特征。PointNet[33]89.286.2PointNet++[35]91.9-DeepSets[62]90.3-ECC[43]87.483.2OctNet[39]86.583.8O-CNN[49]90.6-Kd-Net[24]91.888.5EdgeConv[50]92.290.2SO-Net[27]93.490.8SpiderCNN[53]92.4-SCN[52]90.087.6MRTNet[13]91.7-SpecGCNN[48]92.1-100305.实验0我们使用ModelNet40[ 51 ]和KITTI[ 17]数据集对GeoConv进行3D形状分类和3D物体检测的评估。在这两个数据集上的改进显示了GeoConv对建模合成和真实点云的能力。05.1.基于CAD生成的3D点云的3D形状分类05.1.1 数据集0我们首先在ModelNet40 [ 51]数据上使用从CAD生成的3D点云评估我们的模型。这里有40个物体类别的12,311个CAD模型,其中9,843个用于训练,2,468个用于测试。为了与之前的工作进行公平比较,我们使用了[ 35]中准备的ModelNet40数据集,其中每个模型由10,000个点表示。也可以从点集中采样不同大小的点云,例如1000或5000。05.1.2 与其他方法的比较0表1显示了我们的Geo-CNN与之前方法的比较。Geo-CNN在ModelNet40的对象分类任务中以两个评估指标都达到了最先进的性能。我们的基线与最先进的PointNet++[ 35]的性能相似。通过将局部点集中建模边缘特征的操作从全连接层更改为GeoConv,我们获得了1.6%的增益,这证明了我们的几何建模方法的有效性。通过在特征级别进一步近似3D多视图,我们获得了进一步的0.5%性能提升。我们通过在z轴上虚拟旋转点云从0到360度来实现多视图近似。我们均匀地近似30个视图2,遵循Eq.( 5)。我们的方法直接应用于点云,甚至优于使用多视图图像的单个网络,例如[ 34 ](92%)和[ 45 ](90.1%),并且与[ 34]中集成多个网络的方法(93.8%)性能相当。然而,我们的单一模型Geo-CNN在特征级别的近似多视图学习方面更具可扩展性和灵活性,相比使用多个网络的多视图表示。05.2.基于LIDAR点云的3D物体检测0真实点云的分布可能与生成的点云差异很大。例如,生成的数据包含来自各个方向的密集点,而01由于这两个指标非常相似,因此该数据集上的"性能"指的是"AccuracyOverall"指标。2多视图近似的性能增益对视图数量从10到40都是稳健的,变化小于±0.1。0Table 1.ModelNet40形状分类结果。我们按时间排序之前的方法。0方法整体准确率类别准确率0基线 91.8 88.2 Geo-CNN 93.4 91.1Geo-CNN+ MV-Approx. 93.9 91.60由于传感器(如LIDAR)获取的点云仅包含由于遮挡而产生的前表面上的点。此外,LIDAR点云噪声较大,包含大量背景,而生成的点云只包含纯粹的物体点。在真实数据上进行评估(如由LIDAR收集的点云)非常重要,以展示3D点云分析方法的鲁棒性和实用性。为了说明Geo-CNN在真实世界的3D点上的有效性,我们使用KITTI数据集[17]进行3D目标检测评估。05.2.1 数据集0KITTI3D目标检测基准包含7,481个训练图像/点云和7,518个测试图像/点云,涵盖三个对象类别:汽车、行人、骑自行车。对于每个类别,根据目标的大小、遮挡状态和截断级别,评估检测结果的难度分为简单、中等和困难三个级别。为了与最先进的检测方法进行公平比较,我们直接将FrustumPointNet v1[32]检测流程中的PointNet特征提取模块替换为Geo-CNN,并在实验中使用[32]发布的2D边界框提议。由于只有frustum pointnet的训练/验证提议被发布,我们使用[32,63]中描述的协议进行评估,并使用它们的训练/测试划分。05.2.2 与其他方法的比较0表5.2显示了在KITTI3D目标检测上的评估结果。我们的检测流程的实现基于Frustum PointNet v1,其中包括对象提议。10040方法 汽车 行人 骑自行车0简单 中等 困难 简单 中等 困难 简单 中等 困难0VoxelNet[63] 81.97 65.46 62.85 57.86 53.42 48.87 67.17 47.65 45.11 Frustum PointNet v1[32] 83.33 69.0061.97 67.29 56.74 49.84 71.65 53.43 49.20 Frustum PointNet v2[32] 83.42 70.40 63.37 64.30 57.33 50.4370.51 55.31 52.110基线 84.56 69.16 62.50 64.68 55.59 48.45 72.32 51.36 47.70 Frustum Geo-CNN 85.09 71.02 63.38 69.6460.50 52.88 75.64 56.25 52.540表2.3D目标检测性能比较:在KITTI验证集上的平均精度(%)。与基线相比,Geo-CNN的性能显著提高,这证明了我们的分解-聚合方法在建模局部几何方面的有效性。我们的Frustum Geo-CNN是基于Frustum PointNet v1实现的,并且优于Frustum PointNet v1和v2。0v1的性能被Frustum PointNetv2超越,后者具有更复杂的架构。然而,通过将v1中的PointNet特征提取模块替换为GeoConv,带有Geo-CNN的Frustum在性能上超过了Frustum PointNetv1和v2。对于Frustumv1和v2在验证集上的性能评估是基于[32]的发布代码进行的,并且与[32]中报告的性能非常相似。我们在图4中可视化了Frustum with Geo-CNN在2D和3D图像上的检测结果。05.3. 消融研究0我们能否通过直接从3D坐标中学习来建模局部几何?我们研究了在特征提取层次中建模点之间局部几何的不同方法。由于几何结构被编码在点的3D坐标中,一种直接从坐标中学习几何结构的简单方法是应用FC层。然而,以前的分层特征提取方法将3D坐标输入投影到网络的第一层的某个高维特征空间中,这可能导致点之间的欧几里德几何丢失。我们的基线方法将输入级别的3D坐标直接用于隐式学习几何结构。为了在整个特征提取层次中保持欧几里德几何,我们应用一个FC层来学习基线模型中每一层的点p和q的3D坐标之间的几何结构,并将提取的特征与原始特征按通道连接起来。我们将这种方法称为“基线+3D坐标”。我们还研究了在GeoConv中建模向量pq的角度的替代方法。我们不使用提议的g(∙)函数,而是直接使用一个FC层来学习这些聚合系数,其中输入是点p和q的3D坐标。我们将这种方法称为“GeoConv-学习聚合”。如表3所示,直接学习点之间的几何结构或聚合来自3D坐标的分解特征的系数并没有帮助。这表明建模局部几何是非常困难的。0整体准确率0基准模型 91.8 基准模型 + 3D坐标91.7 GeoConv - 学习聚合 91.5GeoConv 93.40表3.几何建模方法消融研究。我们使用ModelNet40数据集研究了不同的建模局部几何的方法。"基准模型 +3D坐标"直接学习每层网络中两个点的几何结构;"GeoConv -学习聚合"通过学习的权重聚合与方向相关的特征。0GeoConv有效地捕捉点之间的几何结构,以改进特征提取框架。0GeoConv的性能提升是否来自于增加模型复杂性?通过将边缘特征提取过程分解为三个方向,使用单独的神经网络,GeoConv增加了边缘特征提取的减少层中的参数数量。边缘特征提取操作的参数数量为 C in � n bases � C reduc + C reduc � C out ,其中 C in 和 C out是输入/输出通道数。c reduc是通道减少步骤的输出通道数,GeoConv和基准模型之间的差异是 n bases(GeoConv为6,基准模型为1)。我们将基准模型中三个减少层的 c reduc从64-64-64增加到192-192-256,以大致匹配GeoConv操作的边缘特征提取的参数数量。放大的基准模型称为"Baseline-Large",在ModelNet40分类任务上进行评估。值得注意的是,减少层中的参数数量仅占总参数数量的很小一部分,除了减少层之外,网络的其他组件的实验设置对于基准模型和Geo-CNN是完全相同的。很明显,仅仅增加通道数量并不能提高性能,而GeoConv的提升不是由于参数数量的增加。10050图4. 我们在KITTI上可视化了2D和3D图像的检测结果。红色框是真实框,蓝色框是预测结果。一些误报的检测结果是由于缺少注释。0方法 基准模型 基准模型-Large GeoConv0整体准确率 91.8 91.7 93.40边缘特征提取的参数数量 167.9K 610.8K 557.1K0表4.模型复杂性消融研究。我们在基准方法(Baseline-Large)的减少层的权重矩阵中添加通道,以匹配GeoConv的参数数量。我们展示了每个模型中3个减少层的参数数量之和。在ModelNet40上的结果表明,简单地增加模型复杂性并不能提高性能。0方法 整体准确率0基准模型 91.8 基准模型 + 数据增强91.6 Geo-CNN 93.4 Geo-CNN +数据增强 92.60Geo-CNN + MV-Approx. 93.90表5.使用不同的多视角增强在ModelNet40上的整体准确率。"数据增强"和"MV-Approx."分别指输入级别的增强和我们的特征级别的多视角近似。03D多视角增强。我们评估了我们的特征级别多视角增强的效果。作为在训练时将输入点云随机旋转作为数据增强的直接方法,我们的GeoConv中的分解-聚合方法使我们能够在特征级别近似3D多视角增强。表5.3显示了输入级别多视角数据增强和特征级别近似在ModelNet40数据集上的性能。我们观察到输入级别的多视角数据增强导致了性能的提升。0这可能导致基线方法和Geo-CNN的性能下降。一个可能的原因是输入级别的数据增强在不同视图之间引入了很大的差异,这不能通过单个紧凑模型正确学习。另一个可能的解决方案是学习具有不同视图的单独模型,然后对它们进行聚合。然而,具有多个网络的模型由于其高复杂性而不够灵活和可扩展。06. 结论0我们通过GeoConv操作和称为Geo-CNN的分层特征提取
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功