没有合适的资源?快使用搜索试试~ 我知道了~
10MVTN:用于3D形状识别的多视图转换网络0Abdullah Hamdi Silvio Giancola Bernard Ghanem沙特阿拉伯科技大学(KAUST)0{abdullah.hamdi, silvio.giancola, bernard.ghanem}@kaust.edu.sa0摘要0多视图投影方法已经证明其在3D形状识别方面达到了最先进的性能。这些方法学习了从多个视图中聚合信息的不同方式。然而,这些视图的相机视角往往是启发式设置的,并且对于所有形状都是固定的。为了避免当前多视图方法缺乏动态性,我们提出学习这些视角。具体而言,我们引入了多视图转换网络(MVTN),该网络回归出用于3D形状识别的最佳视角,借鉴了可微分渲染的进展。因此,MVTN可以与任何用于3D形状分类的多视图网络一起进行端到端训练。我们将MVTN集成到一种新颖的自适应多视图流水线中,该流水线可以渲染3D网格或点云。MVTN在3D形状分类和3D形状检索任务中展现出明显的性能提升,而无需额外的训练监督。在这些任务中,MVTN在ModelNet40、ShapeNetCore55和最新的逼真的ScanObjectNN数据集上实现了最先进的性能(提高了6%)。有趣的是,我们还展示了MVTN可以提供对3D领域中的旋转和遮挡的网络鲁棒性。代码可在https://github.com/ajhamdi/MVTN找到。01. 引言0鉴于其在2D领域的成功,深度学习自然扩展到了3D视觉领域。在3D领域,深度网络在分类、分割和检测方面取得了令人印象深刻的结果。3D深度学习流水线直接处理3D数据,通常表示为点云[55, 57, 66]、网格[18, 29]或体素[52,13,24]。然而,其他方法选择通过渲染对象或场景的多个2D视图来表示3D信息[61]。这种多视图方法更类似于人类的方法,人类视觉系统接收到的是一系列渲染图像流,而不是更复杂的3D表示。多视图方法的最新发展显示了0图1.多视图转换网络(MVTN)。我们提出了一个可微分模块,用于预测任务特定的多视图网络的最佳视角。MVTN与该网络一起进行联合训练,无需任何额外的训练监督,同时提高了3D分类和形状检索的性能。0令人印象深刻的性能,并且在许多情况下,在3D形状分类和分割方面取得了最先进的结果[38, 67, 41, 37,15]。多视图方法通过使用2D卷积架构解决3D任务来弥合2D和3D学习之间的差距。这些方法为给定的3D形状渲染了几个视图,并利用渲染的图像来解决最终任务。因此,它们建立在2D基于网格的深度学习的最新进展之上,并利用更大的图像数据集进行预训练(例如ImageNet[59]),以弥补标记的3D数据集的普遍稀缺性。然而,选择这些方法的渲染视角的方式仍然大多未被探索。当前的方法依赖于诸如在场景中进行随机采样[41]或在定向数据集中预定义的规范视角[67]之类的启发式方法。没有证据表明这些启发式方法在经验上是最佳选择。为了解决这个缺点,我们提出通过引入多视图转换网络(MVTN)来学习更好的视角。如图1所示,MVTN学习回归视角,使用可微分渲染器渲染这些视图,并以端到端的方式训练下游任务特定网络,从而为任务提供最合适的视角。MVTN的灵感来源于20空间变换网络(STN)[32]是为2D图像领域开发的。MVTN和STN都学习输入的空间变换,而不利用任何额外的监督或调整学习过程。通过预测生成图像的最佳环境参数来感知的范例被称为逆向图形视觉(VIG)[25, 40, 70, 36,77]。VIG的一种方法是使渲染过程可逆或可微分[51, 39, 47,12, 45]。在本文中,MVTN利用可微分渲染[39, 47,58]。通过这样的渲染器,模型可以通过MVTN在同一前向传递中推断出视点(即相机姿态),从而为特定的目标3D视觉任务进行端到端训练。据我们所知,我们是第一个通过使用可微分渲染器将可学习的视点预测方法集成到多视图方法中,并建立起适用于网格和3D点云分类和检索的端到端流水线。贡献:(i)我们提出了一种多视图转换网络(MVTN),用于回归更好的多视图方法的视点。我们的MVTN利用可微分渲染器,实现了端到端的3D形状识别任务训练。(ii)将MVTN与多视图方法相结合,在标准基准数据集ModelNet40 [71]、ShapeNet Core55 [7, 60]和ScanObjectNN[64]上取得了最先进的3D分类和形状检索结果。(iii)额外的分析表明,MVTN提高了多视图方法对旋转和遮挡的鲁棒性,使MVTN在现实场景中更实用,其中3D模型不是完全对齐或部分裁剪。02. 相关工作03D数据上的深度学习。PointNet[55]是第一个直接处理3D点云的深度学习算法。PointNet独立计算点特征,并使用类似于最大池化的无序不变函数进行聚合。随后的工作集中于寻找点的邻域来定义点卷积操作[57,66, 46, 43, 42, 65]。基于体素的深度网络允许3DCNN,但内存复杂度为立方体[52, 13,24]。最近的一些工作将点云表示与其他3D模态(如体素[50]或多视图图像[75,33])相结合。在本文中,我们利用点编码器来预测最佳视点,从而渲染图像并输入到多视图网络中。多视图3D形状分类。第一个使用2D图像识别3D对象的工作是由Bradski等人提出的[5]。20年后,在深度学习在2D视觉任务中取得成功之后,MVCNN [61]成为第一个使用深度2DCNN进行3D对象识别的方法。原始的MVCNN使用最大池化来汇集不同视图的特征。几个后续的工作提出了不同的策略来为视图分配权重,以进行加权聚合。0视图特征的平均池化[76, 74, 19, 11]。RotationNet[38]同时对视图和对象进行分类。Equivariant MV-Network[17]通过利用旋转群卷积[14]在多视图上使用旋转等变卷积操作。ViewGCN[67]利用动态图卷积操作从不同的固定视图中自适应地汇集特征,用于3D形状分类任务。所有这些先前的方法都依赖于固定渲染的3D对象数据集。[11]的工作尝试通过强化学习和RNNs自适应地选择视图,但取得了有限的成功并且需要复杂的训练过程。在本文中,我们提出了一种新颖的MVTN框架,用于在多视图设置中预测最佳视点。这是通过与多视图任务特定网络共同训练MVTN来实现的,无需任何额外的监督或调整学习过程。03D形状检索。文献中的早期方法将手工制作的描述符的分布进行比较,以检索相似的3D形状。这些形状签名可以表示几何[53]或视觉[9]线索。传统的几何方法会估计某些特征(例如距离、角度、面积或体积)的分布,以衡量形状之间的相似性[1, 8,6]。Gao等人[21]使用多个相机投影,Wu等人[72]使用体素网格提取类似的基于模型的签名。Su等人[61]引入了一个用于多视角分类的深度学习流水线,聚合特征实现了高检索性能。他们在提取的多视角特征之上使用低秩马氏距离度量来提高检索性能。这项关于多视角学习的开创性工作通过体积描述符[56]、分层视图组架构[19]和三元中心损失[31]进行了扩展。Jiang等人[35]通过围绕三个主轴的循环相机多次循环研究了更好的视角进行检索。然而,这些方法考虑的是固定的相机视角,而不是MVTN的可学习视角。0逆向图形学视觉(VIG)。VIG的一个关键问题是经典图形管道的不可微性。最近的VIG方法专注于使图形操作可微化,允许梯度直接从图像流向渲染参数[51, 39, 47, 45,26]。NMR[39]通过平滑边缘渲染来近似不可微的光栅化,而SoftRas[47]为图像中的每个像素分配了所有网格三角形的概率。Synsin[68]提出了一种用于可微分点云渲染的alpha混合机制。Pytorch3D[58]渲染器改进了SoftRas和Synsin的速度和模块化,并允许自定义着色器和点云渲染。MVTN利用可微渲染的进展与多视角网络一起进行端到端的训练。使用可微渲染的网格和点云使MVTN能够处理3DCAD模型和更易获取的3D点云数据。arg minθC= arg minθC(1)3.2. Multi-View Transformation Network (MVTN)Previous multi-view methods take the multi-view imageX as the only representation for the 3D shape, where X isrendered using fixed scene parameters u0. In contrast, weconsider a more general case, where u is variable yet withinbounds ±ubound. Here, ubound is positive and it defines thepermissible range for the scene parameters. We set ubound to180◦ and 90◦ for each azimuth and elevation angle.Differentiable Renderer. A renderer R takes a 3D shapeS (mesh or point cloud) and scene parameters u as inputs,and outputs the corresponding M rendered images xi M .30图2.多视角识别的端到端学习流程。为了学习使多视角网络C在每个3D对象形状S上的性能最大化的自适应场景参数u,我们使用可微渲染器R。MVTN通过点编码器从S中提取粗略特征,并回归该对象的自适应场景参数。在这个例子中,参数u是指向对象中心的相机的方位角和仰角。MVTN流程通过任务损失进行端到端优化。03. 方法论0我们使用MVTN在图2中展示了我们提出的多视角流程。MVTN是一个通用模块,用于学习特定的3D多视角任务的相机视角转换,例如3D形状分类。在本节中,我们回顾了常见多视角流程的通用框架,介绍了MVTN的细节,并展示了将MVTN集成到3D形状分类和检索中的方法。03.1. 多视角三维识别概述三维多视角识别定义了从同一形状S的多个视角渲染的M个不同图像{xi}Mi=1。这些视角被输入到相同的骨干网络f中,该网络提取每个视角的判别特征。然后在视角之间聚合这些特征来描述整个形状,并用于分类或检索等下游任务。具体来说,具有参数θC的多视角网络C在输入图像集X∈RM×h×w×c上操作0以获得形状S的softmax概率向量。训练多视角网络。文献中最简单的深度多视角分类器是MVCNN,其中C =MLP(max if(xi)),其中f:Rh×w×c→Rd是分别应用于每个渲染图像的2DCNN骨干(例如ResNet[30])。像ViewGCN这样的较新方法将被描述为C = MLP(cat GCN(f(xi))),其中catGCN是从图卷积网络中学习的视图特征的聚合。通常,学习标记的3D数据集上的任务特定多视角网络的形式化表示为:0n L = C(Xn), yn,0n L = C(Sn, u0), yn,0其中L是在数据集中的N个3D形状上定义的任务特定损失,yn是第n个3D形状Sn的标签,u0∈Rτ是整个数据集的一组固定场景参数,其中τ是2M。规范视图。以前的多视图方法依赖于为整个3D数据集预定义的场景参数u0。特别地,固定的相机视角通常基于数据集中3D模型的对齐选择。最常见的视图配置是围绕对象的圆形视角[61, 76]和围绕对象的球形视角[67,38]。为所有3D对象固定这些规范视图可能对某些类别产生误导。例如,从底部看床可能会混淆3D分类器。相反,MVTN学习回归每个形状的视角,如图3所示。0数据集。这些参数表示影响渲染图像的属性,包括相机视角、光照、对象颜色和背景。R是渲染器,它以形状Sn和参数u0作为输入,为每个形状产生M个多视图图像Xn。在我们的实验中,我们选择将场景参数u设置为指向对象中心的相机视角的方位角和仰角,从而设置τ=2M。规范视图。以前的多视图方法依赖于为整个3D数据集预定义的场景参数u0。特别地,固定的相机视角通常基于数据集中3D模型的对齐选择。最常见的视图配置是围绕对象的圆形视角[61,76]和围绕对象的球形视角[67,38]。为所有3D对象固定这些规范视图可能对某些类别产生误导。例如,从底部看床可能会混淆3D分类器。相反,MVTN学习回归每个形状的视角,如图3所示。0∂u可以从每个渲染图像向后传播到场景参数,从而建立适合端到端深度学习流程的框架。当S表示为3D网格时,R有两个组件:光栅化器和着色器。首先,光栅化器根据世界坐标将网格转换为视图坐标,给出arg minθC,θG40圆形球形MVTN0图3.多视图相机配置:多视图文献中常用的视图设置是圆形[61]或球形[67,38]。我们的MVTN在推理时学习预测每个对象形状的特定视角。形状的中心显示为红点,视角显示为带有网格渲染的蓝色相机,底部显示其网格渲染。0相机视角并将面分配给像素。使用这些面分配,着色器为每个像素创建多个值,然后将它们混合。另一方面,如果S由3D点云表示,R将使用alpha混合机制[68]。图3和图4示例了MVTN中使用的网格和点云渲染的示例。基于3D形状的视角条件。我们设计u是3D形状的函数,通过学习一个多视图转换网络(MVTN),表示为G∈RP×3→Rτ0并由θG参数化,其中P是从形状S中采样的点的数量。与依赖于常数渲染参数的Eq(1)不同,MVTN为每个对象形状S自适应地预测u,并与分类器C一起进行优化。该流程被端到端地训练,以最小化以下损失函数在N个对象的数据集上的损失:0n L = C(Sn, un), yn,0s.t. un = ubound.tanh(G(Sn)) (2)0在这里,G将3D形状编码以预测其用于任务特定的多视图网络C的最佳视角。由于G的目标仅是预测视角而不是对对象进行分类(与C相反),因此其架构被设计为简单且轻量级。因此,我们使用一个简单的点编码器(例如,PointNet中的共享MLP)来处理来自S的P个点,并生成维度为b的粗糙形状特征。然后,一个浅层MLP从全局形状特征中回归出场景参数un。为了使预测的参数u在允许范围±ubound内,我们使用一个由ubound缩放的双曲正切函数。用于3D形状分类的MVTN。为了训练用于3D形状分类的MVTN,我们在Eq(2)中定义了一个交叉熵损失,但也可以在此处使用其他损失和正则化器。0图4.多视图点云渲染。我们展示了我们的流水线中使用的一些点云渲染的示例。请注意,点云渲染提供了关于从相机视点隐藏的内容更多的信息(例如,从遮挡侧面的汽车车轮),这对于识别是有用的。0很好。多视图网络(C)和MVTN(G)在相同的损失上进行联合训练。我们的多视图流水线的一个优点是它能够无缝处理3D点云,这在以前的多视图方法中是不存在的。当S是一个3D点云时,我们简单地将R定义为可微分的点云渲染器。3D形状检索的MVTN。形状检索任务的定义如下:给定一个查询形状Sq,在更大的大小为N的集合中找到最相似的形状。对于这个任务,我们遵循MVCNN[61]的检索设置。特别地,我们考虑C中分类器之前的最后一层的深度特征表示。我们使用LFDA降维[62]将这些特征投影到一个更具表达性的空间,并将降维后的特征作为描述形状的签名。在测试时,形状签名用于按顺序检索训练集中最相似的形状。04. 实验0我们在ModelNet40 [71]、ShapeNet Core55[7]和更现实的ScanObjectNN[64]上评估MVTN的3D形状分类和检索任务。04.1. 数据集ModelNet40。ModelNet40[71]由12,311个3D对象(9,843个/2,468个用于训练/测试)组成,标有40个物体类别。由于我们在前向传递中渲染3D模型,由于硬件限制,我们限制了网格中的三角形数量。具体而言,我们使用官方的Blender API [4,22]将网格简化为20k个顶点。ShapeNet Core55.ShapeNet Core55是ShapeNet[7]的一个子集,包含51,162个标有55个物体类别的3D网格对象。训练、验证和测试集分别包含35,764、5,133和10,265个形状。它是为形状检索挑战赛SHREK[60]设计的。ScanObjectNN。ScanObjectNN[64]是一个最近发布的用于3D分类的点云数据集,更加真实。GTPNsize of the ordered training set, and 1(Sn) = 1 if the shapeSn is from the same class label of query Sq. We average theretrieval AP over the test set to measure retrieval mAP.50与ModelNet40相比,ScanObjectNN数据集更具挑战性,因为它包括背景并考虑遮挡。该数据集由2902个点云组成,分为15个物体类别。我们考虑了它的三个主要变体:仅物体、带有背景的物体和最困难的扰动变体(PB_T50_RS变体)。这些变体用于与ScanObjectNN数据集相关联的3D场景理解基准测试。与ModelNet40相比,这个数据集提供了更具挑战性的设置,并在更现实的场景中测试了3D深度学习模型的泛化能力。04.2.指标分类准确率。在3D分类中,标准的评估指标是准确率。我们报告整体准确率(正确分类的测试样本的百分比)和平均每类准确率(所有真实类别准确率的平均值)。检索mAP。形状检索通过测试查询的平均平均精度(mAP)进行评估。对于测试集中的每个查询形状Sq,AP定义为AP =1,其中GTP是真实正样本的数量,N是有序训练集的大小,而1(Sn)=1表示形状Sn与查询Sq具有相同的类别标签。我们对测试集上的检索AP进行平均,以衡量检索mAP。04.3. 基线体素网络。我们选择VoxNet [52],DLAN[20]和3DShapeNets[71]作为使用体素的基线。点云网络。我们选择PointNet[55],PointNet++ [57],DGCNN [66],PVNet[75]和KPConv[63]作为使用点云的基线。这些方法通过聚合局部和全局点信息,利用不同的点云卷积算子。多视图网络。我们将MVCNN [61],RotationNet [38],GVCNN [19]和ViewGCN[67]作为代表性的多视图方法进行比较。这些方法仅限于从规范视点预渲染的网格。04.4.MVTN详细信息渲染。我们在我们的流程中选择了Pytorch3D[58]中的可微分网格和点云渲染器R,因为它们速度快且与Pytorch库[54]兼容。我们展示了网格(图3)和点云(图4)的渲染图像示例。每个渲染图像的尺寸为224×224。对于ModelNet40,我们使用可微分网格渲染器。我们随机指定光线的方向,并为对象分配随机颜色以进行训练增强。在测试中,我们保持一个固定的光线指向对象中心,并将对象着色为白色以保持稳定的性能。对于ShapeNetCore55和ScanObjectNN,我们使用可微分点云渲染器,分别使用2048和5000个点。当网格包含大量面孔时,点云渲染提供了一种轻量级的替代方案,这些面孔会妨碍训练MVTN流程。0分类准确率 方法 数据类型(每类)(总体)0VoxNet [52] 体素 83.0 85.9 PointNet [55] 点86.2 89.2 PointNet++ [57] 点 - 91.9 PointCNN[46] 点 88.1 91.8 DGCNN [66] 点 90.2 92.2SGAS [44] 点 - 93.2 KPConv[63] 点 - 92.9PTransformer[78] 点 90.6 93.70MVCNN [61] 12个视图 90.1 90.1 GVCNN[19] 12个视图 90.7 93.1 ViewGCN [67]20个视图 96.5 97.60ViewGCN [67] � 12个视图 90.7 93.0 ViewGCN[67] � 20个视图 91.3 93.3 MVTN(我们的方法)� 12个视图 92.0 93.8 MVTN(我们的方法) �20个视图 92.2 93.50表1.在ModelNet40上的3D形状分类。我们将MVTN与其他方法在ModelNet40[71]上的3D分类进行比较。�表示我们的渲染设置的结果(可微分流程),而其他多视图结果是从预渲染视图中报告的。粗体表示其设置中的最佳结果。0分类整体准确率 方法 OBJ_BG OBJ_ONLY最困难03DMFV [3] 68.2 73.8 63.0 PointNet [55] 73.3 79.268.0 SpiderCNN [73] 77.1 79.5 73.7 PointNet++[57] 82.3 84.3 77.9 PointCNN [46] 86.1 85.5 78.5DGCNN [66] 82.8 86.2 78.1 SimpleView [23] - -79.5 BGA-DGCNN [64] - - 79.7 BGA-PN++ [64] -- 80.20MVTN(我们的方法)92.6 92.3 82.80表2.在ScanObjectNN上的3D点云分类。我们比较了MVTN在三个不同的ScanObjectNN[64]变体上的3D点云分类性能。这些变体包括带背景的物体、仅物体和最困难的变体。0视点预测。如方程(2)所示,MVTNG网络学习直接预测视点(MVTN-direct)。或者,MVTN可以学习相对于初始参数u0的偏移量。在这种情况下,我们将G中提取的点特征与u0连接起来,以预测应用于u0的偏移量。方程(2)中学习到的视点un定义为:un = u0 +ubound.tanh � G(u0, Sn)�。我们将u0定义为多视图分类流程中常用的圆形或球形配置[61, 38,67]。我们将这些可学习的变体称为MVTN-circular和MVTN-spherical。60形状检索(mAP)方法 数据类型 ModelNet40ShapeNet Core0LFD [10] 体素 40.9 - 3D ShapeNets [71] 体素 49.2 -Densepoint[48] 点 88.5 - PVNet[75] 点 89.5 -MVCNN [61] 12个视图 80.2 73.5 GIFT [2] 20个视图 -64.0 MVFusionNet [34] 12个视图 - 62.2 ReVGG [60]20个视图 - 74.9 RotNet [38] 20个视图 - 77.2ViewGCN [67] 20个视图 - 78.4 MLVCNN [35]24个视图 92.2 -0MVTN(我们的方法)12个视图 92.9 82.90表3. 3D形状检索。我们在ModelNet40 [71]和ShapeNet Core55[7,60]上对MVTN进行了形状检索mAP的基准测试。MVTN在仅有12个视图的情况下,在这两个数据集上都实现了最佳的检索性能。0根据[61]中的方法,对于MVTN-circular,视图的初始高度为30°,方位角均匀分布在360°上。对于MVTN-spherical,我们采用[16]中的方法,在球面上放置等间距的视点,视点数量可以是任意的,这与ViewGCN中的“dodecahedral”配置类似。我们选择MVCNN [61],RotationNet[38]和最新的ViewGCN[67]作为MVTN流程中的多视图网络。在我们的实验中,我们选择PointNet[55]作为3D点编码器网络G,并在第6.1节中尝试了DGCNN。我们从每个网格中采样P =2048个点作为点编码器的输入,并使用一个5层MLP作为回归网络,该网络以点编码器提取的点特征作为输入,特征大小为b =40。所有MVTN变体和基线多视图网络在C中使用ResNet-18 [30]在ImageNet [59]上进行预训练,输出特征大小为d =1024。主要的分类和检索结果基于MVTN-spherical和ViewGCN[67]作为多视图网络C,除非在第5.3节和第6.1节中另有说明。训练设置。为了避免渲染器引入的梯度不稳定性,我们在MVTN网络G中使用梯度裁剪。我们裁剪梯度更新,使梯度的ℓ2范数不超过30。我们使用学习率为0.001,但不对MVCNN [61]和View-GCN[67]中引入的超参数进行微调。有关训练过程的更多细节请参见补充材料。05.结果0MVTN的主要结果总结在表1,02,3和4。我们在ScanObjectNN的3D分类中以较大的优势(高达0图5.对象检索的定性示例:(左):我们展示了测试集中的一些查询对象。(右):我们展示了MVTN从训练集中检索的前五个对象。负检索对象的图像被框起来。06%)并在ModelNet40上实现了93.8%的竞争测试准确性。在形状检索方面,我们在ShapeNet Core55(82.9mAP)和ModelNet40(92.9mAP)上实现了最先进的性能。按照常规做法,我们在基准表中报告四次运行中的最佳结果,但详细结果在补充材料中。05.1. 3D形状分类0表1比较了MVTN与ModelNet40[71]上其他方法的性能。与所有先前的方法相比,我们的MVTN实现了93.8%的竞争测试准确性。ViewGCN[67]通过依赖于更先进但不可微分的OpenGL[69]渲染器中的高质量图像实现了更高的分类性能。为了公平比较,我们使用MVTN中使用的渲染器生成的图像报告ViewGCN的性能。使用相同的渲染过程,用MVTN回归视图改进了基线ViewGCN在12个和20个视图上的分类性能。我们相信未来在可微分渲染方面的进展将弥合我们渲染图像与原始高质量预渲染图像之间的差距。0表2报告了12个视图MVTN在现实的ScanObjectNN基准测试[64]上的分类准确性。MVTN提高了数据集的不同变体的性能。ScanObjectNN的最困难的变体(PB_T50_RS)包括对象进行平移和旋转的挑战性场景。我们的MVTN在这个变体上实现了最先进的结果(+2.6%),突出了MVTN在现实的3D点云扫描中的优点。此外,注意到添加背景点(在OBJ_BG中)不会损害MVTN,与大多数其他分类器相反。70旋转扰动范围方法0°±90°±180°0PointNet [55] 88.7 42.5 38.6 PointNet ++[57] 88.2 47.9 39.7 RSCNN [49] 90.3 90.390.30MVTN(我们的)91.7 90.8 91.20表4.ModelNet40上的旋转鲁棒性。在测试时,我们随机围绕Y轴(重力)旋转ModelNet40中的对象,并报告总体准确性。MVTN对这种Y轴旋转具有很强的鲁棒性。05.2. 3D形状检索0表3报告了MVTN与最近方法在ModelNet40[71]和ShapeNet Core55[7]上的检索mAP。后一种方法的结果取自[35, 67,75]。MVTN在ModelNet40上实现了最先进的检索性能(92.9%mAP)。它还在ShapeNet上大幅改进了最先进的方法,只使用12个视图。值得注意的是,表3中的基线包括针对检索专门训练的强大和最新方法,如MLVCNN[35]。图5显示了使用MVTN检索的对象的定性示例。05.3.旋转鲁棒性3D形状分类文献中的一种常见做法是测试训练模型对测试时的扰动的鲁棒性。按照[49,27]的相同设置,我们围绕Y轴(重力轴)随机旋转形状,范围在±90°和±180°之间。我们对每个设置重复推理十次,并在表4中报告平均性能。MVTN-圆形变体(带有MVCNN)在旋转鲁棒性方面达到了最先进的性能(91.2%的测试准确性),与在相同设置下训练的更先进的方法相比。基线RSCNN[49]是一个强大的基线,旨在对平移和旋转具有不变性。相比之下,MVTN在简单的MVCNN设置中学习,没有针对旋转不变性进行目标训练。05.4. 遮挡鲁棒性为了测试MVTN在现实场景中的实用性,我们研究了3D计算机视觉中常见的遮挡问题,特别是在3D点云扫描中。各种因素导致遮挡,包括观察角度、传感器的采样密度(例如LiDAR)或传感器中的噪声。在这样的现实场景中,深度学习模型通常会失败。为了量化由于3D传感器的观察角度而引起的遮挡效应,在我们的3D分类设置中,我们通过从规范方向上裁剪对象来模拟真实的遮挡。我们在PointNet [55]、DGCNN[66]和MVTN上进行训练,并在ModelNet40点云数据集上进行测试。然后,在测试时,我们沿着±X、±Y和±Z方向裁剪对象的一部分(从0%遮挡比例到100%)。图6展示了不同遮挡比例下的遮挡效果示例。在所有鲁棒性实验中,研究的变换(旋转或遮挡)仅发生在测试时。所有进行比较的方法,包括MVTN,都是在没有通过这些变换进行任何增强的情况下进行训练的。我们在表5中报告了基线和MVTN在六个裁剪方向上的平均测试准确率。值得注意的是,即使对象的大部分被裁剪,MVTN仍能实现较高的测试准确率。有趣的是,当对象的一半被遮挡时,MVTN的测试准确率比PointNet[55]高出13%。考虑到PointNet以其鲁棒性而闻名,这个结果是显著的。0遮挡比例 dir. 0.1 0.2 0.3 0.5 0.750+X0-X0+Z0-Z0图6.3D物体的遮挡:我们通过在规范方向上裁剪对象的一部分来模拟3D点云中的真实遮挡场景。这里,我们展示了不同比例和不同方向的遮挡对象。0遮挡比例 方法 0 0.1 0.2 0.3 0.5 0.750PointNet [55] 89.1 88.2 86.1 81.6 53.5 4.7DGCNN [66] 92.1 77.1 74.5 71.2 30.1 4.30MVTN(我们的方法) 92.3 90.3 89.9 88.3 67.1 9.50表5.3D方法的遮挡鲁棒性。我们报告了不同遮挡比例下点云ModelNet40的测试准确率,以衡量不同3D方法的遮挡鲁棒性。当对象的一半被遮挡时,MVTN的准确率比PointNet(一个鲁棒的网络)高出13%。0ModelNet40点云数据集。然后,在测试时,我们沿着±X、±Y和±Z方向裁剪对象的一部分(从0%遮挡比例到100%)。图6展示了不同遮挡比例下的遮挡效果示例。在所有鲁棒性实验中,研究的变换(旋转或遮挡)仅发生在测试时。所有进行比较的方法,包括MVTN,都是在没有通过这些变换进行任何增强的情况下进行训练的。我们在表5中报告了基线和MVTN在六个裁剪方向上的平均测试准确率。值得注意的是,即使对象的大部分被裁剪,MVTN仍能实现较高的测试准确率。有趣的是,当对象的一半被遮挡时,MVTN的测试准确率比PointNet[55]高出13%。考虑到PointNet以其鲁棒性而闻名,这个结果是显著的。06. 分析和见解06.1. 剔除研究本节对MVTN的不同组成部分进行了全面的剔除研究,并对其对ModelNet40[71]的整体测试准确率的影响进行了评估。视角数量。我们研究了视角数量M对MVCNN的性能的影响,当使用固定视角(环形/球形)、学习视角(MVTN)和随机视角时。实验重复了四次,12101280.082.585.087.590.092.580视角数量(M)0准确率(%)0视角数量的影响0固定-环形 固定-球形随机 MVTN-球形0图7.视角数量的影响。我们绘制了测试准确率与用于训练MVCNN的视角数量(M)之间的关系,其中包括固定的、随机的和学习得到的MVTN视角配置。我们观察到,MVTN相对于各种视角都能实现2%的持续改进。0主干 点 MVTN 结果 网络 编码器 设置 准确率0ResNet-180PointNet 环形 92.83 ± 0.060球形 93.41 ± 0.130DGCNN 环形 93.03 ± 0.150球形 93.26 ± 0.040ResNet-340PointNet 环形 92.72 ± 0.160球形 92.83 ± 0.120DGCNN 环形 92.72 ± 0.030球形 92.63 ± 0.150表6.消融研究。我们分析了在ModelNet40上消融不同MVTN组件对测试准确性的影响。即,我们观察到使用更深的骨干CNN或更复杂的点编码器并不会提高测试准确性。0平均测试准确性及置信区间如图7所示。图表显示,学习的MVTN-spherical在不同数量的视图上始终表现出卓越的性能。骨干和点编码器的选择。在我们的主要MVTN实验中,我们使用ResNet-18作为骨干和PointNet作为点特征提取器。然而,也可以做出不同的选择。我们尝试使用DGCNN[66]作为替代的点编码器和ResNet-34作为ViewGCN中的替代2D骨干。我们在表6中报告了所有MVTN消融结果。我们观察到,在MVTN设置中,使CNN骨干和形状特征提取器更复杂会递减地提高性能,这证明了在我们的主要实验中使用更简单的组合的合理性。多视图网络的选择。MVTN与不同的多视图网络无缝集成,并始终提升性能。在表7中,我们展示了在使用固定视图和使用MVTN时的12个视图上的ModelNet40的整体准确性(平均四次运行)。0视图选择多视图网络0MVCNN[61] RotNet[38] ViewGCN[67]0固定视图 90.4 91.6 93.0 使用MVTN 92.6 93.2 93.80表7.将MVTN与多视图网络集成。我们展示了在使用固定视图和使用MVTN时的ModelNet40上12个视图的整体分类准确性。0网络GFLOPs时间(ms)参数#(M)0MVCNN [61] 43.72 39.89 11.20 ViewGCN [67]44.19 26.06 23.560MVTN模块 1.78 4.24 3.50表8.时间和内存需求。我们评估MVTN模块对多视图流程中时间和内存需求的贡献。我们注意到,MVTN的时间和内存需求可以忽略不计。0使用不同的多视图网络。其他影响MVTN的因素。我们研究了渲染器中的光照方向、相机与物体的距离以及物体的颜色对MVTN的影响。我们还研究了从一个多视图网络到另一个多视图网络的学习视图的可迁移性以及MVTN变体的性能。更多细节请参见补充材料。06.2.时间和内存需求。我们比较了我们的3D识别流程中不同部分的时间和内存需求。我们记录了单个输入样本的浮点运算次数(GFLOPs)和前向传递的时间。在表8中,MVTN对多视图网络的时间和内存需求的贡献微不足道。07. 结论和未来工作0当前的多视图方法依赖于与数据集对齐的固定视图。我们提出了MVTN,它可以在完全可微分的流程中学习回归任何多视图网络的视点。MVTN利用了可微分渲染的最新进展,并不需要任何额外的训练监督。实证结果突出了MVTN在3D分类和3D形状检索中的优势。MVTN的一些可能的未来工作包括将其扩展到其他3D视觉任务,如形状和场景分割。此外,MVTN还可以包括与相机视点不同的更复杂的场景参数,如光照和纹理。致谢。本研究得到了沙特阿拉伯国王阿卜杜拉国王科技大学(KAUST)赞助研究办公室通过视觉计算中心(VCC)的资助。90参考文献0[1] Ceyhun Burak Akgül, Bülent Sankur, YücelYemez和FrancisSchmitt.使用基于概率密度的形状描述符进行3D模型检索。IEEE模式分析与机器智能交易,31(6):1117-1133,2009年。20[2] Song Bai,Xiang Bai,Zhichao Zhou,ZhaoxiangZhang和Longin JanLatecki。Gift:实时可扩展的3D形状搜索引擎。在IEEE计算机视觉和模式识别会议论文集上,页5
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功