视图图卷积网络用于三维形状分析

138 浏览量更新于2023-10-23 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1850View-GCN：基于视图的图卷积网络三维形状分析西安交通大学，西安{wxmath，yuruixuan123}@ stu.xjtu.edu.cn，jiansun@xjtu.edu.cn摘要基于视点的三维形状识别方法通过投影的二维图像来识别三维形状基于视点的方法的主要挑战是如何将多视点特征聚合成全局形状描述符。在这项工作中，我们提出了一种新的基于视图的图卷积神经网络，被称为view-GCN，识别三维形状的基础上，在灵活的视图配置的多个视图的图形表示。首先以多个视图为图节点构造视图图，然后在视图图上设计一个图卷积神经网络，考虑多个视图之间的关系，分层学习判别形状描述子视图GCN是一种基于局部和非局部图卷积进行特征变换和选择性视图采样进行图粗化的分层网络。在基准数据集上的大量实验表明，view-GCN实现了最先进的三维形状分类和检索结果1. 介绍三维形状识别是计算机视觉的一个重要研究领域。3D形状（包括真实扫描或CAD对象）比从单个视图捕获的2D图像3D形状识别在诸如自动驾驶[40]、考古学[44]、虚拟现实/增强现实[17]等应用中起着关键作用。近年来，三维形状分析取得了巨大的进步根据三维形状表示的不同，这些方法可以分为三类，基于体素、基于点和基于视图的方法。基于体素的方法通过3D欧几里德空间中的体素集合来表示3D形状，然后在体素上构建神经网络以学习用于识别的特征[37，51]。虽然它们在性能上是有效的，但它们通常具有挑战性，包括计算复杂性，体素分辨率和形状表面的体素化所引起的数据稀疏性。基于点的方法直接定义图1.视图GCN的插图view-GCN将三维物体的多视图图像作为一个视图图，逐步聚集视图图上的多视图特征，并输出类别标签。点云或网格上的网络PointNet [7]是一个简单但功能强大的深层架构，它将点位置作为输入。后续方法，例如， PointNet++ [42] ， Spi- derCNN [52] ， PointCNN[32]，RS-CNN [33]实现了3D形状识别的改进性能。基于视图的方法[8，15，20，27，28，41，47，50，54]基于多视图特征的聚集，用于基于多视图2D图像识别形状类别它们是利用2D图像分类网络进行3D形状识别的最先进方法之一这项工作的重点是基于视图的方法。主要的挑战是如何聚合的多视图功能是一个全球的三维形状描述。传统方法[47，48]通过最大池化来聚合多视图特征，这是置换不变的，但忽略了视图之间的关系。将多个视图作为一个序列，RNN已被广泛应用于融合多视图特征[8，20，34]。View-gram [23]和3d 2seqviews [19]也将多个视图表示为序列，并使用卷积和注意力来研究视图的关系以学习形状描述符。一维序列表示可以很好地模拟摄像机按顺序位于围绕物体的圆上的配置。然而，对于一般配置，例如，1851十二面体上的相机，1D序列忽略多个视图的3D几何RotationNet [28]和EMV [13]都探索了更一般的视图配置，分别通过旋转找到最佳姿势并应用旋转组卷积，然而，它们依赖于齐次空间的假设（例如，二十面体）用于视图配置。本文提出了一种灵活的三维形状多视图的视图图表示方法，每个视图对应一个具有视图特征的图节点。节点间的图边由摄像机坐标的k-最近邻确定。我们设计了一种新的基于视图图的图卷积网络（GCN）来聚集多视图特征以学习全局形状描述符，如图所示。1.这种基于视图图的表示的主要优点如下。首先，它可以灵活地对不同的视图配置进行建模，摄像机位于圆形、十二面体的角或甚至物体周围的不规则位置上。其次，通过使用视图图表示，我们可以利用GCN聚合多视图功能考虑图节点的关系。沿着这个想法，我们提出了一种新的GCN视图图，被称为视图GCN，学习三维形状描述符。视图图的每个节点都配备了由骨干2D图像分类网络提取的特征。所提出的视图GCN是一种层次化的GCN结构，在日益粗化的视图图上具有多个级别。在每一层中，设计了局部图卷积操作和非局部消息传递操作，通过研究相邻视图和长距离成对视图之间的关系来聚集多视图特征.对于图粗化，我们开发了一种选择性视图采样策略，通过视图选择器对代表性视图进行采样。将不同层次的所有学习特征组合成一个全局形状描述符。通过对3D数据集进行形状分类和检索的评估，view-GCN实现了最先进的性能，例如，九十六。5%，97。在ModelNet40上，每个实例的分类准确率为6%[51]，78。4%微平均和60。ShapeNet Core 55上的2%宏观平均检索mAP [46]。它在真实多视图数据集RGBD上的性能也优于当前最先进的方法[31]。2. 相关作品2.1. 多视角三维形状识别基于视点的方法是一种有效的三维形状识别方法。MVCNN [47]依赖于2D图像分类网络来提取多视图特征，然后通过最大池化来聚合它们以获得紧凑的形状描述符。一些作品考虑了先进的特征聚合策略。GVCNN [15]和RCPCNN [50]都对多视图特征进行分组，并在视图组上设计特征池。[55]第53话：你是谁？通过协调的双线性池和注意力查看补丁。RN [53]进一步对一组视图上的关系进行建模，并使用关系分数将它们集成到形状描述符中。另一个有趣的策略是探索视图的旋转。RotationNet[28]将视图索引视为潜在变量，以便在预测形状标签时找到最佳姿势。EMV [13]基于旋转群离散子群，并将群卷积应用于齐次视图空间，例如，二十面体。最近，几个作品代表了作为一个序列的多个视图。3D2SeqViews [19]和VNN [23]对圆形轨迹中的连续视图子序列应用视图卷积，然后通过注意力聚集特征。顺序视图由RNN选择和（或）聚合，例如，GRU或LSTM，在VE- RAM [8]，Point 2Sequence [20]和Ma等人中。[34]。与它们相比，我们表示一个三维形状的多个视图的视图图。视图图表示使我们能够设计GCN，通过调查视图之间的关系来聚合多视图这种视图图表示比顺序表示[19，23]和视图到视图关系[53]更通用。2.2. 图卷积网络图卷积网络[6，10，24，29]是分析图数据的强大工具。谱GCN [6，10，24]表示图拉普拉斯算子的逐谱图。他们基于频谱表示设计了多项式变换[10]和卷积[6，24]等变换。为了减少计算开销，[10]通过切比雪夫多项式近似本征分解。最近的GCN [12，18，45]通过聚集图上局部邻域中的节点特征来进行空间卷积，例如， [29] ，GraphSAGE [18].图注意力网络[49]使用注意力为邻域中的不同节点指定不同的权重。消息传递网络[16]基于边嵌入来累积来自相邻节点的消息以更新节点特征。类似的思想被用于递归关系网络[45]的关系推理。在[4，36]中，局部不规则点在规则网格中通过角度和径向仓进行量化，可以在其上定义规则的2D卷积。在我们的工作中，我们表示一个三维形状的多个视图的视图图，并定义GCN视图图。这是GCN的一个新应用。我们的视图GCN的灵感来自于当前的GCN，但精心设计，分层聚集多视图功能与本地和非本地操作，erations，和一种新的选择性视图采样策略的图形粗化。实验和烧蚀研究证明了我们的视图GCN的有效性的三维形状识别。3. 我们的方法概述我们首先讨论了我们的视图GCN的动机和概述，用于3D形状描述符学习。1852图2.概述我们的方法。它由三个部分组成，视图图构造、基于视图的图卷积网络（view-GCN）和训练损失。View-GCN是一个定义在逐渐粗化的视图上的层次网络。图3. 3D对象的相邻和对称视图。3.1. 动机如图在图3（a）中，椅子的相邻视图在姿势和外观上平滑地改变，而杯子的多个视图几乎相同。这为识别提供了区分信息。而且，成对视图也是相关的，例如，成对的视图在图1中是对称的。3（b）款。多视点图像之间的这些关系编码了物体的潜在几何形状，为识别3D物体提供了有价值的信息。枚举和建模视图之间所有可能的关系是一个挑战，但这一现象启发我们设计一个图卷积网络来自动调查视图之间的关系时，聚集多视图功能。3.2. 总管道我们设计了一个新的基于视图的图卷积网络，称为view-GCN，分层聚合的多视图功能，考虑到图卷积的视图之间的关系如示于图2，我们的方法由三个部分组成该方法首先利用骨干网络从三维物体的多个视图中提取多视图特征，然后利用视图特征表示的节点构建视图图。其次，我们设计了一个GCN分层聚合视图图上的多视图特征，以生成一个全局形状描述符。最后，全局形状描述-对形状进行识别。4. 从三维图形到视图图形我们现在介绍如何为3D形状构造视图图我们建立一个有向图G，第i个节点作为第i个视图，摄像机坐标为 vi.称此图为视图图，则视图图的邻接矩阵S∈RN×NSij=Φ（gij;θs）（1）其中gij=[vi，vj ，vi−vj ，vi−vj<$2]∈R10表示两个视图的空间关系，[]表示矢量化元素的连接。Φ是成对节点的参数为θs在实现中，我们将Φ设置为具有LeakyReLU和前两层中的10个隐藏单元的三层MLP，并且它输出标量Sij。我们进一步使用k-最近邻（kNN），找到固定数量的相邻节点的每个节点的坐标距离，并只保持边缘之间的相邻节点。因此，稀疏邻接矩阵A的元素为Aij=Sij·I{vj∈N（vi）}（2）其中I（·）是指示vj是否在vi的kNN内的二元函数。显然，视图图可以表示不同的视图配置，例如，圆形的，十二角形的，如图所示，不规则的形状。4，其中每个3D矩形表示一个视图。5. 基于视图的图卷积网络View-GCN是一种定义在粗化视图图的多个级别上的层次结构最初，在所有输入视图上定义视图图G0，并且每个视图具有提取的视图特征向量，如在Sect. 5.1.如图5，在第1层，视图图G1具有N1个节点，即，意见.在视图图上，我们通过局部图卷积和非局部消息传递来更新节点特征。然后图Gl被粗化，1853我MF我在Ci=1我 i=1用c视图图G1中的节点之间的关系。我们将从节点vi到vj的消息定义为成对关系[38，45]：ML =r（[f l，f l];θl），i，j=1，2，.，（4）我是我的朋友其中fl∈Rd是第i个节点的特征，即，第i行表示两个向量的级联。r是一个重-图4.不同的视图配置。分项数字分别带参数θl的旨在探索对应于圆形、十二面体和不规则构型。我们提出了选择性视图采样策略来构造下一级视图图Gl+1，以增加感受野，从而有利于语义特征学习。所有级别的功能包括图中任何成对视图之间的关系。我们设计它是一个三层MLP，每层有d个隐藏单元和LeakyReLU，它输出消息mij∈Rd。我们进一步从所有节点收集节点i的消息在图中，然后通过将累积的消息rl与原始特征fl融合来更新节点特征，我融合为全局形状描述符。与合并所有多视图我ΣNlfl=（[f l，rl];θl），其中rl=ml（五）功能在一个单一的池化操作，我们的观点GCN gradu-ally合并分层粗化的多视图要素i i ifI Jij=1视图图考虑了视图间的关系，形状描述子充分利用了视图图中各个层次的特征。5.1. 初始视图特征提取给定N个视图{Ii}N，特征{f0}N由微调的2D图像分类网络提取，例如，ResNet-18 [21]在ImageNet上预训练[11]。网络对所有训练3D对象的混洗多视图2D图像进行微调以进行分类，并且将最后一个FC（全连接）层之前的不同视图的特征向量化为视图特征，作为G0中的节点特征的初始化。5.2. 局部图卷积给定具有N1个节点的第1层视图图G1（即，视图）和节点特征在F1的行中，则定义局部图卷积层以通过考虑由相机坐标的kNN确定的相邻节点之间的关系来更新节点特征。给定特征矩阵Fl∈RNl×d，局部图卷积定义为是具有参数θl的融合函数。该算法设计为一层MLP，实现时采用批量归一化，输出第i个节点的融合特征f∈l∈Rd。非局部消息传递操作输出特征矩阵F_n，其中r_w作为等式1中的节点特征。（五）、由方程(5)节点特征在考虑整个图上的成对关系的情况下被更新，使得更新后的特征可以在局部图卷积中结合来自远视图的消息，5.4.用于图粗化的在更新第l层视图图Gl的节点特征之后，我们然后粗化图以导出第（l+1）层的视图图Gl+1图粗化通过GCN中的Faradian点采样（FPS）广泛实现[42]，其对视图的子集进行采样以构建粗化图以扩大GCN的感受野。设计了一种新的选择性视图采样策略用于图粗化.给定具有相机坐标{vl}Nl的输入视图i=1F1= θ（A1F1W1;θ1）（3）在当前图Gl和采样率s上，FPS迭代地采样具有相机坐标的视图的子集{vj}Nl+1<${vl}Nl，Nl+1=[Nl×s]，其中[ ]是一个循环，其中Al表示可学习的N×N邻接矩阵j=1i i=1l ling函数。FPS对每个新视图进行采样，并具有最大的距离图Gl的图，如在等式11中定义的。(2)，Wl∈Rd×d是可学习的权矩阵，ω是非线性变换由 BatchNormalization[26] 和带有参数 θl的LeakyReLU[35]组成。因此，输出Fl仍为RNl×d。使用等式（3）首先用邻接矩阵A1对输入节点特征进行扩散，然后用线性变换W1逐节点更新，最后进行非线性变换。F1的节点是更新的节点特征。5.3.非本地消息传递在局部图卷积之后，Fl中的特征被发送到非局部消息传递操作以捕获远程1854j=1基于摄像机坐标对已经采样的视图集进行比较。FPS采样可以保持视图的多样性，但不能保证采样视图对下游判别学习任务的代表性。为了充分利用FPS对不同视图进行采样的优势，同时克服其缺点，提出了一种选择性视图采样策略，利用视图选择器选择与FPS采样的视图相邻的一组代表性视图。如图1底部所示在图5中，我们首先通过FPS对视图的子集{v，j}N1+ 1进行给定初始视图与相机坐标vj由FPS，我们然后通过视图选择器在kNN视图上选择采样视图，1855全球全球v在Jvqvvqv在每一层中，我们对节点特征执行最大池化，通过局部图卷积更新为池化描述符F1= maxpool（{f1}N1），1 = 0，1，.， L − 1（7）ii=1而最终的全局形状特征是所有所有级别的汇总功能：F=[F 0，···，FL−1]，图5.一级视图-GCN。它包括局部图卷积、非局部消息传递和选择性视图采样。我们还在底部提供了选择性视图采样的细节。采样视图显示为虚线矩形中的点。该初始视图和新采样的视图对局部邻域中的视图选择器具有最大响应。则采样视图的相机坐标向量为其被发送到训练损耗。我们接下来介绍两个版本具有典型多视图配置的view-GCN。在所有网络中，d= 512，s = 0。5，FPS总是从第一个图节点开始，即，视图，用于不同的形状。View-GCN用于12视图圆形配置。如图在图4（a）中，虚拟相机规则地放置在圆形轨迹上，并且围绕竖直方向以30度升高3D形状的12个视图构造具有12个节点的视图图，并且对于kNN，k= 2视图图被粗化两次，然后视图GCN是具有12、6和3个节点的视图图上的View-GCN用于20视图十二面体配置。我们将虚拟摄像机放置在一个十二面体的顶点上，如图所示。第4（b）段。将20个视图特征作为具有20个节点的视图图，在kNN中k = 3。视图GCN是在视图图层次结构vl+1= argmaxvq∈N（vj）.Σmax（V（f<$l;θl，j））（六）分别为20、10、5个节点5.6.网络训练对于j=1，···，Nl+1。 V（·）∈RNC是一个向量选择器，其参数为θl，j，输出一个向量属于NC个形状类的概率，最大算子表示向量的最大值. 视图选择器分别定义为不同的采样视图j ∈ [1，Nl+1]和由l索引的图级。为了简单起见，视图选择器V被定义为具有d/2个隐藏单元的双层MLP，并且其参数训练损失。整体训练损失函数由形状损失L形状和视图损失L视图组成。给定全局形状特征F，它被发送到具有FC层的分类器C，FC层具有权重Wc∈ RLd×NC，随后是softmax层。总的训练损失是L =L形（ C（F），y）都是根据门派修炼损耗来学习的。5.6.通过这种策略，我们得到一个粗化图Gl+1 与L−1Nl+1+ΣL视角.ΣV（fl;θl，j），y（八）图节点{vl+1}Nl+1由视图选择器选择。每个l=0 j=1vq∈N（vj）j j=1图形节点与其相应的更新视图在Eqn.并且- ses特征可以被表示为特征矩阵F1+ 1的行，作为下一级1+ 1的输入节点特征。视图选择器是视图GCN的可学习组件，每个视图选择器都可以作为视图模板，用于在局部相邻视图中选择有区别的视图。其中y是形状的类标签，L形状是基于全局形状描述符F的交叉熵损失，L视图是针对视图选择器定义的交叉熵损失，该视图选择器强制每个视图。选择器可以基于视图的局部邻域的视图特征来区分形状类别。可训练参数。可训练的网络参数为由Θ表示，包括Wl，θl，θl，θl，θl，θl，i，其中l=SC Mfv5.5.分层网络架构如图所示5、一级视图GCN由连续局部图卷积、非局部消息传递和选择性视图采样组成。对于1级视图GCN，它在图G1上嵌入多视图特征，以在具有较少视图数的粗化图G1+ 1我们将视图GCN的多个级别连接起来，成为一个分层的深度架构，如图所示。2. 要保留层次中的所有形状特征，0，···，L-1，i= 1，···，Nl在视图的不同操作GCN和Wc在分类器C中。对于20视图版本在view-GCN中，它有73.4M的参数需要学习，包括ResNet-18（backbone view feature extraction network）的44.8M参数和我们的view-GCN的28.6M参数。骨干网络参数也是函数调整的。训练方法。我们以类似于[48]的两个步骤训练view-GCN。首先，预先训练的视图特征提取器，例如，ImageNet上的ResNet-18 [11]，对所有多视图2D图像进1856行微调以进行分类，如前所述1857第5.1节。其次，我们训练了整个架构，包括骨干视图特征提取器和视图GCN训练3D形状，用于端到端的表1.ModelNet40上的形状分类准确度（%）ModelNet40训练损失梯度w.r.t.参数视图-每个类的方法输入Acc.根据植入物Acc.可以计算GCN和视图特征提取网络通过PyTorch实现的自动微分[39]。培训详情。微调视图特征提取时[51]第五十一话[第37话]体素77.3 −83.0 −网络，我们使用SGD优化器与动量，重量衰减，批量大小，历元数和初始学习率VRN England [5]−95.5MVCNN-MultiRes [41] 91.4 93.8为0。分别为9，10- 2，400，30，10- 2学习率每10个epoch减少一半当整个训练[42]第四十二话[30]第三十话点-91.988.5 91.8架构，我们还使用SGD优化器并更改美国有线电视新闻网[33]学习速率为10−3，运行时间为15个epoch。每批MVCNN [47]90.1 90.1对于view-GCN的20视图版本，包含20个形状，共400个视图;对于view-GCN的12视图版本，包含32个形状，共384个视图。在[22]之后，我们使用学习率预热策略，其中学习率在第一个epoch中从0线性增加到10−3[48]第四季第10集MHBN [55] 93.1 94.7GVCNN [15] 90.7 93.1RCPCNN[50] − 93.83D2Seq浏览次数[19] 91.5 93.4然后，在余弦四分之一周期之后，学习率降低到0。我们的代码将在https上提供：//github.com/weixmath/view-GCN网站。6. 实验我们评估视图GCN的三维形状分类和检索合成和真实的数据集如下。[51]第五十一话. 它由来自40个类别的12，311个3D形状组成，其中有9，843个训练对象和2，468个测试对象用于形状分类。有不同数量的形状[20]第二十话图像91.1 93.3在不同的类别。表2.与ModelNet40上的RotationNet的比较（%）。[46]第四十六话：它包含51，162个3D模型分为55类，进一步分为203个子类别。训练集、验证集和测试集分别由35764、5133和10265个形状组成。Dif-每种方法的主干ACCRotationNetAlexNet96.4查看-GCN97.2不同的类具有不同数量的对象。我们在“正常”数据集上进行评估所有的形状一致地对准并标准化为单位长度的立方体。RGBD [31]. 这是一个真实捕获的多视图数据集RotationNet视图-GCNResNet-5096.997.3包含300个家庭从多个角度拍摄的51个类别的对象。每个物体都被放置在一个转盘上，摄像机在地平线上大约30度、45度和60度的6.1. 三维形状分类我们首先在ModelNet 40上评估view-GCN以进行形状分类。第一和第二阶段的训练分别需要3小时和6小时，在ModelNet40上使用NVIDIA GTX 1080 Ti GPU。我们比较了不同的3D OB-对象分类方法，主要集中在基于视图的方法。分类结果见表1。我们在每个类和每个实例的准确性方面都获得了最高分。与传统的视图池方法（如 MVCNN [47] ， MVCNN-new [48] ，MHBN [55]）相比，GVCNN [15]和RCPCNN [50]，我们的视图GCN实现了每个类别的每实例准确率为2.6%。3D 2SeqViews [19]，Se-qViews2SeqLabels [20]，VERAM [8]和Ma等人。[34]都利用顺序视图上的关系。与它们相比，view-GCN在视图图层次上研究多视图特征之间的关系，每类和每实例的准确率分别提高了4.4%和3.9%以上。我们还与基于点，体素和混合表示的方法进行了比较，包括3DShapeNets[51]，VoxNet [37]，VRN Ensem- ble [5]，MVCNN-MultiRes [41]，PointNet++ [42]，Kd- Networks [30]，RS-CNN [33]，我们的view-GCN在两个精度上也超过了它们5.1%和2.1%在以前的方法中，RotationNet [28]通过旋转优化姿势并研究不同的视图配置，已达到最先进的性能。维拉姆[8]92.193.7Ma等人[34个]−91.5iMHL [56]−97.2[25]第二十五话−92.5HGNN [14]−96.7EMV [13]92.694.7[53]第五十三话92.394.3View-GCN（ResNet-18）图像96.597.61858表3.ShapeNet Core55数据集上的形状检索结果（%）ShapeNet核心55方法微ALL宏ALLP@NR@NF1@N地图NDCGP@RR@NF1@N地图NDCGZFDR53.525.628.219.933.021.940.919.725.537.7DeepVoxNet79.321.125.319.227.759.828.325.823.233.7dLAN81.868.971.266.376.261.853.350.547.756.3礼品[2]70.669.568.964.076.544.453.145.444.754.8GIFT [3]78.677.376.772.282.759.265.458.157.565.7ReVGG76.580.377.274.982.851.860.151.949.655.9MVFusionNet74.367.769.262.273.252.349.448.441.850.2CM-VGG5-6DB41.871.747.954.065.412.266.716.633.940.4MVCNN [47]77.077.076.473.581.557.162.557.556.664.0[第28话]81.080.179.877.286.560.263.959.058.365.6View-GCN（ResNet-18）81.880.980.678.485.262.965.261.160.266.5为了公平比较，如表2所示，使用相同的AlexNet作为视图特征提取的骨干网络和20个视图配置，我们的view-GCN比RotationNet高出0.8%的每个实例准确率。6.2. 三维形状检索实验ShapeNet Core55 [46]是一个具有挑战性的形状检索3D数据集。我们在20个输入视图上训练我们的view-GCN用于形状分类，与ModelNet 40用于形状分类相同。对于形状检索，给定每个查询对象，6.3. 真实多视点图像数据集实验我们还在RGBD数据集[31]上评估了我们的view-GCN的形状分类，RGBD数据集是一个具有真实捕获的多视图图像的数据集我们使用与[28]中相同的实验装置，即，对于每个对象，我们均匀地取12个RGB多视角图像，这些图像由具有45°相机仰角的圆上的相机捕获。我们进行了十重交叉验证，以报告[31]中建议的平均结果。表4.RGBD上分类准确度（%）的比较首先将具有相同预测类别标签的对象作为检索到的形状，并且检索排名基于对类别标签预测的概率得分进行排名。根据挑战的要求[46]，前1000个检索对象RGBD方法编号查看每次插入ACCMDSICNN [1]≥12089.6ODS和准确度指标，请参见[46]。如表3所示，我们的视图-GCN 实现了微观平均P@N 、 R@N 、 F1@N 、 mAP 和宏观平均 P@N 、F1@N、mAP和NDCG的最高精度。View-GCN在该数据集上的所有指标上都优于当前最先进的方法与其他方法（如GIFT [2]，Improved-GIFT和MVCNN [47]）相比，view-GCN还实现了更高的准确性，例如，它实现了比MVCNN高4.9%（在microALL的mAP中），MVCNN是一种进行多视图特征的最大池化的基线方法，而我们的view-GCN在视图图上分层地聚合如表4所示，我们的view-GCN在分类准确性方面取得了最佳结果。通过使用AlexNet的相同骨干网络，我们的view-GCN（AlexNet）在每个实例的准确性上优于 MVCNN （ AlexNet ） [47] 5.8% 。 View-GCN（AlexNet）的准确率也比RotationNet（AlexNet）高出2.6%。我们的view-GCN显著超过了MDSICNN [1]，MMD-CNN [43]的性能，它们采用更多的RGB图像作为输入。使用更强大的主干ResNet-18 ，view-GCN（ ResNet- 18 ）实现了 94.3% 的最高准确率。具有ResNet-18骨干网络的View-GCN比具有ResNet-50的工作略好。这些结果表明，视图- GCN也适用于真实的多视图图像。作为检索结果。[9]第九章≥12086.8我们将view-GCN与各种方法进行比较，这些方法-MMDCNN [43]≥12089.5为SHREC'17大型3D形状跟踪[47]第47话：我的世界1286.1ShapeNet Core55上的检索[46]，包括多视图[28]第二十八话1289.3基于GIFT [2]、改进GIFT、ReVGG等方法View-GCN（AlexNet）1291.9MVFusionNet，CM-VGG55-6DB，MVCNN[47]和Ro-View-GCN（ResNet-18）1294.3tationNet [28]和基于体素的方法，如ZFDR，View-GCN（ResNet-50）1293.9DeepVoxelNet和DLAN。关于这些冰毒的更多细节1859表5.在ShapeNet Core 55上使用不同架构进行形状分类的view-GCN变体的结果（%）。方法每类Acc.根据植入物Acc.基线76.788.9View-GCN（不带LGC）78.890.6View-GCN（不含NLMP）77.790.5View-GCN-FPS78.290.3查看-GCN-A179.290.7查看-GCN-A279.190.5视图-GCN-L178.589.9视图-GCN-L278.690.6视图-GCN（无视图丢失）79.790.7View-GCN（NLMP）78.390.4公司简介79.890.96.4. View GCN接下来，我们证明view-GCN的每个组件对ShapeNetCore 55 [46]分类的影响。view-GCN的各种架构的结果如表5所示。所有网络均以ResNet-18为骨干网络。与之相比，我们的view-GCN在每类准确率和每实例准确率上分别达到了79.8%和90.9%，相比之下，“基线”的准确率分别为通过去除view-GCN中的局部图没有非本地消息传递的View-GCN，即，view-GCN（w/o NLMP）的每类和每实例精度分别降低了2.1%和0.4%这表明了我们的网络模块的积极贡献选择性视图采样与FPS。为了评价选择性视图采样的效果，我们用简单的FPS（View-GCN-FPS）代替选择性视图采样进行图形粗化。如表5所示，与使用FPS的view-GCN相比，使用选择性视图采样的view-GCN对于每个类和每个实例的准确度分别实现了1.6%和0.6%的改进。我们还在未对齐的ModelNet 40 [51]上进行了相同的实验，我们的具有选择性视图采样的视图-GCN在两个精度上比使用FPS的视图-GCN高出0.9%和0.8%，这证明了选择性视图采样策略对于选择代表性视图进行图形粗化的有效性视图丢失的影响。我们进一步评估了视图损失L视图的效果，该视图用于加强视图选择器的辨别能力，如在节中所提到的。5.6.通过在没有视图丢失L视图的情况下训练相同的网络，view-GCN（w/o view- loss）实现了略微较低的分数（0.1%和0.2%在两个精度较低），表明即使没有显式强加视图丢失，view-GCN也可以学习参数的视图选择器，并仍然实现了1.5%和0.4%，在两个精度比图粗化使用FPS。学习亲和力矩阵的影响。对于每一层视图图，我们通过等式n学习邻接矩阵。（二）、为了证明其必要性，我们比较了视点GCN-A1和视点GCN-A2的基线，其亲和矩阵的元素被重新定义为Aij=I{vj∈ N（vi）}，并且Aij =I { v j ∈ N（v i）}。e−<$vi−vj<$2·I{vj∈N （ vi ） } 。 Vie w-GCNachiev esimprover e-分别为（0.6%，0.2%）和（0.7%，0.4%）。括号内有两个基线，两个精度。等级结构的影响。我们的view-GCN为20个输入视图定义在视图图的层次结构上，20，10，5个节点。我们还比较了在1级视图图（20个节点）和2级视图图（20和10个节点）上定义的如图所示在表5中，view-GCN-L1实现了比“基线”高1.8%和1.0%的准确度，并且view-GCN-L2进一步将结果改进了0.1%和0.7%。最终的3级视图- GCN比视图- GCN-L2分别提高了1.2%和0.3%，显示了层次结构的有效性。采样率的影响。通过将采样率s增加到0.6和0.7，视图GCN更深，具有4和5个级别节点数分别为[20，12，7，4]、[20，14，10，7，5]，每类和每实例的准确率略有下降（0.1%，0.2%）和（0.3%，0.3%）。构造全局特征的层选择。视图- GCN在每一层的局部图卷积之后对节点特征执行最大池化，以构造全局形状描述符。我们还提出了视图GCN（NLMP）具有相同的架构，视图GCN的结果，除了最大池上执行的节点功能更新的非本地消息传递在每个级别。View-GCN（NLMP）的准确率比View-GCN低1.5%和0.5%扩展到不规则视图配置。 View-GCN还可以灵活地扩展到不规则的视图配置。以图4（c）为例，该配置基于从图4（c）中随机选择的12个视图。4（b），并且每个视图在坐标中随机扰动。我们设计的view-GCN具有12，6，3个节点的三个级别，并且它实现了85.3%的每类和89.5%的每实例准确率，比MVCNN-new高4.2%和1.9%[48]。7. 结论提出了一种新的用于三维形状识别的图卷积网络。我们用视图图来描述形状的多个视图，并在层次视图图上开发了一种新的GCN来学习全局形状描述符。大量的实验证明了它的有效性。在未来的工作中，我们计划将view-GCN应用于多模态特征融合。鸣谢本工作得到国家自然科学基金（ 11971373 ，11690011，U1811461，61721002）和国家自然科学基金（11971373，11690011，U1811461， 61721002）的重点研发计划2018AAA0102201。1860引用[1] Umar Asif ， Mohammed Bennamoun ， and Ferdous ASohel.一种用于rgb-d对象标记的多模态、判别性和空间不变cnnIEEE PAMI，40（9）：2051[2] Song Bai ， Xiang Bai ， Zhichao Zhou ， ZhaoxiangZhang，and Longin Jan Latecki.礼物：一个实时和可扩展的3D形状搜索引擎。在CVPR，2016年。[3] Song Bai ， Xiang Bai ， Zhichao Zhou ， ZhaoxiangZhang，Qi Tian，and Longin Jan Latecki.礼物：走向可扩展的3D形状检索。IEEE TMM，19（6）：1257[4] Da videBoscaini ， JonathanMasci ， EmanueleRodola` ，andMichael Bronstein.用各向异性卷积神经网络学习形状对应关系。InNeurIPS，2016.[5] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。用卷积神经网络进行生成和判别体素建模。arXiv预印本arXiv：1608.04236，2016。[6] Joan Bruna ， Wojciech Zaremba ， Arthur Szlam ， andYann Le- Cun.图上的谱网络和局部连通网络。arXiv预印本arXiv：1312.6203，2013。[7] R Qi Charles， Hao Su ，Mo Kaichun ， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在CVPR，2017年。[8] 陈松乐，郑林涛，张燕，孙志新，徐凯。Veram：用于3d形状分类的视图增强递归注意模型。IEEE TVCG，PP（99）：1[9] Yanhua Cheng，Rui Cai，Xin Zhao，and Kaiqi Huang.用于rgb-d对象识别的卷积fisher核。在3DV，第135-143页中。IEEE，2015年。[10] Michae¨lDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。在NeurIPS，第3844- 3852页[11] Jia Deng，Wei Dong，Richard Socher，Li Jia Li，KaiLi，and Fei Fei Li. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[12] DavidKDuvenaud 、 DougalMaclaurin 、 JorgeIparraguirre 、 Raf aelBombarell 、 Timoth yHirzel 、 Ala´nAspuru-Guzik和Ryan P Adams。用于学习分子指纹的图

下载后可阅读完整内容，剩余1页未读，立即下载