多视角3D物体识别的关系

130 浏览量更新于2023-10-16 收藏 12.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

......3D Descriptor...75050学习多视角3D物体识别的关系0杨泽1 王立伟1,201 机器感知教育部重点实验室，北京大学电子工程与计算机科学学院 2北京大学数据科学中心0yangze@pku.edu.cn wanglw@cis.pku.edu.cn0摘要0最近，3D物体识别引起了广泛关注，基于视角的方法已经取得了最好的结果。然而，以前的基于视角的方法忽略了不同视角图像之间的区域关系和视角之间的关系，这对于多视角3D物体表示至关重要。为了解决这个问题，我们提出了一个关系网络，有效地连接不同视角的相应区域，从而增强单个视角图像的信息。此外，关系网络利用一组视角之间的相互关系，将这些视角整合起来，获得一个有区分度的3D物体表示。在ModelNet数据集上进行的系统实验证明了我们提出的方法在3D物体识别和检索任务中的有效性。01. 引言0我们人类生活在一个3D物体无处不在且丰富的信息环境中。理解和表示3D物体一直是计算机视觉和人工智能领域最基本的问题之一，因为它对于各种实际应用（例如自动驾驶、自主机器人）变得越来越重要。随着深度学习的成功[23, 33, 25, 42]和大规模3D仓库的快速发展[6,46]，已经提出了各种各样的3D物体识别方法。总体而言，根据输入方式，这些方法可以分为三类研究线路：基于视角的方法[39, 43, 17, 2, 31, 47, 10,18]，基于体素的方法[46, 24, 27, 31, 35]和基于点集的方法[30, 32, 20,38]。基于视角的方法从多个视角渲染3D物体，并在单个视角图像上部署基于图像的分类器；基于体素的方法将物体表示为3D占据网格，并使用3D深度网络分析网格。基于点集的方法将物体表示为一组无序点，并根据点云进行预测。在这些方法中，基于视角的方法迄今为止取得了最好的性能。与其他输入方式相比，基于视角的输入相对低维度，包含更多关于3D物体的细节，并且对3D物体表示的人工制品具有鲁棒性。基于视角的方法的另一个优点是，与其他方法相比，输入视角可以更容易地捕获，特别是对于不能直接访问3D物体模型的情况。基于视角方法的巨大成功也得益于成熟的2D深度表示模型，例如VGG [37]，GoogLeNet [40]，ResNet [13]和DenseNet[16]。直观地说，当人们从一个特定的视角识别世界上的3D物体时，物体通常有一些区域对人眼来说是遮挡的、反射的、不完整的或完全看不见的。因此，人们需要来自其他视角的信息来充分理解物体。因此，如何结合多个视角的信息是一个非常重要的问题。不幸的是，目前主流的基于视角的方法通常无法从根本上解决这个问题：它们缺乏一种机制来推理不同视角的2D外观之间的关系。例如，多视角CNN（MVCNN）[39]方法使用视角-wise的机制0特征图特征向量0强化块0飞机0整合块0CNNCNNCNN0CNNCNNCNN0图1.我们方法的概述。强化块模拟不同视角之间的区域关系，以增强它们的信息。整合块模拟视角之间的关系，将它们整合成有效的3D物体描述符。0无序点并基于点云进行预测。在这些方法中，基于视角的方法迄今为止取得了最好的性能。与其他输入方式相比，基于视角的输入相对低维度，包含更多关于3D物体的细节，并且对3D物体表示的人工制品具有鲁棒性。基于视角的方法的另一个优点是，与其他方法相比，输入视角可以更容易地捕获，特别是对于不能直接访问3D物体模型的情况。基于视角方法的巨大成功也得益于成熟的2D深度表示模型，例如VGG[37]，GoogLeNet [40]，ResNet [13]和DenseNet[16]。直观地说，当人们从一个特定的视角识别世界上的3D物体时，物体通常有一些区域对人眼来说是遮挡的、反射的、不完整的或完全看不见的。因此，人们需要来自其他视角的信息来充分理解物体。因此，如何结合多个视角的信息是一个非常重要的问题。不幸的是，目前主流的基于视角的方法通常无法从根本上解决这个问题：它们缺乏一种机制来推理不同视角的2D外观之间的关系。例如，多视角CNN（MVCNN）[39]方法使用视角-wise的机制...75060池化策略将来自各个视图的特征融合成全局的3D物体描述符。但是对于3D物体的特定部分，如果从不同视点渲染3D形状，它将投影到2D平面的不同空间位置。视图池化操作忽略了来自不同视点的2D外观之间的空间相关性，因此，来自不同视图的对应区域不对齐，无法有效地组合来自不同视图的信息。例如，如图2所示，不同视图中飞机的前部（鼻子）无法通过视图池化有效地聚合。此外，视图池化策略平等地对待所有视图，而不考虑不同视图之间的关系和每个视图的歧视能力。0为了解决这些问题，我们认为有两个关键要素：首先，建模区域之间的关系。如果3D物体的某些部分在某个特定视点上不清楚（例如部分遮挡、反射、不完整），则可以从其他视点找到缺失的信息。对于给定的视图图像，如果有一种策略可以匹配其中的区域和其他视图中的对应区域，则可以通过利用匹配区域之间的关系来加强给定视图的信息。其次，建模视图之间的关系。如果3D物体的几个部分在某些视点上完全看不见，仅仅建模区域之间的关系无法帮助这些视图获取有关不可见部分的信息。我们需要建模视图之间的关系来确定每个视图的歧视能力，并进一步整合这些视图以获得最终的3D物体描述符。0受以上分析的启发，我们提出了一种新的多视图3D物体识别框架。图1显示了我们框架的概述。我们开发的模型称为关系网络，它采用了两个基本构建块，即强化块和整合块。强化块负责探索区域之间的关系，以加强每个单独视图的信息；整合块负责建模视图之间的关系，以便有效地整合来自单个视图的信息。具体而言，对于给定视图图像的特征图，特征图中的每个空间位置都是对应于图像中某个区域的特征向量。对于给定视图图像中的每个区域，强化块从其他视图中找到匹配/相关区域，并通过利用匹配区域的线索来加强该区域的信息。通过这种方式，视图的信息可以得到加强。之后，整合块采用自注意选择机制为每个视图生成重要性得分，该得分表示该视图的相对歧视能力。0特征图0视图池化区域0特征图特征图0对应区域0图2.应该聚合来自对应区域（飞机的前部）的信息，但视图池化将来自红色框的信息融合在一起。0为了确定某个视图是否具有歧视性，我们还需要查看其他视图。这激发了我们考虑自注意机制中视图之间的关系。最后，整合块将重要性得分和高级视觉特征考虑在内，并生成最终的3D物体描述符。为了证明关系网络的有效性，我们在ModelNet数据集上进行了系统实验，包括3D物体分类和检索任务。我们的方法仅使用灰度输入，并实现了最先进的性能。我们的主要贡献可以总结如下：0•与以往的多视图3D物体识别方法不同，我们利用一种新颖的基于关系的框架来专门建模多视图输入数据上的区域之间的关系和视图之间的关系。0•我们提出了一种关系网络用于3D物体识别和检索任务。该模型包含多个强化和整合块。强化块通过建模其内部区域与其他视图中相应区域之间的关系来增强单个视图的信息。整合块对视图之间的相互关系进行建模，并将这些视图的信息整合起来生成最终的3D物体描述符。0•我们的模型可以端到端地训练，并且我们在ModelNet数据集上证明了我们模型的有效性。我们提出的方法在3D物体识别和检索任务中优于现有模型。此外，我们可视化了强化块和整合块的行为，以获得有关该框架的更多见解。02. 相关工作02.1. 手工制作描述符0在计算机视觉和图形学领域，已经发展出了大量关于手工制作的3D物体描述符分析的文献，可以大致分为两类：基于形状的手工制作特征和基于视图的手工制作特征。基于形状的手工制作特征直接从原始模型中提取特征，例如可以表示为由曲率、法线、距离、角度、四面体体积、三角形面积或局部形状直径等构建的特征；在3D体素网格上定义的球函数的数学特征；在3D多边形网格上的热核签名；或者是3D体积网格的扩展SIFT和SURF特征描述符等。基于视图的手工制作特征从3D物体的一组2D投影中提取，例如LightingField描述符由从物体轮廓中提取的一组几何和傅里叶描述符组成。Murase和Nayar通过将一组2D视图压缩到低维参数化特征空间中，然后根据物体所在流形识别3D物体的身份。75070从原始模型中提取的特征。例如，可以表示为由曲率、法线、距离、角度、四面体体积、三角形面积或局部形状直径等构建的特征；在3D体素网格上定义的球函数的数学特征；在3D多边形网格上的热核签名；或者是3D体积网格的扩展SIFT和SURF特征描述符等。基于视图的手工制作特征从3D物体的一组2D投影中提取，例如LightingField描述符由从物体轮廓中提取的一组几何和傅里叶描述符组成。Murase和Nayar通过将一组2D视图压缩到低维参数化特征空间中，然后根据物体所在流形识别3D物体的身份。02.2. 基于体素的方法0近年来，深度神经网络已被应用于3D物体识别，将物体表示为体素网格。Wu等人将3D物体表示为二进制3D张量，其中每个体素可以被归类为自由空间或占用空间。他们提出了3DShapeNets来建模张量中二进制变量的概率分布。类似地，Maturana和Scherer提出了VoxNet，以有效地基于体素网格识别3D物体。Qi等人提出了两种不同的用于3D物体识别的体积卷积神经网络。第一种架构利用多任务训练来帮助网络仔细审查3D物体的细节。第二种架构使用长各向异性卷积核来建模体素网格中的远距离相互作用。Brock等人提出了Voxception-ResNet（VRN）并取得了显著改进。然而，这些方法受到体素数据的稀疏性和计算成本的限制。02.3. 基于点集的方法0点云是另一种3D数据结构。在基本设置中，点云是一组无序的点，每个点由其在几何空间中的三个坐标以及颜色、法线等附加信息表示。Qi等人的开创性工作使用PointNet架构，直接将无序点集作为输入，并输出3D物体识别和部分分割结果。然而，PointNet架构由于其在度量空间中捕捉局部结构的能力有限，无法建模细粒度模式。Qi等人后来解决了这个问题，并提出了PointNet++架构，以根据距离度量学习分层特征。同时，Klokov和Lempitsky提出了Kd-Networks用于基于体素网格的3D物体识别，通过执行乘法变换并使用Kd树构建计算图。02.4. 基于视角的方法0另一种方法是将3D对象表示为一组2D视角图像。Su等人[39]提出了一种多视角卷积神经网络（MVCNN），它首先从每个视角单独提取卷积特征，然后使用视角池化策略将它们聚合成全局3D表示。Qi等人[31]将新的多分辨率组件引入到MVCNN中，并相应地提高了性能。Johns等人[17]将图像序列分解为一组图像对，然后独立地对每个对进行分类，最后通过加权各个对的贡献来学习3D对象分类器。Wang等人[43]提出了一种视角聚类和池化层，并将其插入到现有模型中以获得更好的性能。Feng等人[10]提出了一种组视角卷积神经网络（GVCNN），用于建模多个视角之间的层次关系。Yu等人[47]从补丁相似性的角度解决了3D对象识别问题，并提出了一种多视角协调双线性网络（MHBN）来获得3D对象表示。02.5. 注意力模块0长期以来，已经有很多研究将注意力/关系模块引入神经网络，用于自然语言处理[1, 11, 41]，计算机视觉[12, 44, 26,15]和物理系统建模[3, 34,45]的任务。早期的一个例子是Bahdanau等人[1]的工作，他们将软注意机制整合到RNN单元中，使模型能够在预测目标词时自动关注源句子的相关部分。Vaswani等人[41]提出了一种新的架构Transformer，完全用注意力模型取代了RNN。我们的方法与这些工作密切相关。我们将自注意模块扩展到模型视角序列中的区域之间的关系和视角之间的关系。我们将自注意模块与3D对象识别进行了非平凡的连接。03. 方法03.1. 概述0我们的方法基于这样一个假设，即将不同视角中的对应区域连接起来，并推理它们之间的关系可以帮助视角更好地表征3D对象。因此，对于给定视角中的每个区域，初始目标是定位其在其他视角中的对应区域。形式上，我们将X ={X1，X2，∙∙∙，XN}定义为描述3D对象X的视角序列，其中N是视角的数量。为了获得区域级特征，我们从卷积层而不是全连接层中提取特征。具体而言，对于每个视角Xi，其卷积特征为-ture map Ri ∈ RL×L×Dr can be regarded as L × L featurevectors, each of which is a Dr-dimensional representationcorresponding to a region in the view Xi:Ri = {ri1, ri2, · · · , riL2}, rij ∈ RDr.(1)Mij,mn = M(rij, rmn).(2)R∗i = {r∗i1, r∗i2, · · · , r∗iL2}, r∗ij ∈ RDr.(3)Mij,11Mij,12· · ·Mij,1L2Mij,21Mij,22· · ·Mij,2L2............Mij,N1Mij,N2· · ·Mij,NL2Normalizing across views.In this setting, the matchingmatrix is normalized over all the entries using scaled soft-max function:ˆMij,mn =eMij,mn√DeN�m=1L2�n=1eMij,mn√De,(8)75080对于来自视角 X i 的区域特征 r ij，强化块枚举视角序列中的所有可能区域，并使用配对匹配函数 M 计算 r ij 与每个枚举区域 r mn 的匹配得分 Mij,mn ，表示这两个区域的相关程度：0然后，根据与 r ij的匹配得分，通过所有枚举区域强化区域特征 r ij。我们将强化的区域特征表示为 r � ij，它利用了其他视角中对应区域的信息。更多细节请参见第3.2节。我们将视角 X i 的强化特征图表示为 R � i ∈ R L ×L × D r ：0然后，我们将强化的特征图R�i发送到网络的下一部分，并获得视图Xi的强化特征向量f�i∈RDf。请注意，单个视图的特征向量f�i不能包含关于3D对象的所有信息，因为从其视点可能完全隐藏了3D对象的某些部分，我们无法通过区域匹配获取这些部分的缺失信息。因此，为了获得3D对象的完整表示，我们需要将多个强化特征向量的信息组合起来。为了实现这样的进展，我们提出了一个整合块，利用强化特征向量之间的相互关系，并为每个特征向量生成一个重要性分数。最后，所有强化特征向量及其重要性分数共同用于生成一个单一的、紧凑的3D对象描述符。03.2.加强块0对于每个视图图像Xi，加强块旨在利用Xi与其他视图之间的区域之间的关系，进一步增强和改进Xi的信息。回顾第3.1节，特征提取器为视图Xi生成一组特征向量Ri = {ri1, ri2, ...,riL2}，其中每个特征向量rij是对应于视图Xi中的一个部分区域的Dr维表示。匹配函数M可以计算任意两个区域特征rij和rmn之间的匹配分数Mij,mn。在这种情况下，我们首先将输入rij和r2∈RDr线性嵌入到具有可学习嵌入矩阵Wr∈RDe×Dr的隐藏空间中，然后我们省略了偏置项。0为了简化起见，我们省略了偏置项。然后我们计算它们的点积相似度作为匹配分数：0M(r1, r2) = �Wr r1, Wr r2�. (4)0在获得不同区域之间的匹配分数后，我们将r_ij的匹配矩阵表示为：0Mij =0�0��0�0��. (5)0由于嵌入隐藏空间的低维度De，可以使用高度优化的矩阵乘法代码高效地计算匹配矩阵。直观地，与r_ij具有更高匹配分数的区域更有可能表示3D对象的相同部分，因此更有可能增强r_ij的信息。我们首先对匹配矩阵M_ij进行归一化，然后计算强化的区域特征r�ij如下：0ˆMij = Normalize(Mij), (6)0r�ij = r_ij + f0� N个0m = 10L20n = 1 ˆMij,mn ∙g(rmn)0�0�, (7)0我们将g解释为将区域特征映射到具有某些良好属性的空间的投影（例如，区域特征的信息可以很容易地融合）。通过计算所有枚举的区域特征的加权和（在投影空间中），加强了r_ij的信息，并且每个区域特征的权重是其与r_ij的归一化匹配分数。函数f将加权和注入到原始区域特征空间中。为了简单起见，我们考虑f和g以线性映射的形式，即g(x) =W_gx和f(x) =W_fx，其中W_g∈R^D_g×D_r和W_f∈R^D_r×D_g是学习到的参数，我们简化起见省略了偏置项。加强块是平滑且可微分的，使得网络可以端到端地进行训练。请注意，我们在加强块中使用了残差连接。残差连接使得网络更容易优化，加强块可以作为恒等映射开始，并逐渐转变为更加面向任务的映射。接下来，我们将描述如何对匹配矩阵进行归一化。where De is the row size of Wr. However, this strategymay lead to the problem of dominating phenomenon, i.e.,the matching matrix is dominated by very few entries. Inour task, for a given region in a reference view, we hopeto ﬁnd sufﬁcient regions in other views that can match thegiven region.Normalizing inside Views.In this setting, each row ofthe matching matrix is normalized independently:ˆMij,mn =eMij,mn√DeN ·L2�n=1eMij,mn√De.(9)Under such situation, the matching score is normalized overregions inside each view. More concretely, for one givenregion in a reference view, this approach selects the bestmatching regions from each view independently, and thencombines all the matching regions to reinforce the infor-mation of the given region. We employ this normalizationstrategy in the Reinforcing block.3.3. Integrating BlockGiven the reinforced feature vectors for all views, theobjective is to integrate them and to generate the ﬁnal rep-resentation for the 3D object. In the simplest setting, the3D object feature can be represented via view pooling op-eration over all the reinforced feature vectors. However, therelationships between different views and the discriminativepower of each view are ignored in this setting.To overcome these issues, we propose a generic Integrat-ing block to model the inter-relationships between differentviews, and assigns each view with an importance score. Theﬁnal 3D object descriptor is derived based on all reinforcedfeature vectors and their importance score. Intuitively, todetermine whether a certain view is discriminative, we alsoneed to look at the remaining views. Consequently, it is sub-optimal to use a unary function to compute the importancescore for each view. In other words, for each reinforced fea-ture vector f ∗i ∈ RDf , its importance score should be com-puted based on the relationship between f ∗i and all otherreinforced feature vectors. Formally, we deﬁne the impor-tance function I to computes the importance score Ii foreach reinforced feature vector f ∗i in the form of:I1I2...IN = I(f ∗1 , f ∗2 , · · · , f ∗N).(10)Note that the importance function I should support order-less inputs and variable number of inputs, and it needs tohave fewer parameters. We design the importance functionI as the combination of pair-wise function as in the follow-ing:I(f ∗1 , f ∗2 , · · · , f ∗N) =N�j=1R(f ∗1 , f ∗j )R(f ∗2 , f ∗j )...R(f ∗N, f ∗j ) ,(11)where R is a scalar pairwise function.Without lossof generality we use the embedded dot-product functionR(f ∗1 , f ∗2 ) = ⟨Waf ∗1 , Waf ∗2 ⟩, where Wa ∈ RDa×Df islearnable, we omit bias term for simplicity. In this setting,the importance score Ii for reinforced feature vector f ∗i iscomputed as:Ii =N�j=1R(f ∗i , f ∗j ).(12)We normalize the importance scores using ReLU normal-ization as in Equation 13. Note that using softmax functionhere may lead to the problem of gradient saturation, andtherefore making the training unstable. Then the output fis calculated as the convex combination of the reinforcedfeature vectors:75090ˆ I i = ReLU(I i) � N j =1 ReLU(I j), (13)0f =0i =1 ˆ I i ∙ f � i. (14)0然后，我们将f通过剩余的全连接层，得到最终的3D物体表示。03.4. 关系网络0将强化块和整合块应用于现有架构非常直观。为了与以前的方法进行公平比较，我们使用VGG-M网络作为基础模型。通过将强化块和整合块插入架构中，我们构建了一个关系网络。默认情况下，强化块插入在conv5层之后，整合块插入在fc6层之后。注意，建筑块可以放置在网络的不同位置。按照类似的方案，可以构建更多与其他基础架构集成的变体。03.5. 讨论0有趣的是，我们的公式与最近提出的非局部网络[44]和Transformer[41]非常相似。然而，与这些现有的工作相比，我们的强化块和整合块在3D物体识别方面具有几个独特的优势：1）非局部块处理空间和时间关系而不进行区分。与视频不同，物体存在于每个视图中。在我们的解决方案（公式9）中，对于参考视图中的一个给定区域，强化块独立地选择每个视图中最佳匹配的区域，这种策略鼓励给定区域从所有其他视图中获取信息。2）在我们的整合块中，我们使用ReLU函数（公式13）对重要性得分进行归一化，它可以看作是Softmax函数的一阶近似，可以获得更好的性能和更稳定的训练。据我们所知，我们是第一个将自注意模型与多视图3D物体识别相结合，并解决了3D物体识别中不同视图之间的区域错位问题。75100空间和时间关系没有区分。与视频不同，物体存在于每个视图中。在我们的解决方案（公式9）中，对于参考视图中的一个给定区域，强化块独立地选择每个视图中最佳匹配的区域，这种策略鼓励给定区域从所有其他视图中获取信息。2）在我们的整合块中，我们使用ReLU函数（公式13）对重要性得分进行归一化，它可以看作是Softmax函数的一阶近似，可以获得更好的性能和更稳定的训练。据我们所知，我们是第一个将自注意模型与多视图3D物体识别相结合，并解决了3D物体识别中不同视图之间的区域错位问题。04. 实验0我们在ModelNet[46]基准测试集上评估了我们提出的关系网络，并与当前最先进的方法进行了讨论。然后，在第4.3节中研究了视图数量对性能的影响。接下来，在第4.4节中研究了建筑块的影响。最后，在第4.6节中可视化了强化块和整合块的行为。04.1. 数据集0我们使用ModelNet数据集[46]来评估关系网络的性能。ModelNet目前包含来自662个类别的127,915个3DCAD模型。这些模型是通过使用在线搜索引擎收集的，并由亚马逊机械土耳其工人进行了注释。ModelNet40是一个子集，包括来自40个类别的12,311个模型，这些模型被分为9,843个训练示例和2,468个测试示例。此外，ModelNet10是另一个子集，包含来自10个类别的4,899个模型，这些模型被分为3,991个训练示例和908个测试示例。ModelNet40和ModelNet10都有很好的注释，并可以在线下载。请注意，不同类别的示例数量不相等，因此我们报告先前工作的平均实例准确率和平均类准确率。平均实例准确率计算所有示例中正确预测的百分比，而平均类准确率是每个类别的准确率的平均值（每个类别的准确率之和/类别总数）。04.2. 实现细节0在所有实验中，我们使用在ImageNet上预训练的VGG-M[7]作为基础模型。这使我们能够与大多数基于VGG-M的现有方法进行公平比较。我们使用学习率为0.001的SGD优化器，动量为0.9，并使用随机水平视图翻转和权重衰减0.0001来减少过拟合。对于0图3.在ModelNet40数据集上进行3D物体检索的精确-召回曲线。我们的关系网络与度量学习取得了86.7的最佳性能。0多视角输入生成，我们假设形状沿着特定轴（例如z轴）是正直的，并将虚拟相机设置为指向网格的质心，从地平面上升30度。视点以给定角度θ的间隔放置在轴周围。我们默认设置θ=30，为每个3D物体生成12个视角。我们在第4.4节中研究了θ（视角数量）的影响。04.3. 3D物体分类和检索0我们首先将我们的方法与使用手工设计描述符的方法进行比较，包括SPH [19]和LFD[9]。然后我们将其与基于体素的方法进行比较，包括3DShapeNets [46]，VoxNet [27]，Subvolume SupervisionNetwork [31]和Voxception-ResNet[4]。接下来，我们将其与基于点云的方法进行比较，包括PointNet [30]，PointNet++ [32]和Kd-Networks[20]。最后，我们将我们的方法与基于视角的方法进行比较，包括MVCNN [39]，MVCNN-MultiRes [31]，PairwiseDecomposition Network [17]，RCPCNN [43]，GVCNN[10]和MHBN[47]。表1显示了3D物体识别和检索的实验结果和比较。我们提出的方法在ModelNet40数据集上实现了94.3% /92.3%的平均实例/类别准确率，并在Mod-elNet10数据集上实现了95.3% /95.1%的平均实例/类别准确率，证明了我们方法的有效性。需要注意的是，关系网络使用单模态输入，而其他一些方法使用多模态输入和更先进的深度网络。MHBN[47]是一个强有力的竞争对手，在ModelNet40数据集上实现了94.1%的平均实例准确率。然而，MHBN对视角数量敏感，当视角数量从6增加到12时，性能下降。此外，MHBN需要计算75110方法输入模态 ModelNet40 ModelNet10 检索结果0实例准确率类别准确率 ModelNet400SPH [19] 手工设计 - 68.2 - - 33.30LFD [9] 手工设计 - 75.5 - - 40.903D ShapeNets [46] 体素 - 77.3 - 83.5 49.20VoxNet [27] 体素 - 83.0 - 92.0 -0Subvolume Net [31] 体素 89.2 86.0 - - -0Voxception-ResNet [4] 体素 91.3 - 93.6 - -0PointNet [30] 点云 89.2 86.2 - - -0PointNet++ [32] 点云带法线 91.9 - - - -0Kd-Networks [20] 点云 91.8 88.5 94.0 93.5 -0MVCNN [39] 12个视角 92.1 89.9 - - 80.20MVCNN-MultiRes [31] 多分辨率视角 93.8 91.4 - - -0Pairwise Network [17] 12个视角带深度 - 91.1 - 93.2 -0RCPCNN [43] 12个视角带深度、法线 93.8 - - - -0GVCNN [10] 8个视角 93.1 - - - 84.5012个视角 92.6 - - - 85.70MHBN [47] 6个视角 94.1 92.2 94.9 94.9 - 12个视角 93.4 - - -0我们的12个视角 94.3 92.3 95.3 95.1 86.70表1. 与最先进方法的性能比较。数字以百分比报告。我们的关系网络始终取得最佳性能。0双线性特征和奇异值分解（SVD）在实践中是繁琐且计算成本高昂的。在3D物体检索任务中，我们的关系网络以82.7的mAP取得了最佳的检索性能。然而，关系网络特征是直接用于分类训练的，因此不适用于检索。如[39]所建议的，我们进一步采用了一个低秩马氏距离度量W，将3D物体特征直接投影到一个128维空间中，使得投影空间中的类内距离更小，类间距离更大。与之前的工作类似，我们采用了[36]中的大边界度量学习算法和实现。通过学习低秩马氏距离度量，我们的关系网络进一步取得了86.7的检索mAP的最佳性能。精确-召回曲线如图3所示。04.4. 视图数量的影响0为了研究视图数量对分类性能的影响，我们改变训练和测试的视图数量。我们将其与MVCNN [39]、RCPCNN[44]、GVCNN [10]和MHBN[47]进行比较。比较方法的准确率取自Yu等人[47]和Wang等人[43]。表2提供了ModelNet40数据集上的平均实例准确率。可以观察到我们的关系网络优于或与之前的方法达到可比较的结果。表2显示，当视图数量从6增加到12时，之前的方法的性能下降。然而，我们的关系网络从视图数量的增加中受益，表明关系网络能够稳健地建模视图之间的关系。0关系网络能够一致地从视图数量的增加中受益，表明关系网络能够稳健地建模视图之间的关系。0方法视图数量03个视图 6个视图 12个视图0MVCNN [39] 91.3 92.0 91.50RCPCNN [43] 92.1 92.2 92.20MHBN [47] 93.8 94.1 93.40我们的方法 93.5 94.1 94.30表2.在ModelNet40上的实验，训练和测试的视图数量变化。以百分比报告平均实例准确率。MVCNN、RCPCNN和MHBN的准确率取自[43]和[47]。04.5. 建立块的影响0为了分析我们关系网络中不同组件的影响，我们在ModelNet40上设计了不同的运行设置，研究了建立块的位置和数量。需要注意的是，VGG-M网络是一个相对较浅的网络，只包含5个卷积层和2个全连接层。因此，集成块放置在2个全连接层之间。我们研究了建立块的位置和数量。表3比较了单个加强块添加到VGG-M不同位置的情况，我们发现将加强块放置在conv5之后可以稍微提高性能。0.090.000.030.020.010.010.010.000.080.300.200.260.040.120.160.120.030.020.030.120.170.120.040.000.090.060.000.050.100.140.140.060.000.050.140.16✓conv293.9✓conv393.7✓conv494.0✓conv594.3×conv593.8conv594.3conv4,593.9conv3,4,594.275120最具信息量的视图最不具信息量的视图0图4. Integrating块计算的重要性分数的可视化。每个视图的权重显示在图像底部。最具信息量的区域用绿色矩形框出，最不具信息量的区域用红色矩形框出。0参考区域对应区域0图5.Reinforcing块放置在conv5之后计算的对应区域的可视化。每一行提供一个区域的示例。对于每个参考区域，其在其他视图中最相关的区域用橙色矩形框出。0我们假设性能下降的原因是conv5具有更大的感受野，从而方便了不同视图之间的区域匹配。如表3所示，当我们将集成块替换为视图池化策略时，性能从94.3下降到93.8。表4显示了将多个加强块放置在网络中的结果。我们发现，如果不插入加强块，性能会稍微下降，而插入多个加强块并不会提高性能。0单个平均实例块加强块的集成位置准确率0表3. 添加单个加强块到不同位置的影响研究。0多个平均实例块加强块的位置0无加强块 93.70conv2,3,4,5 93.80表4. 添加多个强化块的影响研究。04.6. 注意力可视化0我们从测试集中选择一些3D模型，并在图5和图4中可视化强化块和整合块的行为。对于给定的参考区域，我们找到其在其他视图的特征图中由强化块计算得出的最相关的区域，并在图5中绘制橙色矩形。我们发现强化块在其他视图的对应区域上有良好的聚焦。图4显示了整合块计算得出的不同视图

下载后可阅读完整内容，剩余1页未读，立即下载