没有合适的资源?快使用搜索试试~ 我知道了~
7515用于3D对象检索的View N-gram网络何新伟1黄腾腾1白松2白翔1 <$1华中科技大学2牛津大学{eriche.hust,songbai.site}@ gmail.com{huangtengtng,xbai}@ hust.edu.cn摘要如何将三维物体的多视图表示聚合成具有信息量和区分度的表示,现有的方法要么使用视图池化策略,该策略将空间信息跨不同视图进行存储,要么使用递归神经网络,该方法可能面临效率问题。为了解决这些问题,我们提出了一个有效的和高效的框架,称为视图N元语法网络(VNN)。受自然语言处理中的n-gram模型的启发,VNN将视图序列划分为一组视觉n-gram,其中包含重叠的连续视图子序列。通过这样做,跨多个视图的空间信息被捕获,这有助于学习针对每个3D对象的有区别的全局嵌入。在ModelNet10、ModelNet40和ShapeNetCore55等三维形状检索基准数据集上的实验结果表明了该方法的优越性。1. 介绍三维物体检索是计算机视觉中的一个重要课题,由于其与各种几何相关应用的密切关系而受到广泛关注。,VR/AR [20,26,48],医疗图像-[25,6,56]和3D打印[49]。随着3D模型获取技术的发展,大量的3D模型可以免费获取,例如:大规模存储库ShapeNet [8]。由于基于数据驱动的深度学习技术的进步,该领域取得了巨大进展。如今,研究趋势已经从设计手工制作的特征[5,10,16,24]转向通过深层架构直接学习3D形状表示[46,37,34,23,3]。一般来说,学习深度3D形状表示可以粗略地分为两个主流,即,基于模型*表示平等缴款。†通讯作者。和基于视图的方法。基于模型的方法[37,39,53,34,54]直接从原始表示(例如,点云、体素)。基于视图的方法[46,2,51,44,55]通常首先用一组2D视图图像表示3D对象,然后提取每个视图图像的特征,并最终将其聚合成紧凑的3D形状描述符。与基于模型的方法相比,基于视图的方法更灵活,并且可以受益于2D图像分析的最新发展此外,在现实世界中,3D对象的视图图像更容易获得,因此更有效。然而,对于基于多视图的方法,一个挑战是如何有效地聚合多个视图线索。为此,现有的工作主要可以分为两个代表性的分支,即:,视图池化策略[46,51](见图1(a))和基于递归神经网络(RNN)的策略[12,17](见图1(b))。虽然这些方法已经取得了很大的进展,但都有一定的局限性,不能充分利用潜在的视图嵌入。例如,视图池化策略丢失了不同视图之间的空间信息,而由于需要更多计算资源的顺序工作机制,当前神经网络遭受低效[50,32]。考虑到这些局限性,我们提出了一个有效的框架,称为View N-gram Network(VNN),基于n-gram的概念(见图1)。1(c)在自然语言处理中。在一个典型的n-gram模型中,一个句子首先被分解成一个n-gram序列,每个n-gram序列有n个连续的单词。由于其在短上下文中捕获词序的能力及其简单性,n-gram已被广泛用于各种NLP任务,如语言建模[40],文本分类[27]和机器翻译[33]。虽然它在学习文本特征方面取得了成功,但它在学习3D形状表示方面的有效性尚未得到探索。然而,n-gram对于学习多视图3D形状表示也具有内在优势具体来说,对于3D形状,我们将每个视图图像视为一个7516(a) 池化(b) RNN浏览2浏览3浏览4浏览5浏览6...特征,这被证明是一个更好的聚合方法比最大池基于视图的3D对象检索任务。4.在对齐和未对齐的3D形状基准上进行了广泛的实验,并在最先进的方法上取得了显着的改进本文的其余部分组织如下。第二节简要回顾了相关工作。然后,我们在第3节中阐述了所提出的VNN,并在第4节中给出了实验评估。结论见第5节。(c) 我们的n-gram(n=3)图1.多视图图像的不同聚合策略的图示,包括(a)视图池化,(b)递归神经网络,以及(c)提出的视觉n-gram。将所有视图的序列可视化为一组重叠的连续子序列,我们称之为可视化n-gram。为此,VNN利用n-Gram学习单元(n-GLU)进行有效的n-gram划分和gram内特征学习,从而很好地利用了多个视图之间的局部空间信息与以顺序方式工作的基于RNN的聚合相比,n-GLU在计算上更有效,因为每个视觉n-gram只涉及几个连续的视图,并且可以并行馈送到网络。VNN的另一个优点是学习的形状表示在一定程度上是旋转不变的,考虑到不同大小的视觉n-gram在视图序列中捕获不同尺度的空间信息,我们建议将学习到的具有不同n-gram大小的多尺度表示相此外,我们进一步提出了一个无参数的注意力模型,有选择地包装成一个紧凑的和全球的形状表示的分区n-gram功能。总结起来,我们的主要贡献如下:1. 我们提出了一种新的框架,名为VNN有效地模型的空间信息在每个三维形状的视图序列的局部上下文。该算法首先将渲染后的视图序列作为一组视觉n-gram,然后基于这些n-gram特征计算丰富的n-gram特征,从而产生更有鉴别力的表示,并对旋转具有鲁棒性,可用于三维形状检索。2. 为了捕获视图序列中不同尺度的局部空间信息,我们建议结合不同视觉n-gram大小的学习,这可以带来进一步的改进。3. 我们设计了一个无参数的注意力模型,有效地聚合学习的视觉n-gram2.相关工作三维物体检索受到越来越多的关注,构造有鉴别力的三维形状描述子成为研究的热点。早期的作品主要集中在设计手工制作的功能,以代表3D形状。已经提出了各种类型的3D形状描述符,例如:、光场描述符(LFD)[10]、球谐描述符[24]和热核签名[7]。随着深度学习技术的发展,利用深度神经网络学习三维形状表示已经成为三维物体检索领域的一个热门话题。一般来说,现有的方法可以粗略地分为两类,即基于模型的方法和基于视图的方法。基于模型的方法[54,13]直接处理3D形状的原始表示,即体素、点云和多边形网格。Wu等[53]提出了3D ShapeNets,它使用卷积深度置信网络(CDBN)来直接学习体素化3D对象的表示。类似地,Maturana和Scherer提出了VoxNet [34],它采用3D卷积神经网络并直接处理3D体积表示。同时,Qiet al. [38]提出了多方向体积CNN(MO-VCNN),其旨在融合来自各种方向的3D体素的学习表示。然而,基于稀疏体表示的方法由于体积的立方增加而仅限于323计算复杂度和存储器开销。 使…服装这个问题,王等。[52]提出了O-CNN,它是建立在一个名为八叉树的3D对象的内存高效数据结构他们的方法可以处理3D形状的分辨率高达2563。至于点云的表示,PointNet [37]是一项开创性的工作,它使用完全连接的层将3D坐标嵌入到更高维的空间中,并使用最大池操作将它们Qi等人[39]进一步提出PointNet++以增加上下文尺度来提取局部特征,然后是分层聚合机制。Klokov等人[29]提出了Kd-Networks,它基于使用kd树对点云进行细分来进行计算。总体而言,基于模型的方法能够利用3D对象的几何信息。视图17517∈∈| |--∈| |−×| || |≤≤ ||基于视图的方法通常首先将原始3D形状投影到全景视图[44,43]或一组2D视图图像[46,51,24,9,55]。我们主要回顾了与我们的方法有着密切联系的试图合理运用多视角影像的作品。白et3.1. 视图特征提取为了提取视图特征,使用共享CNN。 对于每个视图图像v i,V H,CNN的输出是D维特征f i研发部每一个3D的...可以将对象表示为多视图嵌入对象。al. [2]提出了一种基于实时三维形状搜索引擎在投影图像上Su等人 [46]建议多F =[f1,f2,f3,.,F|V| ]T∈ R|V|通过连接fi视图CNN,其使用最大池化操作来聚集由共享CNN输出的多视图表示。Dai等人[12]提出了一种用于3D形状表示学习的连体CNN-BiLSTM,他们使用BiLSTM来捕获3D形状的不同视图中的特征。 此外,Hanet al.[17]建议使用RNN,注意聚合每个3D对象的顺序视图,并在几个3D形状检索基准上获得了有希望的结果。Leng等人[31]提出了一种评分生成单元,用于评估投影图像的质量并对视图图像特征进行加权。我们提出的视图N-gram网络(VNN)借用了n-gram的思想来聚合多视图表示。n-gram的思想已被广泛应用于语言模型[28,22],并见证了其在文本识别[21,36]中的成功。对于一个给定的序列,它可以被切割成一个由n个连续的词或字符组成的重叠子序列集合,这对于探索序列模式然而,在文献中没有尝试将n-gram的精神适应于3D形状相关的本文将多视点图像划分为一组相互重叠的子组(称为视点N-gram),并在每个子组的基础上进行视点特征增强。最后,采用注意机制对增强后的特征进行聚合我们将在下面的部分详细介绍我们的方法。3. 查看n-gram网络给定一个3D对象H,我们首先将其渲染成一组2D灰度图像V H=v1,v2,.,v|V|其中v ,j表示第j个视图图像,V表示视图图像的数量。我们的目标是学习一个强大的和歧视性的表示H下的多视图设置。如图2所示,所提出的View N-gram网络的流水线可以分为3个阶段,即:特征提取阶段、n-gram特征学习和聚集阶段以及识别阶段。第一阶段使用共享卷积神经网络(CNN),为每个视图提取特征,详见3.1小节。第二阶段是我们框架的核心部分,多分支网络,每个分支由一个n-GLU(n-GLU)组成(见第3.2小节),以及无参数注意特征聚集器(参见子节3.3),用于学习和聚集特定视觉n元语法大小的n元语法特征。第3.4小节给出了确认阶段和其他补充细节。(一)我(五)按顺序排列。请注意,任何现成的卷积神经网络( 例 如 : , AlexNet [30] , GoogLeNet [47] , ResNet[18])可以用作视图特征提取器。在我们的工作中,我们使用VGG-11(也称为VGG-A),其中批量归一化[45]在ImageNet [41]上预先训练作为我们的骨干。原始VGG-A具有11层,其由8个卷积层(conv 1-8)和3个全连接层(fc 9-11)组成在我们的实验中,我们对它进行了预训练,并通过删除VGG-A的最后两个全连接层来构建特征提取器。在这种情况下,D是4096。3.2. N-gram学习单元N-gram是自然语言处理中的一个基本概念,在语言建模中有着广泛的应用令S =(w1,w2,...,是一个由m个单词组成的句子。一个n-gram被定义为一个子串,由n个连续的单词(w i,w i+1,., w i+n−1)从S. N-gram可以自适应地对n个连续词的时间依赖性进行建模[32]。如[17]中所建议的,视图图像之间的空间关系在多视图3D形状分析中起着重要作用。因此,我们建议以n-gram的形式对视图图像的空间依赖性进行建模,其灵感来自于其在建模时间依赖性方面的成功。我们把3D对象的每个视图图像看作一个类似地,我们可以进一步将视图序列分解为一组V+1个n个n-gram,每个n-gram由n个连续的视图图像组成(我们称之为视觉n-gram)。每个视觉n-gram描述了其对应的3D形状的特定模式。直觉上,来自同一类别的3D形状应该共享相似的n-gram模式,而来自不同类别的3D形状应该在其n-gram模式中有所不同因此,通过捕获连续视图图像之间的局部空间依赖性来学习n-gram模式对于理解3D形状将是有益的。为此,我们提出了一个新的模块命名为n-GLU学习单元(n-GLU)。该机制的工作原理如下。回想3D形状的多视图表示被表示为嵌入矩阵FR|V|按渲染顺序排列。类似于基于n-gram的句子分类网络[27],我们采用F上大小为n-D的滑动窗口策略来划分n-gram,如图所示。3.第三章。特别地,对于对应于局部连续n个图像的每个视觉n元语法,7518× × ×||−||−×飞机特征提取N-Gram特征学习聚合识别图2.查看N-gram Network的管道共享CNN用于提取3D对象的每个视图图像的特征原始特征序列通过GLU模块以卷积方式对连续视图特征的依赖性进行建模来增强,然后聚合到全局描述符中。三个平行的分支,利用不同尺度的空间信息,从而在一个更具歧视性的表示的3D形状。序列,我们通过使用大小为D ′ Dn 1的2D卷积滤波器来计算增强的视觉n-gram特征,其中D′是由视觉n-gram增强的输出特征的维度。简单地说,增强的D′维表示已经编码了对应的视觉n元语法的局部空间信息由于对于每个3D对象存在V n+ 1个视觉n元语法,因此,最终增强紧凑表示G对于每个3D形状具有大小(V n+1)D′。在我们的实验中,D′被设置为512。N-gram学习单元对于鲁棒的3D表示具有两个期望的首先,n-GLU通过探索多个局部连续视图的空间关系,自适应地学习3D形状的典型模式。与RNN的目标是建模所有视图之间的长程依赖性不同,所提出的方法可以更好地捕获局部和细粒度模式。其次,由于视图间的局部相邻关系对旋转变换具有很强的鲁棒性,我们的框架在一定程度上具有旋转不变性这适用于对齐和未对齐的3D形状。然而,基于RNN的方法可以视图1视图2视图3view 4图3.我们的方法中使用的GLU模型的图表。 这里,我们选择视图n-gram大小为3,用于说明目的,即。、3-GLU。从本质上讲,GLU是一个2D卷积滤波器,它与多视图特征嵌入矩阵进行卷积,并产生视觉n-gram特征。利用不同的n-gram视图特征和减少信息丢失,我们进一步提出使用attentional特征聚合机制,其可以被视为自注意模块的变体[50]。主要区别在于,我们估计全局特征与每个n-gram特征之间的相关性,而不是所有n-gram特征对之间的相关性。此外,我们的注意力模块是免费的参数。我们的注意力特征聚合的流水线如图所示。4,其可以被公式化为对预定义的视点敏感,因此不能确保学习特征的旋转不变性,βj=βexp(φj(Gj,gp))|+1 − n exp(φ(G,g))|+1− nexp(φ (G , g))(一)在[11]中提出。i=1Gj gp伊伊 普3.3. 注意特征聚合N-gram学习单元输出一个新的视觉N-gram特征序列,其中包含局部空间信息对于下游的检索任务,我们需要φj=ga=(2)|V|+1−nβjGj(3)j=1将它们转换为紧凑且有区别的表示。Max-pooling是一种简单而有效的策略。然而,它可能导致次优性能,因为仅保持最大值会丢失很多信息。为了更好其中gp和ga分别表示序列的全局表示(通过G上的最大池化操作)和Gj表示矩阵G的第j行(即,,j-第n个视觉元语法特征),并且βj是3-Glu注意力聚合器5-葡萄糖注意力聚合器C7-葡萄糖注意力聚合器CNNCNNCNNCNNConv-Filter………………………………7519图4.我们提出的注意力聚合器的详细结构 这里VP表示视图池操作(即,max-pooling),其输出全局n-gram特征。注意力聚合器根据不同的n-gram特征与代理全局n-gram特征的相似性一个紧凑的描述符是通过组合所有的n-gram功能在一个加权和的方式。相应的注意力得分。φ表示尺度归一化的内积,以避免在结果为大幅度时出现极小的梯度,如[50]中所建议的。我们在下面详细阐述我们的注意力聚合机制,它包括三个主要步骤。注意力得分的估计。我们首先对视觉n-gram特征集G进行最大池化操作,得到全局描述子gp。然后,我们通过估计它们与全局描述符gp的相关性来将注意力分数分配给不同的n元语法特征,如等式中所公式化的。(1)和方程(二)、查看聚合。利用估计的注意力分数,n元语法视图特征以加权和的方式被聚合成紧凑的表示ga(参见等式10)。(三))。通过这种方式,包含不同局部空间信息的不同n-gram视图被有效地组合。残余连接。与自注意力[50]类似,我们进一步引入残余连接以将全局描述符gp添加回聚合特征ga以减少信息损失,然后通过层规范化操作对其进行规范化[1]。请注意,我们的注意力特征聚集的完整管道不涉及任何可学习的参数。因此,它是非常有效的。3.4. 言论多尺度n-gram特征融合通过改变n-gram的大小,n-GLU模块可以捕获不同尺度(或连续视图的数目)的空间信息,并学习不同粒度的3D形状的判别模式。因此,我们建议采用多个并行分支,从不同尺度全面表征3D形状。每个分支使用不同的n-gram大小分别执行n-gram特征学习和注意力聚合。然后,我们将所有分支的聚集特征组合在一个串联方式以这种方式,更好地利用视图图像之间的空间信息。如图所示2,我们在我们的VNN框架中使用三个n-gram分支,n-gram大小为3,5和7。培训详情。对于最终识别阶段,我们采用了一个简单的网络,它只由两个完全连接的层组成第一层将组合特征作为输入,并将其映射到低维向量gr∈ R512.最后一层根据gr预测类别分布。在我们的实验中,我们采用softmax损失作为训练目标。4. 实验4.1. 数据集在我们的实验中,我们评估了三个公共的3D形状检索数据集,即所提出的方法。、Model-Net 40 [53]、ModelNet 10 [53]和ShapeNetCore 55 [8]。ModelNet40和ModelNet10数据集是普林斯顿ModelNet数据集的两个子集,该数据集包含151,128个3D形状,分为660个类别。ShapeNetCore55数据集是ShapeNet的一个大规模数据集。ModelNet40包含来自40个常见类别的12,311个形状。在我们的实验中,我们使用与流行的MVCNN [46]和 3D ShapeNets [53] 相 同 的 训 练 / 测 试 分 割 。ModelNet10数据集由10个类别的4,899个3D模型训练集和测试集分别包含3,991和908个模型。ShapeNetCore55数据集在2016年SHAPE检索竞赛(SHREC)中引入。它是一个大规模的数据集,由来自55个形状类别的51,190个3D形状组成除了55个类别的标签外,数据集中的每个模型还附加了来自204个子类别的细粒度子类别在这些3D形状数据中,35,765个3D形状(70%)用于训练,另外5,159个3D形状(10%)用于验证。剩下的10,266个形状(20%)形成测试集。数据集有两个版本,即“正常”和“扰动”版本。对于对于“扰动”版本,每个3D形状是任意定向的。因此,后一个版本更具挑战性。为了测试我们的方法的鲁棒性,我们对两个版本进行了实验。4.2. 评估指标在我们的实验中,我们采用了五个常见的指标来评估我们的方法与最先进的方法的检索性能,定义如下:精确-召回(PR)曲线用于可视化检索性能。PR曲线的平均精密度(mAP)用于定量评价。VP添加规范注意力聚合器……··7520×曲线下面积(AUC)是PR曲线下面积的平均值。F-测度是查全率和查准率的调和平均值。归一化贴现累积增益(NDCG)是一种为排名列表顶部的相关结果分配更多权重的度量在这些指标中,我们使用PR曲线,mAP,AUC上ModelNet40和mAP,AUC上ModelNet10来评估检索性能。对于ShapeNetCore 55数据集,采用F-Measure、mAP和NDCG。4.3. 实现细节我们渲染一组2D灰度图像的大小224 224对于每个3D对象,遵循与MVCNN相同的渲染协议[46]。对于对齐的数据集,即、ModelNet 40、ModelNet 10 和 ShapeNet-Core 55 对 于 未 对 齐 的ShapeNetCore 55在训练过程中,我们采用随机梯度下降(SGD)进行优化,动量为0.9,权重衰减为0.0001。学习率设置为0.001。 为了训练的稳定性,我们将梯度剪切到[-0.01 , 0.01] 范 围 内 。 我 们 训 练 模 型 150 个 epoch ,minibatch大小为8。在推理时间,我们提取网络倒数第二层的输出,这是512维的,作为每个3D对象的描述符。我们使用PyTorch [35]实现了我们的方法,所有实验都 是在 一台 配 备8 个 NVIDIA Titan-X GPU, Intel i7CPU和64 GB RAM的服务器上进行的。4.4. 与最新方法的比较为了验证我们的方法的有效性,我们首先在两个常见 的 3D 形 状 数 据 集 上 进 行 实 验 -ModelNet 40 和ModelNet 10,其中3D对象被假定为对齐的。然后,我们进一步在更具挑战性的ShapeNetCore55数据集上进行实验,该数据集包括两个版本,具有对齐的3D对象的在ModelNet40上进行比较。与现有技术方法的比较列于表1中。我们提出了三种代表性的基于模型的方法的结果,包括SPH [24],3DShapeNet [53]和DLAN [15],以及几种代表性的基于视图的方法的结果,包括LFD[10],DeepPano [44],GIFT [2],MVCNN [46],GVCNN [14],RED [4],TCL [19]和SeqViews [17],广泛的比较。 此外,我们还重新实施方法ModelNet40ModelNet10AUC地图AUC地图SPH [24]34.533.346.044.13DShapeNet [53]49.949.269.368.3DLAN [15]-85.0-90.6LFD [10]42.040.951.749.8[44]第四十四话77.676.885.584.2GIFT [2]V-S83.181.992.491.1美国[46]-70.1--[46]第四十六话-80.2--红色[4]R-5087.086.393.292.2GVCNN [14]G-85.7--[19]第十九话89.088.0--[17]第十七话-89.1-91.4MVCNN†V-A73.772.980.880.1我们的V-A我们的V-1989.690.288.989.393.5-92.8-表1.与Mod-elNet 40和ModelNet 10上的最新方法的比较。顶部是基于模型的方法的结果。基于视图的方法的结果列在中间。dle。* 意味着采用度量学习。†表示在相同设置下进行的再现MVCNN结果(后向)。骨网络和池化位置)作为基线。V-S、V-M、V-A、V-19、G和 R-50 表 示 使 用 VGG-S 、 VGG-M 、 VGG-A 、 VGG-19 、GoogLeNet和ResNet-50架构,分别。MVCNN通过在VGG-A的fc-9层插入最大池化操作,并进行批量归一化,作为我们的基线。可以观察到,我们的方法实现了非常有竞争力的性能,AUC达到89.6%,mAP达到88.9%,优于大多数现有方法。具体地说,我们的方法超过最好的基于模型的方法DLAN的3.9%的mAP。与其他基于视图的方法相比,VNN在mAP中分别比GIFT,GVCNN和TCL高出7.0%,3.2%和0.9%。应该指出的是,GVCNN采用了更强大的骨干GoogLeNet。与RED相似度融合方法相比,在mAP上的性能提高了2.6%。此外,我们的方法实现了与SeqViews的mAP(88.9%对 89.1%)相当的性能,而SeqViews利用更强大的骨干VGG-19进行视图特征提取。为了进行公平的比较,我们进一步使用VGG-19进行实验,并实现了略好的性能(89.3%对 mAP中的89.1%)。与我们的基准相比,VNN取得显著改善,例 如 : AUC 为 89.6%vs. 73.7% , mAP 为 88.9%vs.72.9%。一致的收益超过基线和国家的最先进的方法证明了我们的方法的优越性。我们在图中的Model-Net 40数据集上展示了几个检索示例。五、可以看出,我们的方法可以检索高度相关的3D对象的查询。请注意,检索到的误报也与查询共享类似的形状,例如最后一排的花瓶。···7521ShapeNetCore55方法微ALL宏ALLmicroALL + macroALLF1地图NDCGF1地图NDCGF1地图NDCG[42]39.182.388.628.666.182.033.874.285.3李[42]58.282.990.420.171.184.639.277.087.5正常美国[46]GIFT [2]V-S76.468.987.382.589.989.657.545.481.774.088.085.066.957.284.578.389.087.3Kd网络[29]74.385.090.551.974.686.463.179.888.5我们的V-A78.990.392.861.485.291.770.287.892.3[42]24.660.077.616.347.869.520.553.973.6李[42]53.474.986.518.257.976.735.866.481.6美国[46]61.273.484.341.666.279.351.469.881.8摄动GIFT [2]V-S66.181.188.942.373.084.354.277.086.6Kd网络[29]45.161.781.424.148.472.634.655.177.0[19]第十九话67.984.089.543.978.386.955.981.288.2我们的V-A71.384.389.750.178.086.860.781.288.3表2. ShapeNetCore55数据集上的性能(%)比较。顶部是“正常”版本数据集的性能比较查询检索到的前10个3D形状图5.ModelNet40数据集上的检索示例说明查询形状放在左列第一个,检索到的前10个形状放在右侧。检索到的误报用红框突出显示。在 ModelNet10 上 进 行 比 较 。 我 们 在 表 1 中 展 示 了Modelnet10数据集的结果。如图所示,我们的方法产生93.5%的AUC和92.8%的mAP,这明显优于现有技术的方法。与DLAN [15]相比,DLAN是一种利用丰富的旋转不变3D局部特征的基于模型的优越方法,我们在mAP方面实现了2.2%的改进。此外,VNN在mAP,re-coverage方面的表现优于DeepPano [44],GIFT [2]和RED [4],分别为8.6%,1.7%和0.6%。与SeqViews [17]的比较特别有价值,因为SeqView利用更强大的骨干网络进行视图特征提取。尽管如此,所提出的方法在mAP方面超过它1.4%。我们还提供了MVCNN的再现结果,以VNN作为基线的相同设置。我们可以观察到,VNN显著提高了MCNN的mAP 12.7%,这表明局部空间关系对于3D对象检索的重要性以及所提出方法的有效性在 ShapeNetCore55 数 据 集 上 进 行 比 较 。 我 们 在ShapeNetCore55数据集的“正常”和“扰动”版本上进行实验。为了便于与其他方法进行比较,我们给出了两种评 价 指 标 的 平 均 值 ( 即 : 、 microALL 和macroALL)。两个版本的比较见表2。如图所示,在两个版本的数据集上都实现了对最先进方法的特别地,在“正常”版本上与MVCNN [46]相比,在所有评估指标方面都有超过3%的改进同时,对更具有挑战性的“扰动”版本的计算结果也证明了我们的与TCL [19]相比,TCL采用端到端度量学习损失函数,我们在mAP和NDCG方面都实现了相当的性能然而,对于F1,获得了近5%的改进。它表明,所提出的方法可以很自然地扩展到的情况下,方向的三维形状是不可知的。4.5. 消融研究在本节中,我们介绍了所提出的方法在ModelNet40数据集上的消融实验。具体而言,我们将研究n-gram大小的影响,不同n-gram大小的组合,注意聚集机制及其与度量学习方法的互补性。n-gram大小的影响。我们首先探讨了n-gram大小对模型性能的影响。n-gram的大小是7522方法AUC地图我们89.688.9[19]第十九话90.589.5表4.我们的方法在ModelNet40上有和没有TCL的性能(%)。表3.ModelNet40数据集上的消融分析10.90.80.70.60.50.40 0.2 0.4 0.6 0.8 1召回图6.不同n-gram大小设置的ModelNet 40数据集上的PR曲线。非常重要的超参数,因为它影响用于计算n-gram特征的上下文窗口。我们将n-gram大小设置为1、3、5、7,并研究它们对Mod-elNet 40的影响比较结果报告于表3中。如图所示,当n-gram大小为1时,这意味着采用uni-gram而不考虑每个视图图像的上下文,我们只能达到80.7%的mAP。然而,当我们将n-gram大小增加到3时,我们看到了近4%的改进。这表明通过视觉n-gram(n> 1)结合局部空间信息可以获得更具鉴别力当我们将n-gram大小设置为5时获得最佳结果,在AUC和mAP方面分别达到88.0%和87.3%。当n-gram的大小大于5时,我们看到检索性能有一定融合对不同n-gram的影响。 进一步讨论了不同n-gram大小的组合对检索性能的影响。具体地,我们列举了三个n-gram大小的所有组合(即,3克、5克和7克)。如表3所示,组合不同种类的gram大小比仅使用单个gram大小产生一致的改进,这表明不同的n-gram模块彼此互补,并且组合它们可以有效地提高检索性能。此外,应该注意的是,表3中的不同组合共享相同的检索效率,因为它们输出相同维度的表示(即,512)。PR曲线如图所示6、直觉上展示了基于每个n-gram大小及其不同组合的检索性能。注意力聚集机制的影响。我们比较了注意力聚集机制与广泛采用的最大池操作在不同的设置下的n-gram大小。如表3所示,attentional聚合机制证明了对最大池化的一致改进。应该注意的是,我们的注意力聚合机制是无参数的,这表明它可以作为最大池的更强大的替代方案,以更好地利用多视图功能。补充度量学习。三重中心损失(TCL)[18]是一种有效的度量学习损失,并在多个3D形状基准上取得了优异的性能。因此,我们进一步将softmax损失与三重中心损失相结合,以验证我们的方法与度量学习方法的互补性。如表4所示,TCL产生AUC 0.9%和mAP 0.6%的改进,证明了我们的方法在与现有度量学习方法结合时的潜力。5. 结论在本文中,我们提出了一种新的框架--视图N元网络(VNN),用于对三维物体的多视图图像的空间关系进行建模,从而能够学习用于三维物体检索任务的区分性表示。VNN的核心组件是n-Gram学习单元(n-GLU),它首先将多个视图图像有效地划分为一组视觉n-gram,然后有效地学习intra-gram特征。以这种方式,局部空间信息被利用。在学习的n-gram特征上采用注意聚集此外,我们建议在不同的n-gram大小下融合表示。多个三维形状基准上的实验结果表明,从该方法学习的三维形状表示的优越性。在未来,我们希望探索级联方法的其他替代方法,以更好地融合多尺度n-gram特征。鸣谢:本工作得到了国家自然科学基金61573160的资助。2017QYTD08年获“国家拔尖青年人才支持计划”和“华中科技大学学术前沿青年团队计划”。N元语法大小Max-pooling患有注意力AUC mAPAUC mAP180.3 79.581.5 80.7384.0 83.285.6 84.9585.5 84.788.0 87.3785.1 84.386.6 85.93+588.3 87.688.7 88.03+787.8 87.088.3 87.55+787.9 87.188.9 88.13+5+788.9 88.289.6 88.9精度1克3克5克7克3-5克3-7克5-7克3-5-7克7523引用[1] 吉米·雷·巴,杰米·瑞安·基罗斯,杰弗里·E·辛顿.层归一化。arXiv预印本arXiv:1607.06450,2016。5[2] Song Bai , Xiang Bai , Zhichao Zhou , ZhaoxiangZhang,and Longin Jan Latecki.礼物:一个实时和可扩展的3D形状搜索引擎。在CVPR中,第5023-5032页,2016年。一、三、六、七[3] 宋白,彭唐,菲利普HS托,和Longin Jan Late-cki. 通过度量融合重新排序,用于对象检索和个人重新识别。在Proc. CVPR,第740-749页,2019年。1[4] 宋白,周志超,王敬东,白翔,Longin Jan Latecki和齐天。用于检索的集合扩散。在Proc. ICCV,第774-783页,2017年。六、七[5] Serge Belongie Jitendra Malik和Jan Puzicha。形状上下文:一种用于形状匹配和目标识别的新描述符.在Proc.NIPS,第831-837页,2001中。1[6] 莱伊是贝尔·加马斯科,卡尔是利马,卡洛是罗希特,还有卢尔德·多斯桑托斯·努内斯的法蒂玛采用sparms描述子和网络流作为相似性度量的三维医学对象检索方法2018 年 第 31 届 SIBGRAPI 图 形 , 图 案 和 图 像 会 议(SIBGRAPI),第329IEEE,2018年。1[7] Alexander M.作者声明:Michael M. Bronstein,LeonidasJ. Guibas,and Maks Ovsjanikov.形状谷歌:用于不变形状 检 索 的 几 何 单 词 和 表 达 式 。 Acm Transactions onGraphics,30(1):1-20,2011。2[8] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。一、五[9] 陈大鹏,徐丹,李洪生,Nicu Sebe,王晓刚.通过深度crf进行群体一致性相似性学习,在Proc. CVPR,第86493[10] Ding-Yun Chen,Xiao-Pei Tian,Yu-Te Shen,and MingOuhyoung.基于视觉相似性的三维模型检索研究。在计算机中。Graph.论坛,第223-232页,2003年。一、二、六[11] Songle Chen,Lintao Zheng,Yan Zhang,Zhixin Sun和Kai Xu。Veram:用于3D形状分类的视图增强的循环注意力模型。 IEEE Trans. 目视Comput. 图形,2018年。4[12] 戴国贤,谢晋,方毅。用于3d形状表示学习的连体cnn-bilstm架构。在proc IJ-CAI,2018年。 第1、3条[13] Yi Fang , Jin Xie , Guoxian Dai , Meng Wang , FanZhu,Tiantian Xu,and Edward Wong. 3D深度形状描述符。在Proc. CVPR,第2319-2328页,2015年。2[14] Yifan Feng,Zizhao Zhang,Xibin Zhao,Rongrong Ji,and Yue Gao.Gvcnn:用于3D形状识别的组视图卷积神经在Proc. CVPR,第264-272页,2018年。6[15] 古谷隆彦和大渊龙太郎。三维模型检索中局部三维几何特征的深度聚合InProc. BMVC,2016.六、七[16] 高岳,杨友,戴琼海,张乃瑶。基于区域词袋的三维物体检索 在proc ACM
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功