没有合适的资源?快使用搜索试试~ 我知道了~
3333基于批量最优传输损失的3D形状识别林旭1,2孙涵1,2刘宇爱1,21南京高级人工智能研究院2地平线机器人{lin01.xu,han.sun,yuai.liu}@ horizon.ai摘要深度度量学习对于视觉识别至关重要。目前广泛使用的基于两两(或三重)的损失目标不能充分利用训练样本中的语义信息,也不能对优化过程中的硬样本给予足够的关注因此,它们经常遭受缓慢的收敛速率和较差的性能。在本文中,我们展示了如何学习的重要性驱动的距离度量,通过最佳运输规划从批量的样品。它可以自动强调困难的例子,并导致收敛的显着改善。我们提出了一种新的批量最优传输损耗,并以端到端的深度度量学习方式将其结合起来。我们使用它来学习距离度量和深度特征表示,以进行识别。视觉检索和分类任务的经验结果MNIST、CIFAR10、SHREC13、SHREC14、ModelNet10和ModelNet40的仿真结果表明了该方法的优越性。它可以显著加快收敛速度,同时实现最先进的识别性能。例如,在3D形状识别实验中,我们表明,我们的方法可以实现更好的识别性能,在只有5个时期内比什么可以获得的流3D形状识别在200个epoch之后接近1. 介绍学习一个语义嵌入度量,使相似的正样本聚类在一起,而不相似的负样本则分开,这是现代识别任务的重要组成部分随着深度学习技术的蓬勃发展[31,47,53],近年来深度度量学习获得了更多关注[26,5,44,15,50]。通过端到端有区别地训练深度神经网络,可以学习更复杂和高度非线性的深度特征表示(从输入空间到较低维度的语义嵌入度量空间)。联合学习的深度特征表示和嵌入度量对识别应用产生了显着的改进,例如2D图像检索[59,5,37]或分类[60,42],图1.与成对损失目标相比,使用所提出的分批损失目标的学习的示意图。圆圈的颜色代表语义(或类别)信息。这两个损失目标的各批样本之间的关系。(b):在成对情况下,在每次更新时仅考虑一对示例的语义信息(c):使用训练批次内的所有可用信息来优化重要性驱动的距离度量,使得自动强调具有大地面距离的相似正示例和具有小地面距离的不相似负示例。箭头指示由所提议的分批最佳运输损失引起的距离的权重(或重要性自然验证[6],人脸识别[12,60,44],以及基于草图的3D形状跨模态检索[33,58,63]。尽管取得了进展,但大多数预先存在的损失目标[6,12,26,44,5]确实对度量学习有一些限制。常用的对比损失[24,12]或三重损失[60,10]只考虑每个实例中的单个对或三重实例中之前后分批损失(a)通过最佳传输损耗之前保证金&2后保证金&2正常学习1%$百分之一($55(b)两两距离之前保证金2后保证金&&2$1最优运输学习%1%(−%>0(−%05$5(c)重要性驱动的批量距离度量学习3334更新,而忽略与批处理中其余部分的交互。它会使学习到的嵌入度量和特征表示产生偏差。此外,他们没有给予足够的重视,以硬正面或负面的例子,由于事实上,这些样本往往是稀疏分布和昂贵的寻找。这些硬样本可以在网络学习过程中强烈影响参数以校正它们。因此,忽略它们的方法往往会受到收敛速度慢和次优性能的影响。有时,这种方法需要昂贵的采样技术来加速训练过程并提高学习性能[10,44,36,15]。在本文中,我们提出了一种新的用于深度度量学习的批量最优传输损耗目标。它可以学习的重要性驱动的距离度量,通过最佳的运输规划,同时从批量的样品。如我们所知,度量学习背后的基本思想是最小化类别内变化(或距离),同时最大化类别间变化(或距离)。因此,语义相似的大地距正例和语义不相似的小地距负例应被视为硬例。这样的样本应该被正确地强调,以加速度量学习过程。图1说明了我们提出新的分批最优传输损耗目标的主要思想。如图所示,使用所提出的损失的学习可以同时利用训练批次的所有可用语义信息。引入的重要性驱动的距离度量部分地作为最佳运输程序的解决方案获得[56,16]。它能自动挖掘和强调那些难处理的样本。因此,可以显著提高距离度量学习过程的收敛速度。我们以深度度量学习的方式进一步开发新的损失目标。整个网络可以以端到端的方式进行区分训练。联合学习的语义嵌入度量和深度特征表示将对类内和类间变化更加鲁棒最后,我们验证了我们提出的方法适用于各种视觉识别任务,包括- ing 2D图像识别,基于草图的3D形状跨模态检索,和3D形状识别的性能。在六个广泛使用的基准数据集上的实验结果,MNIST、CIFAR 10、SHREC13、SHREC 14、ModelNet 10和Model-Net 40的算例表明了该方法的优越性我们的方法可以实现国家的最先进的识别perfor-mances与一个非常快的收敛速度。简而言之,我们在目前工作中的主要贡献可归纳如下:(1) 我们提出了一种新的批量最优传输损耗目标,用于学习重要性驱动的距离度量,以改善现有的基于成对的损耗目标。(2) 我们开发了一种深度度量学习方法,提出的损失目标,其联合学习重要性驱动的度量和深度特征表示。(3) 我们验证了我们提出的方法的视觉识别任务,包括二维图像识别,草图为基础的三维形状检索,三维形状识别的优越性2. 相关工作随着三维物体建模、数字化和可视化技术的发展,三维形状的识别变得越来越普遍3D CAD模型的日益可用性,无论是在互联网上,例如,Google 3D Ware-house[1]和Turbosquid[2],以及在特定领域,例如,ModelNet[3]和SHREC[34],已经导致了几种可扩展和有效的方法来研究和分析它们,以及促进实际应用。对于三维形状识别,一个基本问题是如何构建一个确定的,但鲁棒的三维形状描述器和特征表示。与2D图像相比,3D形状具有更复杂的几何结构。它们的外观会受到无数变化的显著影响,例如视点、比例和变形。这些都给识别任务带来了巨大的挑战。一种自然的方法是基于原生3D结构构建形状描述符,例如,点云、多边形网格和体积网格。然后,形状可以用距离,角度,三角形面积,四面体体积,局部形状直径[38,9],热核签名[7,29],手工SIFT的扩展,SURF[28]以及3D体积网格上的学习3D CNN [62,35]来表示。另一种方法是通过一组基于2D视图的投影来描述3D形状。它可以利用CNN模型,这些模型已经在大型2D图像数据集(如ImageNet [31])上进行了预训练在这种情况下,DeepPano [46]和PANORAMA-NN [45]被开发用于将3D形状转换为全景视图,例如,围绕其主轴的圆柱体投影。多视图CNN(MVCNN)[52]将多个CNN与视图池结构分组,以共同处理和学习3D形状的所有可用2D投影3. 背景度量学习的损失目标:度量学习的目的是从输入样本中学习语义度量。 设x ∈ X为输入样本。 核函数f(·;θ):X → Rd接受输入x并生成特征表示或嵌入f(x)。 在深度度量学习[24,12,50]中,内核f(·;θ)通常由深度神经网络定义,由一系列权重和偏置θ参数化。 度量学习优化了区分损失目标,以最小化类内距离,同时最大化类间距离。例如,种子暹罗网络[24,12]中的对比损失将成对的样本作为输入,并训练两个识别器,3335OPTIJIJ222+图2.我们将建议的损失公式化到深度度量学习框架中。给定每个模态样本的批次,我们使用LeNet-5[32] ,ResNet-50[25]和MVCNN[52]作为f1分别为2D图像、2D草图和3D形状提取深度CNN特征2CNN度量网络fMetric由四个全连接(FC)层组成,即,4096-2048-512-128(LeNet-5的两个FC层512-256)用于执行CNN特征的降维。我们在这些FC层之间添加三个sigmoid函数作为激活,以生成归一化和密集的特征向量。整个框架可以通过新的批量方式−最佳运输损耗突出显示的重要性驱动距离度量Tij M+和Tij M用于强调硬阳性和阴性样品。它联合学习语义嵌入度量和深度特征表示,用于检索和分类。学习深度距离度量Mij为L(x,x;f)=y M+(1−y)max{0,ε−M概率分布r和c之间的计划定义为:U(r,c):={T ∈ Rn×n|T 1 = r,T T1 = c},其中1是},(1)i j ij ij ij ij ijij全1向量。运输计划的集合U(r,c)con.其中标签y ij∈ {0,1}指示一对(x i,x j)是否来自同一类。 边缘参数ε规定了不同样本之间距离的阈值。度量Mij可以是特征嵌入空间中的任意距离度量通常,欧几里得度量M ij=||(f(x i)− f(x j))||2用于包含所有非负的n×n元素,行和列分别求和r和c给定一个n×n的地面距离矩阵M,利用一个传输矩阵T将r映射到c的代价可以量化为:. 代表弗罗贝纽斯点积。那么方程(3)中定义的问题表示一对样本之间的距离。三重损失[60,10]与对比损失有相似的想法,但除了DM(r,c):=minT∈U(r,c)(3)旅游景点将一对样本趋向于三个样本。对于给定的查询xi、与查询相似的样本xj和不相似的样本xk,三元组损失可以公式化为:L(x i,x j,x k; f)= max{0,M ij− Mik+ ε}。(二)直觉上,它鼓励不同对之间的距离M ik=||(f(x i)−f(x k))||2大于相似对之间的距离M ij=||(f(xi)− f(x j))||2至少有一个边缘ε。最佳运输距离:最优运输距离[16],也称为Wasserstein距离[56]或地球移动器距离[43],根据最优运输理论[57,61]的原理定义两个概率分布之间的距离。形式上,设r和c是n维概率测度.交通工具的设置称为给定地面费用M的r和c之间的最优运输问题。最佳运输距离DM(r,c)测量在概率测度r中运输质量以匹配在c中的质量的最便宜的方式。与一些常用的箱到箱度量相比,最佳传输距离定义了更强大的跨箱度量来测量概率,例如,Euclidean、Hellinger和Kullback-Leibler分歧。然而,当在一般度量空间中比较两个n维概率分布时,计算DM的成本至少为O(n3log(n))为了缓解这个问题,Cuturi [16]通过在方程(3)中添加熵正则化器来制定正则化的运输问题。这使得目标函数严格凸,并允许它被有效地解决。特别地,给定传输矩阵T,令CNN 2D图像网络二维图像的度量f1CNNCNN 2D草图网络f1CNNCNN 3D电视网f1CNNf1CNN查看池化深度度量空间Deep MetricSpacef1CNN三维空间的度量二维草图的度量批样品基于重要性驱动的距离度量学习挖掘硬正负样本用于学习的2D渲染………………3336M2MIJh(T)=−ΣijTijlogTij是T的熵。任何对于一对类似的阳性样本,λ >0,正则化运输问题可以定义为:G+(x,x; f)= e−γ||f(x)=0 ||2i ji jI j第二条第六款λ(r,c):=minT∈U(r,c)T,Mλ其中γ是控制重新缩放程度的超参数。这种重新缩放运算符将大的欧几里得其中λ越大,该松弛Dλ(r,c)越接近原始 DM(r,c)。Cuturi [16]还提出了Sinkhorn具体地说,令矩阵K=exp(−λM),并通过计算u = r/来求解它,以获得到固定点的缩放向量u和v。Kv,v = c./ 以交替的方式。 这就产生了最优运输计划T=diag(u)Kdiag(v)。这个算法可以解决相似样本之间的距离。在重新缩放G+之后,由等式(5)求解的学习的T_i硬阳性样品),同时相应地降低其他样品。因此,它将加速相似样本彼此接近对于不同的负样本,我们相应地将地面距离定义为2−−γ max {0,ε−||f(x)=0 ||2}。(七)复杂度为O(n)[16],这是非常快的而不是精确地解决最初的最优运输问题。Gij(xi,xj;f)=eij24. 我们的方法在本节中,我们使用最优传输理论的原理提出了一种深度度量学习方案[57]。目前,最优输运距离的研究工作[16,18,17]主要集中在理论分析和仿真验证上。因此,很难将它们直接应用到大规模的3D形状识别竞赛中。为此,我们做了以下三项工作来构建可训练的分批最优运输损失目标。铰链损耗max {0,ε-||f(x i)− f(x j)||2}惩罚裕度ε内的不相似样本,并忽略他人因此,与上述类似样本情况相反,这里等式(5)中的学习的T将在具有小欧几里得距离的那些不同样本上支付更高的重要性值(硬负样本),而在其他样本上分配较少因此,它可以加速不同样品彼此分离的过程。4.2. 批量最优传输损耗学习基于正、负样本M+、M-的欧氏距离和最优运输方案4.1. 重要性驱动的距离度量学习ij ij假 设 我 们有 两 批 样 本 , 每 批 样 本有 n 个 样 本X∈Rd×n。设xi ∈Rd是第i个形状的表示. 另外,设r和c为两个批次的n维概率向量,其中r为Tij,现在我们可以制定一个批量最优传输度量学习的损失。 它可以被看作是一个n对的例子,张力版的反差损失或三联体损失。我们将损失目标定义为L(x,x;f)= L++ L−和ci表示形状i在r和c中出现的次数(r和c中的标准化总体样品)。最佳的trans-我1Σn=Y TJM++(I1Σn-Y)T M−,(8)港口引入运输计划T∈Rn×n,使得ij2ijijijij ijij2ijijij ijTij描述了有多少ri应该被输送到cj。如等式(4)所述,批次r和c之间的最佳运输距离可以重新公式化为:其中Y ij是分配给一对训练批次的二进制标签。如果样本xi和x j被认为相似,则令Yij=1,否则令Y ij=0。一个全一矩阵是ΣnDλ(r,c)= minTijM ij− 1h(Tij)记为I∈Rn×n,n是每个训练批次的大小在实践中,Tij M+和Tij M−可以被视为OTT≥0i. j=1λ(五)ij ijS.T.Σnj=1 Tij=r,Σni=1 T ij=ci,j.重要性驱动距离度量样品,分别。将我们的预定义地面距离Gij替换为等式(5)中的欧几里得距离Mij,学习的最优运输计划T是一个概率分布[16],其目的是找到将质量从批次r运输到批次c所需的最小成本。成本单位对应于以地面距离为单位运输样品因此,由等式(5)求解的T_i倾向于将较高的重要性值分配给具有小的地面距离的样本,而将较少的重要性值留给其他样本。利用这一性质,我们定义了重要性驱动的距离度量通过施加样本的语义信息。具体来说,我们首先定义地面距离可以得到最优运输计划T_n 它是在损失目标优化过程中强调硬正样本和硬负样本的权重概率分布。我们只写一对这里的批处理是明确的。基于所有训练批次的总体数据丢失目标L.4.3. 批量梯度下降优化我们进一步推导出批量最优传输损耗目标的反向传播形式。拟议D3337IJ2IJ损失目标可以嵌入到深度度量学习框架中,使得整个网络可以通过批量梯度下降进行端到端的区分训练。由于分批最佳运输距离(即,Tij M+和Tij M−)是两两地面距离的全连通稠密矩阵,其梯度可以用网络流的方式推导出来。具体来说,我们计算梯度关于嵌入表示f(xi)和f(xj)的相应损失L(xi,xj;f)如下,[33] 和SHREC 14[41]是用于基于草图的3D形状检索的两个大规模数据集。SHREC 13包含7200个手绘草图和1258个来自90个不同类别的3D形状。对于每个类别,50个草图用于训练,其余30个草图用于测试。通常每个类别有14个3D形状。SHREC 14比SHREC 13大,后者有13,680个草图和8,987个来自171个类别的3D形状。每个类别平均有53个3D形状。有8550个L=f(xi)Σnj=1∗Tij(f(xi)−f(xj))(Yij−(Iij−Yij)δij)(九)培训用草图和测试用5,130个 ModelNet[3]是一个大规模的3D形状数据集,其中包含151,128个3D CAD模型,属于660个独特的对象类别L=−f(xj)Σni=1∗Tij(f(xi)−f(xj))(Yij−(Iij−Yij)δij),[62]。ModelNet有两个子集可用于评估。ModelNet10包含来自10个国家的4,899个其中T是从等式(4)获得的优化器。受快速最优距离计算[16,18,21]的启发,我们使用等式(4)中的正则化熵来放松等式(5)中的线性规划。 它允许我们通过T=diag(u)Kdiag(v)在O(n2)时间内近似求解方程(4),其中n是批的大小。这里的δ也是分配给对的二进制指示符令δ ij= 1,当形状x i和x j之间的欧几里得距离在边缘内时(即, ε − ||f(x i)− f(x j)||2>0),否则δ ij=0。 f(x i)和f(x j)是通过深度神经网络获得的特征表示。因此,关于网络的梯度可以很容易地以反向传播的方式用链式规则计算,只要和 推导了 我们也而ModelNet40有12,311个形状,类别 在我们的实验中,我们使用了同样的训练,[62]和[63]中的测试分裂具体来说,我们在每个类别中随机选择了100个独特的形状,其中80个形状用于训练,其余20个形状用于测试。评价:对于检索,我们使用欧氏距离来衡量形状的相似性的基础上,他们的学习由度量网络输出的特征向量,如图2所示。给定来自测试集的查询,根据剩余测试样本与查询样本的距离返回剩余测试样本的排名列表。当展示我们的结果时,我们使用了[63]中的评价标准进行检索这些指标包括最 近 邻( NN )[14], 第 一层 ( FT) [54], 第 二层(ST)[13],E-measure(E)[11],折扣f(xi)f(xj)累积增益(DCG)[27]和平均精度请注意,定义的地面距离G+和G−仅为(mAP)[40]。 对于分类,我们训练了one-vs-all线性ij ij用于确定最优运输计划T,对相似的阳性样本和不相似的阴性样本的重要性进行加权。我们不将它们视为变量来计算用于梯度更新的等式(9)中的梯度。5. 实验在本节中,我们评估了所提出的方法应用于2D图像识别的性能(即,检索和分类)、基于草图的3D形状检索和3D形状识别任务。在我们的实验中使用了六个广 泛 使 用 的 基 准 数 据 集 , 包 括 MNIST[32] ,CIFAR10[30] , SHREC 13[33] , SHREC 14[41] ,ModelNet10和ModelNet40[62]。5.1. 实验设置体系结构:图2展示了具有批量损失目标的深度度量学习的网络架构。数据集:MNIST[32]是一个大型手写数字数据集,它有60,000张28×28黑白训练图像和10,000张测试图像。CIFAR10[30]数据集由10个不同类别的60,000张32×32RGB图像组成,每个类别6,000有50,000张训练图像和10,000张测试图像。SHREC 13SVM [8]使用其特征对2D图像和3D形状进行分类。平均类别准确度[62]用于评估分类性能。参数设置:在我们的2D图像识别中,学习率和批量大小为0。01和64分别。我们的优化器的动量为0。9和0重量衰减率。等式(5)中的正则化参数λ被设置为5。0,而等式(6)中的重新缩放参数γ为10。在基于草图的三维形状检索和三维形状识别实验中,批量大小减少到32。同时,学习率、权重衰减和动量保持与2D中使用的相同实验 我们将正则化参数λ增加到10,其与重新缩放参数γ相同。5.2. 评价我们提出的方法5.2.1二维图像识别首先,我们经验性地评估了我们提出的方法对两个广泛使用的2D图像基准数据集的效果,即,MNIST和CIFAR10。训练图像在每个时期开始时随机混洗。在每个训练步骤中,通过迭代3338MNIST上的分批损失MNIST上的成对损失MNIST上的分批损失MNIST上的成对损失CIFAR10的分批损失CIFAR10的成对损失分类准确度(%)平均精密度(%)平均精密度(%)5580100507098454060963594305092900 10 20 30 4050时期数99.52520150107520 30 40 50时期数40300 10 20 30 40 50时期数70996598.59897.5010 20 30 40 5060555045400 10 2030 40 50循环次数循环次数图3. 左:2DMNIST数据集上分批最佳传输损失和成对对比损失中间:2DCIFAR10数据集上的mAP和准确度曲线比较右:基于草图的3D形状SHREC 13和SHREC 14数据集上的mAP曲线比较。表1. SHREC 13基准数据集上的检索结果表2. SHREC 14基准数据集上的检索结果Sinkhorn的算法20次。在每个时期之后,我们使用到目前为止训练的对称网络计算所有图像特征,用于分类和检索。记录了one-vs-rest线性支持向量机提供的分类准确率和基于测试样本的相似性度量给出的检索mAP图3中的左侧和中间子图显示了关于时期数量的分批最佳传输损耗学习的准确度和mAP曲线。这些图说明了收敛速度和识别性能之间的关系。与两两对比损失法相比在CIFAR10上,它提供了比相应值高约15%和10%通过在50个时期结束时的成对损失来实现。的实证结果表明,重要性驱动的dis-度量学习可以有效地调整权重的分布。 它更注重硬阳性,在训练过程中使用负样本。5.2.2基于草图的三维形状检索然后,我们在两个大规模基准数据集上评估了我们的基 于 草 图 的 3D 形 状 检 索 方 法 , 即 , SHREC 13 和SHREC 14。图3中右侧的两个子图展示了与成对损失目标相比,我们的分批最佳运输损失如图所示,我们的方法分别比SHREC 13和SHREC 14上的成对损失快5倍和3倍同时,检索性能显著高于对比损失目标。我们还将我们的方法与几种主流的3D形状检索方法进 行 了 比 较 , 包 括 CDMR [22], SBR-VC [33], SP[51],FDC [51],Siamese网络[58],[19],[37]而失去了。评价标准包括NN、FT、ST、E、DCG和mAP。SHREC13上的分批损失SHREC 13上的成对损失CIFAR10的分批损失CIFAR10的成对损失605040302010SHREC 14的分批损失SHREC 14上的成对损失0010 2030 4050时期数分类准确度(%)平均精密度(%)平均精密度(%)方法NNFTStEDCG地图方法NNFTStEDCG地图CDMR0.2790.2030.2960.1660.458 0.250CDMR0.1090.0570.0890.0410.3280.054丁苯橡胶-VC0.1640.0970.1490.0850.348 0.116丁苯橡胶-VC0.0950.0500.0810.0370.3190.050SP0.0170.0160.0310.0180.240 0.026DB-VLAT0.1600.1150.1700.0790.3760.131FDC0.1100.0690.1070.0610.307 0.086暹罗0.2390.2120.3160.1400.4960.228暹罗0.4050.4030.5480.2870.607 0.469DCML0.2720.2750.3450.1710.4980.286LWBR0.7120.7250.7250.3690.814 0.752LWBR0.4030.3780.4550.2360.5810.401N对0.6340.6230.7020.3350.750 0.653N对0.3000.2700.3210.1500.4840.289解除0.6880.7050.7740.3630.803 0.734解除0.5130.5380.6340.3000.7110.573我们的方法0.7130.7280.7880.3660.8180.754我们的方法0.5360.5640.6290.3050.7120.5913339分批损失成对损失随机成对损失三重损失平均精密度(%)909085858080757570706565606055555050图4.相对于ModelNet40数据集上各种方法评估的历元数的平均精度(mAP)曲线。左子图示出了用于3D形状检索的四个损失目标的mAP曲线,并且右子图示出了三种加权模式的mAP曲线。mAP每五个历元观测一次,共观测了200个历元。表3.在ModelNet40数据集上与其他基准方法比较批量最优传输损失评价标准方法NNFTStDCGE最大平均接入点(%)准确度(%)个人0.82870.65440.78910.85620.5668百分之六十九点三88.6%成对三胞胎0.83240.69680.80290.86290.592774.1%百分之八十九点一随机0.86880.79480.90480.91400.6601百分之八十三点一89.5%加权平均0.87500.79860.90320.91580.6589百分之八十三点三百分之八十九点七分批随机重新加权0.86880.76730.88460.90510.6445百分之八十三点一89.0%最优加权0.87620.80130.89910.91780.6560百分之八十三点八90.3%表4.ModelNet10和ModelNet40数据集的检索和分类结果方法形状描述符ModelNet10 ModelNet40最大平均接入点(%)准确度(%)最大平均接入点(%)准确度(%)(1)MVCNN [52]基于二维视图的描述符(视图数=12)N/AN/A80.2%89.5%基于二维视图的描述符(视图数=80)N/AN/A百分之七十九点五90.1%(2)礼品[4]基于二维视图的描述符(#Views=64)91.1%92.3%百分之八十一点九百分之八十三点一(3)[62]第六十二话三维体素网格(30×30×30)68.3%83.5%49.2%77.0%(4)[48]第四十八话2D几何图像74.9%88.4%百分之五十一点三百分之八十三点九(5)[45]第四十五话2D全景视图87.4%百分之九十一点一83.5%百分之九十点七(6)[46]第四十六话2D全景视图84.1%85.4%76.8%77.6%(7)N-pair [50]基于二维视图的描述符(视图数=12)77.4%百分之八十六点八67.7%79.1%分批最优再加权分批随机再加权分批均值再加权平均精密度(%)050100150200050100150200时期数时期数3340(8)取消[37]基于二维视图的描述符(视图数=12)88.8%92.5%83.0%91.0%我们的方法基于二维视图的描述符(视图数=12)87.5%百分之九十三点七百分之八十三点八90.3%如表1和表2中所总结的,我们的基于分批最优传输损失的方法相对于SHREC 13和SHREC 14上的几乎所有评估指标实现了最佳检索性能。在比较的方法中,CDMR,DCML,Siamese网络和LWBR都是基于深度度量学习的方法。他们基于样本对测量相似性,并通过不同的池化方案将数据映射相比之下,我们提出的批量优化输运损失目标能正确地对样品的重要性值进行重新加权,主要集中在硬样品上。因此,我们的方法获得了更好的检索性能。其mAP达到0.754,略优于LBWR,明显优于其他方法。此外,我们的方法的优势在SHREC 14上得到了扩大,因为该数据集具有更严重的类内和跨模态变化。因此,我们提出的 方法的 mAP为0。591,0。190,0。302,0。0183341批量数量n2IJIJIJ分别高于LBWR、N对和提升损耗与其他基准方法相比。它只需要几个时期(即,5个时期),以在83. 8%,而地面距离5101520253051015202530批量数量150.8100.6150.4200.22530最佳运输51015202530批量数量0.030.0250.020.0150.010.00590岁的时候很活泼。3%,200代后仍优于其他方法结果表明,在度量学习过程中,学习到的最优运输计划能够根据训练样本的重要性值正确地重新加权。此外,求解方程(5)以学习最优运输计划T_i在实践中不是计算昂贵的单个对损失目标的一个历元所需的平均运行时间为2。51秒,而分批图5.地面距离基于ModelNet40的最优运输计划T_(?)数据集。对于两个批次(每个批次的批量为32)的样品,我们可视化分批地面距离矩阵的值(即,32 × 32)及相应的最优运输方案。最佳运输损失目标为9。02秒。本文分析了嵌入语义信息的地面距离G∈Rn×n和最优运输方案T∈Rn×n在工作中的作用元件∗ 填充了批量相似位置的距离,5.2.3三维物体识别最后,我们在两个大规模的三维形状数据集上验证了所提出的三维形状识别方法,即,Mod-elNet 10和ModelNet 40。成对丢失和三重丢失的缺点是收敛速度慢,因为它们不能同时探索训练批中所有可用的语义信息为了缓解这个问题,我们使用了随机抽样技术(即,在每个时期期间循环地期望基于随机对的损失目标能够充分利用所有信息,使得最终学习的语义度量能够正确地平衡图4中左侧类似地,分批最优传输损耗目标仍然具有显著更快的收敛速率,并且可以在少量时期内实现不错的检索性能(即,5个时期)。我们还研究了两种不同的概率分布,也就是说,均匀分布均值(ν=1)和区间(0,1)内的随机数作为最优运输方案的备选方案。在批量损失中均匀分布的平均值权重意味着样本对于以后的度量学习同样重要。在学习过程中,均匀分布的随机权重随机地将一对批次内的一些样本标记为硬样本。图4中的右侧子图示出了关于这三种重新加权策略的时期数的检索性能的比较结果。结果表明,最优重加权法的收敛速度比其它方法快得多。详细的比较结果总结于表1中。3. 我们在ModelNet40数据集上使用NN,FT,ST,E,DCG和mAP将批量最优传输损失与其他设计的基准方法进行了如图4和表3所示,使用分批最优传输损耗目标的学习具有相当快的收敛速度正样本G+和批量不同负样本G-的距离。图5中的右侧子图显示了远相似的阳性和相邻的不相似的阴性样品(即,硬样本)稀疏分布在我们预定义的地面距离度量G下。左边的子图是最优运输计划,它实际上是一个概率分布[16]。彩色地图显示了学习到的最优运输计划T,T确保了对那些具有小地面距离的少数样本具有更高的重要性权重,而对剩余的样本给予更少的最后,我们将我们的方法与最先进的形状检索和分类方法进行了比较,包括MVCNN [52],GIFT [4]和DeepPano [46]等。详细的比较结果总结于表1中。4. 与这些方法相比,我们基于批量最优传输损耗学习的方法可以在这两个任务上实现(几乎)最先进的性能。6. 结论在本文中,我们提出了一种新的批量最优传输损耗目标来学习重要性驱动的距离度量。学习的距离度量可以根据硬样本的重要性权重有效地强调硬样本。然后,我们将所提出的损失对象公式化为端到端深度度量学习网络进行识别。我们评估了我们的方法与各种视觉识别任务,包括二维图像识别,二维草图为基础的三维形状跨模态检索,和多视图为基础的三维形状识别的性能和可行性。实验结果表明,该方法在提高收敛速度的同时,具有良好的识别性能。我们未来的工作将涉及促进这种趋势,并将这种重要性驱动的距离度量学习应用于更广泛的应用,例如,3D点云分类,分割,3D场景重建,视觉,音频和文本之间的跨模态对应。批量数量G3342引用[1] Google 3D仓库https://3dwarehouse.sketchup.com/,2006年。[2] 大乌贼https://www.turbosquid.com/,2000年。[3] 普林斯顿模型网。http://modelnet.cs的网站。princeton.edu/,2015年。[4] S. Bai,X.白氏Z. Zhou,Z. Zhang和L.扬·拉特克。礼物 : 一 个 实 时 和 可 扩 展 的 3D 形 状 搜 索 引 擎 。 在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,第5023-5032页[5] S. Bell和K.巴拉用卷积神经网络学习产品设计的视觉相似 性 。 ACM Transactions on Graphics ( TOG ) , 34(4):98,2015.[6] J. 布罗姆利岛Guyon,Y. LeCun,E. Sa?ckinge r和R.Shah. 使用“连体”时间延迟神经网络的签名验证。神经信息处理系统进展,第737-744页,1994年[7] A. M. 布朗斯坦M.M. 布朗斯坦湖J. Guibas和M.奥维斯-贾尼科夫。形状谷歌:用于不变形状检索的几何单词和表达式。ACM Transactions on Graphics(TOG),30(1):1,2011.[8] C.- C. Chang和C J. Lin Libsvm:支持向量机库。ACMTransactionsonIntelligentSystemsandTechnology(TIST),2(3):27,2011。[9] S. Chaudhuri和V.科尔顿。3d建模中支持创造性的数据驱动建议ACM Transactions on Graph-ics(TOG),29(6):183,2010.[10] G. 谢奇克河谷夏尔马UShalit和S.本吉奥。通过排名进行 大 规 模 图 像 相 似 性 在 线 学 习 Journal of MachineLearning Research,11(Mar):1109[11] T. Y. Chen,H.Leung和I.小迈自适应随机测试在年度亚洲计算科学会议上,第320329. Springer,2004.[12] S.乔普拉河Hadsell和Y.乐存。区别性地学习相似性度量,并应用于人脸验证。计算机视觉与模式识别,2005年。CVPR 2005。IEEE计算机协会会议,第1卷,第539-546页。IEEE,2005年。[13] N. D. Cornea , M.F. 德 米 尔 奇 角 , 巴 西 - 地 Silver ,S.Dickinson,P.Kan- tor,等.利用曲线骨架多对多匹配的三维物体检索在形状建模和应用,2005年国际会议,第366-371页。IEEE,2005年。[14] T. Cover和P.哈特最近邻模式分类。IEEE transactions oninformation theory,13(1):21[15] Y. Cui,F. Zhou,Y. Lin和S.贝隆吉细粒度分类和数据集自举使用深度度量学习与人类在循环中。在IEEE计算机视觉和模式识别会议论文集,第1153-1162页[16] M.库图里Sinkhorn距离:最佳运输的光速计算。神经信息处理系统的进展,第2292-2300页,2013年[17] M. Cuturi和D.阿维斯地面度量学习。Journal of MachineLearning Research,15(1):533[18] M. Cuturi 和 A. 杜 塞 瓦 瑟 斯 坦 重 心 的 快 速 计 算 。 在International Conference on Machine Learning , 第 685-693页[19] G. Dai,J. Xie,F. Zhu和Y.房.基于草图的三维形状检索的深度相关度量学习。在AAAI,第4002-4008页[20] J. Donahue,Y. Jia,O. Vinyals,J. Hoffman,N. 张先生,E. tzeng和T.达雷尔。Decaf:用于通用视觉识别的深度卷积激活功能机器学习国际会议,第647-655页,2014年[21] C.弗罗格纳角Zhang,H. Mobahi,M. Araya和T. A. 波焦。学习与瓦瑟斯坦损失。神经信息处理系统进展,第2053-2061页,2015年[22] T. Furuy
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功