三维形状草图的检索方法

96 浏览量更新于2023-10-17 收藏 908KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5068基于草图的三维形状检索谢金、戴国贤、朱凡、方毅纽约大学多媒体与视觉计算实验室电子与计算机工程系，纽约大学阿布扎比分校电子与计算机工程系，纽约大学坦登工程学院{jin.xie，guoxian.dai，fan.zhu，yfang}@ nyu.edu摘要基于草图的三维形状检索是一个具有挑战性的问题，因为二维草图和三维形状来自两个异构的领域，这导致它们之间存在很大的在本文中，我们提出了学习重心的二维投影的三维形状的草图为基础的三维形状检索。具体来说，我们首先使用两个深度卷积神经网络（CNN）来提取草图的深度特征对于3D形状，然后计算多个投影的深度特征的Wasserstein重心，以形成重心表示。最后，通过构造一个度量网络，在深特征空间中对三维形状和草图的Wasserstein重心建立一个判别损失，以学习具有判别性和紧凑性的三维形状和草图特征用于检索。在SHREC'13和SHREC'14草图跟踪基准数据集上对所提出的方法进行了评估。与现有的方法相比，本文提出的方法可以显著提高检索性能。1. 介绍随着触摸屏技术的发展，草图作为与平板电脑和智能手机等计算机系统交互的一种方式变得更加容易。基于草图的三维形状检索在计算机图形学和计算机视觉领域受到越来越多的关注[15，13，27，28]。与文本和3D形状查询相比，草图对于用户搜索3D模型是直观和方便的。相对于使用三维形状作为查询的三维形状检索，基于草图的三维形状检索具有更大的挑战性。拉长由于素描是高度抽象和主观画，通常有很大的变化与他们。此外，由于草图和3D形状域之间的差异，2D草图和3D形状之间也存在很大的跨域变化，这通常会降低学习模型的性能。近年来，基于草图的三维形状检索得到了广泛的研究在文献[13]中，提出了一种综合的描述子ZFEC，包括基于区域的Zernike矩、基于轮廓的Fourier描述子、偏心特征和圆形特征，用于描述三维形状的草图和投影。然后，为了对齐草图和3D形状，使用定义的视图上下文选择3D形状的代表性视图。形状上下文匹配用于将草图与具有ZFEC特征的每个所选视图进行比较以进行检索。在[12]中，来自定义视图的3D形状的轮廓被用于表示3D形状。然后，提取三种描述符：边缘局部方向直方图（HELO）、方向梯度直方图（HOG）和傅立叶描述符，用于描述草图和三维形状。具有曼哈顿距离的KD树用于将草图与3D形状的2D投影进行匹配。除了手工制作的特征，基于学习的特征也被提取来表示草图和3D形状，用于基于草图的3D形状检索。在[15]中，接着是Gabor局部线基特征（GALIF），提取特征袋（BOF）直方图来表示3D形状的草图和2D投影。然后以草图的BOF直方图与二维投影的最小距离作为检索的相似度。Fu- ruyaet al. [10]提出了BF-SIFT特征来描述草图和2D投影，这是BOF方法的密集SIFT。通过在草图的特征空间和3D5069+形状，流形排序方法被用来计算草图和2D投影之间的距离用于检索。最近，由于深度神经网络在不同应用中的成功，已经提出了基于草图的3D形状检索的深度特征在[27]中，首先选择两个视图来表征3D形状，其中它们的角度之间的差异然后，使用两个连体卷积神经网络（CNN），一个用于草图域，另一个用于视图域。定义了域内损失和跨域损失，学习用于检索的区分性草图和视图特征Zhu等[28]采用视图不变局部深度尺度不变特征变换（LD-SIFT）[8]来表征3D形状。然后，构造金字塔跨域神经网络，其中来自同一类的两个神经网络的输出层是相同的。来自隐藏层的输出被用作用于检索的学习特征。使用3D形状作为查询的3D形状检索任务也与我们的任务相关在3D形状检索中，Shiet al.[18]提出了用于3D形状检索的深度全景表示，其中CNN被应用于3D形状的全景表示以学习深度形状特征。基于3D形状的2D投影的CNN特征，Baiet al.[1]提出了一种加速多视图匹配的实时形状检索方法在[23]中，通过执行最大视图池化操作，提出了多视图CNN，以从3D形状的多个投影中学习紧凑的形状特征。在大多数上述方法中，检索任务被转换为将草图与3D形状的多个视图匹配的问题（基于草图的3D形状检索）。检索总结起来，我们的主要贡献如下：• 我们建议使用Wasserstein重心的多个投影的三维形状来表征三维形状;• 我们制定了一个深度度量学习模型来学习Wasserstein重心表示;• 我们显着优于国家的最先进的草图为基础的3D形状检索方法在两个大的基准数据集。本文的其余部分组织如下。第二节介绍了Wasserstein距离和Wasserstein重心的背景。在第3节中，我们提出了基于学习的Wasserstein重心表示的草图为基础的三维形状检索。第四节介绍了实验结果，第五节总结了本文。2. 背景在这一节中，我们简要回顾一下瓦瑟斯坦距离的定义，并介绍瓦瑟斯坦重心。2.1. Wasserstein距离Wasserstein距离[3]定义了两个概率分布之间的距离，它出现在最优变换理论[26]中。Wasserstein距离已广泛用于计算机视觉[17，21]和机器视觉[17，21]。学习[16]。设p ∈ Rt×1和q ∈ Rs×1分别为两个概率分布. 交通工具的设置概率分布p和q之间的计划定义如下：trieval）或多视图匹配问题（3D形状检索），其中来自R（p，q）=. T∈Rr×s;T1=p，TT1=q（一）使用3D形状。在本文中，而不是独立地使用多个视图来表征三维形状，我们建议学习Wasserstein重心的多个视图的三维形状的特征空间中的草图为基础的形状检索。希望我们能充分利用信息-其中T是运输计划，1是元素为1的列向量。p和q之间的Wasserstein距离D（p，q）可以定义为以下最佳值：同时显示3D形状的多个视图以表征3D形状。首先，我们将3D形状投影到D（p，q）=最小值T∈R（p，q）（2）一组渲染视图。我们使用两个深度CNN来提取草图和2D投影的CNN特征。然后可以计算2D投影的CNN特征的Wasserstein重心因此，利用度量网络，在特征空间中的三维形状和草图的重心上定义了一个判别损失，它可以同时最大化草图和视图域上的类内相似性和最小化类间相似性.实验再-两个基准数据集的结果表明，有效的-其中M∈Rr×s是p之间的成对距离矩阵和q，称为基度量，是内-M和T的乘积，即，=tr（MTT）.Wasserstein距离D（p，q）可以看作是将p的质量运输到q的质量的最优运输计划的成本。由于在许多情况下，方程中的线性规划问题（2）没有唯一的解，Cuturi[5]提出在Eq. （2）如：所提出的基于草图的3D形状的方法的重要性D（p，q）=最小值T∈R（p，q）+γ T，logT>（3）5070BB我KTat+Byj=1V其中是负熵，γ是正则化参数。问题在Eq。（3）可以有唯一解，最优解可以得到：T=diag（u）Kdiag（v）（4）其中K=e-M/γ，向量u和v可以使用Sinkhorn算法求解[20]。2.2. 瓦瑟斯坦重心一组概率分布的重心pbpi∈Rr×1，i=1，2，···，n，可以定义为[7，6，4]：ΣnargminpbλiD（pb，pi）（5）i=1其中D（pb，pi）是pb和pi之间的Wasserstein距离，λi 是权重。基于熵正则化的 Wasserstein 距离，Benamouet al.[2]提出用Sinkhorn不动点算法求解Eq.（五）、正则化的Wasserstein重心pb可以通过下式获得：我们的Wasserstein重心表示从3D形状的多个投影按照[23]中的设置，我们统一缩放每个3D形状，并将形状的质心放在球坐标系的原点通过将V虚拟相机均匀地放置在3D形状周围，可以获得V渲染视图对于每个视图，我们将3D形状渲染为灰度图像作为投影。一旦获得了3D形状的2D投影，我们就可以提取2D投影的深度CNN特征。在这项工作中，我们使用AlexNet[11]来处理CNN特征，它由五个卷积层和三个全连接层组成。对于每个投影，ReLU非线性激活函数之后的假设有n1个形状，我们用Si来表示第i对于形状Si，我们将来自视图j的投影的深度CNN特征表示为xi，j，j = 1，2，···，V。由于Wasserstein距离是在概率分布的空间中定义的，因此我们需要确保-迭代地计算pt：anteeeachelementxi、j（l）在CNN特征中xi、j是Ynxi，j（l）≥0，且lxi，j（l）= 1。在最后一场全面的...pt=i=1（KTat）λi（六）在AlexNet的演化层中，我们使用ReLU函数，作为动作的动作功能。因此，我们可以正常-电话+1ptt+1pi将xi，j设为lxi，j（l）= 1作为输入来计算ci=b;ai=我Kct+1瓦瑟斯坦重心。考虑到归一化的CNN特征，实xi，j∈RL×1，j= 1，2，···，V，各向同性Wasser-其中pt是瓦瑟斯坦重质因数的第t次迭代t和ct是辅助变量，a1=1，t=这些特征中的stein重心hi∈RL×1保留为：我我我1，2，···，Q，Q是迭代次数r。注意到第1章由方程式（6）xi和x是逐元素乘积，argminhiVD（hi，xi，j）（7）分部行动读者可以参考命题2在[2]和[4]中的命题1中获得更多详细信息。3. 该方法在本节中，我们提出了我们学习的Wasserstein重心的3D形状的草图为基础的3D形状检索。在3.1小节中，我们提出了CNN特征空间中3D形状投影的重心表示。在3.2小节中，我们提出了与学习的Wasserstein重心的跨域3.1. 3D形状的Wasserstein重心表示Wasserstein重心可以用来估计概率分布族的平均值。具体来说，Wasserstein重心已应用于各种视觉问题，例如纹理合成[9]和颜色编辑[4]。由于Wasserstein重心可以很好地捕获高维数据的结构的属性[6]，在这项工作中，我们建议使用来自特征空间中的多个视图的投影的Wasserstein重心来表征3D形状。j=1其中D（hi，xi，j）是hi和xi，j 之间的熵正则化Wasserstein 距离。通过迭代计算Eq. （6），Wasserstein质心h_i可解。图1示出了来自十类3D形状的项目的深度特征的Wasserstein重心的可视化。我们使用t分布随机邻居嵌入（t-SNE）技术[25]将维度减少到2以进行可视化。从这个图中，我们可以看到，在大多数情况下，来自同一类的形状被分组到一起（用相同的颜色标记），而来自不同类的形状被分开。这意味着，虽然有复杂的几何结构变化与3D形状的Wasserstein重心的深功能的投影有潜力代表3D形状区分。值得注意的是，瓦塞斯坦重心hi不同于线性平均值，V1xi，j，对应于基于欧氏距离的重心。特征xi，j的线性平均，作为线性元素方式的操作，不考虑xi，j的几何结构。因此，线性平均在几何上是不明显的。基于我5071Jc㈠c㈠c（j）c（j）尽可能大，并且来自不同类别的特征之间的相似性尽可能小，而在域内，输出z1和z2都是有区别的。I j为此，我们提出以下区别性损失作用：（θ1，θ2）=argminθ，θ1年2ΣΣ z2−z11年2 Σ1 2njji2j=1i∈c（j）max（0，α−MJj=1i∈/c（j）ji2（八）其中max（0，α−<$z2−z1<$2）是铰链损失函数ji2图1. 来自十类3D形状的投影的深度特征的Wasserstein重心的可视化：飞机、闹钟、蚂蚁、苹果、扶手椅、铅笔、斧头、香蕉、谷仓和棒球棒。来自同一类形状的Wasserstein重心用相同的颜色标记。在地面度量上，Wasserstein距离寻求将一个直方图的质量传输到另一个直方图的质量的最佳传输计划，该传输计划考虑了非对应箱的信息。因此，基于惩罚不同类的相似性，c（j）表示特征z2的类别标号，nj和mj是第j个草图的正负形状样本数，L1和L2是实现域内形状和草图特征区分的正则化项，θ1={W1，b1}，θ2={W2，b2}是视图和草图网络，分别，β1和β2是规则-放大参数由方程式在公式（8）中，正则化判别项L1被定义为：Σn1L1=tr（（z1−m1）（z1−m1）T）−Wasserstein距离，作为非线性运算的Wasserstein重心表示可以捕获Σn1我i=1c（i） ic㈠（九）深度特征xi，j更好。3.2. 使用学习的Wasser进行tv（ i=11c㈠ -m1）（m1-m1）T）斯坦重心其中m1是类的形状特征的平均值在本小节中，我们提出学习3D形状的深度CNN特征的Wasserstein重心，以用于基于草图的3D形状检索。如第3.1节所述，我们使用两个AlexNet分别提取2D投影和草图的深度CNN一旦从3D形状和草图中获得CNN特征，我们就使用完全连接的层来构建度量网络。图2标记c（i），m1是来自所有类的形状特征的平均值，第一项是形状特征的类内散布，第二项是形状特征的类间类似于Eq。（9），判别项L2定义为：Σn2L2=tr（（z2−m2）（z2−m2 ）T）−说明了具有两个网络的跨域匹配框架，一个用于草图网络，另一个用于视图网络，Σn2Jj=1c（j） jc（j）（十）工作在视图网络中，对应于不同视图的CNN共享相同的参数。此外，用于草图的AlexNet的结构与tv（ j=12c（j）-m2）（m2-m2）T）AlexNet for 3D shapes. 尽管如此，重量和其中m2是类中草图要素的平均值两个网络的偏差是不同的。构造的度量网络可以将二维投影的Wasserstein重心和草图特征映射到相应的输出。让视图网的输出工作和草图网络是z1和z2，i= 1，2，· · ·，n1，标签c（j），m2是所有类别的草图特征的平均值。在所提出的跨域匹配模型Eq. 在公式（8）中，前两项最小化类内距离，最大化类间距离。I jj= 1，2，. . .、n2、n1和n2是3D形状的数量和草图。在变换的非线性特征空间中，期望跨域，来自同一类的特征z1和z2之间的相似性为跨域功能，同时。正则化项分别最小化3D形状和草图特征的类内分散度和类间分散度。I j（米）（米）50722222日xJxyxx1111瓦瑟斯坦重心度量网络CNNCNNCNN3D形状2D投影查看网络图2.基于草图的三维形状检索的跨域匹配框架通过在多个视图上渲染3D形状，我们提取了2D投影的深度CNN特征。计算深度CNN特征的Wasserstein重心以表示3D形状。利用全连接层的度量网络，我们制定了一个判别损失来学习草图和形状特征，以进行跨域检索。设<$z2−z1<$2为J1（θ1，θ2）。对于素描网络，算法1求取视图中的梯度θJ1（θ1，θ2）ji21998年1月1日J1（θ1，θ2），2、可以很容易地得到-网络WkbkWkbk输入：CNN特征xi，j;视图数V;核矩阵用反向传播方法计算。在视图网中-工作，Wasserstein重心hi（输入的满足，K;梯度<$J1（θ1，θ2）。我从深度CNN特征xi，j(the最终完全连接层）的多个视图。在那里-输出：梯度θ1，θ2。 i、j初始化a1：a1=1，j= 1，2，···，V。因此，可以由θ1，θ2计算出θ1，θ2。假设j j1998年1月1日伊什岛对于t= 1，2，···，Q：Wasserstein重心hi可以在Q1. 计算h：h=QV不t1迭代从Eq。（6）我们可以有i ij=1（Kaj）V;2. 计算ct+1和at+1：θ J1（θ1，θ2）x=1AT<$J1（θ1，θ2）武J Jct+1=hi;i，j iTat+1T TYVat+1=xi，j.Kxi，j1−1（K）1不年q1Kct+1A=[（）VKcQ·· KcQ′（K a′）VjJ′JKT x1J（KT）j=1;j/=jYV用公式计算梯度θ1，θ2。（11）直至─i、j在连续迭代中hi之间的1干扰小于，···，（i，j）V−1·L·（KTaQ）V]′KcQKcQ′j设定阈值。j=1;j/=j（十一）其中（KT）l是Q，矩阵KT的第l列，l=1，2，···，L，x，xi和x·y是元素的运算，用于基于草图的3D形状检索的相似性。世代θJ1（θ1，θ2）的计算i、j总结见算法 1. 类似地，也可以从以下公式计算出i、j1. 一旦获得了<$J1（θ1，θ2）和<$L1，则<$J1（θ1，θ2），4. 实验结果伊什岛1998年1月1日1998年1月1日Wk可以用反推法计算θ J1（θ1，θ2）、θ L1和θ L1在本节中，我们首先评估我们的学习瓦瑟-bkWkbkJJ5073CNN草图草图网络度量网络判别损失CNN中的传播方法一旦视图和草图网络被训练，网络的输出就被用作3D形状和草图的最终特征。对于每个查询草图，草图与3D形状要素之间的欧几里得距离为斯坦重心表示方法的草图为基础的三维形状检索，然后比较它与最先进的草图为基础的三维形状检索方法在两个基准数据集，即，SHREC50744.1. 数据集和实验设置我们在SHREC'13和SHREC'14草图跟踪基准数据集上测试了我们提出的方法。SHREC[15]和普林斯顿形状基准（PSB）[19]。人类绘制的草图数据集由250个类的20000个草图组成，每个类有80个草图。PSB数据集包括训练和测试子数据集，其中分别有92和90类的903个3D形状。通过在人体草图数据集和PSB数据集中寻找共享类，构建了SHREC'13草图跟踪基准数据集，包括90个类的7200个草图和1258个三维形状。对于每个类，这些草图分为两个子集：50个样本用于训练，30个样本用于测试。图3示出了该数据集中的草图示例和对应的形状。图3. SHREC'13草图跟踪基准数据集中的草图示例和相应的3D形状SHREC'14草图跟踪基准数据集是一个大规模的数据集，包含来自171个类的13680个草图和8987个3D形状。每个班级有80个草图，而平均每个班级有大约53个3D模型。草图被进一步分为训练和测试子数据集，分别包含8550和5130个图4显示了该数据集中的一些草图和相应的3D形状示例。从这个图中可以看出，对于每个类别，2D草图和3D形状都有很大的变化由于该数据集中的类内变化很大，基于草图的形状检索任务非常具有挑战性。在我们提出的方法中，对于每个3D形状，每30度使用12个均匀采样的渲染视图来获得2D投影，即，V=12。在草图和视图网络中，深度CNN特征是从AlexNet的“fc7”层提取的，其特征大小为4096。对于度量网络，层设置为 4096-1000- 300-100 。此外，在 Eq.（8）、参数α、β1和β2图4. SHREC'14草图跟踪基准数据集中的草图示例和相应的3D形状分别设置为1、0.0001和0.001。对于每个训练草图样本，我们从同一类中随机选择两个形状样本作为正样本，从不同类中随机选择12个形状样本作为负样本。对于Wasserstein重心的计算，欧几里得距离被用作基础度量，并且γ被设置为80以计算矩阵K。AlexNet中的参数由来自1K类别的ImageNet图像预训练的模型初始化，度量网络中的参数随机初始化。然后，AlexNet和度量网络通过反向传播联合学习以训练参数。我们遵循[13]中的实验设置，使用50个草图作为训练样本，每个类使用30个草图作为查询。此外，训练样本和查询样本不重叠。我们使用以下标准来评估我们提出的方法：准确率-召回率曲线（PR曲线）、最近邻（NN）、第一层（FT）、第二层（ST）、E-度量（E）、折扣累积增益（DCG）和平均平均准确率（mAP）。4.2. 拟定方法的评价为了证明所提出的方法的有效性，我们将所提出的方法与SHREC'14基准数据集上来自多个视图的CNN特征的最大在[23]中，作者提出了用于3D形状检索的多视图CNN结构。在最后一个卷积层中，执行跨视图的逐元素最大化操作以形成最大视图池化层。 “fc7”层中的要素用作用于三维形状检索的形状描述符。我们在视图网络中的视图之间执行相同的最大视图池操作，以获得深度CNN特征来表示3D形状。然后，我们使用构造的度量网络学习最终的草图和形状特征的草图为基础的三维形状检索。我们将我们学到的Wasserstein重心表示方法与5075SHREC'14基准数据集上的多视图CNN，用于基于草图的形状检索。基于草图的形状检索的学习Wasserstein重心表示方法表示为LWBR。图5示出了最大视图池化操作和所提出的LWBR方法的查准率-查全率曲线。从图中可以看出，当然，与最大视图池操作相比，我们提出的LWBR可以获得更好的性能。在最大视图池方法中，跨视图的最大元素操作不能同时利用所有视图的信息尽管如此，在我们提出的方法中，Wasserstein重心表示可以被看作是一个高度非线性变换上执行的所有视图，它可以充分利用所有视图的信息。在在变换后的非线性空间中，Wasserstein重心表示可以更好地表征多视图特征所在的流形，这可以导致更好的检索性能。0.450.40.350.30.250.20.150.10.05DCG和mAP。比较结果见表。1. 与这些方法相比，我们提出的LWBR方法可以显着提高检索性能。0.80.70.60.50.40.30.20.100.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1召回图6.在SHREC'13基准数据集上的FDC、EFSD、SBR-VC和建议的LWBR方法的精确度-召回率曲线。表1. SHREC'13基准数据集上的检索结果00.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1召回图5.在SHREC'14基准数据集上的最大视图池化操作和所提出的LWBR方法的精确度-召回率曲线4.3. 与现有技术方法的4.3.1SHREC对于SHREC'13草图跟踪基准数据集，我们将我们提出的LWBR方法与几种最先进的方法进行比较：3D模型上的傅立叶描述符silhouettes（FDC）[12]，空间邻近方法（ SP ） [22]，基于边缘的傅立叶光谱描述符（EFSD ）[12]，基于草图的检索方法与视图聚类（SBR-VC）[12]，跨域流形排名方法（CDMR）[10]和暹罗网络（暹罗）[27]。我们使用PR曲线、NN、FT、ST、E、DCG和mAP对这些方法进行了评价。FDC、EFSD、SBR-VC和建议的LWBR方法的PR曲线如图所示。六、从该图中可以看出，所提出的LWBR方法的性能我们还比较了我们提出的LWBR方法与CDMR，SBR-VC，SP，FDC和Siamese方法的NN，FT，ST，E，在这些方法中，CDMR、Siamese和提出的LWBR方法采用度量学习来进行基于草图的三维形状检索。在CDMR和Siamese方法中，分别学习来自多个视图的特征，并将查询草图与三维形状的多个视图在特征空间中的最小距离作为相似度进行检索，这意味着视图独立地与这些方法不同的是，通过学习多个视图的Wasserstein重心，我们提出的LWBR方法可以同时聚合所有视图的信息，形成一个有区别的表示三维形状。因此，我们提出的LWBR方法可以获得更好的性能。例如，我们提出的方法可以获得0.752的mAP，而CDMR和Siamese方法可以分别获得0.250和0.469的mAP4.3.2SHREC我们还将我们提出的LWBR方法与SHREC'14草图跟踪基准数据集上的几种最先进的方法进行了比较：跨域流形排序方法（CDMR）[10]，基于草图的检索方法与视图最大视图-合并建议的LWBR精度建议的青野LWBR（EFSD）Li（SBR−2D−3D_NUM_50）Li（SBR−VC_NUM_50锂（SBR−VC_NUM_100）Saavedra（FDC）精度方法NNFTStEDCG地图CDMR[10]0.279 0.203 0.296 0.166 0.458 0.250SBR-VC[12] 0.164 0.097 0.149 0.085 0.348 0.116SP[22]0.017 0.016 0.031 0.018 0.240 0.026FDC[12]0.110 0.069 0.107 0.061 0.307 0.086[27]第二十七话0.405 0.403 0.548 0.287 0.607 0.469LWBR0.712 0.725 0.785 0.369 0.814 0.7525076聚类（SBR-VC）[12]、局部聚集张量的深度缓冲向量（DB-VLAT）[24]、方向梯度直方图的重叠金字塔（SCMR-OPHOG）[14]、基于BOF结的扩展形状上下文（BOF-JESC）[14]、暹罗网络（暹罗）[27]。我们还用PR曲线、NN、FT、ST、E、DCG和mAP等方法对这些方法进行了评价。从图中绘制的PR曲线。7，可以看出，当召回率小于0.75时，本文方法的查准率高于这几种方法。然而，当召回率大于约0.75时，所提出的方法的精确度略低于SCMR-OPHOG方法的精确度。与NN、FT、ST、E、DCG和mAP的比较结果也列于表中。二、虽然SHREC'14草图跟踪基准数据集是非常具有挑战性的，我们提出的方法可以显着特别地，与基于深度学习的方法（诸如Siamese）相比，所提出的LWBR可以实现0.401的mAP，而Siamese方法可以实现0.228的mAP。0.40.350.30.250.2最终的mAP分别为0.325、0.363、0.390和0.401。可以看出，当视图数量增加时，检索性能可以得到改善。然而，如果渲染的视图太多，计算成本是昂贵的。5. 结论在本文中，我们提出了学习Wasserstein重心表示的三维形状的草图为基础的三维形状检索。我们使用两个AlexNet分别提取3D形状的草图和投影的深度CNN特征。计算多个投影的深度CNN特征的Wasserstein重心以表示3D形状。然后，我们构建了一个度量网络来学习Wasserstein重心检索制定一个歧视性的损失在草图和形状域。度量网络的输出被用作检索的最终特征。实验结果表明，我们提出的方法可以产生良好的性能SHREC'13和SHREC'14草图跟踪基准数据集。在未来，我们将研究采用各向异性Wasserstein重心表示来表征三维形状的多个投影。此外，我们将研究如何有效地学习各向异性的Wasserstein重心的三维形状检索。0.150.10.0500.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.91召回引用[1] S. Bai，X.白氏Z.Zhou，Z.Zhang和L.扬·拉特克。礼物：一个实时和可扩展的3D形状搜索引擎。在IEEE计算机视觉和模式识别会议上，美国内华达州拉斯维加斯，第5023-5032页图7. CDMR、SBR-VC、SCMR-OPHOG、BOF-JESC和建议的LWBR方法在SHREC表2. SHREC'14基准数据集上的检索结果方法神经网络、傅立叶变换、ST E、DCG、mAPCDMR[10] 0.109 0.057 0.089 0.041 0.328 0.054SBR-VC[12] 0.095 0.050 0.081 0.037 0.3192017年12月24日星期一[27]第二十七话0.239 0.212 0.3160.403 0.378 0.455 0.236 0.581 0.401最后，我们通过设置不同数量的渲染视图，在SHREC'14基准数据集上进行了基于草图的三维形状检索实验通过改变3D形状周围放置的虚拟相机的数量，可以获得不同数量的渲染视图。在这个实验中，我们将视图数V设置为3、4、6和12，对应于每120、90、60和30度放置虚拟相机。在3、4、6和12个渲染视图的情况[2] J. 贝纳穆湾Carli er，M.库图里湖Nenna和G.我来吧。正则化运输问题的迭代布雷格曼投影。中国日报. 科学计算，37（2），2015年。[3] V. I. Bogachev和A.科列斯尼科夫Monge- Kantorovich问题：成就、联系和前景。Russian Math Surveys，67（5）：785，2012.[4] N. Bonneel，G. Pe y re′和M. 库图里 Wasserstein质心坐标：直方图回归使用最佳传输。ACM Trans. Graphics，35（4）：71，2016.[5] M.库图里Sinkhorn距离：最佳运输的光速计算。神经信息处理系统的进展，太浩湖，内华达州，美国，第2292- 2300页，2013年[6] M. Cuturi和A.杜塞瓦瑟斯坦重心的快速计算。在机器学习国际会议上，中国北京，第685-693页[7] M. Cuturi和G. P E Y RE'。变分wasserstein问题的光滑对偶方法中国日报. Imaging Sciences，9（1）：320 -343，2016。[8] T. Darom和Y.凯勒三维网格模型的尺度不变特征。IEEETrans. Image Processing，21（5）：2758拟议的LWBR Furuya（CDMR（Furuya =0.1，λ =0.6））SMFuruya（CDMR（日本） =0.05，λ=0.6））SMFuruya（CDMR（日本） =0.05，λ=0.3））SMLi（SBR−VC（λ=1））Li（SBR−VC（λ=1/2））Tatsuma（OPHOG）Tatsuma（SCMR−OPHOG）Zou（BOF−JESC（FV_PCA32_Words128））精度5077[9] S. Ferradans，G. Xia，G. Pey y re'和J。奥乔尔静态和动态纹理混合使用最佳传输.在Scale Space and VariationalMethods in Computer Vision 中， Schloss Seggau ，Leibnitz，Austria，第137-148页[10] T. Furuya和R.大渊基于草图的3D模型检索的跨域man-ifold排名。网络世界国际会议，日本横滨，2013年，第274- 281页[11] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。神经信息处理系统的进展，太浩湖，内华达州，美国，第1106-1114页[12] B. Li，Y.Lu，中国茶条A.Godil，T.Schreck，M.Aono，H.Johan，J.M. Saavedra和S. 田代Shrec 在EurographicsWorkshop on 3D Object Retrieval，Girona，Spain，第89-96页[13] B. Li，Y.Lu，中国茶条A.Godil，T.施雷克湾Buberg，A.费雷拉T. Furuya，M.J. 丰塞卡H.Johan，T.松田河大渊，P. B. Pascoal和J.M. 萨维德拉基于草图的三维形状检索方法比较计算机视觉和图像理解，119：57[14] B. Li，Y.Lu，C.Li，长穗条锈菌A.Godil，T.Schreck，M.青野M. Burtscher，H.傅氏T.Furuya，H.Johan，J.柳河，巴西-地大渊，A. Tatsuma，和C.邹。扩展的基于草图的大规模三维形状检索。在 Eurographics Workshop on 3D ObjectRetrieval，Strasbourg，France，第121-130页[15] E.马蒂亚斯河罗纳德湾Tamy，H. Kristian和A.马克基于草图的形状检索。ACM Trans. Graphics，31（4）：31：1[16] A. Rolet，M. Cuturi和G. P E Y RE'。平滑瓦瑟斯坦损失的快速字典学习在人工智能和统计学国际会议上，加的斯，西班牙，第630-638页[17] Y.鲁布纳角Tomasi和L.吉巴斯地球移动器的距离作为图像检索的度量。国际计算机视觉杂志，40（2）：99[18] B. Shi，S.白氏Z. Zhou和X.柏Deeppano：用于3D形状识别的深度全景表示。 IEEE Trans. Signal ProcessingLetters，22（12）：2339[19] P. Shilane，P. Min，M. M. Kazhdan和T. A.放克豪瑟普林斯顿形状基准。在International Conference on ShapeModeling and Applications，Genova，Italy，第167-178页[20] R.辛克霍恩列和与行和预先给定的矩阵的对角等价性.美国数学月刊，74（4）：402[21] J. Solomon，F.de Goes，G.你好，先生。Cuturi，A.布彻河，A.阮氏T. Du和L.吉巴斯卷积wasser-stein距离：几何域上的有效最优传输ACM Trans. Graphics，34（4）：66，2015年。[22] P. M. A. Sousa和M. J. Fonseca利用空间邻近度进行草图检索。Journal of Visual Languages and Computing，21（2）：69[23] H. Su，S. Maji、E. Kalogerakis和E. G.学习米勒。用于3D形状识别的多视图卷积神经网络。IEEEInternationalConference on Computer Vision，Santiago，Chile，第945-953页5078[24] A. 辰间，H.Koyanagi和M.青野用于3D对象检索的大规模形状基准：丰桥形状基准。在Asia-Pacific Signaland Information Processing As-sociation Annual Summitand Conference，Hollywood，CA，USA，第1-10页[25] L. van der Maaten和G.辛顿使用t-SNE可视化高维数据Journal of Machine Learning Research，9：2579[26] C. 维拉尼最佳运输：新旧。施普林格，柏林，2009年。[27] F. 王湖，加-地Kang和Y.李使用卷积神经网络进行基于草图的3D形状在IEEE计算机视觉和模式识别会议上，美国马萨诸塞州波士顿，第1875-1883页[28] F. Zhu，J. Xie，and Y.房.学习跨域神经网络用于基于草图的3D形状检索。在AAAI人工智能会议上，美国亚利桑那州凤凰城，第3683-3689页

下载后可阅读完整内容，剩余1页未读，立即下载