基于草图的三维形状检索

95 浏览量更新于2023-10-13 收藏 1019KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于草图的三维形状检索陈嘉欣1、2[0000−0002−1781−2625]和方毅 1、2[0000−0001−9427−3883]1纽约大学多媒体与视觉计算实验室电子与计算机工程系，纽约大学阿布扎比分校，阿联酋2电子与计算机工程系美国纽约工程网址：chenjiaxinX@gmail.com，yfang@nyu.edu抽象。由于2D草图和3D形状之间的大的跨模态差异，通过草图检索3D形状是显著具有挑战性的任务。为了解决这个问题，我们提出了一个新的框架来学习一个有区别的深度跨模态适应模型。具体地，我们首先分别采用两个度量网络，跟随两个深度卷积神经网络（CNN），以基于重要性感知度量学习方法来学习随后，我们明确地引入了一个跨模态转换网络来补偿两种模态之间的分歧，它可以将2D草图的特征转换到3D形状的特征空间。我们开发了一种基于对抗学习的方法来训练转换模型，同时增强两种模态的数据分布之间的整体相关性，并通过最小化跨模态平均差异项来减轻局部语义分歧在SHREC 2013和SHREC 2014数据集上的实验结果清楚地表明，与最先进的方法相比，我们提出的模型具有更好的检索性能关键词：基于草图的3D形状检索·跨模态变换·对抗性学习·重要性感知度量学习。1介绍在过去的几年中，由于实际工业应用（例如虚拟现实、基于LiDAR的自动驾驶汽车）的需求不断增加，3D形状数据出现了爆炸性增长。三维形状相关技术是近年来研究的热点。从给定的数据库中检索特定类别的3D形状是基于3D形状的应用程序的基本问题之一。大量的努力已经投入到3D形状检索的3D模型[29，31]，这是直观的，但难以获得。另外，手绘草图是一种更方便的人机交互方式CNN网络二维草图的二维草图1i、j不i、j11mtr二维草图1i、j2D投影3D形状i、j2i、j23D形状的CNN网络基于批量最难训练样本挖掘的重要性度量学习地铁培训{2 ，2i，i、j{（tj，2）}和检索计算所述距离3D形状的度量网络mtr2tRNS跨模态转换网络基于批量最难训练样本挖掘的重要性度量学习算法地铁培训{1 ，1平均视图-合并度量CNN度量2J.Chen和Y. 方培训培训：#1：跨模态相关性增强：具有类感知的对抗学习跨模态平均差异最小化t21i，ji，ji，j#2：语义保持：语义保持度量学习图1.一、我们提出的方法的框架我们的模型由CNN网络组成1CNN 和度量网络F12D草图，CNN网络f2和公制网络F23D形状的渲染图像，以及交叉模态变换网络用于每个单个模态的CNN和度量网络（即、2D草图或3D形状）通过挖掘最难的训练样本由重要性感知度量学习来训练。交叉变换网络ftrans的训练是通过在自适应后强制草图特征保持语义来实现的。同时，采用具有跨模态平均差异最小化的对抗学习来增强草图的变换特征和3D形状的特征的数据分布之间的局部和整体相关性数据收集和处理系统的发展，特别是随着智能手机和平板电脑等触摸板设备的使用急剧增加因此，基于草图的3D形状检索，即基于草图的三维形状搜索方法已经引起了越来越多的关注[3，15，28，30]。手绘草图具有简洁、获取方便等优点，但在三维形状检索应用中仍然存在两个不足，使得基于草图的三维形状检索成为一项极具挑战性的任务。首先，草图通常是在不受控制的环境中主观绘制的，导致严重的类内变化，如图所示3.第三章。其次，草图和3D形状具有异构的数据结构，这导致大的跨模态差异。已经提出了各种模型来解决上述两个问题，这些模型可以大致分为两类，即：基于表示的方法和基于匹配的方法。第一类旨在为草图和3D形状提取鲁棒特征[3，4，12，15，28，30，35，36]。然而，由于草图和3D形状的异质性，这是相当困难的，以实现模态不变的歧视性表示。另一方面，基于匹配的方法专注于开发用于计算草图和3D形状之间的相似性或距离的有效模型，其中基于深度度量学习的模型[2，28，30]已经实现了最先进的性能。从来没有-F基于草图的3D形状检索的深度跨模态适应3然而，这些方法未能探索不同训练样本的不同重要性此外，它们只能通过选择跨模态的数据对或三元组来增强局部跨模态相关性，而不考虑整体数据分布。因此，所学习的深度度量可能不太具有区分性，并且缺乏对看不见的测试数据的泛化。为了克服现有工作的缺点，我们提出了一种新的模型，即深度跨模态适应（DCA），基于草图的三维形状检索。图1显示了我们提出的模型的框架。我们首先构建两个单独的深度卷积神经网络（CNN）和度量网络，一个用于草图，另一个用于3D形状，以通过重要性感知度量学习（IAML）来学习每种模态的区别性模态特定特征通过挖掘每个小批量中最难的样本进行训练，IAML可以探索训练数据的重要性，从而更有效地学习判别表示。此外，为了减少草图的学习特征和3D形状之间的大的跨模态分歧，我们明确地引入跨模态变换网络，以将草图的特征转移到3D形状的特征空间中开发了一种具有类感知的跨模态平均差异最小化（CMDM-AL）的对抗学习由于CMDM-AL能够增强草图的传输数据和3D形状数据的分布之间的相关性，因此我们的模型可以以整体的方式补偿跨模态差异IAML也被应用到转换后的数据，以进一步保持适应后的草图数据的语义结构本文的主要贡献有三个方面：1) 我们提出了一种新的深度跨模态适应模型，通过语义保持对抗学习。据我们所知，这项工作是第一个将对抗学习纳入基于草图的3D形状检索的工作。2) 我们开发了一种新的基于对抗学习的方法来训练深度跨模态适应网络，该方法同时减少了数据分布的整体跨模态差异，并增强了跨模态的局部数据批次的语义相关性。3) 我们显着提高现有的国家的最先进的草图为基础的3D形状检索方法在两个大型基准数据集的性能。2相关工作现有的基于草图的三维形状检索研究主要集中在建立草图和三维形状的模态不变表示和判别匹配模型。采用各种手工特征，例如Zernike矩、基于coutour的傅立叶描述符、偏心率特征和圆形特征[16]、基于弦轴变换的形状描述符[32]、HoG-SIFT特征[33]、局部改进的方向梯度直方图金字塔（iPHOG）[14]、稀疏编码空间金字塔匹配特征（ScSPM）、局部深度尺度不变特征变换（LD-SIFT）[36]。此外，开发了许多基于学习的功能CNNCNN度量度量4 J.Chen和Y. 方包括具有Gabor局部线基特征（GALIF）的特征袋（BoF）[13]，具有BOF的密集SIFT [4]。同时，还开发了大量的匹配方法，例如流形排名[4]，动态时间规整[32]，基于稀疏编码的匹配[33]和自适应视图聚类[12，14]。最近，已经开发了各种深度模型用于特征提取和匹配，这与我们提出的方法密切相关在[28]中，采用两个连体CNN通过最小化模态内和跨模态损失来学习草图和3D形状在[36]中，使用金字塔跨域神经网络来补偿跨域分歧。在[2]和[31]中，应用Siamese度量网络来最小化模态内和跨模态类内距离，同时最大化类间距离。在[31]中，另外采用Wasserstein重心来聚合来自3D模型的渲染图像的多视图深度特征。然而，这些方法仅减少了局部跨模态发散。他们未能消除跨模态的数据分布的偏移。相比之下，我们提出的模型采用基于对抗学习的方法来以整体方式减轻两种模态的分布之间的差异，同时通过引入类感知的平均差异项来解决局部分歧问题此外，我们应用IAML挖掘不同的训练样本的重要性与我们的工作相关的另一个工作分支是跨域适应[1，5，20，27]，特别是针对do的监督判别对抗学习主要适应。在[5，17，18，27]中，开发了各种对抗性判别模型用于域适应。这些方法的基本思想是通过采用域鉴别器和对抗性损失来重新移动源域和目标域之间的域移位。然而，这些工作集中在目标域中几乎没有标记数据可用的情况下（尽管源域中有丰富的标记数据），并且无法联合探索两个域的局部判别语义结构，使得它们不适合我们的任务。在[34]中，作者还明确采用了转换网络将数据从源域传输到目标域，其中通过对抗性损失来减轻跨域分歧然而，他们使用的是手工制作的特征，而我们的模型使用深度CNN来学习特定于识别模式的特征，并将它们与转换网络集成为一个整体。此外，我们引入了一个类意识的跨模态平均差异项，原来的对抗性损失。该术语可以增强跨模态的数据分布的语义相关性，以及去除域移位，这在很大程度上被现有的工作所忽视。3深度跨模态适应如示于图1，我们提出的框架主要包括五个组成部分-元素，包括用于2D草图的CNN网络（由f1表示）和用于3D形状（由f2表示），2D草图的全连接度量网络es（由f1表示）和3D形状（由f2表示），以及1，KC加入1C和KCNNCNN度量基于草图的3D形状检索的深度跨模态适应5跨模态变换网络ftrans，其参数为1CNN2CNN1度量2度量和θtrans。与大多数现有的深度学习方法类似，我们通过迷你-分批为了更方便地描述我们自己的方法，我们以与随机采样略有不同的方式从整个训练数据中具体来说，对于2D草图，我们首先随机选择C类，然后科尔埃克湾请将图像保存在计算机上。最终，这些数据将由I1=1一，一、···、I1、···、I1、···、I11C×K的大小，其中对应的-类标签由Y={yi，···，yi，···，yC，···，yC}表示。后同样，一批3D形状O={O1， 1，···，O1，K，···，OC，1，···，OC，K}是2与标签Y ={y1，···，y1，···，yC，···，yC}一起构造。押-在描述3D形状时，我们利用广泛使用的多视图表示作为在[2，24，30]中，即将3D形状投影到来自围绕3D形状均匀划分的Nv个渲染视图的Nv个灰度图像的像素颜色是通过内插多晶的反射强度来确定的3D图形的几何形状。eflectionmodel[19]. Thereafter，wΣe可以将O表示为一批图像I2=I2，· · ·， I22、···、I2，···，I，.Σ1，11，KC加入1C和K2其中i，j =2i，j，vNvv=1 由Nv（本文中使用Nv=12） 2D渲染3D形状Oi，j的图像。如图所示1，我们为s训练CNN和度量网络ketches，即，f11度量，共同采用重要性感知方法-riclearning（IAML）。这种方法可以探索最难的训练样本-小批量生产 CNN和3D形状的度量网络，即，f2和2度量，也以同样的方式训练跨模态转换网络-工作θtrans通过保留变换特征的语义结构来学习，并采用基于对抗学习的训练策略，具有类感知的跨模态平均差异最小化。在本文的其余部分，我们将详细说明所提出的方法的训练细节，包括重要性感知度量学习，语义对抗学习和优化算法。在不失一般性的情况下，所有损失函数都是基于图像批次I1和I2来制定的，这可以很容易地扩展到整个训练数据。3.1重要性感知特征学习给定一个小批量Im，在连续地将Im通过CNN网络之后MCNN 以及度量网络fm，我们可以得到一组特征向量：Z m。 MmMmΣ=z 1，1，···，z 1，K，···，z C，1，···，z C，K、其中m∈{1，2}，并且对于i=1，···，C，j=1，···，K11号。11Σ2二、22 Σzi，j =f度量fCNN（Ii，j），zi，j=f度量 fCNN（Ii，j）。理想情况下，为了学习每种模态的区分特征（即，2D草图或3D形状），批次内的类间距离Zmθ，θ，θ，θ我我和fFFi、ji，pi、jIAMLCNN度量¨i、j6 J.Chen和Y. 方需要大于类内距离。为了实现这一点，我们采用以下损失函数进行重要性感知度量学习[8]：mIAMLMCNNM度量}; Zm）我知道。Σ¨¨ ¨ ¨ΣΣ（一）=max 0，η−¨ zm− zm¨−¨zm− zmij=1i、ji*，n 2i、ji，p 2哪里zm* =argmin¨zm− zm¨（2）i*，n¨′i∈{1，···，C}，yi′i=yi，n∈{ 1，···，K}i、j′i，n2米米zi，p = argmaxp∈{1，···，K}，pi=j¨zi，j−zi，p¨2，（3）并且η >0是常数。从Eq.（2），对于某个锚点zm，zmZm是i，ji*，n*的那些样本中具有到zm的最小欧几里得距离的样本不同的班级从EQ。我们可以看到，z m* 是属于同一类的样本中与zm具有最大欧氏距离的样本i，j作为ZM。换句话说，¨zm− zm¨和¨zm− zm¨表示最大i、ji、ji*，n*2i、ji，p*2类间欧氏距离和最小类内欧氏距离相对于批Zm内的zm。因此，zm和zmi、ji，pi*，n最好的方法是“had des t p os i t v e“，而”had des t n egat i t v e“则是”ampl e sw“。R. t.zm，并且在训练期间应给予更高的重视现有的基于深度相比之下，我们应用IAML来探索小批量中最难的正面和负面训练样本，同时强制它们与语义一致因此，在本发明中，我们的方法可以更有效地学习判别特征。¨通过最小化等式中的Lm(1)，¨zm− zm¨−¨ zm− zm¨被迫IAML¨∗∗¨i，j¨i，n2¨i，ji，p*2大于η，即，¨zm− zm<$<$z m-zm<$> η。也就是说，i、ji*，n*2i、ji，p*2通过最小化Lm，最小类间距离被强迫较大比特征空间中的最大类内距离大，同时保持一定裕度η。因此，我们可以训练CNN网络f和度量网络以生成针对每种模态的区别性特征。3.2基于对抗学习通过最小化损失来应用重要性感知度量学习L1和L2，我们可以学习草图和形状的区别特征IAML1即，{z，i，jIAML}和{z 2}。但是，由于存在很大的差异-不同模态的数据分布之间，直接使用{z1}和{z2}i、j用于跨模态检索将导致极差的性能。i、j为了解决这个问题，我们提出了一个跨模态变换网络ftrans，以适应学习功能的2D草图的3D形状的特征空间与跨模态差异去除。L（{θ，θi、ji、ji、ji、ji、ji、j伪造数据3D形状↑鉴别器的实际数据3D形状对抗式学习类感知跨模态平均差异最小化~（|）的方式22~2（2|）2∈1，≠ji、ji，i，*= m−2i′∈1，i′≠in∈{1，，}，ni*∗i，∗i、ji′，n=MN−i*，n*i、ji、j重要性意识度量学习语义保持项：挖掘最难训练样本的重要性感知度量学习跨模态转换后的数据分布基于草图的3D形状检索的深度跨模态适应7图二.关于训练跨模态转换网络的图示。将重要性感知度量学习应用于草图的变换特征以保持语义结构。开发了一种基于对抗学习的方法，以减少两种模态（即草图和3D形状）。同时最小化类感知平均差异项，以进一步加强跨模态的局部分批特征之间的这里，具有实心（虚线）边界框的形状没有边界框的形状指示3D形状的真实数据不假设Z不={ zt}是草图Z1 ={z1}的变换特征，其中类标签Y ={y1，···，y1，···，y C，···，y C}，其中z i，j = ftranss（z i，j|θtrans）对于i ∈ {1，···，C}，j ∈ {1，···，K}. 理想情况下，变换后的特征{z t}应具备以下条件，以保证良好的性能-跨模态检索任务的性能：1) {zt }应该是语义保留的，即，保持小的类内距离和大的类间距离。2) {z t}应具有与{z 2}相关的数据分布，即《The Learned》3D形状的特征。第一个属性旨在迫使变换后的特征保持语义，而第二个属性试图通过加强两种模态的数据分布之间的相关性如图2）通过重复利用重要性感知度量学习来实现1），引入语义保持项。并且为了实现2），我们采用基于对抗学习的跨模态相关性增强项，其具有类别感知的跨模态平均差异最小化。我们将在本节的其余部分详细介绍上述两个术语。¨¨8 J.Chen和Y. 方语义保持项为了保持语义结构，即，保持小（大）类内（类间）距离，我们将先前引入的重要性感知度量学习的损失应用于转换后的数据：我知道。Σtt ¨ttéΣΣLSeP（θtranss）=i=1j =1Max0，η−¨zi，j−zi∠，n∠¨2−¨zi，j−zi，p∠¨2、（四）哪里zt* =argmin¨¨zt-zt¨（5）i*，n′i∈{1，···，C}，y′我¨yi，n∈{1，···，K}i、j′i，n2t¨ t¨zi，p =argmaxp∈{1，···，K}，p¨zi，j−zi，p¨2，（6）J并且η >0是常数。交叉模态相关增强项生成对抗网络（GANs）最近已经成为生成合成数据的有效方法其基本思想是基于博弈论训练两个竞争网络，生成器G和BND。生成器G被训练为从来自噪声向量v的数据分布px（x）训练判别器D以区分由G生成的合成数据和从px（x）采样的真实数据。训练GAN的问题如下：min maxLGAN：=Expx（x）[log（D（x））]+Evpv（v）[log（1−D（G（v）]，（7）G D其中pv（v）是v上的先验分布。文献[6]指出，方程（1）中的两人博弈的全局均衡是不确定的。当且仅当px（x）=pg（x），其中pg（x）是生成数据的分布。在我们的模型中，我们把转换网络ftrans当作生成元G。假设 pi（z1）、p2（z2）和pt（zt）分别是草图、3D形状和变换后的数据（由z1、z2和zt表示）的学习特征的分布通过解决以下问题min maxEz2p2（z2）log（D（z2））Σ+Ez1p1（z1）log（1 −D（ftrans（z1Σ）））、（8）f反式 D我们可以期望pt（z t）= pt（ftranss（z 1））= p2（z 2），即如果问题（8）达到全局平衡，则变换后的数据zt具有与3D形状的z2相同的数据分布。因此，可以减少跨模态差异传统上，问题（8）通过交替地优化ftranss和D通过最小化以下两个损失函数：LG=Ez1p1（z1）Σ log（1−D（zt）Σ，（9）L D= −Ez2p2（z2）Σ log（D（z 2））Σ − Ez1p1（z1）Σ log（1 −D（z t））Σ。（10）到目前为止，我们已经训练了一个变换网络ftranss，使得pt（z t）p2（z2），通过最小化LG和LD.尽管分布上的分歧草图的转换特征和3D模型特征的选项可以ΣΣ2i、jQIAMLIAML2，L2基于草图的3D形状检索的深度跨模态适应9对抗性学习减少，跨模态语义结构没有考虑在内。为了解决这个问题，我们进一步引入了以下术语，即类感知跨通道均值差异LCMD= Σ¨ezt|y）yΣtΣz-Ez2p2（z2|y）Σ2Σ¨z¨，（11）到对抗学习，其中y是类标签。通过最小化LCMD，来自草图模态的类别y的平均特征向量被迫接近来自3D形状模态的相同类别的平均特征向量。在实践中，假设最小批Zq ={ zqC和Ki=1，j=1（q∈{2， t}），项Ezq pq（zq |y）[z]可以通过分批平均特征向量来近似，q1ΣKq即，Ezqpq（zq|y）[z ]Kj=1，ci= yzi，j。通过最小化损失L_AL=L_G+L_CMD，我们可以获得ad-交叉模态均值差异最小化（CMDM-AL）的对抗学习方法，可以增强跨模态的语义相关性通过结合语义保持损失LSeP和跨模态相关性增强损失LAL，我们最终得到用于训练ftrans的损失函数：L T（θtrans）= L SeP+（L G+ L CMD）。（十二）3.3优化由方程式（1）定义了损失函数L1. 1联合培训费（θ1 ），1 1ΣIAML.CNNCNNf度量（θ度量）损失函数L2训练2CNNCNN）、2度量公制）3D形状。我们还开发了一个损失函数LT的火车-在等式2中使用跨模态变换网络ftrans（θtrans）。（十二）、为了学习所提出的模型的参数，我们优化不同的网络在交替迭代的方式。具体来说，我们首先对CNN进行预训练以及草图和3D形状的度量网络，基于当量（1），并且预训练跨模态变换网络。最小化Σg的rkLT和LD。在初始化之后，我们然后交替地更新θ1、θ2、θ 3和θ 4。. 1 1ΣCNN度量θCNN，θ度量，θtrans和对抗鉴别器D，通过最小化1 2IAML、LT和LD。在整个培训过程中，cess，我们使用Adam随机梯度方法[9]作为优化器。4实验结果及分析为了评估我们的方法的性能，我们在两个广泛使用的基于草图的3D形状检索的基准数据集上进行实验：即，SHREC 2013和SHREC 2014。SHREC 2013 [12，13]是用于基于草图的3D形状检索的大规模数据集。该数据集由来自90个类别的7，200个草图和1，258个形状组成，通过收集人类绘制的草图[3]和来自普林斯顿形状基准（PSB）[21]的3D形状对于每个类，}F（θF（θLCNN度量10 J.Chen和Y. 方（一）（b）第（1）款图三.两个基准测试的样本：（a）SHREC 2013数据集，（b）SHREC 2014数据集。前四列中的图像是草图，而后四列中的图像是3D形状。同一行中的样品属于同一类。共80幅草图，其中50幅图像用于训练，30幅图像用于测试。不同类别的3D形状数量不同，平均约为14个SHREC 2014 [16，15]是一个草图跟踪基准大于SHREC 2013。它总共包含13，680个草图和8，987个3D形状，分为171个类。从各种数据集中收集3D形状，包括SHREC 2012[11]和Toyohashi Shape Benchmark（TSB）[26]。与SHREC 2013类似，每个班级平均有80张草图图像和大约53个3D形状。草图被进一步分成8,550个训练数据和5,130个测试数据，其中对于每个类，50个图像用于训练，其余30个图像用于测试。图3示出了来自两个数据集的一些样本。如图所示，由于草图和3D形状之间的大的类内变化和跨模态差异，通过草图检索3D形状是相当具有挑战性的。4.1实现细节在本小节中，我们提供了有关所提出的方法的实现细节网络结构。对于草图和形状的CNN网络，即、1CNN 和f2，我们使用ResNet-50网络[7]。具体来说，我们使用ResNet-50的层比“池”层（内循环）低。关于我们-草图和3D形状的作品，即，f12度量，两者都包括第四个完整的电子邮件地址为2048-1024-512-256-128。我们要把它在两个任务中，所有任务都具有最高的活动功能和最佳的常规功能，但任务中的任务会消耗大量活动功能。对于跨模态转换模型ftranss，我们采用了一个四层全连接的网络，设置为128-64-32-64-128，其中前三层使用“relu”主动函数，后三层使用“tanh”主动函数。鉴别器D是被设置为128-64-1的全连接网络。参数设置。我们设置最大迭代步骤Itermax的数量3万初始学习率设置为1× 10- 4，并呈指数F和fCNNCNN基于草图的3D形状检索的深度跨模态适应11一万步之后为了生成数据批次I1和I2，类的数量C每批的图像数K和每类的图像数K分别被设置为16和44.2评估指标我们采用最广泛使用的基于草图的3D形状检索指标如下：最近邻（NN），第一层（FT），第二层（ST），E-测量（E），折扣累积增益（DCG）和平均平均精度（mAP）[13，2，30]。我们还报告了精确召回曲线。4.3拟定方法在本节中，我们将评估所提出的对抗性学习与类感知跨模态平均差异最小化（CMDM-AL）以及语义保持（SeP）项的效果。作为基线，我们将重要性感知度量学习分别应用于列车{f11度量}，且{f22度量}，其中，跨模态变换只使用语义保持损失训练信息网络f变换LSeP. 由DCA（SeP）表示的该基线方法仅学习区分特征，而不考虑跨模态问题。与D-CA（SeP）不同，另一种基线方法，表示为DCA（CMDM-AL），通过最小化损失LAL来训练ftranss，以进行对抗学习。通过进一步添加语义保持项L SeP，即，通过LT=LAL+LSeP训练ftrans，我们可以获得我们所提出的方法的完整模型，表示为DCA（CMDM-AL +SeP）。通过比较DCA（SeP）、DCA（CMDM-AL）和DCA（CMDM-AL+SeP）的性能，我们可以评估所提出的对抗性学习方法和语义保持项的效果结果总结于表1和表2中。可以看出，基线方法DCA（SeP）由于其在处理跨模态差异方面的弱点而产生相当差的性能通过引入对抗性学习方法，DCA（CMDM-AL）显著提高了基线的性能，这意味着对抗性学习可以大大增强不同模态的数据分布此外，我们可以看到DCA（CMDM-AL+SeP）在两个基准测试上与DCA（CMDM-AL）相比有了这表明语义保持项可以帮助学习更具区分性的跨模态变换网络。此外，我们还通过使用不同的基础网络而不是ResNet-50来评估DCA的性能我们选择AlexNet [10]和VGG-16 [22]，其中相应的方法分别用AlexNet-DCA和VGG- 16-DCA表示。如表2所示，使用ResNet-50的DCA比AlexNet-DCA和VGG-16-DCA产生4.4与最新方法的SHREC 2013上的检索性能。在这里，我们报告了所提出的方法在SHREC 2013上的实验结果，通过与最先进的方法进行比较，包括跨域流形排名方法（CDMR），f，fDCA（CMDM-AL+SeP）DCA（CMDM-AL）LWBRDCML青野（EFSD）锂（SBR-2D-3D_NUM_50）锂（SBR-VC_NUM_50Li（SBR-VC_NUM_100）12 J.Chen和Y. 方表1.SHREC 2013上的性能，与最先进的方法相比方法神经网络、傅立叶变换、ST E、DCG、mAPCDMR [4]0.279 0.203 0.296 0.166 0.458 0.250SBR-VC [12]0.164 0.097 0.149 0.085 0.348 0.114SP [23]0.017 0.016 0.031 0.018 0.240 0.026FDC [12]0.110 0.069 0.107 0.061 0.307 0.086暹罗[28]0.405 0.403 0.548 0.287 0.607 0.469CAT-DTW [32]0.235 0.135 0.198 0.109 0.392 0.141KECNN [25]0.320 0.319 0.397 0.236 0.489-DCML [2]0.650 0.634 0.719 0.348 0.766 0.674LWBR [30]0.712 0.725 0.785 0.369 0.814 0.752DCA（SeP）0.009 0.015 0.027 0.014 0.231 0.034DCA（CMDM-AL）0.762 0.776 0.812 0.370 0.842 0.795DCA（CMDM-AL+SeP）0.783 0.796 0.829 0.376 0.856 0.8130.80.70.60.50.40.30.20.100 0.2 0.4 0.6 0.8 1召回见图4。各种方法在SHREC 2013上的精确度-召回率曲线。[4]、具有视图聚类的基于草图的检索方法（SBR-VC）[12]、空间邻近方法（SP）[23]、3D模型轮廓上的傅立叶描述符（FDC）[12]、基于边缘的傅立叶谱描述符（EFSD）[12]、连体网络（Siamese）[28]、具有动态时间规整的弦轴变换（ CAT-DTW）、深度相关度量学习（DCML）[2]，和学习的Wasser-stein重心表示方法（LWBR）[30]。图4展示了所提出的方法和比较方法的精确度-召回率曲线。如图所示，当召回率小于0.8时，我们的方法的准确率显著高于比较模型的准确率。考虑到检索到的结果最好，因此我们的方法比最先进的方法表现得更好。精度基于草图的3D形状检索的深度跨模态适应13表2.SHREC 2014上的性能，与最先进的方法相比方法神经网络、傅立叶变换、ST E、DCG、mAPCDMR [4]0.109 0.057 0.089 0.041 0.328 0.054SBR-VC [12]0.095 0.050 0.081 0.037 0.319 0.050DB-VLAT [26]0.160 0.115 0.170 0.079 0.376 0.131CAT-DTW [32]0.137 0.068 0.102 0.050 0.338 0.060暹罗[28]0.239 0.212 0.316 0.140 0.496 0.228DCML [2]0.272 0.275 0.345 0.171 0.498 0.286LWBR [30]0.403 0.378 0.455 0.236 0.581 0.401AlexNet-DCA0.498 0.464 0.513 0.294 0.627 0.502VGG-16-DCA0.682 0.698 0.723 0.375 0.783 0.711DCA（SeP）0.018 0.020 0.028 0.007 0.266 0.030DCA（CMDM-AL）0.745 0.766 0.808 0.392 0.845 0.782DCA（CMDM-AL+SeP）0.770 0.789 0.823 0.398 0.859 0.8030.80.70.60.50.40.30.20.1000.2 0.4 0.6召回图五. SHREC 2014上各种方法的精确度-召回率曲线。我们还报告了各种方法的NN，FT，ST，E，DCG和mAP，包括CDMR，SBR-VC，SP，FDC，Siamese，DCML，LWBR和提出的方法。如表1所示，我们的方法可以获得最好的检索性能w.r.t.所有评价指标。在所有比较的方法中，Siamese，DCML和LWBR是基于深度度量学习的模型。它们直接将来自不同模态的数据映射到共同的嵌入子空间中，其中单模态和跨模态类内欧氏距离都减小，并且类间距离同时增大。然而，它们平等地对待每个训练数据，并且未能探索不同样本的不同重要性。此外，他们只减少了局部的跨模态分歧之间的数据对或三元组，没有考虑数据分布之间的相关性，在一个整体的方式。相比之下，我们的方法通过挖掘最难的正样本和最难的负样本来学习特征。通过自动选择最重要的训练样本，我们可以学习更多的DCA（CMDM-AL+SeP）DCA（CMDM-AL）LWBRDCMLFuruya（BF-fGALIF）Furuya（CDMR（SM=0.1，=0.6））Furuya（CDMR（SM=0.1，=0.3））Furuya（CDMR（SM=0.05， =0.6））Furuya（CDMR（SM=0.05， =0.3））Li（SBR-VC（=1））Li（SBR-VC（=1/2））Tatsuma（OPHOG）Tatsuma（SCMR-OPHOG）Zou（BOF-JESC（Words800_VQ））Zou（BOF-精度14 J.Chen和Y. 方有效地此外，我们明确地引入了一个跨模态转换网络，以便将特征从草图模态转移到3D形状的特征空间。通过利用保留语义的对抗学习，我们同时减少了两种模态的数据分布之间的整体差异，并增强了语义相关性。因此，我们的方法实现了更好的检索性能。例如，我们的方法的mAP达到0.813，这是34。4%，13. 9%和6。1%，分别高于暹罗，DCML和LWBR。SHREC 2014上的检索性能。在这个数据集上，我们将我们提出的模型与以下最先进的方法进行了比较：具有基于Gabor局部线的特征的BoF（BF-fGALIF）[3]、CDMR [4]、SBR-VC [12]、局部聚合张量的深度缓冲向量（DB-VLAT）[26]、SCMR-OPHOG [16]、基于BOF结的扩展形状上下文（BOFJESC）[16]、Siamese [28]、DCML [2]和LWBR [30]。图 5 提供了 BF-fGALIF 、 CDMR 、 SBR-VC 、 SCMR-OPHOG 、OPHOG、DCML、LWBR和所提出的模型的精确度-召回率曲线。如图所示，当召回率小于0.8时，我们所提出的方法的准确率明显高于比较方法。除了精确-召回曲线外，我们还报告了CDMR，SBR-VC，DB-VLAT，Siamese，DCML，LWBR的NN，FT，ST，E，DCG和mAP。表2.可以看出，现有的基于深度度量学习的方法（包括Siamese、DCML和LWBR）的性能在SHREC 2014上急剧下降例如，LWBR在SHREC 2014上的mAP为0.401，比其在SHREC 2013上实现的mAP低约35%。原因可能在于SHREC 2014具有更多的类别类别（SHREC 2013上的 90 个类别与 SHREC 2014上的171 个类别）和更大规模的 3D 形状（SHREC 2013上的1，258个3D形状与SHREC 2014上的8，987个3D形状），具有更严重的类内和跨模态变化，使得SHREC 2014比SHREC更具挑战性2013.作为比较，我们提出的模型的mAP仅下降约1%，并在 SHREC 2014 上达到 0.803这个结果比 LWBR， DCML 和 Siamese 高40.2%，51.7%和57.5%，表明我们的方法比现有的深度模型更具可扩展性。5结论在本文中，我们提出了一种新的跨模态自适应模型的草图为基础的三维形状检索。我们首先学习特定于模态的判别特征，通过采用重要性感知度量学习，通过挖掘批量最难的样本。为了消除跨模态差异，我们提出了一个转换网络，旨在将草图的特征转换到3D形状的特征空间。我们开发了一种基于对抗学习的方法来训练网络，通过增强整体数据分布之间的相关性并保留跨模态的局部语义结构。在两个基准数据集上的大量实验结果表明，与现有的方法相比，该方法具有优越性。基于草图的3D形状检索的深度跨模态适应15引用1. 陈杰，王玉，秦杰，刘，L.，Shao，L.：通过跨相机语义二进制变换的快速人重新识别。在：IEEE Conf.计算机视觉与模式识别（2017）2. Dai，G.，谢，J.，Zhu，F.，方Y：基于草图的三维图形深度相关度量学习。 In：AAAI. pp. 40023. Eitz，M.，里希特河Boubekeur，T.，Hildebrand，K. Alexa，M.：基于草图的抽象概念。 ACMTrans. Graph. 31⑷，314. Furuya，T.，Ohbuchi，R.：基于草图的三维模型检索的跨域流形排序。In：Cyber worlds（CW），2013Internat ionalConferenceon. pp. 274281. IEEE（2013）5. Ganin ， Y. ， Ustinova ， E. ， Ajakan ， H. ， Germain ， P. ， Larochelle ， H.Laviolette，F.，Marchand，M.，Lempitsky，V.：神经网络的领域对抗训练。TheJournalofMachineLearningResearch17（1），20966. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。In：Advances inneural in Formalin ProocessSystems.pp. 26727. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。arXiv预印本arXiv：1512.03385（2015）8. Hermans，A.拜尔湖莱贝B：在三胞胎丢失的辩护中重新进行了人的鉴定。arXiv预印本arXiv：1703.07737（2017）9. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法。在：学习表征国际会议（2015）10. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。在：神经信息处理系统的进展。pp. 109711. Li，B.， Godil，A.， Aono，M.， Bai，X.，你好，T.

下载后可阅读完整内容，剩余1页未读，立即下载