非刚体形状匹配的深度学习方法

121 浏览量更新于2023-10-13 收藏 2.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于非刚体形状匹配王涵宇、郭建伟[0000−0002−3376−1725]、严东明†[0000−0003−2209−2404]、权卫泽、张小鹏中国科学院自动化研究所jianwei. nlpr.ia.ac.cn，yandongming@gmail.com，xiaopeng. ia.ac.cn抽象。在本文中，我们提出了一种新的深度学习框架，该框架可以导出3D表面形状的判别性局部描述符。与依赖于渲染多视图图像或提取固有形状属性的先前卷积神经网络（CNN）相比，我们将关键点的多尺度局部邻域参数化为规则2D网格，其中保留了“几何形状”。这种几何图像的优点包括保留足够的几何信息，以及允许使用标准CNN。具体来说，我们利用三元组网络来执行深度度量学习，该学习将一组三元组作为输入，并且最小化新设计的三元组损失函数在测试阶段，给定一个感兴趣的点的几何图像，我们的网络输出一个判别局部描述符。非刚性形状匹配的几个基准的实验结果表明，我们学习的描述符优于传统的描述符和国家的最先进的学习为基础的替代品的优越性能。关键词：局部特征描述符·三元组CNN·非刚性形状1介绍为3D表面点设计局部描述符是计算机视觉和计算机图形学领域的共同兴趣。通常，局部描述符是指存储在描述关键点周围的形状的局部几何形状它在各种视觉任务中起着至关重要的作用，例如形状对应[1，2]，对象识别[3]，形状匹配[4，5]，形状检索[6，7]和表面配准[8]，仅举几例。在过去的几十年中，大量的本地描述符已被研究界积极调查。然而，尽管最近的兴趣，设计有区别的和鲁棒的描述符仍然是一个不平凡的和具有挑战性的任务。早期的作品集中在派生形状描述符的基础上手工制作⋆H.Wang和J.Guo是共同的第一作者，贡献相等。†D.- M.严是通讯作者。2Wang等人Fig. 1.我们的非刚性形状匹配结果使用一组标志点（红色和绿色球体）。狗的形状（22个关键点的21个正确匹配）来自TOSCA [9]，脸的形状（15个关键点的13个正确匹配）来自[10]。不正确的对应关系使用红线绘制。特征，包括自旋图像[11]、曲率特征[12]、热核信号[13]等。虽然这些描述符可以有效地表示形状的局部行为，但这些方法的性能仍然在很大程度上受到手动调整参数的表示能力的限制。最近，卷积神经网络（CNN）在许多图像分析任务中取得了受在许多领域中应用深度学习的显著成功的启发，已经提出了最近的方法来以外在或内在的方式学习3D形状的局部描述符。前者通常采用多视图图像[14]或体积表示[15]作为输入，但对视图选择和低体素分辨率的要求很高虽然后一种方法将CNN范式推广到非欧几里得流形[16]，但它们能够学习非刚性形状分析的不变形状签名。然而，由于这些方法学习与不同数据集的形状类型和结构有关的信息，因此它们的泛化能力是有缺陷的。因此，这些方法在不同的域上执行不稳定。在本文中，我们提出了另一种新的局部描述符学习的方法我们从[17]最近的工作中汲取灵感，该工作使用几何图像来学习形状分类的全局表面特征与他们的工作不同，我们从表面上每个关键点周围的多尺度局部补丁构建一个小的几何图像集然后，基本的低级几何特征可以被编码到这些规则几何图像的像素中，标准CNN可以直接应用于更具体地说，我们用预训练阶段和改进的三重损失函数训练了一个众所周知的三重网络[18，19]其目标是学习一个描述符，最小化对应点的距离，而最大化非对应点的距离在描述符空间。总之，我们的主要贡献如下：– 我们开发了一个新的三维关键点描述符的基础上专门设计的三元组网络，这是专门用于处理本地几何图像编码非常低层次的几何信息。用于非刚体形状匹配的3D关键点描述子学习3– 我们设计了一个新的三重损失函数，可以控制锚正描述子距离的分散性，从而有效地提高我们的描述子的性能。– 我们表明，所提出的简洁的框架具有更好的泛化能力，在不同的数据集比现有的描述符。2相关工作文献中已经提出了各种各样的3D局部特征描述符这些方法可以大致分为两类：传统的手工制作的描述符和学习的本地描述符。手工创建的本地描述符。早期的工作集中于基于手工制作的特征导出形状描述符[20，21]。详细的调查超出了本文的范围，所以我们简要地回顾了一些代表性的技术。对于刚性形状，已经提出了一些成功的外部描述符，例如，自旋图像（SI）[11]、3D形状上下文（3DSC）[22]、MeshHOG描述符[23]、方向直方图的签名（SHOT）[24]、旋转投影统计（RoPS）[25]。显然，这些方法在刚性欧几里得变换下是不变的为了处理等距变形，已经有一些基于测地距离[26]或谱几何的内在描述符这样的描述符包括热核签名（ HKS ） [13] 、波核签名（ WKS ） [27] 、固有形状上下文（ ISC ） [28] 和最佳光谱描述符（OSD）[29]。然而，外在和内在描述符都依赖于有限的预定义的手动调整参数集，这些参数是针对特定于任务的场景而定制的深度学习的本地描述符。最近，基于深度学习的方法引起了广泛的关注，因为它们倾向于从原始输入数据中自动学习特征，从而避免手动设计的特征。Wei等人[30]使用CNN架构来学习任意复杂姿势和服装中的不变描述符，其中他们的系统使用深度图的大型数据集进行训练。Zeng等[15]呈现另一数据驱动的3D关键点描述符以用于稳健地匹配局部RGB-D数据。由于它们使用3D体积CNN，这种基于体素的方法由于高存储器和计算成本而限于低分辨率。Qi等人。[31]提出了一种名为Point- Net的深度网络框架，可以直接从无序点集学习点特征以计算形状对应。Khoury等人[32]提出了一种学习非结构化点云的局部紧凑几何特征（CGF）的方法，通过将高维直方图映射到低维欧氏空间。Huang等人[14]最近引入了一个新的局部描述符，通过在多个尺度上获取多个渲染视图并通过经典的2D CNN处理它们。虽然这种方法已经成功地用于许多应用中，但它仍然受到对视图选择的强烈要求的困扰，因此2D投影图像在几何信息上是不充分的。此外，这种方法是否可以用于非刚性形状匹配有点难以捉摸。4Wang等人本地修补程序几何图像三元组架构…图二、我们的局部描述符训练框架概述我们首先提取关键点周围的局部补丁（以紫色显示），并为它们生成几何图像。然后形成一个三元组，并通过三元组网络进一步处理，在这里我们使用目标函数（三元组损失函数）来训练这个网络另一类方法基于几何深度学习的概念[33]，其中它们将CNN推广到非欧几里德流形。已经引入了各种框架来解决描述符学习或对应学习问题，包括局部谱CNN（LSCNN）[34]，测地线CNN（GCNN）[35]，各向异性CNN（ACNN）[36]，混合模型网络（MoNet）[16]，深度功能映射（FMNet）[37]等。与这类方法不同的是，我们的工作利用几何图像将非欧几里德补丁局部平坦化到2D域，以便可以使用标准卷积网络。3方法概述给定表面形状SR3上的关键点（或任何感兴趣的点）p，我们的目标是学习一个非线性特征嵌入函数f（p）：R3→Rd，它输出该点的d维描述符Xp∈Rd嵌入函数被仔细地设计，使得几何上和语义上相似的关键点的描述符之间的距离尽可能小在本文中，我们使用L2欧几里德范数作为描述t 或 s 之间的相似性度量： D （ Xpi ， Xpj ）=||Xpi−Xpj||二、几何图像。由于篇幅的限制，我们在这里只简单地回顾了几何图像的概念，这是一种新的网格表示技术介绍了顾等。[38]第30段。它通过将不规则网格参数化到正方形域上来将其表示为2D图像使用这种参数化，原始网格的几何属性可以被重新采样并编码到图像的像素中。为了将任意网格参数化到正方形上，首先需要将网格切割成拓扑圆盘。渠道.我们的方法的核心部分是一个新提出的学习框架，如图所示。2.在离线训练阶段，我们建议学习锚定ConvNet共享参数128-d描述符正ConvNet三重损失共享参数负ConvNet用于非刚体形状匹配的3D关键点描述子学习5描述符，其由三个相同的约束网络组成（“约束网络”，用于简化），其具有相同的描述我们将一组三元组馈送到ConvNet分支中，以表征所述描述或最小的相关性。其中，t（p）=（I （p）， I（p+），I（p-））包含锚点p、正点p+和负点p-，其中I（p）表示编码周围的局部几何上下文的几何图像。p. 通过“pos i t v e”表示at p和p + ar e r e s p on d i n g l y m il i l a k e y p i n t s，并且通过“n egat i v e”表示p − i s d i sm i l a n e p i n t p。 B作为训练数据的ed，我们通过使用最小化偏差三重损失函数来优化网络参数，以强制执行，在最终的描述符空间中，正点应该比任何其他负点更接近锚点。一旦经过训练，我们可以通过在一个输入几何图像上应用单独的ConvNet来生成关键点的128-d4CNN架构和培训在本节中，我们将描述我们的网络架构的细节，以及如何自动有效地训练它来学习嵌入函数。4.1培训数据准备丰富且有代表性的训练数据集是基于CNN的方法成功的关键对于我们的非刚性形状分析目的，良好的局部描述符应该相对于噪声、变换和非等距变形是不变的。为了满足上述要求，我们选择了最新且特别具有挑战性的FAUST数据集[39]，该数据集包含各种姿势的不同人的此外，对于所有点，形状之间的全身然而，请注意，我们提出的方法是可推广的，也就是说，我们的网络是在一个数据集上训练的，但可以应用于其他数据集。节中5，我们将证明我们的方法的泛化能力。关键点注释。为了检测关键点，我们提出了一种半自动的方法。首先，候选关键点位置可以通过利用任何3D兴趣点检测器（例如，3D-Harris [40]）。然后，我们通过删除不合适的候选项或添加一些缺失的关键点来手动调整它们幸运的是，由于在FAUST中已经定义了地面实况逐点对应，因此仅在一个网格上执行关键点检测操作，并且可以在所有其他网格中轻松检索每个关键点。因此，它不需要太多的手动工作。我们最终在FAUST数据集上标注了48个关键点3.第三章。局部几何图像生成。部分受[17]的启发，我们使用几何图像表示来捕获表面信息，其中表面信号存储在简单的2D阵列中。与以前的工作将整个3D形状转换为单个几何图像进行形状分类不同，我们为每个关键点生成一6Wang等人图3.第三章。FAUST数据集中两个人体模型动态姿势的注释关键点的说明我们现在为每个关键点生成局部几何图像首先通过提取关键点周围的相邻三角形来构建局部面片然后，我们将局部补丁映射到2D正方形网格。辛哈等人[17]已经证明，与保形几何图像相比，使用authalic参数化的几何图像编码更多的形状信息，特别是当几何图像的分辨率有限时。在我们的方法中，我们执行authalic和内在参数化方法[41]，其最小化内在失真，然后使用该参数化对局部补丁进行重新采样以生成一个几何图像。然而，也可以使用其他适当的参数化方法，例如[35]中使用的测地极坐标几何图像的分辨率取决于具体的应用，在这里，我们将其大小设置为32× 32。此外，为了保持旋转不变，我们围绕面的平均法线方向以30◦的间隔旋转局部面片K= 12次对于每个旋转，我们生成相应的几何图像。此外，为了捕获围绕该关键点的多尺度上下文，我们在L= 3尺度处提取局部补丁，分别具有邻居半径6r、9r和12r。这里r被计算为整个网格的平均边长。虽然几何图像可以用表面网格的任何合适的特征编码，但我们发现在我们的方法中仅使用两个基本低级几何特征就足够了：（1）每个顶点v处的顶点法线方向nv={nx，ny，nz}，其通过对其入射三角形的面法线进行加权平均来计算;（2）两个主曲率κmin和κmax，其分别测量表面点在正交方向上的最小和最大弯曲。因此，每个几何图像用15个特征通道编码{ni，ni，ni，κi，κi}L=3，其中i表示每个标度。图4示出了一些实施例。x y z最小值Max i=1具有不同比例和旋转的几何图像示例。用于非刚体形状匹配的3D关键点描述子学习7我关键点局部面片nxnynzkmaxkmin见图4。围绕关键点生成的几何体图像。从上到下是较小尺度局部块、较大尺度局部块和旋转的较大尺度局部块（顺时针旋转角度为90°）的几何图像从左到右示出了编码法线{nx，ny，nz}和曲率{κmax，κmin}特征的几何图像。4.2三重抽样为了快速训练收敛，重要的是选择有意义和有区别的三元组作为三元组网络的输入。培训的目的学习一个区别性的描述符，其中包含了从锚点难以识别的正点或负点。也就是说，给定一个- chor点p，我们要选择一个正的点p+（硬正），使得||f（pi）−f（p+）||2，并且在一个最小值处具有一个整数p-（半整数）suchth||f（p）−f（p−）||二、问题是：给定一个正、反点，如何选择硬的正、反点？最直接的方法是从整个训练集中所有可能的三元组中通过硬挖掘来挑选样本。然而，这种全局方式是耗时的，并且可能导致差的训练，因为噪声或形状不良的局部块将导致很大的困难来定义好的硬三元组。我们使用随机梯度下降方法在小批量中生成三元组，类似于[43]中用于2D人脸识别的方法。具体地，在训练阶段的每次迭代中，我们从48个关键点中随机选择16个关键点，然后针对每个关键点从跨形状的K × M个几何图像中随机选择8个几何图像，其中K=12是一个形状上的一个关键点的旋转几何图像的数量，M是训练集中的形状模型的数量。总的来说，批大小等于128。然后，对于批次内的所有锚点-正对，我们选择半硬负而不是最硬的负，因为最硬的负实际上可能在训练过程的早期导致不良的局部最小值。这里，半硬负片是比正片更远离锚点但仍比其他更硬负片更接近的负片样本。硬底片和半硬底片的严格定义在补充材料中给出，或参考[43]了解更多详细信息。8Wang等人N4.3最小CV三重峰损失根据形状匹配、形状对齐等实际任务的要求，一个合适的关键点描述符的关键属性是它的可区分性。由于我们使用CNN将关键点的几何图像嵌入到d维欧氏空间中，因此必须设计有效的损失函数。它鼓励CNN认为特定类型的关键点的几何图像更接近相同类型的关键点的所有其他几何图像，并且更远离任何其他类型的关键点的几何图像。为了实现这一目标，我们定义了以下经典的三重损失函数[43]：ΣN ΣL=i=1iposi阴性Σ+ α+ 、（1）Di.+Σpos=D f（pi），f（pi），Di.−Σneg=D f（pi），f（pi），其中N是批量大小，α是我们期望的锚点阳性和锚点阴性对之间的边距距离参数。结合硬挖掘，这类三元组损失函数被广泛用于各种度量学习任务，并且表现良好或至少可以接受。然而，它在我们的评估数据集中遇到了一些问题特别是，当用这个损失函数训练我们的模型时，平均损失不断下降，然而，单三重态损失剧烈振荡。此外，我们注意到，对于大量的三元组，锚和描述符空间中的正几何图像之间的距离仍然是相当大的锚和负的距离相比。只有少数三胞胎导致几乎为零的损失，导致平均损失的减少。这种现象表明，我们的CNN未能学习内在的局部特征，而是陷入了局部最优。为了解决这个问题，我们提出了一个新的三重损失函数，它最小化的标准偏差的比率，平均值（也称为变异系数- CV）的锚正距离在一个批次。这种修改受到通过描述符空间中的距离测量的直觉的启发，关键点的一个几何图像对应该与相同关键点的其他几何图像对相似（至少相同数量级）。通过将此部分添加到类中，我们可以最小化d-CV（重新定义为“M in-CV”）的t r i p l e t损失：LMin−CV =λ σ（Dpos） ΣΣ+Di-DiΣ+α，（2）µ（Dpos）i=1POS阴性+当λ是不可接受的非均衡参数时，σ（·）计算表示在bat c h上的存储和延迟，而μ（·）计算表示在batch上的实现。最近的工作[44，45]也引入了均值和方差/标准- -DD用于非刚体形状匹配的3D关键点描述子学习93×3 3×3 3×3几何图像convconvconvMaxavgavg512 128fc fc128汇集，256汇集，512合并，/2/2/2尺寸：32尺寸：16尺寸：8容量：4输出128-d描述符图五、单个ConvNet的详细网络架构如图所示二、开发一个新的应用程序，以避免重复使用。这些基本函数（Kumar[ 44]和J [ 45]）被明确地定义LKumar′s=（σ2（Dpos）+σ2（Dneg））+λmax（0，µ（Dpos）−µ（Dneg）+α），（3）LJan′s=σ（Dpos）+σ（Dneg）+μ（Dpos）+λmax（0，α−μ（Dneg）），（4）当σ2（·）计算时，在ch. 与这两种方法不同，我们直接最小化CV而不是方差。原因在于，与方差相比，CV可以测量Dpos的离散度，而不受描述符距离的数值标度（或数据的幅度）的影响按比例缩小描述符距离将减小方差但不影响CV。因此，CV更好地反映了数据偏差的程度。我们在第二节中对这两个损失函数进行了比较。5.此外，大量的实验表明，我们的Min-CV三联体损失能够帮助CNN从一个数据集学习重要特征，并很好地推广到其他数据集。4.4CNN架构和配置考虑到我们任务的特殊性和复杂性，我们设计了一个特殊的CNN架构，专门用于处理我们的三元组结构中的几何图像，如下所示。网络架构。图图5展示了我们的CNN模型的架构。在该图中，我们具有三个卷积层（“conv”，颜色为蓝色）、三个卷积层和两个完整的卷积层（“fc”，颜色为绿色）的紧凑堆栈。特别地，每个卷积层配备有上面所示的卷积核的大小和下面所示的输出特征图的数量。对于每个完全连接的层，我们显示上面的单元数。“大小”表示长度和宽度，或者表示在中间层中的长度和宽度，例如，从左到右，第三层是卷积层，它以8×8×256张量作为输入，并对其进行3×3×512卷积，从而产生流向池化操作的8 × 8 × 512张量。接下来，我们在第一个卷积层的输出上应用步长为2的最大池化和平均池化10Wang等人在其他两个卷积层的输出上具有相同的步幅。在输入的每个卷积或线性映射之后但在非线性激活之前采用批量归一化（BN）CNN配置。我们的三元组CNN的详细配置被设置为适应我们的架构并获得最佳性能。由于三重损失不像其他常用的损失函数那样稳定，我们的具有传统ReLU激活的旧版本CNN经常遭受死亡ReLU问题，这可能会降低我们CNN模型的有效容量，然后导致无法生成有意义的描述符。为了避免这种缺陷，我们采用了斜率=0的泄漏ReLU [46]。1作为我们的激活函数。实验结果证明了该策略的有效性此外，为了加快训练速度，我们首先训练一个分类网络，除了完全连接的层之外，它具有与我们的三元组CNN相同的架构和训练分类标签是网格的顶点的索引当它接近收敛时，它的参数可以用来初始化我们的三元组CNN的卷积层此外，采用Xavier初始化[47]来初始化分类网络的所有层和我们的三元组CNN的全连接层在训练过程中，使用Adam算法[48]来优化损失函数。在我们所有的实验中，学习率从0开始。01，并且每次当验证损失开始周期性振荡时减小10倍为了避免过拟合，还使用系数为0的L2正则化。005.5实验结果在本节中，我们在真实和合成数据集上进行了大量实验，以证明我们学习的局部描述符的有效性我们首先给出训练细节并评估我们的Min-CV三联体损失的性能然后，我们提供了一个完整的比较与国家的最先进的方法与定性和定量实验。所示结果是在具有3.4GHz和16 GB RAM的Intel Core i7-3770处理器上获得的。离线训练在NVIDIA GeForce TITAN X Pascal（12GB内存）GPU上运行。数据集。除了FAUST，我们还在其他四个公共领域数据集上进行了实验。SCAPE数据集[49]包含71个处于各种姿势的特定人的真实注册网格，而TOSCA数据集[9]包含80个具有近等距变形的动物和人的合成模型SPRING数据集[50]包含3000个扫描的身体模型，这些模型也以点对点对应的方式放置。最后，我们在[10]中使用的FACE模型上测试了我们的方法，其中提供了一些面部表情。培训设置。我们将FAUST数据集分为训练模型（75%），验证模型（10%）和测试模型（15%）。任何几何图像三元组根据其所用于的阶段从上述子集之一生成，分别产生三元组训练集、验证集和测试集。按组合计数，训练集包含多达8个。1× 1011个不同的三元组，可以输入到我们的三元组CNN中进行训练（由于网格上的不完善，某些模型上的某些关键点的局部补丁可能不会用于非刚体形状匹配的3D关键点描述子学习11µ（D）匹配数见图6。使用不同的三重损失函数训练行为。左：正负边缘曲线。中间：标准差平均值比率曲线。右：CMC曲线。表1.在图1的最右边的图中使用不同损失的CMC曲线的数字统计。六、数据集方法P1%P5%P10%P20%我们40.4255.9464.7671.29浮士德我们的经典损失我们的库马尔25.9333.3942.3751.9049.6659.0457.8266.25我们的和简12.2821.9229.7040.40能够被正确地参数化并且因此被丢弃），而三元组验证集和测试集包含多达1。7 × 109和6。1× 109个三联体。我们的方法基于TensorFlow[51]实现。使用上面显示的硬件配置，一次完整的培训大约需要8小时。接下来，我们证明了我们提出的Min-CV三重态损失的有效性在图6中，我们描绘了使用cl作为sictripletlos（Eq. 1），Kumar' s los s [ 44]（Eq. 3）、Jan的los s [ 45]（E q. 4）和我们的Min-CV三重态损失（方程式4）。2），其中边缘距离参数α根据经验被设置为大的数字（例如，100），λ设为1。0. 为了公平起见，我们使用相同的网络架构和本文中提出的参数不同的损失。正负边际曲线显示平均值Distatetwenc h计算Ni=1ipos我阴性+.标准差均值比曲线示出了沿着迭代的平均比率σ（Dpos）从左边的两个数字POSF ig. 6、我们看到J的损失形式不像我们所看到的那样，并且这些损失不可能控制一个关键点的发展方向，而同时也会导致K的损失和M的损失。与 Kumar的学习方法相比，我们的损失的训练行为在两个图中都更好，从而有效地提高了我们学习的描述符的鲁棒性和泛化能力。利用这一点，我们的描述符在各种数据集上表现稳定。从CMC曲线（我们将在下面解释）来看，我们的损失仍然优于库马尔的损失。表1中提供了更多的比较。评估指标。接下来，我们将我们的方法与几种不同类型的局部描述符进行了彻底比较，包括外部手工制作的特征自旋图像（SI）[11]，SHOT [24]和RoPS [25]，内部手工制作的特征HKS [13]和WKS [27]，基于学习的描述符OSD [29]以及最先进的深度学习描述符LSCNN [34]，MoNet [16]，FMNet [37].所有的命中率D- -D12Wang等人枪HKSOSD LSCNNFMNetMoNetOurs图7.第一次会议。FAUST上非刚性形状匹配的选定比较结果，其中不正确的匹配以红线显示使用的标志点总数为48. 从左到右是SHOT（11个匹配），HKS（16个匹配），OSD（20个匹配），LSCNN（19个匹配），FMNet（21个匹配），MoNet（41个匹配）和我们的描述符（33个匹配）。匹配数Recall见图8。不同描述符在FAUST数据集上的性能，使用CMC（左）和PR（右）图测量。基于学习的方法在我们上面的FAUST训练测试分割上训练为了与其他人进行公平的比较，FMNet没有使用他们论文中使用的对应细化技术进行后处理。我们相信这是有意义的，因为我们关注的是不同描述符的性能，而不是对应性。该比较包含文献中常用的两个评价指标第一个度量是累积匹配特征（CMC）曲线，它评估在描述符空间中找到k-最近邻居之间正确对应的概率另一种流行的度量是具有平均精确度（即，PR曲线下的面积，由AP表示），其基于两个基本评估度量：召回和精确。FAUST数据集上的比较。图8示出了FAUST数据集上的所有描述符曲线的数值统计见表2。为了进行公平和公正的比较，我们从数据集中随机选择了200对形状对于每对形状，我们通过使用3D-Harris检测器在其上生成1000个特征点[40]。然后通过平均200对形状的计算结果来绘制从曲线中，我们观察到MoNet表现最好。然而，事实上，MoNet命中率精度用于非刚体形状匹配的3D关键点描述子学习13表2.不同数据集上所有方法的CMC和PR曲线的数值统计。每个测量的最佳结果以粗体字标记。这里Pk%是CMC曲线中前k级内正确对应的比例;AP是平均精度，即，PR曲线下面积数据集方法P1%P5%P10%P20%APSI34.6656.0061.1964.140.116ROPS14.0429.9540.6451.850.128浮士德枪8.7717.9423.3629.070.045HKS7.4711.7117.7824.140.098WKS11.2621.2428.5538.980.071OSD13.1923.8533.4547.450.113LSCNN11.9722.0238.1258.610.210FMNet12.4327.1238.1049.590.508莫奈56.9384.6290.8296.930.677我们49.1470.9376.6381.700.500SI43.0360.3364.5769.880.445ROPS22.1340.6846.0050.300.558弹簧枪23.1056.6869.6077.140.244HKS8.5814.8319.7528.730.348WKS13.8031.0740.4249.550.299OSD10.5226.6037.9550.580.327LSCNN8.8017.1724.4338.530.359FMNet13.4047.4863.5378.070.528我们63.3077.7181.7085.990.631SI19.3334.0340.1347.230.304ROPS26.9347.2755.1760.770.629脸枪16.5035.5345.9355.200.479HKS14.5721.9730.7738.470.273WKS12.6719.5724.6325.430.193OSD17.4624.2033.9342.170.367LSCNN15.5318.4720.8323.700.140FMNet12.0036.8948.3056.670.558我们35.2263.2271.7680.940.619匹配数召回匹配数召回见图9。不同描述符在SPRING和FACE数据集上的性能。左边两个图分别是SPRING上的CMC和PR图，而右边两个图是FACE上的CMC和PR图。不学习真正的描述符，并且它将形状对应转换为标记问题。因此，一旦在FAUST上训练它，它就不能直接推广到其他数据集，因为标签空间可能非常不同。我们学习的描述符比所有的外在和内在的手工制作的功能表现得更好。虽然我们的CMC曲线收敛比LSCNN慢一点，但我们具有更高的排名kCMC百分比，即，在前k个等级中可以正确地匹配更多的对应关键点此外，我们表明，我们的方法具有更好的泛化能力比别人在以后的实验。接下来，作为一个应用程序，我们测试了不同的本地描述符的非刚性形状匹配，这是通过计算的地标对应的性能。从图中的比较。7，我们看到我们学习的局部描述符产生了出色的匹配结果。命中率精度命中率精度14Wang等人与其他数据集的比较。为了测试我们的泛化能力，我们在其他几个数据集上进行了一系列实验在这里，我们只展示了SPRING和FACE数据集上的实验结果补充材料中提供了更详尽的分析和比较对于所有比较，学习的方法（OSD，LSCNN，FMNet和我们的）在FAUST数据集上进行训练，然后应用于其他数据集。评价曲线如图10所示9，数值统计如表2所示请注意，对于3D FACE数据集，我们通过考虑2D面部点注释[52]手动注释15个关键点（见图1）。可以观察到，手工制作的特征在不同的数据集上表现不同，因此它们的鲁棒性不强。另一个有趣的现象是，LSCNN在SPRING数据集上的表现与OSD相似，但在FACE数据集上原因是LSCNN使用依赖于域的谱基（在这种情况下是人体形状）进行学习，因此它在不同的域上不能很好地泛化我们的方法在SPRING上的表现甚至比在FAUST数据集上更好，而在FACE数据上观察到CMC的下降可以此外，在所有描述符中，FMNet表现出良好的泛化能力，但我们仍然在两个数据集上实现了最佳性能。结果表明，该方法具有最好的泛化能力。6结论和未来工作在本文中，我们提出了一种基于端到端深度学习技术的新的3D关键点描述符。设计并有效训练了一个三元组网络，其中我们引入了一个新的基于三元组的损失函数来表征对应和非对应关键点对的相对排序我们的框架的显着优势是，我们可以学习的描述符使用局部几何图像，编码更多的表面信息比渲染视图或3D体素。虽然存在许多局部描述符，我们已经证明了更好的区分度，鲁棒性和泛化能力，我们的方法通过各种实验。虽然本文只使用低层次的几何信息，但任何其他外在或内在的表面属性也可以编码到几何图像中。在未来的工作中，我们希望将我们灵活的方法扩展到其他数据驱动的3D视觉应用，例如，形状分割、3D显著性检测等。致谢。我们感谢匿名评论者的宝贵意见和建议。本工作得到国家自然科学基金（No. 61620106003）、北京市自然科学基金（4184102）、国家自然科学基金（No. 61772523、61761003、61571439、61702488）。引用1. Van Kaick，O.，张洪，Hamarneh，G.，Cohen-Or，D.：形芯材料性能研究综述。CommputerGraphicsForrum30（6）（20 11）1681用于非刚体形状匹配的3D关键点描述子学习152. Ovsjanikov，M.，Ben-Chen，M.，Solomon，J.，Butscher，A.，Guibas，L.：功能映射：形状之间映射的灵活表示ACM Trans. 图形（Proc.SIGGRAPH）31（4）（2012）303. Guo，Y.，中国科学院，Bennamoun，M.，Sohel，F.，Lu，M.，Wan，J.：具有局部表面特征的杂乱场景中的3D对象识别：调查。IEEE Trans. onPatternAnalysisandMachineIntelligence36（11）（2014）22704. Corman，E'.， Ovsjanikov，M.， Chambolle，A. ：支持针对非刚性形状匹配。In：European Conference on Computer Vision（ECCV），Springer（2014）2835. 科斯莫湖Rodola，E.，Masci，J.，Torsello，A.布朗斯坦，M.M.：在混乱中匹配可变形的物体。In：3D Vision（3DV），2016 Fourth International Con-ferenceon，IEEE（2016）16. 布朗斯坦，上午，Bronstein，M.M.，Guibas，L.J.，Ovsjanikov，M.：形状谷歌：用于不变形状检索的几何单词和表达式。ACM Trans. on Graphics 30（1）（2011）17. Lian ， Z. ， Godil ， A. ， Bustos ， B. ， Daoudi ， M. ， Hermans ， J. ，Kawamura，S.，Kurita，Y.，我来了，G.， VanNguyen，H.， Ohbuchi，R.，是的。：一种用于非刚性3D图形的方法的组件。第46（1）（2013）449- 461页8. Shah，S.A.A. Bennamoun，M.，Boussaid，F.：一种新的基于三维涡量的低分辨率距离像自动配准方法。模式识别48（9）（2015）28599. 布朗斯坦，上午，Bronstein，M.M.，Kimmel，R.：非刚性形状的数值几何。05 The Dog of the Woman（2008）10. 苏姆内尔河W.， J. ：Deformat io ntransferforrian gl emeshes. ACMTrans. 在Graphics（Pr o c. SIGGRAPH）23⑶（ 2004） 39911. 约翰逊，A.E.，Hebert，M.：使用自旋图像在杂乱的3D场景中进行有效的对象识别。IEEE模式分析与机器智能学报21（5）（1999）43312. 加尔河Cohen-Or，D.：用于部分形状匹配和简化的显著几何特征。ACMTrans. 参见G.ra.i cs25（1）（2006）13013. 孙，J.，Ovsjanikov，M.，Guibas，L.：基于热扩散的简洁可证明信息的多尺度签名。计算机图形学论坛（Proc. SGP）28（5）（200 9）1383-139214. 黄，H.，Kalogerakis，E.，Chaudhuri，S.，Ceylan，D.，Kim，V.，Yumer，E.：从具有多视图卷积的部分对应性学习局部形状描述符。 ACMTrans.根据Graphics37（1）（2018）6：115. Zeng，A.，Song，S.，Nießner，M. Fisher，M.，肖，J.，Funkhouser，T.：3DMatch：从rgb-d重建中学习局部几何描述符。在：IEEE计算Vision andPatternRe cognitio n（CVP R）。（2017）19916. M 〇nti，F.， Boscaini、D. ，M asci，J.， Rodola`，E.， Svoboda，J.，Bronstein，M. M. ：使用混合模型cnn的图和流形上的几何度量深度学习。在： IEEEC 〇 mputerrVisinandPater nRecognitin （ CVPR ）中。（2017）542517. 辛哈，A.，白，J.，Ramani，K.：使用几何图像深度学习3D形状表面。In：在 C〇mputerVisin（ECCV）上的E 〇 p e a n C 〇 n fe re n c e。（201 6）22318. 布鲁姆利，J.，我是古永岛， LeCun，Y.， Sa¨ckinger，E.，是的，R。：信号恢复功能将在工作中使用 “ 类似于 ” 特定的时间节点。 In ：AvancesinNeur alInpr o c e s i n g S y s i n g Pr o c e s i n g S ysi ngP r o c e si n gSys i n g S i n gi （199 4）73719. 王杰，Song，Y.，Leung，T.，Rosenberg，C.王杰，Philbin，J.，陈伯，吴Y ：通过深度排名学习细粒度图像相似性。在： IEEE ComputerVisinandPater nRecognitin（CVPR）中。（2014）138616Wang等人20. Guo，Y.，中国科学院，Bennamoun，M.，Sohel，F.，Lu，M.，Wan，J.，Kwok ， N.M. ：三维局部特征描述符的综合性能评估。 Int. JournalofComputerVision116（1）（2016）6621. 杨杰，张，Q，Cao，Z.：空间信息表征对3D局部特征描述符的影响：定量评估。模式识别66（2017）37 522. Frome

下载后可阅读完整内容，剩余1页未读，立即下载