深度图形特征学习的局部表示及其在特征匹配问题中的应用

101 浏览量更新于2023-10-12 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于特征匹配问题的深度图形特征学习张震澳大利亚机器学习研究所计算机科学阿德莱德大学zhen@zzhang.orgWee Sun Lee新加坡国立大学计算机科学leews@comp.nus.edu.sg摘要特征匹配问题是图像配准、跟踪和运动分析等计算机视觉领域的一个基本丰富的局部表示是有效特征匹配方法的关键部分。然而，当局部特征仅限于关键点的坐标时，提取丰富的局部表示变得具有挑战性。传统的方法使用成对的特征点坐标几何特征或更高阶的手工几何特征以获得鲁棒匹配;这需要解决NP难分配问题。在本文中，我们解决了这个问题，提出了一个图神经网络模型，将坐标的特征点到本地功能。利用我们的局部特性，将传统的NP难指派问题转化为一个简单的指派问题，可以有效地解决。在合成数据集和真实数据集上的有希望的结果证明了所提出的方法的有效性。1. 介绍寻找两组特征或点之间的一致性对应关系，也称为特征匹配是计算机视觉中各种任务的关键步骤，包括图像配准，运动分析和多目标跟踪[6，10，15，17，4]。当有效的视觉特征可用时，例如：从成功的深度学习，简单的推理算法，如匈牙利/Munkres算法[19]可以实现相当好的性能[27，7，16]。然而，对于几何特征匹配问题，强局部特征是不可用的;必须应用成对或更高阶的特征来找到鲁棒匹配。然而，这些特征将把推理问题转化为二次/高阶指派问题，这在一般情况下是NP困难的[2]。由于在NP-硬度，这项工作在新加坡国立大学图1：图神经网络将坐标转换为点的特征，因此简单的推理算法可以成功地进行特征匹配。参考问题的几何特征匹配，以前的工作主要集中在开发有效的松弛方法[28，13，12，4，31，14，15，26，30，25，29]。在本文中，我们从不同的方向攻击的几何特征匹配问题。我们证明它可以使用图形神经网络来学习仅从点坐标和图形结构到强局部特征的映射，使得简单的推理算法优于基于仔细设计的推理算法的传统方法这个过程如图1所示，其中两个图的顶点的点坐标被转换为丰富的特征，以便使用匈牙利/Munkres算法进行有效匹配。为了从点坐标进行特征匹配问题，各种信息源可能是有用的。成对的信息，如长度和角度的边缘可能是非常重要的。多尺度信息也可发挥有益的作用;这通常可以通过使用分级结构来获得。具有分层手工特征的早期作品，例如分层结构图像金字塔，依赖于强局部特征来构建尺度不变的视觉特征[16，1，24]。在基于深度学习的视觉特征匹配方法中，分层结构CNN已被应用于获得丰富的局部特征。如何直接从点坐标构造提供多尺度信息的特征尚不清楚。5087特征点坐标局部几何特征几何特征网特征相似度当地5088我们试图捕捉这些信息中的大部分，并将它们转化为对匹配有用的节点特征。为此，我们使用图神经网络（GNN）。图神经网络将常规的卷积神经网络（CNN）扩展到不规则的图结构数据.与正常的CNN不同，在GNN中，每个节点及其邻居与不同的卷积算子相关联。这允许不同相对位置和距离的节点及其邻居使用不同的卷积算子，从而提供不同的边缘信息。此外，GNN使用消息传递算法将信息（包括多个尺度的信息）以及关于图结构的其他更全局的信息传播到节点特征。通过学习GNN的参数，我们可以训练网络构建适合匹配任务的特征。不幸的是，允许每个节点及其邻居具有不同的卷积算子需要大量的计算资源以及大量的用于学习的训练数据因此，一般的为了解决这个问题，我们提出了一种有效的方法，用于使用注意力机制从全局内核集合中为每个边缘组合局部卷积内核。所得到的GNN，命名为复合消息传递神经网络（CMPNN），是高效的，并给出了良好的结果，在图匹配问题。我们的主要结果总结如下：1. 我们提出使用图神经网络，以便利用图的全局结构，将点处的弱局部几何特征转化为丰富的局部特征，用于几何特征匹配问题;2. 利用该算法丰富的局部特征，可以将传统方法中的二次/高阶指派问题转化为简单的线性指派问题，并用匈牙利/Munkres算法有效地求解;3. 我们提出了组合消息传递神经网络，它使用注意力机制从全局内核集合中组成局部卷积内核，使我们能够有效地训练和运行我们的网络。2. 相关作品几何特征匹配传统的地质学-尺度和旋转不变性，需要3阶特征，并且为了获得仿射不变性，需要4阶特征[28，12，14，26]。最近，Milanet al. [18]使用递归神经网络来解决这些困难的分配问题;然而，该工作仅针对具有少于10个特征节点的小规模问题进行了演示。PointNetPointNet是一种用于点云分类和分割的最新几何特征学习框架[23]。作者还表明，学习的特征可以用来建立对象部分之间的对应关系。在普通PointNet中，全局特征将通过全局池化提取，然后传播到每个节点。这样的结构是一个很好的匹配的应用程序，如分类和语义分割。对于需要丰富的局部特征的特征匹配，这种全局信息传播过程可能由于缺乏局部信息交换和未能利用分层结构而失败。点对特征（PPFnet）扩展了PointNet，具有用于点云特征匹配问题的层次结构[3]。在PPFnet中，给定多个局部点块，PointNet用于为每个局部块提取一个特征向量。然后将特征传递到另一个类似PointNet的网络，以获得每个局部补丁的特征表示。由于PPFnet强烈依赖于PointNet，它仍然缺乏一个有效的本地信息传播方案。因此，它需要丰富的局部几何特征（即：本地点云补丁）工作。当这些特征不可用时，仅给出点的坐标，它被简化为PointNet。消息传递神经网络（Message Passing Neural Network，MPNN）是Gilmer等人提出的一种神经网络。[5]提供了构造图神经网络的一般框架。我们描述了一个特定的MPNN实例。由于给出了一个按邻接表组织图一组节点特征xi∈Rdin和一组边特征 eij，i∈ {1，2，. . .，n}，j∈N（i），其中N（i）是节点i的邻居集合，包括节点本身。在MPNN中，边缘特征被传递到神经网络以生成卷积核，即kij=hk（eij|θk），（1）其中，核kij∈Rdout×din将用于将节点特征nj映射到d个外维特征向量，然后将这些特征聚集以生成新节点特征，即1特征匹配问题通常表示为二次/高阶指派问题，yi=Aj∈N（i）kijxj，（2）特征，如边长/角、三角形的角等[31，30，13，25]。这些方法在推理复杂度和匹配质量方面存在困难。为了获得更好的精度，通常需要增加特征的阶数。例如，为了实现其中聚合算子A可以是任何可微的将一组d维外特征向量映射到一个d维外特征向量的集合运算符[1]为了简化符号，我们在整篇论文中省略了激活函数，将其嵌入到A中。5089i=1i=1vanilla MPNN的主要缺点是内存消耗。假设我们正在处理一个有100个节点的图，每个节点与10条边相关联，并且d=dout=512，那么我们将需要大约100×10×5122×41GB内存，用于以单浮点精度存储所有kij使用kij进行反向传播可能需要额外的3-4GB内存。因此，多个MPNN层很容易耗尽GPU内存。对于大规模数据，需要一个更有效的MPNN版本3. 方法3.1. 符号G i vent w o特征点集合F={fi|i=1，2，. . . ，n}且G={gi|i=1，2，. . . ，n}，特征匹配问题的目的是找到一个置换π：{1，2，. . . ，n} ›→{1，2，. . . ，n}，其最大化某个相似性函数图 2 ：左：正常 CNN 。右：组合消息传递神经网络（CMPNN）。普通CNN和CMPNN中的卷积核可以表示为te×dout×din张量，其中te是边缘类型的数量。在正常CNN每个边缘与由独热形式的边缘特征向量eij表示的特定类型相关联，在CMPNN中，边缘的类型由神经工作he估计，并且逐节点卷积核由he和全局不变的kenrelk组成。聚合器A可以是max或其他集合函数。argmaxS（[fπ（i）]nπ∈Π（n），[gi]n）、（3）然后，如果给出地面真值排列ππ，则损失将出现其中，n（n）表示集合{1，2，. . .，n}。通常，相似性函数S可以被定义为a具有不同阶数的一系列相似性函数如下=− ∑lnp（π（i）=π（i））[i]S（[fπ（i）]n，[gi]n）（4）∑ ∑i=1∑i=1∑=lnexpS1（fj，gi）−S1（fπ（i），gi）.（八）=S1（fπ（i），gi）+我S2（[fπ（i），fπ（j）]，[gi，gj]）+···ijIJ在几何特征匹配问题中，特征fi和gi通常是点的坐标。因此，一阶相似函数变得毫无意义，必须应用高阶函数，这就需要解决NP难的二次或高阶指派问题。我们通过使用图神经网络开发一个丰富的局部特征提取器来现在我们描述所提出的模型的高级结构。所提出的图神经网络是如下的集合函数：F={fi}= h（F| θ），G={gi}= h（G| θ），（5）然后，通过选择一阶相似性函数，可以通过∑argmaxS1（fπ（i），gi）.（六）π ∈ Π（n）我损失函数（6）给出了学习参数θ的推理过程。现在，我们使用交叉熵损失定义学习的损失函数。首先，我们定义exp（S（f，g））3.2. 网络架构在本节中，我们将详细介绍拟议的网络。我们的神经网络由几层复合消息传递神经网络（CMPNN）组成。首先，我们将把输入的特征点组织成一个图形。在我们的实现中，图是通过连接的k-最近的邻居与边缘。然后将图和特征传递到多层CMPNN以获得最终特征。组合消息传递神经网络这里我们提出CMPNN得到MPNN的加速版本。CNN的一个好特性是，移位不变全局核。我们的主要动机是将这样的属性移植到MPNN。我们的关键观察是，CNN可以被视为网格图上的图神经网络，网格中的每条边都与一个热点fea相关联真实向量eij，其指示边缘的类型。例如，在具有3×3内核的卷积层中（如图2左侧所示），有9种不同类型的边缘。假设我们有一个2D卷积层，它将一个d通道内图像映射到一个d通道外图像，5090p（π（i）=j|θ）= ∑1jijexp（S1（fj，gi））、（7）然后卷积核可以表示为m2×dout×din张量k，并且卷积运算5091可以重写为2yi∑=j∈N（i）伊季报kxj .（九）全局池化在PointNet及其后续工作中[23]，全局池化被广泛用于帮助建模，以捕获更多的全局信息，从而提高分类和分割信息的性能。对于fea-对于一般的图，由于其结构不规则，很难将其表示为任意的图。cult将每个边缘与固定类型相关联因此，我们不是手动关联每条边的类型，而是使用神经网络he（·，θe）来预测边的类型（见图2）。然后，通过引入全局不变核k∈Rte×dout×din，MPNN（2）可以重新表示为：在实际的匹配问题中，局部特征难以捕捉旋转等全局变换。因此，我们还使用全局池来帮助网络在全局变形下提高其性能。实现细节在提出的CMPNN和yi=Aj∈N（i） he（eij，θe）k xj，（10）残差CMPNN模块，我们提出了我们的几何特征网络，如图3的右边所示。首先，我们建立一个其中逐节点卷积核由边缘类型分类器和全局不变核k。上述操作可以进一步分解为通过使用来自输入特征点的k-最近邻来生成有向图。在我们的实现中，k被设置为8。然后每个边缘向量可以通过减去源xi=kxi，yi=Aj∈N（i）he（eij，θe）xj，（11）点，并且每个边缘向量被传递到边缘类型网络，该网络是2层MLP。在我们的im-其中第一步可以通过矩阵乘法来完成，第二步可以通过分批矩阵乘法和合并来完成。由于这两种操作都在PyTorch[22]等深度学习包中有效地实现，因此所提出的CMPNN变得非常容易实现。扩展的CMPNN原始的MPNN（2）可以扩展如下[5]为了实现，我们考虑 16 种不同类型的边（即，te=16）。对于所有CMPNN层，我们使用（13c）中所示的扩展，并且我们使用最大化作为聚集函数A。在我们的网络中，所有的MLP层和CMPNN层，除了边类型的输出层，网络和几何特征网络之后是批量归一化层[9]和AUCU激活函数[20]。在边型网络的输出层中，基季=hk （e）|θk）∈Rdout×2din，（12）我们使用softmax作为激活函数，将几何特征网络归一化为单位向量。yi=Aj∈N（i）kij[xi，xj]，或yi= Aj∈N（i） kij[xi，xj−xi]因此，我们可以使用内积来衡量特征之间的相似性总的来说，我们的特征匹配管道是让学习更容易。这个扩展也可以是han-由我们的CMPNN代替引入一个全局k，通过引入两个不同的全局不变核korig和kneighbor，CMPNN（11）可以扩展如下，x<$i=korigxi，x<$i=kneighborxi，<$i∈{1，2，. . . ，n}，（13 a）如图3右侧所示。将特征点F和G输入到相同的几何特征网络，以得到两个新的特征点。局部特征F和G的集合。然后，我们使用内积来生成相似性矩阵。最后，使用Hungar-ian/Munkres算法来找到对应yi=Aj∈N（i）[客户端]he（eij，θe）x<$i+x<$j[或（13 b）]这最大化了特征相似性。3.3. 与现有方法的关系yi=Aj∈N（i）he（eij，θe）x<$i+x<$j−x<$i。（13c）在本节中，我们将讨论我们的CMPNN与现有方法的关系。Heet al. [8]提出了残差网络，它有助于训练非常深的神经作品，并导致涉及在包括分类、分段等的各个领域中的显著性能改进。在我们的网络中，我们还应用了剩余链接，使训练更容易。在普通CNN中，残差块由一个1×1卷积组成卷积层，一个m×m卷积层和另一个1×1卷积层而对于GNN，等效地将1×1卷积层替换为全连接层，将m×m卷积层替换为CMPNN层。CMPNN的残差块如图3所示。5092消息传递神经网络在这里，我们证明了CMPNN等价于MPNN。在不损失一般性的情况下，我们假设MPNN的核生成器中的最后一层是没有任何激活函数3的线性层。那么核生成器hk可以重新表示为：kij=hk（eij|θk）wk，（14）其中hk（eij|θk）是一个d维输出的神经网络，wk是一个d × dout× din张量。然后是MPNN2我们稍微滥用了张量的矩阵乘法的符号。一k×m×n张量乘以一个n维向量将是一个k×m矩阵。类似地第k-d向量乘以一个k×m×n张量将是一个m×n矩阵。3如果最后一层是非线性的，我们可以简单地附加一个线性相同的映射层。5093几何特征网图3：我们网络中使用的网络架构。左：几何特征网络由多个CMPNN层组成。右图：用于特征匹配问题的暹罗网框架。FGM BaB BCA PointNet1.00.80.60.40.20.000 0.025 0.050 0.075 0.100噪声水平1.00.80.60.40.02.55.07.510.0离群值数量1.00.80.60.40.20.02.55.07.510.0离群值数量• 分支和绑定（BaB）：Zhang等人[30]建议基于分支定界的方法，其中La-基于grangian松弛的求解器被用在分支定界框架中。• 因子化图匹配（FGM）[31]：因子-图4：合成数据集的特征匹配比较。左：不同噪声水平下的精度。中：噪声水平为0时，具有不同数量离群值的准确度。右：噪声水平为0的不同离群值数量的准确度。025（2）可以改写为化图匹配算法是基于凸-凹面松弛术。它是迄今为止提出的最精确的特征匹配算法我们还比较了基于三阶特征的方法：yi=Aj∈N（i）hk（eij|θˆk)wkxj,(15)• 块坐标上升图匹配（BCAGM）：Ngok等。[21]提出了一种基于多线性松弛的高效高阶分配求解器，它和我们的CMPNNPointNet[23]中的核心部分之一，全局池，可以被视为一种特殊类型的消息传递神经网络。假设对于某个特定的i，我们令N（i）={1，2，. . . ，n}，我们让所有其他N（i′）= 0。在这个假设下，我们让聚合运算符为最大化运算符。从这个角度来看，点对特征网络（PPFNet）[3]也可以被看作是具有特定图形结构的两层消息传递神经网络因此，所提出的方法可以看作是一个推广的PointNet和PPFNet从一个特定的图结构到更一般的图结构。4. 实验在本节中，我们将所提出的方法与现有的特征匹配方法在几何特征匹配问题上进行在这种情况下，特征匹配算法必须足够好，以捕捉特征点之间的几何和拓扑关系。对于传统方法，我们比较了两种基于成对特征的缓慢但准确的方块坐标上升该算法优于各种高阶匹配方法。对于基于深度学习的方法，据作者所知，目前还没有关于仅使用特征点坐标的匹配问题的工作因此，我们使用最具代表性的工作PointNet [23]作为基线。在这里，我们使用与PointNet中使用的相同的网络结构进行语义分割，但最后一个softmax层被替换为一个soft2规范化层。我们还稍微调整了代码，使PointNet适用于2D特征点。我们对PointNet采用了相同的暹罗网络结构，如图3所示。训练协议仅使用坐标的特征匹配问题可用的训练数据是相当有限的。在现有的带注释的数据集（如Pascal-PF [7]）中，仅提供了数千个匹配对，其中每对不超过20个特征点。因此，在我们的实验中，我们在相同的随机生成的合成训练集上训练我们的模型和比较方法。为了做到这一点，我们合成了900万个匹配对。对于每一对，我们首先随机生成30-60个2d从[-1，1]2均匀地参考特征点，然后进行随机旋转并从N（0，0. 052）中文（简体）几何特征网边缘特征边缘类型MLP（64，te）残差DMPNN（din，dm，din）边缘列表MLP（dm）CMPNN（dm）MLP（din）+输入k-最近邻MLP（12残余CMPNN（128，64，MLP（12CMPNN（128MLP（25全球最大值-合并正常化MLP（51残余CMPNN（512，256，MLP（51CMPNN（256MLP（25残余CMPNN（256，128，内积n×n我们n× 256n× 128n× 641 × 256n×k × 2电话：021 -88888888传真：n× 256n× 128n×dinn× 256n×dmn× 128n×dmn× 256n×dinn× 128n× 512n× 512n×k×ten×kn× 512n× 2n× 512精度精度精度50940的情况。15′′以生成目标特征点。最后，我们从[-1]中随机添加0-20个离群值。5，+1。[5]每对2张。在我们的训练中，我们用亚当[11]学习率为10−3的方法，以优化所有方法。ods，每个方法都在生成的数据;算法收敛后，只有0.5 epoch4。4.1. 合成数据集我们在随机生成的特征点集上对传统方法和两种基于深度学习的方法进行了比较评估。在每次试验中，我们生成了两个相同的特征点集F，G，其中有20个内点，[0，1]2，稍后我们将为每个特征添加n个离群值点集然后，第二组中的特征点将被来自N（0，σ2）的加性高斯噪声扰动。对于传统的二阶方法，特征点之间采用Delaunay三角网连接，边的长度作为边的特征;边缘特征SIM-2相似度计算为s（e，e′）=exp（− （e1−e2））。F或三阶方法，我们使用三角形的三个角从Delaunay三角剖分作为特征，并且相似性函数如[21]中定义传统方法的节点相似度对于深度学习方法，来自F的特征点首先被归一化如下在大多数情况下，这可能是由于其传播本地信息的能力较差。4.2. CMU House数据集CMU房屋图像序列是测试特征匹配算法性能的常用数据集[13，28，12，31，30，25]。数据由玩具屋的111帧组成，每个图像都被手动标记了30个地标。对于传统的二阶方法，我们使用[31]中的设置来构建匹配模型，对于BCAGM，我们使用与第4.1节相同的特征和相似性函数。对于基于深度学习模型的方法，我们将30个地标的坐标标准化，如（16）所示在所有可能的图像对上测试不同方法的性能，分离10：10：100帧。图6示出了两个帧的匹配对的实例。我们在数据集上测试了准确性和运行时间。在精度方面，除了PointNet之外的所有方法在分离度很小时都能获得完美的匹配。在运行时间上，分支定界方法在分离度较小的情况下，可以达到与我们的方法相近的速度。值得注意的是，当分离很小时，匹配对与来自我们的训练集中的匹配对非常相似，其中一帧中的特征点可以被应用到训练集中。{..fi−1∑}f∈Ff投影变换到另一个旋转的框架，班当分离非常大时（参见示例F′=.菲岛fi=| F|1，fi∈F、（十六）在图6中，由于大的.f i− |F|f∈Ff<$2视图更改;这与我们训练集中的情况相差甚远。由于我们的算法能够提取特征并且来自G的特征点也在同样的方式G。然后将归一化的特征点传递给基于深度学习的方法。实验测试了三种不同场景下的算法性能，在每种场景下的每个参数设置下生成100个不同的实例，得到平均匹配精度。在第一种情况下（图4左侧），离群值的数量nout设置为0，我们将噪声水平σ2从0增加到0。1个步长0的情况。01. 在第二个场景中（图4的中间），我们设置噪声水平σ2= 0，并且我们以步长1将异常值的数量从0增加到10。在第三种情况下，我们σ2= 0。025，我们将离群值的数量从0增加到10，步长为1。在各种不同的设置下，可以观察到所提出的方法优于其他人在大多数情况下。传统的方法对特征点上的噪声特别敏感，而我们的方法具有更好的鲁棒性。当无噪声且离群点个数小于5时，BCAGM方法的结果略好于其他方法; FGM和BaB方法的精度与该方法相当，但当离群点个数较多时，该方法的推广性较好PointNet4 该代码可在 https://github.com/zzhang1987/ Deep-Graphical-Anchore-Learning上获得。从局部几何结构出发，将其推广到大视场变化的情况。对于视角变化很大的大间距运行时，我们的方法比FGM和BaB快数百倍。4.3. 真实图像匹配在这个实验中，我们使用PF-Pascal数据集[7]来评估特征匹配算法在真实图像上关键点匹配的性能PF-Pascal数据集由20类1351个图像对组成。在每个图像对中，有6-18个手动注释的地面实况对应。这里，对于传统方法，特征相似度模型与CMU房屋数据集中的相同。对于基于深度学习的方法，我们也遵循与CMUhouse数据集相同的协议。典型的图像对和匹配结果如图5所示。在这个数据集中，我们考虑两种不同的设置。在第一种设置中，我们直接使用特征点的坐标作为所有算法的输入。在第二个设置中，我们首先对第一个点中的特征点应用随机旋转，并使用旋转后的特征点作为输入。匹配精度如表1所示。当不应用随机旋转时，所提出的方法优于所有其他算法，PointNet是第二好的。当随机旋转∑5095表1：Pascal-PF数据集的匹配精度。前四行：原始特征点的结果。下面四行：随机旋转特征点的结果空中自行车鸟船瓶式公共汽车汽车猫椅子奶牛餐饮-狗马马达-人盆-羊沙发火车电视-平均平面表自行车植物监测#pairs 691335028 4214084 119 59 1538106 3912056356 59 8865巴贝[30]70.0 80.5 73.7 74.6 37.3 64.4 81.2 60.6 68.3 63.252.5 50.5 67.574.352.338.8 26.7 73.1 86.829.861.3女性生殖器切割[31] 五十七点四73.3 67.6 71.0 40.9 60.1 74.0 54.2 63.9 51.752.5 48.1 62.070.550.149.2 36.2 65.9 87.529.058.3[21]第二十一话 62.8 59.6 66.3 32.7 58.2 70.6 61.7 62.6 52.352.9 45.2 48.451.740.548.2 29.5 73.1 87.037.255.0[23]第二十三话 70.2 65.2 73.7 85.3 90.0 73.4 63.4 55.2 78.478.4 52.5 58.064.257.468.9 50.5 74.0 88.191.969.7我们的76.1 89.8 93.4 96.4 96.2 97.1 94.6 82.8 89.3 96.789.779.5 82.683.572.876.7 77.1 97.3 98.299.588.5[30]第30话 80.2 73.7 74.637.3 64.481.2 60.4 68.3 63.252.5 51.0 67.274.253.738.8 26.7 73.1 86.829.861.3女性生殖器切割[31] 五十九点四70.8 68.9 67.5 38.6 61.6 76.4 48.8 61.8 49.753.2 45.4 67.671.749.943.5 27.6 67.9 85.028.957.2[21]第二十一话 62.9 59.6 66.3 32.7 58.2 70.4 61.8 62.6 52.352.9 45.1 48.450.941.148.2 29.5 73.187.037.255.0[23]第二十三话 34.2 57.0 50.1 38.7 31.7 45.4 45.845.5 36.9 45.345.822.238.849.0 28.8 54.128.941.5我们的74.5 88.5 89.670.885.753.687.2 66.8 77.9 89.345.965.4 79.681.475.236.7 52.9 83.368.926.669.9图5：Pascal-PF数据集上的关键点匹配结果。从上到下的方法是BaB，FGM，BCAGM，PointNet和Ours。正确的匹配是绿色的，错误的匹配是紫色的。应用结果表明，所提出的方法在14个类别中优于其它方法，其总体精度也优于其它方法。然而，PointNet的准确性下降到最差，这表明PointNet不能很好地生成旋转。50964.4. 建筑设计分析在本节中，我们介绍了消融研究结果，特别是我们模型的超参数的影响。我们使用相同的协议训练不同的网络，5097时间（ms）出来尺寸=正常尺寸=更深尺寸=更窄尺寸=更宽1.00.80.62.51412个2.0101.58 1.00.40.000.04 0.06 0.08 0.10噪声640.000.04 0.06 0.08 0.10噪声0.50.000.04 0.06 0.08 0.10噪声我们的FGM(a) 不同规模网络的结果;σ2 = 0。05，离群值=0。GPU内存（MB）：浅：59;正常：76;深：103;窄：20;宽：297。dim=8 dim=64 dim=512 dim=40960.901.000.750.500.250.850.800.750.7000.20.40.60.8角度7.27.06.86.600.20.40.60.8角度1.41.21.000.20.40.60.8角度0.0025 50 75 100分离25 50 75 100分离(b) 不同特征尺寸的结果;σ2 = 0，异常值数量= 2。GPU内存（MB）：dim=8：72; dim=64：73; dim=512：76; dim=4096：104。图6：不同特征匹配方法在CMU房屋数据上的性能比较。左图：我们的典型匹配结果。右：准确度和运行时间与分离使用全局池不使用全局池图8：不同网络模型的性能比较。从左到右：准确度、神经网络推理时间和递归推理时间。1.00.90.80.70.600.20.40.60.8角度1.00.80.60.40.20.000.20.40.60.8角度我们将中间特征的尺寸缩小/放大2倍，以获得更窄/更宽的模型。图8(a)结果表明，较浅和较窄的模型在噪声水平较高的情况下性能较差。更深更宽的模型与普通模型具有相似的性能，但使用更长的推理时间和更多的内存。图7：有/没有全局池的网络的准确性比较。左：无离群值，噪声水平σ2= 0。025;右：2N=2，noise-levelσ=0。用随机生成的匹配对测试网络。全局池如第3.2节所述，我们使用CMPNN来获得丰富的局部特征，全局池层用于提供全局特征。在这里，我们训练了一个删除了全局池化层的网络，并将其性能与完整模型进行了比较。直观地说，全局池化层可以帮助网络在全局变形（例如，旋转）。因此，我们分析了这两个网络的性能相对于不同的旋转使用相同的随机特征生成方案作为第4.1节。这里我们考虑两种不同的情况。在第一种情况下，将高斯噪声添加到特征点，在第二种情况下，我们将离群值添加到特征点。这两种场景的典型结果如图7所示。当不存在离群点时，模型间性能没有显著差异，而当存在离群点时，全局池化可以显著提高模型的性能。网络深度宽度我们比较了不同模型的精度、推理时间和推理内存使用（批量大小=1）。将推理时间分解为神经网络推理时间和线性分配问题推理时间。通过去除模型中的第一层和第二层CMPNN，得到了一个较浅的模型;通过重复第二个CMPNN层三次，我们得到了更深的模型。我们还通过修改最后一层中的输出单元数量（图8（b）中的结果），评估了从8到4096的不同维度的输出特征。方面运行时间，不同设置之间没有显著差异。同时，当存在离群点和旋转时，不同设置的精度不同，设置dim=8的精度明显低于其他设置，设置dim=4096具有比dim=64更低的精度，dim=512。设置dim=512比dim=64稍微好一点。5. 结论针对几何特征匹配问题，提出了一种能将弱局部几何特征转化为丰富局部特征的图神经网络所提出的模型与合成数据进行训练，然后应用于合成和现实世界的特征匹配问题与噪声，旋转和离群点造成的特征变形。实验结果表明，由我们的图神经网络产生的局部特征可以与简单的推理算法一起使用，以优于使用手工推理算法的翻译方法结果表明，在局部信息非常有限的情况下，图神经网络仍然能够通过节点间的消息传递获得丰富的局部表示.确认这项研究由新加坡国家研究基金会在其AI新加坡计划资助AISG-RP-2018-006下支持。这项工作也得到了ARC发现项目DP160100703的部分支持。BabBCAGMPointNet100101尺寸=较浅精度精度精度精度时间精度时间（ms）时间（ms）时间（ms）5098引用[1] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf：加速健壮的功能。在欧洲计算机视觉会议上，第404-417页Springer，2006年。1[2] Rainer E Burkard，Mauro Dell分配问题。Springer，2009. 1[3] Haowen Deng ， Tolga Birdal ， and Slobodan Ilic.PPFNet：全局上下文感知的本地特征，用于强大的3D点匹配。在IEEE计算机视觉和模式识别集，第195二、五[4] 奥利维耶·杜兴、阿曼德·朱林和让·庞塞。一个图表-用于对象分类的匹配内核。2011年国际计算机视觉会议，第1792IEEE，2011年。1[5] Justin Gilmer、Samuel S Schoenholz、Patrick F Riley、Oriol Vinyals和George E Dahl。量子化学的神经信息传递。第34届机器学习国际会议论文集，第1263- 1272页。JMLR。org，2017. 二、四[6] Michelle Guo ， Edward Chou ， De-An Huang ， ShuranSong，杨小威和李飞飞神经图匹配网络在少镜头三维动作识别中的应用。在欧洲计算机视觉会议（ECCV）的会议记录中，第653-669页，2018年。1[7] 范苏·哈姆，赵敏秀科迪莉亚·施密德和Jean庞塞提案流程。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition ， pages 3475一、五、六[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition，第770-778页，2016中。4[9] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在International Conference on Machine Learning ，第 448-456页4[10] 联合Iqbal，A.Milan和J.胆 PoseTrack：关节多关节人姿态估计和跟踪。在CVPR，2017年。1[11] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[12] Jungmin Lee，Minsu Cho，and Kyoung Mu Lee.超图通过重新加权的随机游走进行匹配。参见CVPR 2011，第1633-1640页。IEEE，2011年。一、二、六[13] Marius Leordeanu Martial Hebert和Rahul Sukthankar图匹配和地图推理的整数投影不动点方法。神经信息处理系统的进展，第1114-1122页，2009年。一、二、六[14] Hongsheng Li，Xiaolei Huang，and Lei He.目标匹配使用局部仿射不变量和线性编程技术。 IEEEtransactionsonpatternanalysisandmachineintelligence，35（2）：411-424，2013。一、二[15] 刘志勇，红桥：许阳：饰Steven CHHoi用简化的凹凸松弛法进行图匹配。 InternationalJournal of Computer Vision ， 109 （ 3 ）： 169-186 ，2014。1[16] David G Lowe等人，从局部尺度进行对象识别不变特征在ICCV，第99卷，第11501999. 1[17] 乔·马西尔和乔·帕·科斯泰拉。稀疏对应问题的全局解IEEETransactionsonPatternAnalysisMachineIntelligence，（2）：187-199，2003。1[18] Anton Milan，S Hamid Rezatovi，Ravi Garg，Anthony迪克和伊恩·里德数据驱动的np-hard问题近似。在2017年第31届AAAI人工智能会议上。2[19] 詹姆斯·蒙克里斯算法的分配和转换-运输问题。工业与应用数学学会杂志，5（1）：32-38，1957。1[20] Vinod Nair和Geoffrey E Hinton。校正线性单位im-证明受限玻尔兹曼机第27届机器学习国际会议（ICML-10），第807-814页，2010年。4[21] Quynh Nguyen，Antoine Gautier，and Matthias Hein. 一弹性张量块坐标上升方案用于超图匹配。在IEEE计算机视觉和模式识别会议论文集，第5270- 5278页，2015年。五、六、七[22] 亚当·帕斯克山姆·格罗斯格雷戈里？苏米特？钦塔拉Chanan，Edward Yang，Zachary DeVito，Zeming Lin，Al-ban Desmaison ， Luca Antiga ， and Adam Lerer.pytorch中的自动微分。2017. 4[23] Charles R Qi，Hao Su，Kaichun Mo，and Leonidas J Guibas.Pointnet：对点集进行深度学

下载后可阅读完整内容，剩余1页未读，立即下载