几何匹配的卷积神经网络结构及其在图像对齐中的应用

42 浏览量更新于2023-10-15 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6148用于几何匹配的卷积神经网络结构Rocco1，2Relja Arandjelovic1，2，Josef Sivic1，2，31DI ENS2 INRIA3 CIIRC摘要我们解决的问题，确定两个图像之间的对应关系与几何模型，如仿射或薄板样条变换，并估计其参数。这项工作的贡献是三方面的。首先，我们提出了一个卷积神经网络架构的几何匹配。该架构基于三个主要组件，这些组件模拟特征提取、匹配以及同时的内点检测和模型参数估计的标准步骤，同时是端到端可训练的。其次，我们证明了网络参数可以从合成生成的图像中进行训练，而无需手动注释，并且我们的匹配层显着提高了泛化能力，使以前从未见过的图像。最后，我们表明，相同的模型可以执行实例级和类别级匹配，在具有挑战性的提案流数据集上提供最先进的结果。1. 介绍估计图像之间的对应关系是计算机视觉中的基本问题之一[19，25]，其应用范围从大规模3D重建[3]到图像操作[21]和语义分割[42]。传统上，通过检测和匹配局部特征（如SIFT[38]或HOG[12，22]）计算与几何模型（如对极几何或平面仿射变换）一致的对应关系，然后使用局部几何约束[43，47]修剪不正确的匹配，并使用RANSAC等算法对全局几何变换进行[18]或Hough变换[32，34，38]。这种方法在许多情况下工作得很好，但在表现出以下情况的情况下失败：（i）由于例如，类内变化[22]，或（ii）场景布局或非刚性的大变化1De′ partement3捷克信息学、机器人学和控制论研究所布拉格捷克技术大学现在在DeepMind。图1：我们经过训练的几何估计网络自动对齐两张具有显著外观差异的图像。它是能够估计大的变形变换鲁棒的杂波的存在。这些变形需要具有许多参数的复杂几何模型，这些参数难以以对异常值鲁棒的方式估计。在这项工作中，我们建立在传统方法的基础上，并开发了一种模仿标准匹配过程的卷积神经网络（CNN）首先，我们用强大的可训练卷积神经网络特征替换标准的局部特征[31，46]，这使我们能够处理匹配图像之间的外观变化。其次，我们开发了可训练的匹配和变换估计层，可以以稳健的方式处理噪声和不正确的匹配，模仿特征匹配中的良好实践，例如第二最近邻测试[38]，邻域一致性[43，47]和Hough变换类估计[32，34，38]。结果是一个卷积神经网络架构可训练的几何匹配的最终任务，它可以处理大的外观变化，因此适用于实例级和类别级匹配问题。2. 相关工作寻找对应关系的经典方法涉及识别兴趣点并计算这些点周围的局部描述符[10，11，24，37，38，39，43]。6149特征提取CNN特征提取CNN回归CNN虽然这种方法表现相对较好，例如水平匹配，特征检测器和描述符缺乏W类别级匹配的泛化能力。最近，卷积神经网络已被用于IBfB学习更强大的特征描述符，fAB与经典描述符相比，外观变化[9，23，28，45，52]。然而，这些作品仍然划分成一组局部补丁的图像，并从每个补丁单独提取一个描述符。然后通过直接输出相似性得分[23，52]，或者甚至通过直接输出二进制匹配/不匹配决策[4]，将提取的描述符与适当的距离度量[9，28，45]进行比较。在这项工作中，我们采取了不同的方法，将图像作为一个整体，而不是一组补丁。我们的方法的优点是捕获的不同部分的图像在更大程度上，这是不可能的，当图像被划分成一组局部区域的相互作用。相关的还有用于估计视频中的帧间运动的网络架构[17，48，50]或实例级单应性估计[14]，然而它们的目标与我们的目标非常离我们更近的是[29]的网络架构，然而，它解决了一个不同的细粒度类别级匹配问题此外，他们的架构是基于一个不同的匹配层，我们显示不执行以及在我们的工作中使用的匹配层。一些工作，如[11，15，22，30，35，36]，已经解决了类别级匹配的难题，但依赖于传统的不可训练的匹配优化[11，15，30，35，36]，或使用对象proximity[22]指导匹配。相反，我们的方法完全可以以端到端的方式进行训练，并且在评估时不需要任何优化过程，也不需要对象pro-boundary的指导。其他人[33，44，53]通过执行联合图像对齐解决了实例和类别级对应的问题。然而，这些方法与我们的方法不同，因为它们：（i）需要类标签;（ii）3. 用于几何匹配的架构在本节中，我们将介绍一种新的卷积神经网络架构，用于估计两个输入图像之间的几何变换的参数。该体系结构被设计成模仿经典的计算机视觉流水线（例如.[40]），同时使用可微分模块，以便它是可训练的端到端的几何估计。图2：建议的架构图。图像IA和IB通过具有绑定参数W的特征提取网络，随后是匹配描述符的匹配网络。匹配网络的输出通过输出几何变换的参数的回归网络。任务。经典方法包括以下阶段：（i）局部描述符（例如，SIFT）从两个输入图像中提取，（ii）跨图像匹配描述符以形成一组试探性对应，然后将其用于（iii）使用RANSAC或Hough投票稳健地估计几何模型的参数我们的架构，如图所示。2，通过以下方式模拟该过程：（i）使输入图像IA和IB通过由卷积层组成的连体架构，从而提取类似于密集局部描述符的特征图fA和fB，映射fAB，然后是（iii）回归网络，其直接输出几何模型的参数θθ，健壮的举止。网络的输入是两幅图像，输出是所选几何模型的参数，例如，仿射变换的6维向量在下文中，我们将详细描述这三个阶段中的每一个。3.1. 特征提取管道的第一阶段是特征提取，我们使用标准的CNN架构。一个没有全连接层的CNN获取一个输入图像，并产生一个特征图f∈Rh×w×d，可以解释为作为一个h×w稠密的空间网格，编剧类似的解释以前也曾使用过在实例检索[5，7，8，20]中，证明了基于CNN的描述符的高区分能力因此，对于特征提取，我们使用VGG-16网络[46]，在池4层（ReLU单元之前）裁剪，然后进行每特征L2归一化。我们使用一个预先训练的模型，最初是在ImageNet[13]上训练的，用于图像分类任务。如图2.特征提取网络被复制并以连体结构布置，使得两个输入图像通过共享参数的两3.2. 匹配网络由特征提取网络产生的图像特征应该被组合成单个张量，作为回归量网络的输入，以估计几何变换。匹配6150相关层图3：使用CNN特征的相关图计算。相关图cAB包含个体特征fA∈fA和fB∈fB之间的所有成对相似性。在特定空间位置（i，j）处，相关性映射输出cAB包含fB（i，j）与所有fA ∈ fA之间的所有相似性。第我们首先描述了经典的方法来产生试探性的对应关系，然后提出了我们的匹配层，模仿这个过程。经典几何估计中的尝试性匹配。经典方法首先计算两幅图像中所有描述符对之间的相似性。从这一点开始，原始描述符被丢弃，因为用于几何估计的所有必要信息都包含在成对描述符相似性及其空间位置中。其次，通过对相似性值进行阈值化，或者更常见的是，只保留涉及最近（最相似）邻居的匹配此外，第二近邻测试[38]通过要求匹配强度明显强于涉及相同描述符的第二最佳匹配来进一步修剪匹配，这在丢弃模糊匹配方面非常有效。匹配图层。我们的匹配层应用了类似的程序。与经典方法类似，对于几何估计，仅应考虑描述符相似性及其空间位置，而不是原始描述符本身。为了实现这一点，我们建议使用相关层，然后进行归一化。首先，在相关层中计算描述符之间的所有相似度对。其次，相似性分数被处理和归一化，使得模糊匹配被强烈地向下加权。更详细地，给定L2归一化的稠密特征，映射fA，fB∈Rh×w×d，相关映射cAB∈相关层输出的Rh×w×（h×w）包含每个位置是一对单独的描述符fA∈fA和fB∈fB的标量积，如等式2中所详述（一）.cAB（i，j，k）=fB（i，j）TfA（ik，jk）（1）其中（i，j）和（ik，jk）表示h×w密集特征映射中的各个特征位置，k=h（jk−1）+ik是（ik，jk）的辅助索引变量。相关层的示意图如图所示。3.第三章。注意，在特定位置（i，j）处，相关性映射cAB包含该位置处的fB与f A的所有特征之间的相似性。正如在尝试性对应估计的经典方法中所做的那样，重要的是对成对相似性得分进行后处理以去除歧义匹配。为此，我们在每个空间位置处应用相关性图的通道方式归一化以产生最终试验性对应图fAB。归一化由ReLU执行，以消除负相关性，然后进行L2归一化，这具有两个理想的效果。首先，让我们考虑描述符fB仅与fA中的单个特征良好相关的情况。在这种情况下，归一化将放大匹配的分数，类似于经典几何估计中的最近邻匹配其次，在描述符fB匹配f A中的多个特征的情况下，由于存在杂波或重复模式，匹配分数将被向下加权，类似于第二最近邻测试[38]。然而，请注意，相关性和归一化操作都是相对于输入描述符可区分的，这有助于反向传播，从而实现端到端学习。讨论我们匹配层的第一步，即相关层，有点类似于DeepMatching [50]和FlowNet [17]中使用的层。然而，深度匹配[50]只使用深RGB补丁，没有部分是可以训练的FlowNet[17]使用空间约束相关层，使得相似性仅在受限的空间邻域中计算，从而限制了可以捕获的几何变换的范围。这对于他们学习估计光流的任务来说是可以接受的，但是对于我们在这项工作中考虑的此外，这两种方法都没有执行分数归一化，我们发现这在处理杂乱场景时至关重要。以前的工作已经使用其他匹配层来组合图像中的描述符，即沿着通道维度[14]或减法[29]的描述符的简单级联。然而，这些方法存在两个问题。首先，由于下面的层通常是卷积的，这些方法也难以处理大的transformations，因为它们无法检测长距离匹配。第二，当连接或减去描述符时，而不是像在经典几何估计中通常进行的那样计算成对描述符相似性并由相关层进行mim- icked，直接输出图像内容信息。为了进一步说明为什么这可能是有问题的，考虑与相同的几何变换6151∂θˆfAB7×7×225×1285×5×128×64θ^5×5×64×P图包含图像B中的对应特征与图像A中的所有特征之间的相似性得分（参见图10）。方程（1）），而不仅仅是如[17]中的局部邻域。图4：回归网络的架构。它由两个卷积层组成，没有填充和步幅等于1，然后是批量归一化和ReLU，以及最终的完全连接层，回归到P变换参数。几何变换相比之下，相关层的输出可能会产生类似的相关性映射的两种情况下，无论图像内容，从而简化，ING回归的问题根据这种直觉，在SEC。5.5我们表明，连接和减法方法确实难以推广到训练集之外，而我们的相关层实现了泛化，从而产生了更好的结果。3.3. 回归网络归一化的相关图通过回归网络，该回归网络直接估计与两个输入图像相关的几何变换的参数在经典的几何估计中，该步骤包括从暂定对应列表中稳健地估计变换。局部几何约束通常用于通过仅保留与其空间邻域中的其他匹配一致的匹配来进一步修剪试探性匹配列表[43，47]最终的几何估计通过RANSAC [18]或Hough投票[32，34，38]完成。我们再次使用神经网络模拟经典方法，其中我们堆叠两个卷积层块，然后进行批量归一化[26]和ReLU非线性，并添加最终的全连接层，该层回归到变换的参数，如图所示。4.第一章这种架构背后的直觉是，估计是以自下而上的方式执行的，有点像霍夫投票，早期的卷积层投票候选变换，然后由后面的层处理以聚合投票。第一个卷积层也可以通过学习过滤器来加强局部邻域共识[43，47]，这些过滤器仅在图像A中的附近描述符与图像B中的附近描述符匹配时才启动，并且我们在第二节中展示了定性证据5.5这件事确实发生了。讨论卷积回归网络的一个潜在替代方案是使用全连接层。然而，由于输入相关图的大小是图像特征数量的二次方，因此这种网络将难以训练，因为需要学习大量的参数，并且由于占用太多内存并且使用太慢而无法扩展。应该注意的是，即使我们架构中的层是卷积的，回归器也可以学习估计大的这是因为相关性3.4. 变换层次估计图像到图像变换时的另一种常用方法是从估计一个简单的变换开始，然后逐渐增加模型复杂度，并在此过程中细化估计值[11，37，40]。该方法背后的动机是，在存在杂波的情况下，估计非常复杂的变换可能是困难的并且计算效率低，因此可以将简单变换的鲁棒且快速的粗略估计用作起点，还正则化更复杂变换的后续估计。我们遵循相同的良好实践，并从估计仿射变换开始，仿射变换是能够对平移、旋转、非各向同性缩放和剪切进行建模的6自由度然后使用估计的仿射变换来使用图像恢复层将图像B与图像A对齐[27]。对准的图像然后通过第二几何估计网络，该网络估计薄板样条变换的18个参数。然后通过组合这两个变换得到几何变换的最终估计该过程如图所示。五、4. 培训为了训练我们的几何匹配CNN的参数，有必要设计适当的损失函数，并使用合适的训练数据。下面我们将讨论这两个要点4.1. 损失函数我们假设一个完全监督的设置，其中训练数据由成对的图像和所需的输出组成，输出形式为地面实况的参数θGT度量变换损失函数L被设计为将估计的变换θθ与地面进行比较，真值变换θGT，更重要的是，计算损失函数相对于估计值θ L的梯度。然后，以标准方式使用该梯度来学习网络参数，这些参数通过使用反向传播和随机梯度下降来最小化损失函数。期望损失是一般的而不是特定于特定类型的几何模型，使得其可以用于估计仿射、单应性、薄板样条或任何其他几何变换。此外，损失应独立于变换的参数化，因此不应直接作用于参数值本身。我们解决所有这些设计问题-conv1BN1ReLU1conv2BN2ReLU2FC6152阶段1阶段2IA特征提取θˆAFFIB特征提取IA经纱θˆTPSIBTPS回归匹配特征提取特征提取匹配仿射回归图5：逐步估计更复杂的几何变换。图像A和B通过一个网络，该网络估计具有参数θ=A f f f的af精细变换（见图2）。2）的情况。然后，使用该变换来粗略地对齐A，B，并与B一起通过第二个网络，该网络估计细化对齐的薄板样条（TPS）变换通过测量在由变换引起变形的假想点网格上的损耗来测量应变。也就是说，我们在图像A中构建点的网格，使用地面真实值和神经网络估计的变换来变换它，关于TθGT和Tθ的参数θGT和θ，并测量两个转换后通过对相应网格点之间的平方距离求和来生成网格：L（θθ，θ1ΣN）=的d（T（g），T（g）第2条第（2）款图6：合成图像生成。在原始图像中加入对称填充以扩大采样区域，GTNθii=1θGTi使用标准裁剪作为图像A，并且通过执行以下操作来创建图像B：随机采样变换TθGT。其中，G={gi}={（xi，yi）}是所使用的均匀网格，并且N=| G|. 我们将网格定义为具有xi，yi∈ {s：s=−1 + 0。1×n，n∈ {0，1，. . .，20}}，也就是说，每个坐标属于[-1，1]在步长为0的等距子区间中的划分。1.一、注意，我们构造该坐标系使得图像的中心在（0，0）处并且图像的宽度和高度等于2，即，左下角和右上角分别具有坐标（-1，-1）和（1，1）损失函数相对于如果变换后的网格点Tθ（gi）的位置为可微的，关于θ的。这是常见的情况，例如，当T是一个α f精细变换时，Tθ（gi）是参数θe是线性的，因此可以直接区分损耗。4.2. 从合成转换中进行培训我们的训练过程需要由图像对和已知几何关系组成的完全监督训练CNN通常需要大量数据，并且不存在包含许多用几何变换标注的图像对的公共数据集。因此，我们选择从综合生成的数据中进行训练，这使我们能够灵活地根据需要收集尽可能多的训练示例，用于任何感兴趣的二维几何变换我们生成每个训练对（IA，IB），通过采样IA从公共图像数据集，并通过将随机变换TθGT应用于IA来生成IB。更准确地说，是从原始图像的中心裁剪创建的，而IB是通过将原始图像与添加的对称填充以避免边界伪影;该过程如图2所示。六、5. 实验结果在本节中，我们将描述我们的数据集，给出实现细节，并将我们的方法与基线和最先进的方法进行比较。我们还提供了对我们架构组件的进一步见解。5.1. 评价数据集和业绩计量我们的方法进行定量评估的建议流数据集的火腿等。[22]第20段。该数据集包含900个图像对，描绘了同一类的不同实例，如鸭子和汽车，但类内变化很大，例如汽车往往是不同的牌子，鸭子也可能是不同的亚种。此外，图像包含显著的背景杂波，如图1B所示。8. 任务是预测图像A中预定义关键点在图像B中的位置。我们通过估计将图像A扭曲为图像B的几何变换，并将相同的变换应用于关键点位置来实现。我们遵循用于此基准的标准评估方法，即：的平均概率原始图像填充图像IAIB6153正确关键点（PCK）[51]，是正确匹配的关键点的比例。如果关键点的预测位置在目标关键点位置的α·max（h，w）其中α= 0。1，h和w是对象边界框。5.2. 训练数据用于仿射和薄板样条阶段的两个不同的训练数据集，分别称为 StreetView-synth-aff 和 StreetView-synth-tps，通过对来自东京时间机器数据集[5]的图像应用合成变换来生成，该数据集包含东京的Google街景图像。每个合成生成的数据集包含40k图像，分为20k用于训练和20k用于验证。地面实况变换参数从合理的范围独立地采样，例如，对于仿射变换，到2×，而对于薄板样条，我们随机抖动3×3通过独立地转换每个控制点，在所有方向上，最多可按图像大小的四分之一指向此外，还生成了仿射阶段的第二个训练数据集，该数据集是从Pascal VOC 2011[16]的训练集创建的，我们称之为Pascal-synth-aff。节中5.5，我们比较了使用StreetView-synth-aff和Pascal-synth-aff训练的网络的性能，并展示了我们的方法的泛化能力。5.3. 实现细节我们使用MatConvNet库[49]并使用随机梯度下降来训练网络，学习率为10−3，动量为0.9，没有权重衰减，批量大小为16.不需要抖动，因为我们可以简单地生成更多的合成训练数据，而不是数据增强。将输入图像的大小调整为227×227，传递到匹配层的15×15特征图仿射和薄板样条阶段是独立训练的。分别使用StreetView-synth-aff和这两个阶段都被训练，直到收敛，这通常发生在10个epoch之后，并且在单个GPU上需要12个小时。我们用于估计仿射变换的最终方法使用两个网络的集合，它们独立地回归参数，然后对参数进行平均以产生最终的仿射估计。这两个网络是在不同范围的仿射变换上训练的。与图5中，估计的仿射变换用于扭曲图像A，并将其与图像B一起传递到估计薄板样条变换的第二网络。所有的训练和评估代码，以及我们的训练网络，都在[1]在线。表1：与最新技术水平和基线的比较。以PCK衡量的Proposal Flow数据集上的匹配质量。建议流方法有四个不同的PCK值，四个采用的区域建议方法中的每一个都有一个。除了我们的和RANSAC之外，所有的数字都取自[22]。5.4. 与最新技术我们将我们的方法与SIFT流[35]，图形匹配内核（GMK）[15]，可变形空间金字塔匹配（DSP）[30]，DeepFlow [41]以及建议流的所有三种变体（NAM，PHM，LOM）[22]进行比较。如Tab.所示。1，我们的方法优于所有其他方法，并在此数据上设置了新的最先进的方法。最好的竞争方法是基于建议流，并利用对象的proximation，这使得他们能够引导匹配到包含对象的图像区域。它们的性能随着对象建议方法的选择而显著变化，说明了这种引导匹配的重要性。相反，我们的方法不使用任何指导，但它仍然能够超越甚至最好的提案流和对象提案组合。此外，我们还使用与我们的方法相同的描述符（VGG-16pool 4）与RANSAC估计的仿射变换进行比较。该基线的参数已经被广泛地调整，以通过调整第二最近邻测试的阈值和通过修剪可能变换范围之外的提议变换来获得最佳结果。我们的仿射估计在这项任务上优于RANSAC基线，49%（我们的）与47%（RANSAC）相比。5.5. 讨论和消融研究在本节中，我们将研究架构中各个组件的重要性。除了在StreetView-synth-aff数据集上进行训练外，我们还在Pascal-synth- aff上进行训练，其中包含与ProposalFlow基准中的图像更相似的图像这些消融研究的结果总结见表1。二、相关与连接和减法。如[14]和[29]中所提出的，用特征串联或减法来替换我们基于相关性的匹配层，方法PCK（%）[41]第四十一话20GMK[15]27SIFT Flow[35]38DSP[30]29[22]第二十二话53[22]第二十二话55[22]第二十二话56RANSAC与我们的特征（仿射）47仿射（Affine）49我们的（仿射+薄板样条）56我们的（仿射系综+薄板样条）576154图7：过滤器可视化。来自回归器第一层的一些卷积滤波器作用于暂定对应图，显示对空间共位特征的偏好，这些特征一致地变换到另一幅图像，从而学习执行经典特征匹配中经常使用的局部邻域一致性标准。有关可视化的更多详细信息，请参阅文本。图像A对齐A（仿射）对齐A（仿射+TPS）图像B图8：Proposal Flow数据集上的定性结果。每一行显示来自Proposal Flow数据集的一个测试示例。仅用于对准评估的地面实况匹配关键点分别被描绘为图像A和B的十字和圆圈。在图像A与图像B对齐之后，相同颜色的关键点应该彼此匹配为了说明匹配误差，我们还将B的关键点覆盖到A的不同对准上，使得连接匹配关键点的线指示关键点位置误差向量。我们的方法设法用仿射变换（第2列）粗略地对齐图像，然后使用薄板样条（TPS，第3列）进行更精细的对齐。它成功地处理了背景混乱，平移，旋转，外观和比例的大变化，以及非刚性变换和一些透视变化。补充材料[2]中列出了更多的例子。方法StreetView-synth-aff Pascal-synth-aff[14]第26话减影[29]18 21我们没有正常化44我们的49 45表2：消融研究。以PCK衡量的Proposal Flow数据集上的匹配质量。所有方法都使用相同的特征（在池4处裁剪的VGG-16）。该网络在StreetView-synth-aff和Pascal-synth-aff数据集上进行了训练。对于这些实验，仅估计仿射变换。分别导致大的性能下降。该行为是预期的，因为我们将匹配层设计为仅保留关于成对描述符相似性的信息，而不是描述符本身，这是经典几何估计方法中的良好实践，而连接和减法不遵循该原则。概括。如Tab中所示。2，我们的方法相对不受训练数据选择的影响，因为无论是用StreetView还是Pascal图像训练，其性能都是相似我们还将此归因于操作成对描述符相似性而不是原始描述符的设计标准化。选项卡. 2还示出了相关图归一化步骤的重要性，其中归一化6155(a) 图像A（b）图像B（c）对齐的图像A（d）（b）和（c）的叠加（e）差异图图9：东京时间机器数据集的定性结果。每一行都显示了来自东京时间机器数据集的一对图像，以及我们的对齐和“差异图”，突出显示了描述符空间中对齐图像之间的我们的方法成功地将图像A与图像B对齐，尽管视点和场景发生了变化（在差异图中结果从44%提高到49%。该步骤模仿经典特征匹配中使用的第二近邻测试[38]，如第2节所述。3.2. 请注意，[17]也使用了相关层，但他们没有以任何方式规范化映射，这显然是次优的。学到了什么？我们检查来自回归器的第一个卷积层的滤波器，它直接对匹配层的输出进行操作，即。初步对应图。回想一下，对应图中的每个空间位置（见图1）。3，绿色）包含图像B中的该特征与图像A中的所有特征之间的所有相似性分数。因此，通过特定空间位置处的一个卷积滤波器的权重的每个单个1-D切片可以被可视化为图像，示出滤波器对与图像A中的特定位置匹配的图像B中的例如，如果滤波器的中心切片除了左上角的峰值外包含所有类似地，如果过滤器的许多空间位置产生类似的可视化，则该过滤器对图像B中的空间共位特征高度敏感，这些特征都与图像A的左上方为了可视化，我们从所有滤波器权重切片中选取峰值，并将它们平均在一起以生成单个图像。图中所示的几个过滤器。图7证实了我们的假设，即该层已经学会模仿局部邻域一致性，因为一些滤波器强烈响应于图像B中的空间协同定位特征，这些特征与图像A中的空间一致位置相匹配。此外，可以观察到，优选空间邻域的大小在滤波器之间变化，从而示出滤波器对尺度变化是有区别的。5.6. 定性结果图8说明了我们的方法在类别级匹配中的有效性，其中具有挑战性的图像对包含大的类内变化的Proposal Flow数据集[22]中的该方法能够鲁棒地，在杂波的存在下，估计大的translation ，旋转，规模的变化，以及非刚性transformations和一些角度的变化。补充材料[2]中列出了更多的例子。图9示出了实例级匹配的质量，其中同一场景的不同图像被正确地对齐。这些图像取自东京时间机器数据集[5]，并在相隔数月或数年的不同时间点拍摄注意，通过自动突出显示对齐图像之间的差异（在特征空间中），可以检测场景中的变化，例如遮挡、植被变化或结构差异，例如新的建筑正在建造。6. 结论我们已经描述了一个网络架构的几何匹配完全可训练的合成图像，而不需要手动注释。由于我们的匹配层，网络可以很好地推广到从未见过的图像，在chal-challening Proposal Flow数据集上达到最先进的结果，以进行类别级匹配。这开启了将我们的架构应用于其他困难的对应问题的可能性，例如在照明（白天/夜晚）[5]或描绘风格[6]的大变化中进行匹配。鸣谢。这项工作得到了部分支持”李嘉诚说。336845），ANR项目Semapo-lis（ANR-13-CORD-0003），Inria CityLabIPL，CIFAR机器大脑&学习计划和ESIF，OP研究，开发和教育项目 IMPACT No.CZ 02. 1 . 一、 01/0 。 0/0 。 0/15003/0000468。6156引用[1] 项目网页（代码/网络）。http://www.di的网站。ens.fr/willow/research/cnngeometric/网站。[2] 论文的补充材料（附录）。https：//arxiv.org/abs/1703.05593网站。[3] S. 阿加瓦尔 N. 狡猾 I. 赛门， S. M. 塞茨，和R.塞利斯基罗马在一天之内建成InProc. ICCV，2009.[4] H. Altwaijry，E. Trulls，J. Hays，P. Fua和S.贝隆吉学习如何将航拍图像与深层的建筑相匹配。在Proc. CVPR，2016中。[5] R. Arandjelo vic´，P.Gronat，A.Torii、T.Pajdla和J.Si vic.NetVLAD：用于弱监督位置识别的CNN架构。在Proc.CVPR，2016中。[6] M.奥布里湾Russell和J.西维克绘画到3D模型通过有区别的视觉元素对齐ACM Transactions onGraphics，2013。[7] H. Azizpour，A.Razavian，J.Sullivan，A.Maki和S.卡尔-儿子通用ConvNet表示的可转移性因素。arXiv预印本arXiv：1406.5774，2014年。[8] A. Babenko和V. Lempitsky 聚集本地深层有限元-图像检索的方法。在Proc. ICCV，2015中。[9] V. Balntas，E.约翰斯湖Tang和K.米科莱奇克PN-Net：用于学习局部图像描述符的联合三重深度网络。arXiv预印本arXiv：1601.05030，2016.[10] H. Bay，T. Tuytelaars和L.范古尔曲名：Accelerated Up强大的功能。《欧洲法院民事诉讼程序》，2006年。[11] A.伯格，T. Berg和J.马利克使用低失真对应的形状匹配和目标识别。载于Proc. CVPR，2005年。[12] N. Dalal和B.Triggs 的方向导数直方图人体探测载于Proc. CVPR，2005年。[13] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。ImageNet：一个大规模的分层图像数据库。在Proc.CVPR，2009中。[14] D. DeTone，T.Malisiewicz和A.拉比诺维奇。深层图象单应性估计arXiv预印本arXiv：1606.03798，2016。[15] O. Duchenne，A. Joulin和J.庞塞一个图形匹配用于对象分类的内核。InProc.ICCV，2011.[16] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2011（VOC2011）http://www.pascal-network.org/challenges/VOC/voc2011/workshop/index.html啊[17] P. Fischer ， A. 两个人都是 E.Ilg ， P.Hausser ，C.Hazzirbassoul，Golkov，P. van der Smagt，D. Cremers和T.布洛克斯FlowNet：使用卷积网络学习光流.在Proc. ICCV，2015中。[18] M. A. Fischler和R.C. 波尔斯随机抽样同意sus：模型拟合的范例，用于图像分析和自动制图。ACM，1981年。[19] D. A. Forsyth和J.庞塞计算机视觉：一个现代approach. Prentice Hall Professional Technical Reference，2002。[20] Y.贡湖，澳-地王河，巴西-地Guo和S. Lazebnik 多尺度深度卷积激活特征的无序池化。在Proc.ECCV，2014中。[21] Y. HaCohen，E.Shechtman，D.B. Goldman和D.利申滑冰.非刚性稠密对应及其在图像增强中的应用。Proc.ACM SIGGRAPH，2011.6157[22] B. Ham，M.乔角，澳-地Schmid和J.庞塞提案流程。在Proc. CVPR，2016中。[23] X.汉，T.梁，Y.贾河，巴西-地Sukthankar和A. C. 伯格。MatchNet：统一特征和度量学习，用于基于补丁的匹配.在Proc.CVPR，2015中。[24] C. Harris和M.斯蒂芬斯角和边的组合检测器在1988年的Alvey视觉会议[25] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，2003年。[26] S. Ioffe和C.赛格迪批量标准化：加速通过减少内部协变量移位来进行深度网络训练在ICML，2015年。[27]M. Jaderberg，K. Simonyan、A. 泽瑟曼，K. Kavukcuoglu”Spatial在NIPS，2015年。[28] M. Jahrer，M. Grabner和H.比肖夫学习了用于识别和匹配的本地描述符。在计算机视觉冬季研讨会，2008年。[29] A. Kanazawa，D. W. Jacobs和M. Chandraker WarpNet：用于单视图重建的弱监督匹配在Proc. CVPR，2016中。[30] 金角，澳-地Liu，F. Sha和K.格劳曼变形空间金字塔匹配快速密集对应。在Proc.CVPR，2013中。[31]A.克里热夫斯基岛Sutskever和G. E.辛顿 ImageNet使用深度卷积神经网络进行分类。在NIPS，2012年。[32] Y. Lamdan，J.T. Schwartz和H.J. 沃尔夫森基于仿射不变匹配的目标识别。在Proc.CVPR，1988中。[33] E. G. 学习米勒。数据驱动的图像模型，连续关节对齐。IEEE PAMI，2006年。[34] B. Leibe，A.Leonardis和B.席勒具有交叉分类和分割功能的鲁棒对象检测IJCV，2008年。[35] C. Liu，J. Yuen，and A.托拉尔巴 SIFT Flow：致密corre-跨场景的自发性及其应用。IEEE PAMI，2011。[36] J. L. 新界元朗Zhang和T.达雷尔。 convnets学习吗通信？在NIPS，2014。[37] D. G.洛基于局部尺度不变特征的目标识别。InProc.ICCV，1999.[38] D. G.洛从尺度不变特征关键点IJCV，2004年。[39] K. Mikolajczyk和C.施密特仿射不变兴趣点检测器。《欧洲法院民事诉讼程序》，2002年。[40] J. Philbin，O. Chum，M. Isard，J. Sivic，and A. 齐塞尔伙计具有大词汇量和快速空间匹配的对象检索在Proc.CVPR，2007年。[41]J. Revaud，P. Weinzaepfel，Z. Harchaoui和C. 施密特深度匹配：分层可变形稠密匹配。IJCV，2015年。[42] M. Rubinstein，A. Joulin，J. Kopf，and C.刘某互联网图像中的无监督联合目标发现与分割。在Proc.CVPR，2013中。[43] C. Schmid和R.莫尔局部灰度值不变量年龄检索IEEE PAMI，1997年。[44] F. Shokrollahi Yancheshmeh，K. Chen和J. - K.卡玛-雷恩。无监督视觉对齐与相似图。在Proc.CVPR，2015中。[45] E. Simo-Serra ， E. 特鲁尔斯湖费拉斯岛 Kokkinos， P.Fua，和6158F.莫雷诺诺格尔深度卷积特征点描述符的判别学习。在Proc. ICCV，2015中。[46] K. Simonyan和A.齐瑟曼。非常深的卷积大规模图像识别的网络。InProc. ICLR，2015.[47] J. Sivic和A.齐瑟曼。视频Google：文本检索视频中的对象匹配方法在proc ICCV，2003年。[48] J. Thewlis，S.Zheng，山核桃P.Torr和A.维达尔迪完全可训练的深度匹配。在Proc. BMVC. ，2016年。[49] A. Vedaldi和K.伦克MatConvNetMATLAB网络在proc ACMM，2015年。[50] P. Weinzaepfel ，J. Revaud ，Z. Harchaoui和 C.施密特DeepFlow：深度匹配的大位移光流。InProc. ICCV，2013.[51] Y. Yang和D.Ramanan 铰接式人体检测，部件的柔性混合物。IEEE PAMI，2013年。[52] S. Zagoruyko和N.小木通过卷积神经网络学习比较图像块。在Proc.CVPR，2015中。[53] T. Zhou，Y.J. 李，S。X. Yu和A.A. 埃夫罗斯通过编织一致的像素对应来实现在Proc.CVPR，2015中。

下载后可阅读完整内容，剩余1页未读，立即下载