自适应邻域一致性的对应网络研究及应用

83 浏览量更新于2023-10-24 收藏 14.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

gory. This task is extremely challenging due to large intra-class variation in properties such as colour, scale, pose, andillumination. Further, it is unreasonably expensive, if notimpossible, to provide dense annotations for such imagepairs.To deal with the challenges mentioned above, we in-troduce a convolutional neural network (CNN), calledAdaptive Neighbourhood Consensus Network (ANC-Net),which can produce reliable semantic correspondences with-out requiring dense human annotations. ANC-Net takes apair of images as input and predicts a 4D correlation map,containing the matching scores for all possible matches be-tween the two images. The most likely matches can thenbe retrieved by ﬁnding the matches giving the maximummatching scores.ANC-Net consists of a CNN feature extractor, a multi-scale self-similarity module, and an adaptive neighbour-hood consensus module.At the core of ANC-Net isour proposed non-isotropic 4D convolution, which incor-porates an adaptive neighbourhood consensus constraintfor robust matching, and our proposed multi-scale self-similarity module, which aggregates multiple self-similarityfeatures, which are insensitive to intra-class appearancevariation[17].CNN features have been very popular for the task ofcorrespondence estimation due to their promising perfor-mance, and most state-of-the-art methods are based onCNN features[32, 27, 10, 17, 2]. Like other methods,ANC-Net also extracts features with a pre-trained CNN.However, instead of directly using the CNN features to cal-culate matching scores, we introduce the multi-scale self-similarity. Self-similarity has been introduced in existingmethods [10, 17].Unlike other methods that either useself-similarity as an extra feature alongside raw CNN fea-tures [10], or use computationally expensive irregular self-similarity patterns [17], our self-similarity features are bothcomputationally cheap to obtain, and do not need combin-ing with raw CNN features, whist still capturing the com-plex self-similarity patterns.1101960具有自适应邻域一致性的对应网络0Shuda Li 1 � Kai Han 2 � Theo W. Costain 1 Henry Howard-Jenkins 1 Victor Prisacariu 101 主动视觉实验室 & 2 视觉几何组工程科学系, 牛津大学0{ shuda, khan, costain, henryhj, victor } @robots.ox.ac.uk0摘要0本文中，我们解决了在包含相同类别对象的图像之间建立密集视觉对应的任务。由于类内变化大和缺乏密集像素级注释，这是一项具有挑战性的任务。我们提出了一种卷积神经网络架构，称为自适应邻域一致性网络（ANC-Net），可以通过稀疏关键点注释进行端到端训练，以处理这一挑战。ANC-Net的核心是我们提出的非各向同性4D卷积核，它构成了用于鲁棒匹配的自适应邻域一致性模块的构建块。我们还在ANC-Net中引入了一个简单而高效的多尺度自相似模块，使学习到的特征对类内变化具有鲁棒性。此外，我们提出了一种新颖的正交损失，可以强制执行一对一匹配约束。我们在各种基准测试上对我们的方法的有效性进行了全面评估，结果显示它明显优于现有的方法。01. 引言0建立视觉对应关系一直是计算机视觉中的一个基本问题。它在3D重建[1,33]、图像编辑[6]、场景理解[24]和目标检测[4]等领域有着各种应用。早期的工作主要集中在使用手工设计的特征（如SIFT[26]或HOG[3]）估计相同场景或对象的对应关系（即实例级对应关系）。最近，越来越多的关注点放在了为同一类别的不同实例找到对应关系（即语义对应关系）[2, 9, 32, 10,27]。本文关注的是为描绘同一类别的不同实例的图像对建立密集对应关系的问题。由于颜色、尺度、姿态和光照等属性的大类内变化，这个任务极具挑战性。此外，为这样的图像对提供密集注释是不合理昂贵的，甚至是不可能的。为了应对上述挑战，我们引入了一种卷积神经网络（CNN），称为自适应邻域一致性网络（ANC-Net），它可以在不需要密集人工注释的情况下产生可靠的语义对应关系。ANC-Net以一对图像作为输入，并预测一个4D相关图，其中包含两个图像之间所有可能匹配的匹配分数。然后，可以通过找到给出最大匹配分数的匹配来检索最可能的匹配。ANC-Net由CNN特征提取器、多尺度自相似模块和自适应邻域一致性模块组成。ANC-Net的核心是我们提出的非各向同性4D卷积，它结合了自适应邻域一致性约束以实现鲁棒匹配，以及我们提出的多尺度自相似模块，它聚合了多个对类内外观变化不敏感的自相似特征[17]。由于其有希望的性能，CNN特征在对应估计任务中非常受欢迎，大多数最先进的方法都基于CNN特征[32, 27, 10, 17,2]。与其他方法一样，ANC-Net也使用预训练的CNN提取特征。然而，我们不直接使用CNN特征计算匹配分数，而是引入了多尺度自相似。现有方法中已经引入了自相似[10,17]。与其他方法不同，其他方法要么将自相似作为与原始CNN特征并列的额外特征[10]，要么使用计算成本高昂的不规则自相似模式[17]，而我们的自相似特征既计算成本低廉，又不需要与原始CNN特征结合，同时捕捉到复杂的自相似模式。0� 表示相等的贡献S101970F0F0F s0F t0S s0S t0C f0C s0I s0I t0C0图1：ANC-Net的概述。给定一对图像（I s，It），ANC-Net可以预测它们的像素级语义对应关系。首先，CNN骨干F提取特征F s和Ft。然后，我们的多尺度自相似性模块基于F s和F t捕捉自相似性特征S s和S t。然后，我们可以从S s和S t得到C s，从F s和Ft得到C f。将C f和C s作为输入，我们的ANC模块N将预测一个经过细化的¯C，通过插值可以检索到像素级对应关系。0通过可靠的特征表示，可以计算每个个体特征对的匹配分数。然而，由于个体特征对不包含任何匹配有效性信息，直接特征比较的匹配结果可能会很嘈杂。为了减轻这个问题，应该应用对应有效性约束来获得可靠的匹配分数。邻域一致性是衡量在考虑的两个点的邻域中有多少对特征被匹配的有效约束之一，已经成功地应用于最近的工作中[32,10]。然而，[32]和[10]假设考虑的两个点具有相同大小的邻域。不幸的是，这个假设在实践中不成立，因为真实图像中的对象通常具有不同的尺度和形状。因此，采用相同大小的邻域很可能会受到无关邻居（例如背景部分）的影响。为了解决这个问题，我们提出了一种自适应邻域一致性模块，可以选择正确的邻域。正如前面提到的，标记地面真值的成本意味着密集注释的全监督学习是不可行的。相反，我们的模型可以有效地利用稀疏的关键点注释。为了强制实施一对一映射约束，这对于合理的对应关系至关重要，我们进一步提出了一种新颖的一对一映射损失，称为正交损失，以规范训练。总结起来，我们的贡献有四个方面：•我们引入了ANC-Net用于密集语义对应估计的任务，可以使用稀疏的关键点注释进行训练。•我们提出了一种非各向异性的4D卷积核，它构成了自适应邻域一致性模块的构建块，用于鲁棒匹配。0•我们提出了一种简单高效的多尺度自相似性方法，使特征匹配对类内变化具有鲁棒性。•我们提出了一种新颖的正交损失，可以强制实施一对一匹配约束，鼓励合理的匹配结果。我们在各种基准测试上对我们的方法的有效性进行了全面评估，结果明显优于最先进的方法。我们的代码可以在https://ancnet.avlcode.org/找到。02. 相关工作0语义对应估计问题通常被认为是像素级匹配问题、图像对齐问题或流估计问题。早期的工作使用手工设计的特征，如SIFT [26]或HOG [3]，来建立语义对应关系[24, 15, 11, 8, 7,35]。在这里，我们简要回顾了最近的基于CNN的方法。像素级匹配。Long等人[25]将在图像分类任务上预训练的特征转移到像素级对应估计中。Choy等人[2]引入了一种学习特征嵌入的方法，用于对应问题，通过将正样本特征对靠近，将负样本特征对推开。Han等人[9]提出了一种CNN模型，尝试考虑外观和几何信息来匹配图像块，并通过插值获得像素级对应关系。Novotny等人[28]引入了一种方法，通过对图像应用合成变形来学习具有几何稳定性的特征，采用自监督学习。最近，Rocco等人[32]提出了构建一个CNN模型，将邻域一致性信息纳入到存储所有匹配分数的4D张量中，从中得到匹配分数。101980预训练的CNN特征。Huang等人[10]引入了一种基于[32]的自相似性方法，并通过注意机制融合不同的特征。Min等人[27]表明，有效地组合从不同层提取的特征对于密集语义对应估计任务非常有益。图像对齐。Rocco等人[30]开发了一种CNN架构，可以通过在合成扭曲数据上训练来预测两个图像之间的全局几何变换。Seo等人[34]通过引入基于注意力的偏移感知相关核进一步改进了[30]。Rocco等人[31]提出了一种端到端可训练的CNN架构，使用弱图像级监督进行训练，该监督通过类似于RANSAC的软内点计数损失进行训练。Jeon等人[13]引入了一种分层学习过程，以逐步学习仿射变换以混合图像。Kim等人[16]引入了一种经过迭代过程训练的循环变换器网络，可以预测一对图像之间的变换。流估计。Fischer等人[5]引入了一种名为FlowNet的端到端可训练模型，该模型在合成数据上进行训练以预测光流。Ilg等人[12]在几个方面进一步改进了FlowNet。Kim等人[17]提出了一种可学习的自相似特征，然后用于估计每个特征位置的密集仿射变换流。然后可以通过应用这些变换来获得语义对应关系。Lee等人[22]提出了一种使用带有二值前景掩模的图像，并经过合成几何变形的方法来训练具有掩模一致性损失和流一致性损失的CNN模型。除此之外，还有一些方法使用视频[36, 20]来学习流，通过考虑时间一致性。03. 方法0给定一对图像（I s，It），我们的目标是找到两个图像之间的像素级对应关系。我们提出了一个名为ANC-Net的CNN，它以（I s，It）作为输入，并生成一个包含两个图像特征空间中所有可能对的匹配分数的4D相关图。然后可以通过在特征空间中最可能的匹配之间进行插值来提取像素级对应关系。该模型可以通过对稀疏关键点注释的监督损失进行端到端训练。为了鼓励一对一匹配，我们提出了一种新的损失，称为正交损失，与对稀疏关键点注释的监督损失一起用于训练我们的模型。图1说明了我们网络的主要架构。它由特征提取器F、多尺度自相似模块和自适应邻域一致性（ANC）模块N组成。特征提取器F由一系列标准卷积层组成。我们首先将两个图像输入到F中，得到一对特征图F s和Ft。多尺度自相似模块S由两个卷积层组成，然后进行串联操作将它们融合成多尺度特征。利用F s和Ft，S将产生多尺度自相似特征图S s和St，捕捉复杂的自相似模式。然后我们可以从S s和St得到4D相关图C s，从F s得到4D相关图C f。0将两个图像输入到F中，得到一对特征图F s和Ft。多尺度自相似模块S由两个卷积层组成，然后进行串联操作将它们融合成多尺度特征。利用F s和F t，S将产生多尺度自相似特征图S s和St，捕捉复杂的自相似模式。然后我们可以从S s和S t得到4D相关图C s，从Fs得到4D相关图C f。0然而，C s 和 C f往往噪声较大，因为它们缺乏强制执行对应关系有效性的约束条件，因此不可靠地直接提取对应关系。我们提出的ANC模块N，通过一系列非各向异性的4D卷积对C s 和C f进行细化，考虑了不同尺寸的邻域。最后，ANC模块通过简单地将两者相加，将细化的相关图组合成一个单一的4D相关图¯C，可从中检索可靠的对应关系。C s用于捕捉从原始特征中导出的二阶（及更高阶）线索。C s与C f具有类似的结构，允许两者都使用邻域一致性模块进行细化，而不引入额外的可学习参数。实验证明，所提出的自相似模块优于类似的方法[17,10]。在本节中，我们首先介绍多尺度自相似模块（Section3.1）。然后，在Section3.2中描述自适应邻域一致性匹配有效性模块。Section3.3将讨论通过最大化后验估计来强制执行邻域一致性输出的全局约束的方法。最后，我们在Section3.4中描述了训练网络的学习目标。03.1. 多尺度自相似性0自相似性已被证明对语义对应估计任务有效[17,10]。给定由主干特征提取器建立的特征图F∈Rh f × w f ×d，自相似性图在每个特征位置上测量局部相似性模式。提取特征向量f ij在F中的自相似性特征的一种方法是计算其与邻居之间的余弦距离。图2说明了在考虑给定特征向量的3×3邻居时的自相似模块。这种方法为每个f ij产生9个自相似性分数。我们进一步将3×3自相似性分数中的每个向量化为一个9向量，构成自相似性特征图S0∈Rh f× w f ×9。为了进一步捕捉不同自相似性特征之间的相关性，我们在S0上应用了两个带有零填充的2D卷积层。给定两个层的输出特征图为S1和S2，然后将3个尺度的S0、S1和S2连接在一起，形成增强的特征图S，这将作为后续层的输入。101990余弦距离+向量化0自相似模块0F0S0 S1 S20S02D卷积0连接0图2：自相似模块。左上角的图示了在3×3窗口上计算自相似分数的过程。具体来说，计算每个特征与中心特征之间的余弦距离，然后将其向量化为S0。在底部，我们首先从特征图F计算S0，然后进行两层2D卷积，每层卷积后跟一个激活函数（ReLU），以产生S1和S2。最后，将初始相似度分数S0、其第一尺度过滤特征S1和第二尺度过滤特征S2连接在一起，形成最终的特征图S。0使用源图像和目标图像的特征图Ss和St，我们可以获得4D相关性图Cs。与DCCNet[10]不同，DCCNet只考虑了单一尺度的自相似性，并将自相似性分数与F进行连接，然后使用逐点卷积来重新加权原始特征，我们的方法避免了与F融合以减少冗余，因为F中的特征已经隐含在S0中。此外，我们提取了比DCCNet更复杂的自相似性，并利用多尺度自相似性来引导特征。因此，我们从更大的局部窗口中捕捉到了更复杂的特征，以及二阶（和更高阶）信息。正如实验中所示，我们的多尺度自相似性模块的性能优于DCCNet。值得注意的是，FCSS[17]提出了类似的设计，但他们的自相似性分数是使用局部窗口内的一组不规则点对来定义的，这更复杂。相比之下，我们采用了将中心特征与邻居进行相关的设计，以简化和提高计算效率，结果是我们简化的自相似性模块在所有基准测试中都优于FCSS。Cf和Cs互为补充，我们假设它们分别由一阶和高阶线索主导。它们将分别由后续的ANC模块进行改进，然后合并。03.2. 自适应邻域一致性0邻域一致性已被证明对于过滤嘈杂的4D相关性图[32,10]是有效的。我们在4D相关性图上应用多层各向同性的4D卷积核，即在每个维度上具有相同大小的卷积核，来对其进行改进。图3左上方示出了尺寸为5×5×5×5的各向同性4D卷积。可以看到，该卷积核为两个图像建立了相同大小的邻域。然而，实际图像中的对象往往具有不同的尺度和形状，因此，描绘相同语义含义的两个邻域很可能具有不同的大小。因此，在确定匹配时，使用相同大小的邻域可能会引入噪声（例如，不相关的背景）。为了解决这个问题，我们引入了自适应邻域一致性（ANC）模块，其中包含一组非各向同性的4D卷积层。如图3右上方所示，非各向同性的4D卷积具有3×3×5×5的尺寸，定义了3×3和5×5的邻域。为了处理具有不同尺度和形状的实际图像中的对象，我们可以将非各向同性的4D卷积核与各向同性的4D卷积核相结合，以使模型能够动态地确定应激活哪组卷积来处理不同尺寸的对象。我们在实验中考虑了3种候选架构（如图3所示），每个非各向同性4D卷积都使用零填充。除非另有说明，否则我们在实验中使用(d)，因为它在我们的评估中表现最好。这可能是因为(d)允许更多的尺度变化。这个选择可能忽略了比(d)更好的设计，但本工作的主要目的是展示ANC模块的有效性。值得注意的是，在模型中不需要同时具有p×p×q×q和q×q×p×p的卷积核，其中p和q是一些卷积核维度的大小，因为双向邻域一致性滤波器在等式1中（下面将解释）通过反转匹配方向有效地尝试了小邻域与大邻域以及大邻域与小邻域的两种配置，并且两个滤波器的效果是等效的，因为它们是双向匹配的。设N为我们的自适应邻域一致性模块。它以4D相关性图Cs或Cf作为输入并对其进行改进。它们的改进版本然后可以组合形成¯C。我们将N应用于两个匹配方向（即将Is与It匹配和将It与Is匹配），以使我们的模型对图像的顺序不变。更重要的是，这使得N只包含一个p×p×q×q的非各向同性卷积核，以处理从小到大以及从大到小的邻域。特别地，可以通过以下方式获得改进的4D相关性图5 x 5 x 5 x 55 x 5 x 5 x 55 x 5 x 5 x 51161615 x 5 x 5 x 55 x 5 x 5 x 55 x 5 x 5 x 51161613 x 3 x 5 x 5885 x 5 x 5 x 55 x 5 x 5 x 515 x 5 x 5 x 516163 x 3 x 5 x 58815 x 5 x 5 x 515 x 5 x 5 x 516163 x 3 x 5 x 5885 x 5 x 5 x 513 x 3 x 5 x 588(a)(b)(c)(d)(i,j,k,l) FtAfter obtaining the reﬁned 4D correlation map ¯C, wefollow [32] to apply soft mutual nearest neighbour ﬁlter-ing, i.e., for each ¯cijcd in ¯C, we replace it by ˆcijcd =rsijklrtijkl¯cijkl where rsijkl=¯cijklmaxab ¯cabkl and rtijkl=102000各向同性4D卷积核5x5x5x5非各向同性4D卷积核3x3x5x50图3：自适应邻域一致性。顶部一行示例了各向同性和非各向同性的4D卷积核。底部一行示例了（a）NC-Net[32]中的非各向同性和（b-d）三个ANC候选的架构。⊕表示特征图的连接。数字{1，16，16，1}表示4D卷积核的输入和输出通道数。非各向同性的4D卷积总是进行零填充，以便在每次卷积后4D相关图的大小保持不变。0¯C = N(C_s)+ �N�C�s�� + N(C_f)+ �N�C�f��，(1)0其中�表示给定图像对的匹配方向的交换，即(C�)ijkl = Cklij。03.3. 最可能的匹配0max_cd¯c_ijcd，这降低了那些不是互相最近邻的匹配的得分。接下来，我们对得分ˆc_ijkl进行softmax归一化。归一化后的得分可以解释为匹配的概率。特别地，给定I_s中的点（i，j）与I_t中的任意点（k，l）匹配的概率为0v_t_ijkl = /0cd exp(ˆc_ijcd). (2)0类似地，给定I_t中的点（k，l）与I_s中的任意点（i，j）匹配的概率为0v_s_ijkl = /0ab exp(ˆc_abkl). (3)0对于给定的I_s中的位置（i，j），可以通过以下方式找到I_t中最可能的匹配（k，l）0（k，l）= arg max_cd v_t_ijcd. (4)0类似地，对于给定的I_t中的位置（k，l），可以通过以下方式找到I_s中最可能的匹配（i，j）0（i，j）= arg max_ab v_s_abkl. (5)0使用公式4和公式5在特征空间中检索对应关系后，可以通过插值获得像素级对应关系。03.4. 学习目标0对于建立密集语义对应的任务来说，由于需要大量的人力，很难为所有的训练图像对获取密集的真实标签。实际上，我们只能轻松地为图像中的一些对象关键点进行标注。这些关键点通常表示具有具体语义意义的对象部分（例如眼睛、嘴巴、身体关节等）。稀疏的关键点注释包含在许多现有数据集中，包括PF-PASCAL [8]、Spair-71k [27]、CUB[37]等。还有其他形式的替代注释，例如图像级别的成对注释[32,10]或对象掩码[22]。在本文中，我们对稀疏的关键点注释感兴趣，因为它们与我们学习语义对应的目标更直接相关。稀疏的关键点注释为训练CNN模型进行语义匹配提供了一种简单直接的方法，其中我们最小化匹配关键点特征之间的距离（例如[2]）。然而，这对于ANC来说是不适用的，因为ANC操作的特征空间是一个4D相关图，而不是由每个像素特征向量组成的3D特征图。因此，我们引入了一个简单但有效的4D相关图的监督损失来训练我们的模型。对于图像中的每个关键点（x，y）（例如图4（a）），我们首先将（x，y）重新缩放到与特征图相同的分辨率，得到重新缩放的坐标（xc，yc）。由于（xc，yc）是一个亚像素坐标，不能直接在特征图中用作目标。相反，我们可以简单地选择特征图中最近邻的（xn，yn）作为目标（见图4（b））。然而，这将引入由于忽略（xn，yn）和（xc，yc）之间的偏移而引起的错误。由于特征图的分辨率远小于图像的分辨率，特征图中的小偏移将导致图像中的大误差。为了补偿偏移，我们考虑了四个最近邻（见图4（c）），而不是单个最近邻。具体而言，我们选择了(a)(b)(c)Lk = ∥Ms − Msgt∥F + ∥Mt − Mtgt∥F ,(6)Lo = ∥MM⊤ − MgtM⊤gt∥F ,(7)L = Lk + αLmo ,(8)102010图4：为每个关键点生成地面真值概率图。 (a) 关键点 ( x, y) 是图像坐标中的关键点。 (b) ( x n , y n ) 是 ( x, y )缩放到特征图分辨率的最近邻点 ( x c , y c ) 。 (c) ( x 1 n ,y 1 n ) , ( x 2 n , y 2 n ) , ( x 3 n , y 3 n ) 和 ( x 4 n , y 4 n) 是 ( x c , y c ) 的四个最近邻点。0四个最近邻点 ( x 1 n , y 1 n ) , ( x 2 n , y 2 n ) , ( x 3 n , y3 n ) 和 ( x 4 n , y 4 n ) ，并为它们设置标量值 t 1 , t 2 , t3 和 t 4 ，表示被视为目标的概率。 t 1 , t 2 , t 3 和 t 4与它们到 ( x c , y c ) 的距离成比例，且� 4 j =1 t j = 1。然后，我们对上述得到的四个最近邻概率图进行二维高斯平滑。我们发现这种平滑可以有效提高性能。这样，每个关键点位置的注释就被转换为一个二维概率图。接下来，我们将平滑后的二维概率图重塑为关键点 ( x, y ) 的 ( h c × w c) -向量，然后进行 L 2 归一化。对于包含 n个关键点的源图像 I s，我们可以构造其目标图像作为一个矩阵 M gt ∈ R n × (h c × w c ) ，其中每一行都是目标图像 I t中一个地面真值匹配关键点的概率向量。令 M gt 和 M分别表示地面真值和预测。注意，M 可以通过将 ¯ C的前两个和后两个维度展平（经过相互最近邻过滤）并取与M gt 对应的相同的 n行来获得。损失函数是它们之间的Frobenius范数，适用于两个匹配方向：0其中 M s 表示从 I s 到 I t 的目标概率图，M t表示反向方向。03.5. 强制一对一匹配0一对一映射（即一个点只能匹配到另一个点）对于改进经典图匹配（GM）[38，14]中的匹配准确性非常有用，该方法旨在在两个图像中匹配给定的点集（图形）。理想情况下，对于我们的语义对应估计任务，结果也应符合一对一匹配约束。当图像中存在一些重复的模式时（例如，具有多个相同窗户的建筑物），这尤其有帮助。GM方法总是假设两个图像中的关键点数量0在实际应用中，两个图像中的关键点通常不完全相同。例如，由于姿态变化，某些关键点可能在一个图像中可见，但在另一个图像中不可见。在这种情况下，两个图像中都存在一对零的映射。一个合理的一对一匹配约束应该能够自动忽略数据中的一对零匹配。为了解决这个问题，我们引入了一种新的损失，称为正交损失，因为它受到非负正交GM算法的启发[14]。其思想是当 MM � 是单位矩阵 I 时，M的每一行只包含一个元素，其余元素为零，因此我们在损失中包含了 MM � 和 I 之间的差异。然而，在现实中，M可能包含一对零的情况。因此，我们的正交损失项可以定义为0其中 ∥ . ∥ F 是Frobenius范数。值得注意的是，M gt M �gt在对角线上有零元素，这允许准确惩罚一对一和一对零的匹配。正交损失必须与等式 6结合使用，因为它对预测准确性没有影响。它只是通过鼓励一对一预测来正则化模型。我们模型的总损失可以写成0其中α是一个平衡项的权重，我们在所有实验中将其设置为0.001，Lmo = ∥MsMs�−MsgtMsgt�∥F +∥MtMt�−MtgtMtgt�∥F，考虑了两个匹配方向。04. 实验结果04.1. 数据集和实现细节0数据集。我们在四个公共数据集上评估我们的方法，分别是PF-PASCAL [8]，Spair-71k [27]和CUB[37]。PF-PASCAL包含1351对图像，大约分为700对用于训练，300对用于验证和300对用于测试[9，32]。Spair-71k数据集比其他数据集更具挑战性，因为它包含大的视角差异和尺度差异。我们使用了12234对测试对。Spair-71k仅用于评估在PF-PASCAL训练集上训练的模型的可转移性。CUB数据集包含11788张各种鸟类的图像，外观、形状和姿势变化很大。我们从CUB训练数据中随机抽取约10000对，并使用由[19]选择的5000对进行测试。实现细节。我们的ANC-Net是在PyTorch[29]框架中实现的。我们尝试了三个卷积网络作为特征骨干，分别是ResNet-50、ResNet-101和ResNeXt-101。它们都是在ImageNet [23]上预训练的，并且参数是固定的。102020在我们的ANC-Net训练过程中。自相似窗口的大小设置为5×5，ANC模块的通道设置为{1，16，16，1}。模型最初使用Adam优化器[18]进行10个epoch的训练，学习率为0.001，并应用高斯平滑处理生成地面真实概率图的核大小为5。然后，模型进行5个epoch的微调，应用核大小为3的高斯平滑处理，然后再进行5个epoch，核大小为0。为了与DCC-Net[10]进行比较，我们基于公开可用的NC-Net[32]的官方实现实现了它。我们的实现略微超过了[10]中报告的准确性。我们还基于公开可用的官方代码[2]实现了UCNResNet-101。评估指标。按照常规做法，我们使用正确关键点的百分比（PCK@α）作为评估指标。我们报告PCK阈值α =0.1的结果。α相对于max(wr，hr)设置，其中wr和hr分别是图像或物体边界框的宽度和高度。按照现有的工作[9，32，21，27]，我们在PF-PASCAL上使用α相对于图像大小，而在CUB和Spair-71k上使用α相对于物体边界框。0表1：与最先进方法的比较。0方法 PF-PASCAL CUB Spair-71k0身份映射37.0 14.6 3.70UCN GoogLeNet [2] 55.6 48.3 15.1 UCN ResNet-101 [2]75.1 52.1 17.7 SCNet VGG-16 [9] 72.2 - - WeakalignResNet-101 [31] 74.8 - 21.1 RTNet ResNet-101 [16] 75.9 -- NC-Net ResNet-101 [32] 78.9 64.7 26.4 DCCNetResNet-101 [10] 82.6 66.1 26.7 SFNet ResNet-101 [21]81.9 - 26.0 HPF ResNet-101 [27] 84.8 - 28.2 HPFResNet-101-FCN [27] 88.3 - -0ANC ResNet-50 83.7 69.6 27.1 ANC ResNet-101 86.1 72.428.70ANC ResNeXt-101 88.7 74.1 30.104.2. 基准比较0我们将我们的方法与最新的最先进方法进行比较，并在表1中呈现我们的结果。对于PF-PASCAL和Spair-71k的结果，所有方法都是在PF-PASCAL上训练的。对于CUB的结果，方法是在CUB上训练和测试的。我们使用了三种不同的特征骨干，即ResNet-50、ResNet-101和ResNext-101。当与其他方法使用相同的特征骨干（ResNet-101）时，我们的ANC-Net在所有数据集上都取得了最佳性能。例如，我们在PF-PASCAL和Spair-71k上分别达到了86.1%和28.7%的准确率。请注意，即使在ResNet-50特征骨干的情况下，我们的模型也优于NC-Net和DCC-0使用更强大的ResNet-101特征主干在所有数据集上进一步提升了我们方法的性能。此外，当我们用ResNext-101替换特征主干时，我们的方法在所有数据集上的性能可以进一步提升（在PF-PASCAL上从86.1%提升到88.7%，在CUB上从72.4%提升到74.1%，在Spair-71k上从28.7%提升到30.1%）。我们的结果也优于使用ResNet-101-FCN的HPF取得的先前最佳结果。结果明确证明了我们方法的有效性。在FP-PASCAL上的无偏评估。如[21]中所讨论的，训练集中有302个图像与测试集中的目标图像或源图像重叠。就图像对而言，训练集中有95个目标到源的图像对与测试集中的源到目标的图像对重叠。因此，我们通过分别排除这302个图像和95个图像对进行无偏评估。结果如表2所示。我们的方法始终优于NC-Net和DCCNet。0表2：PF-PASCAL上的无偏评估。0方法原始/无 95/无 302/无0NC-Net ResNet-101 [32] 78.9 78.8 80.3 DCCNetResNet-101 [10] 82.6 78.7 75.7 ANC-NetResNet-101 86.1 84.2 84.504.3. 消融实验0在消融实验中，我们使用ResNet-101作为特征主干，在PF-PASCAL上分析了ANC-Net的所有提出模块的有效性。我们对ANC-Net的四个变体进行实验，分别是ANC-Net（我们的模型包含所有组件），ANC-Net w/oANC（我们的模型不包含ANC，即用各向同性的4D核替换非各向同性的核），ANC-Net w/oMS（我们的模型不包含多尺度自相似性）和ANC-Net w/oOrth（我们的模型不包含正交损失）。我们还评估了图3中的三个ANC模块候选，分别表示为ANC b，ANC c和ANCd。我们还与NC-Net和DCCNet进行比较。为了公平比较，我们还使用相同的稀疏注释对它们进行重新训练。重新训练的NC-Net是我们方法的基准，重新训练的DCCNet可以与不包含ANC模块的ANC-Net进行比较，以评估我们的多尺度自相似性模块与DCCNet的自相似性模块之间的差异。结果报告在表3中。可以看到，当我们移除我们提出的每个模块时，性能下降，表明我们提出的所有模块都是有效的。然而，ANC-Net及其所有变体的性能始终优于重新训练的NC-Net和DCCNet以及原始的NC-Net和DCCNet。在图3中的三个ANC架构中，ANCd的性能优于其他两个，差距明显。这可能可以解释为ANCd包含更灵活的特征组合路径，以处理具有更严重尺度变化的对象。102030特征组合路径以应对具有更严重尺度变化的对象。0表3：消融实验结果。0方法 PCK@0.10NC-Net [32]（原始/重新训练）78.9/81.9DCCNet [10]（原始/重新训练）82.6/83.70ANC-Net w/o ANC 84.1 ANC-Netw/o MS 84.3 ANC-Net w/o Orth85.90ANC-Net带ANC b 82.7ANC-Net带ANC c 83.8ANC-Net带ANC d 86.104.4. 定性评估0源图像0DCCNet NC-Net ANC-Net0图5：查询关键点的预测对应和相关性图。第一列显示带有青色十字标记的源图像和查询关键点。其余列显示与目标图像叠加的相关性图。红色和青色十字分别代表预测和真实值。ANC-Net预测单峰相关性图，避免了远距离但模糊的关键点（例如第一行中的狗的腿）之间的灾难性失败。最好在电子形式下查看。0我们展示了两组定性实验。第一组定性实验如图5所示。它包括一些具有一定程度模糊性的关键点示例，例如动物的肢体或桌子。使用NC-Net和DCCNet，可以看到相关性图中经常存在多个峰值。在某些情况下，这可能导致失败，尽管关键点看起来相似，但与真实对应关系相距甚远。相比之下，ANC-Net倾向于生成具有单

下载后可阅读完整内容，剩余1页未读，立即下载