PARN：金字塔仿射回归网络用于密集语义对应

39 浏览量更新于2023-10-15 收藏 2.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

PARN：用于密集语义对应的Sangryul Jeon1，Seungryong Kim1，Dongbo Min2，Kwanghoon Sohn1，1延世大学@yonsei.ac.kr2梨花女子大学dbmin@ewha.ac.kr抽象。本文提出了一种用于密集语义对应的深层架构，称为金字塔仿射回归网络（PARN），该网络估计跨图像的局部变化仿射变换场。为了处理通常存在于同一对象类别内的不同实例之间的类内外观和形状变化，我们利用金字塔模型，其中以从粗到细的方式渐进地估计仿射变换场，使得平滑度约束自然地施加在深度网络内。PARN估计每个级别的残差仿射变换，并将其组合以估计最终仿射变换。此外，为了克服语义对应的训练数据不足的局限性，我们提出了一种新的弱监督训练方案，该方案通过利用图像对之间的对应一致性来我们的方法是完全可学习的，在一个端到端的方式，并不要求量化无限连续仿射变换领域。据我们所知，这是第一个尝试在深度网络内以粗到细的方式估计密集仿射变换场的工作。实验结果表明，PARN优于国家的最先进的方法，密集的语义对应的各种基准。关键词：密集语义对应，层次图模型1介绍在语义相似的图像之间建立密集的对应关系对于许多计算机视觉和计算摄影应用是必不可少的，例如场景解析、语义分割和图像编辑[1与诸如立体匹配[6]或光流估计[7]之类的经典密集对应任务不同，语义对应估计由于图像之间严重的类内外观和形状变化而仍然没有解决。最近的几种方法[8，9]已经通过利用深度卷积神经网络（CNN）提出，提供了通讯作者2S.Jeon、S.Kim、D.Min、K.Sohn(a)（b）（c）（d）（e）（f）Fig. 1. PARN中金字塔模型的可视化：（a）源和目标图像，（b）级1、（c）级2、（d）级3、（e）像素级的估计仿射场，以及（f）扭曲图像。在每一层的每个网格中，PARN估计用前一层的估计变换场正则化的对应仿射变换场。在类内外观变化的情况下捕获可靠匹配证据的满意性能。然而，它们仍然仅以有限的方式考虑几何变化，诸如用于立体匹配或光流估计的那些[6，7]。在一些方法[9，10]中，解决了更复杂的几何变化，例如缩放或旋转，但它们仅从预定义范围内量化的一组缩放和/或旋转中寻求标记解决方案最近，离散-连续变换匹配（DCTM）框架[10]与全卷积自相似（FCSS）[8]描述符相结合，通过以替代方式估计连续和离散域上的局部变化仿射变换场，表现出更好的性能虽然DCTM在处理非刚性形状变形方面表现出了最先进的性能，但它是用手工制作的光滑度约束模型和优化技术制定的，因此当几何变化相对较大时，它不能保证最优结果。除了在类内外观变化下测量跨图像的可靠匹配证据的努力之外，最近的基于CNN的方法已经开始通过深度网络直接回归几何变形场[11，12]。作为开创性的工作，空间Transformer网络（STNs）[13]及其变体，逆合成空间变换器网络（IC-STNs）[14]提供了一种处理CNN内几何变化的方法Rocco等人[12] Schneider et al.[15]开发了一种用于几何不变匹配的CNN架构，该架构估计语义相似图像和不同模态的变换参数。然而，这些方法假设全局变换模型，并且因此它们不能处理频繁地出现在密集语义对应中的空间变化的地理度量变化。最近，一些方法，如通用通信网络（UCN）[9]和可变形卷积网络（DCN）[16]被提出来编码CNN中的局部变化的几何变化，但它们没有与相邻点的另一个挑战在于缺乏具有用于语义对应的地面实况的训练数据，使得难以使用监督训练方法金字塔仿射回归网络3在本文中，我们提出了一种新的CNN架构，称为金字塔仿射回归网络（PARN），它以粗到细的方式估计语义相似图像中局部变化的仿射变换场，如图1所示受金字塔图模型[3，17]的启发，该模型对标记结果施加分层平滑约束，我们的方法首先估计整个图像上的全局仿射变换，然后以四叉树的形式逐渐增加变换的自由度，最终产生逐像素连续仿射变换场。回归网络估计每一级上的残余仿射变换，并将其组合以提供最终的仿射变换场。为了克服语义对应训练数据不足的局限性，我们提出了一种新的弱监督训练方案，该方案通过利用对应一致性来生成渐进式监督我们的方法以端到端的方式工作，并且不需要量化搜索空间，这与传统方法不同[18，17]。据我们所知，这是第一次尝试通过深度网络以粗到细的方式估计局部变化的仿射变换场实验结果表明，PARN在包括Taniai数据集[19]，PF-PASCAL [20]和Caltech-101 [21]在内的几个基准测试中优于最新的密集语义对应方法。2相关作品密集语义对应Liu et al.[2]开创了在不同场景中密集对应的想法，并提出了 SIFT 流。受此启发， Kim et al.[3] 提出了可变形空间金字塔（DSP），其在分层图内执行多尺度正则化。最近，Yang等人。[22]提出了对象感知层次图（OHG）来调节整个对象的匹配一致性。其他方法包括采用示例LDA方法[23]、采用联合图像集对齐[5]或联合求解共分割[19]的方法。由于所有这些技术都使用手工制作的描述符，如SIFT [24]或DAISY [18]，因此它们缺乏深度CNN可能具有的变形鲁棒性最近，基于CNN的描述符已被用来建立密集的语义对应，因为它们的高度不变性的外观变化。Zhou等人。[25]提出了一种深度网络，该网络利用三维CAD模型的周期一致性[26]作为监督信号。Choy等人[9]提出了基于完全卷积特征学习的通用对应网络（UCN）。Novotny等人[27]提出了AnchorNet，它学习几何敏感特征，用于与弱图像级标签进行语义匹配。Kim等人[8]提出了FCSS描述符，该描述符在完全卷积网络中制定了局部自相似性然而，这些方法都不能处理严重的非刚性几何变化。几种方法旨在通过SIFT流的扩展来减轻几何变化，包括无尺度SIFT流（SLS）[28]、尺度空间SIFT流（SSF）[29]和广义DSP [17]。然而，在这方面，4S.Jeon、S.Kim、D.Min、K.Sohn这些技术具有关键的和实际的限制，即它们的计算成本随着搜索空间大小线性增加。HaCohen等人[1]在非刚性密集对应（NRDC）算法中提出，但是它采用了不能保证可靠性能的弱匹配证据。DAISY FilerFlow（DFF）[4]提供了缩放和旋转的几何不变性，但其隐含的平滑度约束通常会导致不匹配。最近，Ham et al. [30]提出了建议流（PF）算法来估计使用对象建议的对应关系。Han等人。[31]提出了SCNet来学习深度CNN中PF算法的相似性函数和几何内核。虽然上述这些技术提供了一定量的几何不变性，但它们中没有一个可以处理跨图像的仿射变换，这经常发生在密集的语义对应中。最近，Kim et al.[10]提出的DCTM框架，其中使用手工制作的能量函数和优化来推断密集仿射变换场STNs [13]提供了一种通过全局参数变换来扭曲特征来处理CNN内几何变化的方法Lin等人。[14]提出了IC-STNs，其用变换参数传播代替特征扭曲。Rocco等人[12]提出了一种CNN架构，用于估计几何模型，例如用于语义对应估计的仿射变换。然而，它只估计全局变化的几何场，因此表现出有限的性能，用于处理局部变化的几何变形。提出了一些方法，如UCN [9]和DCN [16]，用于在CNN中编码局部变化的几何变化，但它们不具有与相邻点的平滑性约束，并且不能保证可靠的性能对于具有相对较大几何变化的图像[10]。3方法3.1问题表述和概述给定一对图像I和I’，密集对应性估计的目标是为每个像素i = [ix，iy]建立对应性i’。在这项工作中，我们推断出一个仿射变换域，每个仿射变换域由一个2 ×3矩阵表示Ti =ΣΣTi，xTi，y（一）将像素i映射到i′= Ti i，其中i是以齐次坐标表示的像素i，使得i=[i，1]T。与受约束的几何变换模型（即，仅平移运动），仿射变换场可以以更有原则的方式对几何变化进行建模。然而，估计逐像素仿射变换场由于其无限且连续的解空间而带来额外的挑战。众所周知，在立体匹配文献中，使用在马尔可夫随机场（MRF）上定义的平滑度约束进行全局逼近[32]。金字塔仿射回归网络5F1，F'，F2，F'，2FK1，F'， K1I1W1G T1I2W2GT2IK1WpWCWCWCT'T*我网格级模块像素级模块图二、网络配置的PARN，这是定义在金字塔模型，由几个网格级模块和一个单一的像素级模块。每个模块都被设计为模拟深度架构内的标准匹配过程，包括特征提取、成本体积构建和回归。与基于结构感知成本聚合的局部方法相比，倾向于在标记优化上实现更高的准确性[33]。然而，这样的全局方法在计算复杂性方面不能很好地扩展到我们的问题，因为仿射变换是在6-D连续解空间上定义的。另外，由于离散标号优化方法的收敛性不好保证到极大的标签空间。虽然用于标记优化的随机搜索和传播策略[32，34]可能有助于提高高维标记空间上标记优化的收敛性，但大多数方法仅考虑相对较低维的标记空间，例如。由平移、旋转和缩放组成的四维标签空间。受金字塔图模型[3，17，35]和参数几何回归网络[11，12]的启发，我们提出了一种新的深度架构，该架构以粗到细的方式估计密集仿射变换场我们的关键观察是，仿射变换领域估计在一个粗略的规模往往是强大的几何变化，而在一个细尺度的结果保留细粒度的细节对象更好。虽然在密集对应估计中采用粗到细方案的传统方法[2，36]专注于图像尺度，但我们的方法利用了深度卷积网络层次结构中的语义尺度我们的方法首先使用最深的卷积激活来估计图像级仿射变换，然后在四叉树框架中另外使用较浅的卷积激活来渐进地定位仿射变换场，从而产生像素级仿射变换场作为最终的标记结果。如图2，我们的方法定义在金字塔模型（见图1）上，该模型由两种网络组成，几个网格级模块和一个单个像素级模块，类似于[3，17]。两个网络中的每个模块都被设计为模拟深度架构中的标准匹配过程[12]：特征提取、相关体积构造和回归。具体地，当给出两个图像I和I’时，首先提取卷积特征为壮举. 分机壮举. 分机常数CVC仿射寄存器壮举. 分机常数CVC仿射寄存器壮举. 分机常数CVC仿射寄存器6S.Jeon、S.Kim、D.Min、K.SohnGCC- 通过特征网络（具有Wc）的多级中间激活，以便在每个级别提供细粒度的定位精度能力，同时保持对变形的然后，在图1的成本体积构造层处在这些特征之间构造相关体积。2.最后，通过将相关体积传递到回归网络（具有图2的Wk、Wp）来推断仿射变换场对于K个网格级模块和单个像素级模块重复该过程。3.2金字塔仿射回归网络我们的金字塔模型的每个模块都有三个主要组成部分。第一个从输入图像中提取分层连接的特征，第二个计算约束搜索窗口内的成本量最后，从第三个，一个局部变化的仿射场密集估计的所有像素。虽然传统的基于CNN的描述符在处理类内外观变化方面表现出出色的能力[37，38]，但它们在同时产生语义鲁棒性和匹配精度能力方面存在困难为了克服这一限制，我们的网络被设计为利用CNN的固有层次结构，其中通过共享的连体网络提取多级中间卷积特征我们将这些卷积特征图中的一些连接起来，使得[Fk =n∈M（ k）F（Ik; Wn）（2）其中S表示级联算子，Wn是直到第n个卷积层的特征提取网络参数，并且M（k）是在级别k处的卷积层的采样索引。这由图1的上部示出。二、此外，沿着我们的金字塔模型迭代地提取特征提供了进化的感受野，这是几何不变性的关键要素[4，10]。相比之下，现有的几何回归网络[12，11]由于提取特征的固定感受野而面临外观不变性和定位精度之间的权衡。请注意，我们通过双线性采样器[13]将Ik−1与Tk−1进行扭曲，从而获得Ik与上一级的输出，这有助于端到端学习框架。为了估计图像对Ik和I′之间的几何形状，应该使用提取的特征Fk和F′，k来计算根据搜索空间的匹配成本。与量化搜索空间以估计深度[6]、光流[39]或类似变换[17]的常规方法不同，量化在无限连续解空间上定义的6-D仿射变换在计算上是昂贵的，并且还降低了估计精度。相反，受传统的鲁棒几何估计器（如RANSAC [40]或Houghvoting [24]）的启发，我们首先构建仅关于平移运动计算的成本体积，然后通过将其传递通过后续卷积层来确定每个块的仿射变换，以可靠地修剪不正确的匹配。金字塔仿射回归网络7我我我我我(a)（b）（c）（d）（e）（f）图三. 约束搜索窗口Nk的可视化：（a）源图像和参考像素（蓝色）。匹配成本被可视化为（c）级别1、（d）级别2、（e）级别3和（f）像素级别处的参考像素的热图具体地，所提取的特征Fk、F′、k之间的匹配成本在搜索窗口内被计算为校正的余弦相似度，使得C k（i，j）= max（0，F ′，k（i）·F k（j）），其中j∈Nk。（三）约束搜索窗口Nk以像素i为中心，半径为r（k），如图2所3.第三章。在我们的金字塔模型中，在较粗的级别使用相对较大的半径来估计粗糙但可靠的仿射变换，作为后续较细级别的指导。随着层级的加深，半径变得更小，其中回归网络可能由于在先前层级上估计的仿射变换场的指导而避免局部最小值因此，仅提供可靠的匹配候选作为以下回归网络的输入构建的成本量可以进一步用于生成具有对应性一致性检查的监督，如在第2.2节中所描述的三点三网格级回归约束成本体积Ck通过连续的CNN和双线性上采样层来估计仿射变换域，使得Tk =F（Ck; Wk），其中Wk是网格级回归网络G g在k级的参数。由于金字塔中的每一层都有一个简化的任务（它只需要估计残差变换场），回归网络可以简单地具有3-6个卷积层。在金字塔模型的层次结构中，我们首先开始估计从整个图像进行变换，然后通过将每个网格划分为四个矩形网格，逐步增加变换的自由度，产生k级仿射场的2k−1×2k−1网格。然而，所估计的粗仿射场具有在网格边界周围出现块状伪影的附近仿射场之间的不连续性，如图1B的（d）和（f）中所示。6. 为了缓解这一点，在连续CNN的末尾应用双线性上采样器[13]，将粗网格仿射场上采样到输入图像I的原始分辨率。这种简单的策略将仿射场正则化为平滑的，从而显著地抑制伪影，如图1中所示。六、注意，从级别1到k的估计仿射场的合成可以被计算为齐次坐标中的增广矩阵的乘法nates这样M（T[1，k]）=Yn∈{1，…，k}M（Tn）（4）其中M（T）将齐次坐标中的T表示为[T;[0， 0， 1]]。8S.Jeon、S.Kim、D.Min、K.Sohn图像导师一致性检查见图4。在级别1训练网格级模块。通过使用对应一致性，确定试探性稀疏对应并用于训练网络。(a)（b）（c）（d）（e）（f）图五、在每个级别处生成的监督的可视化：（a）源图像和目标图像，（b）级别1，（c）级别2，（d）级别3，（e）像素级别，（f）GT关键点。对试验性阳性样本进行颜色编码。（最好是彩色的）。像素级回归为了提高定位细粒度对象边界的匹配能力，我们还制定了一个像素级模块。与网格级模块类似，它也由特征提取、约束成本体积构造和回归网络组成。主要区别在于回归网络采用了编码器-解码器架构，该架构已用于许多像素级预测任务，如视差估计[41]，光流[42]或语义分割[43]。将扭曲图像IK+1作为输入，计算约束成本体积CK+1，并且通过编码器-解码器网络对像素级仿射场进行回归，使得T’=F（CK+1; Wp），其中Wp是像素级回归网络参数。源图像和目标图像之间的最终仿射变换场可以是计算为M（T*）= M（T[1，K]）·M（T′i）。我我3.3培训使用CNN的语义对应的主要挑战是缺乏用于训练数据的地面实况对应图。一种可能的方法是通过应用随机变换场来合成地生成一组变换的图像对以产生伪地面实况[11，12]，但是这种方法不能很好地反映现实的外观变化和几何变换代替使用合成变形的图像，我们提出直接从语义相关的图像对生成超透视，如图1B所示。我我f1我N1我T11（W1S1f1ib1我我f1我N1我壮举. 分机壮举. 分机常数CVC仿射寄存器金字塔仿射回归网络9我G我我我算法1：金字塔仿射回归网络输入：图像I、I′输出：网络参数Wc，Wg，Wp，仿射场T*1：计算目标图像I′对于k= 1：K做2 ：当k >1时，通过用Tk−1扭曲Ik−1来3 ：[仅在训练时]：初始化仿射场为Tk= [I2×2，02×1]/*特征提取 */4 ：计算Ik的卷积激活并提取特征Fk，F′，k/*约束相关体积 */5 ：构造具有半径r（k）的约束成本体积Ck6 ：[仅在训练时]：生成监督Sk并训练网络/*仿射变换域回归 */7 ：[仅在测试时]：估计仿射域Tk=F（Ck;Wk）端8 ：估计像素级仿射场T’=F（CK+1;Wp）9 ：计算最终仿射域M（T*）=Qn∈{1，…，K}M（Tn）·M（ T′）4，其中对应一致性检查[35，48]应用于每个级别的施工成本量直观地，从源图像到目标图像的对应关系给定约束成本体积Ck，通过搜索每个点i的最大得分来计算最佳匹配fk，fk=我我argmaxj Ck（i，j）。我们还计算fk的后向最佳匹配bk，使得我我bk= argmaxm Ck（m，fi）来识别最佳匹配fk是否一致我我通过沿着我们的金字塔模型运行该一致性检查，我们主动地收集在Sk={i}处的每个层次上的采样|i=bk，i∈Ω}。我们发现，生成的监督在质量和数量上优于稀疏地面实况关键点，如图所示。五、为了监督的准确性，我们使用对象位置先验（诸如包含要匹配的目标对象的边界框或掩模）来限制对应候选区域，这在大多数基准中提供[21，44，45]。请注意，我们的方法在概念上类似于[8]，但我们以分层方式从约束成本量生成监督，以便避免假阳性样本，这对于训练几何回归网络至关重要。为了在级别k处训练模块，损失函数被定义为正样本处的流与通过应用估计的仿射变换场计算的流场之间的距离，使得Lk（Wk）=1ΣTki−（i−fk）2，（5）Ni∈Ski i其中，Wk是在水平k处的特征提取网络和回归网络的参数，并且N是训练样本的数量。算法1提供了PARN的总体总结。10S.Jeon、S.Kim、D.Min、K.Sohn(a)（b）（c）（d）（e）（f）（g）（h）见图6。PARN在每个级别的定性结果：（a）源图像，（b）目标图像，在（c）级别1，（d）没有上采样层的级别2，（e）级别2，（f）没有上采样层的级别3，（g）级别3，以及（h）像素级别的扭曲结果。4实验结果4.1实验设置对于每个回归模块中的特征提取网络，我们使用ImageNet预训练的VGGNet-16 [46]和ResNet-101 [38]及其网络参数。对于网格级回归，我们使用三个网格级模块（K=3），随后是单个像素级模块。对于特征提取步骤中的M（k），我们在中间池化层（诸如‘c 0 nv 5- 3’、‘c 0 nv4- 3’和‘c 0 nv 3- 3’）之后对卷积激活进行采样。searchspace（k）的使用率等于整个搜索空间的比率，并且随着级别的加深而减小，使得{1/ 10， 1/ 10， 1/ 15， 1/ 15}。在下文中，我们通过与最先进的密集语义对应进行比较来全面评估PARN此外，几何不变方法包括PF [30]，SCNet [31]，CNNGM [12]，DCTM [10]。在Taniai基准[19]、PF-PASCAL数据集[20]和Caltech-101[21]上测量性能4.2培训详细信息为了训练，我们使用PF-PASCAL数据集[20]，该数据集由从20个对象类的PASCAL-berkely关键点注释中选择的1，351个图像对组成我们根本没有使用地面实况关键点来学习网络，但我们使用了掩码来提高生成监督的准确性我们使用800对作为训练数据，并进一步将其余的PF-PASCAL数据分为200个验证对和350个测试对。此外，我们通过应用随机生成的几何变换（包括水平翻转[12]）将训练对合成增强10倍为了在第一级中生成最准确的监督，我们还应用了M-估计样本和共识（MSAC）[47] 建立初始监督T0，并用估计的变换限制搜索空间。我们依次训练回归模块进行120k次迭代，每次迭代的批量大小为16，并以端到端的方式进一步微调所有回归网络[14]。补充材料中提供了实验设置和培训的更多详细信息。金字塔仿射回归网络11SIFT/SFSIFT/DSPHOG/PFHOG/OHGVGG/SFVGG/AG +VGG/aff.+TPSVGG/DCTMVGG/PARNSIFT/SFSIFT/DSPHOG/PFHOG/OHGVGG/SFVGG/AG +VGG/aff.+TPSVGG/DCTMVGG/PARNSIFT/SFSIFT/DSPHOG/PFHOG/OHGVGG/SFVGG/AG +VGG/aff.+TPSVGG/DCTMVGG/PARN1 1 1 10.90.90.90.90.80.80.80.80.70.70.70.70.60.60.60.60.50.40.30.20.10.50.40.30.20.10.50.40.30.20.10.50.40.30.20.100 5 1015误差阈值（像素）(a) FG3D汽车00 5 1015误差阈值（像素）(b) JODS00 5 1015误差阈值（像素）(c) Pascal00 5 10 15误差阈值（像素）(d) 平均图7.第一次会议。 Taniai基准测试[19]上相对于端点误差阈值的平均匹配精度：（从左到右）FG3DCar，JODS，PASCAL和平均值。(a)（b）（c）（d）（e）（f）见图8。Taniai基准的定性结果[19]：（a）源图像，（b）目标图像，（c）CNNGM-Aff.TPS [12]，（d）SCNet-AG+[31]，（e）DCTM [10]，（f）PARN。使用对应关系将源图像扭曲到目标图像4.3消融研究为了验证PARN内的组件，我们另外在每个级别评估它，如“PARN-Lv1”、“PARN-Lv 2”和“PARN-Lv 3”，如图所示。 6和表1。对于定量评估，我们使用Taniai基准[19]上的匹配准确度，这在以下部分中详细描述正如预期的那样，即使在最接近的水平（即，在最接近的水平）上对全球转变进行了粗略的估计。级别1），不能可靠地实现细粒度的匹配细节，因此显示出有限的性能。然而，随着层次的深入，在保持全局估计变换的同时，本地化能力得到了提高骨干网络的性能也使用标准SIFT流优化进行了评估[2]。请注意，仅在我们的网络中评估像素级模块是不切实际的，因为它需要像素级监督，而这在当前公共数据集中不存在。4.4结果更多定性结果见补充材料。SIFT/SFSIFT/DSPHOG/PFHOG/OHGVGG/SFVGG/AG +VGG/aff.+TPSVGG/DCTMVGG/PARN流量精度流量精度流量精度流量精度12S.Jeon、S.Kim、D.Min、K.Sohn方法描述符匹配FG3DJODSPASC。Avg.旧金山[2]SIFTSF0.6320.5090.3600.500数字信号处理器[3]SIFTDSP0.4870.4650.3820.445PF [30]生猪Lom0.7860.6530.5310.657OHG [22]生猪OHG0.8750.7080.7290.771一0.7740.5740.4760.608SCNet [31]VGG-16AG0.7640.6000.4630.609AGplus0.7760.6080.4740.619[12]第十二届全国人大常委会副委员长。0.7710.6620.5010.644Aff.+ TPS0.8350.6560.5270.672DCTM [10]VGG-16DCTM0.790 0.611 0.528 0.630仿射FCSS基线VGG-16拟议的VGG-16PARN 0.876 0.716 0.688 0.7602019 - 01 - 210.895 0.7590.712表1. 与Taniai基准上最先进的对应技术相比的匹配精度[19]。Taniai基准我们在Taniai基准[19]上评估了PARN与其他最先进方法的比较，该基准由分为三组的400个图像对组成： FG3DCar， JODS和PASCAL。在调整图像大小使得其较大尺寸为100像素之后，通过计算具有小于某个阈值T的绝对流端点误差的前景像素的比例来测量流准确度图7示出了具有变化的误差阈值T的流量精度。我们的方法优于特别是当误差thersold是小的。这清楚地表明了我们的分层模型在定位精度和外观不变方面的优势。表1总结了在固定阈值（T = 5像素）下各种密集语义对应技术的匹配准确度。表1中“P AR N- Lv 1”和“C NNG M - Af”的定量结果说明了我们的w eakly supervised t r a n i n g s e mee e e m e e e的基础。当他是“C NNG M - Aff. 在弱监督方式下，它仅依赖于合成变形的图像对，而我们的方法采用语义敏感的监督。注意，我们在‘C NNG M-Aff’的相同架构中在级别1实现了我们的回归模块。 “ 的。从 Fig. 在图 8中，当DCTM被捕获在局部最小值中时，除非给出适当的初始解，否则我们的方法渐进地预测局部变化的仿射变换场，并且能够处理相对大的语义变化，包括翻转变化，而无需手工参数调整。PARN的优越性可以通过与表1和图7中的具有类似GG - 16的描述的核心决策查询进行比较而看出，并且甚至优于[31]的基于监督学习的方法。我们还使用ResNet-101 [38]作为骨干网络进行了评估，以证明0.8910.7210.6100.740SF0.7560.4900.3600.535PARN-Lv10.7830.6680.6410.697PARN-Lv20.8370.6890.6560.739PARN-Lv30.8690.7070.6810.752金字塔仿射回归网络3(a)（b）（c）（d）（e）（f）见图9。PF-PASCAL基准的定性结果[20]：（a）源图像，（b）目标图像，（c）CNNGM-Aff.+ TPS [12]，（d）SCNet-AG+[31]，（e）DCTM [10]，（f）PARN. 使用对应关系将源图像扭曲到目标图像数据集PF-PASCAL加州理工101方法PCKLT-ACCIOULOC-ERRα= 0。05α = 0。1α = 0。15旧金山[2]0.1920.3340.4920.750.480.32数字信号处理器[3]0.1980.3720.4140.770.470.35PF [30]0.2350.4530.6210.780.500.25OHG [22]---0.810.550.19SCNet [31]0.2600.4820.6580.790.510.25CNNGM [12]0.2540.4610.6410.800.560.25DCTM [10]0.2570.4770.6480.840.530.18Parn0.2680.4910.6620.870.650.21表2. 与PF-PASCAL基准[30]和Caltech-101数据集[21]上最先进的对应技术相比的匹配准确度。性能提升我们的方法具有更强大的功能，我们的方法平均达到最佳性能。我们还在PF-PASCAL基准测试集上评估了PARN[30]。对于评估度量，我们使用流扭曲关键点和地面实况之间的正确关键点（PCK）的概率。如果扭曲的关键点位于α∈[0，1]的地面实况关键点的α·max（h，w）个像素内，则它们被认为是正确预测的，其中h和w分别是对象边界框的高度和宽度图图9示出了密集流估计的定性结果。在没有地面实况注释的情况下，与表2中的其他方法相比，我们的PARN显示出优于其他方法的性能，其中[31]以完全监督的方式进行训练。相对适度的增益可能来自仅在PF-PASCAL基准的稀疏注释的关键点上的有限评估。然而，我们的方法在图中的定性结果。9表明，per-performance可以显着提升时，密集的注释给出评估。虽然[31]估计稀疏对应的几何14S.Jeon、S.Kim、D.Min、K.Sohn(a)（b）（c）（d）（e）（f）见图10。Caltech-101基准的定性结果[21]：（a）源图像，（b）目标图像，（c）CNNGM-Aff.+ TPS[12]，（d）SCNet-AG+ [31]，（e）DCTM [10]，（f）PARN. 使用对应关系将源图像变形为目标图像合理的模型，他们计算最终的密集语义流通过线性插值它们可能不考虑目标图像的语义结构。相比之下，我们的方法利用金字塔模型，其中平滑度约束自然地施加在深度网络内的语义尺度之间。我们的评估还包括Caltech-101数据集[21]。根据[21]中的实验协议，我们为每个对象类随机选择了15对图像，并使用三个度量来评估匹配精度：标签传输精度（LT-ACC），IoU度量和相应像素位置的定位误差（LOC-ERR）。请注意，与上述其他基准相比，Caltech-101数据集提供了来自更多样化类别的图像对，使我们能够在更一般的对应设置下评估我们的方法对于结果，我们的PARN在LT-ACC和IoU度量方面明显优于语义对应技术表2总结了与现有技术方法相比的匹配精度5结论我们提出了一种新的CNN架构，称为PARN，它估计跨语义相似图像的局部变化的仿射变换场我们的方法定义在金字塔模型上，首先估计整个图像的全局仿射变换，然后逐步增加变换的灵活性。与先前用于几何场估计的基于CNN的方法相比，我们的方法产生位于连续解空间中的局部变化的仿射变换场。此外，我们的网络以弱监督的方式进行训练，使用训练图像对中对象边界框内的对应一致性。我们相信PARN可以潜在地受益于实例级对象检测和分割，这要归功于其对严重几何变化的鲁棒性。致谢。这项研究得到了美国国家研究基金会下一代信息计算发展计划的支持。韩国科学部（NRF）资助，ICT（NRF-2017 M3 C4 A7069370）。金字塔仿射回归网络5引用1. HaCohen，Y.，Shechtman，E.，戈德曼，D. B. Lischinski，D.：非刚性稠密对应及其在图像增强中的应用。ACM图形交易（TOG）30（4）（2011）702. 刘，C.，Yuen，J.，Torralba，A.：筛流：场景和场景之间的密集对应它的应用。IEEE Trans. PAMI 33（5）（2011）815-8303. 金，J.，刘，C.，Sha，F.，Grauman，K.：可变形的空间金字塔匹配快速密集的对应关系。在：CVPR（2013）4. 杨，H.，Lin，W.Y.，Lu，J.：Daisy过滤器流量：稠密对应的广义离散方法。在：CVPR（2014）5. 周，T.，Lee Y.J. Yu，S.X.，Efros，A.A.：Flowweb：通过编织一致的像素对应来联合图像集对齐。参见：CVPR（2015）6. Scharstein，D.，Szeliski，R.：密集两帧立体对应算法的分类与评估。IJCV47（1）（2002）77. Butler，D.，Wulff，J.，Stanley，G.，布莱克先生：一个用于光流评估的自然主义开源电影。In：ECCV（2012）8. Kim，S.，敏D Ham，B.，Jeon，S.，林，S.，Sohn，K.：Fcss：用于密集语义对应的完全卷积自相似性。在：CVPR（2017）9. Choy，C.B.，Gwak，J.，Savarese，S.，Chandraker，M.：通用通信网。在：NIPS（2016）10. Kim，S.，敏D林，S.，Sohn，K.：Dctm：语义流的In：ICCV（2017）11. DeTone，D.，Malisiewicz，T.，Rabinovich，A.：深度图像单应性估计。arXiv预印本arXiv：1606.03798（2016）12. 我是罗克西奥， Arangndjelovi c，R.， Sivi c，J. ：用于几何匹配的卷积神经网络算法在：CVPR（2017）13. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，Kavukcuoglu，K.：空间Transformer网络。In：NIPS（2015）14. Lin，C.H.，Lucey，S.：逆合成空间Transformer网络。在：CVPR（2017）15. 施耐德，N.，Piewak，F.，斯蒂勒角Franke，U.：Regnet：使用深度神经网络的多模态传感器注册。在：IV.（2017年）16. Dai，J.，Qi，H.，Xiong，Y.，李，Y.，张，G.，Hu，H.，魏云：可变形对流网络。In：ICCV（2017）17. Hur，J.，Lim，H.，帕克角Ahn，S.C.：广义可变形空间金字塔：保几何稠密对应估计。参见：CVPR（2015）18. Tola，E.，莱佩蒂Fua，P.：雏菊：一个有效的密集描述应用于宽基线立体声.IEEETrans.PAMI32（5）（2010）81519. Taniai，T.，Sinha，S.N.，Sato，Y.：两幅图像中稠密对应和联合分割的联合恢复见：CVPR（2016）20. Ham，B.，Cho，M.施密德角Ponce，J.：提案流程：来自对象提议的语义对应。IEEE Trans.PAMI（2017）21. Li，F.F.，费格斯河Perona，P.：对象类别的一次性学习。 IEEE Trans. PAMI28 ⑷（2006）59422. 杨，F.，Li，X.，郑洪，李杰，Chen，L.：对象感知的密集语义对应。在：CVPR（2017）23. Bristow，H. Valmadre，J.，Lucey，S.：密集语义对应，其中每个像素都是分类器。In：ICCV（2015）16S.Jeon、S.Kim、D.Min、K.Sohn24. Lowe，D.：从尺度不变的关键点中提取独特的图像特征。IJCV60（2）（2004）9125. 周，T.，Krahenbuhl，P. Aubry，M.，黄，Q，Efros，A.A.：通过3d引导的循环一致性学习密集对应见：CVPR（2016）26. 在线： http://www.shapenet.org/。27. Novotny，D. Larlus，D.，Vedaldi，A.：Anchornet：一种弱监督网络，用于学习语义匹配的几何敏感特征在：CVPR（2017）28. Hassner，T.，Mayzels，V.Zelnik-Manor，L.：在筛子和秤上。在：CVPR（2012年）29. Qiu，W.，王，X.，Bai，X.，Yuille，A.，图，Z.：尺度空间筛选流。在：WACV（2014）30. Ham，B.，Cho，M.施密德角Ponce，J.：提案流程。见：CVPR（2016）31. Han，K.，Rezende，R.S.，Ham，B.，黄启坚，Cho，M.施密德角Ponce，J.：Scnet：学习语义对应。In：ICCV（2017）32. 李，Y.，敏D Brown，M.S.，做吧，M.N. Lu，J.： Spm-bp：加速补丁匹配连续MRF的置信传播。 In：ICCV（2015）33. Hosni，A.，Rhemann，C.，Bleyer，M.，Rother，C.，Gelautz，M.：快速的成本-体积过滤，用于视觉对应和超越。IEEE Trans.PAMI35（2）（2013）34. 卢，J，杨，H.，敏D做，M.N.：Patchmatch filter：高效的边缘感知过滤器ing满足快速对应域估计的随机搜索。在：CVPR（2013）35. Revaud，J.，Weinzaepfel，P.，Harchaoui，Z. Schmid，C.： Deepmatcing：分层可变形稠密匹配 IJCV（2015）36. Ranjan，A.，布莱克，M.J.：使用空间金字塔网络的光流估计。在：CVPR（201

下载后可阅读完整内容，剩余1页未读，立即下载