TransforMatcher:基于Transformer网络的语义图像匹配学习

153 浏览量更新于2023-10-25 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8697TransforMatcher：语义对应金成旭韩国浦项科技大学（POSTECH）http://cvlab.postech.ac.kr/research/TransforMatcher摘要建立图像之间的对应关系仍然是一项具有挑战性的任务，特别是在由于不同视点或类内变化而导致的大的外观变化下。在这项工作中，我们引入了一个强大的语义图像匹配学习，称为transforMatcher，它建立在Transformer网络在视觉领域的成功与现有的基于卷积或注意力的对应方案不同，TransforMatcher执行全局匹配注意力，以实现精确的匹配定位和动态细化。为了处理大量的匹配在一个密集的相关映射，我们开发了一个轻量级的注意力架构，考虑全球匹配匹配的相互作用。我们还建议利用多通道分级映射进行细化，将多级分数视为输入图像(1) 补丁到补丁的自我关注(2) 贴片间交叉关注：两个特征之间的匹配：要转换：参加的一系列要素(3) 比赛间注意力特征而不是单个分数，以充分利用更丰富的逐层语义。在实验中，TransforMatcher在SPair-71 k上设置了新的技术水平，同时在PF-PASCAL数据集上与现有的SOTA方法1. 介绍建立图像之间的对应关系是计算机视觉中的一项基本任务，并用于广泛的问题，包括3D重建，视觉定位和对象识别[11]。随着深度神经网络的最新进展，引入了许多基于学习的关键点提取器和特征描述符[7，10，41，51，53]，与传统的对应物相比，表现出显着改善的性能[1，6，32，33]。最近，密集特征匹配方法-使用所有提取的特征进行匹配-尽管计算复杂度较高，但表现出令人印象深刻的性能[29，34，45]。然而，在存在类内变化的情况下，同一类别的不同实例仍然是语义视觉对应的关键挑战[3，12将高维卷积图1. 补丁到补丁与匹配到匹配的注意力。补丁-块间注意力将2D特征图中的每个位置视为单个元素，而匹配间注意力将成对相关中的每个匹配视为单个元素。4D特征相关图上的层首先在NCNet [45]中提出，其提出唯一匹配将支持附近的模糊匹配。在为建立语义对应而提出的各种方法中，NCNet及其后续方法显示出令人印象深刻的结果[16，27，34，44，45]。这些方法证明，通过利用由4D相关图表示的密集对应的全集来考虑匹配到匹配一致性在建立鲁棒且准确的语义对应方面是有效的然而，基于卷积的方法受到局部和静态变换的固有限制;在输入的所有空间位置上执行相同的局部变换。虽然卷积神经网络已经成为视觉通信的事实标准，但Transformer网络最近在计算机视觉领域显示出有希望的结果。Transformer网络的成功在很大程度上归功于其动态特征变换，而不是静态卷积层，以及输入元素之间的非局部8698卷积匹配成本累计TransformersTransforMatcher（我们的）图2. 最近的方法和我们的方法之间的概念差异。基于卷积的匹配方法[16，34，35，45]（左），成本聚合变换器[3]（中）和我们的（右）。能够适应全球环境。例如，与卷积基线相比，ViT [9]在图像识别任务中使用更少的训练计算资源获得了出色的结果; Segmenter [47]通过在第一层和整个网络中建模全局上下文，优于基于卷积的方法。这些开创性的工作表明，Transformer层是视觉模型中卷积层的有吸引力的替代品。受匹配到匹配一致性考虑和Transformer网络的有效性的启发，我们提出了一种新的语义匹配管道，称为Trans- forMatcher。具体来说，我们引入匹配到匹配注意力，一个自我注意力的机制，考虑全球匹配到匹配的相互作用，利用4D相关图计算的图像的特征匹配。考虑全局匹配方式的交互允许捕获跨匹配的长距离相关性，并且以动态方式结合远距离匹配之间的几何一致性，特别是在令人担忧的外观变化下。这是通过考虑4D相关图的每个空间条目来实现的（即，匹配）作为注意力的单个元素，这与LoFTR [49]或CoTR [19]不同，LoFTR [49 ]或CoTR [ 19 ]通过自我或交叉注意力考虑2D特征图内或跨2D特征图的补丁到补丁的关系。图1直观地显示了补丁到补丁和匹配到匹配注意之间的比较。我们的贡献可归纳如下：• 我们提出了TransforMatcher，一种新的图像匹配管道，建立在Transformer网络上，用于在全球范围内进行动态匹配交互• 据我们所知，我们是第一个在可行的计算约束条件下使用自注意机制来建模密集对应的完整集合之间的g• 我们利用多级相关性分数作为特征，比使用单个分数有所改进，• 我们展示了国家的最先进的或对标准的perfor-mances对标准基准的类别级匹配- SPair-71 k和PF-PASCAL。2. 相关工作使用卷积网络的类别级匹配。类别级匹配，也称为语义匹配，旨在找到同一类别中不同实例的图像之间的对应元素。传统方法类别级匹配使用手工制作的描述符来获得图像之间的匹配[2，50]。最近的方法[18，27，38]建立在深度学习的成功基础上，从卷积神经网络中提取学习特征，通常在ImageNet分类任务上进行预训练[23]。一个新兴的趋势是利用从图像特征获得的相关图上的高维卷积进行匹配，考虑局部匹配到匹配一致性以细化相关图[24，26，34，45]。虽然这些工作已经证明了在发现可靠匹配中利用局部匹配到匹配一致性的相关图的有效性，但我们建议利用全局匹配到匹配相互作用进一步实现捕获匹配之间的远程相关性，这对于具有挑战性外观变化的图像对因此，我们对4D相关图施加了有效的匹配注意力，利用轻量级的注意力方案来轻松地扩展以使用全局上下文。使用Transformer网络的图像匹配。继Transformer网络在计算机视觉中的成功之后[9，31，52，54，57]，最近的实例级匹配方法提出使用Transformer网络。在概念层面上，SuperGlue [46]在一组稀疏关键点及其描述符上采用了类似注意力的机制。LoFTR [49]将这一想法扩展到密集的2D特征图利用特征图之间的自我和交叉注意层来生成用于匹配的强特征。COTR [19]连接图像的特征图以沿着空间维度进行匹配，该空间维度用作Transformer网络的输入以及查询点以输出目标点。请注意，这些方法实际上是执行补丁到补丁的关注，而不是利用特征图之间的匹配到匹配的交互。CAT [3]的工作确实采用了Transformer网络来在4D相关图上对全局一致性进行建模，以完成语义对应的任务（1）我们使用关联图上的每一个匹配作为输入元素，以多级分数作为特征来进行匹配到匹配的注意力，从而对细粒度的交互进行建模，而CAT将4D关联图重构为2D特征图来进行块到块的注意力，从而对元素之间的相对粗粒度的交互进行建模。这在图2中示出。(2)CAT还将变换后的特征图连接到重新整形的相关图，从而增加了每个Transformer层的内存开销，使得堆叠多个层变得不可行。8699不r一项sforM阿泰彻不r一项sforM阿泰彻{简体}=1PRDIC DKE YPOIN TO NA��{'}=1GTKe ypo intson��{}�� =1-ㅡㅡㅡ培养目标流动形成关键点转移∈ΣΣ·QKVQ KV关键点�� LX��ℝ��×Dinℝ��X��X��X��特征提取相关性计算匹配一致性关键点转移损失图3.TransforMatcher概述。从图像对中提取的特征图用于计算多通道相关图，以由我们的匹配到匹配注意力模块进行细化处理。我们从产生的相关图中构建了一个稠密的流场，该流场可用于传输关键点，以便使用关键点对注释进行训练。高效的变压器。由于传统变压器的二次复杂性[55]，它们无法模拟极长距离的相互作用。这促使我们在处理长序列时使用具有较低计算复杂度的高效变换器，以实现可行的计算开销。Reformer [22]使用局部敏感哈希和可逆残差层将复杂性降低到对数线性。Linformer [56]使用线性复杂度的低秩矩阵来近似自注意机制。而不是依赖于稀疏性或低秩，Performer [4]提出了正正交随机特征方法（FAVOR+）来实现线性复杂度。最近，Fastformer [58]提出了一种架构，该架构仅对元素产品使用添加剂注意力技术。我们建立在成功的加法注意力，实现全球匹配到匹配注意力的可扩展的复杂性和有效性。3. 附件：Transformer变压器[55]是建立在多头自注意（MHSA），其中包括多个自注意层。每个自我关注层都接受输入元素XRT×D在线性投影下构造全局自注意矩阵WO∈RNhDv×Dout变换且bO∈RDout：MHSA（X）= concat SA（h）（X）WO+bO.（三）h∈[Nh]可以看出，Transformer架构的计算复杂度是序列长度T的二次方，这是处理长序列（T Dh）时的基本瓶颈这个瓶颈也适用于我们处理4D相关图的情况，即，两个2D特征图之间的成对相关性的完整集合，因为在自注意力层中建立匹配到匹配的注意力矩阵需要关于特征图的空间大小的四次记忆。在下一节中，我们将概述我们的方法以及一个有效的自我注意层，该层实现了全局匹配到匹配的交互，而没有四次复杂度。4. TransforMatcher我们首先概述我们的TransforMatcher管道。给定一对要匹配的图像，特征提取器提供一组中间特征图对，其用于构造多通道相关图。由于内部各种各样的匹配互动，W（h）的函数，W（h）∈RDin×DhandW（h） ∈RDin×Dv，在4D全局相关映射中，我们采用了加性atten，捕获元素之间的远程依赖关系：SA（h）（X）=σ（τXW（h）（XW（h））T）XW（h）（1）=σ（τQ（h）K（h）T）V（h），（2）其中（h）是头索引，τ是缩放参数，σ（）是行式softmax函数。具有Nh个头的MHSA层通过仿射以线性复杂度执行具有可行计算开销的匹配到匹配注意力。我们用几个匹配注意层来改进多通道相关图使用改进的映射图来构建密集流场，其可用于关键点转移，以使用地面实况关键点对注释来监督我们的管道。图3说明了我们的方法的概述架构。平坦仿射变换整形+仿射变换+上采样配对关注块…分层相关8700l=1l=116∈∈∈不--∈∈∈× ××图4. 配对注意力模块。多通道相关映射被投影到查询、键和值矩阵，这些矩阵与旋转位置嵌入相乘。匹配到匹配注意模块利用加法机制将查询/关键字矩阵聚合为全局向量，用于元素乘积以诱导全局上下文感知。最终输出被投影到单宽度通道，以重新整形为精细的4D相关图。4.1. 多通道相关计算我们使用ImageNet预训练的ResNet-101 [15]架构作为特征提取器。我们使用conv4 x和conv5 x的所有瓶颈层来提取给定输入图像对I，I∈RH×W×3的特征，并表示中间特征对为（Fl，F< $l）L。从同一瓶颈提取的特征图对注意逐层的相似性和语义。此外，对于基于变换器的架构，在线性投影之前具有非单个通道4.2. 比赛间注意力注意层。我们将4D相关图变平以作为Transformer模块的输入序列，即，利用层r，Fl，Fl∈RHl×Wl×Dl，构造了一个核，关系映射C1∈RH1×W1×H1×W1，它表示长×宽×高×宽→RL×HWHW 考虑到比赛两个特征图之间的所有候选对应的置信度得分给定一组来自不同的瓶颈层{（Fl，Fl）}L ，我们计算在每个空间位置作为注意力的元素然后我们线性地嵌入我们的平坦化相关映射的信道维度，即， X = CTWin，其中C为相关映射，Win∈RL×Din 是线性变换每对的4D相关张量如下：矩阵，且X∈RHWHW×D，是对subse的输入，消除注意力障碍。然而，二次复杂度L. Fx，：·Fx，：ΣF简体中文ǁ传统的自我注意力在变压器构成了一个在-Cx，x=ReLULx，：布里尔x，：、（四）可行的计算开销在我们的设置，作为一个扁平化的4D张量导致显著长的1D张量。其中x，x≠R2是指二维空间位置对应于图像对（I，I′）的特征图。L个相关张量然后在双线性内插到HWHW的大小之后沿着信道维度堆叠在一起，即，输入图像分辨率的大小，最终得到多通道相关图CRL×H×W×H×W。这与先前工作[ 45 ]中使用的相关图不同，先前工作[45]中只有一个通道，即，源和目标特征图之间的每对位置具有一个相似性得分值。通过构造多通道的预测图，我们对每个候选人[58]受Fastformer的启发，我们的目标是减轻这种机器人，tleneck通过使用附加注意力来有效地对长距离匹配到匹配的交互进行建模;而不是计算四次注意力图（相对于特征图的空间大小），其编码候选匹配QKT之间的所有可能的交互RT×T其中T=HWHW，我们通过加法注意力形成查询-键交互的紧凑表示HRT×Dh，该加法注意力计算全局查询表示与每个键向量之间的交互：H（h）=K（h）Q（h）σ（τwqQ（h）T）j，（5）匹配为特征而不是单个分数。这种跨瓶颈层i，：i，：j=1j，：允许我们利用更丰富的语义在不同层次的特征图，不像以前的方法，其中wqRDh学习将查询向量转换为全局向量。类似的附加注意力机制-Q ∈T×T��∈��∈��∈��∈ℝ��×Dinℝ��×Din…MLP层规范化…仿射转型仿射变换动态加权和动态加权和查询投影键突起值投影层规范化…8701∈不8O→−Oh∈TM[N克勒 C"i，j，k，lm=1吉吉√）¯¯¯¯∈埃克勒山∈¯¯¯¯M {}nism用线性投影wkRDh总结上下文感知的密钥表示H，以如下对其与值向量的交互进行建模：SA（h）（X）i，：=V（h）H（h）σ（τwkH（h）T）j，（6）4D相关图，以使用匹配到匹配交互来对其进行细化，从而输出用于鲁棒图像匹配的细化的相关图。这个过程重复N次，提供了一个在RL×HWHW中的张量。来自最终匹配到匹配注意力模块的输出被线性投影到TMi，：j=1j，：单通道尺寸，并重新成形为4D相关图，即。RL×HWHW→RH×W×H×W，对于reli-假设Dh=Dv。输出由MLP转换，然后是剩余连接，Q.我们提出的匹配到匹配的注意力层减少了时间和内存的复杂度下降到线性方面的输入长度：（T2Dh）（TDh）。最后，为了确保我们的注意力层能够注意到不同地，我们将我们的多头自注意层公式化如下：MHS AT M（X）=concatSA（h）（X）<$WO+bO.（七）关键点转移。为了精确传输，我们在4D相关图上执行4维上采样函数，并将张量表示为CoutRH×W×H×W其中H<$=2H，W<$=2W，相当于1的大小原始图像。我们展示了我们比赛的轮廓-匹配注意力模块，见图4。4.3. 流场形成输出相关张量Cout可以通过应用内核soft-argmax [25]转换为稠密流场我们使用softmax标准化原始相关输出：其中，线性变换层变换所述控制器，多个自我注意力层的链接输出。我们规范exp（GpC输出）（十）使用预LN方法，其中层归一化被放置在关注层的残差块内。C=Σ（k'，l'）∈H<$×W<$exp（Gp出去伊克勒4D旋转定位嵌入。在基于transformer的网络中，位置嵌入对序列中不同位置的元素之间的依赖性进行虽然相对位置嵌入在关系感知交互建模中表现优于绝对位置嵌入，但它不适用于线性复杂度的交互。因为他们没有明确地计算二次的其中GpRH<$×W<$ 是一个二维高斯核以p=arg maxk，lCout为中心，其被应用于平滑潜在的不规则相关值。归一化的相关张量C范数编码了一组概率单形，利用这些概率单形转移源图像I的稠密规则网格P ∈ RH × W ×2上的所有坐标，得到它们对应的坐标P∈′∈RH×W×2复杂性注意矩阵为此，我们采用了ro-在tar上得到图像I：R′i，j=（k，l）¯C范数∈H ×Wi，j，k，l帕克湖我们[48]第48话，把它变成适用于我们的4D相关图输入。RoPE旨在使查询和键（vanilla transformers的内积）的交互他们提出的在香草二次复杂度变换器中使用RoPE的注意力矩阵计算可以公式化如下：然后可以构建亚像素级US的密集流场计算估计匹配的集合（P，P′）。4.4. 培养目标我们假设我们得到一组地面实况坐标对=（km，km）M对于每个训练图像对，其中M是注释的关键点匹配的数量。我们执行从源头到目标的关键点转移Q（h）K（h）T=（Xm，：W（h）R）（Xn，：W（h）R）Tm，：n，：Q（h）（Θ，m）K（h）T不（Θ，n）（八）利用构造的稠密流场得到关键点。对于给定的关键点k=（xk，yk），我们定义软采样器W（k）∈RH<$×W<$：=Xm，：WQR（Θ，n-m）WKXn，：，（9）哪里R（Θ，θ）∈RDh×Dh 是旋转矩阵，W（k）=max（0，τ−ε（xk−j）2+（yk−i）2）将关键字或查询向量旋转其位置索引的倍数中的角度量以合并相对位置，函数嵌入我们将引导读者去阅读。i“j”max（0，τ-（xk−j′）2+（yk−i′）2）（十一）详细的解释。其中，τ是距离阈值，并且（k）IJ=1时。W、8702（i，j）∈H×Wij：IJRoPE也可以应用于线性复杂度变压器[48]。在我们的工作中，我们通过使用Eq.（5）为了计算全局上下文感知查询-键交互，但K=XWKR（Θ，θ）和Q=XWQR（Θ，θ）。可以看出，软采样器通过分配与到k的距离成比例的权重来有效地对每个传输的k个点Pk′ij进行采样。使用此软样本r，我们将匹配分配给k∈y点k，作为k∈ y′。为单通道精细相关计算。中简而言之，我们的匹配到匹配模块将噪声作为输入，Σ¯¯Pˆ′W（k），能够实现子-像素级精确关键点匹配。通过应用此8703†M）}ΣL2×NC-Net* [45]表1. 语义匹配的标准基准测试性能。PCK越高越好。表中报告的所有结果都使用预训练的ResNet-101模型作为特征提取器。第一组中的方法使用弱监督（图像对注释）进行训练，而第二组中的方法使用强监督（稀疏关键点匹配注释）进行训练。带有* 的模型使用来自ANC-Net的关键点注释重新训练[27]。表示在训练期间使用数据增强。粗体数字表示最佳性能，后面是带下划线的数字。一些结果来自[34]。在源关键点上采用关键点转移方法，得到了小视点、小规模的图像I上的预测的k个点对：{（km，km′）}Mm=1变化. PF-PASCAL数据集包含2，940/308通过向源图像中的每个k个点km分配匹配km′m我们制定我们的训练目标，以最小化预测目标关键点和地面实况目标关键点之间的平均欧几里得距离，如下所示：M/ 299个图像对，用于训练、验证和测试、重新排序。PF-WILLOW数据集包含900个仅用于测试的SPair-71 k数据集明显大于其他两个数据集，并且对于不同级别的差异具有更准确和更丰富的注释=1kMmm=15. 实验-k'm2.（十二）在遮挡、截断、视点和光照方面的差异。作为最具挑战性的数据集，SPair-71 k的结果相比之下饱和度较低。实作详细数据。根据最近的方法[3，34]，我们采用在图像上预训练的ResNet-101模型，我们评估我们的方法的语义对应任务，其目的是匹配语义相似的部分之间的图像相同的类别，但不同的实例。数据集。我们根据标准基准报告结果语义对应数据集：SPair-71 k [37]，PF-[13]和pf-willow [12]。SPair-71K数据集在视点和尺度上有各种变化，geNet 分类任务[23]作为特征提取网络。请注意，ResNet-101中的conv 4 x和conv 5 x层分别有23个和3个瓶颈层，我们从中提取特征图，为每个图像对计算26个逐层相关图。我们将输入图像的空间大小设置为240240、结果H=W=15，用于相关性比较的特征图。53，340/5，384/12，234图像对用于训练，有效-，而H=W<$=30。我们的每一场比赛分别是测试和测试。PF-PASCAL和PF-WILLOW数据集来自四个类别的注意层具有8个用于多头自注意的头（Nh=8），其中头维度为4（Dhv= 4）。方法SPair-71k@αbbox0.1（F）0.1（T）PF-PASCAL@αimg0.05（女）0.1（女）@PF-WILLOW时间存储器 FLOPsαbbox-kp@α bbox（ms）（GB）（G）0.1（T）0.1（T）NC-Net [45]20.126.454.378.967.0-2221.244.9[第16话]-26.755.682.373.8-5672.747.1[38]第三十八话27.728.556.182.174.180.2581.62.0[28]第二十八话26.5--81.274.7----UCN [5]-17.7-75.1-----HPF [36]28.2-60.184.874.4-63--[第30话]35.6-63.185.476.0-1514.66.2SCNet [14]--36.272.2-70.4>1000--[38]第三十八话37.327.475.790.771.077.6581.62.0[38]第三十八话39.4------81.9----582221.61.22.044.9DCC-Net* [16]-83.7--5672.747.1[27]第28话第28话-2160.944.9PMD [28] 37.4--90.7 75.6----CHMNet [34] 46.330.1 80.1 91.6 69.679.4541.619.6PMNC [26]50.4-82.490.6-----[59] 20.9 - 20.6 20.1--86--CATs [3] 43.5--451.628.4行政和技术援助†[3]79.2451.628.4TransforMatcher（我们的）50.230.578.9 90.5 66.775.1541.633.58704m=1联系我们1Σ增强定位SPair-71k PF-PASCALSPair-71 K时间存储器FLOPs嵌入@αbbox@αimg0.05 0.10.050.1架构@αbbox0.05 0.1（毫秒）（GB）（G）绝对值[39]29.948.774.589.4Transformer---内存不足C绝对值[39]26.648.979.491.8[56]第56话1.336 1.7 33.4旋转[48]30.550.278.990.4表演者[4]28.248.888 1.6 35.9C旋转[48]32.453.780.891.8添加剂收件人26.648.954 1.6 33.5表2. 隆乳和位置埋植时的消融。结果表明，使用数据增强和旋转位置嵌入给出了最好的结果。表3. 不同Transformer架构的结果。无法在内存容量内计算Vanilla Transformer额外的注意力产生最有利的结果。我们的方法的整体管道使用PyTorch [40]实现，并使用Adam [21]优化器进行优化，其恒定学习率为1 e-3。我们以1 e-5的较低学习率微调特征提取器网络。评价指标。我们使用正确关键点百分比（PCK）进行评估，这是类别级匹配的标准评估指标。给定一对地面实况和预测的目标关键点，{（km，k′m）}M，PCK通过以下方式测量：MPCK（K）=1[k]−k′≤α·max（w，h）]，对于SPair-71 k数据集，我们评估了两个版本的模型：在SPair-71 k上训练的微调模型（F）和在PF-PASCAL上训练的转移模型（T）在PF-PASCAL和PF-WILLOW数据集上，我们遵循常见的评估协议，在PF-PASCAL的训练分割上训练我们的网络，并在PF-PASCAL和PF-WILLOW的测试分割上进行评估。定量结果如表1所示。以前的方法一直使用两种不同的方案，τbbox-kp，bbox，当计算PF-WILLOW [35]的阈值时，因此我们使用两个阈值报告我们表明，TransforMatcher微调SPair-71 kMmmτ m=1τ τ（十三）一个值得注意的观察是，TransforMatcher在没有数据的情况下对SPair-71 k进行了微调，其中wτ和hτ是整个图像或对象边界框的宽度和高度，即，τ∈{img，bbox-kp，bbox}，并且ατ是容差因子。5.1. 结果和分析。mentation的性能优于用增强训练的CAT [3]使用数据增强导致SPair-71 k和PF-PASCAL数据集上的PCK得到改善，但基于变换的模型从DHPF中较低的PCK增加中可以看出，从增强中获益更多[3]。有趣的是，在没有数据增强的情况下训练的TransforMatcher比我们用数据增强训练的模型更好地转移到 SPair-71 k 和 PF-WILLOW数据集，尽管它在PF-PASCAL上的PCK较低。这可能暗示，虽然数据扩充确实有助于TransforMatcher更好地学习，但它对训练数据域的拟合程度更高。当传输到SPair-71 k数据集时，Trans-forMatcher还表现出最先进的性能然而，与SPair-71 k数据集不同，Transfor- Matcher在传输到PF-WILLOW数据集时显示不合格的结果。这证明从PF-PASCAL数据集学习的匹配到匹配的相互作用图5显示了使用我们的模型在SPair-71 K上的示例定性结果。5.2. 消融研究和分析源目标结果训练期间数据扩充的影响猫[3]发现使用类别级数据扩充图5. SPair-71 k上的样本结果。使用预测的对应性将源图像TPS转换[8]为目标图像匹配模型是有益的，特别是对于数据饥渴的8705：硬：中等非定域性Φcon$Kq，kXconvTM14l=110Σ基于变压器的架构。我们研究了ap-16在我们的模型中也加入了数据增强，CAT中使用的方案。表2中的结果表明，8使用数据扩充确实可以提供一致的改进我们的模型的性能。1614121086420层1 层2 层3 层4 第5层第6层TransforMatcher（我们的）位置嵌入分析。我们调查的效果，在我们的管道中使用的位置嵌入。由于传统的相对位置嵌入需要显式计算注意力矩阵，因此不适用于我们的具有线性复杂度加性注意力的Transformer架构另一方面，旋转位置嵌入可以无缝地应用到我们的模型中，作为对相对位置嵌入进行建模的替代方法。表2中的结果表明，使用旋转位置嵌入比绝对位置嵌入有显著的增益，特别是在更具挑战性的SPair-71 k数据集上。高效Transformer体系结构分析。我们尝试用其他有效的Transformer设计[4，56]以及香草Transformer [55]设计来替换我们的匹配到匹配注意力架构，以比较性能。我们在这个实验中使用了绝对可学习的位置嵌入。表3中的结果表明，加性注意力架构显示出最有利的结果，具有与执行者类似的高性能，但具有更低的延迟。我们发现Linformer架构[56]未能训练，我们推测这是由于我们的网络的低头维，以及Linformer对内核近似的依赖使用vanilla Transformers进行训练是不可行的，因为它对成对注意力矩阵的内存需求很大。比赛注意的非局部性分析。为了进行深入分析，我们研究了与卷积对应层相比，我们的非局部匹配注意力层如何操作[34，45]。我们将层1处的MHSA的非局部性的度量定义为注意力分数和相对偏移之间的交互的平均值：图6. high-dim. conv内核（左）和transforMatcher的注意层（右）的非局部分布视点比例截断遮挡百分百百分之八十百分之六十百分之四十百分之二十0%的百分比14710131619147101316191471013161914710131619本地全局本地全局本地全局本地全局图7. 图像对难度的比例w.r.t.非定域性每个组的难度级别见图7。对于所有的不同类型，硬/介质样品的比例增加，增加非局域性。这种趋势在截断/遮挡类型中尤其明显;我们的模型关注更大的上下文以更好地感知截断/遮挡部分。我们引导读者阅读本分析的实施细节的补充材料，以及TransforMatcher的附加分析和定性结果。6. 结论在本文中，我们提出了TransforMatcher，一个有效的语义匹配学习。我们的主要贡献是匹配到匹配注意机制，据我们所知，这是直接处理4D输入的第一次尝试，即，相关图，其中每个空间条目（匹配）作为使用具有全局感受野的基于变换器的网络的注意力的元素。这一直是一个具有挑战性的追求，由于香草变压器在建模全球范围的相互作用，这是通过线性复杂性的加法atten- tion解决的二次复杂性。我们进一步建议，Φl=1ZA（h）多级相关性分数作为特征，h∈[Nh]（q，k）∈X×X其中Z是归一化常数，并且是C中的一组空间位置。图6绘制了TransforMatcher中高维卷积层和MHSA层的非局部性值分布;卷积层使用固定的局部感受野（ΦK8）进行静态<相比之下，Transformatcher层可以通过自适应地决定有效变换的关注区域来动态地在不同层次的特征图中语义越丰富的提出的模型在SPair-71 k数据集上的性能优于现有技术，而在PF-PASCAL数据集上的性能与SOTA方法相当。虽然内存使用的TransforMatcher增加二次相对于在其他密集匹配方法的像素数，我们预计这项工作将激励使用的变换器在其他领域的高维输入。谢谢。这项工作得到了山姆的支持-整体感受野（Φ1≤12. （五）。为了验证成先进技术研究所（SAIT），我们通过NRF赠款（NRF-2021 R1 A2 C3012728）和IITP对每个资助项目进行样本非定域性测量（Φ=10LΦl）（No.2021-0-02068：AI创新中心，No.2019-0-SPair-71 k中的测试图像对，将它们分成20组，随着非局域性的增加，并可视化韩国政府（MSIT）资助的POSTECH）的比例K=3K=5K=7K=9K=11K=3K=5K=7K=9K=114D convs6D convs：easy非定域性Φ&M（6408706引用[1] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf：加速健壮的功能。 2006 年欧洲计算机视觉会议（ECCV）论文集。1[2] Minsu Cho ， Suha Kwak ， Cordelia Schmid ， and JeanPonce.野外无监督对象发现和定位：基于部分的匹配与自底向上的区域建议。IEEE International Conference onComputer Vision and Pattern Recognition （ CVPR ），2015年。2[3] Seokju Cho，Sunghwan Hong，Sangryul Jeon，YunsungLee，Kwanghoon Sohn，and Seungryong Kim. 与变压器的语义对应。arXiv预印本arXiv：2106.02520，2021。一、二、六、七[4] Krzysztof Choromanski ， Valerii Likhosherstov ， DavidDo- han ， Xingyou Song ， Andreea Gane ， TamasSarlos ， PeterHawkins ， JaredDavis ， AfrozMohiuddin ， Lukasz Kaiser ， et al. Rethinking attentionwith performers. arXiv 预印本 arXiv ： 2009.14794 ，2020。三、七、八[5] Christopher Choy，JunYoung Gwak，Silvio Savarese，and Manmohan Chandraker.通用通信网。神经信息处理系统进展（NeurIPS），2016年。6[6] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图在2005年IEEE计算机视觉和模式识别国际会议（CVPR）的会议记录中。1[7] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. Superpoint：自监督兴趣点检测和描述。在IEEE计算机视觉和模式识别研讨会会议论文集，第224-236页，2018年。1[8] Gianluca Donato和Serge Belongie近似薄板样条映射。在欧洲计算机视觉会议（ECCV）的会议记录中，2002年。7[9] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图像值16x16个单词：用于大规模图像识别的变形金刚。国际学习表征会议（ICLR），2021。2[10] Mihai Dusmanu、Ignacio Rocco、Tomas Pajdla、MarcPolle-feys、Josef Sivic、Akihiko Torii和Torsten Sattler。D2-net：一个可训练的cnn，用于联合检测和描述局部特征。arXiv预印本arXiv：1905.03561，2019。1[11] 大卫·福赛斯和吉恩·庞塞。计算机视觉：一种现代方法。（第二版）。Prentice Hall，Nov. 2011. 1[12] Bumsub Ham 、 Minsu Cho 、 Cordelia Schmid 和 JeanPonce。提案流程。在2016年IEEE计算机视觉和模式识别国际会议（CVPR）上。1、6[13] Bumsub Ham 、 Minsu Cho 、 Cordelia Schmid 和 JeanPonce。提案流：来自对象提案的语义对应。IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），2018年。1、6[14] Kai Han，Rafael S Rezende，Bumsub Ham，Kwan-YeeK Wong ， Minsu Cho ， Cordelia Schmid ， and JeanPonce.Sc-8707net：学习语义对应。在2017年国际计算机视觉会议（ICCV）的会议记录中。1、6[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别国际会议（CVPR）上，2016年。4[16] Shuaiyi Huang ， Qiuyue Wang ， Songyang Zhang ，Shipeng Yan，and Xumming He.用于语义对齐的动态上下文对应在2019年国际计算机视觉会议（ICCV）的会议记录中。一、二、六[17] Sangryul Jeon ， Seungryong Kim ， Dongbo Min ， andKwanghoon Sohn. Parn：用于密集语义对应的金字塔仿射回归网络。在欧洲计算机视觉会议（ECCV）的论文集，2018。1[18] Sangryul Jeon，Dongbo Min，Seungryong Kim，JihwanChoe，and Kwanghoon Sohn.引导语义流。在2020年欧洲计算机视觉会议（ECCV）上一、二[19] Wei Jiang ， Eduard Trulls ， Jan Hosang ， AndreaTag

下载后可阅读完整内容，剩余1页未读，立即下载