基于跨模态上下文的局部描述子增广

176 浏览量更新于2023-10-19 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2527ContextDesc：基于跨模态上下文的局部描述子增广罗子欣天威神1Lei Zhou1，*张嘉辉2YaoYao1，姚李世伟天方三号，龙泉一号1香港科技大学2清华大学3深圳筑科创新科技（Altizure）{zluoag，tshenaa，lzhouai，yyaoag，slibc，quan}@cse.ust.hkjiahui-z15@mails.tsinghua.edu.cnfangtian@altizure.com摘要参考文献现有的局部特征学习研究大多集中在基于块的单个关键点的描述，而忽略了从关键点的位置建立的空间关系。在本文中，我们超越了本地的细节表示，通过引入上下文感知来增强现成的本地特征描述符。具体而言，我们提出了一个统一的学习框架，杠杆年龄和聚合的跨模态上下文信息，包括（i）视觉上下文从高层次的图像表示，和（ii）几何上下文从2D关键点分布。此外，我们提出了一个有效的N对损失，避免了经验超参数搜索，提高了收敛性。与原始局部fea相比，建议的增强方案是轻量级的（一）（b）第（1）款NNGT参考文献NNGT真实的描述，同时显着提高了几个-该方法在几何匹配应用中具有很强的实用性和推广能力。[代码发布]1. 介绍设计功能强大的局部特征描述符是全景拼接[21]、宽基线匹配[24，54，55]、图像重建等应用中的一个基本问题。Trieval [27]和运动结构（SfM）[57，39，52，56]。尽管最近取得了显著的成就，但观察到最先进的学习描述符的性能在标准基准上有些饱和。如图如图1a所示，由于重复的图案，匹配算法经常发现错误的匹配作为视觉上无法与地面实况区分的最近邻居，除非通过几何验证。本质上，仅给定局部信息，这种视觉模糊性可能不本着这种精神*深圳市筑科创新科技有限公司实习生。†通讯作者。2528图1：（a）通过最近的方法[23]在标准基准[2]上的饱和结果。最近邻（NN）的搜索返回错误的匹配，尽管视觉上类似于地面实况（GT），表明仅依赖于局部视觉信息的局限性。(b)2D关键点的分布具有结构性，即使没有颜色信息，我们人类也能够在其上建立粗略的匹配。我们寻求用额外的先验知识来增强局部特征描述，我们称之为引入上下文感知来增强局部特征描述符。作为一种常见的做法，多尺度类架构可以帮助捕获不同级别的视觉上下文，这被DSP-SIFT [8]称为多尺度域聚合，并被最近学习的描述符[50，19，43]采用。除了选择适当的域大小的挑战之外，简单的多尺度实现可能会花费过多的计算，例如加倍的推理时间和加倍的特征维度[50，19，43]。为了寻求更合理的准确性-效率权衡，我们转而求助于经过充分研究的高级图像表示，例如，图像检索研究中使用的区域表示法2529IES [33，38]，其本质上包含丰富的图像上下文。因此，我们努力有效地结合当地的特征描述和现成的视觉理解，从而超越当地的细节表示。此外，在其他模式中利用上下文也是有意义的。具体地说，如图1所示1b中，由于关键点原则上被设计为在相同的底层场景中是可重复的，因此其分布揭示了直观的场景结构，该结构允许我们人类即使在没有颜色信息的情况下也能建立粗略的匹配，这进一步使我们能够探索由关键点的空间关系形成的几何上下文，以帮助减轻局部描述的视觉模糊性。到目前为止，我们已经讨论了两个上下文候选者，称为视觉上下文和几何上下文，它们分别结合了图像上的高级视觉表示和来自2D关键点分布的几何线索。在目前的工作中，我们的目标不是学习一个全新的描述符，而是灵活地利用上述上下文感知来增强现成的本地描述符，而不改变它们的维度，在这个过程中，我们从三个方面考虑关键挑战：• 几何局部特征和语义高层表示的恰当结合。由于关键点描述需要亚像素精度，因此积分不会模糊局部细节的原始表示。• 2D关键点分布的不稳定性由于图像外观的变化，关键点分布往往遭受的稀疏性，非均匀性或透视的实质性变化，这增加了获得强大的不变性属性的特征编码器的困难。• 有效的学习计划。不同模态的输入信号和特征应该在一个统一的框架中被有效地处理和聚合。最后，关于实用性，增强不应该引入过多的计算成本，因为局部特征描述通常被认为是实际管道中的预处理的一部分虽然上下文信息已经在基于语义的任务中得到了广泛的研究，但局部特征学习所面临的挑战却有很大的不同，提出了许多需要克服的重要技术和系统问题。在本文中，我们提出了一个统一的增强方案，有效地利用和聚合跨模态上下文，其贡献总结为三方面：1) 一种新颖的视觉上下文编码器，它集成了来自区域图像表示的高级视觉理解，这是一种经常被图像检索使用的技术[33，38]。2)一种新颖的几何上下文编码器，其消耗无序点并利用来自2D关键点分布的几何线索，同时对复杂变化具有鲁棒性3）不需要手动超参数搜索的新型N对损失并且具有更好的收敛性。据我们所知，这是第一个工作，强调上下文意识的重要性，特别是解决了在局部特征学习的关键点的空间关系的可用性。该增强算法在多个大规模的基准测试数据集上得到了广泛的评价，并取得了最先进的结果，包括块级单应性数据集、图像级野外室外/室内场景和应用级3D重建图像集，同时与原始局部描述相比是轻量级的，展示了较强的泛化能力和实用性。2. 相关工作已学习本地描述符。最初，局部描述符与新的比较度量[9，50]联合学习，该度量后来被简化为欧几里得空间中的直接比较[40，48，3，19，1]。最近，努力花在有效的训练数据采样[43，25，11]，有效的正则化[43，53]和输入补丁的几何形状估计[26，7]。然而，大多数上述方法采取indi- vidual图像补丁作为输入，而在目前的工作中，我们的目标是利用上下文线索超出了本地的细节，并纳入多个模态的功能。语境意识。尽管上下文感知在计算机视觉任务中被广泛引入，但在2D局部描述符的学习中却很少受到关注。在视觉背景方面，中心-环绕（CS）结构[50，19，43]通过额外馈送补丁的中心部分来利用多尺度信息以提高性能，同时由于加倍的提取时间和特征维度而牺牲计算效率为了结合语义，一个先前的实践[18]设计了一个新的比较度量，并从语义标签的直方图中描述特征。与几何匹配相反，一系列研究集中在寻找同一类别不同对象之间的语义对应性[45，34]。除了视觉信息之外，最近的一项研究[49]探索对运动上下文进行编码，以从关键点匹配中识别离群值，即，4-D坐标对，而我们的目标是利用几何上下文从单一的图像没有任何参考。总的来说，编码适当的上下文是不平凡的，在2D局部特征学习中仍然不清楚。点特征学习。在目前的工作中，我们的目标之一是从关键点分布中探索几何特征，因此我们求助于PointNet[31]及其变体[32，5，49]来消耗无序点。虽然在3D点的学习任务中取得了巨大的成功，但只有很少的研究利用了2D关键点集的潜在结果。本质上，关键点结构不是直观有意义的和鲁棒的，因为高度依赖于兴趣点检测器的性能并且受到图像变化的强烈影响然而，在描述中-2530图2：所提出的增强框架使用单个图像作为输入，从中提取2D关键点，局部和区域特征并编码为几何和视觉上下文，以改善原始局部特征描述。对于学习，我们认为关键点位置是一个重要的线索，它连接了每个单独的局部特征，这些特征有可能减轻局部视觉模糊。损失公式。最近的局部描述符经常演变为N对损失的高级变体。最初，L2-Net [43]采用对数似然公式，随后由HardNet [25]扩展，并采用减法铰链损失。此外，GeoDesc [23]应用自适应标记来提高不同硬否定挖掘策略的收敛性，而AffNet [7]通过在训练期间固定与最硬否定样本的距离来解决相同的问题同时，另一方面，DOAP [11]将N对损失扩展到列表排序损失，而[17]指出并研究了N对损失中的尺度效应，同时引入了额外的超参数手动调整。原则上，一个好的损失应该鼓励相似的补丁是接近的，而不相似的是远离描述符空间。本着这种精神，我们的目标是以自适应的方式进一步解决[17]中的尺度效应，而不需要复杂的算法或手动调整。到[48，23]，图像块由空间变换器[16]采样，其参数来自SIFT检测器的关键点属性（坐标，方向和尺度）因此，采样补丁具有相同的支持端口区域大小与SIFT描述符。局部特征提取器。该模块将图像块作为输入，产生128维特征描述作为输出。我们借用了最近几个作品中使用的轻量级7层卷积网络[43，25，23]。区域特征提取器。与聚合不同域大小的特征[50，19，43]相比，在本工作中，我们固定了补丁的采样规模，并通过在图像检索任务中充分研究的区域表示的灵感来利用上下文线索[44，33，28]。在不失一般性的情况下，我们重用了ResNet-50的现成深度图像检索模型中的特征[12]。如[44]所述，从最后一个瓶颈块中提取特征图，每个响应都被视为有效对应于图像中特定区域的区域特征向量。因此，我们得出的区域特征，H×W×2048，其中H和W表示原始im-32 323. 局部描述符扩充概况. 如示于图2.拟议框架包括两个主要模块：准备（左）和增强（右）。准备模块提供不同模态（原始局部特征、高级视觉特征和关键点位置）的输入信号，然后将其馈送到增强模块并聚合成紧凑的特征描述。在测试时，每个图像需要执行一次增强，从而产生K个对应关键点的K个3.1. 制备贴片采样器。该模块将图像及其关键点作为输入，产生32×32灰度补丁。类似年龄高和宽。区域和地方特征的集合三点三3.2. 几何上下文编码器该模块以K个无序点为输入，输出128维对应的特征向量.每个输入点都表示为2D关键点坐标，并且可以与其他属性相关联。2D点处理。乍一看，2D关键点不适合用作强大的上下文线索，因为其存在严重依赖于图像外观，因此受到各种图像变化的影响。因此，描绘相同场景的关键点分布可能遭受显著的密度或结构变化，如图1B中所示的示例。1b.因此，获得强不变性是图像样本关键点几何上下文编码器C逐行级联×2C×3×128逐元素求和×4匹配性预测器tanhMLP× 1MLP多层感知器Quad LossCN上下文规范化斑片取样器局部特征提取器× 32 × 32×128×128聚集× 1282-N 正构化视觉上下文编码器×128N线对损耗区域特征提取器××20483232ResNet-50C×512×640制备地域特色采样网格插值 ×2048增强××3感知器MLPw/CN残留物装置0w/CN（...）残留物装置3，带CNMLP25311 1 221 1 22设计上下文编码器时的关键挑战最初，我们试图通过点网[31]及其变体[32，5]来接近目标。虽然在处理3D点云方面取得了巨大成功，但这些现有的PointNet方法在2D点处理方面未能实现一致的改进（第12节）。4.4.1）。相反，我们求助于[49]，其中PointNet中配备了上下文规范化（CN），并在图像匹配中消耗假定的匹配（4-d坐标对）用于离群值拒绝在这项工作中，我们的目标是进一步探索CN的可用性建模的二维点分布在单一的图像。形式上，CN是一种非参数操作，其根据特征图的分布简单地将特征图归一化，能力预测，其目标是在匹配阶段之前决定关键点描述符是否可匹配。在实践中，匹配性用作学习衰减以使关键点多样化，使得特征编码器可以隐含地集中在更鲁棒的点上，即，匹配，以提高不变性。在目前的工作中，我们使用深度学习技术而不是[10]中的随机森林来处理匹配性预测，并将预测约束为图像之间的一致性。受基于学习的关键点检测方法[35，51]的启发，我们采用了一种无监督学习方案，旨在通过匹配性对点进行适当排名。形式上，给定K个对应L l写为ol=（oi−µ），其中ol是第i个点的输出（pn，pn），n∈[1，K]，我们首先从图像对中提取iσli1 2 n n在第l层中，μ l和σl是第l层中输出的平均值和标准差。为了装备操作，我们借用了[49]中的残差架构，其中每个残差单元都是用感知器构建的，然后是上下文和批量归一化，如图所示。3a.它们的局部特征（f1，f2），然后构造特征四边形，满足i，j∈[1，K]，i/=j，并保持：H（fi）> H（fj）&H（fi）> H（fj）然而，上述设计导致非负输出-从可能影响代表的剩余分支提出-或H（fi）0，1 1 2 2最终目标可以通过铰链损失来获得L=1max（0，1−R（fi，fj，fi，fj））。(a) 原始设计（b）重新安排/预激活图3：带有上下文的剩余单元的不同设计quadK（K−1）i，j，i/=j1 1 22（三）正常化，其中重新安排与预激活的改进，证明了一个相当大的幅度比其对应。直观地说，非参数CN足以对我们任务中的关键点分布进行建模，而高级抽象（例如，在PointNet++中[32]）可能不需要。匹配性预测器。在3D点云处理中，通常会合并低级颜色和法线[31]信息或复杂的几何属性[5]以增强表示。类似地，将2D坐标输入与其他有意义的属性相关联将有望提高性能。然而，由于大量的变化，例如，透视图改变，在2D点上定义适当的中间属性是不平凡的虽然这个问题仅仅是讨论，但我们从[10]中得到启发，它提出了一个名为匹配的问题在所提出的框架中，匹配性被学习为辅助任务，然后由tanh激活，并与关键点坐标相关联作为网络输入，如图所示。二、除了EQ。3，来自最终增强特征的梯度将流过匹配性预测，tor，允许整个编码器的联合优化预测匹配性的可视化显示在图中。4.第一章1.00.50.0-0.5-1.0图4：响应整个图像的匹配性的可视化（最佳颜色）。+‧‧‧+‧‧‧感知器Contex范数BN+ReLU语境规范BN+ReLU感知器253232323.3. 视觉上下文编码器该模块在秒中消耗H×W×20483.1，K个局部特征及其位置，并产生K个增广特征。整合视觉信息-为了在不同级别上进行信息处理，如[5]中的有效选项是在原始局部特征上连接整个图像的全局表示。在我们的框架中，可以通过应用最大卷积激活（MAC）聚合来导出全局特征[33]，这只是在区域特征的所有维度上进行最大池。然而，这种紧凑的表示被证明模糊了原始的局部描述，由于缺乏空间的区别（第二节）。4.4.1）。因此，我们认为，相似样本远离不相似样本到描述符空间中的某个界限然而，设置适当的裕度是棘手的，这并不总是确保收敛，如[23，7]中所观察到的。更一般地说，在[17]中研究了制作良好损耗的标准，从中提供了关于在特定数据集上调谐损耗参数的指导方针本着这种精神，我们的目标是进一步减轻[17]中参数搜索的痛苦，并获得一个自适应损失，无论学习难度如何都可以快速收敛。我们使用N对损失的对数似然形式[43]作为一个基本的参数，它最初不涉及任何可调参数。形式上，给定L2归一化特征描述符F1=[f1f2. fN]T，F2=[f1f2... fN]T∈RN×128，我们坚持区域代表性，关键问题是1 1 12 2 2是处理不同的可以通过下式获得距离矩阵D=[dij]N×N：H W D=2（1−F1FT）。通过应用row-wise（r）和数字（32×32和K）。为了实现这一目标，我们将区域特征与在图像上规则采样网格，然后插值H×W2列式（c）softmax，我们得出最终损失为：1Σ Σ32 32N-pair= −（logsr+logsc），在K个关键点的坐标处的网格点。对于interpo-最后，我们使用基于k的反距离加权平均，最近邻（默认情况下我们使用k=3），公式为：2ii ii我我其中[s ij]N× N= softmax（2 −D）。（五）Σkj=1w（pj）f（pj）1f（p）=，且w（p）=、（四）请注意，由于输入要素是L2归一化的，因此结果dij受[0，2]限制，这会导致收敛伊萨克j=1 w（pj）jd（pi，pj）softmax函数的比例敏感性问题[15]。类似地，我们引入单个可训练参数α，re，其中f（：）是位于某个格网的区域要素点p∈i，i∈[1，N]和pj，j∈[1，H×W]表示称为softmax温度，以修正重新缩放输入。损失现在变成：32 32插值网格点和原始网格点。接下来，维度-通过应用逐点MLP来减少ity，其中我们还在每个感知器之后插入CN以捕获全局上下文。最后，原始的局部特征被连接并进一步由MLP映射，形成最终的128-d特征。上述过程如图所示。二、3.4. 使用原始本地要素进行要素聚合为了聚合上述两种类型的上下文特征，类似于CS结构，一种选择是将它们连接在一起，并形成384-d的特征（128×3）。然而，增加的维度将在-在O（n2）复杂度的匹配阶段，会产生过多的计算量.如Tab中所示。2，我们建议通过逐元素求和和L2归一化将不同的特征流组合成单个向量，即，而不改变特征维度。除了简单，这种策略允许灵活使用拟议的例如，在区域特征不可用的情况下，可以仅用几何背景进行聚合，而不需要重新训练模型。3.5. N对损耗，softmax温度最近的研究主要使用N对损耗。根据经验，减去铰链损失[25，23，7]报告了更好的性能，其主要思想是推动[sij]N×N=softmax（α（2−D）），（6）其中α被初始化为1，并在网络中使用相同的权重衰减进行正则化，因此不需要任何手动调整或复杂的算法。在SEC的实验中，4.4.2，我们证明了这种简单的技术比其原始形式[43]有了显著的改进，我们怀疑其性能由于上述尺度敏感性而受到阻碍在所提出的框架中，我们计算增强特征的N对损失，并获得总损失：L总=LN-pair+λLquad，（7）其中我们在实验中选择λ = 1。4. 实验4.1. 执行培训详情。虽然框架是端到端可训练的，但我们在Sec中修复了本地和区域特征提取器。3.1在培训期间，为了清楚地表明拟议的增强计划的效力我们使用SGD训练网络，基本学习率为0.05，权重衰减为0.0001，动量为0.9。学习率以每100k步0.1的指数衰减。批量大小设置为2，每次1024个关键点2533随机采样，包括随机数量的可匹配关键点和噪声关键点（参见附录A）。①的人。输入块被标准化为具有零均值和单位范数，而输入关键点坐标被标准化为关于图像大小的[-1，1]训练数据集。虽然UBC Phototour [4]被用作常见的实践，但该数据集仅由三个场景组成，关键点分布的多样性有限。为了实现更好的泛化能力，我们求助于大规模照片旅游[46，33]和航空数据集（GL3D）[38]，如[48，23]所示，并从SfM生成地面实况匹配。我们手动排除评估中使用的数据数据扩充。我们随机扰动输入补丁仿射变换，包括旋转（90°），各向异性缩放和平移w.r.t.检测规模。对于关键点增强，我们用随机单应性变换扰动坐标，如[6]（见附录A）。①的人。4.2. 评价数据集单应性数据集。HPatches [2]是一个大规模的补丁数据集，用于评估关于照明和视点变化的局部特征。由于提供了地面实况单应性和原始图像，因此HPatches也可以用于评估图像匹配性能，因此我们将其称为HP序列，如[20]中所述，由116个序列和580个图像对组成。野生数据集。与[49]中的设置类似，我们还对室外YFCC 100M [42]（1000对）和室内SUN3D [47]（539对）数据集进行了评估。与HPSequences相比，这两个数据集还引入了自遮挡等变化，特别是室内场景中的重复或特征贫乏模式，这通常被认为是稀疏匹配的挑战。SfM数据集。在[37]之后，我们对SfM数据集进行了评估，例如众所周知的Fountain和Herzjesu[41]或地标集合[46]。我们将所提出的框架集成到SfM流水线中，即，COLMAP [36]，并使用[37]中提供的关键点来计算局部特征。4.3. 评估协议补丁级别。对于HPatches [2]，我们遵循其评估协议，并使用平均平均精度（mAP）进行三个子任务，包括补丁验证，匹配和检索。图像级别。对于HP序列，我们使用[14]中定义的召回=#正确匹配/ #对应来量化图像匹配性能，其中#正确匹配是通过最近邻搜索找到的匹配，并通过地面真实几何验证，例如，单应性，而#对应性是应该由给定关键点位置识别的匹配。在[14]之后，如果匹配点在2.5以内，则确定匹配点是正确的从参考图像中的包裹的关键点的像素。我们使用一个标准的SIFT检测器来定位关键点，其数量被随机采样到2048。对于YFCC 100M [42]和SUN3D [47]，我们遵循[49]中的相同设置，并报告每个数据集RANSAC后的内点匹配中位数重建层为了清楚起见，我们在[37]中报告了量化SfM完整性的指标，包括配准图像的数量（# Registered），稀疏点（ #SparsePoints ）和图像观察（#Observations）。4.4. 消融研究4.4.1上下文编码器在本节中，我们评估HP序列的两个分裂[2]：照明（i）和视点（v），关于不同的图像变换。我们报告召回，如第四点三。如果未指定，我们使用GeoDesc[23]作为基线模型（基线（GeoDesc））来提取原始局部特征，其参数在增强训练期间是固定的视觉环境。我们比较了四种设计，包括i）CS（256-d）：如第5.1.1节所述的中央环绕（CS）结构[50，19，43]。2，它连接来自不同域大小的本地特征。ii）w/ global功能：与全局特征的集成[5]，其最初被设计用于改进3D局部描述符。iii）w/区域性功能：所提出的与内插区域性特征的整合，以及其变体iv）w/区域性特征+ CN：具有上下文归一化以并入全局视觉信息。如Tab.所示。1（左列），CS结构[50，19，43]尽管维度增加了一倍，但仅提供了边际改进。同时，虽然在3D描述符学习中是有效的，但与全局特征的集成[5]反而损害了性能，我们将其归因于单个全局特征的有限表示能力。最后，所提出的与插值区域特征的集成显示出明显的改进，因为它更好地处理空间和视觉独特性。此外，为了增强全局上下文意识，我们表明，在编码区域特征时，可以通过装备上下文归一化来进一步提高性能。几何背景。我们研究了五种选择：i）类似PointNet的架构，即，[31]中的分割网络，而没有最终的分类器。ii）第二节中的预激活上下文归一化3.2具有2D xy输入，以及其变体iii）具有附加的原始局部特征输入或iv）具有匹配能力。我们还比较了上下文归一化网络中剩余单元的预激活的使用。如表所示1（中间列），虽然广泛用于处理3D点，但PointNet [31]在我们的任务中表现不佳，而在[49]中处理2D对应时也观察到类似的现象此外，注意到具有原始局部特征的输入不2534[23]第二十三话[43]第四十三话[17]第十七话我们视觉上下文编码器几何上下文编码器与其他方法策略回忆i/v网络架构回忆i/v方法回忆i/v基线（GeoDesc [23]）59.4671.24基线（GeoDesc [23]）59.4671.24SIFT [22]47.3653.06CS（256-d）[50，19，43] 59.8371.27PointNet [31]59.6170.96[43]第四十三话47.5853.96全球化特征[5]59.1171.02含CN（前） + XY61.6772.63[25]第二十五话57.6363.36w/区域特征63.6473.37含CN（前） + xy +原始局部特征60.9172.99[23]第二十三话59.4671.24w/区域特征+CN63.9873.63含CN（原始） + xy +匹配性59.9471.25ContextDesc66.5575.52含CN（前）+ xy+匹配性62.8273.40联系我们67.1476.42表1：不同视觉和几何上下文编码器设计的HP序列[2]的比较，以及整个增强方案的性能。‘i/v’ denotes twoevaluations on无助于提高性能，我们将其归因于从不同方向和尺度空间金字塔级别提取的局部特征之间的弱相关性相反，与匹配性的结合是显著有益的，因为匹配性作为局部特征的高级抽象更全面。最后，预激活显然是比其原始设计更可取的替代方案。与跨模态上下文的集成。最后，我们评估了视觉和地理环境（ContextDesc）的全面增强。如Tab.所示。1（右列），第二节中的简单求和聚合。3.4有效地利用了这两种环境，提供了对现有技术的显著改进。4.4.2softmax温度在N对损耗中为了证明在第二节中提出的损失的有效性 3.5，我们只训练局部基础模型，没有任何上下文感知，并比较不同的损失，包括：i）[ 43 ]中的普通N对损耗，无标度温度，以及ii）[ 17 ]中的标度感知损耗，其原始参数。HPatch，mAP [%]验证91.178.381.290.2匹配59.123.940.559.2检索74.946.864.076.0HP序列，调用Seq. 我59.532.250.059.7Seq. v71.248.564.872.6表2：三个补充任务的1）HPatch [2]的评估结果：补丁验证、匹配和检索。2) 两个序列分割的HP序列。如Tab.所示。2，在类似的训练设置下，拟议的损失提高了先前性能最好的GeoDesc [23]的整体性能，而GeoDesc需要额外的几何监督。此外，与[43]和[17]中的损失相比，所提出的损失清楚地显示出更好的收敛性。虽然我们认为[17]中的损失可能在仔细的参数搜索下表现得更好，但由于其自适应性，所提出的损失是有利的，而不需要复杂的算法或手动调整。此外，一旦将GeoDesc替换为上述模型作为增强方案的基础，最终性能可以进一步提高显著幅度，在Tab中表示为ContextDesc+1（右列），这再次说明了改进的基础模型的先进性。我们将使用该模型完成以下实验。4.5. 泛化野生数据集。两个挑战数据集（室外YFCC 100 M [42]和室内SUN3D [47]）的评估结果见表1。3 .第三章。所提出的跨模态上下文增强分别实现了35%和125%的增强在现有技术的基础上进行了改进，在实际场景中有效地证明了学习的增强特征具有很强的泛化能力。SIFT [22][43]第四十三话[25]第二十五话[23]第二十三话我们表3：野生数据集的评估结果：室内SUN3D [47]和室外YFCC 100M [42]数据集。SfM数据集。我们进一步证明了复杂的SfM管道的改进。如Tab.所示。4.即使在大规模的SfM任务中，增强特征的整合也能很好地在不同场景之间推广，同时增强了稀疏重建的完整性。图中给出了一些匹配结果。5，更多的可视化可以在附录中找到。图像数量注册数量#稀疏点观察次数喷泉SIFT [22]111110,00444K[23]第二十三话1116,68783K我们1116,96584K海尔热舒SIFT884,91619KGeoDesc88,72038K我们89,42940K南楼SIFT12812862,780353KGeoDesc128170,306小行星887K我们128174,359893K罗马广场SIFT2，3641,407242,1921，805KGeoDesc1,566770,3635，051K我们1,571848,3195，484 K阿拉莫SIFT2，915743120,7131，384KGeoDesc893353,3293，159 K我们921424,3483，488 K表4：SfM数据集的评价结果[37]。数中位数Inlier匹配室内138153239271365户外1681732192144822535图5：在不同的挑战性场景中RANSAC后的匹配结果。从上到下：SIFT、GeoDesc和我们的。增强功能有助于找到更多的内点匹配，并进一步允许更准确地恢复相机几何形状。4.6. 实用性讨论不变性。我们再次使用Recall并在Heinly基准[14]上进行评估以量化不变性属性。如表5所示，所提出的方法比先前的最佳性能描述符显著改进，除了当图像旋转高达180°时关于旋转变化的一些轻微的性能不佳之外，这可能是由于不能完全旋转不变，特别是对于区域特征提取器。SIFT [22][23]第二十三话我们表5：在Heinly基准[14]上对不同变换进行重新分级的评估结果。计算成本。为了实用，我们在增强框架中仅使用浅MLP或非参数上下文归一化，因此仅引入微不足道的计算开销。如表1所示。6，假设容易提取区域特征，例如，从部署在SfM管道中用于加速图像匹配的检索模型，完全增强然后需要与原始的局部特征描述相比，仅需约15%的时间实际上，拟议的框架允许灵活其他视觉组件的集成和重用，以实现系统级的效率，如显着性或分割掩模，因此有很大的空间，为未来的改进。端到端培训。对于消融目的，参数-基础本地和区域模型的数量是预先确定的在培训中，我们在这里提供有关端到端培训计划的有效性的进一步研究。在第一个设置中，我们只冻结区域模型，并使用Eq从头开始训练。7、增强功能。作为准备增强本地feat区域壮举geo. 上下文目视上下文多上下文时间（ms）3514951418FLOPs（B）802.9123.41.713.915.7参数（M）2.424.5<0.13.13.2表6：建议框架的计算成本，在896×896图像的10k关键点上进行评估。推断时间在NVIDIA GTX 1080 GPU上估计结果表明，与表1中的ContextDesc+相比，HPS序列的i/v序列的性能从67.14提高到67.53，从76.42提高到77.201.一、在第二种设置中，我们进一步使用区域模型进行端到端训练，该区域模型还通过标准交叉熵分类损失进行了优化，如[28]中的简单性（见附录A）。1了解详情）。虽然已经试验了几种损失平衡策略，但我们没有观察到最终匹配性能的一致改善，我们将其归因于多任务学习带来的实质性挑战。因此，我们目前建议对区域模型进行单独的培训，并期待未来改进的解决方案5. 结论与当前的趋势相反，我们已经解决了引入上下文感知来增强本地特征描述符的重要性。所提出的框架将关键点位置、原始局部和高级区域特征作为输入，从中编码两种类型的上下文：几何和视觉背景，而训练采用了一种新的N对损失，是自适应和参数调整自由。我们在多样化和大规模的数据集上进行了广泛的评估，并展示了对现有技术的显著改进，同时在实际应用中显示出很强的通用性和实用性谢谢。这项工作得到香港研资局GRF 16203518，T22-603/15 N，ITC PSKL 12 EG 02的支持。感谢Google Cloud Platform的支持。我们GeoDesc SIFT召回JPEG60.766.178.6模糊41.047.757.8暴露78.286.488.2昼夜29.239.643.3规模81.285.888.1旋转82.487.686.3刻度旋转29.633.738.0平面48.259.161.72536引用[1] V. Balntas，E.约翰斯湖Tang和K.米科莱奇克Pn-net：用于学习局部图像描述符的联合三重深度网络。在arXiv，2016。2[2] V. Balntas ， K. Lenc ， A. Vedaldi 和 K. 米科莱奇克Hpatches：手工制作和学习的本地描述符的基准和评估。在CVPR，2017年。一、六、七[3] 诉Balntas，E.Riba，D.Ponsa和K.米科莱奇克用三元组和浅卷积神经网络学习局部特征描述符。在BMVC，2016年。2[4] M. Brown和D. G.洛使用不变特征的自动全景图像拼接。InIJCV，2007. 6[5] H. 邓氏T.Birdal和S.伊利克Ppfnet：全局上下文感知局部特征，用于鲁棒的3d点匹配。在CVPR，2018年。二四五六七[6] D. DeTone，T.Malisiewicz和A.拉比诺维奇。深度图像单应性估计。在arXiv，2016。6[7] J. M. 德米特里·米什金菲利普·拉德诺维奇可重复性是不够的：通过可辨别性学习可辨别的仿射区域。在ECCV，2018。二三五[8] J. Dong和S.索阿托局部描述符中的域大小池：Dsp-sift.CVPR，2015。1[9] X.汉，T.梁，Y.贾河，巴西-地Sukthankar和A. C.伯格。Matchnet：统一特征和度量学习用于基于补丁的匹配。CVPR，2015。2[10] W. Hartmann，M. Havlena和K.辛德勒预测匹配性。CVPR，2014。4[11] K.他，Y. Lu和S. Scaroff局部描述符优化平均精度。在CVPR，2018年。二、三[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。3[13] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。在ECCV，2016年。4[14] J. Heinly，E.邓恩和JM. 弗拉姆二进制特征的比较在ECCV。2012. 六、八[15] E.霍夫岛Hubara和D.苏德里修复您的分类器：训练最后一个权重层的边际值。在ICLR，2018年。5[16] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。2015年，在NIPS中。3[17] M. Keller，Z. Chen，F. Maffra，P. Schmuck，and M.奇莉使用尺度感知三重网络学习深度描述符在CVPR，2018年。三、五、七[18] N. 科比舍夫Riemenschneider和L.范古尔通过语义理解正确匹配特征。在3DV，2014年。2[19] B.库马尔湾，澳-地卡内罗岛Reid等人通过最小化全局损失函数，使用深度连体和三重卷积网络学习局部图像描述符。在CVPR，2016年。一二三六七[20] K. Lenc和A.维达尔迪单应性数据集上局部图像特征检测器的大规模评估。在BMVC，2018年。6[21] S.利湖，澳-地Yuan、J.Sun和L.权基于双特征变形的运动模型估计。CVPR，2015。1[22] D. G.洛从尺度不变的关键点中提取独特的图像特征。2004. 七、八[23] Z. Luo，T.申湖，澳-地Zhou，S.朱河，巴西-地Zhang，Y.Yao，T.Fang和L.权Geodesc：通过整合几何约束来学习局部描述符。在ECCV，2018。一、三、五、六、七、八[24] J. Matas，O. Chum，M. Urban和T.帕杰拉鲁棒的宽基线立体声从最大稳定的极值区域。图像和视觉计算，2004年。1[25] A. Mishchuk，D.Mishkin，F.Radenovic和J.马塔斯努力了解邻居的边际：局部描述符学习损失。在NIPS，2017年。二三五七[26] K. Moo Yi，Y. Verdie，P. Fua，and V.莱珀蒂学习为特征点指定方向。在CVPR，2016年。2[27] D. Nister和H.斯图文纽斯可扩展的识别与一个词汇树。CVPR，2006。1[28] H.诺赫A. Araujo，J. Sim，T. Weyand和B.韩关注深度局部特征的大规模图像检索。InICCV，2017. 三、八[29] J. Philbin，O. Chum，M. Isard，J. Sivic，and A. 齐塞-曼。具有大词汇量和快速空间匹配的对象检索CVPR，2007。[30] J. Philbin，O. Chum，M. I

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于跨模态上下文的局部描述子增广

基于增广矩阵束的L型阵列的二维DOA估计MATLAB程序_基于增广矩阵束的L型阵列的DOA估计_增广矩阵_矩阵束_

基于Ford和Fulkerson的流增广算法

.基于增广矩阵束的L型阵列的二维DOA估计

增广拉格朗日乘子matlab

python图像数据增广

增广拉格朗日算法matlab

simulink增广最小二乘法系统辨识

python增广拉格朗日方法

conformer在AIshell-1上 效果最好的 数据增广参数组合

yolov5数据集增广

分裂增广拉格朗日收缩算法是追踪算法吗

增广拉格朗日法 matlab

增广拉格朗日算法实验内容

matlab 语义分割数据增广

样本增广 扩大样本数量

数据增强和增广的区别

增广拉格朗日乘子法matlab

增广矩阵的秩与原矩阵相同吗

轴承故障样本增广研究难点

数据增广为什么可以抑制过拟合

最新资源

conformer在AIshell-1上效果最好的数据增广参数组合

样本增广扩大样本数量