视觉定位与制图方法跨描述符实现

175 浏览量更新于2023-10-14 收藏 13.55MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Mihai Du122lefeys 1, 2160580跨描述符视觉定位和制图01 苏黎世联邦理工学院计算机科学系 2 微软MR & AI实验室，苏黎世0摘要0视觉定位和制图是大多数混合现实和机器人系统的关键技术。大多数最先进的方法依赖于本地特征来建立图像之间的对应关系。在本文中，我们提出了三种需要连续更新特征表示并能够跨不同特征类型进行匹配的定位和制图新场景。虽然定位和制图是一个基本的计算机视觉问题，但传统的设置假设在地图的演变过程中使用相同的本地特征。因此，当底层特征发生变化时，整个过程需要从头开始重复。然而，实际上这通常是不可能的，因为原始图像通常不会被存储，重新构建地图可能会导致附加的数字内容丢失。为了克服当前方法的局限性，我们提出了第一个基于数据驱动的跨描述符定位和制图的原则性解决方案。我们的方法对特征描述符类型不加偏见，计算要求低，并且与描述算法的数量呈线性扩展。广泛的实验证明了我们的方法在各种手工制作和学习特征的最新基准上的有效性。01. 引言0混合现实和机器人技术将物理世界和数字世界融合在一起，实现人类、机器和环境交互的下一次演进。这一承诺在很大程度上依赖于构建和定位于环境地图的技术能力。例如，协同体验需要将多个设备共同定位到同一坐标空间中。同样，重新定位到现有地图上可以实现数字内容与现实世界的持久性和检索。大多数系统都依赖于基于视觉传感器的本地特征的定位和制图流程。传统上，这些系统在设备上实时运行，但是行业越来越多地将定位和制图能力转移到云端（例如，Facebook LiveMaps [2]，Google VPS [42]，MagicLeap的Mag-0图1：混合现实和机器人系统通常不存储原始图像。这使得部署新的特征表示以进行视觉定位和制图变得复杂。我们的方法实现了特征表示的持续更新，并能够跨异构设备使用不同的特征进行匹配。0由于各种原因（例如减少机载计算量或实现协同体验和众包制图），在大多数情况下，图像通常不会在设备之间共享或上传到云端，主要是出于隐私原因（参见文献[25]），同时也是为了减少带宽和存储需求。相反，图像特征是在设备上本地计算的，只有提取的关键点和描述符被共享。换句话说，当需要不同的表示时，重新提取特征是不可能的，因为图像不再可用。0现有系统存在两个基本限制。首先，它们无法采用新的特征算法，因为特征表示的不兼容性使得针对使用旧特征构建的地图的重新定位变得不可能。在不断进步的本地特征研究社区中，这严重限制了定位和制图的进展。可以认为简单地为了解决这个问题而重新构建地图是一种解决方案，但实际上这在实践中通常是不可能的，因为原始图像通常不会被存储，重新构建地图可能会导致附加的数字内容丢失。60590每当有显著改进的特征算法可用时，重新构建地图是一种常见的做法。然而，旧地图上附加的内容将会丢失，并且地图制作是一项昂贵的过程，可能需要数周甚至数月才能重新访问整个区域。其次，使用不同特征的设备之间的协同定位和协同制图场景是不可能的。事实上，许多设备为了提高效率，在硬件上实现了特定的算法，这意味着无法在客户端升级算法。这也意味着许多现有的商业解决方案可能在研究界的最新技术之后，因为它们无法轻松升级其算法和表示。在本文中，我们首先定义了三个新颖的场景，以应对在不断变化的本地特征表示的世界中所面临的挑战（参见图1和图2）。0• 无需显式重新映射阶段连续部署特征表示。0• 当定位和建图设备使用不同特征时的跨设备定位。0• 多个异构设备和特征的协作建图。0请注意，这些场景与现有的工业或学术设置完全不同，通常在共定位和地图的演化过程中使用固定的局部特征提取算法。第3节详细介绍了这些场景。为了实现这些场景的第一步，我们专注于局部特征描述符，并提出了我们所知的第一个基于原则且可扩展的方法来应对其中的挑战。我们的学习方法可以将描述符从一种表示转换为另一种表示，而不对特征向量的结构做任何假设，并且可以匹配具有不兼容维度和距离度量的特征。例如，我们可以将512维的二进制BRIEF[10]与128维的浮点数SIFT[28]或深度学习模型（如HardNet [33]或SOSNet[51]）进行匹配，反之亦然。我们的方法在算法数量上具有线性可扩展性，并且专门设计为在低计算设备上具有较小的计算占用。训练数据是通过从相同的图像块计算不同的描述符自动生成的。我们在新提出的场景的背景下评估了我们的方法在相关几何任务上的表现。我们首先在Aachen白天和夜晚基准测试中考虑定位（姿态估计）。接下来，我们使用Schönberger等人的基准测试评估了从众包图像进行的3D建图的性能[48]。在补充材料中，我们还展示了在HPatches描述符基准测试[7]、图像匹配研讨会挑战赛[22]和InLoc室内视觉定位数据集[50]上的结果。我们的0实验证明了我们的方法在实际定位和建图系统中的有效性和高实用性。总结我们的贡献，i）在不断变化的特征表示世界中，引入了三个新颖的定位和建图场景，ii）提出了第一个基于原则且可扩展的方法来解决这些新引入的场景，iii）在具有挑战性的实际数据集上展示了我们方法的有效性。02. 相关工作0局部图像描述符。局部描述符通常从由局部特征框架定义的归一化图像块中提取[28, 31,44]。最著名的手工制作描述符包括二进制BRIEF[10]，基于梯度的SIFT [28]及其变体[44, 32, 52,6]。最近，社区已经转向利用大规模数据集、各种三元组损失和难负样本挖掘技术的数据驱动模型[8, 33, 29, 51,16]。相关的研究方向旨在以端到端可训练的方式重新构建整个流程[53,39]。最后，描述-检测方法从密集特征图中提取局部特征[38, 13, 15, 43,30]。虽然可能手工制作某些描述符之间的关系（例如SIFT[28]�Hue-SIFT[52]），但它们通常不是为互操作性而设计的。相反，我们的方法旨在实现局部描述符的匹配，这些描述符具有不兼容的特征表示、维度或度量。0视觉定位和建图。鉴于局部特征的效率和（稀疏）多视图几何的成熟理论，大多数大规模建图[4, 19]和定位[27,45]都基于局部图像特征。此外，越来越多的开源工具用于同时定位和建图（例如ORB-SLAM [36,37]），视觉里程计（例如LIBVISO [26,18]）或运动结构（例如COLMAP [47]，OpenMVG[35]，Theia[49]），使得这个研究领域更加可行。最近，这些流程被用于评估视觉定位和建图的性能 -Schönberger等人[48]和Jin等人[22]考虑了使用旅游照片集合进行建图和定位性能的评估，而Sattler等人[46]引入了几个用于具有挑战性场景（例如季节性/时间性变化）的定位的数据集。与我们的工作相关的是，在机器人领域，多个代理（例如机器人，无人机）之间的协作建图问题已经得到了深入研究[17, 11,34]。然而，所有这些系统和相关基准在整个过程中都使用相同的局部图像特征，因此无法处理第3节中讨论的任何场景。0领域翻译。几种本地特征反演技术[14,40]可以从其特征重建原始图像。60600(a)0(b)0图2：持续部署和跨设备本地化。 (a) 翻译与地图相关的本地描述符，实现新特征表示的持续部署。 (b)翻译查询描述符，实现查询和地图使用不同特征表示时的跨设备本地化。0提出了几种提取特征的方法。一种实现描述符翻译的方法是先重建图像，然后按照传统流程提取不同的描述符。在我们早期的特征反演网络实验中，我们注意到在推广到新场景时存在显著的局限性，以及恢复的低级梯度信息质量较差。因此，使用这种基于特征反演的方法无法成功匹配图像。图像到图像的转换[54, 21,55]试图将场景的一种表示转换为另一种表示（例如，RGB图像到语义标签）。可以想象将这些模型调整为在不同的本地特征表示之间进行转换。然而，与特征反演技术类似，这些方法通常具有非常大的计算和内存开销，因为它们使用深度卷积神经网络生成全分辨率图像。相比之下，我们提出使用浅层多层感知器，以单个描述符作为输入并预测其翻译 -这是一种更适合低计算设备的解决方案。最后，关于领域适应的研究（参见Csurka[12]和Zhuang等人的调查[56]）解决了在源数据分布上学习算法适应到具有相关但不同分布的数据集的问题。在深度学习的情况下，当源领域具有足够的注释以允许训练，而目标领域几乎没有注释可用时，这尤其有趣。在我们的情况下，我们不是适应不同的输入数据分布，而是尝试调整输出分布以使其适用于匹配。03. 场景0作为我们的第一个贡献，我们确定、引入和形式化了三种用于定位和建图的新场景。在所有场景中，我们假设结果地图中没有存储图像。因此，无法重新提取或替换底层特征表示。03.1. 持续部署0给定一个稀疏的3D地图，相关的本地特征描述符和无法访问原始图像数据，目标是开发一种机制，使得能够在不需要重新建图的情况下实现新特征表示的持续部署（图2(a)）。换句话说，我们的目标是将地图的特征从一种表示转换为另一种表示。例如，可以从手工制作的描述符切换到学习的描述符（例如，SIFT [28] → SOS-Net[51]），改变它们的维度，或者更新模型权重（例如，不同的训练数据、损失或架构）。使用翻译描述符与翻译后的描述符数据库进行匹配可能会导致性能较差，与使用单个特征表示进行匹配相比。然而，这只是一个暂时的问题，在实践中并不严重，因为可以逐渐用新提取的描述符替换翻译后的描述符。因此，地图最终将包含最新的描述符以弥补性能差距。关键点是：i）设备仅运行单个算法（由于实时约束）或无法轻松更新（由于硬件实现）；ii）该场景避免了昂贵且耗时的显式重新建图阶段。03.2. 跨设备定位0前面的场景假设所有客户端设备上都运行相同的特征提取算法。然而，通常情况下并非如此，因为由于硬件限制，旧设备通常无法进行更新。在这种情况下，需要一种向后兼容的机制来匹配不同设备版本之间的特征（参见图2（b））。同样，专用设备（例如头戴式显示器、自动驾驶汽车、建图平台）可以利用额外的内置计算能力来提高定位性能。LTi→j =1|P|�p∈P∥Ni→j(Ai(p)) − Aj(p)∥ .(1)LTi→j =1|P|�p∈PBCE (Ni→j(Ai(p)), Aj(p)) ,(2)60610与移动电话或轻型无人机等设备相比，专用设备（例如头戴式显示器、自动驾驶汽车、建图平台）在定位性能方面具有明显优势。将这些设备在同一地图中进行共定位将有益于避免场景表示的碎片化。相同的功能也可以扩展到不同供应商的设备之间的定位，但在这种情况下，由于管道的前几个步骤（尤其是特征检测）存在差异，会出现新的挑战，详细讨论见第6节。03.3. 协同建图0最后，我们考虑多个异构设备共同映射同一环境。出于上述原因，即使由单个供应商生产，所有设备使用相同的特征也是不太可能的，尤其是在标准学术设置中。因此，我们需要一种机制将所有描述符转换为一个可以用于建立对应关系的公共表示（参见图1）。04. 方法0在本节中，我们提出了跨描述符定位和建图的第一个原则性解决方案。我们首先对描述符翻译问题进行形式化。然后，我们建议使用单独的多层感知机（MLP）对每对描述算法进行训练，使用翻译损失进行训练（参见图3（a））。最后，我们通过使用受自动编码器启发的模型将来自不同算法的所有描述符嵌入到一个共同的嵌入空间中来扩展这个公式（参见图3（b））。为了确保共同的嵌入适用于建立不同算法之间的对应关系，我们通过匹配损失利用额外的监督。04.1. 描述符翻译0特征描述算法A定义了一个手工设计或学习的函数，将图像映射为向量，即A：Ih×w→Rn，其中Ih×w是尺寸为h×w的图像集合，n是嵌入维度。对于局部图像描述符，定义域是基于估计的特征几何（位置、尺度、方向、仿射形状）进行归一化的补丁集合Inormalized。设A1：I→Rn1和A2：I→Rn2是两个描述算法。翻译函数t1→2：Rn1→Rn2将A1的特征向量映射到A2的流形上，满足t1→2(A1(p))=A2(p)对于所有的补丁p∈I。我们的实验（第5节）经验证明，使用多层感知机（MLP）来近似翻译函数t1→2在实现不同描述符之间的匹配方面非常有效，从而促进了第3节介绍的场景。请注意，我们没有提出匹配算法，而是直接将描述符从一个空间映射到另一个空间。0因此，我们的方法依赖于传统的描述符比较策略，适用于高效的匹配实现（例如，近似最近邻）。除了提取自相同补丁的对应描述符之外，我们对描述符的维度或底层算法（手工设计或学习、二进制或浮点数）没有其他假设。在接下来的内容中，我们考虑一组描述算法A={A1，A2，...}。我们的训练批次由归一化的图像补丁P={p1，p2，...}组成。每个描述算法可以独立地应用于补丁p∈P，以获得相应的描述符，即Ai(p)=ai。04.2. 配对网络0给定一对不同的描述算法（A i，Aj），可以通过多层感知机（MLP）近似计算从A i到Aj的转换函数t i → j（参见图3（a））。该模型将使用算法Ai提取的特征转换为算法Aj的特征表示。为此，我们将转换损失定义为ℓ2预测误差：0如果目标算法Aj生成二进制描述符，则回归损失将被分类损失所取代：0其中BCE是二进制交叉熵损失函数，定义为BCE（x，y）= -ylog（x）-（1-y）log（1-x）。要计算使用算法A i和A j提取的两个描述符a i，aj之间的距离d，可以通过使用相关的MLP从A i转换到A j（d = ∥N i → j（a i）-aj∥）或者相反（d = ∥N j → i（a j）-ai∥）。在大多数实际应用中，转换的方向是已知的。在连续软件更新的情况下，过时的地图描述符被“迁移到”新的描述符，而对于跨设备定位，查询描述符总是被转换为地图描述符。然而，在协作映射场景中如何使用这种方法并不明显，因为存在O（|A|2）个可能的转换方向。可以使用“渐进”策略，为每对图像选择更适合的描述符，但是决定哪个描述符更合适并不直观，因为它通常取决于具体的场景。104.3. 编码器-解码器网络0为了解决这个问题，我们将注意力转向自动编码器。现在，每个描述算法A i都有一个相关的编码器E i和解码器Di，理想情况下满足以下条件：01 请参考补充材料，了解支持这一论点的HPatchesSequences数据集[7]的逐场景分析。̸60620（a）（b）0图3：方法概述。（a）对于每个描述算法对，独立训练配对网络。（b）同时训练编码器-解码器网络，用于所有描述算法。所有描述符都映射到一个共同的嵌入空间。在绿色方框中，我们突出显示需要用于从SIFT到HardNet的转换的网络。0对于使用A i提取的所有描述符a i，D i（E i（a i））= ai。我们提出了对传统用于训练自动编码器的恒等损失进行扩展的方法[9]，使得代码（即编码器的输出/解码器的输入）在所有算法的共同空间中。因此，对于一对描述符提取器Ai，A j，可以将A i的编码器和Aj的解码器连接起来，以获得从A i到Aj的映射，反之亦然，即N i → j = D j ◦ E i和N j → i = D i ◦Ej（见图3（b））。通过这种方式，我们将所需的网络数量减少到O（|A|）并实现线性可扩展性。此外，我们使用三元组排序损失来促进在共同嵌入空间中的直接匹配。因此，可以通过将两个使用不同算法A i，A j提取的描述符a i，aj映射到共同空间并计算距离d = ∥E i（a i）-E j（aj）∥来比较它们，而不是使用上述的方向性转换。这在协作映射场景中特别有意义，因为它提供了一种优雅的方式来通过将所有内容转换为共同的嵌入空间来匹配来自不同算法的描述符。此外，它允许与假设所有图像使用相同特征的现有流水线兼容。0平移损失。与上述类似，我们考虑每个算法对Ai，Aj ∈A2的平移损失LTi→j。注意，对于i =j，该损失等价于传统的自动编码器损失[9]。整体平移损失定义为所有算法对的平均值：0LT = 10|A| 20Ai，Aj ∈ A2 LTi→j。 (3)0匹配损失。我们对每个描述算法对Ai，Aj ∈A2使用三元组边界损失，以允许在联合嵌入空间中进行匹配：0LMi→j = 1|P|0p ∈P max(m + pos(p) - neg(p), 0), (4)0其中pos(p)和neg(p)分别是与正样本和负样本的距离。给定两个对应的描述符Ai(p) = ai，Aj(p) =aj，描述符ai的嵌入的正样本就是描述符aj的嵌入：0pos(p) = ∥Ei(Ai(p)) - Ej(Aj(p))∥. (5)0根据HardNet[33]，我们使用批内最难的负样本挖掘，通过选择使用算法Aj提取的描述符的最接近的非匹配嵌入作为当前描述符ai的负样本：0neg(p) = arg min p' ∈P, p' ≠ p ∥Ei(Ai(p)) -Ej(Aj(p'))∥. (6)0总体匹配损失定义为所有描述算法对的总和，即：0LM = 10|A| 20Ai，Aj ∈ A2 LMi→j。 (7)0最终损失。最终损失是平移损失和匹配损失的加权和，即：L = LT + αLM。04.4. 实现细节0训练数据集。我们的训练数据集包含来自Oxford-Parisrevisited检索数据集杂质[41]的3190个随机互联网图像的740万个补丁。根据估计的尺度和方向，提取差分高斯（DoG）检测周围的归一化图像补丁。通过对每个补丁应用所有描述算法来计算训练描述符，以获得一组相应的描述符。对于DoG关键点提取，我们使用具有默认参数的COLMAP[47]。0训练方法。我们使用Adam[24]作为优化器，学习率为10-3，对所有网络进行5个时期的训练。0和批量大小为1024。与Mishchuk等人[33]类似，我们使用一个边界m = 1。根据验证结果，我们固定0.25m, 2◦ 0.5m, 5◦ 0.25m, 2◦ 0.5m, 5◦BRIEFBRIEF76.181.432.736.7SIFTSIFT82.588.752.061.2HardNetHardNet86.292.264.372.4SOSNetSOSNet86.492.765.375.5BRIEF →SIFT74.9 -1.280.5 -0.931.6 -1.136.7 0.0HardNet81.4 +5.386.7 +5.344.9 +12.249.0 +12.3SOSNet81.6 +5.586.9 +5.542.9 +10.246.9 +10.2SIFT →BRIEF66.6 -15.973.1 -15.6 19.4 -32.623.5 -37.7HardNet83.4 +0.990.9 +2.259.2 +7.266.3 +5.1SOSNet84.2 +1.791.4 +2.755.1 +3.162.2 +1.0HardNet →BRIEF70.5 -15.776.7 -15.5 22.4 -41.926.5 -45.9SIFT81.2 -5.088.0 -4.241.8 -22.551.0 -21.4SOSNet85.8 -0.492.4 +0.261.2 -3.168.4 -4.0SOSNet →BRIEF68.8 -17.674.8 -17.9 18.4 -46.920.4 -55.1SIFT81.7 -4.787.5 -5.242.9 -22.449.0 -26.5HardNet85.9 -0.592.4 -0.363.3 -2.069.4 -6.1BRIEF ←SIFT65.8 -10.371.6 -9.822.4 -10.324.5 -12.2HardNet68.8 -7.374.0 -7.420.4 -12.326.5 -10.2SOSNet66.6 -9.571.4 -10.0 22.4 -10.324.5 -12.2SIFT ←BRIEF75.6 -6.980.8 -7.928.6 -23.436.7 -24.5HardNet81.2 -1.387.3 -1.446.9 -5.155.1 -6.1SOSNet80.1 -2.487.3 -1.442.9 -9.146.9 -14.3HardNet ←BRIEF82.8 -3.488.8 -3.443.9 -20.449.0 -23.4SIFT84.7 -1.591.0 -1.258.2 -6.167.3 -5.1SOSNet86.2 0.092.7 +0.564.3 0.069.4 -3.0SOSNet ←BRIEF82.5 -3.988.2 -4.544.9 -20.449.0 -26.5SIFT84.0 -2.491.1 -1.651.0 -14.357.1 -18.0HardNet85.3 -1.191.9 -0.866.3 +1.072.4 -3.1BRIEF80.6 +4.586.7 +5.348.0 +15.350.0 +13.3SIFT82.8 +0.389.0 +0.350.0 -2.057.1 -4.1HardNet85.1 -1.191.7 -0.555.1 -9.261.2 -11.2SOSNet84.8 -1.690.9 -1.857.1 -8.260.2 -15.360630匹配损失的加权α =0.1。编码器和解码器是MLP，具有2个隐藏层，分别为1024和256，用于手工制作和学习特征。除最后一层外，我们在每个线性层之后使用ReLU，然后进行批量归一化[20]。为了与最先进的浮点局部描述符[28、33、51]保持一致，联合嵌入是128维的，并进行ℓ2归一化。对于二进制描述符[10]，我们在最后一个线性层之后使用sigmoid激活，并在测试时使用0.5的阈值进行二值化，以便使用位操作进行高效匹配。类似地，如果需要[28、33、51]，网络的输出进行ℓ2归一化。有关其他详细信息，请参阅补充材料。05. 实验评估0我们在视觉定位和映射任务中评估我们的方法，这些任务是在第3节中介绍的情境中进行的。有关HPatches描述符基准测试[7]、图像匹配研讨会挑战[22]和InLoc室内视觉定位数据集[50]的其他结果，请参阅补充材料。我们考虑四个广泛使用的成熟描述符 - 两个手工制作的描述符，使用BRIEF[10]作为二进制描述符和SIFT[28]作为基于梯度的方法，以及两个最先进的学习描述符，HardNet [33]和SOS-Net[51]。在我们的初步实验中，我们发现对于准确性和运行时间，配对网络与编码器-解码器方法表现相当。然而，编码器-解码器架构为我们提供了一个联合嵌入，并涵盖了所有三种讨论的情景。因此，本节中呈现的所有结果都是使用编码器-解码器方法获得的。有关两种方法的比较，请参阅补充材料。05.1. 视觉定位0我们考虑在具有挑战性的Aachen Day &Night定位基准[46]上针对预先构建的地图进行视觉定位的任务。我们首先将每个数据库图像与其20个最近的空间邻居进行匹配。使用COLMAP[47]根据提供的相机位姿和内参进行三角测量。接下来，根据NetVLAD[5]，将每个查询图像与其前50个检索结果进行匹配。最后，我们使用COLMAP的图像注册器进行已知内参的定位。根据标准程序，将位姿提交给评估系统[1]，并在表1中报告不同实际阈值下的定位图像的百分比。0持续部署下的本地化。为了评估这种情况，我们从单个描述算法（例如SIFT）构建参考地图。然后，将地图的所有特征描述符转换为目标特征表示（例如SIFT →HardNet）。对于查询图像，我们0情景0数据库描述符0查询描述符0% 定位的查询0白天（824张图像）夜晚（98张图像）0标准0持续部署0跨设备0协作0嵌入 ←0表1：持续部署下的本地化。使用数据库描述算法构建参考地图。将该地图的描述符转换为目标查询描述符。跨设备本地化。使用数据库描述算法构建参考地图。将查询图像的描述符转换为与地图兼容的形式。协作地图本地化。将数据库图像分为4个平衡子集，每个子集使用一种描述算法。将数据库和查询描述符映射到共同的嵌入空间。绝对性能差异（上标）根据用作参考的基准进行颜色编码。0使用目标特征描述算法（例如HardNet）直接提取描述符，并将其与翻译后的特征进行匹配。得到的匹配结果用于定位。我们的方法不仅能够在不重新映射环境的情况下更新描述符，而且在许多情况下还意外地提高了重新定位的性能。60640性能。特别是，将手工制作的描述符[10,28]转换为学习的描述符[33,51]后，性能显著提高。对于SIFT，白天和夜晚查询的最大阈值下，性能的绝对提高分别为2％和5％以上，对于BRIEF，差异更为明显，分别为5％和10％。虽然与使用学习描述符重新构建地图仍然存在差距，但使用引导策略（参见第3.1节）可以进一步提高性能。0跨设备定位。与前一个实验相反，我们现在使用描述算法（例如SIFT）构建地图，并将查询描述符翻译为学习的描述符（例如HardNet→SIFT）。与标准定位相比，我们注意到将手工制作的描述符转换为学习的描述符时性能提高。无论用于查询的描述算法如何，使用最先进的描述符（HardNet，SOSNet）构建的地图都保持其优势。不令人惊讶的是，将其他描述符翻译为BRIEF[10]会导致性能下降，因为二进制描述符的区分能力更有限。总体而言，我们的方法使得在以前不可行的情况下能够进行良好性能的定位。0协作地图的定位。对于最后的场景，我们将地图的数据库图像随机分成4个平衡子集（每个描述算法一个），并将所有描述符转换为联合嵌入空间（即SIFT，HardNet，...→嵌入）。类似地，所有查询描述符都被转换为联合嵌入空间进行匹配。尽管地图是由异构描述符构建的，但在白天的定位性能与先前实验中的最佳结果相当。此外，值得注意的是，HardNet和SOSNet在这种情况下的性能仅略低于当前最先进的基于补丁的描述符[51]。此外，BRIEF查询在最粗的阈值下，白天和夜晚的折叠都取得了超过5％的显著改进。这对于基于云的解决方案来说是一个非常令人鼓舞的结果，因为我们使得实现不同算法的多个设备不仅能够协作地绘制地点，而且在定位方面也能与最先进的技术保持竞争力。05.2.协作建图0接下来，我们考虑Sch¨onberger等人的大规模结构运动基准[48]。与其他数据集[46,22]类似，为了评估相机位姿，我们通过初始SfM过程生成伪地面真实内外参数。只考虑在此步骤中注册的图像。对于每种方法，我们使用对称的次近邻匹配器进行互相最近邻匹配，匹配所有剩余的图像[28]（对于所有方法，阈值设置为0.9）。给定0请参阅补充材料以获取更多详细信息。0特征匹配时，使用COLMAP[47]进行几何验证和已知内参的稀疏重建。在协作建图的情况下（参见第3.3节），我们将数据库随机分成平衡的集合，对应不同的描述算法。0所得到的点云统计数据如表2所示。我们评估了我们方法的两个变体：i）利用联合嵌入空间的Embed和ii）基于[7,51]中报告的排名的层次结构BRIEF→SIFT→HardNet→SOSNet的Progressive。在这个变体中，翻译方向是根据每对中最强的选择在线选择的。给定两个具有描述符X和Y的图像，我们按顺序将较低的描述符翻译为较高的描述符，然后在得到的描述符上运行匹配。例如，在具有BRIEF和HardNet的图像对中，BRIEF将被翻译为HardNet，而在仅具有SIFT描述符的图像对中，将不进行翻译。0首先，我们将联合嵌入方法与渐进式转换方法进行比较。两种模型都可以达到可比较的结果，但是联合嵌入地图始终可以注册更多的图像并重建更多的3D点，尽管轨迹长度较短。此外，联合嵌入还显著简化了重建流程中的转换和匹配。0接下来，我们将我们的方法与传统设置进行比较，传统设置中所有数据集图像都可以使用相同的特征描述符。虽然这些基线方法无法处理具有异构描述符的协作建图，但它们可作为我们方法的上限。我们的两种方法都优于仅使用BRIEF或SIFT构建的地图，但结果略逊于HardNet和SOSNet这样的最新技术。然而，需要注意的是，在我们的情况下，数据集被分成4个随机子集。因此，只有一半的图像具有HardNet或SOSNet特征。最后，我们将与仅能访问其关联子集的基线进行比较，以展示我们工作的实际优点。这对应于4种类型的设备具有不兼容描述符的情况下，映射相同环境但映射系统无法共同利用它们的现实设置。在这种情况下，我们的两种方法都可以实现设备间的协作，并且显著优于所有基线方法-我们始终注册四倍的图像。0图4提供了Embed模型的3D点的共视统计信息。绝大多数3D点至少在其轨迹中有2种不同的描述算法，超过50％的3D点有3个或4个。此外，共现矩阵表明所有描述符对地图的贡献几乎相等。有关其他数据集的统计信息，请参阅补充材料。BRIEF57.064.2 72.4 18.3K6.840.6359.968.7 80.7 52.3K6.310.8264.968.5 74.2 48.1K7.700.66SIFT78.183.7 95.1 39.4K6.710.8368.877.1 95.6 121.4K5.530.9574.276.7 97.1 90.0K7.140.81HardNet89.295.410047.4K7.150.9284.290.7 99.8 135.4K6.401.0183.087.7100 104.5K7.560.87SOSNet92.796.310046.0K7.220.9285.589.2 99.9 128.4K6.561.0285.289.2100 101.3K7.670.86BRIEF3.14.96.01.9K4.790.532.93.710.44.5K4.360.7210.411.5 11.85.8K4.650.57SIFT14.116.6 21.66.1K4.700.775.46.820.9 15.7K4.290.8913.016.0 17.1 15.2K4.550.74HardNet10.813.9 21.48.8K5.340.8713.815.9 23.2 25.7K4.670.9516.017.8 18.6 22.1K5.230.80SOSNet16.819.4 21.27.5K4.700.8513.614.8 23.5 26.7K4.950.9617.318.8 23.0 22.9K5.320.80Embed80.684.3 92.1 36.3K7.260.8674.182.3 95.6 103.4K6.450.9877.381.2 97.9 88.5K7.570.810102030409.6733.2328.7228.38tBRIEFSIFTHardNetSOSNet57.9340.6643.4943.5140.6669.3552.8351.5243.4952.8374.8557.6643.5151.5257.6673.6960650数据集马德里大都会-453张图像 Gendarmenmarkt-985张图像伦敦塔-730张图像0方法0％本地化图像数量 3D点数轨迹长度重投影误差 0.25m 0.5m ∞ 0.25m 0.5m ∞ 0.25m 0.5m ∞ 2° 5° 2° 5° 2° 5°0标准0真实世界0我们的0渐进式 77.0 82.8 88.7 31.2K 7.59 0.86 76.2 82.7 94.8 92.2K 6.58 0.98 79.2 83.2 96.6 76.0K 7.81 0.820表2：协作建图。我们报告了从互联网收集的图像的不同重建统计信息。前四行表示标准评估协议，其中每个描述算法都可以访问所有图像。接下来的四行呈现了更现实的场景，其中每个算法只能访问四分之一的数据。最后两行表示我们的方法的变体，使用与上述相同的拆分进行跨描述符重建。0算法数量0%的3D点0算法共现率（%）0图4：共视统计数据。对于Tower ofLondon数据集上的Embed方法，我们报告了包含1-4个不同算法的3D点的百分比，左侧是结果。右侧是共现率，即在3D点的轨迹中包含来自两个给定描述算法的描述符的百分比。06.讨论0主要的限制来自于相同关键点的假设，因为我们的工作只考虑了不同描述算法的兼容性。虽然我们的假设可能适用于由单个制造商生产的具有对整个流程的控制权的设备，但不同的制造商可能使用不同的关键点检测算法。未来研究的可能方向包括研究跨检测器的可重复性或改进特征反演技术以更好地适应不同的局部特征检测流程。尽管我们提出的解决方案只是第一步，但它仍然具有重要的实际应用：i）从手工制作的描述符迁移到学习的描述符，以及在新的架构/损失/数据集的情况下持续更新学习的描述符；ii）在使用新描述符构建的地图中支持旧设备；iii）协作0同一制造商具有不同计算能力的设备之间的协同定位和建图仍然存在一些挑战。信息丢失。每个描述算法只对输入补丁中可用信息的一个子集进行编码，而这些子集对于不同的方法可能是不同的。这在利用量化和降维的高效现实应用中进一步恶化。一对多的关联。一个给定的补丁可能会导致一个算法的相似描述符，但对于另一个算法来说，可能会导致完全不同的特征向量。与其他数据驱动的方法类似，翻译性能必须通过实验验证，因为没有正式的保证。为了解决这些限制，未来的研究可以尝试利用局部或全局上下文来更好地消除视觉信息的歧义性。07.结论0我们已经确定、引入和形式化了三种新颖的异构特征表示下的定位和建图场景。为了解决这些场景下的挑战，我们提出了第一个基于交叉描述符的定位和建图的原则性解决方案。我们在代表性和成熟的基准测试上展示了我们方法的有效性。我们相信我们的工作不仅会在翻译局部图像特征的主题上引发新的研究，而且还将对基于云的定位和建图领域的商业应用产生即时影响。0致谢。本工作得到了微软MR＆AI实验室苏黎世博士奖学金的支持。160660参考文献0[1]长期视觉定位基准。https://www.visuallocalization.net.60[2] Inside Facebook Reality Labs: Research updates and thefuture of social connection.https://tech.fb.com/inside-facebook-reality-labs-research-updates-and-the-future-of-social-connection/, 2019.10[3]Rony Abovitz. 什么是Magicverse（以及为什么）？0https://www.magicleap.com/en-us/news/op-ed/magicverse, 2019.10[4]Sameer Agarwal, Yasutaka Furukawa, Noah Snavely, IanSimon, Brian Curless, Steven M. Seitz和Richard Szeliski.一日建成罗马。ACM通信，2011.20[5] Relja Arandjelovic，Petr Gronat，Akihiko Torii，TomasPajdla和JosefSivic。NetVLAD：用于弱监督地点识别的CNN架构。在CVPR会议记录中，2016年。6月0[6] Relja Arandjelovic和AndrewZisserman。改进对象检索的三个要点。在CVPR会议记录中，2012年。2月0[7] Vassileios Balntas，Karel Lenc，Andrea Vedaldi和KrystianMikolajczyk。HPatches：手工制作和学习的局部描述符的基准和评估。在CVPR会议记录中，2017年。2月，4月，6月，7月0[8] Vassileios Balntas，Edgar Riba，Daniel Ponsa和KrystianMikolajczyk。使用三元组和浅层卷积神经网络学习局部特征描述符。在BMVC会议记录中，2016年。2月0[9] Herv´e Bourlard和YvesKamp。通过多层感知器和奇异值分解进行自动关联

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

视觉定位与制图方法跨描述符实现

matlab实现单历元伪距定位

python surf实现

分别阐述基于相似性的绘图方法、基于属性的绘图方法两种方法的步骤，简述两种方法得出知觉图结果的不同点。

opencv 实现焊点缺陷检测

特征匹配matlab

分别阐述基于相似性的绘图方法、基于属性的绘图方法两种方法的步骤，简述两种方法得出知觉图结果的不同点

matlab实现可见光室内定位模型

视觉 报靶 matlab 源码

能否用Qt实现Electre方法

vue openlayers 实现自定义绘图控件实现类似ArcGIS绘图工具条

长短基线定位matlab

基于 WebSocket 实现opengl绘图

LVGL V7.11.0绘图实现过程

我对ai绘图很感兴趣，我该通过什么实现AI绘图

实现一个绘图工具，可以按拉橡皮筋的方法绘制直线，椭圆，矩形，圆形，五角星，并可以选择形状的颜色。Java

java实现绘图板功能

用WPF实现 绘图软件

openlayers vue 实现自定义绘图控件实现类似ArcGIS绘图工具条

最新资源

视觉报靶 matlab 源码

用WPF实现绘图软件