学习利用2.5D地图进行地理定位的方法

180 浏览量更新于2023-10-16 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3425学习对齐语义分割和2.5D地图进行地理定位放大图片作者：Peter M.Roth and Vincent Lepetit计算机图形与视觉奥地利格拉茨科技大学{armagan，hirzer，pmroth，lepetit}@ icg.tugraz.at摘要我们提出了一种有效的方法，在城市环境中的地理定位从一个粗略的估计提供的位置由GPS和使用一个简单的无纹理的2.5D模型周围的建筑物。我们的关键贡献是一种新的高效和鲁棒的方法来优化姿势：我们训练一个深度网络来预测最佳方向，以改善姿势估计，给定输入图像的语义分割和建筑物的渲染。然后，我们迭代地应用这个CNN，直到收敛到一个好的姿势。这种方法避免了使用难以获取和匹配的周围环境的参考图像，而2.5D模型是广泛可用的。因此，我们可以将其应用于训练过程中看不到的地方。1. 介绍正如最近的挑战和基准，如[8，21]所示，处理城市场景越来越有趣，包括自动驾驶和增强现实等重要应用。这些任务的关键问题之一是图像的精确地理定位，这在实践中是不容易解决的。尽管GPS信息足以用于导航，但对于许多其他任务来说，GPS信息不够准确，特别是在应该估计精确的因此，引入了典型的基于图像的定位技术，包括例如[22，23]。然而，它们依赖于预先注册的周围图像。因此，我们面对两个问题。首先，需要捕获和注册大量图像，这是非常麻烦的。即使是像GoogleStreet View1这样的大型集合也是相当稀疏的采样。其次，这样的数据仅反映场景的非常特定的外观，使得在不同的照明条件下很难进行鲁棒匹配[30]。(a)（b）第（1）款（c）第（1）款图1：我们的方法概述。我们可以将初始传感器姿态（a）校正为训练时未看到的位置的准确估计（b），只要邻域的2.5D地图（c）可用。换句话说，我们学习在给定传感器提供的姿态的粗略估计的情况下将地图与输入图像为了克服这些缺点，我们提出了一种方法，该方法从由GPS和方位传感器提供的粗略初始化开始，仅在给定2.5D地图2的情况下，从视角、非全景输入图像估计相机姿态。这示于图1，其中我们示出了初始传感器姿态的示例和用我们的方法恢复的对应姿态以及所使用的2.5D地图。与预先登记的街道视图数据相比，2.5D地图广泛可用并且容易获得，并且已经考虑用于定位（例如，[1]）。然而，随着这些地图被缩小到建筑物的轮廓和3426高度，我们的任务变得越来越困难。事实上，没有纹理可用，这可以用于匹配。1https://maps.google.com/help/maps/streetview2特别是，我们建立在https://www.openstreetmap.org.3427因此，我们采用基于深度学习的语义分割的最新进展[3，14，20]来提取输入图像中建筑物的轮廓我们还使用该地图的3D渲染，将输入图像和2.5D地图更改为更容易比较的表示。然而，鲁棒地对齐输入图像和地图仍然具有挑战性：来自传感器的初始姿态可能远离正确姿态，并且图像的语义分割和3D渲染之间的直接比较变得困难。因此，我们的贡献是一个强大的方法来优化相机姿态，并估计图像和相应的地图之间的良好对齐由于无法应用梯度方法，因此使用语义分割和地图渲染作为输入，我们训练了两个深度网络通过多次调用这些网络，我们可以迭代地改进姿势的估计。然而，如果初始误差非常大，则不可能预测可靠的方向。然后，我们从传感器姿势周围采样的姿势运行我们的算法，并选择最好的姿势。我们的方法的效率和鲁棒性在复杂的现实世界场景中得到了证明，即使从次优初始化开始，最终也可以估计出正确的姿态。本文的其余部分组织如下。第二部分，我们讨论了相关的工作。接下来，在第3节中，我们详细介绍了我们的方法，并讨论了分割步骤，预测模型以及姿态估计算法。第4节中给出了证明该方法优点的实验结果。最后，在第五部分给出了结论和展望.2. 相关工作我们工作的主要目标是从移动终端估计准确和鲁棒的定位。这样做的一个合理方法是使用可用的GPS位置[10]，然而，这通常不足以最终获得准确的结果。因此，给定一个或多个输入图像和可选的传感器先验（例如，GPS或罗盘信息），现有方法使用来自数据库的类似的预配准图像来计算输入图像的姿态。例如，[23]使用包含20公里城市街道图像的数据库演示了基于图像的本地化，这些数据库以词汇树的形式组织以处理大量数据。后来的作品，如[22]改善了两者，准确性和性能。最近，[13]使用CNN直接从图像预测6 DoF相机姿态，其中采用了转移学习的思想-然而，底层网络必须针对每个新场景进行重新训练，通常将方法限制在用于训练的特定受限区域。通常，所有这些基于图像的定位方法都不能很好地扩展实际上，需要针对每个新位置捕获许多图像，并且即使利用足够密集的采样，在由于照明、海浪或建筑活动而变化的条件下匹配图像仍然是非常具有挑战性的。为了避免这些问题并避免场景数据库的耗时生成[31]和[27]建立他们的方法在公开可用的现有图像集合，如谷歌街景和微软StreetSide。然而，这些数据库也不是普遍适用于本地化，因为它们仅是稀疏采样的，并且对于某些地区和国家不可用。从实际的角度来看，我们希望完全避免自己创建数据库，并且更加灵活，也就是说，不受稀疏采样区域的限制。克服这些问题的一种方法是使用2.5D图（即，用高度信息增强的无纹理2D地籍图例如，[18]通过匹配3D和2D线和点，将图像与2.5D模型配准。然而，在这种情况下，需要已经被配准的第二图像来建立3D-2D对应。因此，序列的第一个图像需要手动注释。类似地，[16]建立了输入图像和场景的2.5D地图之间的线对应。然而，由于关于图像取向的准确度不足，另外，需要某种用户交互。相比之下，我们的方法不仅是全自动的，而且只需要一个单一的输入图像。一种不同的方法是将全景图像与2D地图配准，其中大视场信息显著提高了定位能力。例如，[9]提出了一种面向r的描述符，然而，由于移动设备通常具有相当窄的视场，因此这种描述符通常不够有区别。相比之下，[5]旨在检测垂直建筑物轮廓和法向法线，最终产生2D片段，然后将其与2D地图进行匹配。类似地，[6]将从透视输入图像中的垂直建筑物轮廓线计算的描述符与2D图相匹配。然而，作为一种回退，需要部分手动输入以简化垂直边缘和消失点的检测。[17[29]然而，也要考虑建筑物[17]依赖于正射航空影像，这使得任务变得复杂，并且[29]假设这些影像是高度重复的。[12]使用Auto-Recorderxt进行facachades分割，然而，该方法适用于非常重复的facachades。此外，语法方法的使用和复杂的，手工制作的功能介绍。相比之下，我们利用基于CNN的语义分割的最新进展与大多数这些方法相比，我们的方法是全自动的。3428正如我们所做的，[24]采用了分割的想法。为了找到3D姿态，将输入图像中的fac图分割并对准到2.5D图，这需要在6D姿态空间中进行优化。此外，该方法依赖于非常详细的2.5D模型和来自Google街景的高分辨率照片，以提供准确的初始地理位置。相反，[2]将语义标记的图像相对于标记的3D数字地形模型进行注册，然而，将它们限制为简单的类（即，水、沉淀物、其他）。此外，该方法仅允许计算图像相对于模型的取向，而不允许估计其3D位置。考虑到稍微不同的问题，语义信息也已经被用于3D场景重建领域[4，28]，允许3D深度估计和语义分割之间的交互。特别是，[28]使用视觉里程计将立体对的深度图像与常见的3D地图融合，[4]通过联合重新考虑3D形状和语义标签提出了一种大规模3D场景重建方法与这些方法相比，我们表明，采用语义分割提取建筑物的边缘可以避免大多数这些限制，我们的方法计算，绝对方向和3D位置。不同的方法还考虑使用程序形状先验和gram-mars来解析facchadades [7，11，15，19，25]然而，他们大多集中在正面的意见，一个单一的正面。相比之下，我们考虑一般的图像，我们的最终目标也非常不同，因为我们的目标是相机的地理定位。3. 使用2.5D地图进行给定输入图像Iinput和相应的传感器信息以及周围环境的2.5D地图M（描述建筑物然后，我们的目标是从最初提供的姿态估计p开始，在城市户外场景中地理定位相机。特别是，我们生成一个中间表示对于基于语义分割的I输入，将其与给定的2.5D地图相关联（参见第第3.1节）。然后使用该信息来训练两个深度网络以改进当前姿态估计。第一个网络预测空间方向，第二个网络预测方位方向（见第二节）。3.2）。最后，这些网络用于估计最终姿态p（参见第二节）。3.3）。3.1. 语义分割我们使用全卷积网络（FCN）[14]将I输入分割为c语义类。我们只考虑与我们的问题相关并且对应于2.5D映射的元素的类。更确切地说，我们提取了fac图像、fac图像的垂直和水平边缘以及背景类（即，天空和地平面）。在特别地，在典型的语义分割问题中通常不考虑边缘，然而，在我们的情况下，例如当建筑物的轮廓被对齐时，它们将用于消除姿态的歧义。3.2. 学习预测方向初始传感器姿态p_p_g为我们提供了姿态的粗略估计在实践中，相对于重力的角度通过传感器很好地定义，给我们两个角度摄像机方向，即滚动和俯仰。由于我们使用的是手持设备，因此我们也可以假设相机的高度是固定的（实际上我们使用1.6 m）。因此，只剩下三个自由度（沿着地平面），两个用于位置，一个用于方向。然而，由于这些估计可能与地面事实相差甚远，因此纠正它们具有挑战性。为了解决这个问题，我们训练了两个网络来预测方向，以提高姿态估计。第一个网络预测位置的方向.我们最初试图预测指向正确位置的2D向量然而，这并没有成功，因为这个问题太难学习了。事实上，矢量的长度取决于到建筑物的距离，由于透视投影，这些距离至少在某种程度上丢失了相反，我们放松了任务，并解决了一个更简单的分类问题：我们沿着地平面离散成8个可能的方向，在相机坐标系中定义的方向然后，给定图像的语义分割和来自当前估计的2.5D地图的渲染，我们训练网络CNNt来预测改进估计位置的方向。我们还添加了一个类，表明位置已经正确，不应更改。因此，网络CNNt返回一个9维向量：dt=CNNt （ RF ， RHE ， RVE ， RBG ， SF ， SHE ，SVE，SBG），（1）其中，SF、SHE、SVE、SBG分别是通过对输入图像I输入的分类为边缘、水平边缘、垂直边缘和背景的语义分割计算的概率图。RF、RHE、RVE、RBG是相同类别的二进制图，通过渲染当前姿态估计的2.5D图来创建这些概率的例子和二进制地图显示在图。2.对应于输出dt中的最大值的方向是由网络预测的此外，我们训练第二个网络CNNo来估计方向的更新：do=CNNo（RF，RHE，RVE，RBG，SF，SHE，SVE，SBG），（2）其中D0的三个值指示最好是向右、向左旋转相机还是根本不旋转相机。3429CCC(a)（b）（c）（d）（e）图2：我们的本地化网络的输入示例：（a）输入图像（顶部）及其分割（底部）。(b)–(e):我们对CNNt和CNNo这两个网络使用相同的架构。每一对由一个类的概率图和渲染图组成，沿着一个单独的流馈送到网络。每个流由2个卷积层组成，分别具有64个和128个滤波器。过滤器的大小为5×5和3×3。来自流的输出被合并并馈送到完全连接的层：我们充分利用三个另一个网络。这些步骤被迭代，当两个网络预测不再移动时，我们停止。总体程序总结见Alg. 1.一、算法11024、512和128个单元的连接层最后一层实现线性逻辑回归器。我们使用RMSprob [26]算法优化这两个网络。如何这两个网络被应用于姿态估计中描述。3.3更详细。应用两个网络解决分离的问题有两个主要优点：（1）我们不需要在翻译和定向之间取得平衡。(2)由此产生的优化问题更容易，因此也可以在计算能力较低的设备上解决。1：procedureOPTIMIZEPOSE（I输入，pn，M）2：S=（SF，SVE，SHE，SBG）←FCN（I输入）3：p←p4：重复5：R=（RF，RVE，RHE，RBG）←render（p，M）6：dt←arg maxiCNNt（S，R）[i]7：如果dt/=8：p ←lineSearcht（p，dt，S，M）9：如果结束10：do←arg maxiCNNo（S，R）[i]3.3. 姿态估计算法11：如果do‘do not move’从初始估计p= 0开始，我们迭代地应用CNNt和CNNo，并在每个CNN t和CNNo之后更新当前姿态12：p ←lineSearcho（p，do，S，M）13：如果结束14：直到dt=迭代在实践中，正确的方法可能与正确的方法相去甚远。pose.此外，网络CNNt和CNNo介绍了以上都能很好的预测实践的方向，但不能提供一个量级。因此，我们使用线搜索策略来决定更新的幅度。为了像[1]中那样评估姿势的质量，我们使用最大对数似然：15：结束程序十六：十七：程序LINESEQUIPET（p，d，S，M）18：steps←固定的一组步长第19章：我的天20：pj←updatePose（p，d，stepj）21：（RF，RVE，RHE，RBG）←rennnder（pj，M）Σsp=ΣlogSi，（3）22：得分j=23：结束c∈{F， HE，VE， BG}i∈Rc logSic∈{F， HE， VE，BG}i∈Rc其中Si是来自语义分割的类别c在位置i处的概率，并且{i ∈ R c}是在渲染的二进制掩码R c中被设置为1的位置的集合。给定两个网络之一的一个方向，我们沿着这个方向评估几个姿势，并保留等式中最大化对数似然的姿势（三）、然后我们切换到343024：j←arg maxjscorej25：返回pj26：结束程序在图2中给出了示出从初始传感器姿态到最终获得的姿态随时间的进展的说明性示例。3.第三章。3431图3：我们的算法在几个场景中所采取的迭代步骤的可视化。从初始姿势（第一列）开始，我们的方法不断迭代，直到到达最终姿势（最后一列）。4. 实验结果为了证明我们的方法的好处，我们首先概述了所使用的基准和训练数据，然后给出了人工和真实世界场景的结果。4.1. 培训和评估数据为了训练这些深度网络，我们使用了50000个样本，这些样本是从95张具有已知地面真实姿势的图像中虚拟生成的为了生成这些样本，我们在地面真实姿势上添加了随机噪声，从均匀分布中采样：我们对位置噪声进行了采样-val[−10m;+10m]和间隔内的旋转噪声[-5;+5]。如果地面实况姿态与随机姿态小于阈值时，将期望输出设置为“不移动”类;否则，我们将其设置为最接近地面实况和随机姿态之间的方向的离散化方向。每个图像的相应2.5D模型都是从Open-StreetMap下载的，我们手动将图像注册到3D世界中以获得地面真实姿势。为了测试我们的方法，我们使用了[1]中提出的数据集的扩展版本，该数据集由40张图像组成，其中传感器的方向误差为0。25℃~49℃;位置误差从0变化。25米到23米。4.2. 从接近的初始估计收敛图图4示出了将我们的算法应用于距地面实况位置5m半径内的初始姿态和[−5m;+5m]范围内的方向的几个示例。4.3. 从实际传感器提供的估计值收敛真正的传感器可以提供非常大的误差，在25米和50度的顺序测量这使得收敛困难，因为比较来自这样的噪声姿态的渲染在这种情况下，我们的策略是围绕传感器预测的姿态采样初始姿态。然后，我们从这些初始姿态中的每一个运行我们的迭代算法，并根据对数似然保持最佳的最终姿态。图5示出了传感器姿态和我们最终估计的姿态的示例。先从森-排序数据，我们的方法减少了平均定位误差从11。三分之三。2◦.与此同时，定位误差从13。4米到3米1米图图6示出了两个真实传感器姿势和姿势通过我们的方法获得。3432(a)（b）（c）（d）图4：从接近的初始估计值收敛（a）具有覆盖的地面真实姿态的测试图像，（b）分割图像，(c)噪声姿态渲染用于初始化我们的算法，（d）用我们的方法找到的姿态5. 结论我们证明了我们可以训练网络来预测优化姿势的我们相信这种方法是通用的：当不可能区分目标函数时，它是有用的，因为它是我们的问题与图像似然性的情况，或者当不清楚哪个目标时，功能应该被优化以达到预期的目标。这种方法的另一个优点是，通过围绕真实数据生成估计值，可以非常容易地扩展训练集：在我们的例子中，我们可以很容易地在传感器姿势周围采样姿势，但这种采样策略也适用于其他问题。3433(a)（b）（c）（d）（e）图5：从真实传感器提供的估计值收敛。(a)覆盖了地面真实姿态的测试图像，（b）分割图像，（c）真实传感器姿态，（d）优化开始搜索以找到最佳估计姿态的姿态，（e）通过我们的方法找到的最终姿态。图6：传感器姿态和通过我们的方法获得的姿态的方向和位置误差。确认这项工作是由基督教多普勒实验室语义3D计算机视觉。引用[1] C. 阿瑟角 Pirchheim，J. Ventura，D. Schmalstieg，以及V. Lepetit。即时户外定位和SLAM初始化从2.5D地图。2015年国际混合现实和增强现实研讨会[2] G. 巴茨岛 Saure r，K. K oüser和M. Pollef e ys. 更新地形图以进行图像与地形的对齐。In3DimPVT，2012.[3] V.巴德里纳拉亚南，A. Kendall和R.西波拉Segnet：用于图像分割的深度卷积编码器-解码器架构。arXiv预印本arXiv：1511.00561，2015。[4] M.布拉哈角Vogel，A.理查德，J. D。Wegner，T. Pock，以及K.辛德勒大规模语义3D重建：一种用于多类别体积标记的自适应多分辨率模型。计算机视觉与模式识别会议，2016年。[5] T. Cham，A.契普塔迪湾谭，M。Pham和L.嘉从单个城市地面视图估计相机位姿3434单向图像和2D建筑轮廓图。在计算机视觉和模式识别会议上，2010年。[6] H. Chu、A. Gallagher和T.尘从单个图像和2D地图进行GPS精化和相机方位估计。IEEE移动视觉研讨会，2014年。[7] A. Cohen，A.G. Schwing和M.波勒菲斯使用动态规划的立面的有效在计算机视觉和模式识别会议上，2014。[8] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。计算机视觉与模式识别会议，2016年。[9] P. David和S.何城市环境中定位的方向描述符2011年智能机器人与系统国际会议[10] S. Feine r，B. MacIntyre，T. Holllerer和A. 韦布斯特河一台旅游机：探索城市环境的3d移动增强现实系统原型。Personal and Ubiquitous Computing，1（4）：208[11] R.加德河Marlet和N.帕拉吉奥斯学习特定于架构的外观解析语法。研究报告，2014年9月。[12] 詹帕尼河Gadde和P. V. Gehler使用自动上下文的高效立面分割。在 IEEE Winter Conference on Applications ofComputer Vision，2015年。[13] A. Kendall，M. Grimes和R.西波拉Posenet：一个用于实时6自由度摄像机重新定位的卷积网络。2015年国际计算机视觉会议[14] J.朗，E. Shelhamer和T.达雷尔。用于语义分割的全卷积网络。在计算机视觉和模式识别会议上，2015。城市场景的语义分割图像。在计算机视觉和模式识别会议上，2016年。[22] T. 萨特勒湾Leibe和L.科比特利用主动对应搜索改进基于图像的定位2012年欧洲计算机视觉会议[23] G.辛德勒M. A. Brown和R.塞利斯基城市规模的位置识别。计算机视觉与模式识别会议，2007年。[24] A.塔内哈湖Ballan和M.波勒菲斯球面全景影像与地籍三维模型的配准。In3DimPVT，2012.[25] O. 泰布尔湖Simon，P.Koutsourakis和N.帕拉吉奥斯使用程序形状原理分割建筑物立面。在计算机视觉和模式识别会议上，2010年。[26] T. Tieleman和G.辛顿讲座6.5-Rmsprop：将梯度除以其最近幅度的运行平均值。Coursera：Neural Networks forMachine Learning，2012。[27] G. Vaca-Castano，A.R. Zamir和M.Shah. 城市尺度运动摄像机的地理空间轨迹估计。在计算机视觉和模式识别会议上，2012年。[28] 诉维尼特，O. 米克西克，M. 利德加德，M.尼斯纳S. Golodetz，V. A. 普里萨卡留岛 Kaühler，D. W. Murray，S. Izadi，P. Perez，and P. H. S.乇用于大规模语义场景重建的增量式稠密语义立体融合。在2015年国际机器人与自动化会议[29] A. Wendel，M. Donoser和H.比肖夫基于重复模式的无监督场景分割 .DAGMSymposiumonPatternRecognition，2010。[30] K. Yi，E. Trulls、V. Lepetit和P.呸学习不变特征变换.在2016年欧洲计算机视觉会议[15]A. 马丁诺维奇和 L. 范古尔分层协同[31] A. R. Zamir和M. Shah. 精确的图像定位建筑立面的分割。在3DV，2014年。[16] N. Meierhold和A.施米奇。使用从数字图像和距离图像提取的线性特征将图像引用到激光扫描仪数据。国际摄影测量与遥感学会，XXXVIII（3/W8）：164[17] P. Meixner，A. Wendel，H. Bischof和F.莱伯尔垂直航摄影像中建筑物地物的分离国际摄影测量和遥感学会，I-3：239[18] S. 拉马林加姆S。Bouaziz和P.F. 斯特姆利用点和线的位姿2011年国际机器人与自动化会议[19] H. Riemenschneider，U. Krilliant，W. Thaller，M. 多诺瑟，S. Havemann，D. W. Fellner和H.比肖夫复杂形状文法外观解析的不规则格。在计算机视觉和模式识别会议上，2012年。[20] O.龙内贝格山口Fischer和T.布洛克斯U-Net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预会议，2015年。[21] G.罗斯湖Sellart，J. Materzynska，D. Vazquez和A. M.洛佩兹synthia数据集：大量的合成基于Google Maps Street View。欧洲计算机视觉会议，2010年。

下载后可阅读完整内容，剩余1页未读，立即下载