地理空间背景增强深度估计

56 浏览量更新于2023-10-13 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4562利用地理空间背景增强深度估计Scott Workman Hunter Blanton DZYNETechnologies肯塔基大学摘要现代相机配备有能够记录图像的地理空间上下文的各种利用这一点，我们探索深度估计的假设下，相机是地理校准，一个问题，我们称之为地理启用的深度估计。我们的关键见解是，如果捕获位置是已知的，相应的开销视点提供了一个有价值的资源，了解场景的规模。我们提出了一个端到端的深度估计架构，使用地理空间上下文来推断合成地面深度图从一个共同定位的开销图像，然后融合它的内部的编码器/解码器风格的分割网络。为了支持我们的方法的评估，我们扩展了最近发布的数据集与开销图像和相应的高度图。结果表明，与基线相比，整合地理空间背景显著降低了误差，无论是在近距离还是在比现有基准考虑的更大距离进行评估时。1. 介绍准确地估计深度对于寻求解释3D环境的应用（诸如增强现实和自动驾驶）是重要的解决这个问题的传统几何方法需要多个视图，并通过对图像进行三角测量来推断深度。最近，更多的注意力已经支付给单图像的变体，它有很大的潜在价值，但已知是不适定的。Ranftl等人[29]指出，要解决这个问题，“人们必须利用许多，有时是微妙的视觉线索，以及长期背景和先验知识。图1：我们探讨了一个新的问题，地理启用的深度估计，其中在深度估计过程中利用查询图像的地理空间上下文监督方法假设在训练期间提供地面实况标记，通常从诸如LiDAR的另一传感器获得。该标记可以是绝对的（度量值）或具有未知的标度。另一方面，自我监督方法不需要地面实况深度。相反，多个输入的一致性（例如，来自视频或立体对的图像序列）被用于导出高达比例因子的深度，通常通过将该问题公式化为新颖的视图合成任务。对于这两类方法，常见的是在训练期间对场景的尺度进行强假设，或者需要在推断时计算缩放因子以便解释预测的深度。例如，监督方法通常假定通过使用sigmoid激活约束网络的输出来从单个图像推断深度的主要困难之一换句话说，世界上不同尺寸的物体可以在图像平面上具有相同的投影（简单地通过调整焦距或空间位置）。尽管如此，利用卷积神经网络的方法由于其捕获关于世界中对象的外观和形状的先验信息的能力而显示出前景在这个领域中大致有两类方法最后，以最大深度[9，19]缩放。如果比例未知，即，在训练期间使用比例不变损失，则在推断时必须计算比例因子以解释相对于世界的预测。当度量深度不可用时或用于组合具有不同属性的训练数据集时，例如，Ranftl et al.[29]在计算误差度量之前，通过最小二乘准则将其预测与地面实况对齐。这些警告限制4563当将这些方法应用于来自新位置的真实世界图像时这些方法的可推广性（例如，变化的深度范围或缺少地面实况）。类似的现象发生在估计深度达到未知尺度的自监督场景的最大观察深度通常用于在训练期间约束预测深度，并且在推断时计算缩放因子以使预测与地面实况一致。如前所述，当前文献中的常见策略是直接使用地面实况（每个图像）计算该缩放因子，在这种情况下，通过计算中值预测值和中值地面实况值的比率[12]。如何校准自监督单目深度估计网络的问题最近才由McCraith等人强调。[26]，他们指出目前方法严重限制了实际应用。除了这些问题之外，已知在远距离处估计深度是极其具有挑战性的。Zhang等人[41]注意到激光雷达的局限性（稀疏，可靠到200米），并认为需要“密集，准确的深度感知超出激光雷达范围”。大多数最先进的深度估计网络假设户外场景的最大深度为100米[12]。此外，用于深度估计的流行基准数据集被约束到小范围，通常低于100米（使用深度帽来过滤地面实况中的像素）。例如，Ranftl et al.[29]在四个不同的数据集ETH3D、KITTI、NYU和TUM上进行评估，深度上限分别设置为72、80、10和10米。Reza等人。[30]同样指出了深度估计在更大距离上发挥作用的必要性。在这项工作中，我们将探索如何使用地理空间上下文来增强深度估计，我们将这个问题称为地理启用的深度估计（图1）。现代相机通常配备有用于估计位置和取向的一套传感器。Kok等人[17]对从惯性传感器恢复位置/方向的算法进行了深入的概述，并得出结论，随着质量的提高和成本的降低，“惯性传感器在未来可用于更多样化的应用”。因此，大量的工作已经表明，地理方位信息对于增强传统的视觉任务是非常有价值的[24，25，35，39，40]。给定一个地理校准的相机，我们探讨如何注入到深度估计过程中的地理空间背景。在这种情况下，我们的目标是开发一种方法，该方法利用相机的已知地理校准来解决先前概述的弱点。具体地，我们希望使用地理空间上下文来1）减少固有的尺度模糊性，以及2）实现在大距离处的更准确的深度估计。我们的关键见解是，如果捕获设备的位置是已知的，相应的开销的观点是一个宝贵的资源，用于表征规模。我们提出了一个端到端的体系结构，深度估计，使用地理空间上下文来推断一个中间的场景的规模表示。为此，我们估计以查询图像为中心的高度（海拔）图，并经由一系列体素化和光线投射操作以可区分的方式将其变换为合成地面深度图。这个中间表示，灰是度量，我们融合它的编码器/解码器分割架构，输出绝对深度估计，内的。重要的是，我们的方法在训练期间不对最大观察深度进行假设，并且不需要后处理步骤来对齐预测。为了支持评估我们的方法，我们扩展了最近发布的HoliCity数据集[44]，以包括来自复合数字表面模型的架空图像和相应的高度数据。大量的实验表明，当地理空间环境可用时，我们的方法与基线相比显着减少了误差，包括在比以前的工作所考虑的更长的深度范围内进行评估时。2. 相关工作传统的深度估计工作依赖于来自多个图像的几何线索来推断深度。兴趣迅速转移到问题的单图像变体，早期方法依赖于一组关于场景的几何布局的假设[14]。例如，Delage et al. [5]提出了一种用于单个室内图像的3D重建方法，该方法萨克斯-埃纳等人[34]后来假设环境由许多小飞机组成，并使用马尔可夫随机场估计每个小飞机的位置和方向。最近在机器视觉中，使用卷积神经网络直接回归深度已经变得很常见。监督方法使用来自RGB-D相机、LiDAR传感器或立体匹配的地面实况深度[7]。在这个空间中，已经有很多探索到各种架构和设计选择[1，9，18，19，20]。然而，监督方法的主要挑战仍然是难以获得高质量和多样化的训练数据。为了解决这个问题，Atapour-Abarghouei和Brecket [2]建议使用合成数据集进行训练，然后应用样式转移来提高真实世界图像的性能。其他工作通过提出尺度不变的目标函数[4]放松了对绝对深度监督的要求Ranftl等人[29]认为性能主要受到缺乏大规模地面实况的影响，提出了能够混合数据源的尺度不变损失。或者，自我监督方法完全规避了对地面实况深度的需要，而是依赖于多个4564×图2：我们引入了HoliCity-Overhead数据集，它扩展了最近引入的HoliCity数据集[44]，以包括开销图像和相关的地面实况高度图。从左到右，等矩形全景图、透视剪切图、对应的深度图、协同定位的俯视图和对应的高度图。三个输入（例如，来自视频的图像序列或立体对），以导出高达缩放因子的深度。该问题通常被重新表述为具有[11]或不具有[12，42，43]已知相机姿态信息的图像重建虽然利用立体监督的自监督方法可以从已知的相机基线直接推断比例[12]，但自监督单目方法需要通过计算比例因子[26]来将预测与推理时的地面实况对齐当考虑监督和自监督方法时，通常在训练期间对最大观察深度做出假设[9，19]。此外，ETH3D和KITTI等流行的基准测试当考虑来自新位置的图像时，这限制了这些方法的实际应用，因此需要在更大距离处起作用的方法[30]。主要由对自动驾驶的兴趣激增激发，另一策略是将问题框定为深度完成或深度细化，其中除了输入图像之外，还提供近似（可能稀疏）深度图像（例如，来自LiDAR传感器）。这里，目标是产生密集的、更准确的深度图[31]。我们的方法在我们使用地理空间上下文来产生中间深度估计的意义上类似于这条工作线，该中间深度估计与输入图像一起使用以推断最终深度预测。虽然我们专注于整合地理空间背景，我们的方法可以想象的是，任何最近的深度细化方法相结合。地理空间背景已成为提高传统视觉任务性能的有力工具。例如，Tang et al.[35]考虑图像分类任务，并说明如何使用地理定位来整合几种不同的地理特征，最终改善证明分类性能。同样地，头顶影像也被证明是一种有用的补充视角。Luo等人。[24]结合了一对地面和头顶图像的手工制作特征，以提高地面活动识别。在图像地理定位的领域中，架空图像已被用作地面参考数据库的替代方案[21，38]，以实现密集覆盖。其他用例包括制作对象[25，36]和视觉属性[32，39]的地图，了解交通模式[37]，检测变化[10]以及可视化音景[33]。据我们所知，这项工作是第一次考虑如何使用地理空间环境来改善深度估计。3. HoliCity-Overhead数据集为了支持我们的实验，我们引入了HoliCity-Overhead数据集，它扩展了最近引入的HoliCity [44]数据集。HoliCity是一个城市规模的数据集，用于学习整体3D结构，如平面、表面法线、深度图和消失点。该数据集是利用英国伦敦市中心面积超过20平方公里的专有计算机辅助设计（CAD）模型构建的。注意，由于标签是从CAD模型导出的，因此它们不包含动态对象（例如，行人）。我们不认为这是一种限制，因为与现有数据集相比，以这种方式导出深度可以在更大的范围内实现地面实况深度值（HoliCity的数量级为千米），这对于支持我们在更大距离处实现更准确的深度估计在源区域，从Google街景收集了6，300张全景图，原始分辨率为6，65613，312。将各个全景图与CAD模型对齐，使得平均中值重投影4565××编码器解码器（高几何变换渲染裁切编码器解码器（深相机地理校准损失图3：我们的方法概述给定一个地理定位的图像，我们通过一系列的微分操作，利用已知的相机的地理校准的优势，将一个共同定位的高度图的然后，我们将其融合到一个编码器/解码器的分割架构，操作的地面水平的图像。重要的是，我们的方法可以在已知的高度图上工作（如果可用的话）（例如，从合成DSM），或者替代地从共置的俯视图像（阴影区域）估计高度。误差小于半度。从每幅全景图中，提取了八个透视图（尺寸为512 512）。45度，偏航角和俯仰角随机采样，视场设置为90°。使用CAD模型为每个切口生成标签重要的是，提供了原始360°等矩形全景的地理定向信息以及定义透视剪切来自数据集的示例图像如图2所示。出于我们的目的，我们扩展了数据集，以包括架空图像和地面实况高度图，我们将其称为 HoliCity-Overhead数据集。对于每个谷歌街景全景，我们收集了一个共同定位的开销图像在多个分辨率（缩放级别16- 18）从必应地图（每个大小为512 512）。然后，我们通过与环境局于2017年制作的伦敦1米复合数字表面模型（DSM）对齐，为每个头顶图像生成高度图。DSM数据可通过英国政府在开放数据门户网站上公开获取。1HoliCity-Overhead数据集中包含的结果开销图像和高度图对的示例如图2（右）所示。虽然HoliCity提供了一个官方的评估分割，但测试集的地面实况数据被保留用于未来的基准测试。因此，在我们的实验中，我们使用验证集报告性能数据，并保留一小部分训练集用于验证。1https://data.gov.uk/4. 地理启用的深度估计我们提出了一个端到端的架构，深度估计，整合地理空间环境。图3提供了我们的方法的可视化概览。出于描述的目的，我们概述了我们的方法，就好像从位于同一地点的头顶图像估计高度图一样，但是如果可用的话，可以直接将其提供为输入。4.1. 方法概述给定地理校准的地面图像（即，已知的地理位置、方向、视场），我们的方法具有两个主要组成部分。首先，我们估计一个高度图，从一个共同定位的开销图像，并使用它来生成- erate的场景的规模的中间表示。为了从高度图生成中间表示，我们通过利用已知相机地理校准（即，转换为体素表示和光线投射）。这种中间表示是度量的，并且具有许多潜在的用途。我们的方法的第二个组成部分执行联合推理的地面水平的图像和合成的深度图像的编码器/解码器风格的分割architec- ture，融合解码器内的两种形式。4.2. 从俯视图我们利用地理空间上下文来生成从头顶视点的场景的比例的中间表示4566×输出深度被设置为与非零体素相交的最小采样距离。图4使用地面实况高度图可视化了该过程的图4：使用体素表示与光线投射相结合，将高度图从头顶视点转换为深度全景图(left输入高度图和（右，下）生成的深度全景。由于头顶高度图的地面样本距离是已知的，因此所得深度全景是度量的。4.2.1估计高度贴图给定一个地理校准的地面图像和一个共同定位的开销图像，我们首先估计每个像素的高度图从开销图像。我们将其表示为输出每像素度量高度值的监督回归任务。对于我们的分割架构，我们使用LinkNet [3]和ResNet-34 [13]编码器（使用ImageNet [6]上训练对于目标函数，我们最小化Pseudo-Huber损失（也被认为是Charbonnier损失）：4.2.3提取透视裁切前一步骤直接从头顶高度图生成合成地面全景深度图像。为了在我们的端到端系统中使用，我们还实现了一个可区分的层，用于从360◦全景图中提取透视给定一个等矩形全景图和目标的几何校准（偏航、俯仰、滚动、视场），我们通过将全景图看作一个圆柱图像，并在给定的摄像机几何条件下对投影进行采样，从而提取出相应的透视图像。我们将其实现为单独的层，使得可以直接访问全景深度图像，并且另外在需要从单个全景进行几个透视剪切的情况下用于资源节约。4.3. 使用地理空间上下文进行在这里，我们概述了我们的深度细化架构（图3，底部），其将地面图像和从协同定位的高度图生成的尺度的中间估计作为输入。我们从Alhashim和Wonka[1]提出的架构开始，并使用具有跳过连接的编码器/解码器分段网络回归深度在该方法中，解码器由一系列上采样块组成。在每个块中，输入特征图经由双线性插值被上采样，与来自编码器的对应特征图级联（跳过连接）。Lheight =δ2（√1+（（y−y）/δ）2−1），（1）并通过两个3 × 3卷积层，其中输出滤波器的数量被设置为输入滤波器的一半不像其中y和y分别是观察值和预测值。伪胡贝尔损失是胡贝尔损失的平滑近似，其中δ控制陡度。4.2.2合成深度全景从Lu et al.[23]为了解决交叉视图图像合成的问题，我们使用估计的高度图来渲染北对齐的全景深度图像。假设俯拍影像具有已知的地面样本距离（世界上每个像素的空间范围已知），我们使用俯拍高度图来构建体素占用网格。生成网格，使得如果像素位置（i，j）处的高度值hi，j > k，则体素vi，j，k=1。俯视图像以及随后的体素网格以查询地平面图像的地理位置为中心。然后，通过针对输出全景中的每个像素沿着射线以均匀的距离采样，从体素网格现有的工作通常估计半分辨率深度，我们在解码器的最终输出层之前添加额外的卷积转置层，以便生成全分辨率深度。对于编码器，我们使用在ImageNet上预训练的DenseNet-161 [15为了结合地理空间上下文（以从估计的高度图获得的合成深度图像具体来说，在每个卷积层和上采样块之前，我们将合成深度图像连接为输入特征图的附加通道，并根据需要调整大小。解码器的最后两层（卷积转置层和输出卷积层）被排除在该过程之外。解码器中的融合允许编码器学习仅关注查询图像的内容的特征类似于高度估计，我们最小化伪胡贝尔损失（1）。但是，我们使用4567表1：HoliCity评估结果（深度上限80m）。绝对相对值平方相对RMSERMSE日志δ<1。25δ<1。252δ<1。253开销0.88621.56410.5710.6020.3140.6000.771地面（[1]的变体）0.50310.6315.6260.3010.6750.8760.940我们的（连接）0.51514.7905.0570.2900.7110.8830.944我们0.50112.2054.8950.2790.7110.8930.950地面+中位缩放（高架）0.92325.3558.6350.4570.4000.7090.847Ground + Median Scaling（GroundTruth）0.2293.2495.3880.2550.7490.9050.957我们+中位数缩放（地面实况）0.2162.9674.7820.2390.7740.9200.964验证掩码。最后的损失变成了表2：估计高度图与已知高度图（HoliCity，深度上限80m）。L=αhL高度+L深度，（2）RMSE日志其中αh是用于平衡两个任务的加权项我们的方法可以被认为是一种深度细化技术-的开销近似值场景比例4.4. 实现细节我们使用PyTorch [28]和Py-Torch Lightning [8]实现我们的方法。我们的网络使用Adam [16]进行优化，初始学习率设置为1e-4。所有网络都训练了25个历元，并且学习率策略被设置为使用验证集（耐心等于5个历元）在平台上减少一个数量级对于伪胡贝尔损失，我们设置δ=2。为了平衡这两个任务，我们设置α h=0。1.一、该加权项在5个时期之后减少一个时间，减少10倍。当估计高度时，我们单独地归一化每个地面实况高度图，使得最小值为零。为了渲染透视剪切，我们将非相交设置为-1。5. 评价我们通过各种实验定量和定性地评估我们的方法结果表明，我们的方法，它建立在最近的国家的最先进的方法注入地理空间环境，显着减少误差在近距离，同时使更准确的深度估计在更大的范围比以前已经考虑。基线方法为了评估所提出的架构，我们比较了几个基线方法，共享低级别组件与我们提出的方法。我们的完整方法在第4节中概述，随后称为我们的方法。我们还比较了从我们的方法中省略地理空间背景的基线（称为地面）。请注意，如果没有地理空间上下文，此基线是Alhashim和Wonka [1]的最新方法的一个变体。此外，我们与仅使用从地理空间上下文导出的规模的中间估计作为最终预测（称为开销）的基线进行比较最后，我们比较一个基线，连接中间估计作为一个额外的通道输入图像，我们称之为我们的（连接）。该基线的策略在概念上类似于Liu和Li [22]的近期工作，他们将方向添加为跨视图图像地理定位的附加输入通道5.1. 消融研究我们使用HoliCity-Overhead数据集呈现结果。如前所述，我们报告了HoliCity [44]验证集的指标，因为测试集的真实数据不可用。除非另有说明，否则所有方法均使用对应于缩放级别 17 （约 10 ）的 HoliCity-Overhead数据进行训练。0.74每像素米，或190米半宽），并使用已知的高度图。对于我们的初始实验，我们评估了我们的方法在短距离（80米的深度上限）的能力，如[12]中计算度量表1总结了本研究的结果正如预期的那样，仅地面基线优于仅头顶基线，这可能是由于从头顶视角精确恢复细粒度细节的困难。尽管评估范围有限，但我们整合地理空间上下文的方法显著优于所有基线，例如，在RMSE中比仅地面基线多半米。此外，我们在解码器中融合的方法优于我们的方法的变体，该变体作为额外的输入通道连接。我们的（估计高度）4.9350.287已知高度（knownheight）4.8950.2794568架空地面我们的RMSE（米）301125102091581050 50 100 150 200 250 300 350距离（米）765100 150 200 250 300 350 400最大距离（米）图5：与基线相比，随着距离的增加，集成地理空间上下文降低了平均误差，包括仅间接方法。此外，我们显示了使用开销估计和地面实况将中值缩放（用于对齐结果的每图像缩放因子）添加到仅地面基线的影响。这个结果表明，我们的端到端架构的好处虽然我们之前已经注意到使用地面真实值的中值缩放是不切实际的，但为了公平起见，我们表明我们的方法可以同样受益，实现显著更低的误差。最后，表2示出了我们的同时学习高度图（从共置的开销图像）的方法与我们的直接接受已知高度图（例如，来自复合DSM）。这些结果表明，地理空间环境，如果可用，可以是非常有用的增强深度估计，即使在小范围内。5.2. 长距离深度估计接下来，我们分析了我们的方法在更大距离上的性能。现有工作的主要局限之一是评估通常限于100米以下[29，30]。这可以部分归因于在远距离准确估计深度的难度增加，但也归因于通常用于收集地面实况的LiDAR传感器的范围有限HoliCity数据集[44]的一个优点是真值标签来自CAD模型，使地面真值深度能够反映更大的距离。图5显示了我们的方法在400米范围内的性能如所预期的，平均误差随着深度的幅度增加而增加。我们的方法不仅整体上具有较低的深度误差，图6：评估不同地面采样距离的影响。如所预期的，较低变焦水平的较大空间覆盖积极地影响较大距离处的深度估计性能。大大减少了远距离的误差我们把这归因于我们的明确的中间表示的规模来自开销的观点，这使得一个很好的近似的深度，即使在遥远的距离。最后，我们评估了不同的地面样本距离对我们的方法的影响。换句话说，在头顶高度图中具有更大的空间覆盖是否正性地影响深度估计性能？直观地，这是有意义的，因为高度图中的更大空间覆盖将使得能够在合成深度全景（图4）和随后的透视剪切中捕获更远的对象，其中具有更少细节（即，更少细节）的折衷。被缩小）。对于这个实验，我们训练我们的方法的变体，用于HoliCity-Overhead中包含的图像的不同缩放级别。图6将结果可视化，其中x轴表示在计算误差度量（RMSE）时考虑的最大深度（深度帽）。如所预期的，在更远的距离处，从具有更大空间覆盖的高度图开始导致优势，其中所有方法显著优于仅地面基线。5.3. 地理定位精度由于我们的方法依赖于地理空间背景，我们探索我们的方法来处理地理定位中的错误水平增加的能力。注意，由于HoliCity [44]数据集具有非零比对误差，因此先前的结果已经在一定程度上证明了这一点。由于高端系统可以实现中心数量级的位置精度[27]，因此我们假设准确的地理位置并将注意力集中在方向上。具体而言，我们遵循Kok等人的发现。[17]他们证明，一般来说，从地面我们的（zoom=18）我们的（zoom=17）我们的绝对误差（米）4569−25.65.55.45.3表3：在KITTI上评估Monodepth 2 [12]。RMSE日志无缩放19.176 3.459中位数缩放（地面实况）4.863 0.1935.25.15.00 2 4 6 8 10 12 14 16 18 20最大航向误差（度）表4：在HoliCity上评估Monodepth2 [12]RMSE RMSE日志无缩放17.555 3.054中位数比例（间接费用）15.743 1.138中位数比例（地面实况）14.105 1.064图7：随着定向误差的增加，性能评估。即使有显著的噪声，我们的方法也优于仅地面基线。与惯性传感器相比，它更容易获得准确的航向（偏航）估计。通过在区间[θ，θ]上均匀采样，在推理时增加最大航向误差θ的水平来评估我们的方法。注意，在这种情况下，平均误差约为θ。直观地，性能应当随着定向误差的增加而降低。图7示出了该实验的结果我们的方法仍然优于地面的基线，即使显着的，icant增加的噪音。此外，在补充材料中，我们展示了如何使用我们的方法的组件来细化地理定位。5.4. 应用：校准自监督单目方法在本节中，我们展示了我们的方法作为校准自监督深度估计方法的工具的潜力。如前所述，自监督单目方法只能估计高达未知尺度的深度，并且必须计算缩放因子以对齐预测。最近的工作已经强调，使用地面实况来计算该比例因子不是实用的解决方案[26]。我们首先通过使用KITTI深度基准分析最新的最先进的自监督方法Monodepth2 [12]来研究此缩放步骤对性能的影响。虽然Monodepth2仅预测高达未知尺度的深度，但通过将最终对数传递通过S形激活并按固定的最大深度值缩放，深度预测被约束到[0，100]米的范围（对于KITTI）。为了对齐预测，使用中值缩放，其中根据中值预测值与中值真实值的比率（仅考虑深度帽内的像素）来表3示出了具有和不具有中间缩放的Monodepth2的结果对于本实验，深度上限设置为80米是典型的KITTI。为了生成这些结果，我们使用了作者提供的预训练模型和评估脚本。正如所观察到的，中值缩放对性能有着巨大的影响，当禁用它时，平均接下来，我们评估我们的方法被用作校准工具的能力。对于这个实验，我们使用HoliCity-Overhead数据集，因为头顶图像和高度数据对于KITTI不可用。注意，由于缺少图像序列，在HoliCity上重新训练Mon-odepth 2是不可能的使用上面概述的相同过程和相同的预训练模型，我们用我们的中间尺度表示替换中值尺度中的地面实况深度值。表4示出了三种不同方案的结果：其中禁用中值缩放、使用地面实况的中值缩放以及使用来自体素化的头顶高度图的深度的中值缩放，如在我们的方法中那样。如所观察到的，当地面实况不可用时，与没有缩放相比，我们的方法大大改善了结果。6. 结论我们探索了一个新的问题，地理启用的深度估计，其中查询图像的地理空间上下文被利用来改善深度估计。我们的关键见解是，俯拍图像可以作为有关场景规模的有价值的信息来源。利用这一点，我们提出了一种端到端架构，该架构通过首先从估计的（或已知的）高度图生成场景的尺度的中间表示，然后将其融合到在地面图像上操作的分割架构内，来整合地理空间上下文一个广泛的评估表明，我们的方法显着降低了误差相比，基线，特别是当考虑到更大的距离比现有的评估基准。最终，我们的希望是，这项工作证明，现有的深度估计技术可以受益时，地理空间上下文是可用的。我们的地面RMSE4570引用[1] 易卜拉欣·阿尔哈希姆和彼得·旺卡。通过迁移学习的高质量单目深度估计。arXiv预印本arXiv：1812.11941，2018。二、五、六[2] Amir Atapour-Abarghouei和Toby P Brecket。使用合成数据的实时单目深度估计，通过图像风格转换进行局部自适应。在 IEEE Confer-ence on Computer Vision andPattern Recognition，2018。2[3] Abhishek Chaurasia和Eugenio Culurciello。LinkNet：Ex-ploiting encoder representations for efficient semantic segg-mentation. 在IEEE视觉通信和图像处理，2017年。5[4] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知。神经信息处理系统进展，2016。2[5] Erick Delage，Honglak Lee和Andrew Y Ng。室内单幅图像自主三维重建的动态贝叶斯网络模型。在IEEE计算机视觉和模式识别会议上，2006年。2[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。IEEE计算机视觉与模式识别会议，2009年。5[7] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展，2014年。2[8] WANGetal.火炬闪电。GitHub.注：https://github.com/PyTorchLightning/pytorch-lightning，2019年3月。6[9] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议上，2018。一、二、三[10] NehlaGhouaiel和Se'bastienLef e' vre。用于变化检测的地面全景图和航空图像的耦合地理空间信息科学，19（3）：222-232，2016。3[11] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。2017年在IEEE计算机视觉和模式识别会议上发表。3[12] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单眼深度估计。IEEEInternational Conference on Computer Vision，2019。二三六八[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE Con中[16] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。在学习代表国际会议，2014。6[17] ManonKok，JeroenDHol，andThomasBSc hoen.使用惯性传感器进行位置和方向估计。arXiv预印本arXiv：1704.06053，2017。二、七[18] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。2016年国际3D视觉会议。2[19] Jin Han Lee，Myung-Kyu Han，Dong Wook Ko，和一弘淑从大到小：用于单目深度估计的多尺度局部平面引导。arXiv预印本arXiv：1907.10326，2019。一、二、三[20] 李载汉和金昌洙使用相对深度图的单目深度估计在IEEE计算机视觉和模式识别会议上，2019年。2[21] 林宗义，Serge Belongie和James Hays。交叉视图图像地理定位。IEEE计算机视觉和模式识别会议，2013。3[22] 刘柳和李红东将方向借给神经网络用于跨视图地理定位。在IEEE计算机视觉和模式识别会议，2019。6[23] Xiaohu Lu ， Zuoyue Li ， Zhaopeng Cui ， Martin ROswald，Marc Pollefeys，and Rongjun Qin.城市地区的几何感知在IEEE计算机视觉和模式识别会议上，2020年。5[24] Jiebo Luo、Jie Yu、Dhiraj Joshi和Wei Hao。事件识别：用第三只眼睛看世界ACM International Conference onMultimedia，2008。二、三[25] 吉尔·L·E·M·A·蒂尤斯、神龙·王、桑加·菲德尔和拉奎尔·乌尔塔松。高清地图：通过解析地面和航空图像进行细粒度道路分割IEEE计算机视觉与模式识别会议，2016年。二、三[26] Robert McCraith，Lukas Neumann，and Andrea Vedaldi.校准自我监督的单目深度估计。2020年英国机器视觉会议。二、三、八[27] 国家天基定位协调办公室，导航、和时机。 GPS精度。https://www.gps.gov/systems/gps/performance/accuracy/，2021年。7[28] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al. PyTorch：命令式的高性能深度学习库。在神经信息处理系统的进展，2019。6计算机视觉与模式识别，2016年。[29] 雷内兰夫特尔 Katrin 拉辛格大卫康拉德？哈夫纳5[14] Derek Hoiem、Alexei A Efros和Martial Hebert。自动照片弹出。ACMTransactionsonGraphics（SIGGRAPH），2005年。2[15] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。2017年在IEEE计算机视觉和模式识别会议上发表5Schindler和Vladlen Koltun。走向鲁棒的单眼深度估计：混合数据集的零拍摄交叉数据集传输。 IEEETransactionsonPatternAnalysisandMachineIntelligence，2020。一、二、七[30] Md Alimoor Reza，Jana Kosecka，and Philip David. Far-Sight：从户外图像进行长距离深度估计。IEEE/RSJ智能机器人与系统，2018年。二、三、七4571[31] Mattia Rossi，Mireille El Gheche，Andreas Kuhn，andPascal Frossard.联合基于图的深度细化和法线估计。在IEEE计算机视觉和模式识别会议上，2020。3[32] 陶菲克·塞勒姆斯科特·沃克曼内森·雅各布斯学习视觉外观的动态图在IEEE计算机视觉和模式识别会议上，2020。3[33] Tawfiq Salem ， Menghua Zhai ， Scott Workman ， andNathan Jacobs.映射音景的多模态方法。在IEEE国际地球科学和遥感Symposium，2018。3[34] Ashutosh Saxena，Min Sun和Andrew Y Ng。Make3D：从单个静止图像学习3D场景结构。IEEE Transactionson Pattern Analysis and Machine Intelligence，31（5）：824-840，2008. 2[35] Kevin Tang，Manohar Paluri，Li Fei-Fei，Rob Fergus，and Lubomir Bourdev.利用位置上下文改进图像分类IEEE国际计算机视觉会议，2015。二、三[36] Jan D Wegner ， Steven Branson ， David Hall ， KonradSchindler，and Pietro Perona.利用航空和街道影像编目公共对象-城市树木。在IEEE计算机视觉和模式识别会议上，2016年。3[37] 斯科特·沃克曼和内森·雅各布斯动态交通模型从开销图像。在IEEE计算机视觉和模式识别会议上，2020。3[38] 斯科特·沃克曼，理查德·苏文尼尔，内森·雅各布斯。利用航空参考图像进行广域图像地理定位。IEEEInternational Conference on Computer Vision，2015年。3[39] 斯科特·沃克曼，理查德·苏文尼尔，内森·雅各布斯。理解和绘制自然美。在2017年IEEE国际计算机视觉会议上。二、三[40] 作者：张晓波，张晓波.克兰德尔和内森·雅各布斯近距离和远距离传感的统一模型。 IEEEInternationalConference on Computer Vision，2017。2[41] Kai Zhang，Jiaxin X

下载后可阅读完整内容，剩余1页未读，立即下载