全景街景图像的卫星视图合成方法

8 浏览量更新于2023-10-23 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

859面向城市区域XiaohuLu 1李佐悦2崔兆鹏2 <$Martin R.Oswald2 Marc Pollefeys2，3秦荣军1†1俄亥俄州立大学2ETH苏黎世3微软摘要我们提出了一种新的方法来生成全景街景图像是几何一致的给定的卫星图像。与完全依赖于深度学习架构来生成跨视图图像分布的现有方法不同，我们的方法基于卫星视图显式地在地面对象的几何配置中循环，使得所产生的地面视图合成保留场景的几何形状和语义。特别是，我们提出了一个神经网络的地理转换层，把预测的地面高度值从卫星视图到地面视图，同时保留物理的卫星到地面的关系。我们的研究结果表明，合成图像保留了良好的衔接和真实的几何形状，以及纹理丰富的街景在各种场景。定性和定量的结果表明，我们的方法相比，其他国家的最先进的方法，缺乏几何一致性。1. 介绍由于卫星图像（例如Google Earth）的可用性不断增加能够从给定的卫星图像生成一致的地面视图对于诸如广域虚拟模型生成、媒体内容丰富、3D真实游戏、模拟和交叉视图匹配的应用是非常有用的。这个问题被称为卫星对地面的交叉视图合成。在这项工作中，我们解决这个问题，提出了一个几何感知的框架，保留几何和相对地理位置的地面ob-bushion充分利用从卫星图像中提取的信息我们的目标是尽可能地以几何上真实的方式表示地面视图这带来了一些独特而困难的挑战：第一[2]这些作者对这项工作的贡献是相等的。†通讯作者。卫星补丁预测街景全景图1：我们的卫星对地成像合成的两个例子。给定单个卫星图像补丁，我们学习通过利用几何信息以端到端的方式预测相应的街景RGB全景尤其是，视图差异非常大，使得从一个视图提取的可用于推断另一个视图的信息非常有限。例如，我们可能只能在卫星视图中观察建筑物的屋顶，很少或没有关于立面的信息。其次，与地面图像相比，从卫星视图中可推断的信息的分辨率太粗糙（通常公共区域可能只是地面），因此直接使用来自卫星视图的部分信息来生成地面视图是困难的。第三，地面图像通常比卫星图像显示更多的局部细节例如，在城市场景中，存在许多动态对象，诸如行人和车辆。此外，在卫星视图中具有明显相似的街道图案的地方在地面视图中可能看起来完全不同，这可能呈现一对多映射，导致当合成的地面视图图像适应于卫星视图时缺乏多样性最后，由于GPS（Global Positioning System）图像信息的有限精度和可用性，卫星和地面视图之间的对准通常不足以用作基于学习的方法的训练数据。最近有几个作品试图解决simi-860更大问题。Zhai等[23]提出了一种深度学习方法，从航空图像中生成看似合理的地面图像。从航空图像中学习并提取特征，通过学习逐像素变换形成到地面的变换，进而通过生成模型生成RGB图像。Regmi等人[15]提出在统一的条件生成对抗网络（GAN）架构中与RGB图像一起学习由于在网络中没有编码几何变换，所以合成的图像可能在几何上与真实图像有很大不同，尽管它可能看起来是合理的。因此，他们进一步改进了[16]中的方法，并使用几何约束在生成的图像中添加道路的一些细节。然而，在该方法中仅考虑了用于重叠道路变换的简单单应性，并且其他对象的生成完全依赖于学习的变换，这导致具有大量幻觉内容的场景。由于广泛可用的卫星图像，我们建议通过使用从这样的数据集学习的高度和语义表示来形成卫星和地面之间的投影变换来解决这个问题这允许充分利用卫星视图中表示的几何信息我们利用这个作为一个新的跨视图图像转换模块，将语义和颜色信息从卫星图像的街景。这之后是一个每像素生成模型，用于生成合理的地面视图RGB图像使用的信息，从trans-formation模块。由于变换代表了两个不同视图之间的实际投影关系，因此我们生成的地面视图图像更具几何意义，从而产生更真实的全景图像纹理。实验结果表明，该方法优于现有的方法。我们的贡献如下。首先，我们提出了一个端到端的网络结构集成，利用几何约束的街景图像生成从卫星图像上看。其次，我们提出了一个新的跨视图图像转换模块，携带几何信息推断从卫星视图作为约束条件的地面视图生成。第三，我们利用一种新的加权掩模，以减轻卫星获得的深度图像和地理标记的谷歌全景图像之间的小错位最后，据作者2. 相关工作空中-地面协同定位。空地协同定位是一个考虑不同视角下图像级匹配的相关课题。很自然的，在横观下，此外，要利用的最合理的特征将是语义信息。Castaldo等人[2]建议利用GIS地图中的可用语义信息，基于前语义信息和其公共区域中的特征描述符（例如，道路交叉口）进行匹配。考虑到手工制作的描述符可能不够稳健，Linet al. [9]提出使用深度卷积神经网络来学习来自两个视图的特征描述符，其中分别针对地面视图和空中视图训练单独的网络，并将简单的KNN（k-最近邻域）应用于潜在的匹配，这被证明对于在大型空中图像数据库上匹配局部地面视图图像是有效的。Hu等人也提出了类似的想法。[5]提出了一种基于学习的大尺度卫星图像全景图像定位方法，提出了一种两段连体网络，即局部特征和全局描述符网络，以产生可靠的匹配特征。其他类似的作品可以在[21，22，20]中找到本质上，这些作品总是学习重叠区域中的几何模式，例如道路模式和交叉口。最近，已经利用了诸如concept GAN的其他方法例如，在[17]的工作中，在给定地面视图全景的情况下合成鸟瞰图然后将该合成的鸟瞰图与地面全景图相结合，以便学习用于匹配航拍图像的特征表示。查看变换。交叉视图合成与匹配的核心内容之一是不同视图之间的转换通常几何信息是不可用的，因此学习变换作为一种替代方案。一些作品通过输入航空图像并输出地面视图RGB和语义图像来直接学习这种关联[16，5]，而这种方法可能只能处理具有固定或类似布局的场景。而不是嵌入在特征提取网络的转换，翟等。[23]明确提出了一个模块，该模块学习空中和地面图像之间的语义布局之间的独立转换，因此可以以非线性方式执行场景标签之间的转换。该方法适用于景观场景布局，但无法处理复杂城市场景中的几何变换，其中存在遮挡和非平面投影变换。交叉视图合成。为了从完全不同的场景合成视图，尽管直观的想法是通过成对的图像数据库执行图像合成，但最近的工作主要基于生成网络，更具体地说，生成对抗网络[3]（GAN）是最受欢迎的。Regmi等人[15]生成的空中或地面视图图像条件861卫星舞台地理改造街景舞台卫星语义转换后的街景语义UNet细化街景语义BicycleGAN街景图图2：我们的网络架构概述。我们的网络分三个不同的阶段运行，分别针对不同的图像域。可微分地理变换阶段在卫星图像域和街景图像域之间变换。卫星舞台：U-Net [18]为给定的卫星图像计算深度图像和相应的语义图像。地理转型阶段：地理转换层将深度和语义卫星图像并将其转换为相应的深度和语义全景图像。街景舞台：第二个U-Net细化了语义全景。最后，使用BicycleGAN [28]从语义全景生成照片级逼真的图像。我们没有使用随机种子来生成纹理，而是添加了一个单独的纹理编码器，它可以从输入的卫星图像中计算潜在本图中的符号是第2.1节中解释的不同类型的损失。3.4.2.其他的观点。一旦可以估计来自交叉视图的信息（例如场景布局），就可以执行图像到图像转换[6]。GAN学习数据分布，当给定扰动输入时，它们会生成遵循该分布的数据样本。由于通过基于学习的变换从卫星视图预测的地面场景布局可能非常相似，因此所生成图像的多样性可能是一个挑战。卫星深度图像卫星彩色图像转换深度全景3. 方法在这一节中，我们介绍了我们的框架，从卫星图像合成逼真的街景图像如图所示。二、我们的核心思想是将卫星信息以几何意义上的方式转化为街景图像，以更好地进行街景合成。为此，我们使用了一个级联的架构，有三个阶段：卫星阶段，地理转换阶段，和街景阶段。第一阶段从输入的卫星图像估计深度和语义图像第二阶段通过一个新的地理转换层将卫星深度和语义图像转换为街景。在最后一个阶段中，变换后的图像被用来生成最终的街景图像。所有这三个阶段在以下小节中详细介绍。3.1. 卫星舞台该阶段遵循可以经由卷积神经网络从单个图像获得粗略深度图像的假设，这在单个图像深度估计领域中已经得到了很好的研究[8]。我们可以进一步利用卫星图像的近似正交投影类型以及城市地区的许多面垂直于地面[12]。此外，语义标签也很容易获得[18]。受先前工作的启发[12]，我们采用如图所示的U-Net架构[18]二、在占据栅格全景光线转换的彩色全景图3：所提出的差分地理变换T的图示。将卫星深度和语义标签转换为语义高度图，然后将其投影到全景图像中以获得街景域中的深度和语义标签。与[12]中的网络相比，我们利用权重共享解码器来学习卫星图像的深度和语义在我们的网络中，编码器和解码器都有八层，而解码器的最后两层有两个分支，分别输出预测的卫星深度图像和语义图像。3.2. 地理转型阶段为了合成跨视图图像，我们将深度和语义信息从卫星视图以可区分的方式转换为街景视图，从而可以端到端地训练整个管道。为了实现这一目标，我们提出了以下可微地理变换工作流程如图所示3 .第三章。给定n×n正方形卫星深度图像块D和对应的彩色图像块C，我们执行三个步骤来获得街景全景。高度图生成。首先，我们使用正射投影将卫星深度图像转换为地面高度图。Inv. 地理变换T-1Lr坐L甘卫星图像UNet卫星深度转换街景深度潜在向量纹理编码器测试+培训损失Ld坐伦茨LsstrLs坐街景地理转换T862坐str坐占据网格生成。其次，通过检查每个体素是否高于或低于相应的高度，将该高度图离散化为n×n×n占用网格G值网格以街景位置为中心，除了高度值之外，我们还将来自C的相应RGB值存储在体素网格G中（参见图3）。全景投影。第三，街景全景是- 通过考虑从G的中心体素开始并指向不同视角（θ，φ）的全景射线来生成，所述全景射线被变换成3D方向向量：（v x，v y，v z）=（cos θ sin φ，− cos θ cos φ，sin θ）。（一）然后，为了生成一个k×2k大小的街景全景图，我们均匀地采样2k个经度角和k个纬度角，经度角在θ∈[0，2π]，纬度角在φ∈[0，π]，这导致k×2k全景光线射入三维空间。我们使用全景光线来生成街景深度全景。全景图中每个像素的深度由射线原点与沿着射线的占用网格G中的第一遇到体素（FEV）我们根据体素大小，沿每条射线以相等的距离采样n个3D点，然后通过以下方式计算深度：沿着射线在占用网格G街景彩色全景可以在也一样。图3示出了我们的地理变换过程的处理流水线。我们在实验中使用n=256和k=256。2D到3D以及3D到2D的转换过程都是可微的。3.3. 街景舞台在街景阶段，我们首先采用U-Net [18]从变换后的图像中生成细化的语义标签，然后使用BicycleGAN[28]将语义标签转换如图所示2，细化网络的输入由变换的深度、语义和调整大小的卫星图像组成，它们被连接在一起。然后，我们将细化的街景语义和转换后的深度连接在一起，并将它们作为输入馈送到BicycleGAN中。我们使用BicycleGAN而不是传统的cGAN [11]的原因是，在我们的设置中，语义和RGB图像之间的转换是一种多模态图像到图像的转换。有了潜在代码，网络能够产生更多样化的结果。然而，Bi-cycleGAN中的潜在向量最初是在推理阶段期间从学习的分布中随机采样的。我们的目标不是生成多个街景，而是生成一个尽可能真实的街景。如图所示。2，我们引入了一个外部编码器，它从原始卫星图像生成这样的一个潜在的矢量。关于次级网络的更多细节，见补充材料。3.4. 实现细节3.4.1数据集对于卫星图像，我们选择以伦敦市为中心的5km×5km区域生成地面实况深度和语义卫星图像分别来自立体匹配[4，14，13]和具有后校正的监督分类[24对于街景图像，我们通过Google API1下载该地区所有可用的Google街景图像，总共产生近30K街景图片。这些地图中的每一个都包括位置信息（经度、纬度、方位）。然而，该GPS信息包含一定的位置误差，这意味着使用街景图像的GPS信息直接对准卫星图像为了减少未对准，我们提出了一种预处理策略，通过计算它们的重叠率来挑选出那些对准良好的图像对，如下所示。首先，应用SegNet [1]对真实街景图像进行语义分割。随后，将该语义图像中的天空像素与从对应的卫星深度图像转换的街景语义图像中的天空像素进行比较，以计算它们的重叠率。重叠率大于90%的图像对被保存为对齐良好的训练数据集。通过这种方式，我们获得了大约2K的良好对齐的卫星街景图像对。图4显示了我们的训练数据集的示例。3.4.2损失函数我们的完整流水线的总损失函数被定义为L=L sat+Lstr，分别表示卫星级和街景级的损失。卫星丢失事件-由于两条街道的景观看起来非常不同，具有类似的语义，只要它们的结构（例如，的两项集，Lsat=Ldssat，表示天际线的形状、人行道的位置等）是相似的。cGAN的生成式建模设置无法解决训练期间的这种模糊性。在BicycleGAN中，引入低维特征向量以提取模糊度。它的生成器学习将给定的输入与此潜在代码相结合映射到输出。的L1损失的卫星深度图像和语义重新分别为。街景损失由四项组成：Lstr=Ls+LGAN+Lenc+Lr，表示街景语义的加权L1损失，BicycleGAN损失（包括生成器和潜在向量编码器的L1损失，以及2个判别式的对数损失），tors），外部编码器的L1损失和通过空间复制注入编码的潜在向量，连接到编码器中的每个中间层1https://developers.google.com/maps/documentation/streetview/intro+L863坐坐L坐坐prjprj1prj(a) 卫星-街景图像对rsat图5：逆地理转换的可视化T-1 我们只考虑周围5米半径内的像素Lr的位置（由红色圆圈标记）损失(b) 训练数据集像素（i，j）的全景射线，（xc，yc）=（wg，hg）是2 2(c) 训练样本图4：我们的训练数据集示例。对于（a），从左到右是卫星图像和对应的（x，y）卫星图像中中心像素的坐标图像，这是（64，64）为常数，因为大小（w，h）对于卫星图像是（256，256），距离g为0.5。之后，从预测的街景图像中拾取3D点的RGB值，街景图像。对于（b），从左到右是卫星保存为与Ir，其中图像、卫星深度、卫星语义、变换街景深度、变换街景语义、真实街景语义和真实街景RGB。对于（c），从左到右是转换后的街景语义、真实街景语义和未对齐的掩码。形成反转变换的卫星图像。最后，考虑到在卫星图像和街景图像中只能观察到道路像素，仅针对距反变换后的卫星图像的中心5m（10个像素）范围内的像素计算L1损失，预测的卫星RGB产生的倒置的地理，rsat .图5给出了关于图1的工作流程的简要演示。变换，分别。我们对街景语义采用加权L1损失的原因是为了处理卫星图像和街景图像之间的不对齐（如第2节中所3.4.1）。加权L1损失定义为W=L1（W = 1）||I−IGT||其中W是控制每个像素的权重的权重矩阵，并且符号表示逐元素乘法。权重矩阵被设计为对未对齐的像素给予较少的权重。如图4（c）所示，未对齐的像素通常发生在天空和建筑物之间的边界，其中天空像素可能被错误地标记为建筑物，反之亦然。我们将这些错误标记的像素的损失减少到剩余像素损失的10%。逆地理变换Lr的损失被设计为使得预测街景图像中的道路像素尽可能类似于输入卫星图像中的道路像素。鉴于街景深度的变化全景I D ，转换后的街景RGB全景图逆地理变换损失。3.4.3培训计划由于级联架构和位置错位问题，我们首先独立地预训练流水线的每个阶段，然后以端到端的方式微调我们的网络我们在一台配备Intel CPU i7，16GB RAM和Nvidia GeForce GTX 1080 GPU的计算机上训练我们的模型。完整的流水线是用PyTorch实现的。为所有网络训练，我们使用Adam [7]作为优化器，初始学习率为2×10−3，β1=0.5。每100个epoch，学习率降低一半。对于卫星阶段的网络，我们通过将全景图的经度和纬度转换到卫星上，为每个30K全景图裁剪256×图像，并从中选择10K来训练卫星图像的深度和语义标签网络。在前三列中可以找到此阶段的一些训练样本prjR图4（b）中的r 。这个网络被训练了200个epoch。我预测，和相应的卫星RGB图像我坐，损失Lr在以下四个步骤中计算。第一、对于Id上的每个像素的全景射线如等式（1）中所示来计算（一）. 然后，在图1中，每个像素（i，j）的3D点（x，y，z）对于街景阶段的转换语义细化网络，我们利用2K对齐的卫星-街景图像对进行训练。地面的真相-民主党可以计算为：x=vx （ i ，j ） ·Id y=vy（ i ， j ） ·Idz=v （ i ，j）·Id（i，j）+xc，（i，j）+yc，（i，j），（二）该方法通过对街景图像进行特征提取，将SegNet [1]直接应用于我们的街景图像，从而产生具有数十个标签的语义图像。我们进一步合并了其中的一些标签，以形成一个只有4个类的干净的语义图像：天空、建筑物、人行道和地面。GT卫星RGB全景RGB深度3D点云预测卫星RGBL我我864哪里zprj.Σvx（i，j），vy（i，j），vz（i，j）是归一化该网络的一些训练样本可以在图中第4至第6列第4（b）段。我们训练了这个网络865对于50个时期，因为从输入到输出的映射相对简单，所以更多的时期在实践中也可能导致过拟合。对于最终的街景图像生成网络，我们使用相同的2K图像对。此外，除了潜在向量的维度（我们将其设置为32）和基本特征维度设置为96之外，还使用了BicycleGAN的默认训练设置。外部纹理编码器与Bicy-cleGAN中的编码器具有相同的架构。我们首先在随机裁剪的训练对上训练网络400个epoch，然后在完整的图像对上训练50个epoch。4. 实验4.1. 基线和评价指标Regmi等人[15]提出了两种基于cGAN的架构，以生成街景语义和RGB图像，并将航拍图像块作为输入。使用权重共享解码器同时生成语义图像和RGB图像的我们利用了原始代码，并将其与“fork architec- ture”进行了比较。Pix2Pix[27，6]是一个众所周知的基于cGAN的网络，也可以用来从卫星图像合成街景图像。因此，我们也比较了这种方法使用的原始源代码。对于定量评估，我们利用从低级到高级的各种评估指标。对于低级指标，我们遵循[15]并使用PSNR，SSIM和SharpingDifference指标，这些指标评估预测图像和地面真实图像之间然而，这样的逐像素度量可能不能正确地评估图像的视觉质量。因此，我们使用感知相似性[25]在更高的语义水平上比较图像。PAlex和PSqueeze分别表示基于AlexNet和SqueezeNet主干的评估结果。我们直接使用他们的代码和提供的预训练模型。对于语义级指标，我们使用[10]中的像素级准确度和mIoU，其通过比较预测街景图像的语义标签和使用SegNet [26]生成的地面实况图像来计算。对于几何级度量，我们利用边界F分数[19]，该分数被设计用于计算预测图像和地面实况图像中的对象边界之间的重叠。我们还通过将从卫星多视点立体重建计算的深度作为地面实况来计算所生成的全景深度的中值误差e深度在下文中，我们将对和一项消融研究。第4.2和4.3节。有关更多的实验结果，请参阅我们的补充材料。4.2. 与最新技术水平的比较选项卡. 1提供了Pix2Pix [6]、Regmi等人的定量评价结果。[15]，并在100个样本的测试数据集上验证了该方法。由于我们使用更多的问题特定知识，我们的方法在所有指标上都优于所有竞争方法。由于其他方法不能生成深度图像，我们只评估我们的方法的深度误差的中位数，这是2.62米。我们使用与[15]中相同的定量评估措施，我们可以在表中看到。1的PSNR、SSIM和SharpingDifference之间的差异很小（越大越好），这是合理的，因为我们已经分析了低级别的度量很难用来判断图像是否真实。图6显示了这三种方法的定性结果。从图中，我们可以观察到，我们的方法生成的语义和RGB图像的质量比其他两种方法更好。首先，对于街景的语义意象，很明显，雷吉等人的作品的语义意象。是街景布局的相对粗略的预测，其在某些情况下可能包含显著的伪像（例如，图2中的第2、3和5行。（六）。而对于我们提出的方法，街景布局非常接近地面实况，因为我们的地理转换层可以将真实的几何信息从卫星到街景。此外，在Regmi等人的结果中的人行道的估计位置也是正确的。的方法似乎是随机生成的，因为它没有显示人行道可能出现在场景的哪个建筑物上的许多模式，并且在我们的情况下人行道是相当一致的，并且只要有建筑物就可以检测到。其次，对于生成的RGB图像的质量，我们的方法也证明了它优于其他两种方法：Regmi等人和Pix2Pix，这应该在很大程度上归功于我们管道中生成的语义图像的高质量。Regmi等人就Regmi等人而言，的工作可以生成更完整的图像。然而，这两种方法生成的图像在纹理细节方面都是模糊的，并且只有部分几何配置可以反映卫星图像捕获的实际场景图8进一步比较了由我们的方法和现有技术方法生成的图像实验结果表明，该方法能较好地恢复建筑物的轮廓线形状.我们还注意到，像树和公共汽车这样的细节对象无法重建，这主要是因为移动对象（例如，总线）和精细的静态对象（例如，树）不能在卫星深度中很好地重建，并且在交叉视图图像中也不一致。866坐表1：图像/语义质量的定量评价。我们的方法始终优于竞争方法。方法峰值信噪比（↑）SSIM（↑）锐差（↑）P亚历克斯（↓）P挤压（↓）mIoU（↑）Acc. （↑）Fsem（↑）e深度（↓）Pix2Pix [6]19.7650.41020.5140.60620.47780.3710.4340.445不适用Regmi等人[第十五条]19.8390.41920.5590.58670.44300.4840.6490.486不适用我们19.9430.44020.8640.58160.43390.5480.7290.5152.62饱和RGB Street RGB我们的RGB我们的语义[15] RGB语义[6] RGB图6：定性比较。我们提出了各种测试结果，我们的方法，在比较Regmi等人。[15]和Pix2Pix [6]。我们的方法生成的语义图更准确，尤其是在天际线方面，而且我们的RGB输出看起来更真实，包含的伪影更少。4.3. 消融研究我们进一步研究了多个关键组件对我们的方法性能的影响二、在下文中，我们研究了三个网络组件的影响。纹理将仍然是正确的，但它的感知距离将增加。因此，我们可以得出结论，没有深度的人可能不会产生详细的纹理在遥远的地区，但仍然能够得到相当好的语义。加权L1损失的重要性.所称深度输入的重要性从理论上讲，深度可以促进-秒3.4.2，Ls的加权L1损失旨在在局部纹理的生成中提供“尺度”信息。比较我们的方法生成的街景图像（图。7（d））和我们的方法w/o深度（图。7（e）），我们可以发现，在这些图像上的真实场景中接近相机中心的物体的纹理被很好地生成。而对于那些远离相机中心的物体，无深度的方法只能生成粗糙和模糊的纹理。这就解释了为什么模糊语义标签的使用并没有使语义的mIoU和准确性下降太多，而感知距离减少了未对准问题的影响，证明所生成的街景语义图像的质量。为了评估加权L1损失的重要性，我们训练了我们的流水线w/o加权L1损失，并输出生成的街景语义图像（图1）。7（b））和RGB图像（图。（7）比较。如可以观察到的，在语义图像w/o加权L1损失上的建筑物类和道路类之间存在一些误分类的像素，并且建筑物屋顶错误分类-867表2：定量消融研究。我们定量地展示了各种网络组件的影响。方法峰值信噪比（↑）SSIM（↑）锐差（↑）P亚历克斯（↓）P挤压（↓）mIoU（↑）Acc. （↑）Fsem（↑）我们19.9430.44020.8640.58160.43390.5480.7290.515无深度19.9910.41920.7830.65230.45390.5370.7280.534无加权L1损失20.1700.43320.7110.58180.43640.5350.7270.505无地理转换层20.0020.40120.4590.65180.45480.5090.7110.504(a)预测语义（b）w/o加权L1损失（c）地面实况（d）我们的（e）w/o深度（f）w/o加权L1损失(g)无地理转移图7：定性消融研究。对应于表1中的定量消融研究。2我们展示了每个配置的示例结果图像。省略其中一个组件通常会导致更差的结果。地面实况全景Pix2Pix [6] Regmiet al.[第十五条]图8：天际线上的结果比较。由于明确使用的几何信息，我们的方法估计更准确的天际线轮廓。虽然竞争的方法显示了相同位置的结果，但外观不同主要是由于不正确的天际线估计。如第二行所示，对语义图像的处理进一步损害了所生成的RGB图像的质量然而，由于CNN的强大功能，在以下用于街景RGB图像生成的网络中，由于未对准问题引起的语义图像上的误分类可以在某种程度上得到缓解，CNN网络可以容忍一些误分类。这就是为什么表1中的2没有太大的不同。地理转换层的重要性。我们删除了管道中的地理转换层，并将卫星阶段的输出直接馈送到街景阶段，以查看地理转换层的影响。从Tab。2，我们可以看到语义mIoU和准确性显著下降，而感知得分PAlex从0.5816增加到0.6518。这意味着生成的RGB图像的语义质量和感知质量都大大降低，其中这一观察结果进一步得到了图2的支持7（g），其中在第一和第三行中生成的建筑物与地面实况图像相比有很大的失真，如图2所示。7（c）.因此，直接从预测的卫星深度和语义图像生成街景语义比应用所提出的地理变换方法更可能产生几何上不正确的结果。5. 结论提出了一种星地交叉视景合成的新方法。特别地，我们提出了一种端到端的可训练流水线，其获取单个卫星图像并生成几何上一致的全景RGB图像。因此，我们提出了一种具有可区分的地理变换层的神经网络，该地理变换层将语义标记的卫星深度图像与相应的语义全景街景深度图像链接起来，最终用于照片级真实感街景图像的生成。图像之间的几何一致性显著提高了全景地面视图中天际线的准确性，这对城市地区尤为重要。实验结果表明，该方法优于现有的方法，能够合成更真实的街景全景图像和更大的可变性。致谢。Zuoyue Li获得了瑞士数据科学中心奖学金的资助。崔兆鹏在AutoVision项目中得到了DSO国家实验室的支持。多视图卫星图像是从DigitalGlobe获得的。此外，这项研究得到了海军研究办公室的部分支持（Award No.N 000141712928）和智能高级研究项目活动（IARPA）通过室内/室内商业中心（DOI/IBC）合同号D17 PC00280的开发。美国政府被授权为政府目的复制和分发重印本，尽管上面有任何版权注释。免责声明：本文所载的观点和结论是作者的观点和结论，不应被解释为代表IARPA、DOI/IBC或美国政府的官方政策或认可，无论是明示还是暗示。政府的868引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence，39（12）：2481-2495，2017。四、五[2] Francesco Castaldo ， Amir Zamir ， Roland Angst ，Francesco Palmieri，and Silvio Savarese.语义交叉视图匹配。在IEEE计算机视觉研讨会国际会议论文集，第9-17页2[3] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，第2672-2680页，2014年。2[4] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理 IEEE Transactions on Pattern Analysis and MachineIntelligence，30（2）：328-341，2008。4[5] Sixing Hu，Mengdan Feng，Rang MH Nguyen，and GimHee Lee. Cvm-net：用于基于图像的地对空地理定位的跨视图匹配网络。在IEEE计算机视觉和模式识别会议论文集，第7258-7267页，2018年。2[6] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125- 1134页，2017年。三六七八[7] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。在2015年学习代表国际会议的会议记录中。5[8] 李正奇和诺亚·斯内弗利。Megadepth：从互联网照片中学习在IEEE计算机视觉和模式识别会议论文集，第2041-2050页，2018年。3[9] Tsung-Yi Lin ， Yin Cui ， Serge Belongie ， and JamesHays.学习地对空地理定位的深度表示在IEEE计算机视觉和模式识别会议论文集，第5007-5015页2[10] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页，2015年。6[11] Mehdi Mirza和Simon Osindero条件生成对抗网，2014年。引用arxiv：1411.1784。4[12] 牟立超和朱小象。Im 2 height：通过完全残差卷积-解卷积网络从单目图像进行高度估计。arXiv预印本arXiv：1802.10249，2018。3[13] 秦荣军。Rpc立体处理器（rsp）-一个ISPRS Annals ofthe Photogramme- try ， Remote Sensing and SpatialInformation Sciences，3：77，2016.4[14] 秦荣军。从甚高分辨率多视角卫星图像中自动恢复3d。在ASPRS（IGTF）年度会议上，第10页，2017年。4[15] Krishna Regmi和Ali Borji。使用条件gans进行跨视角影像合成。在IEEE计算机视觉和模式识别会议论文集，第3501-3510页二、六、七、八[16] Krishna Regmi和Ali Borji。使用几何引导条件gans的交叉视图图像合成。arXiv预印本arXiv：1808.05469，2018。2[17] Krishna Regmi和Mubarak Shah地空影像匹配之领域缺口之桥接在IEEE国际计算机视觉会议（ICCV）上，2019年10月。2[18] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。三、四[19] Towaki Takikawa、David Acuna、Varun Jampani和SanjaFidler。Gated-scnn：用于语义分割的门控形状cnn。在IEEE计算机视觉国际会议论文集，第5229-5238页6[20] Yicong Tian，Chen Chen，and Mubarak Shah.城市环境中用于地理定位的跨视图图像匹配。在IEEE计算机视觉和模式识别会议论文集，第3608-3616页2[21] Nam N Vo和James Hays。使用头顶影像定位和定向街景。欧洲计算机视觉会议，第494-509页。施普林格，2016年。2[22] 斯科特·沃克曼，理查德·苏文尼尔，内森·雅各布斯。利用航空参考图像进行广域图像地理定位。在IEEE计算机视觉国际会议集，第3961-3969页，2015年。2[23] Menghua Zhai ， Zachary Bessinger ， Scott Workman ，and Nathan Jacobs.从航空影像预测地面场景布局。在IEEE计算机视觉和模式识别会议论文集，第867-875页，2017年。二、三[24] 张倩，秦荣军，黄欣，方勇，刘亮。结合dsm的双形态学礼帽轮廓分类超高分辨率正射影像。遥感， 7（12）：16422-16440，2015. 4[25] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。在CVPR，2018年。6[26] Bolei Zhou，Hang Zhao，Xavier Puig，Sanja Fidler，Adela Barriuso，and Antonio Torralba.通过ade20k数据集进行场景解析。在IEEE计算机视觉和模式识别会议论文集，2017年。6[27] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在IEEE计算机视觉国际会议论文集，第2223- 2232页，2017年。6[28] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei A Efros、Oliver Wang和Eli Shechtman。向多模态图像到图像翻译。在神经信息处理系统的进展，2017年。三、四

下载后可阅读完整内容，剩余1页未读，立即下载