Sat2Vid：卫星图像合成街景全景视频

139 浏览量更新于2023-10-14 收藏 22.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Zuoyue Li1 Zhenqiang Li2 Zhaopeng Cui3* Rongjun Qin4 Marc Pollefeys1,5 Martin R. Oswald1*1ETH Z¨urich 2The University of Tokyo 3Zhejiang University 4The Ohio State University 5Microsoft124360Sat2Vid：从单个卫星图像合成街景全景视频0摘要0我们提出了一种新颖的方法，从单个卫星图像和相机轨迹合成既具有几何一致性又具有时间一致性的街景全景视频。现有的交叉视图合成方法主要关注图像，而在这种情况下的视频合成尚未得到足够的关注。为了实现几何和时间上的一致性，我们的方法明确地创建了场景的3D点云表示，并在帧之间保持密集的3D-2D对应关系，这些对应关系反映了从卫星视图推断出的几何场景配置。至于在3D空间中的合成，我们实现了一个级联网络架构，其中包括两个沙漏模块，用于从语义和每类潜在向量生成点对点的粗糙和精细特征，然后进行帧投影和上采样模块以获得最终的逼真视频。通过利用计算出的对应关系，生成的街景视频帧符合3D几何场景结构并保持时间一致性。定性和定量实验表明，与其他缺乏时间一致性或逼真外观的最先进的合成方法相比，我们的方法具有更好的结果。据我们所知，我们的工作是第一个将交叉视图图像合成为视频的工作。01. 引言0街景图像已被证明对于探索偏远地区或在紧急情况或情报行动中进行战略地面规划非常有帮助。它们在虚拟或混合现实、逼真模拟和游戏、视角插值或交叉视图匹配等各种应用中都很有用。然而，它们的获取成本相对较高，并且需要定期更新以捕捉变化，以满足某些任务的需求。另一方面，卫星图像定期捕获，更容易获取，具有更好的地球覆盖范围，通常比街景图像更广泛地可用。街景视图的生成0*通讯作者。请使用Adobe Reader / KDEOkular查看动画，我们的补充材料和arXiv（https://arxiv.org/abs/2012.06628）中也提供了更高分辨率的动画。0图1：我们方法的街景全景视频合成结果（动画）。对于单个卫星图像和给定的轨迹（在图中用↑表示），我们学习合成相应的街景全景视频，既具有几何一致性又具有时间一致性。0因此，从给定的卫星或航拍图像中提取数据对于上述应用来说是一种有吸引力和有趣的替代方案。虽然最近已经研究了从卫星图像生成单个街景图像的方法[27,20]，但这些方法不适合在给定位置周围创建连续的视角变化，因为它们建立在随机生成器上，并且缺乏帧像素之间的对应约束。因此，它们无法合成时间和几何一致的图像序列，这对于更好的视觉体验是必要的。在本文中，我们提出了一种新颖的方法，尽可能真实和一致地合成街景全景视频序列，从单个卫星图像和给定的观看位置。为了实现这一目标，我们不采用像[27,20]那样的2D生成器，并单独生成图像，而是提出在点云的3D表示中生成整个场景，并建立这些可见点与2D帧像素之间的对应关系。通过这种方式，整个生成的场景实例的投影视图将在设计上自然一致。为了生成与单个图像一样好的图像帧，我们设计了一个两阶段的3D生成器，以粗到精的方式利用不同特征的特点。1243703D卷积神经网络。图1展示了我们合成结果的两个示例，很好地展示了我们生成的视频的时间一致性。我们的主要贡献可以总结如下：（1）我们提出了第一个从单个卫星图像和轨迹合成卫星到地面视频的工作。（2）我们提出了一种新颖的跨视角视频合成方法，通过明确建模三维点云表示中的帧间对应关系，并将投影几何约束融入我们的网络架构，确保空间和时间的一致性。（3）我们的方法在一个新构建的用于跨视角视频合成的数据集上在定性和定量上都优于多个基准方法，该数据集是从伦敦全景数据集[20]扩展而来的。源代码和预训练模型将在发表后公开发布。02. 相关工作0跨视角合成侧重于从给定图像的完全不同视角合成。这个领域中的大部分现有工作都针对单图像合成。一个非常典型的应用是从给定的卫星图像生成街景。Zhai等人[46]提出了学习将航空视角的语义分割映射到地面视角的方法，进而可以基于GANs[8]合成地面级别的视图。Regmi等人[27,28]提出使用条件GANs同时学习航空或地面视图图像和语义分割。为了保持几何一致性，Lu等人[20]提出了一个可微分的几何变换层，将语义标记的卫星深度图像转换为相应的街景深度和语义，以进一步生成街景全景图。转向跨视角视频合成领域，目前还没有太多涉及这个问题的工作，因为问题变得更加困难。虽然可以通过图像合成方法逐帧合成视频，但其时间一致性很难保证，这对于视频来说很重要。视频合成是一个在社区中引起更多关注的领域，并且根据给定的输入具有各种形式，可以大致分为以下三个类别。（1）无条件视频合成[18,31,39,40]通过将当前GAN框架在（空间）图像上进一步扩展到时间维度，从给定的输入随机变量生成视频剪辑。（2）未来视频预测[7,10,16,17,19,22,25,41,42]旨在根据到目前为止的当前观察推断视频的未来帧。（3）视频到视频合成[2,4,21,43,44]更接近我们的任务，它将一个源域的视频映射到目标域（例如，从一系列语义分割掩码或深度图像生成RGB图像）。与图像到图像的转换任务相比，它强调了一致性。0随着生成对抗学习框架和时空对抗目标的发展，Wang等人[44]旨在通过利用生成对抗学习框架和时空对抗目标来实现随时间生成的视频帧。Mallya等人[21]提出了一种增强方法，通过在后续帧生成过程中从逐渐着色的点云中投影出的引导图像来实现更长时间的一致性。然而，我们的工作中的跨视角视频合成设置仍然与所有这些类别不同，它应该考虑视频帧之间的时间一致性和顶部和底部视图之间的几何一致性。最近，随着深度神经网络的进步，新视角合成和神经渲染技术得到了快速发展。许多最先进的工作都集中在从单个图像合成。SynSin[45]通过学习的点云和可微分的软z-buffer方法提出了一个端到端的视角合成流水线，其中一个点使用α-合成与其他投影点（区域）一起投影到图像平面上的一个区域。Shih等人[32]将输入深度图像视为分层结构，并以空间上下文感知的方式将基于学习的修复模型合成的颜色和深度内容合成到遮挡区域中。这些方法通常假设视点变化很小，这使得直接使用它们几乎不可能。另一方面，使用多个图像输入[36,38,35,23,24]通常实现任意视点变化的合成和渲染。传统方法通常采用基于图像的渲染技术[33]生成新视角。Riegler等人[29]采用了图像特征的可微重投影。Sitzmann等人[35]从仅有的2D监督中学习了一个3D结构化场景表示，该表示编码了3D场景的视角相关外观。Sitzmann等人[36]进一步提出了一种隐式的3D场景表示，可以通过可微分的射线行进算法从2D图像中学习。Mildenhall等人[24]提出了将场景表示为5D神经辐射场的方法，可以渲染复杂场景的逼真新视角。Meshry等人[23]使用点云的附加深度和语义信息，以及编码的潜在向量，以不同的风格实现逼真的渲染。关于神经渲染的最新调查可以在[37,14]中找到。所有这些方法都需要一组图像或构建的点云作为输入，以便使用深度网络学习详细的3D场景表示。由于我们的输入只是一张卫星图像，对于网络来学习有意义的表示更加困难。03. 方法0我们引入了一种新的框架，用于从单个卫星图像合成街景全景视频，并在图2中提供了我们提出的流程概述。如图所示，我们使用级联的网络架构---124380卫星阶段转换阶段0多类0编码器0点云0带语义0精细特征0粗粒度特征0体素粗粒度生成点精细生成0连接和投影0街道0全景视频0RandLA0网络0SparseConvNet0体素网格0带语义0卫星深度0和语义0卫星图像0带轨迹0U0网络0可见点提取03D到视频生成阶段0上采样0模块0潜在向量0z0z0z0投影特征0图2：我们网络架构的概述。我们的网络由多个子网络组成，负责三个处理阶段之间的转换，以实现不同的场景表示。这些阶段包括：卫星阶段：通过2D U-Net[30]处理输入的卫星图像，生成具有相应语义的2.5D高度图。转换阶段：为了获得3D表示，将语义高度图转换为语义体素占用网格。然后根据输入轨迹的采样点提取可见点。3D到视频生成阶段：在3D域中操作的生成器从语义中推断出每个点的特征。级联的SparseConvNet [9]和RandLA-Net[11]都具有沙漏结构，分别对粗粒度和细粒度的生成进行操作。与[20]中使用单个种子不同，我们使用多类纹理编码器从输入的卫星图像计算多个潜在向量。最后，将具有连接特征的点云投影到每个帧上，最后使用轻量级网络进行上采样，将分辨率加倍。注意：（1）3D到视频生成阶段是在BicycleGAN[47]框架下进行训练的；（2）管道中包括天空点，但此处未可视化；（3）特征用伪彩色表示。0包括三个阶段：卫星阶段、转换阶段和3D到视频生成阶段。卫星阶段类似于当前最先进的方法S2G[20]，可以从输入的卫星图像估计深度图和语义。与S2G[20]中使用的地理变换层不同，该层将卫星域转换为街景视图，我们直接从构建的占用网格中提取可见点，根据给定的输入轨迹。在最后的3D到视频生成阶段，使用两个级联网络从语义生成特征点云，然后将其投影到每个视频帧上，并使用轻量级上采样模块。第二和第三阶段将在下面的小节中详细介绍。03.1. 可见点提取0我们首先使用卫星阶段的深度和语义图像构建语义体素占用网格。结合输入轨迹中的采样位置，我们创建一个仅包含可见点的点云，并建立3D-2D对应关系。这对应于为视频中的每个像素找到3D空间中的点的索引。每个像素都有一个唯一对应的3D点，而3D空间中的每个点可能对应多个像素。同样的映射也将用于在3D到视频生成阶段的最后一步中将彩色点云投影到视频帧上。0Alg.1描述了提取可见点和建立3D-2D对应关系的详细过程。该算法以体素化的占用网格V和有序采样位置L ∈ RT ×2作为输入。这里，T表示采样位置的数量，等于视频帧的数量。最终的输出包括一个有序集合PT，保存所有可见点的3D坐标（x，y，z），以及一个映射张量M ∈ RT × H ×W，用于保存所有2D帧像素的对应关系。每个元素Mtpq如果位置（t，p，q）的帧像素对应于PT中的第i个可见点，则保持索引值i。可见点集合和映射矩阵是迭代计算的。我们将当前迭代中点云Pt中没有对应点的所有帧像素的值设为0。在每个时间步t中，我们首先通过在占用网格V中进行z-buffer操作，根据位置Lt获取帧的密集深度图d ∈ RH × W。这个处理步骤与S2G[20]中提出的地理变换层相同。然后，通过project函数计算出一个初步的映射m ∈ {0，|Pt-1|} H ×W，它表示当前帧像素与到目前为止的可见点集合Pt-1之间的对应关系。mpq =i表示Pt-1中的第i个点投影到（p，q）位置的像素，并且深度值在dpq (1 ± ϵ)的范围内，否则mpq =0。在我们的实验中，我们将ϵ设置为0.5%。对于没有对应点的像素，即{（p，q）|mpq =0}，我们将它们投影到3D空间中，以获得一个额外的有序集合Pa，其中包含增量可见点，并保存了与这些像素和增量可见点之间的对应关系的额外映射ma。应注意的是，增量索引满足ma ∈{0，|Pt-1| + 1，...，|Pt-1| + |Pa|} H ×W，其中具有对应点的像素被赋予0，具有P a中的对应关系的像素的索引偏移了|Pt-1|。因此，m ⊙ ma = {0} H×W始终成立，其中⊙表示Hadamard乘积。最后，我们通过将Pt-1与Pa连接并将m + ma保存到Mt来更新可见点集合和映射张量。Input : V (occupancy grid), L (locations)Output: PT (point cloud), M (point-pixel mapping)Init: P, M ← {0}T ×H×W124390输入：V（占用网格），L（位置）输出：PT（点云），M（点-像素映射）初始化：P0 ←�，M ← {0} T × H × W0算法1：可见点提取0对于t从1到T的循环0d ← z-buffer（V，Lt） m ←project（Pt-1，Lt，d） Pa，ma ←unproject（Lt，d，m，|Pt-1|） Pt ←Pt-1 ∪ Pa Mt ← m + ma end0由于只有中心帧具有地面真实街景RGB，并且为了反映全景图像的投影特性，采样点的位置L按照c，c + 1，c - 1，c +2，c - 2的顺序输入到算法中，其中c是中心帧的索引。03.2. 3D生成器0在3D到视频生成阶段，我们首先从投影的语义中推断出3D空间中点云的特征。点的语义根据每个点在水平平面上的坐标从卫星语义中收集。远处的点被简单地标记为天空。提出的3D生成器由SparseConvNet [9]和RandLA-Net[11]组成，具有级联连接。这两个网络都在纯粹的3D领域中操作，并且具有连续作用于粗糙和精细生成的沙漏结构。最后，将点投影到帧上，通过轻量级上采样模块将帧进一步转换为输出视频。粗糙生成阶段基于体素。在该阶段开始时，根据目标体素大小首先对点云进行体素化。共享相同体素的多个点将被平均为该体素的特征。在我们的实验中，体素大小设置为3.125cm（每米32个体素）。SparseConvNet[9]仅在体素网格的占用区域上操作，避免在自由空间上进行不必要的计算，从而实现时间和内存高效的3D卷积。最后，网络的输出被解体为点云。同样，共享相同体素的点将被分配给相同的特征。0如图2所示，具有中间粗糙特征的可视化点云已经显示出了一些建筑物立面的特征，如窗户。精细生成阶段基于点云。该阶段的输入是中间粗糙特征和跳跃连接中的原始点语义的串联。RandLA-Net[11]是一种用于大规模点云语义分割的高效轻量级先进架构。我们利用该网络推断每个点的精细特征。我们将最近邻数设置为8，并将其局部特征聚合模块中的降采样比例设置为4。然后，视频帧中的每个像素根据变换阶段计算的点-像素映射M从相应的点云中收集粗糙和精细特征。最后，上采样模块将分辨率加倍，并将具有丰富特征的帧转换为输出的RGB视频。为了不破坏来自3D空间的一致性，该模块仅设计有非常少的参数。之所以使用这两个网络的级联架构而不仅仅使用RandLA-Net，是因为其高效的设置使网络的大小相当小，但容量可能不足以支持场景生成。借助学习高级特征的SparseConvNet，RandLA-Net可以更好地从局部信息中推断出精细特征。我们还在只使用RandLA-Net的生成器上进行了实验，详见第4.4节。03.3. 多类别编码器0S2G [20]遵循BicycleGAN[47]在生成整个场景时使用单个潜在向量的方法。相反，我们使用多类别纹理编码器，每个类别计算多个潜在向量，以丰富生成场景的多样性。我们流水线中使用的BicycleGAN[47]中的编码器在训练过程中以真实的街景RGB和中心帧的语义作为输入。这里的语义的作用是用于注意力池化的指示器。在获取整个图像的特征图F之后，编码器不直接执行平均池化，而是对具有相同语义类别的像素的特征进行池化，最终获得多个潜在向量。对于特定的类别c，其对应的语义映射Sc用于注意力池化，最终获得该类别的潜在向量vc，即vc = ( �0ij Sc ij)，其中i，j表示空间索引。卫星图像的编码器类似于BicycleGAN中的编码器。在训练过程中，目标是使生成的潜在向量尽可能与BicycleGAN中的编码器生成的潜在向量相似。由于一些类别，例如天空和人行道，可能无法从卫星图像中推断出来，在训练过程中对这些类别的潜在向量没有损失，并且在推断过程中直接给出随机向量。124400卫星真实数据 S2G-F [20] S2G-I [20] Vid2Vid [44] WC-Vid2Vid [21] Sat2Vid（本文方法）0图3：定性基线比较（动画）。我们展示了在各种示例上与最先进技术的比较。我们的方法生成更真实、具有更好的时间一致性和更少的伪影的视频。04. 实验04.1. 真实数据0据我们所知，目前还没有可用的数据集同时提供卫星图像和相应的街景全景视频。作为第一个从单个卫星图像生成街景视频的工作，我们首先生成了一个满足任务要求的数据集。具体而言，我们通过生成街景视频片段的真实数据来扩展S2G[20]中使用的伦敦全景数据集。原始数据集包括约2K对卫星图像和相应的街景全景，这些全景是在卫星图像的中心位置拍摄的。卫星图像的估计深度（高程）和语义也作为真实数据提供。简而言之，我们通过点云在3D空间中插值真实的街景全景视频，该点云的几何形状是通过中心位置的可用街景全景的估计深度计算的。我们将详细说明如下。0采样轨迹。伦敦全景数据集[20]中提供的每个单个街景全景图像都是在卫星图像的中心拍摄的，并且与方向相关联。为了生成环绕该图像位置的街景全景视频，我们在训练和推理中将采样路径设置在从观看中心向前和向后的总范围为7米的范围内。采用0.5米的间隔步长，总共采样了15帧，包括中心帧，形成一个视频。为了简洁起见，我们将提供的单个街景全景图像称为中心帧。0几何。为了在新的位置生成全景帧，既使用了通过点云的插值，也使用了简单的变形。0变形需要准确的场景几何。然而，由于卫星图像的分辨率有限且地面真实高程不够准确，很难从卫星图像中推断出准确的几何形状。因此，我们从可用的中心帧而不是卫星图像中推断出场景几何形状。我们首先使用MiDaS[26]生成中心帧的密集深度图，MiDaS是一种用于单目深度估计的最先进方法。尽管预训练模型使用针孔图像，但对于全景图像仍然有效。我们通过确保观看中心（站立点）的高度为3米来对深度图进行归一化。然后，我们将中心帧深度解投影生成原始的3D点云，并通过将点云重新投影到每个帧中获得其他帧的深度。对于没有有效投影的位置，我们通过利用OpenCV的修复函数推断其缺失的深度值。通过根据深度将每个帧投影到3D空间中，可以构建最终的点云。0通过点云插值。只有从中心帧未投影的点具有准确的RGB信息。对于点云中的其他点，我们通过最近邻搜索来补充它们的颜色。具体而言，对于每个未着色的点，我们搜索其32个最近邻的中心帧点，这些点具有有效信息，并通过基于距离的加权平均值确定其RGB。最后，通过将所有着色点重新投影到帧上，我们得到了一个质量良好的视频。生成的地面真实视频示例可见于图3。0语义。获取街景语义视频遵循上述过程。我们首先采用DeepLab v3+ [3]，它具有Xception 71[5]骨干网络，并在Cityscapes[6]数据集上进行了预训练，以获取中心帧的语义。与SegNet [1]相比，DeepLab v3+生成更准确的语义。124410方法 PSNR ↑ SSIM ↑ 锐度差异 ↑ P Alex ↓ P Sqz ↓ P VGG ↓0Pix2Pix [13] - / 13.257 - / 0.313 - / 24.673 - / 0.606 - / 0.478 - / 0.629 Regmi et al. [27] - / 13.305 - / 0.320 - / 24.560 - / 0.587 - / 0.443 - / 0.600S2G-F [20] 14.110 / 14.146 0.347 / 0.346 25.851 / 25.861 0.530 / 0.528 0.422 / 0.422 0.626 / 0.626 S2G-I [20] 14.169 / 14.146 0.365 / 0.346 26.137 /25.861 0.520 / 0.528 0.404 / 0.422 0.594 / 0.626 Vid2Vid [44] 13.546 / 13.502 0.391 / 0.390 25.552 / 25.553 0.488 / 0.483 0.363 / 0.361 0.545 / 0.544WC-Vid2Vid [21] 13.879 / 13.904 0.346 / 0.345 25.400 / 25.410 0.508 / 0.502 0.369 / 0.367 0.556 / 0.5540Sat2Vid（我们的方法）15.171 / 15.220 0.409 / 0.410 26.068 / 26.060 0.482 / 0.478 0.342 / 0.342 0.535 / 0.5330表1：定量基准比较。对于每个条目，我们报告两个数字，分别表示对所有帧和仅对中心帧的评估。我们的方法在大多数指标上优于所有基准。0S2G [ 20 ]，DeepLabv3+生成更准确的语义。其他帧的语义通过上述最近邻搜索进行补充，而不是使用加权平均值进行RGB。04.2. 实现细节0我们的框架使用PyTorch实现，并在一块32GB内存的Nvidia Tesla V100GPU上运行。对于数据集，我们保持输出分辨率为512×256，以使每个场景的点云大小约为200K。占用栅格的体素大小和射线行进中的采样大小均为0.5m，这限制了在构建粗糙体素栅格的对应映射时可能发生的精度损失。在训练过程中，我们使用卫星深度的几何信息与推理阶段保持一致。对于网络架构，采用了BicycleGAN[47]的默认训练设置，使用16作为潜在向量的大小和64作为中间特征的大小。多噪声编码器只接受中心帧作为输入。我们进一步区分语义标签中的左右建筑物，以实现更好的多样性。对于3D生成器，我们使用了SparseConvNet[9]和RandLA-Net [11]框架下提供的默认U-Net[30]实现，这些框架最初用于点云语义分割。训练过程从头开始需要大约5天，而使用上述分辨率生成15帧视频的推理过程需要大约2.8秒。卫星阶段的训练和验证遵循[20]。语义分割的mIoU和准确率分别为0.755和0.865，而高度估计的平均相对误差和绝对误差分别为4.17%和2.86m。更多实现细节可以在补充材料中找到。04.3. 基准比较0由于我们是第一个提出从单一卫星图像生成街景全景视频的方法，我们设计了两种基准方法，通过调整最先进的街景全景图像合成方法S2G [20]来生成视频：(1)S2G-F：每个帧都是单独生成的，但共享从输入卫星图像编码的相同潜在向量；(2)S2G-I：只生成中心帧，其他帧由我们插值生成。0在第4.1节中描述的点云着色过程中，我们进行了比较，包括Vid2Vid [44]和WC-Vid2Vid[21]，它们最初是为视频到视频的转换而设计的。我们生成了额外的逐帧语义和像素对应关系（仅适用于WC-Vid2Vid），以满足它们的输入要求。比较是在伦敦全景测试集[20]上进行的。对于定量评估，我们遵循[20]，使用PSNR、SSIM和锐度差（SharpDiff.）作为低级指标，衡量预测帧与真实视频之间的逐像素差异。还考虑了高级感知相似性。P Alex、P Sqz、PVGG表示基于AlexNet [15]、SqueezeNet [12]和VGG[34]的评估结果。除了上述两个基准，我们还与两个图像到图像转换的工作Pix2Pix [13]和Regmi[27]在中心帧生成上进行了比较。定量结果如表1所示。对于视频生成比较，我们的改进性能可能来自于我们生成的视频的更好的时间一致性，因为所有方法都使用了从输入卫星图像推断出的相同几何信息。关于中心帧比较，我们在所有指标上都优于所有最先进的方法，这表明我们的方法在生成几何一致的单一街景全景图方面具有优势。图3展示了更多的定性结果。我们可以看到，我们的方法生成的帧在时间和几何上都是一致的。由于S2G-F[20]中的每个帧是独立合成的，不同帧中的纹理几乎是静止的，并且当观察位置改变时它们之间没有连续的过渡。Vid2Vid[44]在每帧外观上更好，但仍然存在静止模式的问题。这可能是由于其网络内部的光流估计不准确。对于S2G-I[20]，我们可以看到插值可以确保帧之间的纹理一致性，因为每个帧的纹理都来自中心帧，并且基于几何信息。然而，很容易发现远离中心帧的帧中的纹理很可能模糊，特别是在中心帧中看不见的建筑立面上。WC-Vid2Vid[21]通常具有良好的一致性，因为提供了像素对应关系作为输入。然而，它们的外观，特别是124420方法MSE RGB ↓ PSNR ↑ SSIM ↑ 锐度差异 ↑ P Alex ↓ P Sqz ↓ P VGG ↓ 用户研究0Vid2Vid [44] 21.605 21.764 0.774 30.950 0.116 0.077 0.211 0 9.3% WC-Vid2Vid [21] 10.604 27.783 0.871 35.296 0.108 0.074 0.176 32.6%0Sat2Vid（我们）0 1.668 43.982 0.997 50.748 0.006 0.007 0.021 58.1%0表2：定量的时间自一致性。评估基于U形轨迹。我们的方法优于所有基线，因为它们不能处理长距离的时间一致性。0图4：定性的时间自一致性（动画）。视频在U形轨迹上合成。0建筑立面在不同示例中看起来相似。时间自一致性。为了评估不同方法之间合成视频帧的时间自一致性，我们设计了一个基于特殊的U形轨迹的实验，总共有60帧。然后计算两个相同位置的帧在两个方向上的逐像素差异。这样的评估旨在评估帧在一个连续合成中的时间自一致性。除了表1中使用的度量标准外，我们还比较了RGB的MSE值。此外，我们进行了一项用户研究，我们提供了随机选择的15个样本（包括10个前向运动和5个U形转弯），并提供了Vid2Vid[44]，WC-Vid2Vid[21]和我们的结果。我们要求28个人为每个样本选择最佳自然性和一致性的结果，总共有420票。表2详细列出了所有时间自一致性的评估以及用户研究的投票比例。我们还在图4中展示了U形轨迹的结果。定量和定性结果都表明，我们的方法在帧之间具有显著更好的自一致性，优于两种强基线方法。有关更多实验结果和与基线的比较，请参阅补充材料。04.4. 消融研究0为了更好地评估我们方法的各个组成部分的有效性，我们还通过逐步将组件添加到基本框架中进行了消融研究。具体而言，我们关注以下三个组件：（1）用于3D生成器的SparseConvNet[9]；（2）多个潜在向量的设置；（3）最终的上采样模块。我们将基本框架设置为仅包含RandLA-Net[11]的流水线。0在我们的方法中，我们拥有所有组件，而基本框架只有RandLA-Net[11]。表3显示了消融研究的定量评估结果。表中方法名称的缩写定义如下。R：基本框架，使用RandLA-Net[11]和3D生成阶段的全局潜在向量；R+S：进一步将SparseConvNet[9]纳入粗糙和精细生成框架；R+S+M：进一步使用多类编码器到R+S设置中；R+S+M+U：进一步添加上采样模块，形成我们的最终方法，具有所有组件。通过PSNR、PAlex和PSqz指标的明显性能改进，清楚地显示了每个添加组件的有效性。图5进一步展示了上述方法生成的结果的定性比较。如图所示，完整框架生成的帧在时间上具有更高的一致性和平滑性，与其他消融变体相比。特别是SparseConvNet[9]（R+S）的添加显著提高了生成质量，相比仅使用RandLA-Net[11]的基本设置（R），后者只能提供整体颜色，无法恢复纹理细节，例如建筑立面。我们认为主要原因是将粗糙生成和精细生成明确分配给两个级联的不同网络。这减轻了RandLA-Net[11]在生成粗糙和精细纹理时的困难。引入多类编码器生成多个潜在向量（R+S+M）后，性能进一步提高，因为它将不同类别的潜在向量解耦，并实现更多的生成可能性。上采样模块（R+S+M+U）进一步提高了分辨率，使帧更清晰和逼真。我们还尝试直接将卫星图像作为上采样模块输入的一部分，以更好地利用输入信息。然而，对此添加（R+S+M+U+W）的评估结果显示较低的PSNR和SSIM指标，以及感知相似性，这表明扭曲的卫星图像并没有直接提供有用的信息。这可能是由于分辨率有限，以及像投影阴影之类的伪影，使得难以提取有用的颜色信息。图6显示了两个扭曲的卫星图像的示例。在一些情况下，如第一个示例，道路和车道线可以扭曲成街景，尽管非常模糊。在大多数情况下，如第二个示例，被邻近建筑物的阴影覆盖的道路导致非常黑暗的扭曲结果。这也说明了从单个卫星图像生成跨视图视频的困难性。124430方法 PSNR ↑ SSIM ↑ 锐度差异 ↑ P Alex ↓ P Sqz ↓ P VGG ↓0R 13.686 / 13.739 0.417 / 0.417 25.726 / 25.736 0.584 / 0.580 0.443 / 0.443 0.621 / 0.619 R+S 14.551 / 14.590 0.402 / 0.403 25.493 / 25.479 0.561 /0.564 0.404 / 0.402 0.572 / 0.568 R+S+M 14.655 / 14.714 0.385 / 0.391 25.811 / 25.823 0.551 / 0.546 0.403 / 0.399 0.576 / 0.5720R+S+M+U (我们的) 15.171 / 15.220 0.409 / 0.410 26.068 / 26.060 0.482 / 0.478 0.342 / 0.342 0.535 / 0.533 R+S+M+U+W 14.546 / 14.576 0.394/ 0.394 26.341 / 26.349 0.503 / 0.500 0.345 / 0.346 0.541 / 0.5390表3：定量消融研究。对于每种方法，我们报告两个数字，分别表示对所有帧和仅对中心帧进行评估。简而言之，消融包括：R：基本框架与RandLA-Net [11]；+S：添加SparseConvNet[9]；+M：多噪声编码器；+U：上采样模块；+W：变形卫星信息。0卫星地面真实 R R+S R+S+M R+S+M+U (我们的) R+S+M+U+W0图5：定性消融研究（动画）。我们展示了我们方法各种消融的示例性定性结果。合成的视频在视觉上包含更多细节，并且使用我们的完整方法实现了更高水平的真实感。0图6：变形彩色卫星信息。示例说明了变形卫星图像的低质量，这些图像通常不提供有用的彩色信息。04.5. 限制和未来工作0由于所提出的方法建立在卫星图像的高度估计和语义分割基础上，最终合成的视频可能会因为潜在的高度和语义估计不准确而存在一些几何不一致性。此外，我们的方法还无法处理具有悬挂结构（如立交桥或突出的屋顶）的建筑物，因为它们无法在俯视图的2.5D高度图中很好地表示。此外，随着视频帧数的增加，点云大小将会爆炸，导致3D卷积中可能出现内存问题。这目前限制了超分辨率视频的可实现性以及在更长的轨迹导航或大规模场景中的应用。虽然我们可以将区域划分为多个块并进行分别生成，但是块之间的纹理一致性可能无法得到很好的保证，这可以进一步改进。0未来的工作还可以将单个街景全景作为额外输入，以指导生成并使合成的视频尽可能真实。此外，跨视角视频合成领域还可以推广到室内场景，例如从单个楼层平面布局生成导航视频，用于虚拟房屋参观。05. 结论0我们提出了一种新颖的跨视角视频合成方法。具体而言，我们提出了一个多阶段的流程，以单个卫星图像和给定的轨迹作为输入，生成具有几何和时间一致性的街景全景视频，并在3D点云中进行约束。我们的实验证明，我们的方法优于现有的跨视角生成或视频翻译方法，并能够合成更具真实感的街景全景视频。我们将我们的工作视为构建更强大的3D感知生成网络的基础研究。与视频翻译方法相比，我们的方法可以生成逼真的视频，而无需几乎不可用的对齐帧输入。据我们所知，我们提出了第一个在跨视角设置下合成视频的工作。0致谢。ZuoyueLi得到了瑞士数据科学中心奖学金计划的支持。崔兆鹏隶属于浙江大学CAD&CG国家重点实验室。秦荣军得到了海军研究办公室资助的N000141712928号项目的支持。Martin R. Oswald得到了Inno-suisse 34475.1IP-ICT号项目的支持，并获得了FIFA的研究资助。124440参考文献0[1] Vijay Badrinarayanan，Alex Kendall和RobertoCipolla。SegNet：用于图像分割的深度卷积编码器-解码器架构。《IEEE模式分析与机器智能（TPAMI）》杂志，2017年。 50[2] Caroline Chan，Shiry Ginosar，Tinghui Zhou和Alexei AEfros。Everybody dancenow.在《计算机视觉IEEE国际会议论文集》中，页码5933-5942，2019年。 20[3] Liang-Chieh Chen，Yukun Zhu，GeorgePapandreou，Florian Schroff和HartwigAdam。具有孔分离卷积的编码器-解码器用于语义图像分割。在ECCV中，2018年。 50[4] Yang Chen，Yingwei Pan，Ting Yao，Xinmei Tian和TaoMei。Mocycle-gan：无配对视频到视频的转换。在第27届ACM国际多媒体会议论文集中，页码647-655，2019年。 20[5] FrancoisChollet。Xception：使用深度可分离卷积进行深度学习。在《计算机视觉和模式识别IEEE会议论文集》中，2017年7月。 50[6] Marius Cordts，Mohamed Omran，SebastianRamos，Timo Rehfeld，Markus Enzweiler，RodrigoBenenson，Uwe Franke，Stefan Roth和BerntSchiele。用于语义城市场景理解的Cityscapes数据集。在《计算机视觉和模式识别IEEE会议论文集》中，2016年6月。 50[7] Chelsea Finn，Ian Goodfellow和SergeyLevine。通过视频预测进行物理交互的无监督学习。arXiv预印本arXiv:1605.07157，2016年。 20[8] Ian Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，Sherjil Ozair，AaronCourville和YoshuaBengio。生成对抗网络。在《神经信息处理系统进展》中，页码2672-2680，2014年。 20[9] Benjamin Graham，Martin Engelcke和Laurens van derMaaten。使用子流形稀疏卷积网络进行3D语义分割。在《计算机视觉和模式识别IEEE会议论文集》中，2018年6月。 3 , 4 , 6 ,7 , 80[10] Zekun Hao，Xun Huang和SergeBelongie。使用稀疏轨迹进行可控视频生成。在《计算机视觉和模式识别IEEE会议论文集》中，页码7854-7863，2018年。 20[11] Qingyong Hu，Bo Yang，Linhai Xie，StefanoRosa，Yulan Guo，Zhihua Wang，Niki Trigoni和AndrewMarkham。Randla-net：大规模点云的高效语义分割。在《计算机视觉和模式识别IEEE/CVF会议论文集》中，2020年6月。 3 , 4 , 6 , 7 , 80[12] Forrest N Iandola，Song Han，Matthew WMoskewicz，Khalid Ashraf，William J Dally和KurtKeutzer。SqueezeNet：具有50倍少参数和0.5MB模型大小的Alex

下载后可阅读完整内容，剩余1页未读，立即下载