无限自然：基于单幅图像的永久视图生成

143 浏览量更新于2023-10-13 收藏 1.65MB PDF 举报

单幅图像

视图合成

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14458无限自然：基于单幅图像的自然景物永久视图生成刘君彦*理查德·塔克瓦伦·詹帕尼阿梅什·马卡迪亚诺亚·史奈夫利Google Research金泽昂珠输出帧...图1. 永久视图生成。使用一组自然场景的航拍视频进行训练（左），我们的方法学会了拍摄一张图像，并为覆盖长距离的相机轨迹（右）永久生成新的视图。我们的方法可以成功地生成数百帧的航拍视频从一个单一的输入图像（这里显示的500）。摘要我们介绍的问题，永久的视图生成-远程生成的新的意见，对应于一个任意长的相机轨迹给定的一个单一的图像。这是一个具有挑战性的问题，远远超出了当前视图合成方法的能力，这些方法在出现大的相机运动时会迅速用于视频生成的方法还具有有限的产生长序列的能力，并且通常对场景几何形状是不可知的我们采取了一种混合的方法，集成了几何和图像合成在一个迭代的“渲染，细化和重复”的框架，允许长距离生成，覆盖数百帧后的大距离。我们的方法可以从一组单目视频序列进行训练我们提出了一个数据集的空中镜头的海岸场景，和com-american我们的方法与最近的视图合成和有条件的视频生成基线，表明它可以生成合理的场景更长的时间范围内的大型摄像机轨迹相比，现有的方法。项目页面https://infinite-nature.github.io。1. 介绍考虑图1中海岸线的输入图像。1.一、想象一只鸟飞过这个场景。最初，当我们接近它们时，我们会看到物体在我们的视野中生长。* 表示贡献在更远的地方，我们可能会发现广阔的海洋或新的岛屿。在岸边，我们可能会看到悬崖或海滩，而内陆可能会有山脉或森林。作为人类，我们善于根据自己的经验，从一张图片中想象出一个看似合理的世界我们如何在计算机上模拟这种能力一种方法是尝试从单个图像生成具有高分辨率细节的整个3D行星。然而，这将是极其昂贵的，并且远远超出了现有技术的水平因此，我们提出了更易处理的永久视图生成问题：给定场景的单个图像解决这个问题可以在内容创建、新颖的照片交互以及使用学习世界模型（如基于模型的强化学习）的方法中具有应用。永久视图生成虽然简单，但却是一项极具挑战性的任务。随着视点的移动，我们必须在看不见的区域中推断新的内容，并在现在更接近相机的现有区域中合成新的细节两个活跃的研究领域，视频合成和视图合成，由于不同的原因都未能扩展到这个问题。最近的视频合成方法将图像合成[20]的发展应用于时间域，或者依赖于循环模型[10]。但是它们只能生成有限数量的新颖帧（例如，25 [41]或48帧[9]）。此外，这种方法往往忽略了一个重要的元素-火车测试输入图像t=5205010015020030050014459视频结构的元素-它们既不对场景几何形状也不对摄像机运动建模。与此相反，许多视图合成方法确实利用几何来合成尺寸高质量的新颖视图。然而，这些方法只能在相机运动的有限范围内操作。如图6所示，一旦相机移动到该范围之外，这种方法就会灾难性地失败。我们提出了一个混合框架，利用几何和图像合成技术来解决这些挑战。我们使用视差图来表示场景首先，我们从新的视点渲染当前帧，使用视差来确保场景内容以几何上正确的方式移动。然后，我们细化所得到的图像和几何形状。此步骤将在需要补绘或去绘的区域中添加细节并合成新内容。因为我们同时细化图像和视差，所以整个过程可以以循环的方式重复，从而允许以任意轨迹永久生成。为了训练我们的系统，我们从700多个视频中整理了一个大型的自然和沿海场景无人机镜头数据集，跨度为200万帧。我们从运动管道中运行一个结构来恢复3D相机轨迹，并将其称为航空摄影线图像数据集（ACID）。我们的训练模型可以生成数百帧的序列，同时保持空中海岸视频的美感，即使在几帧之后，相机已经超出了初始视图中描绘的场景的限制我们的实验表明，我们的新的渲染-细化-重复框架，通过视差图的几何传播，是解决这个问题的关键。与最近的视图合成和视频生成基线相比，我们的方法可以在更长的时间范围内产生合理的帧这项工作是朝着永久视图生成迈出的重要一步，尽管它有局限性，例如在幻觉世界中缺乏全局一致性我们相信，我们的方法和数据集将导致进一步的进展，为大规模场景的生成方法。2. 相关工作图像外推。我们的工作受到Kaneva等人开创性工作的启发。[19]，其提出了用于通过拼接2D变换图像来生成“无限”图像的非参数方法我们在一个学习框架中重新审视了“无限图像”的概念，该框架还对每个图像背后的3D几何结构进行了推理。与我们的工作相关的还有最近针对outpainting问题的深度学习方法，即，推断图像边界外的不可见内容[44，46，36]，以及补绘，填充图像内缺失内容的任务[15，50]。这些方法使用对抗性框架和内/外绘的语义信息。我们的问题还包括超分辨率的方面[14，22]。特定于图像的GAN方法还展示了纹理和自然图像的图像外推和超分辨率的形式[53，34，30，33]。与上述方法相比，我们的原因是每个图像背后的3D几何形状和研究图像外推的时间图像序列生成的上下文中。视图合成。许多视图合成方法通过在场景的多个视图之间进行插值来操作[23，3，24，12，7]，尽管最近的工作可以仅从单个输入图像生成新视图，如我们的工作[5，39，25，38，31，6]。然而，在这两种设置中，大多数方法仅允许非常有限的输出视点范围。即使是明确允许视图外推（而不仅仅是内插）的方法，通常也会将相机运动限制在参考视图周围的小区域[52，35，8]。限制相机运动的一个因素是许多方法构造静态场景表示，诸如分层深度图像[39，32]、多平面图像[52，38]、点云[52，38]、多平面图像[52，39]和多平面图像[52，39][25，45]或辐射场[48，37]，并对未遮挡区域进行补绘。这样的表示可以允许快速渲染，但是可行的相机位置的范围受到场景表示的有限边界的限制。一些方法增强了这种场景表示范例，使得能够有限地增加输出视图的范围。Niklaus等人在渲染后执行修复[25]，而SynSin使用渲染后细化网络从特征点云生成逼真的图像[45]。我们从这些方法中获得灵感，通过渲染，然后改进我们的输出.然而，相比之下，我们的系统不构造场景的单个3D表示。相反，我们迭代地进行，从前一个输出视图生成每个输出视图，并为每个帧产生视差图形式的几何场景表示。一些方法使用视频作为训练数据。单目深度可以从3D电影左右相机对中学习[27]或来自用运动恢复结构技术分析的视频序列[4]。视频也可以直接用于视图合成[38，45]。这些方法使用成对的图像，而我们的模型是在几个宽间隔帧的序列上训练的，因为我们想要生成长距离视频。视频合成。我们的工作涉及从一个或多个图像生成视频序列的方法[42，11，43，10，40，47]。许多这样的方法都集中在用静态相机预测动态对象的未来，通常使用人类行走的简单视频[2]或机器人手臂[11]。相比之下，我们专注于大多数静态场景与移动相机，使用真实的空中视频的性质。一些最近的研究解决了从具有移动相机的野外视频的视频合成[9，41]，但是没有明确地考虑几何学，并且对所生成的视频的长度与此相反，在我们的工作14460∈RR不.01输入：RGB-D，摄像头渲染优化输出：RGB-D图2.概况. 我们首先使用视差将输入图像渲染到新的相机视图。然后，我们优化图像，合成和超解析丢失的内容。当我们输出RGB和几何体时，这个过程可以重复进行，以生成永久视图使用3D几何形状明确地对来自相机运动的像素的移动进行建模。3. 永久视图生成给定RGB图像I0和相机轨迹（P0，P1，P2，. . . ），我们的任务是输出一个新的图像序列（ I0 ， I1 ，I2，. . . ），其形成描绘由ini-训练数据的长度是有限的。形式上，对于具有姿态Pi的图像I t，我们具有相关联的视差（即，逆深度）映射DtRH×W，并且我们将下一帧It+1及其视差Dt+1计算为It+1，Dt+1，Mt+1=R（It，Dt，Pt，Pt+1），（1）It+1，Dt+1=gθ（It+1，Dt+1，Mt+1）.（二）tial view.轨迹是一系列3D相机姿势在这里D是渲染图像P =. R3×3t3×1Σ，其中R和t是3D旋转，It+1电话+1翻译，分别。此外，每个相机具有固有矩阵K。在训练时间，经由如[52]中的运动恢复结构从视频剪辑获得相机数据。在测试时，相机轨迹可以是预先指定的、由自动导航算法生成的、或经由用户界面控制的。3.1. 方法：渲染、优化、重复我们的框架以一种新颖的组合应用了现有的技术（3D渲染，图像到图像的翻译，自回归训练）我们将永久视图生成分解为三个步骤，如图2所示：1. 通过使用不同的渲染器根据视差图扭曲图像，从旧视图渲染2. 优化渲染视图和几何体以填充缺失的内容并在必要时添加细节，3. 重复此过程，传播图像和视差，以从之前的视图生成每个新视图。我们的方法有几个可取的特点。用视差图表示几何允许大部分的可微分渲染器 [13] 。该函数还返回一个掩码 M（ t+1），表示图像的哪些区域丢失并需要填充。细化网络然后，gθ对这些输入进行内绘、外绘和超解析，以产生下一帧It+1及其视差Dt+1。该过程在训练期间迭代地重复T个步骤，并且在测试时间针对任意长的相机轨迹。接下来，我们将详细讨论每一步。几何体和渲染。我们的渲染步骤使用可区分的网格渲染器[13]。首先，我们将I t中的每个像素坐标（u，v）及其对应的视差dinDt转换为相机坐标系中的3D点：（x，y，z）=K−1（u，v，1）/d。然后，我们将图像转换为3D三角形网格，其中每个像素都被视为连接到其邻居的顶点，准备渲染。为了避免深度不连续处的拉伸三角形伪影，并通过识别要修复的区域来帮助我们的细化网络，我们通过对视差的梯度进行阈值化来计算每像素的二进制掩码Mt∈RH×W图像Dt，使用Sobel滤波器计算将像素从一个帧移动到下一个帧的繁重提升，以通过可区分渲染来处理，从而确保局部时间一致性。合成任务就变成了一个M=0哪里||D||>α，t1否则。（三）的图像细化，其包括：1）修复被破坏的区域，2）新图像区域的外涂，以及3）超分辨率图像内容。因为每一步都是完全可微的，所以我们可以通过几次视图合成迭代来反向传播来训练我们的精化网络我们的自回归框架意味着新的视图可能会无限地产生显式的视图控制，即使我们使用3D网格从新视图P t+1渲染图像和遮罩，并将渲染的图像元素乘以渲染的遮罩以得到g iv eIt+1。渲染器还输出从新相机看到的深度图，我们将其转化并乘以渲染的遮罩以获得Dt+1。遮罩的这种使用确保了It+1和Dt+1中在It中被遮挡的许多区域被遮罩掉并设置为零重复It和视差Dt从新相机Pt+1，使用14461γ可微分网格渲染器输入：RGB，视差改进网络渲染：RGB、遮罩、视差精炼：RGB，视差重构损失对抗性损失图3. 渲染和优化步骤的图示。左：我们的可微分渲染阶段从视点P 0获取成对的RGB图像和视差图，并创建纹理网格表示，我们从新视点P1渲染，扭曲纹理，调整视差，并返回表示要填充的区域的二进制掩码。右图：细化阶段获取渲染器的输出，并使用深层网络来填充漏洞并添加细节。输出是一个新的RGB图像和视差图，可以用重建和对抗损失来（以及在先前相机的视场之外的区域这些区域是优化步骤必须进行内部绘制（或外部绘制）的区域。粉红色显示的缺失区域示例见图2和图3精炼和合成。给定渲染图像It+1、其视差Dt+1和其掩模Mt+1，我们的下一个任务是细化该图像，其包括模糊区域和缺失区域。像素与之前的修复工作[49，36]相比，细化网络还必须执行超分辨率，因此我们不能在细化渲染图像时使用合成操作。相反，我们将细化步骤视为生成式图像到图像翻译任务，并采用最先进的SPADE网络架构[26]用于我们的gθ，其直接输出It+1，Dt+1。我们对I0进行编码以提供该架构所需的附加GAN噪声输入详见补充资料。冲洗并重复。前面的步骤允许我们生成一个新视图。我们的方法的一个关键方面是，我们不仅细化RGB，而且视差，使场景几何在帧之间传播。通过这种设置，我们可以使用细化的图像和视差作为下一个输入以自回归方式训练，损失在多个步骤上反向传播。其他视图合成方法，尽管不是以这种方式设计的，也可以在循环设置中训练和评估，尽管天真地重复这些方法而不传播几何形状，因为我们需要在每个步骤中从头开始重新推断几何形状。正如我们在第6节中所示，用重复步骤训练和评估这些基线仍然不足以生成永久视图。几何接地，以防止漂移。生成长序列的关键挑战是处理错误的累积[28]。在当前预测影响未来输出的系统中，每次迭代中的小错误可能会产生复合，最终生成训练期间所见分布之外的预测，并导致意外行为。IORS在训练过程中重复生成循环并向网络提供自己的输出，可以改善漂移并提高视觉质量，如我们的消融研究所示（第6.2节）。然而，我们注意到，特别是在测试时，差异仍然可以漂移，特别是随着时间的推移，horizons远远长于在训练期间看到的。因此，我们增加了一个明确的几何重新接地的视差图。具体而言，我们利用渲染过程提供了从一个新的可见点Dt+1，用于前一个的可见区域frame. 细化网络可以在其细化孔和模糊区域时修改这些值，这可以导致随着总体视差变得逐渐大于或小于预期而然而，我们可以通过经由求解来计算比例因子γ，min||M⊙（lo g（γDt+1）−lo g（Dt+1））||（四）通过按γ缩放细化的视差，我们的方法确保视差图保持在一致的尺度，这显著地减少了测试时的漂移，如第6.3节所示。4. 航空海岸线影像数据集学习生成长序列需要真实的图像序列进行训练。用于视图合成的许多现有数据集那些确实有序列的序列在长度上受到限制：例如，RealEstate10K主要是室内场景，相机移动有限[52]。为了用移动的摄像机和很少的动态物体获得长序列，我们转向互联网上提供的美丽自然场景的空中镜头。自然场景是我们挑战性问题的一个很好的起点，因为GANs在自然纹理上显示出有希望的结果[30，33]。我们收集了765个使用'沿海'和'空中拍摄'等关键词的视频改进网络14462-≤×--t=0t=0t=0××--联系我们输入视频点云相机轨迹二次采样轨迹图4. 正在处理ACID视频我们从YouTube上收集的海岸线无人机镜头上运行结构，以创建空中海岸线图像数据集（ACID）。参见第4节。和结构从运动的方法，周等。[52]，产生超过13，000个序列，总共210万帧。我们已经发布了视频和SfM相机轨迹的列表见图图4是我们在海岸线视频上运行的SfM管道的说明性示例为了获得每个帧的视差图，我们使用现成的MiDaS单视图深度预测方法[27]。我们发现，MiDaS是相当强大的，并为我们的方法产生由于MiDaS差异仅预测到尺度和偏移，因此必须首先重新缩放以匹配我们的数据。为了实现这一点，我们使用稀疏点云计算过程中的每个场景从运动的结构。对于每个帧，我们只考虑在该帧中跟踪的点，并使用最小二乘法来计算使这些点上的视差误差最小化的尺度和移位。我们将该缩放和移位应用于MiDaS输出以获得与每个序列的SfM相机轨迹（Pi）缩放一致的视差图（Di）由于视频之间的相机运动的差异，我们策略性地对帧进行子采样以确保训练序列中一致的相机速度详见补充资料。5. 实验装置损失我们训练我们的方法上的图像集se-是L=L重构+L感知+Ladv+L特征匹配+LKLD（5）在小批量中的所有迭代和所有样本上计算损失指标. 以与人类判断相关的方式评估所生成的图像的质量是一个挑战。我们使用Fréchet初始距离（FID），这是一种用于评估图像生成模型的FID通过预先训练的Inception网络[17]计算真实图像和假图像嵌入的均值和协方差之间的差异，以测量生成图像的真实性及其多样性。我们precomputer- pute真正的统计使用20 k真实图像样本从我们的数据集。为了测量生成质量随时间的变化，我们在滑动窗口上报告FID：我们将FID-w写入 t，以指示在以时间t为中心的宽度为w的窗口内的所有图像输出上计算的FID值，即我我对于t w/2

下载后可阅读完整内容，剩余1页未读，立即下载