13563看看房间外面:从单幅图像合成一致的长时间3D场景视频香港科技大学王小龙加州大学圣地亚哥分校输入输出图1.使用单个图像和相机轨迹作为输入,我们的方法合成感知一致的新颖视图,形成长期视频。顶部两行是来自Matterport数据集的测试图像[6],底部两行来自RealEstate10K数据集[73]。我们的模型能够与大的相机变化进行合成,甚至可以走出一个房间去看另一个房间。摘要从单个图像合成新视图最近吸引了很多关注,并且它主要由3D深度学习和渲染技术推进。然而,大多数工作仍然是有限的合成新的意见,在相对较小的相机运动。在这篇文章中,我们提出了一种新的方法来合成一个一致的长期视频给定一个单一的场景图像和一个trajec- tory的大相机运动。我们的方法利用自回归Transformer来执行多个帧的顺序建模,这使得多个帧与对应的相机之间的关系为了便于学习和确保生成的帧之间的一致性,我们引入了一个局部性常数,基于输入摄像机的约束,以在空间和时间上引导大量补丁之间的自我注意。我们的方法优于国家的最先进的视图合成approaches由一个很大的利润,特别是在室 内 3D 场 景 合 成 长 期 的 未 来 。 项 目 页 面https://xrenaa.github.io/look-outside-room/。1. 介绍单图像视图合成在计算机视觉和计算机图形学中引起了广泛的关注。它通过外推超出输入像素并根据场景的几何结构生成新像素来赋予照片生命。同时,生成的像素需要与现有像素在语义上一致当前视图13564|--学习3D几何表示合成方法在生成高质量新颖视图方面显示出令人鼓舞的结果[39,56,69]。然而,这些方法只能在有限的摄像机运动范围内生成视图。例如,对于当前的方法来说,合成图1的第一行中所示的房间门外的东西将是非常具有挑战性的。当合成具有大的相机视图变化的图像时,我们还期望生成的图像是一致的。也就是说,当我们与一条走向房间门口的路径合成时,我们希望路径的表面不应该一直改变,并揭示一个单一的潜在世界。为此,我们提出解决基于视图合成扩展的问题:给定3D场景的单个图像和长期相机轨迹作为输入,合成一致的视频作为输出。例如,给定一个房间的单个输入图像(图1的第一行),我们合成了走向门、穿过门和导航到墙上有画的走廊的视频。 解决这类任务不仅在内容生成和编辑中具有广泛的应用,而且还有助于构建用于机器人中的基于模型的规划和控制的可微分模拟器。为了解决这个问题,我们寻求自回归模型的帮助[8,41,42,60],这些模型在外推输入图像之外的内容方面表现出了巨大的成功。例如,Rombach et al.[46]提出使用自回归Transformer来隐式地执行用于视图合成的大几何变换。为了用大的变换来处理不确定性,在概率框架下训练模型,该概率框架允许用相同的相机对不同的新颖视图进行采样。虽然即使在给定大变换的情况下也能生成逼真的新颖视图,但由于概率采样,它也会导致沿着给定轨迹的不一致和多样的输出。在本文中,合成一致的长期视频,我们建议利用自回归Transformer的顺序建模的时间与局部约束。In-stead of learning the autoregressive model between onlytwo views of the scene [46], our work leverages the con-tinuity in videos and perform sequential modeling withmultiple video frames.给定输入im的序列,年龄{x1,x2,...,xt-1}和先前相机轨迹C2,C3,.,Ct-1和未来帧Ct的相机,我们提供了一个概率框架,通过从p(xtx1,C2,x2,C3,., xt−1,Ct)。通过在采样期间调节多个帧,它可以-确保生成的视图和历史视图之间的一致性。当使用我们的Transformer模型进行推理时,我们可以从单个输入图像开始,并使用预测帧和先前帧逐渐增加输入。然而,使用自回归Transformer学习这样的序列模型是非常具有挑战性的,它使用自注意力对输入视频中的每两个补丁之间跨空间和时间的大量关系进行建模。为了便于训练,我们的关键见解是,不是每个关系对都同样重要,我们可以引入局部约束来引导模型专注于关键依赖关系。这种局部约束是由摄像机引入的。直觉上,给定两帧之间的相对摄像头,我们可以粗略地定位重叠像素的位置以及要合成的新像素的位置为了结合这些知识,我们使用MLP计算偏差,该MLP将相对相机作为输入,即相机感知偏差。我们在执行自注意操作时将此偏差添加到亲和矩阵。以这种方式,每个块将具有依赖于或关注由相机连接的相关块的更强的偏置。经验上,我们发现摄像机感知偏差不仅使优化更容易,而且在生成过程中加强帧之间的一致性方面起着至关重要的作用。我 们 在 多 个 数 据 集 上 进 行 了 实 验 , 包 括RealEstate10K [73]和Matterport3D [6],它们主要关注3D室内场景。我们的模型能够合成具有大的相机运动的新视图,并在给定单个图像输入的情况下生成长期视频,如图1所示。我们的方法不仅在标准视图合成指标上优于最我们强调我们的主要贡献如下:• 提出了一种新的Transformer模型,用于在给定一幅图像和一个轨迹作为输入的情况下合成连续的长时间视频• 一种新的局部约束使用摄像机感知偏置,这有助于优化学习过程中,并加强生成的帧之间的一致性。• 最先进的视觉合成技术。我们的方法在长期帧上的表现优于基线2. 相关工作新视图合成。视图合成是计算机视觉和图形学中一个长期研究的问题.当使用多个输入视图进行合成时,通常会利用3D结构表示,例如经典的多视图几何[10,11,18,27,53,74],深度体素表示,sentations [32,54]和神经辐射场[39,65]。最近,研究人员还提出执行单图像视图合成,以使静态照片栩栩如生[20,26,29,45,55,57,69,71]。例如,Wiles et al.[69]建议使用3D点云作为中间表示来执行视图合成。虽然这些方法可以很好地处理小的相机变化,但它们不能在远离给定视图的地方绘制像素。执行视图合成13565----t=2t=2不 Y)=p(x|x,x,{C}τ,iτ,