没有合适的资源?快使用搜索试试~ 我知道了~
3906来自近乎重复的照片的王倩倩1,2李正奇1大卫·萨莱辛1诺亚·斯内弗利1,2布莱恩·柯利斯1,3珍妮·康特卡宁11谷歌研究2康奈尔理工大学3华盛顿大学几乎重复的照片时空视频图1.人们经常拍摄许多近乎重复的照片,试图捕捉完美的表情。给定一对从附近视点拍摄的这些照片(左),我们提出的方法将这些照片作为3D时刻赋予生命,产生具有电影摄像机运动和插值场景运动的时空视频(右)。请参阅补充材料以查看视频。摘要我们介绍了一种新的计算摄影效果--三维矩。作为输入,我们取一对几乎重复的照片,即,从相似的视角拍摄的运动物体的照片,在人们的照片收藏中很常见作为输出,我们生成一个视频,该视频将场景运动从第一张照片平滑地插值到第二张照片,同时还生成具有视差的相机运动,从而增强3D感。为了实现这种效果,我们将场景表示为一对基于特征的分层深度图像,并使用场景流进行增强。这种表示能够实现运动插值以及相机视点的独立控制。我们的系统,TEM产生逼真的时空视频与运动视差和场景动态,同时恢复原始视图中被遮挡的区域。我们进行了大量的实验,证明了在公共数据集和野外照片上的基线上的卓越性能。项目页面:https://3d-moments.github.io/。1. 介绍数码摄影使我们能够拍摄大量照片,以捕捉正确的时刻。事实上,我们经常在我们的图像集合中以许多近乎重复的照片结束因为我们试图捕捉家庭成员最好的面部表情,或者一个动作中最难忘的部分。这些几乎重复的照片最终只是躺在数字存储,未查看。在本文中,我们的目标是利用这种近乎重复的照片,创造一个引人注目的新的三维照片与动画活跃。我们称这种新效果为3D Moments:给定一对几乎重复的照片,从附近(可能无法区分)的视点描绘动态场景,例如图1(左)中的图像,我们的目标是同时启用具有3D视差的电影摄像机运动(包括新颖的外推视点),同时忠实地插入场景运动以合成短时空视频,如图1(右)所示。3D Moments以一种引人注目的方式结合了相机和场景运动,但涉及非常具有挑战性的视觉问题:我们必须共同推断3D几何形状,场景动态和动画期间新被遮挡的内容尽管在这些单独的问题中的每一个方面都取得了很大的进展,但是联合处理所有这些问题是不平凡的,特别是对于具有未知相机姿态作为输入的图像对。用于动态场景的基于NeRF的视图合成方法[15,27,28,49]需要具有已知相机姿态的许多图像单张照片视图合成方法(有时称为3D照片或3D Ken Burns [11,25,38])可以创建3907∈动画摄像机路径从一个单一的照片,但不能表示移动的人或物体。帧插值可以从图像对创建平滑的动画,但仅限于2D。此外,单纯地应用视图合成和帧插值方法会导致时间上不一致的、不现实的动画。为了解决这些挑战,我们提出了一种新的方法来创建3D时刻明确建模时变的几何形状和外观从两个uncali-barted,接近重复的照片。我们的方法的关键是将 场 景 表 示 为 一 对 基 于 特 征 的 分 层 深 度 图 像(LDIs),并使用场景流进行增强。我们首先将输入的照片转换为一对彩色LDI,并为包含的区域修复颜色和深度,从而构建此表示。然后,我们用神经网络提取每一层的特征此外,我们计算输入图像之间的光流,并将其与深度层相结合,以估计LDI之间的场景流。为了在新的时间呈现新的视图,我们将这些特征LDI提升到一对3D点云中,并采用深度感知的双向飞溅和渲染模块,该模块将来自两个方向的飞溅特征相结合。我们在公共多视图动态场景数据集和野外照片上广泛测试了我们的方法的渲染质量,并与最先进的基线相比表现出卓越的性能。总之,我们的主要贡献包括:(1)从动态场景的近似重复照片创建3D Moments的新任务,以及(2)基于场景流增强的特征LDI的新表示,以及可以训练用于创建3D Moments的模型2. 相关工作我们的工作建立在少镜头视图合成,帧内插和时空视图合成的方法从一个或两个视图进行视图合成。新的视图合成的目的是重建看不见的视点从一组输入的二维图像。最近的神经渲染方法实现了令人印象深刻的合成结果[17,20,43,44,47,54],但通常假设许多视图作为输入,因此不适合我们的任务。我们在这里重点介绍的方法,一个或两个观点。许多单视图合成方法涉及估计密集的单眼深度并填充遮挡区域[7,11,14,25,34,38,48],而其他方法则寻求在单步中直接回归到场景表示[30,35,45,46,53]。我们从这方面的几个作品中吸取了一些想法:SynSin为每个输入图像学习一个特征3D点云,并将其投影到目标视图,在那里修复缺失的区域[48]。3D Photo [38]创建分层深度图像(LDI),并以空间上下文感知的方式对被遮挡区域的我们建立在这两种方法,但扩展到动态场景的情况下像我们的方法一样,一些先前的视图合成方法在两个视图上操作。例如,立体放大[56]和相关工作[40]采用两个窄基线立体图像并预测多平面图像,从而实现实时新颖视图合成。然而,与我们的方法不同,这些方法假设相机运动存在一些视差,并且同样只能对静态场景进行建模,而不是在两个输入视图之间存在场景运动的场景。帧插值。 与3D视图合成相反,时间帧插值从两个输入图像创建中间帧序列。帧内插方法不区分相机和场景运动:所有对象运动都在2D图像空间内插。此外,大多数帧插值器假设线性运动模型[2,6,8,12,21大多数插值器使用光流的图像扭曲,尽管作为一个显著的例外,Niklaus等人。[23,24]通过将输入与神经网络预测的内核混合来合成然而,单独的帧插值不能生成3D矩,因为它不能恢复3D几何形状或允许控制3D中的相机运动。时空视图合成。许多方法试图通过对时变3D几何形状和外观进行建模来合成空间和时间上的动态场景的新颖视图许多方法需要同步的多视图视频作为输入,因此不适用于野外照片[1,3,4,13,41,57]。最近,几个神经渲染ap-方法[15,27-为了插入视点和时间,最近的工作要么直接插入学习的潜在代码[27,28],要么使用估计的3D场景流场[15]应用飞溅。然而,这些方法需要密集采样的输入视图和准确的相机姿态,这对于我们的双图像设置是不可用的。此外,它们中没有一个明确地修补了看不见的区域。3. 方法3.1. 问题陈述和方法概述我们的系统的输入是在附近的时间和相机视点拍摄的动态场景对于易处理的运动插值,我们假设I0和I1之间的运动大致在现代光流估计器的操作范围内。我们的目标是通过独立控制相机视点来创建3D矩,同时插值场景运动以在任意中间时间t[0,1]渲染任意附近的新视图。我们的输出是一个时空视频与电影摄像机运动和插值场景运动。为此,我们提出了一个新的框架,使有效的和真实感的时空新颖的视图合成3908特征LDI插值到时间t&splatI0已修复深度和颜色层要素图层场景流特征LDI插值到时间t&splat时间t时的新I1已修复深度和颜色层要素图层二维特征提取器升降图像合成网络F FPPPPF FP P图2.概况. 给定近似重复的照片(I0,I1),我们将它们与单应性对齐,并为每张照片预测密集的深度图。然后,每个RGBD图像被转换为彩色LDI,通过深度感知修复填充被遮挡的区域。将2D特征提取器应用于经修复的LDI的每个颜色层以获得特征层,从而产生特征LDI(0,1),其中经修复的LDI中的颜色已经被特征替换。为了对场景运动进行建模,我们使用两个输入图像之间的预测深度和光流来 为了在中间时间t渲染新视图,我们将特征LDI提升到一对3D点云(0,1),并将点沿着其场景流双向移动到时间t。然后,我们投影并splat这些3D特征点,以形成向前和向后的2D特征图(分别从0和1开始)及其相应的深度图。我们线性混合这些地图与权重图Wt来自时空线索,并将结果传递到图像合成网络,以产生最终的图像。而不需要测试时间优化。我们的管道如图2所示。我们的系统首先通过单应性将两张照片对齐到单个参考帧我们的方法的关键是从每个输入中构建特征LDI,其中特征LDI中的每个像素由其深度,场景流和可学习的特征组成。为此,我们首先将每个输入图像转换为彩色LDI[37],并在遮挡区域中修复颜色和深度然后,我们从这些LDI的每个颜色层中提取深度特征图,以获得一对特征LDI(0,1)。为了对场景动态进行建模,基于两个输入之间的预测深度和光流来估计LDI中每个像素的场景流。最后,为了在中间时间t渲染一个新的视图,我们将特征LDIs提升到一对点云(0,1)中,并提出了一个基于场景流的双向飞溅和渲染模块来组合来自两个方向的特征并合成最终图像。我们现在更详细地描述我们的方法3.2. 来自几乎重复的照片的我们的方法首先计算底层的3D场景几何。由于近似副本通常具有场景动态和非常小的相机运动,标准的运动结构(SfM)和立体重建方法不能产生可靠的结果。相反,我们发现最先进的单目深度估计器DPT [31]可以为野外图像生成清晰和合理的密集深度图因此,我们依靠DPT来获得每个图像的几何形状。为了考虑视图之间的小相机姿态变化,我们使用RAFT [42]计算视图之间的光流,使用该流估计图像之间的单应性,然后扭曲I1以与I0对齐。因为我们只想对齐两幅图像的静态背景,所以我们屏蔽了具有大光流的区域,这些区域通常对应于移动对象,并使用由流给出的剩余相互对应来计算单应性。一旦I1被扭曲到与I0对齐,我们就把它们的相机姿势视为相同的.为了简化符号,我们此后重新使用I0和I1来表示对齐的输入图像。然后,我们应用DPT [32]来预测每个图像的深度图 为了将I1的深度范围与I0对准,我们估计I1的视差的全局尺度和偏移(即,1/深度),使用静态区域中的流量对应关系。接下来,我们将对齐的照片及其密集深度转换为LDI表示[37],其中根据深度不连续性分离层,并在遮挡区域中应用RGBD修复,如下所述。用于3D照片的现有方法覆盖LDI中的所有深度边缘,以使用边缘的背景像素自适应地修补局部区域[11,38]。然而,我们发现这个程序...3909LLLLL00 l=111 l=100 l=111 l=1在计算上是昂贵的,并且输出困难用于培训最近,Jampani et al. [7]采用两层的方法,否则将适合我们的要求,但在层数的限制。因此,我们提出了一个简单而有效的策略,用于创建和修复流入我们基于学习的管道的LDI具体来说,我们首先在视差空间中执行凝聚聚类[19]以将RGBD图分离到不同的深度层中(图1)。3(a))。我们设定一个固定的距离阈值,超过该阈值,聚类将不会合并,从而导致图像的2×5层。我们将聚类应用于两幅图像的视差,以获得它们的LDIs,L0,{Cl,Dl}L0和L1,{Cl,Dl}L1,其中Cl和Dl分别表示第l个颜色层和深度层,和L1表示从I0构造的层数,(a) LDI(b) 修复的LDI1,分别。每个颜色层都是一个RGBA图像,Alpha通道指示该层中的有效像素。接下来,我们将深度感知修复应用于遮挡区域中的每个颜色为了修补层l中的缺失内容,我们将第l层和最远层之间的所有像素视为上下文区域(即,用作修补参考的区域),并排除比层L更近的层中的所有不相关前景像素。我们将第l层的其余部分设置在现有像素的一定边距内(见补充)。我们只保留深度小于层l的最大深度的修复像素,以便修复区域不会错误地遮挡比层l更远的层。我们采用Shih等人 [38]的预训练修复网络来修复每层的颜色和深度。图3(b)示出了修复之后的LDI层请注意,我们选择预先对两个LDI进行修补,而不是对每个渲染的新视图执行每帧修补,因为后者将由于缺乏对未遮挡区域的全局表示而遭受多视图不一致性。3.3. 时空场景表示我们现在有修复的彩色LDI0和1用于新视图合成。从每个单独的LDI,我们可以合成静态场景的大小的新视图然而,单独的LDI不能对两张照片之间的场景运动进行建模。为了实现运动插值,我们估计图像之间的3D运动场。为此,我们首先计算两个对齐图像之间的2D光流,并执行前向和后向一致性检查以识别具有相互对应的像素给定2D相互对应,我们使用它们相关联的深度值来计算它们的3D位置,并将2D光流提升到3D场景流,即,将每个3D点从一个时间置换到另一个时间的3D平移向量该过程给出了LDI的相互可见像素的场景流。然而,对于不具有相互对应的像素图3. 从图像到修复的LDI。给定输入图像及其估计的单目深度[31],我们首先应用聚集聚类[19]将RGBD图像分离为多个(在本示例中为3个)RGBDA层,如(a)所示,然后执行上下文感知颜色和深度修复[38]以获得修复的RGBDA层(b)。在修复区域中,3D对应关系没有很好地定义。 为了处理这个问题,我们利用场景流在空间上是平滑的这一事实,并将它们从定义良好的像素传播到缺失的区域。特别是,对于0中的每个像素与1中的对应点,我们将其关联的场景流存储在其像素位置,从而导致场景流层最初仅包含相互可见像素的明确定义的值 为了修补剩余的场景流,我们执行扩散操作,该操作迭代地将掩蔽的模糊过滤器应用于每个场景流层,直到0中的所有像素都具有场景流向量。我们将同样的方法应用于1以获得第二LDI的完整场景流层。这个过程分别为L0和L1中的每个像素提供了完整的前向和后向场景流。为了使用这两个场景流增强的LDI从新颖的相机视点和时间渲染图像,一种简单的方法是根据其场景流将LDI点位置直接内插到目标时间,并将RGB值splat到目标然而,当使用这种方法时,我们发现深度或场景流中的任何小误差都可能导致明显的伪影。因此,我们通过训练2D特征提取网络来校正这样的误差,该2D特征提取网络将每个经修复的LDI颜色层Cl作为输入并产生相应的2D特征图Fl。这些特征对场景的局部外观进行编码,并经过训练以减轻由不准确的深度或场景流引入的渲染伪影,并提高整体渲染质量。这一步将我们的修复彩色LDI到特征LDIF0,{F1,D1}L0,F1,{F1,D1}L1,两者都被增大为场景,诸如在其他视图中被遮挡的那些场景或那些场景流。最后,我们提取这些fea的所有有效像素3910PP∈→→−P {}P {}将真实LDI分解为一对点云0,(x0,f0,u0)和1,(x1,f1,u1),其中每个点都定义有3D位置x、外观特征f和3D场景流u。3.4. 双向溅射和渲染给定一对3D特征点云0和1,我们希望对它们进行插值和渲染,以在新的视图和时间t处生成图像。 受先前工作的启发[2,21],我们提出了一种深度感知的双向溅射技术。特别地,我们首先通过根据由t缩放的其相关联的场景流将其移位来获得时间t处的每个点(在两 个 点 云 中 ) 的 3D 位 置 : x0→t= x0+ tu0 ,x1→t=x1+(1t)u1。每个方向(0)上的位移点及其关联要素t或1t)然后使用可微分的基于点的渲染[48]被单独地溅射到目标视点中,这导致一对渲染的2D特征图F0→t、F1→t和深度图D0→t、D1→t。为了将这两个特征图结合起来并将其解码为最终图像,我们基于时空线索将它们线性 我们的一般原则是:1)如果t更接近0,则F0→t应该具有更高的权重,反之亦然; 2)对于2D像素,如果其从时间0的溅射深度D0→t小于从时间1的深度D1→t,则F0→t应该更受青睐,反之亦然。因此,我们计算权重图以线性混合两个特征和深度图,如下所示:W=(1−t)·exp(−β·D0→t)t(1−t)·exp(−β·D0→t)+t·exp(−β·D1→t)Ft=Wt·F0→t+(1−Wt)·F1→t(2)Dt= Wt·D0→t+(1 − Wt)·D1→t。(三)这里βR+是一个可学习的参数,它根据相对深度控制约束。最后,Ft和Dt被馈送到合成最终彩色图像的网络3.5. 培训我们在两个视频数据集上训练特征提取器、图像合成网络和参数β,以优化渲染质量,如下所述。训练数据集。为了训练我们的系统,我们理想地使用具有已知相机参数的图像三元组,其中每个三元组描绘来自移动相机的动态场景,因此我们可以使用两个图像作为输入,第三个然而,这样的数据很难大规模收集,因为它要么需要用同步的多视图相机系统捕捉动态场景前者需要耗时的设置,并且难以扩展到野外场景,而后者由于移动物体而无法保证估计的相机参数的准确性,潜在的运动视差不足。因此,我们发现现有的这类数据集不够大或多样,无法用作训练数据。相反,我们提出了两个更容易访问的数据源,用于运动插值和视图合成的联合训练。第一个源包含具有小的相机运动(未知姿势)的视频剪辑。我们假设相机是静态的,所有像素位移是由场景运动引起的。这种类型的数据使我们能够学习运动插值,而无需相机校准。第二个源是具有已知相机运动的静态场景的视频剪辑。静态场景的摄像机运动可以使用SfM鲁棒地估计,并且这样的数据为我们学习新的视图合成提供了监督。对于第一个源,我们使用Vimeo-90 K [51],这是一个广泛用于学习帧插值的数据 集 。 对 于 第 二 个 来 源 , 我 们 使 用 Mannequin-Challenge数据集[14],该数据集包含超过170 K的视频帧,这些视频帧是从移动相机捕获的假装是雕像的人类,以及通过SfM [56]估计的相应相机姿势由于该数据集中包括人的场景(几乎)是静止的,因此估计的相机参数对于我们的目的来说足够准确我们混合这两个数据集来训练我们的模型。可学习的组件。我们的系统由几个模块组成:(a)单目深度估计器,(b)颜色和深度inpainter,(c)二维特征提取器,(d)光流估计器和(e)图像合成网络。我们可以从概念上训练整个系统,但在实践中,我们只训练模块(c),(d)和(e),并为(a)和(b)使用预先训练的最先进的模型[31,38]这使得训练在计算上不那么昂贵,并且还避免了学习高质量深度估计和RGBD修复网络所需的大规模直接监督的需要训练损失。我们使用图像反射损失来训练我们的系统特别是,我们最小化预测图像和地面实况图像之间的感知损失[9,55]和l1损失,以监督我们的网络。4. 实验4.1. 实现细节对于特征提取器,我们使用ResNet34 [5]在第3层之后截断,然后是两个额外的上采样层,以提取每个RGB层的特征图,我们使用二进制掩码来增强,以指示该层中覆盖(观察或修复)的像素。对于图像合成网络,我们采用了二维U-Net结构。对于光流估计器,我们使用预训练的RAFT网络[42]并在训练期间微调其权重。我们使用Pytorch3D [33]进行可微分点云渲染。而不是使用一个固定的半径为所有的点,我们设置的半径成比例的一个点的视差时,渲染一个目标的观点。这可以防止前景对象(一)3911∼→→当照相机放大时,由于样本之间的间隙而变得半透明。我们使用Adam [10]训练我们的系统,特征提取器和图像合成网络的基本学习率设置为10−4,光流网络设置为10−6[42]。我们在8个NVIDIA V100 GPU上训练我们的模型,进行3天的25万次迭代。我们降低学习率指数-在优化过程中。每个训练批次包含从Vimeo-90 K [51]和MannequinChallenge数据集[14]中随机抽样的8个三联体。在每个三元组中,开始和结束图像用作输入,中间帧用作地面实况。为了在MannequinChal-lenge上训练,我们必须校准单眼深度图,以便它们与SfM点云对齐我们估计每个深度图的视差尺度和移位,以最小化它与恢复的SfM点的深度之间的MSE我们在训练过程中丢弃了具有较大比对误差的序列。请参阅补充资料了解更多详情。4.2. 基线据我们所知,没有任何先前的工作可以作为我们从近乎重复的照片中合成时空视图的新任务的直接基线人们可以考虑将动态NeRF方法[15,27,29,49]作为基线。然而,这些都需要具有已知相机参数和足够运动视差的密集输入视图相反,与NSFF [15]一样,我们发现我们可以组合各个方法来形成我们方法的基线。我们在下面描述三个这样的基线。朴素的场景流。 作为一个简单的基线,我们增加monocular深度与光流得到场景流。具体来说,我们首先使用DPT [31]计算两个视图的单眼深度,并将其提升到3D以获得两个彩色点云。然后,我们使用RAFT [42]生成的2D光流来找到具有相互对应性的像素,并计算它们在向前和向后方向上的场景流。然后在中间时间将两个彩色点云分别渲染到目标视点,产生两个RGB图像。最后,我们基于时间t线性混合两个渲染图像以获得最终视图。请注意,此基线不执行图像修复。帧插值3D照片。现有的帧插值和新的视图合成方法可以结合起来,形成我们的任务的基线具体而言,为了在新的时间和视点合成图像,我们首先采用最先进的帧插值方法XVFI [39]来合成中间时间的帧。然后,我们应用3D照片修复[38]将插值帧转换为修复的LDI,并通过构建的网格从所需的视点渲染它。为了进行公平的比较,我们将3D照片方法升级为使用最先进的单眼深度骨干DPT [31],即,我们在我们的方法中使用的相同的3D照片帧内插此基线颠倒了上述方法中的操作顺序首先,我们将3D照片[38]应用于每个近似副本,并将它们分别渲染到目标视点然后,我们将XVFI [39]应用于这两个渲染图像,以获得中间时间t的最终视图。4.3. 公共基准评价数据集。我们在两个公共多视图动态场景数据集上评估我们的方法和基线:NVIDIA动态场景数据集[52]和UCSD多视图视频数据集[16]。NVIDIA数据集由9个场景组成,涉及12台同步摄像机以60 FPS捕捉的UCSD数据集包含96个动态场景的多视图视频,这些视频捕捉了户外环境中各种各样的人类互动视频由10台同步动作摄像机以120FPS的速度录制。我们在每个多视图视频上运行COLMAP [36](使用提供的运动掩模屏蔽动态组件)以获得静态场景内容的相机参数和稀疏点云。实验装置。 为了评估渲染质量,我们每隔0采样一个三元组(两个输入视图和一个目标视图)。离多视角视频还有5在每个三元组中,我们选择两个输入视图位于同一个摄像机视点,相隔两帧,目标视图位于附近摄像机视点的中间帧我们比较了预测与地面真理在同一时间和观点。我们评估的所有方法都使用仅预测到未知视差尺度和偏移的单眼深度。为了正确地将图像渲染到目标视点并与地面实况进行比较,我们需要获得与重建场景一致的对齐深度图。类似于Sec。4.1,我们将预测的深度与SfM点云的深度对齐请参阅补充资料了解更多详情。定量比较。 我们使用三个标准误差度量来评估每种方法的渲染质量:PSNR、SSIM和LPIPS [55]。选项卡. 1显示了我们的方法和基线之间的比较。我们的方法在所有误差度量中始终优于基线特别是,我们的LPIPS分数明显更好,这表明我们的方法具有更好的感知质量和渲染图像的照片真实感。注意,所有方法都具有相对较低的PSNR/SSIM,因为这些度量对像素未对准敏感但由于所有方法都使用DPT [31]深度,因此这个问题不会影响相对比较。定性比较。我们在图4中显示了UCSD数据集的定性比较。我们的方法生成最少的文物,同时保留场景中的最多细节。原始场景流基线产生明显的漏洞。应用3D照片,然后帧插值3912→→方法[52]第五十二话PSNR↑ SSIM↑LPIPS↓[16]第十六话PSNR↑ SSIM↑LPIPS↓朴素场景流19.340.6810.17723.600.8370.120[39][38]第一次世界大战后,中国的经济发展和社会进步[39]21.0121.1821岁720.6760.6810的情况。7020.1890.1920的情况。14525.7025.96二十六岁540.8520.8580的情况。8640.1230.1260的情况。078表1. 新视角与时间综合的定量比较。我们的方法在所有错误度量中都优于所有基线。参见第4.2关于基线的说明。PSNR ↑SSIM↑ LPIPS↓没有特色21岁160的情况。6930的情况。173无修复21岁330的情况。6850的情况。145无双向21岁560的情况。6940的情况。151完整模型Ours21岁720的情况。7020的情况。145(一)(b)第(1)款(c)第(1)款(d)其他事项(e)表2.NVIDIA数据集上的消融研究[52]。我们的系统的每一个组成部分导致渲染质量的提高。时刻4.5.消融和分析消融研究。 我们进行消融研究,以证明我们的设计选择,如表1所示。二、对于“无特征”,我们直接使用输入照片中的RGB颜色来splat和渲染新颖的视图,而不是学习特征。对于图4. UCSD数据集的定性比较[16]。从左到右是(a)朴素场景流,(b)帧插值[39]3D照片[38],(c)3D照片[38]帧插值[39],(d)我们的方法,和(e)地面实况。由于帧插值器[39]未被训练为在不一致的修补图像之间进行插值,因此会导致模糊的未遮挡区域。应用帧插值,然后应用3D照片,由于每帧中的修复不一致,会导致强烈的闪烁伪影(请参阅补充视频)。4.4. 对比野外照片我们还评估了我们的方法和基线质量,在野外几乎重复的照片。我们从我们的同事及其朋友和家人那里收集了这些照片,并征得他们的同意,在本手稿中展示这些照片。我们在图5中显示了每种方法生成的视图的比较。特别是,我们展示了两种不同的相机运动,放大和跟踪,并在中间时间t = 0渲染一个新的视图。五、我们的方法实现了整体更好的渲染质量与更少的视觉伪影,特别是附近的移动对象和遮挡边界。我们建议读者参考补充视频,以更好地对这些生成的3D进行视觉比较。3913×和深度,并依赖于图像合成网络来分别填充每个渲染视图中的未遮挡区域(易于出现时间不一致性)。对于性能我们的方法可以应用于新的接近重复的照片对,而不需要测试时优化。我们在NVIDIA V100GPU上测试我们的运行时给定分辨率为768 576的重复图像对,需要4。48秒构建LDI,提取特征图,并构建3D特征场景流。这些操作对每个重复对执行一次投影和图像合成阶段需要0。71秒渲染每个输出帧。5. 讨论和结论我们提出了一个新的任务,从几乎重复的照片创建3D时刻,允许同时查看explopolation和运动插值的动态场景。我们提出了一个新的系统,这个任务的场景模型作为一对功能的LDI增强场景流。通过在已设置姿势和未设置姿势的视频数据集上进行训练,我们的方法能够从接近重复的对中生成逼真的时空视频,而不会产生大量的视觉伪影或时间不一致。实验表明,我们的方法3914输入近似重复对Interp.→3D照片3D照片→Interp.我们图5.野外照片的定性比较。 与基线相比,我们的方法产生更逼真的视图,视觉伪影显着减少,特别是在移动或无遮挡区域。请参阅补充视频的动画比较。在时空综合任务上,无论是定量还是定性,都优于基线方法。局限性和今后的工作。我们的方法继承了单目深度和光流方法的一些局限性。我们的方法不工作,以及复杂的场景几何形状或半透明对象的照片。此外,我们的方法往往会失败,在存在大的和非线性的运动,以及具有挑战性的自闭塞,如手。请参考补充视频了解故障案例。福-真正的工作包括设计一个自动选择方案的照片对适合3D时刻创建,自动检测故障,更好地建模大或非线性运动,并扩展当前的方法,以处理两个以上的近重复的照片。鸣谢。我们感谢Richard Tucker、Tianfan Xue、AndrewLiu、Jamie Aspinall、Fitsum Reda和For- rester Cole的帮助、讨论和支持。3915引用[1] Aayush Bansal、Minh Vo、Yaser Sheikh、Deva Ramanan和Srinivasa Narasimhan。来自无约束多视图视频的动态事件的4D可视化。在CVPR中,第53662[2] Wenbo Bao , Wei-Sheng Lai , Chao Ma , XiaoyunZhang,Zhiyong Gao,and Ming-Hsuan Yang.深度感知视频帧插值。在CVPR,2019年6月。二、五[3] Mojtaba Bemana , Karol Myszkowski , Hans-PeterSeidel,and Tobias Ritschel.X场:隐式神经视图、光图像和时间图像插值。ACM TOG,39(6),2020. 2[4] 迈克尔·布罗克斯顿、约翰·弗林、瑞安·奥弗贝克、丹尼尔·埃里克森、彼得·海德曼、马修·杜瓦尔、杰森·杜尔加里安、杰伊·布施、马特·惠伦和保罗·德贝维克。具有分层网格表示的沉浸式光ACM TOG,39(4),2020年7月。2[5] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习CVPR,第770-778页,2016年5[6] 朴俊浩,李哲,金昌洙。用于视频帧内插的非对称双边运动估计。ICCV,2021。2[7] Jampani,Huiwen Chang,Kyle Sargent,Abhishek Kar,Richard Tucker , Michael Krainin , Dominik PhilemonKaeser,William T.弗里曼,D. Salesin,Brian Curless,and Ce Liu.幻灯片:单一图像三维摄影与软分层和深度感知修复。ICCV,2021。二、四[8] 蒋 怀 祖 , 孙 德 清 , Varun Jampani , 杨 明 轩 Learned-Miller和Jan Kautz。Super slomo:用于视频插值的多个中间帧的高质量估计。在CVPR中,第9000-9008页,2018年。2[9] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694施普林格,2016年。5[10] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。CoRR,abs/1412.6980,2014。6[11] JohannesKopf , Kevin Matzen , Suhib Alsisan , OceanQuigley , FrancisGe , YangmingChong , JoshPatterson,Jan-Michael Frahm,Shu Wu,Matthew Yu,Peizhao Zhang , Zijian He , P e'terVajda , AyushSaraf ,andMich a elF. 科恩一张3D照片。ACM Transactions onGraphics(TOG),39:76:1-2020年7月13日一、二、三[12] Hyeongmin Lee , Taeoh Kim , Tae-young Chung ,Daehyun Pak,Yuseok Ban,and Sangyoun Lee. Adacof:视频帧插值流的自适应协作。在CVPR中,第5316-5325页2[13] 李天烨,米拉·斯拉夫切娃,迈克尔·佐尔霍费尔,西蒙·格林,克里斯托夫·拉斯纳,金昌吉,坦纳·施密特,S.作者声明:作者声明:作者责任:神经3d视频合成。ArXiv,abs/2103.02597,2021。2[15] Zhengqi Li,Simon Niklaus,Noah Snavely,and OliverWang.动态场景时空视图合成的神经场景流场。在CVPR,2021年。一、二、六[16] Kai-En Lin,Lei Xiao,Feng Liu,Guowei Yang,andRavi Ramamoorthi.用于动态场景视图合成的深度3d遮罩体。ArXiv,abs/2108.13408,2021。六、七[17] Lingjie Liu , Jiatao Gu , Kyaw Zaw Lin , Tat-SengChua,and Christian Theobalt.神经稀疏体素场。 神经信息处理系统的进展,33:156512[18] Yihao Liu,Liangbin Xie,Li Siyao,Wenxiu Sun,YuQiao,and Chao Dong.增强的二次视频插值,2020年。2[19] 奥德·梅蒙和里奥·罗卡奇数据挖掘和知识发现手册。2005. 4[20] Ben Mildenhall,Pratul P Srinivasan,Matthew Tancik,Jonathan T Barron , Ravi Ramamoorthi , and Ren Ng.Nerf : 将 场 景 表 示 为 用 于 视 图 合 成 的 神 经 辐 射 场ECCV,2020年。2[21] 西蒙·尼克劳斯和凤琉。Softmax splatting用于视频帧插值。在CVPR中,第5436-5445页,2020年。二、五[22] 西蒙·尼克劳斯、龙迈、风流。通过自适应卷积的视频帧在CVPR中,第22702[23] 西蒙·尼克劳斯、龙迈、风流。基于自适应可分离卷积的视频帧在ICCV,第261-270页,2017年。2[24] 西蒙·尼克劳斯龙迈和奥利弗·王视频帧内插的自适应卷积。arXiv预印本arXiv:2011.01280,2020。2[25] Simon Niklaus、Long Mai、Jimei Yang和F.刘某3D肯烧伤效果从一个单一的形象.ACM TOG,38:1一、二[26] Junheum Park,Keunsoo Ko,Chul Lee,and Chang-SuKim. Bmbc:用于视频插值的具有双边成本体积的双边运动估计在ECCV中,第109-125页。Springer,2020年。2[27] 朴根洪,美国作者:Jonathan T. 放大图片创作者:Thomas B.作者:Steven M.Seitz,and Ricardo Mart 'ınBru- alla.可变形神经辐射场。ICCV,2021。一、二、六[28] 朴根洪,美国放大图片创作者:Peter H.放大图片创作者:Thomas B.放大图片作者:Richard Martin-Brualla,Steven M.塞茨Hypernerf:拓扑变化神经辐射场的高维表示。SIGGRAPH Asia,abs/2106.13228,2021。一、二[29] Albert Pumarola,Enric Corona,Gerard Pons-Moll,andFrancesc Moreno-Noguer. D-nerf:动态场景的神经辐射场。在CVPR,2021年。二、六[30] M. Usman Rafique , Hunter Blanton , Noah Snavely 和Nathan Jacobs。生成外观流:室外视图合成的混合方法.在BMVC,2020年。2[31] Rene 'Ranftl,Alexey Bochkovskiy,and Vladlen Koltun.用于密集预测的Vision Transformers。ICCV,2021。三、四、五、六[14]Zhengqi Li,Tali Dekel,Forrester Cole,Richard Tucker,Noah[32] 雷内兰夫特尔 Katrin 拉辛格 大卫 康拉德?哈夫纳3916Snavely,Ce Liu,and William T Freeman.通过观察冷冻人来学习感动人的深度在CVPR中,第4521-4530页二、五、六Schindler和Vladlen Koltun。走向鲁棒的单眼深度估计:混合数据集的零拍摄交叉数据集传输。IEEE TPAMI,2020。33917[33] Nikhila Ravi、Jeremy Reizenstein、David Novotny、Tay-lor Gordon 、 Wan-Yen Lo 、 Justin Johnson 和 GeorgiaGkioxari 。 使 用 pytorch3d 加 速 3d 深 度 学 习 。 arXiv :2007.08501,2020。5[34] 作者:Chris Rockwell,David F.福伊和贾斯汀·约翰逊Pix- elsynth:从单个图像生成3d一致的体验ICCV,202
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功