没有合适的资源?快使用搜索试试~ 我知道了~
12216稳定视图合成Gernot Riegler Vladlen KoltunIntel Labs图1:稳定的视图合成合成复杂现实世界场景的空间和时间一致的照片级真实感视图。顶部和左侧:来自坦克和寺庙数据集的新场景视图[18]。右下角:来自FVS数据集的场景的新视图[29]。摘要我们提出了稳定视图合成(SVS)。给定一组 从自由分布的视点描绘场景的源图像中,SVS合成场景的新视图。该方法通过从运动结构和多视图立体计算的几何支架上操作。该3D支架上的每个点与视图射线和对应的特征向量相关联,所述特征向量对输入图像中该点的外观进行编码。SVS的核心是视图相关的表面上特征聚合,其中处理每个3D点处的方向特征向量以产生用于将该点映射到新目标视图中的射线的新特征向量。然后,目标视图由卷积网络从特征张量syn渲染。以这种方式为所有像素设置大小。该方法由可微模块组成,并进行端到端训练。它支持空间变化的视图相关的重要性加权和特征变换的源图像在每个点;空间和时间的稳定性,由于表面上的特征聚合的目标视图的平滑依赖;和合成的视图相关的效果,如镜面反射。实验结果表明,SVS优于国家的最先进的视图合成方法在三个不同的现实世界的数据集上的定量和定性,实现了前所未有的水平的真实感,在自由视点视频的挑战性的大规模场景。代码可在https://github.com/intel-isl/StableViewSynthesis上获得122171. 介绍逼真的视图合成可以让我们探索宏伟的网站在遥远的土地,而不离开舒适的家园。这就需要朝着两个关键目标推进技术。首先,合成的图像应该是真实的:与现实难以区分。其次,用户应该可以自由地在场景中移动,就像在现实世界中一样,从任何物理上可实现的角度探索它。在本文中,我们提出了一种新的方法,使这两个目标更接近真实感视图合成。我们的输入是一组图像,例如可以从现场的手持视频中拍摄。从这些图像中,我们构建了一个三维几何支架通过现成的结构从运动,多视图立体,和网格。输入图像由卷积网络编码,并将产生的深度特征映射到几何支架上。因此,对于支架上的任何点,我们可以获得具有相关联的特征向量的视图射线的集合,其对应于看到该点的输入图像。我们的方法的核心是一种方法来合成任意的新的视图给出这种表示的场景。新视图中的每个像素被映射到几何支架上以获得具有相关联的特征向量的输入射线的集合以及朝向新视图的输出射线。来自输入射线的特征向量然后被聚合,考虑到输入和输出射线的几何形状,通过产生输出射线的特征向量的可微模块针对所有像素合成的特征向量一起新图像通过卷积网络从该特征张量渲染。该方法的所有步骤都是可区分的,并且可以端到端地训练完整的流水线,以最大限度地提高照片真实感。所有的步骤都可以有效地实现,从而在像素之间实现并行。至关重要的是,新输出射线的特征向量的计算不需要输入射线的任何启发式选择。该计算将来自所有输入射线的信息聚集在可微模块中,该可微模块由射线的空间布局通知并且被端到端优化。这支持平滑移动视点的时间稳定性。我们在真实场景和对象的三个不同数据集上评估了所提出的方法:坦克和寺庙[18],FVS [29]和DTU[1]。Tanks and Temples和FVS提供了大型真实世界场景的手持视频序列;其目标是使用这些视频序列作为输入,以便从新视图中实现场景的真实感渲染DTU提供规则间隔的由外而内的图像,以检查真实对象。在所有三个数据集上,SVS的表现都优于现有技术。在坦克和坦克上,我们的方法相对于现有技术将新视图的LPIPS 误 差 降 低 了 10 个 绝 对 百 分 点 ( 平 均 降 低 约30%),而也改善了PSNR和SSIM。在FVS数据集上,我们的方法在所有指标上的表现都优于现有技术,相对于最佳先前方法,平均将LPIPS降低了7个绝对百分点在DTU上,我们为新的视图合成设置了新的技术水平,在extrap- olation模式下的测试场景中,平均LPIPS误差为4.5%,视图插值为1.6%图1显示了我们为坦克和寺庙以及FVS场景中的新视图合成的一些图像,补充视频中提供了视频2. 相关工作基于图像的渲染在计算机视觉和图形学中有着悠久的历史。Shum和Kang [33]提供了对早期方法和基础工作的回顾。最近的亮点包括Wood等人的工作。[42],Buehler 等 人 。 [4] , Davis et al.[10] , Chaurasia etal.[5], Kopf et al.[19],Hedman 等 人[15],Penner 和Zhang [27]。最近,深度学习技术使灵活性和现实性达到了新的水平。给定场景的几何重建,Hedman等人。[14]将图像马赛克映射到目标视图,并通过混合网络对其进行优化。Thies等人[39]通过卷积网络学习依赖于图像的效果Choi等人[7]将体积信息从源图像扭曲到目标视图。Riegler和Koltun [29]将一组经过选择的源图像的特征扭曲到目标视图中,并使用递归卷积网络将它们混合。其他方法直接学习几何重建的每个3D点[2,9]或顶点[38]的特征我们的方法与Riegler和Koltun [29]的自由视图合成方法最密切相关,因为这两种方法都对通过SfM,MVS和网格化获得的几何支架进行操作,并且这两种方法都利用编码器和解码器网络将输入图像编码为特征张量并分别从新的特征张量渲染新视图。然而,这些方法的核心不同之处在于:新视图的特征张量的合成。FVS流水线针对给定的目标视图以启发式方式选择一组相关源图像,将来自这些输入视图的特征张量扭曲到目标相机帧中,并且经由递归卷积网络混合这些扭曲的特征张量相关输入视图的启发式选择此外,递归网络处理的输入特征张量的顺序排序是人为的,并且当其改变时会导致不稳定性。相比之下,SVS在3D表面本身上合成新视图的特征向量,根据需要考虑所有输入图像,并使用集合运算符而不是序列模型,以避免任意或-12218n=1n=1n=1n=1(a) 几何支架(b) 编码源图像(c)表面聚集(d)在目标视图图2:稳定视图合成概述。(a)使用运动恢复结构、多视图立体和网格化来构造场景的几何支架。(b)所有源图像都通过卷积网络编码为特征张量。(c)给定一个新的目标视图(红色相机),来自源图像(绿色相机)的特征向量被聚集在几何支架上。红色箭头将3D点映射到目标视图,绿色箭头将相同的点映射到源视图。(d)目标视图中的输出图像由卷积网络从合成特征向量的张量渲染dering。不存在相关图像的启发式选择,不存在由于该集合中的变化而导致的时间不稳定性,不存在由于相关信息的启发式省略而导致的剧烈伪影,并且不存在由于顺序处理中的移位而导致的不稳定性。所有处理都根据需要通过置换不变集运算符将所有可用信息纳入流水线中,该流水线完全由端到端可训练的可微模块组成。有几种方法将类似于平面扫描体积[8]的概念合并到网络架构中,以合成隐式占用表示,可以通过隐式微分由摆姿势的图像训练。神经辐射场[24]通过训练将3D光线映射到占用和颜色的MLP产生令人印象深刻的结果。通过体绘制从该表示合成图像。这种方法已经扩展到无限的户外场景[44]和众包图像集合[22]。3. 概述图2提供了SVS的直观概览。我们大小新颖的观点。Flynn等人[12]利用这一概念,在视图之间插入。 Kalantari等人[16]使用这个想法输入是一组源图像{I,Nn=1,它们用于对于具有固定数目的相机的光场设置这些架构的附加定向照明扩展能够合成复杂的外观效果[3,43]。多平面图像(MPI)[47]也经常与深度网络结合使用[46]。在这里,图像由不同深度的颜色+α平面表示,并且可以从后到前渲染新视图。Srinivasan等人[37]指出,MPI中的一个限制因素是深度分辨率,并提出了一种随机分辨率训练过程。Mildenhall等人[23]扩展了这项工作,他们使用多个本地MPI和实用的用户指南。Flynn等人[11]通过学习梯度下降训练网络来预测高质量的MPI。Li等人。[20]将这条工作线扩展到具有强烈外观变化的图像集。另一类方法利用体积表示。Sitzmann等人。[35]提升2D图像特征,一个普通的3D体积 特征通过以下方式合成:一个场景相关的渲染网络。为了克服基于体素的表示的存储器要求,Lom- bardi等人。[21]学习动态不规则网格结构。在场景表示网络[36]中,体积被表示为MLP,图像通过可重构射线行进渲染。Niemeyer等人[25]第二十五话建立一个几何支架,并为基础,表面特征表示。给定一个新的视点(Rt,tt)和摄像机本征函数Kt,我们的目标是合成一个图像O,它描绘了这个新视图中的场景预处理:我们的方法利用3D几何支架。为了构建这个支架,我们使用标准的运动恢复结构、多视图立体和表面重建[31,32]。 我们首先运行结构-从-运动[31],以获得摄像机本质{Kn}N和摄像机姿态作为旋转矩阵{Rn}N和平移向量{tn}N. 在本文的其余部分,我们使用{In}N以表示运动恢复结构之后的校正图像。然后,我们在摆好姿势的图像上运行多视图立体,获得每个图像的深度图,并将这些融合到点云中。对该点云进行基于Delaunay的三维曲面重构,得到三维曲面网格Γ。我们在所有实验中使用COLMAP[31,32]进行预处理,但我们的方法可以利用其他SfM和MVS管道。此外,每个图像In由卷积网络编码以获得特征张量Fn,其为In中的每个像素提供特征向量。视图合成:为了合成新视图O,我们返回-渲染编码}12219ΓXf0k=1KKk=1k=1k=1k=1k=1aggrk=1φ=将O中的像素投影到支架Γ上。对于以这种方式获得的每个点x ∈ Γ,我们查询其中x可见的输入图像的集合。对于每个这样的图像Ik,我们获得沿着对应射线vk到x的特征向量fk。有关说明,请参见图3。然后,具有对应特征向量的视线的集合{(vk,fk)}k被生成。由以输出观看方向u为条件的可微集合网络来表示。这个网络产生一个新的特征向量g。对于O中的所有像素,以这种方式获得特征向量g。解码得到的特征张量G通过卷积网络来产生输出图像。请注意,SVS与使用神经点特征[2,9]或神经网格纹理[38]的作品不同,后者在点云或网格上的每个场景从头开始拟合特征向量(使用随机噪声初始化)SVS也不同于将完整(编码)源图像投影到目标视图的方法[14,29];在SVS中,每个3D点独立地聚集来自不同源图像集的特征。F2f1g图3:表面聚集。在一组源图像中看到几何支架I'上的3D点X每个这样的图像沿着射线vk(绿色)贡献特征向量fk表面聚合使用可微集网络来处理这些数据,并为目标射线u(red)产生特征向量gφaggr的一个简单选择是加权平均,其中权重基于源和目标方向之间的对齐:4. 特征处理和聚合图像编码:每个源图像I,n被编码为WAaggr1克朗Wk=1max(0,uTvk)fk(x).(二)卷积网络的特征张量,U-Net架构[30]。这个网络用φenc表示。这里W=Kmax(0,uT)vk)是所有权重的和。φenc的编码器部分由ImageNet预训练的ResNet18 [13]组成在φenc的解码器部分,每个阶段使用最近邻插值对特征图进行上采样,对于更有表现力的聚合函数,我们可以利用-[28]第二十八话具体来说,我们将源和目标方向连接到源特征,将MLP应用于每个特征向量,并聚合结果:将其与相应的特征图(φMLP=νKMLP(f ′).(三)分辨率),并应用卷积和aggrk=1k激活层。我们表示由下式产生的特征张量:这里f′=[u,vk,fk(x)]是源这个网络由Fn=φenc(In)表示。表面上聚合:我们方法的核心是计算3D几何支架上每个点x∈R3的目标特征向量g(x,u)这和目标方向与特征向量,和ν是一个置换不变运算符,例如mean或max。代替MLP,我们也可以使用图注意力网络(GAT)[40],它在每个3D点的源视图之间的全连接图上操作:特征向量被计算为观看的函数GATK.′K- 是的从目标相机中心到表面的方向uφaggr=νk=1GAT{fk}k=1 . 、(四)点x和元组{(vk,fk(x))}K。 这里,{fk(x)}K是对应于图像编码{Fk}K中的x的源图像特征,其中x是可见的,并且{vk}K是对应的观看方向。具体地,fk(x)=Fk(Kk(Rkx + tk))使用双线性插值。更正式地说,给定3D模型的目标特征向量在哪里·|k是节点k上的特征向量的读出。到目前为止提出的聚合函数计算tar-得到特征g作为集合特征。另一种可能性是在目标观看方向联合 具体来说,我们可以创建一个全连接图,源特征{[vk,fk]}K和初始目标特征表面点x计算为[u,g′],其中g′k=1通过等式(2)初始化。 然后我们g(x,u)=φaggr(u,{(vk,fk(x))}K),(1)可以将读出聚合函数定义为.- 是的其中K是x可见的φGAT-RO=GAT{[u,g′]}<${[vk,fk(x)]}K.0,(512220)其中φaggr是一个聚集函数。 函数φaggr必须满足一些标准;最值得注意的是,它应该是可微的,并且必须以任何顺序处理任意数量K的输入我们探索了基于可微集算子的多种设计,并根据经验性能选择其中一种设计(在第6节中报告)。在哪里·|0表示与目标节点相关联的特征向量的读出。渲染:我们现在描述表面点如何x以及如何渲染目标视图中的输出图像O给定用户指定的摄像机Kt12221h,w=1,1h,w=1,1h,w=1,1m=1渲染渲染n=1n=1和新的摄像机姿态(Rt,tt),我们从代理几何体Γ计算深度图D ∈ RH× W。然后,我们基于深度图D将调谐不仅优化网络参数,而且优化与源图像相关联的参数这使得优化能够协调图像之间的不一致性,例如由于自动曝光而导致的不同曝光间隔O,{xh,w}H×W. 请注意,D可能没有有效的深度曝光、图像特定运动模糊和其他像差由于表面网格T,或用于背景区域,例如天空。我们使用∞作为这样的像素的深度值。给定3D表面点{xh,w}H×W,我们可以计算视图相关特征向量{g(xh,w)}H×W并组装特征张量在源图像中。回想一下,到目前为止,我们已经优化了目标minθL(O,In),其中θ=[θenc,θaggr,θrender]是编码器、聚合和渲染网络的参数。 还要注意,由网络产生的输出图像O是编码的源图像的函数G=[g高×宽.对于3D表面点x没有{φenc(Im; θenc)}M.h,wh,w=1, 1映射到任何源图像,我们将gh,w设置为0。h,wm=1到目前为止,图像编码器φenc将源im-为了从特征张量G合成图像O,我们使用卷积网络,表示为φrender:O=φrender(G)。该网络的主要目标是对特征图进行规则化,例如抵消比例和源图像中的曝光差异,并修补丢失的区域。 为此,我们使用L个U网的序列,其中每个U网学习其输入的残差:φrender(G)=φ L(G+φ L−1(G+. . . ))。5. 培训训练场景无关模型:我们端到端地训练三个网络(φenc、φaggr和φrender)。给定一组场景,我们首先对场景和将用作地面实况的源图像In进行采样从其余的来源im-为了确定采样场景的年龄,我们对用于一次训练的M个源图像然后,我们最小化受Chen和Koltun启发的感知损失[6]:年龄我m作为输入,但训练过程只有优化网络参数θenc. 我们的核心理念是一个强大的微调是也优化源图像{φenc(Im;θenc)}M用作输入。(重要的是,优化不能改变在损失L(O,In)中用作基础事实的图像In 。 具 体 地 , 我 们 将 图 像 编 码 器 改 变 为 φenc(m;θenc,θimgs),即,网络的输入从源图像Im变为索引m,网络使用该索引m来索引到用实际源图像初始化的可训练参数θimgs源图像变得可变,可以在训练过程中进行优化。编码器也可以用φenc(θimgs[m];θenc)表示,以建立与原始编码器的连接。优化目标变为minθ,θimgsL(O,In).除了修改后的目标,培训程序保 持 不 变 。 注 意 , θimgs 是 用 源 图 像 {In}N 初 始 化的。,但原始的,未经修改的源im-ΣL(O,In)=||O−In||1个以上λl||φl(O)−φl(In)||第一条第六款年龄{In}N在整个培训过程中使用,损失L(O,In)。因此,优化过程是强制的l以产生与原始图像I匹配的输出O其中φl是预先训练的VGG- 19网络的层'conv 1 2','conv 2 2','conv 3 2','conv 4 2'和'conv 5 2'的 我们使用Adam [17],学习率为10−4,设置β1=0。9,β2=0。9999,并且=10−8来训练网络。网络微调:上述场景无关训练过程产生了一个通用网络,可以应用于新场景,而无需重新训练或微调。然而,我们应用我们的方法的场景可能与我们训练的场景非常我们可以遵循通常的做法,并微调目标场景的源图像上的网络参数θ=[θenc,θaggr,θrender],这些参数作为输入提供。从经过训练的场景不可知模型开始,我们应用相同的训练可以使用如上所述的过程,但是仅从目标场景的源图像中采样训练图像In场景微调:一种更强大的微调形式n并且不能退化到诸如将所有源图像设置为均匀颜色的平凡解决方案。对θimgs的优化仅仅给予训练过程修改其感知的输入图像的灵活规则化消除不一致性),以便能够更紧密地匹配不可变的地面实况目标。6. 评价我们首先在一组受控实验中评估我们的建筑选择然后,我们将SVS与三个具有挑战性的数据集上的最新技术进行比较:Tanks and Temples [18],FVS数据集[29]和DTU [1]。我们使用与Riegler和Koltun [29]相同的坦克和寺庙场景进行训练,不同之处在于Ignatius和Horse被保留用于验证,以在训练,验证和测试场景之间获得清晰的分离。因此,21个坦克和寺庙场景中的15个用于训练,2个用于验证,4个用于评估。我们在PyTorch中实现了网络 [26],并训练场景不可知模型,12222aggr↑PSNR↑SSIM↓LPIPS%加权平均数21.42 0.87012.84(a) 3D聚合函数(b) 细化步骤(c) 微调表1:对照实验。 验证场景的平均准确度。 粗体数字在最佳值的1%通用网络FT场景FT图4:微调的影响。该图显示了网络在微调期间未看到的新目标视图。600,000次迭代,批量大小为1,每次迭代采样M=3个源图像。我们使用三个图像保真度指标:LPIPS [45](以百分比报告),已被证明与人类感知良好相关,以及SSIM [41]和PSNR,这是更适合低级别图像差异的指标。架构选择:在第一组受控实验中,我们验证了我们的架构选择。如上所述,我们在15个坦克和寺庙场景上训练,并在2个保留的场景上进行验证。首先,我们比较了一组不同的3D聚合函数。结果总结见表1a。第一行报告使用公式(2)中所述的加权均值第二行和第三行报告MLP聚合函数的准确性(见等式(3)),一次是平均值,一次是最大池运算符。图14和图15报告如等式(4)中所述的图形注意力网络聚合的准确性,再次一次是平均值,一次是GAT特征向量的最大池化。最后一行报告如等式(5)中定义的φGAT-RO结果显示MLP均值聚合略有优势因此,我们在其他实验中采用这种聚合函数。在第二个实验中,我们想验证渲染网络从多个细化阶段中受益。因此,我们改变φrender中剩余U-Net阶段的数量L。结果见表1b。我们观察到,在PSNR和SSIM方面没有显著差异,但LPIPS随着细化阶段的数量而降低。因此,对于其他实验,我们设置L=9在第三个对照实验中,我们评估了IM-特定场景的微调协议表1c总结了结果。在第一行中,我们展示了一个简单的基线,它只是对每个3D点的RGB值进行平均,而在第二行中,网络只在测试场景的源图像上进行训练(而不是在预训练场景上进行训练第三行报告了场景无关网络的准确性,该网络在来自Tanks和Temples的15个第四行报告在对目标场景的源图像微调网络权重之后相同网络的准确度。(Only源图像用于微调。用于评估的目标视图永远不会在训练或微调期间使用。第五行报告了微调网络权重和输入图像后网络的准确性,如第5节所述。尽管这些微调方法都没有显著改变PSNR或SSIM,但我们可以看到LPIPS的明显改善。因此,我们对所有其他实验使用场景微调。图4显示了对示例图像进行微调的效果。坦克和寺庙数据集:我们现在将SVS与来自坦克和寺庙数据集[18]的四个新场景(不用于训练或验证)的最新技术水平进行比较,遵循Riegler和Koltun的协议[29]。对于每个场景,有一组特定的源图像和一组不相交的目标视图用于评估。我们比较了各种最近的方法,代表了不同的方法来查看合成,并已应用于可比的设置在过去。对于局部光场融合(LLFF)[23],我们使用了公开的代码。由于没有可用的训练代码,我们使用提供的预训练网络权重。对于Extreme View Syn-thesis(EVS)[7],我们还使用公开可用的代码,↑PSNR↑SSIMLPIPS%↑PSNR↑SSIM↓LPIPS%MLP平均值21.250.86912.51121.200.86812.62RGB平均21.150.84422.84MLP Max20.950.86312.65321.250.86912.51不带PT的网络FT21.130.86515.05GAT平均值21.010.86412.84521.300.87012.46一般21.590.87212.19GAT Max21.050.86413.09721.550.87212.41网络FT22.160.87411.26GAT读数20.880.86212.81921.390.87112.27场景FT22.020.8739.9912223卡车M60操场火车↑PSNR↑ SSIM↓LPIPS%↑PSNR↑SSIM↓LPIPS%↑PSNR↑ SSIM↓LPIPS%↑PSNR↑SSIM↓LPIPS%[23]第二十三话10.78 0.45460.628.980.43171.7614.40 0.57853.939.15 0.38467.40EVS [7]14.22 0.52743.527.410.35475.7114.72 0.56846.8510.54 0.37867.62NPBG [2]21.88 0.87715.0412.350.71635.5723.03 0.87616.6518.08 0.80125.48NeRF [24]20.85 0.73850.7416.860.70160.8921.55 0.75952.1916.64 0.62764.64NeRF++[44]22.77 0.81430.0418.490.74743.0622.93 0.80638.7017.77 0.68147.75FVS [29]22.93 0.87313.0616.830.78330.7022.28 0.84619.4718.09 0.77324.74Ours w/o FT23.09 0.89312.4119.410.82723.7023.61 0.87617.3818.42 0.80919.42我们23.86 0.8959.3419.970.83320.4523.72 0.88414.2218.69 0.82015.73表2:水箱和太阳穴的准确度。测试场景的准确性。粗体数字在最佳值的1%以内M60游乐场列车图5:坦克和寺庙的定性结果。 SVS与性能最佳的先前方法的比较。提供的网络权重。基于神经点的图形(NPBG)[2]使用已发布的代码和预训练的渲染网络权重来拟合每个场景。对于神经辐射场(NeRF)[24]和NeRF++[44],我们手动定义每个场景中主要对象周围的包围体这些方法是按场景训练的。对于自由视图合成(FVS)[29],我们使用公开可用的代码和已发布的网络权重,这些权重已经在我们的训练和验证场景的联合上进行了训练。结果总结见表2。 中观察到在先前的工作[29]中,LLFF和EVS在该增强视图合成设置中挣扎。我们还看到,NeRF++比NeRF更好,但两者都没有达到最佳性能方法的准确性。SVS没有任何场景特定的微调(我们的w/o FT)已经优于大多数场景的所有先前工作,特别是在LPIPS方面我们的完整方法(Ours)在所有场景上都达到了最佳效果。图5显示了在多个场景上使用性能最好的方法FVS有时无法利用所有相关图像,这导致错过-NPBG [2]NeRF++[44]FVS [29]GT我们12224自行车花海盗挖掘机沙盒足球↑SSIM↓LPIPS%↑SSIM↓LPIPS%↑SSIM↓LPIPS%↑SSIM↓LPIPS%↑SSIM↓LPIPS%↑SSIM↓LPIPS%NPBG [2]0.61631.080.55348.470.59245.710.68629.080.65035.910.72329.97NeRF++[44]0.71527.010.81630.300.71241.560.65734.690.84223.080.88920.61FVS [29]0.59227.830.77826.070.68535.890.66823.270.77030.200.81919.41Ours w/o FT0.74521.180.84821.410.75229.210.78218.000.85021.480.89514.79我们0.75720.840.84520.820.76030.830.79116.120.86220.000.91213.07表3:FVS数据集的准确性。粗体数字在最佳值的1%以内。65106118↑PSNR↑SSIM↓LPIPS%↑PSNR↑SSIM↓LPIPS%↑PSNR↑SSIM↓LPIPS%[23]第二十三话22.48/22.070.935/0.9219.38/12.7124.10/24.630.900/0.88613.26/13.5728.99/27.420.928/0.9229.69/10.99EVS [7]23.26/14.430.942/0.8487.94/22.1120.21/11.150.902/0.74314.91/29.5723.35/12.060.928/0.79310.84/25.01NPBG [2]16.74/15.440.889/0.87314.30/19.4519.62/20.260.847/0.84218.90/21.1323.81/24.140.867/0.87915.22/16.88NeRF [24]32.00/28.120.984/0.9633.04/8.5434.45/30.660.975/0.9577.02/10.1437.36/31.660.985/0.9674.18/6.92FVS [29]30.44/25.320.984/0.9612.56/7.1732.96/27.560.979/0.9502.96/6.5735.64/29.540.985/0.9631.95/6.31Ours w/o FT30.08/23.980.983/0.9602.36/7.1632.06/29.010.978/0.9593.54/5.3635.65/30.420.986/0.9662.15/5.15我们32.13/26.820.986/0.9641.70/5.6134.30/30.640.983/0.9651.93/3.6937.27/31.440.988/0.9671.30/4.26表4:DTU的准确度。粗体数字在最佳值的1%以内。在每列中,左边的数字用于视图插值,右边的数字用于外推。地区。NeRF++在输出中受到模糊和模式化的困扰,尽管它有时会重建我们的几何支架中缺少的细节虽然NPBG的结果可能非常好,但它有时会在场景的某些部分引入可注意到的伪影。SVS合成的图像整体上比以前的工作更清晰,更完整,更准确,请参阅补充视频序列。自由视图合成数据集:接下来,我们将SVS与FVS数据集上的先前工作进行比较[29]。该数据集包含6个场景,每个场景至少记录两次。第一个记录提供源图像,其他记录用作新目标视图的地面实况。定量结果总结见表3,定性结果见附录。由于空间限制,我们在这里省略PSNR值根据所有指标,SVS在所有场景上都比以前的工作有所改进请注意,SVS在每个场景中将LPIPS相对于最佳先验方法降低至少5个DTU:最后,我们将SVS与DTU数据集上的先前方法进行了比较[1]。DTU场景是用常规的相机布局捕获的,其中49张图像是从球体的八分圆拍摄的我们遵循Riegler和Koltun [29]的协议,使用相同的场景,并使用6个中心摄像机来评估视图内插,使用4个角摄像机来评估视图外插。定量结果总结见表4,定性结果见附录。LLFF和EVS在该数据集上实现了合理的结果,表明该设置更好地符合其建模假设。NPBG在这个数据集上挣扎,可能是由于每个场景的图像数量很少(即,39)。NeRF前-在这个数据集上,我们手动在对象周围指定了一个紧密的边界框,以最大限度地提高NeRF的准确性。FVS的结果在以下方面与NeRF相当:SSIM和LPIPS。对于我们的方法,在坦克和寺庙上训练并且从未见过DTU类场景的场景不可知模型已经具有令人惊讶的竞争力,并且完整的SVS方法在LPIPS方面为该数据集上的新颖视图合成设定了新的最新技术水平,在extrap-olation模式下实现了4.5%的平均LPIPS误差,对于视图插值为1.6%。7. 讨论提出了一种基于可微曲面特征处理的视图合成方法。该方法使用可微集网络在场景的几何支架上自适应地聚合来自源图像的深度特征。管道是端到端训练的,并学习从所有图像中聚合特征,从而避免了对“相关”源图像的启发式选择我们的方法为大规模真实世界场景的真实感视图合成开辟了新的领域。未来的工作有许多令人兴奋的途径。首先,我们期待在3D重建方面继续取得进展[18],这可以进一步提高通过所提出的方法合成的图像的保真度。其次,将该方法扩展到具有强烈外观变化的图像集将是有趣的,也许可以在测试时重新照亮场景[20,22]。最后,所提出的方法,像最近的视图合成工作,只有handles静态场景。这使得用户能够查看这些环境,但不参与其中并与之交互。该领域的一个令人兴奋的挑战是在保持照片真实感的同时实现这种场景的交互式操纵。12225引用[1] Henrik Aanæs , Rasmus Ramsbøl Jensen , GeorgeVogiatzis,Engin Tola,and Anders Bjorholm Dahl.多视点立体视觉的大规模数据。IJCV,120(2),2016年。[2] Kara-Ali Aliev , Artem Sevastopolsky , Maria Kolos ,Dmitry Ulyanov,and Victor Lempitsky.基于神经点的图形学。在ECCV,2020年。[3] Sai Bi , Zexiang Xu , Kalyan Sunkavalli , DavidKriegman,and Ravi Ramamoorthi.深度3D捕获:稀疏多视图图像的几何和反射。在CVPR,2020年。[4] Chris Buehler , Michael Bosse , Leonard McMillan ,Steven Gortler和Michael Cohen。非结构化Lumigraph渲染。在SIGGRAPH中。ACM,2001年。[5] Gaurav Chaurasia , Sylvain Duchene , Olga Sorkine-Hornung,and George Drettakis.深度合成和局部扭曲的合理图像为基础的导航。SIGGRAPH,32,2013.[6] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成在ICCV,2017年。[7] Inchang Choi,Orazio Gallo,Alejandro Troccoli,Min HKim,and Jan Kautz. Extreme View合成。在ICCV,2019年。[8] 罗伯特·T·柯林斯一种空间扫描的多图像匹配方法。在CVPR,1996年。[9] Peng Dai,Yinda Zhang,Zhuwen Li,Shuaicheng Liu,and Bing Zeng.基于多平面投影的神经点云绘制。在CVPR,2020年。[10] 艾贝·戴维斯马克·勒沃和弗雷多·杜兰德非结构光场计算机图形学论坛,2012年31日。[11] 约翰·弗林,迈克尔·布罗克斯顿,保罗·德贝维克,马修·杜瓦尔,格雷厄姆·费夫,瑞安·奥弗贝克,诺亚·斯纳夫利,理查德·塔克. DeepView:具有学习梯度下降的视图合成。在CVPR,2019年。[12] 约翰·弗林,伊万·纽兰德,詹姆斯·菲尔宾,还有诺亚·斯内弗利。DeepStereo:学习从世界的图像中预测新的观点。在CVPR,2016年。[13] 何开明,张翔宇,任少卿,孙健。用于图像识别的深度残差学习。在CVPR,2016年。[14] Peter Hedman,Julien Philip,True Price,Jan-MichaelFrahm,George Drettakis,and Gabriel Brostow. 自由视点图像渲染的深度混合。SIGGRAPHAsia,2018.[15] 彼得·海德曼,托拜厄斯·里切尔,乔治·德雷塔基斯,加布里埃尔·布罗斯托。可伸缩的由内而外的基于图像的渲染。SIGGRAPH Asia,35(6),2016.[16] Nima Khademi Kalantari , Ting-Chun Wang , and RaviRa- mamoorthi. 基 于 学 习 的 光 场 相 机 视 图 合 成 。SIGGRAPH,35(6),2016.[17] 迪德里克·P·金马和吉米·巴。亚当:一种随机优化方法。2015年,国际会议[18] Arno Knapitsch , Jaesik Park , Qian-Yi Zhou , andVladlen Koltun.坦克和寺庙:基准大规模场景重建。SIGGRAPH,36(4),2017.[19] Johannes Kopf,Michael F Cohen,and Richard Szeliski.第一人称超延时视频。SIGGRAPH,33(4),2014.[20] Zhengqi Li,Wenqi Xian,Abe Davis,and Noah Snavely.对全光功能进行人群采样。在ECCV,2020年。[21] Stephen Lombardi , Tomas Simon , Jason Saragih ,Gabriel Schwartz,Andreas Lehrmann,and Yaser Sheikh.神经网络:从图像中学习动态渲染SIGGRAPH,38(4),2019.[22] 里卡多·马丁-布鲁阿拉、诺哈·拉德万、迈赫迪·SM·萨贾迪、乔纳森·T·巴伦、阿列克谢·多索维茨基和丹尼尔·达克沃斯。NeRF在野外:神经辐射场的无约束的照片收集。arXiv:2008.02268,2020。[23] Ben Mildenhall , Pratul P Srinivasan , Rodrigo Ortiz-Cayon,Nima Khademi Kalantari,Ravi Ramamoorthi,Ren Ng,and Abhishek Kar.局部光场融合:具有规定采样指南的实用视图合成。SIG- GRAPH,2019.[24] Ben Mildenhall,Pratul P Srinivasan,Matthew Tancik,Jonathan T Barron , Ravi Ramamoorthi , and Ren Ng.NeRF:将场景表示为用于视图合成的神经辐射场
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功