实时新颖视图合成算法FWD：具有前向扭曲和深度的高质量合成方法

22 浏览量更新于2023-10-25 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15713×FWD：具有前向扭曲和深度的实时新颖视图合成AngCao，Chris Rockwell，JustinJohnson密歇根大学安娜堡{ancao，cnris，justincj}@ umich.edu摘要新视点合成（NVS）是一项具有挑战性的任务，要求系统从新视点生成真实感的场景图像，质量和速度对应用都很以前的基于图像的绘制（IBR）方法是快速的，但有输入视图稀疏时质量差。最近的神经辐射场（NeRF）和可推广的变体给出了令人印象深刻的结果，但不是实时的。在我们的论文中，我们提出了一种具有稀疏输入的可推广的NVS方法，称为FWD，它可以实时提供高质量的合成。该算法具有显式的深度和可区分的绘制效果，在130-1000倍的加速比和更好的视觉效果上，取得了与SOTA方法相当的效果。如果可用，我们可以在训练或推理期间无缝集成传感器深度，以提高图像质量，同时保持实时速度。随着深度传感器的日益普及，我们希望利用深度的方法将变得越来越有用。1. 介绍新视角合成（NVS）的目标是在给定多幅图像的情况下，这一长期任务已在图形、VR/AR中应用，为静态图像带来了活力。它需要对几何和语义有深刻的视觉理解，这使得测试视觉理解很有吸引力。NVS的早期工作集中在基于图像的渲染（IBR），其中模型从一组输入图像生成目标视图。光场[39]或代理几何结构（如网格表面）[12，24，61，62]通常由姿势输入构建，并且目标视图通过重新采样或混合扭曲输入来合成。这些方法需要密集的输入图像，受到3D重建质量的限制，并且对于稀疏的输入图像表现不佳。最近，神经辐射场（NeRF）[48]已成为NVS的主要方法，使用MLP隐式表示场景的5D辐射场。该方法从网络中查询每个采样点的颜色和密度，并通过体绘制进行聚合，(a) NeRF变体的体绘制（b）我们的前向扭曲图1. 实时新颖视图合成。提出了一种基于稀疏输入的实时图像合成方法. NeRF变体通过MLP对场景进行建模，MLP在渲染过程中被查询了数百万次，导致速度很低我们的方法利用显式深度和点云渲染器进行快速渲染，灵感来自SynSin[82]。该模型使用新型融合Transformer进行端到端训练，以提供高质量的结果，其中回归的深度和特征针对合成进行了优化。像素颜色使用密集采样点和可微分渲染器，不需要显式几何尽管令人印象深刻的结果，他们是不可推广的，需要MLP拟合的每个场景与密集的输入。此外，它们非常慢，因为单个图像的MLP查询时间非常长最近出现了可推广的NeRF变体，如PixelNeRF [89]，IBR-Net [78]和MVSNeRF [9]，通过对以稀疏输入为条件的MLP进行建模来合成未见过场景的新颖视图，而无需对每个场景进行优化。然而，它们仍然查询MLP数百万次，导致速度缓慢。尽管通过按场景优化加速NeRF的进展 [88，27，18]，快速且可推广的NeRF变体仍然未被开发。在本文中，我们的目标是一个可推广的NVS方法与稀疏输入，抑制密集的视图集合。实时速度和高质量的合成预期，允许- ING互动应用程序。经典的IBR方法速度很快，但需要密集的输入视图才能获得好的结果。可通用的NeRF变体显示了出色的质量，没有每个场景的优化，但需要密集的计算，导致速度慢我们的方法，称为FWD，实现了这一点源图像目标图像扭曲图像Est. 深度体绘制一Est. 深处光线距离Ca保险丝&细化15714×利用基于Depths的前向特征进行目标定位。我们的关键见解是，明确表示每个输入像素的深度，使我们能够使用可区分的点云渲染器对每个输入视图应用前向扭曲这避免了NeRF类方法中使用的昂贵的体积采样，实现了实时速度，同时保持了高图像质量。这个想法深受SynSin [ 82 ]的成功启发，SynSin[82]为单个图像NVS采用了可微分点云渲染器。本文将SynSin扩展到多输入环境，探索了有效的多视角信息融合方法与之前的NVS方法一样，我们的方法只能用RGB数据进行训练，但如果在训练或推断期间有噪声传感器深度数据可用，则可以逐步增强深度传感器在iPhone13 Pro和LG G8 ThinQ等消费者设备中越来越普遍，使RGB-D数据比以往任何时候都更容易获得因此，我们相信，随着时间的推移，利用RGB-D的方法我们的方法估计每个输入视图的深度，以构建潜在特征的点云，然后通过点云渲染器合成新的为了缓解不同视点观测结果之间的不一致性，我们将视点相关特征MLP引入到点云中来建模视点相关效应。我们还提出了一种新的基于transformer的融合模块，以有效地结合来自多个输入的特征。一个细化模块employed修补丢失的区域，进一步提高合成质量。整个模型经过端到端的训练，以最大限度地减少光度和感知损失，学习深度和针对合成质量优化的特征。与现有的方法相比，我们的设计具有几个优点首先，它提供了高质量和高速合成。使用显式点云可以实现实时渲染.与此同时，可区分的渲染器和端到端训练使高质量的合成结果成为可能。此外，与NeRF类方法相比，由于计算密集，无法在训练期间合成整个图像，我们的方法可以很容易地利用视觉损失和细化模块，这显着提高了合成的视觉质量。此外，我们的模型可以无缝集成传感器深度，以进一步提高合成质量。实验结果支持这些分析。我们在ShapeNet和DTU数据集上评估了我们的方法，并将其与代表性的NeRF变体和IBR方法进行了比较。它优于现有的方法，同时考虑速度和质量：与IBR方法相比，我们提高了速度和质量;与最近的基于NeRF的方法相比，我们在实时速度（130-1000加速）下实现了有竞争力的质量。用户研究表明，我们的方法在所有方法中给出了最令人愉悦的结果。该代码可在 https://github.com/Caoang327/fwd_code上获得。2. 相关工作新视图合成是计算机视觉中的一个长期存在的问题，它允许在给定多个场景图像的情况下生成新视图。各种3D表示（隐式和显式）已用于NVS，包括深度和多平面图像[74，94，72，57，7，67]，体素[69，21]、网格[61，23，28，62]、点云[82，40，64]和神经场景表示[65，41，19，34，47，55，48]。在这项工作中，我们使用点云作为我们的计算和内存效率的3D表示。基于图像的渲染。IBR通过加权混合从一组参考图像合成新视图[15，39，20，24，57，61，12，62]。它们通常从密集捕获的图像中估计代理几何形状以进行合成。例如，Riegler等人[61]使用多视图立体[66，87，77，77，45，29]来产生场景网格表面，并基于代理几何形状将尽管在某些情况下有希望的结果，但它们基本上受到3D重建质量的限制，其中具有大重叠和合理基线的密集输入（数十到数百）对于体面的结果是必要的。这些方法估计几何形状作为中间任务，而不是直接优化图像质量。相比之下，我们输入稀疏视图并联合学习深度以优化合成质量。神经场景表示。最近的工作使用隐式场景表示进行视图合成[65，41，19，34，47，55]。鉴于许多观点，神经辐射场（NeRF）显示出令人印象深刻的结果[48，92，46，56，81]，但需要昂贵的每场景优化。最近的方法[78，89，75，9，31]通过学习共享先验知识，利用稀疏输入，在没有每场景优化的情况下推广NeRF。然而，这些方法需要昂贵的射线采样，因此非常慢。相比之下，我们实现显着的加速使用显式表示。一些并发工作通过重新制定计算[18]，使用预先计算[88，27]或将视图依赖性添加到显式3D表示[41，83，2，8，49]来加速NeRF;与我们不同，这些都需要密集的输入视图和每个场景的优化。在NVS中使用RGB-D。标注深度图[13，5，10，1，71，68]的日益增长的可用性促进了NVS [54，40，26]中的深度利用，其用作网络的额外监督或输入我们的方法利用显式深度作为3D表示，允许使用传感器深度作为额外的输入，以获得更好的质量。鉴于深度传感器的日益普及，集成传感器深度是现实世界应用的一个有前途的方向。深度已用于神经场景表示的加速[51，73]，spaser输入[16]和动态场景[84]。然而，这些作品仍然需要每个场景的优化。利用RGB-D输入来加速可生成的NeRF，如[89，78]仍然是一个悬而未决的问题。可区分的渲染和细化。我们在微分渲染中使用优势[42，35，11，52，43]，15715、不RPi=1我--P------P$#1I1$#NIN我！IGT损失3. 1点云构建3. 2投影渲染器3. 3融合精炼图2. 系统概述。给定一组稀疏的图像，我们使用特征网络f、视图相关特征MLP和深度网络d为每个图像I i构建点云i。除了图像之外，d还将MVS估计的深度或传感器深度作为输入，并回归细化的深度。基于图像和相对视图变化，每像素特征Fi′由f和m采用可微分点云渲染器π将点云投影并渲染到目标视图。我们使用TransformerT来融合来自任意数量输入的渲染结果，并将细化模块R应用于最终结果。该模型使用光度损失和内容损失进行训练学习端到端3D。学习的几何形状在很大程度上依赖于渲染和细化[90，86，3，79]，以快速合成现实的结果。由于生成建模[38，36，91，95]，渲染框架[60，32，50，30]。我们不是在渲染之前聚合视点之间的信息[44]，而是单独渲染视点并使用Transformer [76，17，4]进行融合，从而实现对输入视图的关注。3. 方法给定输入图像I i N的稀疏集合和相应的相机姿态Ri、Ti，我们的目标是快速有效地合成具有相机姿态Rt、Ti的新视图。从传感器捕获的Ii的深度Dsen是可选的，其通常是不完整的并且有噪声。我们的方法的见解是，使用显式深度和向前扭曲，使实时渲染速度和巨大的加速。同时，为了减轻由不准确的深度估计引起的质量下降，采用了可区分的渲染器和精心设计的融合细化模块，鼓励模型学习针对合成质量优化的几何和特征。如图2所示，利用估计的深度，输入视图Ii被转换为包含视图的几何尺寸和视图相关语义的3D点云i可区分的神经点云渲染器π用于将点云投影到目标视点。我们提出了一个基于transformer的模块T，它融合了渲染后的点云，而不是在渲染前直接在视图之间聚合点云。目标视图的结果。最后，细化模块R被用来生成最终输出。整个模型是端到端训练的，具有光度和感知损失。3.1. 点云构建我们使用点云来表示场景，因为它们的效率，紧凑的内存使用和复杂场景的可扩展性。对于输入视图I i，通过估计输入图像中每个像素的深度Di和特征向量Fi'，然后使用已知的相机本征函数将特征向量投影到3D空间中来构造点云i。深度D i由深度网络d估计;特征F i′由空间特征编码器f和视图相关MLP f计算。空间特征编码器f. 空间特征编码器f将输入视图I i的场景语义映射到每像素特征向量Fi。Fi中的每个特征向量是61维的，并且与RGB通道连接，总共是64维f是基于BigGAN架构构建的[3]。深度网络D. 从单个图像估计深度具有缩放/移位模糊性，从而丢失有价值的多视图线索并导致跨视图的不一致估计。仅在稀疏输入上应用多视图立体算法（MVS）[66，87，77，85]具有挑战性，因为输入视图之间的重叠有限且基线巨大，导致估计不准确且置信度低。因此，我们采用混合设计级联U-Net后的MVS模块。U-Net将图像Ii和来自MVS模块的估计深度作为输入，利用多视图立体提示和图像提示来细化深度PatchmatchNet [77]是ƒ#或ƒ#或ƒƒ传感器MVSN.S.N传感器MVS””B1..-是的..-是的15716我我我PP森L--L它被用作MVS模块，它是快速和轻量级的。使用传感器深度进行深度估计。如上所述，U-Net从MVS模块接收初始深度估计，并输出用于构建点云的细化深度。如果传感器深度D_sen可用，则将其直接输入到U-Net作为初始深度估计。在这种设置中，U-Net服务器作为完成和细化模块，将Dsen和Ii作为输入，因为Dsen通常是有噪声的并且是不相容的。F！1F！2F！3查询令牌Transformer T融合特征多-MLP主管关注%3$#3%2$#2%1$#1每像素特征向量完全。在训练期间，采用损失Ls来鼓励U-Net输出以匹配传感器深度。Ls=<$M i<$D i−M i<$D i <$（1）其中Mi是指示有效传感器深度的二进制掩码。视图相关特征MLP 由于照明和视图方向的原因，点的外观可能会在视图之间有所不同，从而导致多个视图之间的不一致。因此，我们建议将视图方向的变化插入场景语义来模拟这种视图相关的效果。设计了一个MLP算法，以Fi和从输入视图到目标视图的相对视图变化Δ v为输入，计算视图相关特征Fi ′.对于云中的每个点，基于从输入视图i和目标视图t的点到相机中心的归一化视图方向vi和vt来计算Vlv。相对视图方向变化计算如下：v =[（v i− v t）/ 并且视点相关特征Fi′为：Fi′=α（Fi，δ（αv））（3）其中，δ是一个双层MLP，它将λv映射到一个32维向量，λ v也是一个双层MLP。3.2. 点云渲染器为了在目标视图处观察构造的点云i，我们采用神经点云渲染器π。 i首先基于相机姿态被变换为目标视图坐标然后用π表示。渲染后的要素地图Fi共享与每个像素处的特征Fi'相同的尺寸。通过外显几何变换，我们的渲染结果在不同视图之间是几何一致和正确的我们使用[82]的可微分渲染器设计，它将3D点splats到图像平面，并通过混合点特征获得像素值。混合权重是根据z缓冲区深度和像素与点中心之间的距离计算的。它是使用Pytorch3D实现的[60]。这种完全可区分的渲染器允许我们的模型进行端到端的训练，其中光度和感知损失梯度可以传播到点通过这种方式，模型可以学习估计深度和针对合成质量优化的特征，从而获得卓越的质量。我们在实验中证明了它的有效性图3. 融合Transformer。我们使用一个轻量级的TransformerT来融合每个像素上来自N个输入视图的特征。我们使用一个可学习的令牌来查询融合结果。3.3. 融合与精炼与SynSin [82]使用单个图像进行NVS不同，我们的方法需要融合多视图输入一个朴素的融合将每个点云转换为目标视图，并将它们聚合成一个大的点云进行渲染。尽管效率很高，但它容易受到不准确深度的影响，因为具有错误深度的点可能会遮挡来自其他视图的点，从而导致降级的结果。像PointNet [58]这样的方法可能适用于聚合点云进行细化，但它们对大量点无效。相反，我们在目标视点处单独渲染每个点云，并通过融合变换器T融合渲染结果。细化模块R用于修补缺失区域，解码特征图并提高合成质量。FusionTransformer T. 给定一个任意数量的人-因此，融合应该是有效的，快速的，和置换不变。受Transformer成功的启发，我们提出了一种用于融合的逐像素TransformerT，如图3所示。在每个像素处，T输入呈现的特征向量，并使用可学习的“to- ken”查询融合结果应用于特征，T利用语义进行融合。从3D渲染到2D时，渲染结果可能会丢失用于融合的几何体提示例如，深度可以揭示跨视图的遮挡关系，并且从输入到目标视图的相对因此，我们还探索了使用几何特征作为位置编码，但没有帮助。精炼模块R。内置8个ResNet [22]块，R将融合的特征映射F解码为RGB图像I，意见.它以语义和几何上有意义的方式对输入不可见的区域进行inpaints。此外，它纠正了由不准确的深度引起的局部错误，并基于特征图所包含的语义提高了感知质量，从而实现了连贯和高质量的合成。3.4. 培训和实施详情我们的模型是端到端训练的，具有生成的和地面真实目标图像之间的光度l2和感知c整个损失函数为：L=λl2Ll2+λcLc（4）$#$图像特征%$几何要素15717×表1. 模型变量设置。我们使用三种不同的模型变体进行不同的设置。FWD利用预先训练的MVS模块，以这种方式在训练期间访问深度。输入PixelNeRF FWD-U GT名称测试深度列车深度深度网络MVS模块损失FWD-U MVS + U-Net随机ini.Ll2+LcFWD_MVS+U-网预训练Ll2+LcFWD_D简体中文-Ll2+ Lc+ Ls其中λ 12= 5。0，λ c= 1。0的情况。该模型在4个2080Ti GPU 上进行了3天的端到端训练，使用Adam [37]，学习率为10−4，β1=0。9，β2=0。999当传感器深度可用作输入时，使用Ls，λ s= 5。0的情况。4. 实验我们的目标是实时的和可推广的新的视图合成与稀疏的输入，它可以选择性地使用传感器的深度。为此，我们的实验旨在确定我们的方法可以合成新图像的速度和质量，并探索显式深度的优势。我们在ShapeNet [6]和DTU [33]数据集上评估了我们的方法，并将结果与SOTA方法和替代方法进行了比较。实验在保留测试场景的情况下进行，没有每个场景的优化。我们进行消融以验证设计的有效性。指标. 我们进行A/B测试来测量视觉质量，在该测试中，工作人员从竞争方法中选择与地面真实值最相似的图像。还报告了自动图像质量指标，包括PSNR，SSIM [80]和LPIPS[93]，我们发现LPIPS最能反映人类感知的渲染过程中的每秒帧数（FPS）是在同一平台上测量的（单个2080Ti GPU，4个CPU内核）。所有评价均使用相同的方案（相同的输入和输出）进行。模型变体。如表1中所定义的，对三个模型进行了评估，其具有用于训练和测试的各种深度可达性。FWD利用预训练的PatchmatchNet [77]作为深度估计的MVS模块，该模块也在具有光度和感知损失的端到端训练FWD-U以无监督的方式学习深度估计，与FWD共享相同的模型和设置，而PatchmatchNet是随机初始化的，没有任何预训练。FWD-D将传感器深度作为训练和推理期间的额外输入它不使用任何MVS模块，因为传感器深度提供了丰富的几何线索。对于预训练PatchmatchNet，我们按照典型的MVS设置并使用与NVS相同的数据分割来4.1. ShapeNet基准测试我们首先在ShapeNet上评估我们的模型用于类别不可知的合成任务[6]。在[89]的设置之后，我们在13个ShapeNet [6]类别上训练和评估单个模型。每个实例包含24个64 64分辨率的固定视图。在训练期间，选择一个随机视图图4. ShapeNet上与类别无关的NVS的定性结果。我们通过使用单视图输入在ShapeNet的13个类别中训练模型来测试模型的能力，并与PixelNeRF进行比较[89]。在推断和训练期间没有可用的gt深度。我们的结果具有更好的视觉质量和细节。表2. ShapeNet上的类别无关NVS。类别不可知的视图合成的定量结果。1-view 2-view模型PSNR SSIM LPIPS FPSPSNR SSIM LPIPS FPSDVR [53]22.70 0.860 0.130 1.5-SRN [70]23.28 0.849 0.139二十四-PixelNeRF 26.80 1.228.88 0.936 0.076 1.1FWD-U 26.66 0.911 0.055 36428.43 0.931 0.043 336作为输入，其余部分作为目标视图。为了测试，我们从一个固定的信息视图中合成所有其他视图。该模型是微调与两个随机输入视图的2-视图实验。我们发现U-Net在没有MVS模块的情况下足以在这个数据集上获得良好的结果。与PixelNeRF的定性比较如图4所示，其中FWD-U获得了明显优越的结果。我们的合成结果更真实，与目标视图更接近，而PixelNeRF我们在DTU基准测试中观察到相同的趋势，并在那里定量评估视觉质量我们在表2中显示了定量结果，增加了SRN [70]和DVR [53]作为其他基线。我们的方法优于其他显着LPIPS，表明一个更好的感知质量，定性结果证实Pixel- NeRF的PSNR稍好，但结果模糊。最重要的是，FWD-U的运行速度超过300 FPS，比PixelNeRF快300倍4.2. DTU MVS基准我们还在DTU MVS数据集[33]上评估了我们的模型，这是一个由103个场景组成的真实场景数据集每个场景包含放置在桌子上的一个或多个对象，而图像和不完整的深度由安装在工业机器人臂上的相机和结构光扫描仪收集。15718××输入：3个显示场景的图5.从FWD查看合成结果。我们展示了FWD-D（行）DTU数据集上3个输入视图的视图合成结果。1），FWD（row. 2)和FWD-U（行。（3）第三章。我们的方法实时合成高质量和几何正确的新视图。如[89]所述，该数据集具有挑战性，因为它由复杂的真实场景组成，场景之间没有明显的语义相似性。此外，图像是在不同的照明条件下拍摄的，视图之间具有明显的颜色不一致性。此外，由于只有不到100个场景可用于训练，因此在训练中容易出现过拟合对于所有方法，我们遵循与PixelNeRF [89数据由88个训练场景和15个测试场景组成，这些场景之间没有共享或高度相似的场景。图像被下采样到300 - 400的分辨率。对于训练，随机采样三个输入视图，其余的作为目标视图。对于推理，我们选择三个固定的信息输入视图，并合成场景的其他视图基线。我们评估了一组代表的一般化NeRF和IBR方法在两种不同的情况下：与RGB或RGB-D可作为输入在推理。PixelNeRF [89] 、 IBRNet [78] 和 MVSNeRF [9] 是SOTA可推广的NeRF变体，将RGB作为输入。我们使用在DTU MVS上训练的官方PixelNeRF模型，并使用相同的 3 输入视图设置仔细地重新训练 IBRNet 和MVSNeRFPixelNeRF-DS 也被包括在 [16] 中，其是PixelNeRF用深度监督的。请注意，我们的设置与IBRNet和MVSNeRF原始论文中使用的评估非常不同对一系列IBR方法进行了评价。由于COLMAP [66]无法提供稀疏输入图像的合理输出，因此使用COLMAP的方法，如FVS [61]，DeepBlending [25]无法在此设置中估计场景几何形状。对于这些方法，我们使用传感器捕获的深度作为估计深度，这应该给出这些方法的上限性能。为了更好地处理丢失的区域，我们将我们的细化模型添加到DeepBlending [25]中，并在DTU数据集上重新训练它，称为Blending-R。为了公平起见，我们使用相同的协议来评估所有方法，与它们的一些原始设置不同。尽管我们尽最大努力采用这些方法，但我们报告的结果仍可能不能完全反映其真实能力。定性结果。合成结果示于图1中。图5，其中在显著的视点变化下实时（超过35 FPS）合成我们的细化模块faith-fully inpaints不可见的区域;此外，合成图像具有良好的阴影，光反射和不同的外观，跨视图，显示视图相关的MLP的功效利用传感器深度，可以进一步改善结果我们在图6中显示了与基线的比较。我们的方法在不同的深度设置中提供了比基线明显更好的结果。对于测试中没有深度的模型，IBRNet和PixelNeRF在高细节区域（如顶行的建筑物）提供模糊的结果，而我们的FWD-U和FWD提供更逼真，更清晰的图像。随着传感器深度的测试，基线Blending-R产生更有说服力的输出，但仍然难以区分物体与背景，例如在中间行，而FWD-D则忠实地提供合成和清晰的边界。定量结果。我们按照标准的A/B范式通过用户研究来工作人员在竞争方法之间选择最接近地面真实图像的方法，并使用限定符和哨兵示例进行监控测试集中的所有视图（总共690个）都被评估，每个视图都由三个工人来判断。在图7中，用户研究结果支持定性观察。在有和没有测试深度的所有基线中，用户选择我们的方法在大多数情况下比其他方法更接近地面实况图像。在65.6%的示例中，FWD-U选择PixelNeRF，与IBRNet相比为77.8%。此外，超过90%的工人更喜欢FWD- D而不是FWD，显示出使用传感器深度的优势.我们在表3中显示了自动视图合成的指标和速度。在所有深度可用性设置中，我们的方法与SOTA基线相比具有竞争力，同时速度明显更快。FWD-D实时运行，并提供比其他更好的图像质量。FWD具有与PixelNeRF-DS竞争的指标，同时速度快1000值得注意的是，NeRF变体，如PixelNeRF，IBRNet，MVSNeRF和PixelNeRF-DS至少慢两个数量级。具有高度竞争力的性能的例外是FWD-UFWDFWD-D15719××输入图像PixelNeRF IBRNet FWD-U FWD混合+R FWD-D目标视图图6. 定性比较。我们比较了3个输入视图（其中一个如图所示）的不同方法的合成结果。我们的方法给出了几何上一致的和视觉上吸引人的结果，而其他结果在某些视图上遭受震动伪影。与其他方法不同，FWD-D和Blending+R在推理过程中获取访问传感器深度作为输入。表3. DTU实时图像的定量比较。我们比较我们的方法与代表的可推广的NeRF变种和IBR方法的图像质量和渲染速度。我们的方法实现了显着更好的速度和质量的权衡，表明我们的设计的有效性和效率。与其他方法不同，SynSin只接收一个图像作为输入。图7. DTU用户研究。我们通过要求受试者选择与地面事实最相似的结果来进行用户研究。数字表示偏好的百分比。方法根据测试期间是否使用深度进行分组。我们还报告了FWD与FWD-D的对比，显示了传感器深度的优势。我们的无监督FWD-U图6中的视觉质量还说明了使用PSNR和LPIPS进行比较的差异同时，FWD- U比PixelNeRF快1000以上，比IBRNet快100深度估计、渲染和CNN会引入微小的像素移位，这会损害我们方法的PSNR。NeRF类方法被训练来独立地优化每个像素的L2损失，从而导致模糊结果。在所有不需要测试深度的方法中，FWD的效果最好。虽然它使用了预训练的MVS模块，但我们认为这种比较仍然是合理的，因为预训练的深度模块很容易获得。此外，训练深度可以很容易地从训练图像计算，因为它们是密集的。基线比较也表明，IBR方法是快速的，但不给图像，是与我们的方法竞争。我们的方法优于他们在这两个外观的质量和标准的指标，显示所提出的方法的有效性。请注意，混合+R我们还将FWD-U与仅接收单个输入图像的SynSin [82]进行了比较，显示了在NVS中使用多视图输入的好处。FWD-URGB RGB-D [16]第十六话 19.87 0.710 0.370 0.0320.15 0.721 0.259 35.4]4.3. 消融和分析我们评估我们的设计的有效性，并通过消融实验更详细地研究深度。熔断器Transformer的影响。我们设计了一个模型与-out的Transformer，它连接点云跨视图到一个更大的，为以后的渲染和细化。FWD-U设置的结果如图8所示。消融版本容易受到以无监督方式学习的不准确深度的影响我们在FWD-D设置中重复相同的消融，如表4所示，该设置提供了更好的深度估计和传感器深度。消融模型对所有度量的结果都明显较差，表明所提出的方法不仅能够解决不准确的深度估计，而且能够有效地融合语义特征。视图相关MLP的影响对于消融，我们删除了视图相关特征MLP，并在表4中报告了其结果。删除此模块会降低模型测试火车模型PSNR↑SSIM↑LPIPS↓ FPS↑[第89话]19.240.6870.3990.03IBRNet [78]18.860.6950.3870.27RGBRGBMVSNeRF [9]13.770.6190.5630.11[第82话]15.6617.420.5640.5980.3880.34151.835.4PixelNeRF和IBRNet的数据。然而，FWD-U没有-通过最佳LPIPS获得更好的感知质量，以及RGB-D RGB-D混合-R [25FVS [61]16.9815.920.6610.7330.3510.26741.89.70在A/B测试中，人类评分者更喜欢它关于VI-FWD-D21.980.7910.20843.215720输入视图FWD-Uw/o Transformer目标视图图8.Fusion Transformer上的消融。我们展示了FWD-U在有和没有基于变换的融合的情况下的结果。表4. 消融研究。通过对FWD-D的消融研究，我们证明了Transformer Fusion和视点相关MLP的有效性。这些设计在保持实时渲染速度的同时显著提高了合成质量。模型PSNR SSIMLPIPSFPS完整模型21.98 0.7910.20843.2不带Transformer20.95 0.7480.24148.4不依赖21.16 0.7690.21244.0对所有指标进行验证。更多搜索结果显示于Supp. 深度分析和消融。我们在图9中可视化深度。从稀疏的输入估计深度是有挑战性的，并且由于输入之间的巨大基线而给出不太准确的结果。我们在这里显示了PatchmatchNet的估计深度，根据置信度得分进行过滤。因此，在我们的设计中，细化是必不可少的，以传播多视图几何线索到整个图像。我们的端到端模型通过合成损失来学习它。我们消融表5中的深度网络，并报告深度误差δ3cm，这是传感器深度3 cm以内的估计深度的百分比MVS模块对于给出几何一致的深度至关重要（第2行）。U-Net进一步细化深度并提高合成质量（第3行）。PatchmatchNet有它自己的浅层细化层，已经给出了不错的细化.从头开始联合学习无监督MVS和NVS是具有挑战性的（第4行），首先在没有监督的情况下训练深度网络[14]可以为进一步的联合训练提供良好的初始化。5. 结论我们提出了一个实时和可推广的方法，NVS稀疏输入使用显式深度。该方法继承了SynSin的核心思想，它的多视图输入设置，这是更具挑战性的。我们的实验表明，估计深度可以给出令人印象深刻的结果与实时速度，优于现有的方法。此外，该方法可以无缝利用传感器深度，显著提高合成质量.随着移动深度传感器的日益可用，我们相信我们的方法具有令人兴奋的现实世界3D应用。我们承认有可能输入图像传感器深度FWD-D滤波MVS FWD FWD-U图9. 深度可视化。我们可视化了我们的方法中涉及的归一化逆深度。由于硬件限制，传感器深度不完整，MVS估计深度不准确，其中许多预测的置信度较低这说明了深度完善和细化的必要性。表5. 深度网络消融和错误。我们消融深度网络并计算δ3cm作为误差，这是传感器深度3 cm内预测深度的百分比。试验列车模型PSNRSSIMLPIPSδ3cmRGBRGB-DFWD20.150.7210.25979.07RGBRGB-D- 不带MVS16.690.5940.35761.62RGBRGB-D- 不带U-Net 19.100.7020.28573.62RGBRGBFWD-U17.420.5980.34154.27这项技术被邪恶的行为者用于负面目的，比如合成虚假图像用于作弊。也有一些挑战和限制有待探索。1)虽然使用显式深度可以提供巨大的加速，但它可能会对我们的模型造成深度依赖我们设计了一种混合深度回归器，通过结合MVS和单图像深度估计来提高深度的质量我们还采用了一个有效的融合和细化模块，以减少不准确的深度造成的退化尽管有这些设计，深度估计器在一些具有挑战性的设置（如非常宽的相机基线）中可能仍然工作不佳，并且它会影响合成结果。探索其他深度估计方法，如MiDaS [59]可能是未来工作的一个有趣方向。2) 我们的方法的潜在能力没有得到充分的开发。与SynSin [82]一样，我们的模型（尤其是深度/特征网络和细化模块）适用于大规模训练数据，而DTU MVS数据集不够大，在训练过程中容易过拟合在Hypersim [63]等大规模数据集上评估我们的方法可能会揭示我们模型的更多优势，该数据集对于NeRF类方法来说非常具有挑战性。3) 虽然我们的方法给出了更直观的结果，但我们的PSNR和SSIM低于NeRF类方法。我们假设，我们的细化模块没有得到此外，在渲染过程中引起的微小未对准也可能损害PSNR，尽管它在感知上不可见。谢谢。丰田研究所提供资金支持这项工作。我们感谢单丹丹、欧阳浩、谢嘉欣、金林毅、钱胜义的有益讨论。15721引用[1] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据IJCV，120（2）：153[2] Alex Yu 和 Sara Fridovich-Keil ， Matthew Tancik ，Qinhong Chen ， Benjamin Recht 和 Angjoo Kanazawa 。Plenoxels：没有神经网络的辐射场，2021年。[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练2019年，在ICLR[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。参见ECCV，第213-229页。Springer，2020年。[5] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3d：从室内环境中的rgb- d数据中学习。2017年3D视觉国际会议（3DV）[6] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Mano-lis Savva，Shuran Song，Hao Su，et al.Shapenet：An information-rich 3d model repository. 技术报告arXiv：1512.03012，2015。[7] Gaurav Chaurasia 、 Sylvain Duchene 、 Olga Sorkine-Hornung和George Drettakis。深度合成和局部扭曲的合理图像为基础的导航。ACM Transactions on Graphics（TOG），32（3）：1[8] Anpei Chen ， Zexiang Xu ， Andreas Geiger ，， JingyiYu，and Hao Su.张量辐射场，2022年。[9] Anpei Chen ， Zexiang Xu ， Fuqiang Zhao ， XiaoshuaiZhang ， Fanbo Xiang ， Jingyi Yu ， and Hao Su.MVSNeRF：从多视图立体图像中快速广义辐射场重建。在 IEEE/CVF计算机视觉国际会议论文集，第14124-14133页[10] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知。InNeurIPS，volume 29，2016.[11] Wenzheng Chen ， Jun Gao ， Huan Ling ， Edward JSmith ， Jaakko Lehtinen ， Alec Jacobson ， and SanjaFidler.学习使用基于插值的可区分渲染器预测3d对象。2019年。[12] Inchang Choi，Orazio Gallo，Alejandro Troccoli，Min HKim，and Jan Kautz.极限视角合成。在ICCV，第7781-7790页[13] 戴安琪，天使X.

下载后可阅读完整内容，剩余1页未读，立即下载