没有合适的资源?快使用搜索试试~ 我知道了~
4309i=1i=1i=1----一种新的视图合成方法* *** 酒店PAVEL SOLOVEV1,塔拉斯卡胡林1,2星级****1三星人工智能中心2斯科尔科沃科技学院3Yandex研究https://samsunglabs.github.io/MLI/摘要我们提出了一种新的方法,轻量级的新颖的视图合成,thesis推广到任意的前向场景。最近的方法是计算昂贵的,需要每个场景的优化,或产生内存昂贵的表示。 我们首先用 一组前平行的非透明平面和后平行的非透明平面以端到端的方式将它们转换成可变形层。此外,我们采用了前馈细化过程,纠正估计的表示,聚集从输入视图的信息。我们的方法在处理新场景时不需要任何微调,并且可以处理任意数量的视图,没有任何限制。实验结果表明,该方法在通用度量和人工评价方面均优于现有模型,在推理速度和推理分层几何的紧凑性方面具有明显优势1. 介绍新视点合成(NVS)的问题在于预测来自新摄像机的场景的视点In另一方面,一类基于多平面图像(MPI)的方法[48,39,34]通过在给定几个输入图像的情况下用一组前平行平面表示场景,提供了实时渲染和良好的泛化[23,7]。它们的限制之一是近似场景几何所需的相对大量的非透明平面。为了解决这个问题,最近的作品 [2 , 19]提 出 了 生 成 一 组 密 集 的 平 面 ( 多 达 128个),并将它们合并为具有不可学习的后处理操作的多层图像这一研究方向遵循的是用神经网络估计端到端MLI的方法[12,15]。在本文中,我们提出了一种新的方法,用于真实感视图合成,估计多层几何形状的场景中的一个MLI的形式,给定一组任意的前向视图。在场景数据集上训练预测代理几何的网络,并且在此之后,以前馈方式获得任何新场景的MLI。与先前的解决方案相比,我们的方法在渲染期间没有预定义数量的输入视图或任何神经计算。因此,即使在具有计算限制的设备上,也可以使用标准图形引擎以高分辨率渲染输出表示。给定一组输入视图{Ii}V,我们称之为Self-i改进模型场景(也称为源视图)和相应的相机姿态πiV和内参数KiV[10]。这种输入视图的两个自然来源是静态场景的手持视频[24,42,20]和来自多相机装备的镜头[7,2]。迄今为止,通过估计场景的辐射场来获得最佳图像质量,将其从最接近新相机姿势的源视频的帧中导出[24,45,1,26]。然而,这种方法需要在新场景上对模型进行微调此限制使它们无法在需要快速渲染的设置中使用*所有作者贡献相同。多通道到层图像,或者只是SIMPLI。我们的方法的基本步骤在名称中概述:首先,我们以多平面图像的形式估计场景的几何形状,该图像以端到端的方式转换为多层图像,参见图。2.此外,受DeepView论文[7]的启发,我们基于输入视图(因此自我改进)使用前馈纠错程序来改进表示。我们的评估表明,对于在训练过程中看不到的测试场景,我们可以合成与旨在推广到新场景的最先进方法相当或更好的此外,我们的方法提供了更快的推理速度。4310渲染视图渲染深度层1(最远)层2层3层4(最近)图1。用SIMPLI估计的4个可变形层的MLI表示。半透明层以从后到前的顺序枚举。推断的深度图是通过将每层深度图w.r.t.从相应的RGBA纹理中提取的不透明度。2. 相关作品静态场景的新视图合成是计算机视觉领域的一个著名问题。该领域的主要任务是根据输入信息生成与摄像机在场景中的运动相对应的合理图像。早期的方法直接在输入图像的像素之间进行插值,并限制源摄像机的位置[8,14,11],使用场景的代理几何[5]或伴随着几何学的优化[27]来从新的视角渲染场景。被称为立体放大的方法使用MPI几何学,其中透明平面被放置在源相机之一的截锥体DeepView方法使用与学习的梯度下降类似的程序逐步细化平面的纹理[7,2]。虽然据报道,它能够处理任何数量的输入图像,但这并没有得到证明。LLFF方法[23]的作者在每个源相机的截头体中构建了一个单独的MPI,并使用启发式方法混合使用这些MPI获得的多个初步新视图以获得结果图像。相反,我们从任意数量的输入视图中聚合信息,并为场景构建单个表示。一些作品[32,6]发现分层深度图像(LDI)[31]的使用对于单图像NVS是有效的,因为它的稀疏性和渲染的简单性。与此同时,在没有松弛的情况下以可微的方式估计该表示仍然具有挑战性[40]。StereoLayers[15]和Worldsheet[12]方法表示具有多个透明可变形层的场景,该结构也称为然而,由于其场景自适应的性质,这种代理几何仍然比MPI更轻量级,同时保留了使用现代图形引擎实时渲染的能力。一些先前的工作提出了转换MPI到MLI的后处理过程,基于启发式[2,19]。与他们不同的是,我们使用StereoLay- eres [15]论文中应用于仅两个输入帧的情况的技术来端到端执行此转换。最近,几种方法[46,3,38,42,4,36]试图以神经辐射场的形式从输入图像中估计隐式3D表示[24]。然而,在推理时对神经网络的大量查询导致渲染速度缓慢此外,IBRNet[42]还沿射线应用了自注意操作来估计点的体积密度,进一步减慢了速度。另一组方法[44,30,35,25]提高了单个场景的查询和训练收敛速度,但这些方法尚未推广到新场景。相比之下,我们的系统允许以更高的速度渲染新的视图,同时在各种场景中进行推广。4311高x宽x 3特征特征提取器0渲染源图像高/4 x宽/4 x中初始化1高/2 x宽/2 x水平切片来源相机相机#2#1MPI校正②合并平面到图层③MLI校正④新型照相机#1新型摄像机#2多层映像重复- 时代源参考相机代表性国家三号摄影机可训练模块××›→i=1××× ×L44{Fi}i=1,h,w、真张量{Fi},下采样到相同的大小。我们-给定一组V源特征张量{Fi}V×--联系我们图2.提出的SIMPLI模型的方案。我们的多级系统包括4个步骤:首先初始化一个初步的多平面表示(MPI),然后通过误差修正步骤对MPI进行细化。然后,将MPI转换为多层几何(MLI),并再次通过错误校正过程。整个流水线以粗到细的方式实现3. 预赛MPI表示。MPI表示具有P个平面的序列的场景,该P个平面被放置在被称为参考相机的针孔相机的平截头体我们通过平均源相机的姿态来构建虚拟参考相机这些P平面在预定义的深度范围内以均匀的视差放置,这取决于数据集的预处理。在我们的实验中,P=40。每个平面都有一个透明的RGBA纹理,解决方案h w,不考虑其深度。 为了使用该表示来渲染最终图像,平面的纹理使用同态变形被“投影”到新颖的相机姿态,并且在w.r.t.他们的不透明[28]。因此,渲染任意数量的新图像是快速的,并且不涉及任何神经网络。这里的关键问题是如何估计平面的纹理。通常,这通过处理平面扫描体积(PSV)来完成建造PSV。在这里,我们定义了建立tors. 此操作允许将任意数量的输入压缩为预定义数量的输出。4. 方法4.1. 概述①。首先,我们用基于特征金字塔结构E θ:I i Fi′的特征提取器处理每个V源视图,产生与原始图像相同分辨率H W的V张量。 每个张量F i′与I i通道连接,提供特征张量F i。特征Fi i用于构建具有P平面的分辨率H W的平面扫描体积PSV0。该体积用作聚合模块T0的输入(如下所述)。该模块的输出是特征域中MPI的初始版本,表示为fMPI 0。②MPI修正。然后,我们进行误差校正步骤。 我们把fMPI0投射到源摄像机上-H×W的解,并用有限元法计算其差值。.第五章22C通道和MPI平面的分辨率h×w。fea-V×P×C×H×W,我们将表示更新为图Fi可以与源图像Ii一致,或者是某个编码网络的输出为了构建体积,每个特征张量都是解投影的结果是一个形状为V P C h w的张量。一般来说,为了从构建的PSV中获得MPI,我们需要聚合所有源特征,并随后将其转换为RGBA域[48,7]。注意力集中。注意力池[18]是标准QKV注意力模块[41]的修改,其中查询用称为锚的可训练向量表示,独立于2 2状态fMPI1。③面层转换。在该步骤中,我们将fMPI1的P个刚性平面合并到L个可变形层中(参见补充中的详细图)。该程序分两步进行:第一,注意力集中(见第二节)。3)沿P轴应用L锚点,以将平面聚合为L组。所得到的张量包含层的特征域中的纹理。其次,预测可变形层的深度图:沿着fMPI 1的P轴应用自注意模块,以预测每个平面的逐像素不透明度。我们就-输入的dent,而键和值等于输入vec。把飞机看进P相等大小的连续组,平面扫描体积PSV=unproj组成计算形状差异的4312†××#型号 SWORD真正的前向闪亮源查看PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS↓IBRNet4. 590.54 0.190.35 0. 1919.13. 070.570。140.3201321.89 3. 760.67 0.150.240142个StereoMag18.71 3.950.53 0.190.29 0. 18 17.22 2. 850.47 0.150.3101220.11 3. 630.58 0.160.19 0.11DeepView†20.41 4.040.64 0.170.2201420.46 3. 000.65 0.130.20 0。08 22.96 3. 730.72 0.14零点一二07SIMPLI-4L20.78 3.830.64 0.16零点二三1520.46 3. 000.65 0.130.20 0。08 22.96 3. 730.72 0.14零点一二07SIMPLI-8L20.84 3.760.64 0.160.2201421.17 3. 090.69 0.120.16 0. 06 23.59 3. 270.76 0.120.10 0.05IBRNet22.79 3.920.710。150.2201222.69 3. 350.73 0.100.19 0. 08 25.29 3. 30 0.80 0。090.13 0.075个LLFF19.56 3.190.52 0.170.33 0. 11 21.76 3. 020.72 0.100.20 0。07 23.31 2. 740.75 0.110.16 0.05DeepView†21.99 3.850.73 0.14零点一八1223.11 2. 860.76 0.100.13 0. 05 24.99 3. 240.81009零点零九04SIMPLI-4L22.95 3.010.74 0.12零点一七1323.37 3. 120.78 0.09零点一二0525.47 2. 730.83 0.070.08003SIMPLI-8L23.10 3.090.75 0.11零点一七1223.58 3. 060.79 0.090.1100425.47 2. 640.83 0.070.07 0.03IBRNet24.51 3.160.77 0.10零点一八0723.98 3. 310.78 0.090.16 0. 06 26.27美元800.83 0.070.110058个LLFF21.22 3.150.59 0.17零点二八1022.91 3. 080.77 0.08零点一七0524.29 2. 830.78 0.100.14 0.05DeepView†22.71 3.600.77 0.110.16 0. 09 23.79 2. 490.80 0。070.1100325.71 2. 750.84 0.070.07 0.03SIMPLI-4L24.02 3.370.78 0.110.16 0. 10 23.86 2. 870.80 0。080.10 0. 03 26.03 2. 360.85 0.050.07 0.02SIMPLI-8L24.32 3.370.79 0.110.15 0. 1023.812. 660.810070.10 0. 03 26.05 2. 290.85 0.050.06 0.02表1. SWORD(30个场景),RFF数据集(8个场景)[23]和Shiny数据集(8个场景)[44]的保持测试部分的评估结果。V表示源视图的数量。LLFF和DeepView的MPI表示由40个平面组成。匕首表示我们对模型的重新实现。请注意,我们的模型和IBRNet之间的度量差异通常并不显著,因为std很大(由下标表示),而SIMPLI产生更紧凑的表示,适合实时渲染。模型PSNR↑ SSIM↑ LPIPS↓位置。 这些步骤的数量表示为τ。 在-2. 09DeepView29.520.84 0.050.110的情况。03这些附加步骤的影响在消融研究下面。更新后的状态fMLIτ从二、92 0.90 0. 060.05 0. 012.第一次约会三十五点八九分。040.050. 021. casino 860.870. 040.070. 021. casino 880.880. 040.060. 01表2.Spaces数据集测试部分的评估结果(10个场景,大基线 ) [7] 。 源 视 图 的 数 量 等 于 4 。 DeepView ( 原 始 ) 和DeepView†(我们的修改)都使用了40个平面,而SIMPLI只产生4-8个层。对于这个数据集,需要权衡质量和表示紧凑性。并且平面的深度在具有预测的不透明度的每个组内过合成。这产生了L个深度图,这些深度图在设计上不会彼此重叠第三,为了从每个深度图中获得网格,我们将地图的每个像素视为顶点,并将其连接到附近的六个顶点(顶部,右侧,右下角,底部,左侧,左上角)。因此,每个四边形(2 × 2像素块)被转换为两个三角形面。所获得的多层表示被表示为fMLI0。纠正MLI。在得到多层几何结构fMLI0之后,我们执行类似于②的校正步骤,将我们的表示的分辨率提高到HW。由于多层表示是相对轻量级的,因此在获得最终表示之前,可以在该阶段执行多个误差校正步骤4313××× × ×i=1联系我们特征域到RGBA,我们将此最终状态称为MLI。所得到的表示的示例在图中呈现。1.一、4.2. 纠错在这里,我们提供了更多的细节,对错误纠正的过程。它包括计算与输入视图的差异,并根据此信息更新表示。对于MPI和MLI,该过程的执行方式类似,因此为了简单起见,我们假设MPI的情况此外,与前一小节相比,我们稍微滥用了符号,因为所描述的过程不依赖于我们管道的确切步骤。各步骤的详细方案见补充说明。离散计算。设形状P C h w的fMPI(特征域中的MPI)为程序的输入。我们使用RGBA解码器来预测特征的RGB颜色RGBA解码器是用一个完全连接的网络实现的,独立地应用于每个P h w位置。在源摄影机上渲染之前,预测的颜色和不透明度沿通道轴与原始fMPI串联。 渲染后ing,我们得到张量FiV决议H'W′,其中是误差计算的目标分辨率。然后我们计算原始特征张量和渲染视图之间的像素差异 这些差异是4314××××× ××J j=1管道。J j=1不JJ“unprojected”地面实况图像{Igt}N使用逐像素的1001损失聚合块 聚合块的重量和L1=1 ΣNNj=1In−Igt<$1以及知觉丧失[13]RGBA解码器不在不同的步骤之间共享,Lperc=1N你知道吗?I n− V GG t.Igt2011,其中在MPI的情况下,渲染是通过单应性扭曲完成的,而MLI需要使用可微分渲染器[17]。另外,在MLI的情况下,unproj操作将输入由于MLI的校正是在全分辨率下完成的,因此为了内存消耗,我们在渲染之前不将特征连接到预测颜色,并且仅在RGB域中计算误差。“Unprojection”在我们的管道中,深度图的分辨率和层的纹理是相等的。因此,在网格层的顶点与具有整数坐标的纹素之间存在一一对应。为了将这个操作不需要我们使用任何可微分的渲染器。聚合模块。聚集模块T θ接收形状PCh′ w′的当前状态fMPI和形状VP(3 +C)h′w′的未投影差异PSV(PSV的3个额外通道对应于RGBA解码器的输出)。自我注意力模块沿V轴应用于PSV,随后是具有单个锚点的注意力池。合并的输出与fMPI通道连接,以及沿PSV的相同V轴计算的均值和方差。由此产生的张量通过卷积残差块[9],并且P个平面中的每个平面都被独立处理。输出被视为fMPI的新状态。在初始化①时,聚合模块T0仅接收PSV,因为不存在先前的表示状态。因此,ResNet块仅对池化步骤的输出进行操作。此外,由于这一步的分辨率较低,我们采用3D卷积核,而在步骤②和②使用2D卷积4.3. 训练所提出的系统是在场景的数据集上训练的,不像一些先前的方法[24,29,37,44]需要每个场景的专用训练。 所提出的模型的训练过程是典型的NVS管道。首先,我们采样V源视图,并使用它们来构建一个MLI表示,如上所述。然后,我们渲染MLI上保持相机采样从相同权重wt对应于VGG的不同层网络[33]。为了平滑可变形层的几何形状,总变化损失Ltv被施加在每个层的深度上(损失是针对L个图中的每个图独立地计算的)。总的来说,我们的损 失 函 数 等 于 λ1L1+λpercLperc+λtvLtv , 默 认 情 况 下λ1=1,λperc=2,λtv=0。1.一、我们使用亚当优化器[16],初始学习率等于10-4和余弦退火时间表[21]。更多细节可以在我们发布的代码中找到。5. 实验5.1. 基线、数据集和指标基线。为了衡量我们系统的性能,我们将其与四个基线模型进行比较:立体放大(StereoMag)[48],LLFF[23],DeepView [7]和最近的IBRNet [42]。StereoMag是为只有两个输入视图的极端情况而设计的,所以我们在这种设置下对我们的数据训练了这个系统。LLFF的作者还没有开放其网络的训练代码,因此为了进行评估,我们使用了作者提供的该模型的推理代码和检查点。DeepView方法的源代码和检查点在精神上与我们的最接近,但没有发布,而作者承认该模型很难实现[7]。然而,他们分享了在Spaces数据集上训练的模型的结果[7]。因此,我们在这些数据上比较了我们的方法和他们的方法为了使比较更加公平,我们训练了SIMPLI模型的一个特殊修改,称为DeepView†(用匕首标记),它不将平面转换为层,而是对最初的40个平面执行几个错误校正步骤虽然最近提出的NeX模型[44]比LLFF和DeepView有很大的优势,但我们不认为这种方法是我们的基线,因为它需要为每个新场景进行完整的训练过程,这远远超出了从我们的设置。IBRNet的作者评估了它的质量,无论是否对新场景进行微调,并得出结论,他们的模型在额外的每个场景优化后显示出最佳结果。然而,为了公平地比较各种方法,我们没有对IBRNet网络进行微调,因此,我们测量了所有考虑的系统的泛化能力我们尝试在训练数据上拟合IBRNet,但得到的结果比发布的预训练模型差得多:我们的保留数据集上的PSNR等于17.61,而发布的检查点为22.69。我们认为这种差异主要是由于不同的抽样策略场景并比较生成的图像{In}N与训练摄像机的姿势,以及更复杂的结构,3个NHWj=1JJ4315×图3.来自hold-out RFF数据集的场景比较。在这个实验中,8个源视图提供给所有的模型。IBRNet和LLFF模型的输出比SIMPLI(我们的)产生的结果更模糊 正如预期的那样,在MLI表示中使用更多的层会带来更好的性能:注意霸王龙的骨头我们的训练数据集因此,出于评估目的,我们坚持使用IBRNet作者提供的预训练权重。训练装备。为了训练,我们使用了SWORD数据集训练部分的1,800个场景[15]。数据准备流程与[48]中描述的流程相似从场景内的帧的连续范围中随机地采样源姿势和新颖姿势,并且源图像的数量V从2变化到8。为了与DeepView进行比较,我们还在Spaces集(91个场景)上训练了模型。验证集。 为了验证我们型号(参见第5.2对于列表),我们在Real Forward-Facing数据上测量了它们的质量,称为RFF(40个场景)[23]和IBRNet论文发布的数据子样本(18个场景),以及Shiny数据集(8个场景)[44]。测试集。 由于IBRNet是在混合数据集上训练的,包括部分RFF 数据和RealEstate10K [48],因此对于测试集,我们选择了IBRNet没有看到的8个RFF场景和来自Shiny数据集的8个场景[44]。我们重复评估20次以计算标准差。测试图像的分辨率等于384 512。此外,我们报告了不同的方法对38个场景的SWORD测试部分的结果4316×0.820.800.1350.130配置5个源视图8个源视图PSNR ↑SSIM ↑LPIPS ↓PSNR↑SSIM ↑L P I P S ↓w/o感知损失24.163. 060.790. 090.13 0. 0624.582. 980.800。080.13 0. 050.125注意力集中(AttentionPooling)二十三点六七3 .第三章。110.770的情况。10零点一二0524.093 .第三章。040.790.090.11005无错误更正21.324. 150.690. 120.16 0.0522.13 33. 120.700。110.140. 050.780.120τ=0(略)23.154.第一章010.760的情况。11零点一二0523.923 .第三章。270.780.110.11005τ= 1(减去步长)23.733. 160.780. 100.1100524.163. 080.790. 090.110040.760.115τ=2(较少步长)23.903 .第三章。130.790的情况。090.110的情况。0524.303 .第三章。040.800的情况。080.110040.740.722 4 6 8 10 1214#源视图0.1100.1050.100L=2(层数较少)23.413. 200.770. 10零 点 一二0623.763. 130.780. 09零点一二05L=8(多层)23.963. 十点七九090.1100524.393. 000.800。080.100. 04默认模型23.793. 140.780. 100.1100524.213. 050.790. 090.11005表3.消融研究。默认模型在中间步骤中包含P=40个平面,在最终MLI表示中包含L=4个层。τ是阶段τ的校正步骤数,图4.增加源视图的数量会导致所提出的SIMPLI模型具有更好的性能。默认τ=3。 请注意,在阶段②和阶段Ⅶ都没有校正步骤的模型表现出最差的性能。尽管感知损失的去除提高了PSNR和SSIM,但结果变得模糊,这导致LPIPS值变差增加数量-层的BER可预见地提高了结果的质量。下标表示标准差。抽样测试视图。 我们遵循评估协议但从摄像头拍摄的照片中延伸出来-型号#params,mln建筑代表,证券交易委员会渲染速度,fps从一个短的单目视频采样帧的时代钻机最初,从场景视频中选择一系列后续帧,之后,从该范围内对源相机和新相机进行采样而不进行替换。相比之下,IBRNet的作者选择每个新姿势的源相机姿势作为整个视频中最接近的姿势来估计辐射场。因此,DeepView的场景对于现实生活中的应用程序来说看起来更现实,尽管我们没有对我们选择的其他基线方法进行研究。此外,该设置还评估了不同方法的鲁棒性,因为它涉及内插和外推机制。指标. 为了进行评估,我们采用了几种常见的方法:感知相似性(LPIPS)[47],峰值信噪比(PSNR)和结构相似性(SSIM)。在计算度量之前,我们从预测图像和地面实况图像中提取中心作物,保留90%的图像区域,因为基于MPI和MLI几何学的方法无法填充参考相机截头体之外的区域[43]。为了衡量人类的偏好,我们向众包平台的用户展示了成对的视频在每一对中,一个虚拟摄像机遵循相同的预定义轨迹,评估员要回答哪个候选人看起来更真实的问题(称为2AFC的方法)。对于用户研究,使用了整个RFF数据集(40个场景)、IBRNet论文[42]中发布的18个场景数据和Shiny数据集(8个对于每个场景,我们生成两个轨迹:围绕场景中心的旋转(如IBRNet演示中所示)和摄像机前后移动的螺旋状路径。800名不同的工人参加了这项研究,每对由40名工人进行评估。IBRNet9.0- 2000。4LLFF 0.7 31.360DeepView†1.7 65.480SIMPLI-4L 1.9 9.6磅200SIMPLI-8L 2.0 10.6磅120表4. 8个源视图的渲染速度,分辨率为768 1024。对于除IBRNet之外的所有方法,我们分别测量表示构建和渲染的时间,因为IBRNet需要神经网络对每个新帧进行前向传递,而其他模型可以与图形引擎一起使用。DeepView†由我们实施。测量是针对NVIDIA P40 GPU提供的。5.2. 模型配置初步MPI表示中的平面数P等于40,默认层数为L=4,除非明确指定其他值,即SIMPLI-8L表示具有L=8个可变形层的架构被称为DeepView的修改不会将平面转换为层(即,省略步骤③),并且对于MPI以及②执行步骤S100。我们进行了一项消融研究,以评估SIMPLI系统不同部分的重要性,并选择最佳配置。为此,我们在两个NVIDIA P40 GPU上训练选项卡. 3表明,增加校正步骤的数量可以略微改善质量。正如预期的那样,感知损失对于LPIPS测量的高频细节的质量很重要。使用更少的层也可以提高模型的性能,而添加更多的层或校正步骤可以提高质量。 这可能是由所采用的将平面转换为层的算法引起的。我们会探讨其他方案,以改善未来的SIMPLI模型的性能。此外,本发明还SSIMLPIPSSSIMLPIPS4317图4表明,更多的源视图被馈送到模型中会产生更好的质量。5.3. 主要结果为了将我们的方法与基线进行比较,我们在8个P40GPU上训练SIM- PLI,进行500,000次迭代(大约5天),有效批量大小为8。主要结果见表1。1和Tab。2.SIMPLI优于LLFF,通常优于IBRNet,尽管在某些情况下获得略差的PSNR。这个结果可能来自于这样的事实,即IBRNet仅以102损失进行训练,对应于PSNR(c.f.选项卡. 3),而我们的模型使用知觉损失。这是我们方法的一个明显优势,它允许在足够大的补丁上训练,以使用基于VGG的损失,而IBRNet由于内存消耗较高而在稀疏采样的像素上训练。如表1所示。4,SIMPLI允许比IBRNet快几个数量级的渲染。 虽然LLFF也可以进行实时渲染,但根据Tab,它获得的质量很差。1.一、我们观察到,由于大的标准差,除了DeepView之外,没有一个模型在统计学上显著优于SIMPLISIMPLI与DeepView†和原始DeepView的比较表明,在Spaces数据的质量和紧凑性之间存在明显的权衡,而在其他数据集上,SIMPLI始终更好。与此同时,SIMPLI提供了比DeepView更紧凑的表示:4层对40个平面。图3提供了不同方法的定性比较,表明所提出的模型在大多数情况下具有尽管这些指标没有显示出所考虑的模型之间的显著差异,但对人类偏好的研究表明SIMPLI相对于最近提出的基线具有决定性的优势:与LLFF相比,我们的模型达到了81%,与IBRNet相比达到了79%。更多定性结果请参见补充文本和随5.4. 限制虽然我们的模型在大多数情况下提供了良好的结果质 量 , 但 它 仍 然 受 到 一 些 限 制 。 首 先 , 类 似 于StereoMag、LLFF、StereoLayers和其他仅为所使用的场景表示产生RGBA纹理的方法,SIMPLI不能可重复地重新构造与视图相关的效果,例如,镜面反射解决该缺点的一种可能的方式是预测球谐系数而不是RGB颜色(参见图1)。NeX [44]),我们把这个留给未来的工作。第二,如图5对于具有细粒度细节的复杂场景,仅使用四个层是不够的。 目前尚不清楚这种影响是否应仅归因于代表的内部能力小,图5.限制的例子。在与楼梯扶手的地面实况位置对应的深度范围内,层的预测纹理的不透明度通道左:4层模型,右:模型有8层。显然,当使用太少的层时,所提出的SIMPLI不能够忠实地表示薄对象。有几个层次。相反,将平面转换为层(步骤③)的次优过程可能是罪魁祸首。因此,寻找更合适的合并算法,以及将纠错步骤扩展到深度图,是改进我们模型的其他方法。6. 结论提出了一种新的视图合成方法SIMPLI。它采用了一个基于网格的场景表示,由一组不相交的透明层。RGBA纹理的网格层推断与多级神经管道,细化表示。我们的网络是在现实生活场景的数据集上训练的,并且在没有微调的情况下很好地生成了看不见的数据,允许在设备上使用。我们的方法以三种主要方式扩展了现有的多视图方法:(i)我们建议使用场景的自适应和更紧凑的表示(4或8层而不是40个平面),(i i)我们使用来自自然手持视频的输入帧而不是校准的装备,以及(iii)所提出的系统不依赖于预定义数量的输入视图,而是能够与任意数量的源图像一起工作。评估表明,SIMPLI优于最近的国家的最先进的方法或产生类似的质量的结果,而优于他们的渲染速度或所获得的场景表示的大小。确认作者感谢V。阿利耶夫,A.-T. Ardelean,A.阿舒卡,R. Fabbricatore,A.哈拉莫夫河谷Lempitsky和R.苏-沃罗夫对他们的评论,这大大改善了手稿。4318引用[1] 乔纳森·T.放大图片作者:Ben Mildenhall,Dor Verbin,Pratul P. Srinivasan和Peter Hedman。Mip-NeRF 360:无界抗混叠神经辐射场。在CVPR,2022年。[2] Michael Broxton,John Flynn,Ryan Overbeck,DanielErickson , Peter Hedman , Matthew Duvall , JasonDourgarian , Jay Busch , Matt Whalen , and PaulDebevec.具有分层网格表示的沉浸式光场视频在ACMTOG,2020年。[3] Anpei Chen , Zexiang Xu , Fuqiang Zhao , XiaoshuaiZhang , FanboXiang , JingyiYu , andHaoSu.MVSNeRF:快速generalizable辐射场重建从多视图立体。ICCV,2021。[4] Julian Chibane、Aayush Bansal、Verica Lazova和GerardPons-Moll。立体辐射场(SRF):新场景稀疏视图的学习视图合成。在CVPR,2021年。[5] Paul E.卡米洛?德贝韦茨泰勒和吉坦德拉·马利克从照片中建模和渲染建筑:基于几何和图像的混合方法。ACM TOG,1996年。[6] Helisa Dhamo , Keisuke Tateno , Iro Laina , NassirNavab,and Federico Tombari.窥视物体背后:从单个图像进行 分层深度 预测。Pattern Recognition Letters ,125:333[7] 约翰·弗林,迈克尔·布罗克斯顿,保罗·德贝维克,马修·杜瓦尔,格雷厄姆·费弗,瑞安·斯泰尔斯·奥弗贝克,诺亚·斯纳夫利,理查德·塔克.Deepview:通过学习梯度下降的高质量视图在CVPR,2019年。[8] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。ACM TOG,1996年。[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在CVPR,2016年6月。[10] Peter Hedman,Julien Philip,True Price,Jan-MichaelFrahm,George Drettakis,and Gabriel Brostow.自由视点图像渲染的深度混合。在ACM TOG,2018年。[11] 彼得·海德曼,托拜厄斯·里切尔,乔治·德雷塔基斯,加布里埃尔·布罗斯托。可伸缩的由内而外的基于图像的渲染。在ACM TOG,2016年。[12] 放大图片作者:Ronghang Hu,Nikhila Ravi,AlexanderC.Berg和Deepak Pathak。Worldsheet:将世界包裹在一张3d图纸中,以便从单个图像合成视图。ICCV,2021。[13] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在ECCV,2016年。[14] Nima Khademi Kalantari , Ting-Chun Wang , and RaviRa-mamoorthi.基于学习的光场相机视图合成。在ACMTOG,2016年。[15] Taras Khakhulin,Denis Korzhenkov,Pavel Solovev,Gleb Sterkin,Alfretei Ardelean,and Victor Lempitsky.立体放大与多层图像。在CVPR,2022年。[16] 迪德里克·金马和吉米·巴。亚当:一种随机优化方法。2015年,国际会议[17] Samuli Laine 、Janne Hellsten 、Tero Karras 、YeonghoSeol、Jaakko Lehtinen和Timo Aila。用于高性能微分渲染的模块化图元。ACM TOG,2020年。4319[18] Juho Lee 、 Yoonho Lee 、 Jungtaek Kim 、 AdamKosiorek 、 Seungjin Choi 和 Yee Whye Teh. 设 置Transformer:基于注意力的置换不变神经网络的框架。在ICML,2019。[19] 林开恩,徐泽祥,本·米尔登霍尔,Pratul P. Srini-vasan,Yannick Hold-Geoffroy,Stephen DiVerdi,QiSun,Kalyan Sunkavalli,and Ravi Ramamoorthi.用于视图合成的深多深度全景图。在ECCV,2020年。[20] Yuan Liu,Sida Peng,Lingjie Liu,Qianqian Wang,Peng Wang ,Christian Theobalt,Xiaowei Zhou,andWenping Wang.用于遮挡感知图像渲染的神经射线。在CVPR,2022年。[21] 伊利亚·罗希洛夫和弗兰克·哈特。随机梯度下降与温暖的重新启动。在ICLR,2017。[22] F Landis Markley,Yang Cheng,John L Crassidis,andYaakov Oshman.平均四元数。Journal of Guidance,Control,and Dynamics,30(4):1193[23] 作 者 : Ben Mildenhall , Srinivasan , Rodrigo Ortiz-Cayon,Nima Khademi Kalantari,Ravi Ramamoorthi,Ren Ng,and Abhishek Kar.局部光场融合:实用的视图合成与规定的采样指南。在ACM TOG,2019年。[24] 作者:Ben Mildenhall,放大图片作者:Jonathan T.Barron,Ravi Ramamoorthi和Ren Ng.NeRF:将场景表示为用于视图合成的神经辐射场。在ECCV,2020年。[25] ThomasMüller,Ale xEvans,Chris
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功