基于视觉Transformer的NeRF视图合成

102 浏览量更新于2023-10-16 收藏 16.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8060基于视觉Transformer的基于NeRF的单输入图像视图合成0Kai-En Lin *1 林彦辰 2 Wei-Sheng Lai 3 林宗毅 †40Yi-Chang Shih 3 Ravi Ramamoorthi 101 加州大学圣地亚哥分校 2 麻省理工学院 3 谷歌 4 NVIDIA0摘要0尽管神经辐射场（NeRF）在新视图合成方面取得了令人印象深刻的进展，但大多数方法需要同一场景的多个输入图像和准确的相机姿态。在这项工作中，我们试图将输入减少到单个无姿态图像。现有的使用局部图像特征重建3D对象的方法通常在离源视图较远的视点上呈现模糊的预测。为了解决这个问题，我们提出利用全局特征和局部特征来形成一个表达丰富的3D表示。全局特征是从视觉Transformer中学习到的，而局部特征是从2D卷积网络中提取的。为了合成新的视图，我们训练了一个多层感知器（MLP）网络，该网络以学习到的3D表示为条件进行体素渲染。这种新颖的3D表示允许网络在不强制施加对称性或规范坐标系统等约束的情况下重建未见区域。我们的方法仅使用单个输入图像渲染新视图，并使用单个模型在多个对象类别上进行泛化。定量和定性评估表明，所提出的方法实现了最先进的性能，并呈现了比现有方法更丰富的细节。https://cseweb.ucsd.edu/%7eviscomp/projects/VisionNeRF/01. 引言0我们研究了从单个无姿态图像合成新视图的问题。最近的研究[37, 39,57]通过将输入图像特征投影到查询的3D点上来推断3D形状和外观，以预测颜色和密度。这些图像条件模型在渲染接近输入视图的目标视图时效果良好。然而，当目标视图移动得更远时，会导致来自输入视图的显著遮挡。0* 在Google实习期间完成的工作。 †在Google期间完成的工作。0输入视图0PixelNeRF 我们的方法真实值0目标视图0LPIPS: 0.20 PSNR: 21.85 LPIPS: 0.09 PSNR:21.030图1. 遮挡区域的新视图合成。图像条件模型（例如PixelNeRF[57]）在目标视图中的像素不可见时，视觉质量显著降低。我们提出结合来自视觉Transformer（ViT）和卷积网络的局部外观特征，以在遮挡区域实现显著更好的渲染质量和更多的细节。请注意，LPIPS [58]（值越低越好）比PSNR更好地反映了感知相似性。0目标视图输入视图0查询像素0局部特征0有用的特征0图2.在存在自遮挡的情况下，图像条件模型的挑战。为了在目标视图中渲染车辆的遮挡轮毂（蓝点），图像条件模型，例如Pix- elNeRF[57]，沿着光线查询特征，该光线对应于输入视图中的车辆窗口（红叉）。我们的方法使用自注意力来学习长程依赖关系，能够找到与渲染清晰目标视图相关的源视图中最相关的特征（绿点）。0输入视图会导致渲染质量的显著降低，如图1所示。我们假设自遮挡导致了错误条件的特征。如图2所示，当目标视图中的查询像素（例如车轮）从输入视图中不可见时，图像条件模型会错误地使用其他表面（例如车窗）的特征来渲染目标视图。为了解决这个问题，我们提出了一种利用视觉Transformer（ViT）[10]的最新进展的新方法2.2. Transformer8070和神经辐射场（NeRF）[29]一起学习更好的3D表示。我们首先将输入的2D图像转换为特征令牌，并应用ViT学习全局信息。然后，特征令牌被展开并重新采样为多层特征图，使网络能够以粗到细的方式捕捉全局信息。此外，我们采用2D卷积神经网络（CNN）提取输入图像的局部特征，捕捉细节和外观。最后，我们使用体积渲染技术[29]渲染新的视点。我们的方法能够以更准确的结构和更精细的细节渲染未见区域。我们在ShapeNet数据集[5]上训练和评估我们的方法，包括13个物体类别。我们的方法在多个类别上具有良好的泛化能力，并且在真实世界图像上表现良好。定量和定性比较表明，我们的方法在性能上优于现有方法，例如SRN[44]，Pixel-NeRF [57]，FE-NVS [15]，SRT [40]和FWD[4]，并生成更具视觉吸引力的结果。我们的贡献总结如下：0•我们引入了一种基于NeRF的渲染方法，可以从单个未定位的图像合成新的视图0•我们提出了一种新颖的3D表示方法，使用视觉变换器和2D卷积神经网络集成全局和局部信息。0•我们在特定类别和类别不可知数据集以及真实输入图像上展示了与现有方法相比的最先进性能。02. 相关工作02.1. 新视图合成0早期的视图插值[6]和光场[14,23]的研究为基于图像的渲染奠定了基础。后来的研究利用代理几何[3, 8]和分层表示[41,46]来更好地表示3D场景并合成新颖的视图。已经有大量基于学习的方法[12, 13, 19, 24, 26, 28, 43,60]和单输入视图合成算法[31, 39, 42, 54, 55,56]。这些方法利用可微分的渲染流程生成逼真的结果。最近，神经辐射场（NeRF）[29]将3D场景编码为紧凑的连续5D函数，实现了给定场景的逼真重建。然而，它需要数十或数百个输入图像和耗时的优化来训练一个场景。为了解决这个问题，一些方法[37, 48, 51,57]利用2D图像特征来改善泛化能力，或者使用具有1D潜在代码的预训练网络来表示3D形状，例如CodeN-eRF[17]。郭等人[15]采用离散的3D体积来表示场景，并实现实时渲染性能。我们的方法不依赖纯1D、2D或3D表示。0为了利用全局信息和局部图像特征，我们提出了一种学习新颖3D表示的方法。表1比较了所提出的方法与以前的方法。0变换器架构[49]在自然语言处理（NLP）方面取得了重大进展。虽然自注意力及其变体在许多NLP [2, 9]和视觉[10, 36,45]任务中取得了最先进的性能，但直接将自注意力应用于图像是非常昂贵的，因为它要求每个像素都要关注其他每个像素。一些工作[16, 33, 35,59]通过将自注意力应用于每个查询像素的局部补丁来近似自注意力。最近，视觉变换器（ViT）[10]和后续工作[36,52]表明，将变换器应用于从图像中分割出的一系列补丁上可以在判别任务（例如图像分类）上实现竞争性的性能。Wang等人[50]在多视图三维重建中同时在编码器和解码器中使用变换器。NeRF-ID[1]使用变换器沿射线采样3D点。其他方法[18, 37,51]使用变换器聚合由CNN提取的源视图特征。我们的工作与这些方法不同，因为我们专注于使用ViT学习全局图像信息。在我们的实验中，ViT编码的图像特征在未见区域上实现了比以前基于CNN的方法更高的重建质量。SRT[40]使用完全基于变换器的框架来编码和解码3D信息。它将3D场景信息学习为一组潜在代码，而我们的方法采用辐射场作为场景表示。SRT使用变换器解码一组潜在代码，而我们的方法使用一组特征图的每个像素信息，因此在输入图像和3D点查询之间具有明确的映射。第4.2节显示了我们提出的方法在PSNR和SSIM指标上优于SRT的结果。03.从单个图像合成新视图0我们的目标是从单个输入图像中推断出3D表示，以进行新视图合成。我们首先讨论了三种不同的学习这种3D表示的范例（第3.1节）。然后，我们提出了一种混合表示方法，以提高遮挡区域的渲染质量，其中我们利用ViT来编码全局信息（第3.2节），利用2DCNN来编码局部外观特征（第3.3节）。最后，我们学习了一个NeRF[29]模块，用于新视图合成的条件编码特征（第3.4节）。03.1. 合成遮挡区域0在本节中，我们描述了之前的工作和我们的方法如何重建图3中所示的未见区域。此外，我们分析了每种方法的优点和缺点，并提出了一种混合表示方法来解决现有方法中的关键问题。NeRFPIFuPixelNeRFCodeNeRFNeRFormerFE-NVSSRTFWDOurs[29][39][57][17][37][15][40][4](σ, c) = F1D(z; x; d).(1)(σ, c) = F2D(W(π(x)); xc; dc),(2)(σ, c) = F3D(W(π(xn)); xn),(3)8080单视角输入 � � � � � � � � � 以观察者为中心的坐标 � � � � � � � � � 跨类别泛化 � � � � � � � � � 图像特征 � � � � � � � � � 全局特征 � � � � � � � � �0表1.与最近的新视图合成方法的比较。我们的方法以单个图像作为输入进行新视图合成。与假设物体中心坐标系的方法不同，我们在以观察者为中心的坐标系中推断3D表示，因此不需要输入的相机姿态。此外，我们的方法能够使用单个模型推广到多个类别。我们使用2DCNN提取局部图像特征，并使用ViT编码器检索全局信息，以合成遮挡区域的真实和吸引人的细节（见图1）。0图像编码器0输入图像0体素编码器0（a）1D潜在代码（b）2D图像特征（c）3D体积特征0图3. 3D对象的不同表示示例。（a）基于1D潜在代码的方法[7, 11,17, 27, 30, 32]将3D对象编码为1D向量。（b）基于2D图像的方法[39,57]以每像素图像特征为条件重建任何3D点。（c）基于3D体素的方法[15,26]将3D对象视为体素集合，并应用3D卷积生成颜色和密度向量RGBσ。0现有方法中的关键问题。给定单个图像Is在相机s处，我们的任务是合成在相机t处的新视图It。如果源图像中可见3D点x，我们可以直接使用颜色Is(π(x))来表示新视点看到的点，其中π表示投影到源视图。如果x被遮挡，我们需要使用投影π(x)处的颜色以外的信息。有三种可能的解决方案来收集这些信息。01D潜在代码。现有方法通过1D全局潜在向量z [7, 11, 17,27, 30, 32,38]对3D和外观先验进行编码，并通过CNN解码颜色c和密度σ，如图3(a)所示[17]：0其中x和d表示空间变化的采样位置和观看方向。由于不同的3D点共享相同的潜在代码，归纳偏差有限。02D空间变体图像特征。由于输入视角的灵活性和高质量结果，图像条件方法（如PIFu [39]和PixelNeRF[57]）引起了许多兴趣。这些方法在2D图像中操作，计算效率更高。0空间而不是3D体素，如图3(b)所示。作为一个代表性的例子，PixelNeRF定义输出为0其中 x c 是3D位置，d c是射线方向。在这种情况下，当图像编码器提取特征图 W时，空间信息被编码在特征图中。因此，沿着射线 x t ∈ r的任何3D点都会共享相同的特征 W ( π ( x t ))。这种表示在可见区域鼓励更好的渲染质量，且计算效率更高。然而，它经常在未见部分生成模糊的预测，如图1所示。0基于3D体素的方法。为了利用3D局部性，另一种方法是将对象视为3D空间中的一组体素，并对未见区域应用3D卷积（见图3(c)）。体素网格可以通过将2D图像或特征图投影到3D体积[15]来构建。对于每个3D点，我们有特征 W ( π ( x)) 和3D位置 x 。3D CNN可以利用邻近体素的信息来推断 x处的几何和外观，如下所示0其中 x n 表示 x的邻近体素集。这种方法在渲染中更快，并利用3D先验来渲染未见的几何体。另一方面，由于体素大小和有限的感受野，它在渲染分辨率上受到限制。0我们的方法。我们观察到1D方法可以对对象进行整体观察，并能够以紧凑的格式编码整体形状。2D方法在输入视图周围提供更好的视觉质量，而3D方法则改进了形状。然而，基于体素的方法在增加网格大小时需要更多的计算资源和内存。我们的方法结合了基于2D的方法以局部图像特征为条件和基于1D的方法以编码全局信息的优点。具体而言，我们利用了ViT架构及其......01324*+8090展平和投影0Transformer编码器0卷积解码器0潜在特征0多级特征图0C体素渲染0* 类令牌位置嵌入图像令牌0输入图像0C 连接0输出图像0算法流程0Transformer编码器0层归一化0查询键值0多头注意力0层归一化0MLP0+ J X0来自第 j层的潜在特征0卷积解码器0删除类令牌0取消展平0卷积层0卷积/转置卷积层0卷积层0输入视图0目标视图0从特征图中采样0颜色 c密度 σ0NeRF MLP0渲染图像0σ0射线距离0整合射线样本 j -th级输出0输入令牌02D CNN0图4.我们渲染流程的概述。我们首先将输入图像分成 N = 8 × 8 个补丁 P。每个补丁被展平并线性投影到图像令牌 Pl。变换器编码器将图像令牌和可学习的位置嵌入 e 作为输入，提取全局信息作为一组潜在特征 f(第3.2节)。然后，我们使用卷积解码器将潜在特征解码为多级特征图 W G。除了全局特征，我们还使用另一个2D CNN G L来获得局部图像特征(第3.3节)。最后，我们使用NeRF MLP对特征进行体素渲染(第3.4节)。0全连接网络用于学习全局信息，(ii) 2DCNN模块用于提取局部图像特征。最近在视觉变换器[10,36]中取得的成功表明了使用ViT学习特征之间的长程依赖性的有效性。因此，我们的局部和全局混合表示允许在未见区域中具有更大的灵活性和更好的视觉质量。与CodeNeRF[17]和DISN[55]不同，我们的方法不需要一个规范的坐标系统来利用全局特征。我们的方法既享受了来自2D-CNN的高分辨率图像特征的好处，又通过ViT编码器改善了感受野。03.2. 从视觉Transformer中获取全局特征0我们采用基于图像的方法来进行渲染，该方法以每个像素的特征W为条件。我们将W分为两部分：（i）全局特征图WG和（ii）局部特征图WL。在本节中，我们将描述如何使用视觉Transformer获取WG。我们的模型以单个图像Is∈RH×W×3作为输入，其中H和W分别是图像的高度和宽度。0展平和投影。如图4所示，首先将图像Is重塑为扁平化的2D补丁序列P∈R N × P2 ×3，其中N = HW。0P2是补丁的数量，P表示补丁的大小[10]。由于Transformer接受大小为D的潜在向量作为输入，我们使用可训练的线性层将补丁投影为：0通过可训练的线性层产生P1∈R N ×D。在以前的ViT工作中[10]，通常将可学习的类令牌与图像令牌连接起来，以融合不在输入图像中的全局信息。在我们的情况下，我们将类令牌视为表示不在图像中显示的特征的“背景”令牌。因此，总共有N +1个令牌，表示为P0l，P1l，...，PNl。我们还添加可学习的位置嵌入e以区分不同的空间补丁：Pie = Pil + ei。0Transformer编码器。令{P0e, P1e, ...,PNe}经过J个Transformer层生成潜在特征fj，其中j表示第j个Transformer层的输出。Transformer层由多头自注意力（MSA）和MLP层组成[10]。MSA块对图像进行自注意力操作，通过比较一对令牌提取信息。因此，Transformer编码器在所有层都具有全局感受野，可以轻松学习不同图像块之间的长程依赖关系[10, 36]。0卷积解码器。在生成一组潜在特征f = {f0, ...,fJ}，其中fj∈RD后，我们的算法利用卷积解码器将潜在特征提升为多级特征图。这些多级特征图提取粗到细的全局信息，并允许我们与局部外观特征进行连接。the final rendering stage (see Sec. 3.3). To generate the fea-ture maps, we first drop the class token. The class tokenis useful during the self-attention stage but does not havephysical meaning when unflattened [36]. Consequently, wedefine the operation as O : R(N+1)×D → RN×D. Af-ter dropping the class token, we unflatten the image byU : RN×D → RHP × WP ×D. Now we have a set of fea-ture patches Pf = {P0f, ..., PJf }, where Pjf ∈ RHP × WP ×D.We then construct the multi-level feature maps with a setof convolutional decoders as in Fig. 4. The convolutionalWL = GL(Is), GL : RH×W ×C → RH2 ×(7)ˆC(r) =� t8100P × D → RHj × Wj ×Dj，其中特征块首先经过1×1卷积层卷积，然后通过步幅卷积或转置卷积重新采样为Hj ×Wj的大小，最后通过3×3卷积层卷积为Dj通道。我们可以描述特征图如下：0WjG = (D◦U◦O)(fj)，其中j∈{0, 1, ..., J}。(4)03.3. 从卷积网络中提取局部特征0我们经验性地发现，仅使用ViT的全局信息会损害接近输入视图的目标视图的渲染质量，例如，颜色和外观不一致（见图9）。为了缓解这个问题，我们引入了一个额外的2DCNN模块GL来提取局部图像特征，这可以改善可见区域的颜色和外观一致性。局部特征可以表示为：02 × DL, (5)0其中DL是GL的输出维度。最后，我们使用卷积层G将全局特征WG和局部特征WL的信息融合，生成混合特征图：0W = G(W0G, W1G, ..., WJG; WL) (6)03.4. 使用NeRF进行体积渲染0一旦我们获得了混合特征W，我们可以采用体积渲染[29]来渲染一个以W为条件的目标视图。我们从目标视点采样一条射线r(t) = o +td，其中o是射线的起点，d是射线的方向，t是距离起点的距离。注意t被近平面tnear和远平面tfar限制。沿着射线，我们首先在边界[tnear,tfar]之间均匀采样。我们将一个3D采样位置x投影到具有已知相机参数的源图像上的坐标π(x)。然后我们提取每个像素的特征W(π(x))。NeRFMLP模块以每个像素的特征W(π(x))、相机坐标中的3D采样位置xc和观察方向dc作为输入。我们使用位置编码γ对xc进行编码：0γ(p) = (sin(20πp), cos(20πp), ...,0sin(2M-1πp), cos(2M-1πp)),0其中M是频率基数的数量。我们在所有实验中设置M =10。MLP输出颜色c和密度σ，可以写成：0(σ, c) = MLP(γ(xc); dc; W(π(x))). (8)0最后，我们通过以下方式将目标视图渲染为2D图像：0t n T ( t ) σ ( t ) c ( t ) dt, (9)0其中T(t) = exp(−�t tnσ(r(s))ds)是沿着从tn到t的射线的累积透射率。在这里，我们使用求积法来近似积分[29]。我们采用L2范数损失来比较渲染的像素ˆC(r)与真实像素之间的差异：0L = �0r ||ˆC(r) - C(r)||2 2. (10)0实现细节。我们使用PyTorch[34]实现了我们的方法。ViT模块从[53]的预训练权重初始化，并通过训练进行微调。2DCNN模块GL具有三个ResBlocks。整个模型的详细架构在补充材料中提供。我们在16个NVIDIA A100GPU上训练我们的模型，训练在500K次迭代时收敛。我们将MLP的学习率设置为10^-4，将ViT和CNN的学习率设置为10^-5。为了提高训练稳定性，我们使用线性预热调度，将学习率在前10k步线性增加从0开始。更多细节请参见我们的补充材料。我们使用512条光线对1个对象进行训练，批量大小为8。04.实验结果0为了评估我们的方法，我们进行了类别特定视图合成（第4.1节）和类别不可知视图合成（第4.2节）的实验。第4.3节展示了我们的方法在真实输入图像上的定性结果。第4.4节提供了消融研究，分析了我们方法中的关键组件。第4.5节使用不同的骨干替换ViT，并展示了使用ViT特征的有效性。最后，我们讨论了限制和未来工作（第4.6节）。04.1.类别特定视图合成0我们在与SRN[44]相同的实验设置和数据上评估我们的方法。数据集总共包含6591个椅子和3514辆汽车，分为训练、验证和测试集。对于训练集中的每个对象，选择围绕对象的球面上的50个视图进行简单照明渲染。对于测试，从具有相同照明的阿基米德螺旋上的251个视图渲染测试集中的对象。在评估过程中，选择第64个视图作为输入视图，并选择所有1LPIPS is calculated from the results provided by the authors.2LPIPS and code for unposed inference are not available.3LPIPS is provided by the authors on request.ChairsCarsMethodsPSNR(↑)SSIM(↑)LPIPS(↓)PSNR(↑)SSIM(↑)LPIPS(↓)SRN [44]22.890.890.10422.250.890.129PixelNeRF [57]23.720.910.12823.170.900.146CodeNeRF [17]22.390.870.16622.730.890.128FE-NVS [15]23.210.920.07722.830.910.099Ours24.480.930.07722.880.910.084Table 2. Category-specific view synthesis on the ShapeNetdataset. Our method performs favorably against other approaches,especially on LPIPS. Note that while PixelNeRF has higher PSNRon the cars dataset, their results look blurry (see Fig. 6).InputSRN PixelNeRFOursGTSRTFWDFigure 7. Visual comparison of category-agnostic view synthe-sis. The results of SRN [44], PixelNeRF [57] and SRT [40] areoften too blurry and contain smearing artifacts. In contrast, ourresults are sharper with more fine details. FWD [4] produces dis-torted renderings at far viewpoints because the depth is not as ac-curate for occluded regions. The visual results of all 13 categoriesare provided in the supplementary material.InputOursPixelNeRFOursPixelNeRFOursPixelNeRFFigure 8. Results on real input images.Our method is ableto generate visually-pleasing results even trained on a syntheticdataset. Conversely, PixelNeRF fails to keep the finer details. Notethe side mirrors and headlamps of the bottom right inset.8110输入 SRN PixelNeRF 我们的 GT0图5.椅子的类别特定视图合成。SRN和PixelNeRF的结果通常过于模糊，特别是在输入视图中不可见的腿部。我们的方法可以生成具有更清晰结构和更锐利边缘的新视图。0输入 FE-NVS 我们0SRN PixelNeRF0图6.汽车的类别特定视图合成。我们的方法可以生成更锐利的汽车结构和更丰富的细节，如第一行中的后灯和窗户，第二行中的车轮和车门，以及第三行中的窗户。0其他250个视图被用作目标视图。图像分辨率为128×128。我们将我们的方法与SRN [44]，PixelNeRF [57]1，CodeNeRF [17] 2和FE-NVS [15]3进行比较。如表2所示，我们的方法在PSNR、SSIM和LPIPS[58]等方面的性能超过了现有方法。在椅子数据集上，我们的方法在所有三个指标上都有显著改进。如图5所示，我们的渲染结果外观更好，结构更清晰，而SRN[44]和PixelNeRF[57]在椅子腿部有模糊的预测。在汽车数据集上，我们获得了最好的LPIPS和SSIM分数。虽然PixelNeRF[57]的PSNR最高，但他们的结果过于模糊，纹理过于平滑，如图6所示。相比之下，我们的预测具有更细的细节，并显示了更多的细节，如窗户、灯光和车轮。请注意，我们没有与CodeNeRF[17]的视觉结果进行比较，因为他们的预生成结果不公开，他们的源代码不支持无相机姿态的推理。FE-NVS[15]也没有提供源代码或预生成结果。然而，我们尽力从他们的论文中获得高分辨率的截图，并与他们在相同视角上的结果进行比较。MetricsMethodsplanebenchcbnt.carchairdisp.lampspkr.riflesofatablephoneboataveragePSNR(↑)SRN26.6222.2023.4224.4021.8519.0722.1721.0424.9523.6522.4520.8725.8623.28PixelNeRF29.7626.3527.7227.5823.8424.2228.5824.4430.6026.9425.5927.1329.1826.80FE-NVS30.1527.0128.7727.7424.1324.1328.1924.8530.2327.3226.1827.2528.9127.08FWD30.0126.1628.4927.0123.4424.0027.8424.4530.4026.7625.9127.6128.6926.66SRT31.4728.4530.4028.2124.6924.5828.5625.6130.0928.1127.4228.2829.1827.87Ours32.3429.1531.0129.5125.4125.7729.4126.0931.8328.8927.9629.2130.3128.76SSIM(↑)SRN0.9010.8370.8310.8970.8140.7440.8010.7790.9130.8510.8280.8110.8980.849PixelNeRF0.9470.9110.9100.9420.8580.8670.9130.8550.9680.9080.8980.9220.9390.910FE-NVS0.9570.9300.9250.9480.8770.8710.9160.8690.9700.9200.9140.9260.9410.920FWD0.9520.9140.9180.9390.8570.8670.9060.8570.9680.9090.9060.9240.9360.911SRT0.9540.9250.9200.9370.8610.8550.9040.8540.9620.9110.9090.9180.9300.912Ours0.9650.9440.9370.9580.8920.8910.9250.8770.9740.9300.9290.9360.9500.933LPIPS(↓)SRN0.1110.1500.1470.1150.1520.1970.2100.1780.1110.1290.1350.1650.1340.139PixelNeRF0.0840.1160.1050.0950.1460.1290.1140.1410.0660.1160.0980.0970.1110.108FE-NVS0.0610.0800.0760.0850.1030.1050.0910.1160.0480.0810.0710.0800.0940.082FWD0.0340.0550.0560.0420.0810.0790.0620.0910.0260.0540.0490.0560.0520.055SRT0.0500.0680.0580.0620.0850.0870.0820.0960.0450.0660.0550.0590.0790.066Ours0.0420.0670.0650.0590.0840.0860.0730.1030.0460.0680.0550.0680.0720.065Table 3. Category-agnostic view synthesis on the NMR dataset. Our method achieves the state-of-the-art performance across all 13categories using a single model.InputViT-Only+ViewingDirectionOursGround Truth+ (3-layer CNN)Figure 9. Effects of different components. The ViT-only modelcan render realistic images, but the local appearance and color maynot look similar to the input view. By extracting local features witha 3-layer CNN, the rendered car shows more faithful colors to theinput. With the viewing direction in volume rendering, our modelcan improve fine structures such as the left mirror of the car andthe back of the chair. In our final model, replacing the 3-layerCNN with ResBlocks can further refine the details and geometrystructure of the rendered objects.81204.2.无类别视图合成0我们的方法能够使用单个模型概括多个对象类别。我们遵循NMR[20]中定义的ShapeNet数据集的训练/测试划分，在训练和评估中选择1个视图作为输入，其他23个视图作为目标。训练集有30642个对象，评估集有8762个对象（来自13个类别）。图像分辨率为64×64。表3显示了定量结果。我们的方法在PSNR和SSIM上对所有13个类别的SRN[44]、PixelNeRF [57]、FE-NVS [15]、FWD [4]和SRT[40]实现了最先进的性能。在LPIPS方面，我们的方法与最近的FWD [4]和SRT [40]相比具有竞争力的性能。0汽车椅子方法 PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓0PixelNeRF 23.17 0.90 0.146 23.72 0.91 0.1280仅使用ViT 21.95 0.89 0.130 23.45 0.92 0.099 + G L（3层CNN） 22.42 0.90 0.11323.42 0.92 0.085 + 观察方向 22.70 0.91 0.088 24.53 0.93 0.094 我们的方法 22.880.91 0.084 24.48 0.93 0.0770表4.消融研究。我们从使用ViT提取全局特征的基线模型开始。虽然PSNR/SSIM略低于PixelNeRF，但我们的结果在LPIPS得分和细节清晰度方面要好得多（见图1）。通过使用3层CNN提取局部特征，我们在汽车数据集上的性能得到了改善，并且渲染的图像对输入视图具有更忠实的外观（见图9）。通过在体积渲染中添加观察方向，性能得到了显著改善。最后，通过用ResBlocks替换3层CNN，我们在图9中看到了更多的细节和更好的物体结构。0最近的最先进方法FWD [4]和SRT[40]。结果表明，我们的混合表示比局部条件模型或3D体素方法更具表现力。图7中的视觉比较显示出我们的方法重建了更精细的物体结构和细节。尽管FWD[4]在LPIPS得分上表现更好，但他们的结果在较大位移时显示出扭曲的渲染，可能是由于未见区域的深度估计错误。在图7中，第三行的车辆在FWD尝试渲染输入相反方向的视点时显示出严重的伪影。更多示例请参见补充材料。由于SRT[40]将输入图像转换为一组潜在代码，而没有与源图像的一对一映射，因此他们的结果经常丢失细节，例如图中的长凳。8130汽车椅子方法 PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓0PixelNeRF 23.17 0.90 0.146 23.72 0.91 0.1280用EfficientNet替换ViT 23.28 0.91 0.106 24.09 0.92 0.105 用ConvNeXt替换ViT 23.30 0.910.092 24.37 0.93 0.089 我们的方法 22.88 0.91 0.084 24.48 0.93 0.0770表5.与不同骨干选择的比较。我们将视觉变换器替换为EfficientNet[47]和Con- vNeXt[25]，以观察潜在的性能影响。与其他骨干相比，我们的方法在LPIPS方面取得了有利的整体性能。0图7中倒数第二行。04.3.真实图像上的视图合成0我们的方法适用于真实图像。我们使用在ShapeNet汽车数据集上训练的模型在斯坦福汽车数据集[22]上进行测试。我们使用图像分割模型[21]去除背景。请注意，我们的方法不需要任何相机姿势作为输入，这在真实图像中通常很难获得。我们在图8中将我们的结果与PixelNeRF进行了比较。在遮挡区域，PixelNeRF的预测模糊，如箭头所指出。相比之下，我们的方法能够重建整个形状并保留诸如前灯和后视镜之类的细节。04.4.消融研究0我们从仅使用ViT提取全局特征的基线方法开始。虽然ViT编码了高级全局信息，但由于低分辨率的潜在嵌入，它无法保留输入视图的颜色和外观，如图9所示。渲染结果在非遮挡区域与输入视图的外观不一致，如所示。通过引入GL（使用简单的3层CNN）来提取局部图像特征，渲染的汽车看起来更接近输入视图（图9第三列顶部）。然而，我们可以看到椅子的背部仍然模糊（图9第三列底部）。接下来，我们将观察方向作为输入添加到NeRFMLP中，这显著提高了清晰度（图9第4列底部）并显示了更多细节，例如汽车的后视镜（图9第4列顶部）。我们最终的模型在 G L中采用了更复杂的ResBlocks设计，进一步改善了汽车和椅子的几何形状（图9第5列）。表4还报告了这些设计决策在两个数据集上的定量结果。04.5. 来自不同骨干的全局特征0为了进一步验证ViT在图像条件下的NeRF中优于卷积骨干，我们将我们的方法与两个基线进行了基准测试，这两个基线用EfficientNet [47]和ConvNeXt[25]替换了提出的ViT骨干，即比ResN

下载后可阅读完整内容，剩余1页未读，立即下载