光场神经渲染：结合稀疏和准确性的视角相关效应模型

118 浏览量更新于2023-10-25 收藏 19.95MB PDF 举报

计算机视觉

NeRF

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

82690光场神经渲染0Mohammed Suhail 1 , 2 * Carlos Esteves 4 Leonid Sigal 1 , 2 , 3 Ameesh Makadia 40suhail33@cs.ubc.ca machc@google.com lsigal@cs.ubc.ca makadia@google.com1英属哥伦比亚大学 2 AI矢量研究所 3加拿大CIFAR AI主席 4谷歌0摘要0经典的光场渲染方法可以准确地重现视角相关效应，如反射、折射和透明性，但需要对场景进行密集的视图采样。基于几何重建的方法只需要稀疏的视图，但无法准确地模拟非兰伯特效应。我们引入了一种结合了这两个方向的优点并减轻了限制的模型。通过对光场进行四维表示，我们的模型学习准确地表示视角相关效应。通过在训练和推断过程中强制施加几何约束，我们可以从稀疏的视图集中隐式地学习场景几何。具体而言，我们引入了一个两阶段的基于Transformer的模型，首先沿着极线聚合特征，然后沿着参考视图聚合特征以生成目标射线的颜色。我们的模型在多个前向和360°数据集上优于现有技术，对于具有严重视角相关变化的场景，优势更大。代码和结果可以在light-field-neural-rendering.github.io找到。01. 引言0在计算机视觉和图形学中，给定一组稀疏图像合成新视图是一个长期存在的挑战[10, 41,42]。最近在3D神经渲染方面取得的进展，特别是NeRF[31]及其后续工作[15, 16, 27, 33, 36,58]，使我们离能够在复杂环境中创建逼真图像的能力越来越近。NeRF成功的原因之一是其隐式的5D场景表示，它将3D场景点和2D视角映射到不透明度和颜色。原则上，这种表示可能非常适合模拟视角相关效应，如镜面和半透明表面的非兰伯特反射。然而，如果没有正则化，这种表达会导致退化解决方案，因为3D表面之间存在固有的模糊性0* 在谷歌实习期间完成的工作。0Ground Truth 我们的方法（35.3 dB） NeX（30.4 dB） NeRF（29.6 dB）0图1.新视图合成。顶部是要渲染的目标图像，来自Shiny数据集中的Lab场景[55]。底部一行显示了我们提出的模型NeX[55]和NeRF[31]生成的新视图的裁剪图像。与NeX和NeRF无法合成试管上的折射不同，我们的模型几乎完美地重建了这些复杂的视角相关效应。我们在括号内指示了渲染图像的PSNR（数值越高越好）。可以放大图像以查看细节。0面部和辐射，其中不正确的形状（不透明度）可以与高频辐射函数相结合，以最小化优化目标[61]。在实践中，NeRF通过其神经架构设计避免了这种退化解决方案，其中视角仅在MLP的最后几层中引入，从而限制了辐射函数的表达能力，这有效地转化为平滑的BRDF先验[61]。因此，NeRF设法避免了退化解决方案，但代价是在非兰伯特效应方面的保真度（图1突出了NeRF模型的这种特定限制）。非兰伯特效应的照片级合成是神经渲染技术中仅存的几个障碍之一。在本文中，我们将视图合成定义为渲染一个82700稀疏观测的光场。4D光场[26]通常用于视图合成[6, 24,26]，它测量了空间中沿射线的辐射强度。从密集采样的光场中渲染新视图可以使用信号处理技术（如插值）而无需任何3D几何模型，但是对于稀疏光场，没有这样直接的方法。从稀疏图像中进行渲染通常利用额外的3D几何约束，例如预测的深度图[24,46]，但是性能对于非兰伯特表面的准确深度估计非常敏感，而这很难获得。受到这些限制的启发，我们引入了一种用于渲染稀疏光场的新方法。我们的神经渲染函数以基于图像的渲染风格运行，只使用附近视图的观察射线合成目标射线。在没有显式3D信息的情况下，我们的基于Transformer的渲染函数通过利用额外的归纳偏差（即极线几何）来融合来自附近视图的射线。如图1所示，我们的模型能够忠实地重建Shiny数据集中最具挑战性的场景中的锐利细节和光照效果。0贡献。我们的主要贡献是基于光场的神经视图合成模型，能够实现非兰伯特效应（例如镜面反射和透明度）的逼真建模。为了解决初始视图稀疏性的核心挑战，我们利用了一种归纳偏置，即极线几何和基于变换器的射线融合。与现有技术相比，所得模型在前向和360°捕获方面产生了更高保真度的渲染，最具挑战的场景中提高了最多5dB。此外，作为我们设计的副产品，我们可以轻松获得密集的对应关系和深度，无需进一步修改，以及对渲染过程本身的透明可视化。通过消融实验，我们说明了我们个别设计选择的重要性。02. 相关工作0光场渲染。Levoy和Hanrahan[26]将4D光场定义为一个函数，该函数指定了自由空间中任意给定射线的辐射度。他们放弃了几何推理，直接从输入样本合成新视图。Lumigraph渲染[18]利用代理几何来对抗由于不规则性或视图欠采样而产生的混叠效应。最近的研究[6, 24, 45, 46,56]探索了基于学习的光场渲染方法。然而，这些方法要么需要密集的输入采样[24]，要么具有有限的运动范围[46]，要么仅适用于简单的场景[45]。在这项工作中，我们专注于使用稀疏视点对复杂场景进行新视图合成，这些场景具有具有挑战性的非兰伯特效应。0神经场景表示。使用神经网络表示场景的形状和外观最近变得非常流行。显式表示方法使用可微分渲染来学习场景的3D表示，如点云[1, 40, 57]、网格[50]或体素[28,43]。隐式表示方法使用连续坐标为基础的函数来表示场景，如有符号距离场[2, 8, 17, 23, 59, 60]或占据场[29,34]。场景表示网络[44]使用可微分的射线行进算法以及将坐标映射到特征的连续函数。NeRF[31]通过学习将射线上的点映射到颜色和不透明度，然后进行体积渲染，实现了逼真的渲染。NeX[55]是一种基于多平面图像的场景表示，解决了NeRF在模拟大视角相关效应方面的困难。然而，在涉及液体折射或反射引起的干涉图案等情况下，NeX仍然面临挑战。在这项工作中，我们介绍了一种能够在其他方法失败的情况下忠实地渲染具有复杂视角效应的新视图的模型（例如图1）。有关神经渲染的最新进展的综述，请参阅Tewari等人的工作[49]。0基于图像的渲染。基于图像的渲染（IBR）方法[9, 12, 14,54]建立在这样的概念上，即新视图可以通过“借用”给定一组输入图像的像素值来渲染。Hedman和Kopf[19]、Hedman等人[20]、Riegler和Koltun[38,39]等全局几何方法依赖于从输入视图进行密集重建以获得场景的全局网格。这些网格用于将目标射线投影到附近的视图上进行特征和颜色提取。其他方法，如Chaurasia等人[9]、Penner和Zhang[35]使用多视图立体方法推断深度图以计算从给定输入到目标视点的变形变换。Thies等人[51]将IBR与基于GAN的图像合成相结合，以学习视角相关效果。为了克服深度估计误差带来的困难，Choi等人[11]估计深度不确定性分布以改善图像。最近，Wang等人[54]引入了IBRNet，这是一个基于NeRF的模型，它结合了附近视图的特征进行渲染。他们的架构预测了射线上每个点的颜色，作为附近视图颜色的加权平均值。每个点的密度通过使用单个注意力层聚合所有其他点的信息来预测。类似地，对于类别特定的重建，NerFormer[37]建议用变换器模型替换NeRF-WCE[22]中的MLP，以实现空间推理。我们的工作在其核心方面与这些方法有着重要的区别：渲染框架。我们的方法采用了光场表示，避免了体积渲染的需要。此外，我们引入了一种基于变换器的模型，首先通过推理对应关系来聚合光线。82710沿着每条极线聚合特征，然后根据遮挡和光照效果从多个视角聚合特征以产生最终的颜色。03. 方法0我们的目标是在训练和推理过程中，根据一组输入图像合成场景的新视角。我们的设计受到两个关键思想的指导：1）使用光场的四维参数化作为输入可以以高保真度捕捉视角相关效果，2）从多视角几何中强制施加约束可以实现对稀疏输入视角的视图合成。这些思想使得我们能够像经典光场方法[18,26]一样忠实地恢复照明效果，但只需要对场景进行稀疏的视图采样，就像基于几何的方法[12,32]一样，传统上难以再现非兰伯特效应。为了实现这些思想，我们引入了一个基于极线几何的归纳偏差，并结合一个基于变换器的架构。我们的模型可以从前向照片和在半球上使用相机捕获的360°场景中渲染新视角。在接下来的几节中，我们首先介绍光场表示，然后是模型概述，最后详细描述网络架构。03.1. 光场参数化0光场是在定向线空间上的函数，将给定射线关联到辐射值。在自由空间中，由于射线上的辐射保持恒定，射线空间具有四个自由度，可以用4D向量进行参数化。我们考虑光场的两种不同参数化，光板[26]和双球面[7]。光板。我们采用光板参数化进行前向拍摄。光板由两个平行平面及其各自的2D坐标系（s，t）和（u，v）组成。然后，射线表示为包含与两个平面在各自坐标系中的交点坐标的4D元组 r=（s，t，u，v）。双球面。对于360°场景，我们使用双球面参数化[7]的光场。给定一个包围场景的球体，从相机发出的射线使用球体上的极角和经度表示，r=（θ1，φ1，θ2，φ2）。0给定一个四维光场射线参数化r，我们学习一个神经渲染模型f，将射线映射到辐射值。为了获得给定像素在齐次坐标 x∈ RP2 上的射线坐标，从使用具有内参 C和姿态（外参）[R t]的相机拍摄的图像中，我们首先将射线作为世界坐标中的线ℓ 参数化为 δ，如 ℓ(δ) = -R�t + δR�C-1x，然后解出 δ以获得与两个平面或球面的交点 r0为了渲染图像，我们对与每个目标像素关联的射线进行模型f(r) 的评估。03.2. 模型概述0优化直接将4D光场坐标映射到颜色的神经渲染模型 f无法在使用稀疏的输入视角进行训练时推广到新视角（请参见第4.3节进行定量评估）。为了解决这个挑战，我们引入了一个模型，它以极线约束的形式融入了几何归纳偏差。给定目标相机，我们确定一组相邻视角，用于强制实施多视角一致性。在训练过程中，这个集合是通过从 N个最近视角的子集中随机选择 K个视角来构建的。在推理过程中，最近的 K个视角是确定性选择的。我们将选择的 K个视角称为参考视角。现在，给定要渲染的目标像素x，我们根据第3.1节中描述的方法获取其射线参数化 ℓ 和r，沿着射线采样一系列 P 个点 pi =ℓ(δi)，并将每个点投影到每个参考视角上，即 xji = Cj[Rjtj]pi，其中 Cj，[Rj tj] 是参考视角的相机内参和外参，1 ≤ j≤ K。集合 xj = {xji} 1 ≤ i ≤ P 由目标射线在第 j个参考视角的极线上的点组成，我们将 xji称为极线点。对于每个极线点，我们根据第3.1节中描述的方法关联其射线参数化，得到集合 rj = {rji} 1 ≤ i ≤P。极线特征聚合。我们模型的第一阶段由函数 f1表示，通过聚合与极线点和目标射线相关的特征，计算每个参考视角的特征表示。我们将在以下章节中详细介绍这些特征是什么。从概念上讲，第一阶段计算特征集 {zj} 1 ≤ j ≤K，其中 zj = f1(r,rj)。这与经典的多视角几何类似，我们在极线上寻找与目标射线的对应关系。然而，在我们的情况下，没有目标射线的视觉表示，因此模型必须学会将目标射线坐标与可用的参考特征匹配，输出是表示视图 j的特征向量。视图特征聚合。第二阶段由函数 f2表示，通过聚合与每个参考视角相关的特征，给定目标射线表示，预测目标射线的颜色。从概念上讲，对于具有关联射线 r 的像素 x，预测其颜色为 f(r) = f2(r, {f1(r,rj)})。该阶段学习如何推理遮挡和照明效果，将所有视角的信息结合起来产生目标射线的颜色。03.3. 网络架构0一种可能的方法是将f1和f2建模为多层感知机（MLP）。然而，这会阻碍模型利用从极线点中提取的可用关系信息，导致次优性能（第4.3节对此进行了量化）。由于f1的输入是极线点的序列，f2的输入是一组参考视图特征，我们建议使用在序列和集合建模方面表现出色的变换器来建模极线和视图特征聚合。MLPMLPMLPRearrange∑∑12y11 y12 y13y21 y22 y23α11 α12 α13β1β282720参考视图0目标图像0光场编码0+ 光场0编码0特征提取0极线特征0聚合0视图0特征0聚合0颜色0极线0变换器0极线特征聚合0视图0变换器0视图特征聚合0颜色辅助0辅助分支0+ 光场0编码0特征提取0重新排列0: 连接0∑0∑0∑: 求和0x10x02x10x20x20x20z10f1 f20r0图2.模型概述。给定一个要渲染的目标射线，我们确定参考视图并沿着与目标射线对应的极线采样点。这些极线点的特征以及目标射线的光场坐标是极线聚合的输入。这个阶段（蓝色）独立地沿着每个参考视图的极线聚合特征，产生参考视图特征。参考视图特征与目标射线一起传递到视图聚合阶段（绿色），它将参考视图特征组合起来预测目标射线的颜色。0模型无法利用从极线点中提取的可用关系信息，这可能导致性能不佳（第4.3节对此进行了量化）。由于f1的输入是极线点的序列，f2的输入是一组参考视图特征，我们建议使用在序列和集合建模方面表现出色的变换器来建模极线和视图特征聚合。03.3.1 极线特征变换器（f1）0这个变换器在图2中以蓝色突出显示，它基于目标射线组合沿极线的点的特征。输入是一个由P+1个特征组成的序列，其中P个特征来自极线点，一个特征来自目标射线。目标射线的特征向量是它自己的坐标r。极线点xji的特征是以下内容的串联：1）射线坐标rji，2）沿r投影到xji的3D点pi的坐标，3）可学习的相机嵌入kji，4）在xji处获得的轻量级CNN的视觉特征vji，以及5）在xji处的颜色cji。假设目标像素x匹配到一个极线点xji，可以求解出对应的场景点并具有pi的坐标。将其包含为极线点特征也起到了位置编码的作用，因为极线上的每个点对应于查询射线上的某个深度值。这种类型的位置编码0编码比序列建模中使用的典型1D编码更丰富，对于建模3D场景更合适，如第4.3节所示。我们进一步应用傅里叶特征[31，48]的位置编码来促进高频函数的学习。这个操作由γr用于射线坐标和γp用于点坐标执行，详见第4.1节。总结一下，每个极线点xji由一个特征表示0yji = [γr(rji) ∥ γp(pi) ∥ kji ∥ vji ∥ cji], (1)0其中∥表示连接。视图j的极线变换器将输入作为[ γ r ( r ) , {y j i } 1 ≤ i ≤ P ]。首先，线性层将特征投影到相同的维度，然后将自注意力变换器应用于整个序列。我们聚合与极线点（˜yji）对应的P个输出，以获得参考视图特征。聚合是加权平均，权重使用类似于图注意力网络（GAT）[53]的注意力机制计算如下：0αji = exp � W1 � ˜r ∥ ˜yji ��0k exp � W1 � ˜r ∥ ˜yjk �� , (2)0其中˜r是目标光线的输出特征，W1是学习到的权重。第一阶段通过重复zj = f1(r, rj) = � P i =1 αji˜yji对所有视图1 ≤ j ≤K完成。βj =exp�W2�ˆr ∥ ˜zj��k exp (W2 [ˆr ∥ ˜zk]),(3)caux =�jβj��,(4)82730真实值我们的方法 NeX NeRF0图3.定性比较。上：Shiny数据集[55]中CD场景的结果。我们的方法能够在瓶子的反射中检索到更清晰的细节（例如，插图的左上角）以及紧凑盘上的干涉图案（例如，顶部右侧的彩虹和反射）。下：来自真实前向（RFF）数据集[30]的Orchids场景的结果。我们的方法更准确地恢复了叶子的形状。我们还观察到叶子和花瓣上的纹理更清晰。03.3.2 视图特征变换器（f2）0这个变换器在图2中用绿色标出，它接受目标光线和每个参考视图的特征集作为输入序列，现在输入序列为[ γ r ( r ) , { z j } 1 ≤ j ≤ K ] ，其中z j0其中˜zj是第一阶段计算得到的参考视图特征，输出是目标光线的单个特征向量。我们使用与极线特征聚合器相同的自注意力变换器架构。变换器输出序列[ˆr, {˜zj} 1 ≤ j ≤ K]通过加权平均进行聚合，使用与前一节相同的思路计算权重βj，使用可学习的权重W2，0然后，这个阶段的输出是目标光线特征� K k =1βk˜zk，它经过线性投影并通过sigmoid函数传递，产生像素颜色预测c。03.4. 损失0在训练过程中，我们最小化观察到的颜色和预测颜色之间的L2损失。我们还包括一个辅助损失，以鼓励注意力权重对于c aux 的0对于解释性，我们希望解释目标光线的匹配点（αji）和参考视图（βj）具有一定的意义，即αji的高值表明与目标光线的有效匹配，而βj的低值可能表示遮挡。这个辅助损失还可以导致更准确的渲染结果（参见第4.3节）。为了计算它，我们使用注意力权重来组合参考像素颜色，并进行第二次颜色预测，如下所示：0i αji cji0其中cji是极线点xji的颜色。辅助损失定义为c aux与真实值之间的L2损失。这个损失的效果有两个方面：1）它鼓励权重αji具有较低的熵，以避免辅助分支中的模糊预测，2）它鼓励权重βj对于未遮挡的视图较高。04. 实验0我们展示了与最先进的新视图合成方法的定量和定性比较。我们还进行了消融研究，分析了我们方法中引入的组件的有效性。82740模型PSNR [dB] ↑ SSIM ↑ LPIPS ↓ 平均值 ↓0LLFF [30] 24.41 0.863 0.211 0.0656 NeRF [31] 26.76 0.8830.246 0.0562 IBRNet [54] 26.73 0.851 0.175 0.0523 NeX[55] 27.26 0.904 0.178 0.0473 我们的方法 28.26 0.920 0.0620.02970表1. 实际前向捕捉（RFF）数据集[30]的结果。04.1. 实现细节0网络架构。我们使用类似于最近为视觉相关任务引入的Transformer架构[13]。每个块由一个单头自注意层和一个带有高斯误差线性单元（GELU）激活函数[21]的MLP组成。每个块都应用了残差连接，然后是LayerNorm（LN）[3]。每个Transformer有8个块，内部特征大小为256。视觉特征vji由一个具有5×5滤波器和32个通道的单卷积层产生。0位置编码。根据之前的工作[31，48]，我们使用傅里叶特征对输入坐标进行编码，以便学习所需的高频组件以进行准确的渲染。对于光板参数化和3D点pi，我们对每个射线坐标进行位置编码[31]，如γr(w) = γp(w) ={sin(2kw)}∪{cos(2kw)}，其中0≤k≤4。对于两个球面参数化，我们发现使用基于在点(θ1, φ1)和(θ2,φ2)处评估球谐函数的位置编码对于渲染是有益的，详见附录。可学习的相机嵌入kj为256维。0训练/推理细节。在每个训练步骤中，我们随机选择一个目标图像，并从中采样一批随机射线。前向捕捉数据集的批量大小为4096，Blender的批量大小为8192。我们使用Adam优化器[25]进行250,000次迭代训练，并使用线性学习率衰减计划进行5000次热身步骤。对于推理，我们采样连续的射线块来生成批量。在32核TPUv3切片上训练一个Blender场景大约需要23小时。然后，渲染一个800×800的图像大约需要9.2秒。04.2. 结果0我们将我们的方法与LLFF [30]，NeRF [31]，IBRNet[54]，NeX [55]和Mip-NeRF[4]进行比较。我们仅在Blender数据集上与Mip-NeRF进行比较，因为正向捕捉，正如Barron等人所指出的[4，AppxD]，Mip-NeRF与NeRF的表现相当。0度量标准。为了衡量我们模型的性能，我们使用了三个广泛采用的度量标准：峰值信噪比（PSNR），结构相似性指数（SSIM）和0模型 PSNR ↑ SSIM ↑ LPIPS ↓ 平均 ↓0NeRF [31] 25.60 0.851 0.259 0.0651 NeX [55] 26.450.890 0.165 0.0499 IBRNet† [54] 26.50 0.863 0.1220.0468 我们的方法 27.34 0.907 0.045 0.02940表2. NeX [55]的Shiny数据集结果。0模型 PSNR ↑ SSIM ↑ LPIPS ↓ 平均 ↓0NeRF [31] 31.01 0.953 0.050 0.0194 IBRNet [54] 28.140.942 0.072 0.0299 Mip-NeRF [4] 33.09 0.961 0.0430.0161 我们的方法 33.85 0.981 0.024 0.01100表3. NeRF [31]的Blender数据集结果。0学习的感知图像块相似度（LPIPS）[62]。根据[4]的方法，我们还报告了10-PSNR/10的几何平均值，√01-SSIM和LPIPS，这提供了三个度量标准的摘要，以便更容易进行比较。我们报告了每个数据集中所有场景的每个度量标准的平均值。请参阅附录以了解结果的场景分解。04.2.1 实际前向捕捉（RFF）数据集0Mildenhall等人[30]介绍的RFF数据集由使用智能手机对现实世界场景进行的8个前向捕捉组成。对于我们的实验，我们使用与NeRF[31]相同的分辨率和训练/测试划分。表1报告了RFF数据集中所有8个场景的平均度量标准。我们在图3中展示了对Orchids场景的定性比较。与基线相比，我们的方法保留了更清晰的细节纹理，并在叶子和花瓣的形状边界上产生了一致的结果。04.2.2 闪亮数据集0RFF数据集主要由具有少量视角相关效果的漫反射场景组成。NeX引入的闪亮数据集提供了8个具有挑战性的视角相关效果的场景，由前置摄像头捕获。我们使用与NeX相同的图像分辨率和分割。我们在闪亮数据集上将我们的模型与NeX、IBRNet和NeRF进行比较，结果见表2。我们报告了数据集中所有场景的平均分数。我们的模型在所有指标上都明显优于现有技术水平。我们在图3中展示了在CD场景中从测试视图上进行的渲染的定性分析。我们的模型能够重建出盘上的干涉图案和瓶子上的反射效果。(1)(2)(3)(4)(1)(2)(3)(4)82750模型 PSNR ↑ SSIM ↑ LPIPS ↓ 平均 ↓0Vanilla-NLF 17.39 0.614 0.516 0.180201-MLP 21.33 0.774 0.208 0.0900 2-MLP 26.16 0.896 0.0760.03900No CNN ( v j i ) 27.43 0.910 0.057 0.0314 No 3DCoordinates 28.17 0.920 0.047 0.0273 No LCE ( k j ) 28.230.926 0.045 0.0264 Mean Pooling 28.39 0.929 0.043 0.0255No Auxiliary Loss 28.43 0.931 0.043 0.02530我们的模型 28.78 0.934 0.038 0.02350表4.RFF数据集[30]上的消融研究，分辨率为原始分辨率的25%（504×378）。详细信息请参见第4.3节。0与基线相比，我们的模型具有更高的细节层次。04.2.3 Blender数据集0我们的模型能够渲染360°场景的新视图。为了评估这种情况，我们使用Mildenhall等人引入的合成数据集[31]。每个场景由从物体周围的半球面上随机采样的视点渲染的800×800分辨率图像组成。表3报告了在Blender数据集中所有场景上的平均性能。我们的模型在所有指标上都优于NeRF、IBRNet和Mip-NeRF，并取得了新的最佳结果。在包含金属球反射的材料场景中，与Mip-NeRF相比，我们观察到PSNR指标提高了约4dB。我们在附录中展示了完整的表格以及定性比较。04.3. 消融研究0为了验证不同设计决策的有效性，我们进行了以下消融实验。0几何归纳偏差。我们训练了一个名为'Vanilla-NLF'的模型，该模型使用MLP根据其光场表示预测光线的颜色，而不考虑极线约束的场景几何形状。0Transformer vsMLP。我们训练了多个变种模型，将transformer替换为MLP。在第一个变种中，我们将每个极线变换器和视图变换器都替换为MLP（'2-MLP'）。第二个变种将两个变换器都替换为一个单独的MLP，该MLP以所有参考视图的极线点特征以及目标光线作为输入，直接预测颜色（'1-MLP'）。我们在附录中详细介绍了这些架构。我们对这些MLP的层数进行了扫描，并报告了最佳模型的性能。0†我们在Shiny的每个场景上微调了https://github.com/googleinterns/IBRNet上提供的预训练模型。0图4.对应分布。我们的模型学习到的每个点的注意力权重表示与目标光线的潜在对应关系。我们可视化了四条目标光线和一个参考视图。权重以对数刻度显示，从蓝色到红色。绿色圆圈突出显示具有最高对应概率的点。0模型组件。为了探究不同组件的有效性，我们训练了剥离了视觉特征vji（'NoCNN'）、剥离了3D坐标pi、剥离了可学习的相机嵌入kji（'NoLCE'）、用平均池化替换了基于注意力的聚合，以及去除了辅助损失项的消融模型。表4报告了消融结果。所有模型都是在RFF数据集的图像上训练的，该数据集被降采样到原始分辨率的25%（504×378）。我们使用所有场景的平均指标进行比较。04.4. 模型解释0我们的模型中使用的变压器和视差几何使得通过注意力权重解释结果成为可能。我们通过提取对应关系和深度图来证明这一点。此外，我们使用四维光场表示使得可以构建视差平面图（EPI）[5]，这是对场景几何的可解释重建。0密集对应关系。我们可以通过找到{αji}1≤i≤P中最大的注意力权重来提取目标射线和参考视图j之间的潜在对应关系。图4显示了四个感兴趣点的潜在对应关系的权重分布。对于点（1）和（4），我们观察到单峰分布，峰值在对应点处。对于点（2），我们注意到一些不确定性，而对于点（3），分布是多峰的，峰值在每个叶片周围，最高峰值在正确的对应关系附近。0视差图。由于每个视差点对应于目标射线在某个深度（推测深度）处的投影，我们可以使用对应关系分布来估计目标射线的深度图。我们首先提取所有的视差点（αji）和参考视图（βj）的注意力权重，如3.3节所述，然后计算加权平均的推测深度，相当于应用公式（4），其中颜色被深度替换。图5显示了从Shiny数据集[55]的Crest场景的一个测试视图获得的视差图的示例。Figure 6. Epipolar-plane images (EPI). Our model represents the4D light ﬁeld, so constructing EPIs is natural. Each EPI verticallystacks images along the blue line, while the camera moves parallelto the blue line. Different depths show as lines of different slopesin the EPI, while view-dependent effects show as curves.82760图5.视差图。我们的模型学习到的每个点和每个视图的注意力权重可以应用于估计视差图，通过聚合每个参考视图上每个视差点的推测深度，对于每个目标射线。05. 限制0视差平面图（EPI）。对于4D光场表示，我们通过使用两个固定坐标和两个可变坐标查询我们的模型，从而构建EPI，得到一张2D彩色图像。从物理上讲，这相当于沿着一条1D轨迹移动相机，将平行于轨迹的线段的图像叠加在一起。EPI编码了关于镜面反射和场景几何的信息，其中漫反射点显示为线条，而镜面反射点显示为曲线。我们在图6中展示了CD和Flower场景的视差切片。Flower场景主要是漫反射的，因此我们观察到EPI中具有不同斜率的线条，斜率与深度成反比。对于CD场景，除了线条，我们还观察到与盘片上的干涉图案相对应的区域出现曲线。这是由于镜面反射点的虚拟视深度随着视角的变化而改变[30, 47]。0由于我们的方法依赖于在附近视图中隐式地找到目标像素的对应关系，因此在无纹理的薄重复结构上面临挑战。如图7所示，我们的模型在Shiny的Tools场景上的烧烤架结构和Blender的麦克风上的网状结构上产生了模糊的细节。变压器的计算成本很高，导致训练和推理时间较慢。我们的方法在相同硬件上比Mip-NeRF[4]慢大约8倍。然而，就速度而言，我们的模型表现得更好。0真实数据0我们的模型0真实数据0我们的模型0图7.失败案例。我们的模型在无纹理的薄重复结构上面临挑战。左图：在Shiny的Tools场景中，它在类似烧烤架的结构上产生了扭曲的圆圈[55]。右图：在Blender的Mic场景中，类似的扭曲也出现了[31]。0与其他基于Transformer的模型相比，例如Ner-Former[37]在单个V100GPU上渲染800×800像素的图像需要大约180秒，而我们的方法在相同硬件上只需要60秒至70秒。我们注意到我们的模型受到以下两个方面的开销影响：1）设备上的随机内存访问和2）主机与设备之间的数据传输。我们相信通过一些工程努力可以使其更加高效。06. 结论0我们提出了一种基于光场的神经渲染方法用于新视角合成。与以往的体积渲染方法不同，我们提出的模型可以通过在四维空间中学习光场来自然处理现实世界的照明效果。为了解决光场渲染的密集采样依赖性，我们引入了一个两阶段的框架，其中包含了以极线约束形式的几何归纳偏差。我们的模型在视角合成方面显著改进了先前的最先进模型，特别是对于具有挑战性的视角相关效果的场景。最后，我们的模型设计允许提取密集的对应关系、视差图和极线平面图，而无需进行额外的训练。[16] G. Gafni, J. Thies, M. Zollhofer, and M. Nießner. Dynamicneural radiance ﬁelds for monocular 4d facial avatar recon-struction. In Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition (CVPR), pages8649–8658, 2021. 182770参考文献0[1] K.-A. Aliev, A. Sevastopolsky, M. Kolos, D. Ulyanov和V.Lempitsky.神经点云图形。在《欧洲计算机视觉会议(ECCV)》中，页码696-712，2020年。20[2] M. Atzmon, N. Haim, L. Yariv, O. Israelov, H. Maron和Y. Lipman.控制神经级别集合。《神经信息处理系统进展》(NeurIPS)，2019年。20[3] L. J. Ba, J. R. Kiros和G. E. Hinton.层归一化。CoRR，abs/1607.06450，2016年。60[4] J. T. Barron, B. Mildenhall, M. Tancik, P. Hedman, R.Martin-Brualla和P. P. Srinivasan.Mip-nerf：用于抗锯齿神经辐射场的多尺度表示。在《IEEE/CVF国际计算机视觉会议》中，页码5855-5864，2021年。6, 80[5] R. C. Bolles, H. H. Baker和D. H. Marimont.极线平面图像分析：一种确定结构运动的方法。《国际计算机视觉杂志(IJCV)》，1(1)：7-55，1987年。70[6] C. Buehler, M. Bosse, L. McMillan, S. Gortler和M. Cohen.无结构的光栅图渲染。在《计算机图形学与交互技术年会论文集》中，页码425-432，2001年。20[7] E. Camahort, A. Lerios和D. Fussell.均匀采样的光场。在《渲染技术欧洲图形学研讨会》中，页码117-130，1998年。30[8] R. Chabra, J. E. Lenssen, E. Ilg, T. Schmidt, J. Straub, S.Lovegrove和R. Newcombe.深度局部形状：学习用于详细3D重建的局部SDF先验。在《欧洲计算机视觉会议(ECCV)》中，页码608-625，2020年。20[9] G. Chaurasia, S. Duchene, O. Sorkine-Hornung和G.Drettakis.用于合理的基于图像导航的深度合成和局部变形。《ACMTransactions on Graphics (TOG)》，32(3)：1-12，2013年。20[10] S. E. Chen和L. Williams.用于图像合成的视图插值。在《计算机图形学与交互技术年会论文集》中，页码279-288，1993年。10[11] I. Choi, O. Gallo, A. Troccoli, M. H. Kim和J. Kautz.极端视角合成。在《IEEE/CVF国际计算机视觉会议(ICCV)》中，页码7781-7790，2019年。20[12] P. E. Debevec, C. J. Taylor, and J. Malik.从照片中建模和渲染建筑物：一种混合几何和基于图像的方法。在《计算机图形学与交互技术年会论文集》中，页码11-20，1996年。2, 30[13] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X.Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S.Gelly, J. Uszkoreit和N. Houlsby.一张图像等于16x16个单词：用于图像识别的Transformer模型。《学习表示国际会议(ICLR)》，2021年。60[14] R. Du, M. Chuang, W. Chang, H. Hoppe, and A. Varshney.Montage4D: 多视角视频纹理的交互式无缝融合. ACMSIGGRAPH交互式3D图形和游戏研讨会 , 2018. 20[15] Y. Du, Y. Zhang, H.-X. Yu, J. B. Tenenbaum, and J. Wu.神经辐射流用于4D视图合成和视频处理.在IEEE/CVF国际计算机视觉会议 (ICCV) 中, 页码14324–14334,2021. 10[17] K. Genova, F. Cole, A. Sud, A. Sarna, and T. Funkhouser.用于3D形状的本地深度隐式函数.在IEEE/CVF计算机视觉和模式识别会议中, 页码4857–4866, 2020.20[18] S. J. Gortler, R. Grzeszczuk, R. Szeliski, and M. F. Cohen.光场. 在第23届年度计算机图形学和交互技术会议论文集中,页码43–54, 1996. 2 , 30[19] P. Hedman and J. Kopf. 瞬时3D摄影. ACM图形学交易(TOG) , 37(4):1–12, 2018. 20[20] P. Hed

下载后可阅读完整内容，剩余1页未读，立即下载