没有合适的资源?快使用搜索试试~ 我知道了~
6351−−−−GNeRF:基于GAN的神经辐射场,无需设置摄像机权萌1陈安培1罗海敏 1吴敏叶1郝苏2 兰旭1何旭明1余静怡11信息科学与技术学院智能视觉与成像上海工程研究中心加州大学圣地亚哥分校University of California,San Diego{mengquan,chenap,luohm,wumy,xulan1,hexm,yujingyi} @ shanghaitech.edu.cn{haosu}@eng.ucsd.edu摘要我们介绍了GNeRF,这是一个将生成对抗网 络(GAN)与神经辐射场(NeRF)重建结合起来的框架,用于具有未知甚至随机初始化相机姿势的复杂场景。最近基于NeRF的进展已经在可评论的现实新颖视图合成方面获得了普及。然而,它们中的大多数严重依赖于准确的相机姿态估计,而最近的方法很少只能优化具有相对较短的相机轨迹的大致面向前方的场景中的未知相机姿态,并且需要粗略的相机姿态初始化。不同的是,我们的GNeRF仅利用随机初始化的姿势用于复杂的由外而内的场景。我们提出了一个新的两阶段的端到端的框架。第一阶段将GAN用于新领域,以联合优化粗略的相机姿势和辐射场,而第二阶段则通过额外的光度损失对其进行优化我们克服了局部极小使用的混合和迭代优化计划。在各种合成和自然场景上的大量实验证明了GNeRF的有效性。更令人印象深刻的是,我们的方法优于基线有利地在那些场景中,重复的模式,燕姿,甚至低纹理,被认为是非常具有挑战性的。1. 介绍从多视点二维图像中恢复三维表示是计算机视觉的核心任务之一。最近,随着神经辐射场方法(例如,NeRF [31]),其将场景表示为连续5D函数,并使用体积渲染来合成新视图。虽然NeRF及其后续[6,26,29,53,61]在一系列具有挑战性的场景中实现了前所未有的保真度水平,但这些方法中的大多数严重依赖于知道准确的图1. 我们的方法估计相机姿势和神经辐射场仅使用随机初始化的姿势在复杂的情况下,即使在极端的情况下,当输入的视图只有纹理较少的灰色掩模。这是一个长期存在但具有挑战性的任务。传统的相机姿态估计过程在具有重复图案、变化的照明或很少的关键点的挑战性场景中遇到困难,并且建立在这些方法的基础上增加了NeRF训练过程的额外不确定性。为了探索减轻对准确相机姿态信息的依赖的可能性,最近,iNeRF [60]和NeRF [55]试图在训练NeRF时优化相机姿态以及其他参数。虽然已经取得了一定的进展,他们都只能优化相机的姿态时,相对较短的相机轨迹与合理的相机位姿初始化。值得注意的是,NeRF限于大致面向前方的场景,iNeRF的焦点是相机姿态估计而不是辐射场估计,并且它假设训练的NeRF,其进而需要已知的相机姿态作为监督。当存在更大的视点不确定性时,摄像机姿态估计是极其具有挑战性的,并且容易陷入局部最小值。6352−−−−为此,我们提出了GNeRF,一种新的算法,可以估计相机姿势和神经辐射场时,相机初始化在复杂的情况下在随机姿势。我们的算法有两个阶段:第一阶段通过对抗训练得到粗略的相机姿态和辐射场;第二阶段与光度损失一起细化它们。将生成式自适应网络(GANs)用于相机姿态估计领域,我们扩展了NeRF模型,以在具有大位移的复杂场景中联合优化3D表示和相机姿态代替将光度损失直接传播回相机姿态参数,这对挑战性条件(例如,较少的纹理和变化的光照)和容易陷入局部最小值,我们提出了一种混合和迭代优化方案。 我们的学习管道是完全可区分和端到端可训练的,使我们的算法能够在具有挑战性的场景中表现良好,其中基于COLMAP的[44]方法受到诸如重复模式,低纹理,噪声等挑战,即使在输入视图是灰色掩模集合的极端情况下,如图所示。1.一、 此外,我们的方法可以预测新的姿态的图像属于通过经训练的反演网络映射到同一场景而无需繁琐的每场景姿态估计(例如,COLMAP类方法)或耗时的基于梯度的优化(例如, iNeRF和NeRF). 我们尝试了我们的GNeRF在各种合成和自然场景。我们展示了与基于COLMAP的NeRF方法在常规场景中的结果;更令人印象深刻的是,我们的方法在纹理较少的情况下优于基线,这些情况在以前被认为是非常具有挑战性的。2. 相关作品神经3D表示经典方法主要依赖于离散表示,如网格[13],体素网格[7,49,58],点云[10]。最近的神经连续隐式场由于其表示高水平细节的能力而越来越受欢迎[30,39,40]。但是这些方法需要昂贵的3D注释。为了弥合2D信息和3D表示之间的差距,差分渲染通过获得渲染过程的有用梯度来解决端到端优化的这种集成[18,27,31,43,48]。Liu等[27]提出了在可微渲染中首次使用神经隐式表面表示。 Mildenhall等人[31]提出了可微分体绘制,并实现了场景的视图一致性重建。然而,他们都假设准确的相机姿势作为先决条件.最近,几种方法试图减少对预先计算的相机姿势的依赖。IDR [59]将噪声添加到地面实况相机姿势,通过同时学习3D表示来产生精确的3D表面重建姿势和相机姿势。向地面实况相机姿态添加随机偏移,iNeRF [60]通过反转训练的神经辐射场来执行姿态估计。将相机姿态初始化为单位矩阵,NeRF [55]通过联合优化相机参数和辐射场,在前向场景中展示了令人满意的新颖视图合成结果。与这些方法相比,我们的方法不依赖于相机姿态初始化,并且对具有较少纹理和重复图案的具有挑战性的场景不敏感。传统技术通常依赖于运动结构化(SfM)[1,11,56,44],其提取局部描述符(例如,SIFT [28]),执行匹配 以 找 到 2D-3D 对 应 , 估 计 候 选 姿 态 , 然 后 通 过RANSAC [12]选择最佳姿态假设。其他基于检索的方法[8,16,41,47]找到与查询图像相似的图像,并通过将查询图像与数据库图像进行匹配来有效地建立最近,基于深度学习的方法尝试直接从2D图像回归相机姿态,而不需要跟踪。PoseNet [22]是第一种采用修改的截断GoogleNet作为姿态回归器的端到端方法。使用不同的架构[35,52,57]或姿态损失[3,21],这导致显著的改进。诸如学习相对姿态估计[51,42]或语义分割[42]的辅助任务导致进一步的改进。为了更好地泛化网络,混合姿态学习方法将学习转向局部或相关问题:[2,25]提出基于图像检索将查询图像的相对姿态回归到已知姿态。这些基于学习的方法需要大量的标记训练数据,SSV [34]提出通过自我监督从未标记图像虽然取得了很大的进步,但仍需要丰富的训练图像。我们的方法属于基于学习的方法,但以自我监督的方式对每个场景进行训练。3D感知图像合成生成对抗网络,或更一般的对抗学习范式,已经在各种图像合成任务中取得了重大进展[20,32,46]。但是这些方法都是在二维像素空间上操作的,忽略了自然场景的三维结构。3D感知图像合成将3D模型与2D图像相关联,从而实现3D模型的显式修改[4,5,15,36,37,38,45]。早期的3D感知图像合成方法,如RenderNet [36],引入了具有投影单元的渲染卷积网络,该投影单元可以从3D形状渲染2D图像。PLATONICGAN [15]使用基于体素的表示和一系列可区分的渲染层来从2D图像的非结构化集合中发现对象的3D结构。HoloGAN [37]引入了深度体素表示,并在没有任何3D形状监督的情况下学习它。对于这些方法,COM-6353Σ Σ∈∈∈∈→∈ ∈ −我{ ···}1Σ我可区分渲染层和隐式3D表示的组合可导致纠缠的潜变量和破坏多视图一致性。最新的和与我们相关的是GRAF [45],GIRAFFE [38]和pi-GAN [4]。NeRF模型通过如下的光度损失来优化连续体积场景函数FΘnL(Θ,Φ)=I−I2,I=G(;F)(1)利用NeRF的表现力,这些方法允许对所生成的对象进行非纠缠的形状、外观修改。然而,这些方法需要大量的数据和信息。N4. 方法ni i2i iΘi=1用于简单化对象(例如,面部、汽车)而不是照片般逼真和复杂的场景。相反,我们的方法可以通过学习具有有限数据的粗生成网络并使用光度约束对其进行细化来处理具有有限数据的复杂真实场景。3. 初步我们首先介绍基本的相机和场景表示,以及我们的方法在本节中的符号相机姿态形式上,我们表示相机姿态/外部参数的基础上,其在3D空间中的位置/定位和它的旋转从一个规范的看法。对于相机位置,我们简单地采用欧几里得空间中的3D嵌入向量,表示为tR3。对于摄像机的旋转,广泛使用的表示,如四元数和欧拉角是不连续的,神经网络难以学习。在开创性的工作[64]之后,我们使用连续的6D嵌入向量rR6来表示3D旋转,这更适合于学习。具体地,给定旋转矩阵R=a1a2a3R3×3,我们通过删除旋转矩阵的最后一列来计算旋转向量r从6D姿势嵌入向量,我们还可以使用Gram-Schmidt类过程来恢复原始旋转矩阵,其中最后一列通过将叉积推广到三维来计算[64]。NeRF场景表示我们采用NeRF [31]框架来表示底层3D场景和图像形成,其将场景编码为颜色和密度的连续体积辐射场具体地,给定3D位置xR3和2D观看方向d[π,π]2作为输入,NeRF模型基于MLP网络定义5D向量值函数FΘ:(x,d)(c,σ),其中其输出是发射颜色cR3和体积密度σ,并且Θ是网络参数。为了从NeRF模型渲染图像,NeRF模型遵循经典体渲染原理[19]。对于每个场景,NeRF框架利用场景的RGB图像的数据集、对应的相机姿势和内在参数以及场景边界来学习单独的神经表示网络。具体地,给定校准的RGB图像的数据集=I1,I2,…,In在单个场景中,对应的相机姿势Φ={1,2,···,n}和可微分体积渲染器G,我们的目标是从单个场景的n个未校准图像学习NeRF模型FΘ,而为此,我们将这些图像的相机姿态Φ视为潜在变量的值,并提出了联合估计相机姿态并学习NeRF模型的迭代学习策略。作为我们的方法的概述图。2说明,我们的方法的关键成分是一种新的NeRF估计策略,基于对抗损失和反演网络的集成(阶段A)。这使得我们能够从学习的反演网络生成隐式场景表示FΘ和相机姿态Φ给定初始估计,我们利用光度损失来细化NeRF场景模型和那些相机姿势(阶段B)。有趣的是,我们的无姿态NeRF估计过程还可以进一步改进细化的场景表示和相机姿态。此外,我们开发了一个正则化的NeRF优化步骤,细化NeRF场景模型和那些相机姿势。因此,我们的学习算法还迭代NeRF 估 计 和 优 化 步 骤 , 以 进 一 步 克 服 两 个 阶 段(AB…AB)。在下文中,我们首先在第4.1节中呈现我们的无姿态NeRF估计过程,然后在第4.2节中引入正则化和迭代NeRF优化步骤。培训策略详见第4.3节,模型架构详见第4.4节。4.1. 无姿态NeRF估计作为我们的方法的初始阶段,在阶段A中,我们不具有针对每个图像或预训练的辐射场的合理的相机姿态估计。我们在这个阶段的目标是预测每个图像的粗略姿态,并学习场景的粗略辐射场。如图1的左部分所示。2、我们使用对抗学习来实现目标。我们的架构包含两个部分:发生器G和鉴别器D。将随机相机姿态作为输入,生成器G将通过查询神经辐射场并执行NeRF样体绘制来合成在视图处观察到的图像。来自许多采样相机姿态的合成图像的集合将被分解成块,并且由鉴别器D与真实块的集合进行比较。通过动态补丁采样策略对伪补丁和真实补丁进行采样,这将在第4.3节中描述。G和D是对立训练的,正如经典的GAN工作[14]所做的那样这种对抗6354|我Θ2ΣΣ我图2.GNeRF的管道。 我们的流水线在两个阶段联合学习辐射场和相机姿势。在阶段A中,我们从预定义的姿势采样空间中随机采样姿势,并使用NeRF(G)模型生成相应的图像鉴别器(D)学习分类真实和虚假图像块。反演网络(E)接收假图像块并学习输出它们的姿势。然后,在冻结反演网络参数的情况下,我们优化了数据集中真实图像的姿态嵌入。在阶段B中,我们利用光度损失来联合地细化辐射场和姿势嵌入 我们遵循模式‘A→AB’的混合和迭代优化策略。. . 在训练过程中AB → B '。训练允许我们粗略地学习辐射场并在随机初始化时估计相机姿态。形式上,我们最小化来自训练集的真实图像块Pd(I)之间的分布距离和生成的图像块Pg(IΘ),其定义如下:Θ*= arg min Dist(Pg(I|Θ)||(I))(2)Pg(I|Θ)=∫G(; FΘ)P()d(3)ϕ其损失函数可以写为,LE(θE)=EP()E(G(;FΘ);θE)−2(5)我们注意到,反演网络是以自监督的方式训练的,其利用合成图像块及其对应的相机姿态作为训练数据。随着生成器的训练越来越好,反演网络将能够预测真实图像块的相机姿态在整体训练收敛之后,我们应用逆网络来生成相机姿态估计。为了最小化分布距离,我们采用以下基于如下定义的对抗性损失L_A的GAN学习框架min maxLA(Θ,η)=EIPd[log(D(I;η))]mates{’=E(Ii),Ii∈I}。4.2. 正规化学习策略在无姿态NeRF估计步骤之后,我们获得初始NeRF模型和用于训练的相机姿态估计Θη+EIPg[log(1 −D(I;η))](4)ing图像。由于输入图像块的稀疏采样和反演其中η是鉴别器D和E表示期望。连同两个标准分量,我们训练将图像块映射到对应的相机姿势的反演网络E。我们用随机采样的相机姿态和生成的图像块对反演网络进行训练。图像块通过静态采样策略从原始图像中确定性地采样,这将在第4.3节中描述。反演网络的输入是这些图像块,并且输出是对应的相机姿态。形式上,我们将反演网络E的参数定义为θE,并且6355我L--−−在NeRF网络中,NeRF表示和估计的相机姿态ϕ′足够准确。然而,它们为整个训练过程提供了良好的初始化。这允许我们引入NeRF模型和相机姿态的细化步骤,阶段B,如图3的右侧部分二、具体来说,这个阶段优化了通过最小化如等式11中所定义的光度重建误差N(Θ,Φ)来1.一、我们注意到,现有的工作,如iNeRF和NeRF可以在NeRF优化期间在姿态空间中搜索有限的范围。然而,在本发明的实施例中的姿势优化问题是不可避免的。6356LLN××RNn我E我2标准NeRF模型是高度非凸的,因此它们的结果强烈地依赖于相机姿态初始化,并且对于我们具有挑战性的测试场景仍然是不够的。为了缓解这个问题,我们提出了一种正则化的学习策略(AB. . . 通过交错无姿态NeRF估计步骤(阶段A)和NeRF细化步骤(阶段B)来进一步改进NeRF模型和姿态估计的质量。这样的设计基于我们的经验发现,即无姿态NeRF估计也可以从细化步骤改进NeRF模型和相机姿态。该策略通过来自学习的反演网络的姿势预测来正则化基于梯度下降的模型优化直观地,通过NeRF模型的对抗性训练,合成大小的假图像和真实图像之间的域间隙正在缩小,因此那些姿态预测为联合辐射场和姿态优化提供了合理且有效的约束。形式上,我们定义混合损失函数R,其组合光度重建误差和惩罚与反演网络的预测的偏差的L2损失,其可以写为如下:n估计对应的相机姿态。我们还在开始时缩放摄像机内部函数,以最大化接收场,并逐渐将其增加到原始值,以专注于细节。在实践中,这些策略对GAN训练过程的稳定性带来了很大的好处4.4.实现细节我们采用原始NeRF [31]的网络架构及其分层采样策略来生成我们的生成器。粗采样和重要性采样的采样点的数量被设置为64。不同的是,因为GAN训练仅缩小了真实补丁和伪补丁(“粗略”和“精细”)的分布为了公平比较,我们将MLP的维度从原始的256增加到360,以保持整体参数几乎不变。该网络遵循GRAF[45],其中应用了对特征的归一化[50]和对权重的谱归一化[33]。我们借用Vision Transformer Network [9]来构建我们的反演网络,其最后一层被修改λΣ2L(Θ,Φ)=L(Θ,Φ)+ E(I;θ)−(6)i=1其中λ是加权系数,并且N(Θ,Φ)是在等式11中定义的光度损失。1.一、4.3. 培训最初,我们将所有摄像机的外部矩阵设置为单位矩阵。在阶段A中,我们从先验姿态分布中随机地对相机姿态进行采样。在Synthetic-NeRF数据集中,相机均匀分布在上半球并朝向原点。在实践中,我们直接从相机位置和观察点计算旋转矩阵。在DTU数据集中,摄像机均匀分布在上半球,方位角范围为[0,150],并且注视点以高斯分布(0,0. 012)。我们分析了先验姿态分布的不匹配如何影响补充材料中的性能。为了训练生成辐射场,我们遵循与GRAF [45]相似的补丁采样策略以提高计算和存储效率。具体地,对于GAN训练过程,我们采用动态补丁采样策略,如图2的左下部分所二、 每个补丁都是在图像域中采样的,固定大小为1616而是动态缩放和随机偏移。对于姿势选项-在最小化过程中,我们采用静态补丁采样策略,如图1的左上部分所示二、每个补丁均匀地采样在整个图像域与一个固定的大小为64 - 64。这种采样策略用稀疏补丁唯一地表示整个图像,我们学习率分别为0.0005和0.0001对于反演网络和相机姿态 , 我 们 使 用Adam [23] 算 法 , 学 习 率 为 0.0001 和0.005。5. 实验在这里,我们将我们的方法与其他方法进行比较,这些方法需要相机姿势或粗略的相机初始化视图合成任务,并在各种场景下评估我们的方法我们在配备Intel i7- 8700 K CPU、32GB RAM和单个Nvidia RTXTI- TAN GPU的PC上运行我们的实验,我们的方法需要30小时在单个场景上训练网络。5.1. 绩效评估我们首先将Synthetic-NeRF [31]和DTU [17]数据集上的新视图合成质量与其他三种方法进行比较:原始NeRF[31],具有来自COLMAP [ 44 ]的预校准的相机姿态,由C+n表示;原始NeRF,具有来自COLMAP的预校准的相机姿态,但是经由梯度下降联合地细化,由C+r表示;原始NeRF,具有地面实况相机姿态,由G+n表示 。 我 们 报 告 了 标 准 图 像 质 量 指 标 峰 值 信 噪 比(PSNR)、结构相似性指数(SSIM)[54]和学习感知图像块相似性(LPIPS)[62],以评估图像感知质量。以输出相机姿势。我们使用RMSprop [24]算法来优化生成器。6357××××数据场景↑PSNR↑SSIM↓LPIPSC+n C+r我们的G+nC+n C+r我们的G+nC+n C+r我们的G+n主席33.75 32.70 31.30 32.84 0.97 0.95 0.94 0.97 0.03 0.05 0.08 0.04滚筒22.39 23.42 24.30 26.71 0.91 0.88 0.90 0.93 0.10 0.13 0.13 0.07热狗25.14 33.59 32.00 29.72 0.96 0.97 0.96 0.95 0.05 0.03 0.07 0.04乐高29.13 28.73 28.52 31.06 0.93 0.92 0.91 0.95 0.06 0.08 0.09 0.04麦克风26.62 31.58 31.07 34.65 0.96 0.97 0.96 0.97 0.04 0.03 0.06 0.02船舶27.49 28.04 26.51 28.97 0.88 0.86 0.85 0.82 0.16 0.18 0.21 0.15粤ICP备05016678号-1粤ICP备16016668号-1粤ICP备16016690号-1粤ICP备16016666号-1表1. 基于COLMAP的NeRF [31](C+n),基于COLMAP的NeRF与额外的细化(C+r),NeRF与地面真实姿势(G+n)以及我们在Synthetic-NeRF [31]数据集和DTU [17]数据集上的定量比较。我们报告的PSNR,SSIM和LPIPS指标来评估新的视图合成质量。我们的方法没有构成相机产生新的意见,与COLMAP为基础的NeRF,是更具鲁棒性的挑战性的场景,COLMAP为基础的NeRF失败。图3. 基于COLMAP的NeRF(C+n)与我们在Synthetic- NeRF [31]数据集和DTU [17]数据集上的新视图合成质量之间的定性比较。‘GT’ means ground-truth为了评估,我们需要估计测试视图图像的相机姿态。由于我们的方法可以预测新图像的姿态,因此测试视图的相机姿态直接由我们训练有素的模型估计。相反,对于基于COLMAP的方法,我们需要估计训练集和测试集中图像的相机姿态,以使它们位于相同的空间中。我们注意到,COLMAP使用更多的输入图像产生更准确的姿势估计,因此为了公平评估,我们只选择有限数量的测试图像。选择基于最大化视图之间的相互角距离,使得测试样本可以尽可能多地覆盖对象的不同视角对于Synthetic-NeRF数据集,我们遵循与原始相同的分割,但随机相同。从测试集中提取八个图像用于测试。COLMAP无法配准分辨率为400 400,因此800 800的108个图像用于摄像机配准,COLMAP的性能要好得多。所有方法的训练图像分辨率为400 - 400。 对于DTU数据集,我们使用四个代表性场景,在每个场景上,我们将每第8个图像作为测试图像,并将其余43个图像用于训练。输入图像分辨率500400 场景选择是基于考虑的多样性:合成场景(Synthetic-NeRF);具有丰富纹理的真实场景(scan 4和scan 63);纹理较少的真实场景( scan 48和scan104)。在Tab。1,我们还展示了量化的性能合成-NeRFDTU6358××方法Scan48Scan97扫描104[59]第59话21.1717.4212.26我们的(蒙面)20.4019.4019.81我们25.7124.5225.70表2. IDR和我们在DTU [17]数据集上的定量渲染质量比较。评估度量是PSNR。图4. IDR [59]和我们在DTU数据集上的定性渲染质量比较。在Synthetic-NeRF和DTU数据集上的所有三种方法。我们注意到,我们的方法在没有足够可靠关键点的场景(鼓,热狗,麦克风,船,scan48和scan104)中优于C+n。C+r比C+n有更好的然而,受限于姿态初始化的不 足 , C+r 在 一 些 具 有 挑 战 性 的 场 景 ( scan48 和scan104)中无法产生与我们相同的性能。对于其他场景,我们的方法产生了令人满意的结果与COLMAP为基础的NeRF方法。如图3所示,我们还显示了可视化比较。我们的方法在那些具有挑战性的场景中优于C+n,同时在具有足够关键点的常规场景中实现类似的结果这些具有挑战性的场景没有足够的关键点用于姿态估计,因此使得需要精确姿态作为输入的NeRF无法合成良好的结果。相反,我们的方法通过学习全局外观分布来联合优化姿势和辐射场,因此不依赖于纹理或关键点。此外,为了进一步证明我们的架构在注意,IDR方法需要图像掩模和噪声相机初始化,而我们的方法不需要它们。我们遵循相同的设置[44]第四十四话↓旋转(度)↓跨↓旋转(度)↓跨椅子0.1190.0060.3630.018鼓9.9850.5220.2040.010热狗0.5420.0242.3490.122乐高7.4920.3320.4300.023Mic0.7460.0471.8650.031船0.1910.0103.7210.176表3. 在Synthetic-NeRF [31]数据集上比较COLMAP和我们的我们报告了训练集上的平均相机旋转差(Rot)和平移差(Trans)。在每个场景的49个训练图像上联合优化模型和相机外函数我们报告在整个图像上和掩模内计算的PSNR,这是与IDR相同的评估协议。定性和定量结果见表1。图2和图4。可以看出,我们的基于体绘制的方法产生更自然的图像,而IDR产生具有更多伪影和更少精细细节的结果。相机姿态比较我们评估了Synthetic-NeRF数据集上的相机姿态估计的准确性,该数据集包含几个具有重复图案或较少纹理的相对具有挑战性的场景。COLMAP 的 相 机 模 型 是 具 有 共 享 内 在 函 数 的SIMPLE PINHOLE,f = 1111。111,cx = 400,cy= 400。对于COLMAP,图像大小为800 800,数字是108,而对于在我们的方法中,输入图像大小为400 - 400,数目为100。我们注意到,COLMAP产生更多的输入图像更准确率估计。在选项卡中。3、我们报道使用ATE工具箱[63]计算的训练集上的平均平移和旋转差异。我们的方法在具有较少纹理和重复图案的鼓和乐高场景上执行COLMAP [44然而,在仍然包含足够可 靠 的 关 键 点 的 其 他 场 景 上 , 我 们 的 方 法 不 如COLMAP准确。5.2. 消融研究在选项卡中。4和图5,我们展示了我们模型的不同组成部分的消融研究我们将对抗训练、反演网络和光度损失相结合的完整架构实现了最佳性能。在没有对抗性损失或反演网络的情况下,模型不能学习正确的几何形状,如深度图所示;在没有光度损失的情况下,该模型只能得到粗略的辐射场。在选项卡中。在图5和图6中,我们分析了不同的优化方案。我们将A相和B相分别表示为A和B。我们采用的迭代优化方案6359Adver Inver照片↑PSNR ↓旋转(度)↓转换中国19.31 108.22 2.53中国13.82 132.85 3.05✓ ✓ 20.60 5.91 0.24✓ 31.30 0.36 0.02表4. 消融研究。我们报告了完整模型(最后一行)和三种配置的PSNR,相机旋转差(Rot)和平移差(Trans),分别去除了去除对抗性损失和逆网络防止模型学习合理的相机姿势。删除光度损失会阻止模型获得准确的相机姿势。图5. 消融研究。我们将四种不同配置的新颖视图RGB图像和深度图可视化。进一步帮助克服局部最小值。6. 讨论和结论讨论首先,我们的方法不依赖于相机姿态初始化,但它确实需要一个合理的相机姿态采样分布。对于不同的数据集,我们依赖于一个相机采样分布不远的真实分布,以减轻困难的辐射场和姿态估计。这可以通过自动学习底层姿势采样空间来一个有前途的未来方向将是以端到端的方式组合全局外观分布优化(我们的方法)和这种组合潜在地保留了我们对具有挑战性的情况的能力,并且在没有准确分布先验的情况下放松到更一般其次,联合优化相机姿势和场景表示是一项具有挑战性的任务,并选择落入局部最小值。虽然在真实数据集中,如果存在准确的相机姿势,则我们实现了与NeRF我们优化的相机姿势仍然不那么准确A,B A,AB...AB,B ↑PSNR ↓旋转(度)↓转换✓29.23 0.592 0.03431.30 0.363 0.018表5. 优化方案分析我们比较两种优化方案:'A,B'和'A,AB... AB、B '。额外的迭代优化步骤使我们的模型能够实现更好的结果。.图6. 优化方案分析在左边,我们可视化了从两个优化方案获得的图像的xy平面上的相机姿态的投影。在右边,我们显示了圆圈相机区域中视图的深度图和其中的两个详细部分(黄色和紫色插图)。模式A AB... AB,B’实现比‘A,B’高得多的图像质量和相机姿态精度。在图6中,迭代优化方案沿着边缘获得更精细的几何形状,并且估计的相机姿态更接近地面实况相机姿态对齐。这些结果表明,迭代学习策略可以当存在足够数量的可靠关键点时,使用COLMAP。这可能是由于我们的反演网络,它将图像映射到相机姿势,只能采用有限大小的图像补丁来提高计算效率。这可以通过重要性采样来修复。结论我们提出了GNeRF,一个基于GAN的框架来重建神经辐射场,并在相机姿态完全未知和场景条件复杂时估计相机姿态。我们的框架是完全可区分和端到端可训练的。具体来说,我们的第一阶段使基于GAN的联合优化的3D表示和相机姿势,我们的混合和迭代方案通过交错的第一和第二阶段将进一步完善的结果鲁棒。大量的实验证明了我们的方法的有效性令人印象深刻的是,我们的方法已经证明了有希望的结果,在那些场景重复的模式,甚至更少的纹理,这被认为是非常具有挑战性的。我们相信我们的方法是使用更少的人为先验实现更一般的神经场景建模目标的关键一步。确认我们要感谢匿名审稿人的详细和建设性的意见,这些意见有助于完善论文。本工作得到了国家自然科学基金项目(61976138,61977047)、国家重点研发计划(2018 YFB 2100500)、国家科技攻关计划(2015F0203 -000-06)和上海医学工程院(2019-01-07- 00-01-E00003)的支持。6360引用[1] 亚 历 克 斯 · 安 德 鲁 计 算 机 视 觉 中 的 多 视 图 几 何 。Kybernetes,2001年。2[2] Vassileios Balntas、Shuda Li和Victor Prisacariu。Reloc-net:使用神经网络的连续度量学习重新定位。欧洲计算机视觉会议(ECCV),2018年。2[3] Samarth Brahmbhatt,Jinwei Gu,Kihwan Kim,JamesHays,and Jan Kautz.用于相机定位的地图的几何感知学习在IEEE计算机视觉和模式识别会议(CVPR),2018。2[4] Eric R Chan,Marco Monteiro,Petr Kellnhofer,JiajunWu,and Gordon Wetzstein. pi-gan:周期性隐式生成对抗网络用于3D感知图像合成。在IEEE计算机视觉和模式识别会议(CVPR),2021年。二、三[5] Anpei Chen,Ruiyang Liu,Ling Xie,and Jingyi Yu.一个 自 由 的 观 点 与 动 态 风 格 的 肖 像 生 成 器 。 ACMTransactions on Graphics,2021。2[6] Anpei Chen , Zexiang Xu , Fuqiang Zhao , XiaoshuaiZhang,Fanbo Xiang,Jingyi Yu,and Hao Su.Mvsnerf:Fast generalizable radiance field reconstruction from multi-view stereo.arXiv预印本arXiv:2103.15595,2021。1[7] Christopher B Choy , Danfei Xu , JunYoung Gwak ,Kevin Chen,and Silvio Savarese. 3d-r2 n2:用于单视图和多视图3D对象重建的统一方法。在2016年欧洲计算机视觉会议(ECCV)上。2[8] Ondrej Chum、James Philbin、Josef Sivic、Michael Isard和Andrew Zisserman。总召回:自动查询扩展与生成特征模型的对象检索。IEEE/CVF International Conferenceon Computer Vision(ICCV),2007年。2[9] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. 在国际会议上学习表示(ICLR),2021年。5[10] Haoqiang Fan,Hao Su,and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议(CVPR),2017年。2[11] Olivier Faugeras , Quang-Tuan Luong , and Theo Pa-padopoulo. 多个图像的几何形状:控制一个场景的多个图像的形成的定律及其一些应用。MIT Press,2001. 2[12] Martin A Fischler和Robert C Bolles。随机样本一致性:一个范例模型拟合与应用程序的图像分析和自动制图。ACM通讯,1981年。2[13] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格r-cnn。在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,2019年。2[14] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio生成性对抗网。神经信息处理系统年会(NeurIPS),2014年。3[15] Philipp Henzler,Niloy J Mitra,and Tobias Ritschel.逃离柏拉图的洞穴:对抗渲染的3D形状。IEEE/CVF计算机视觉国际会议(ICCV),2019年。2[16] Arnold Irschara、Christopher Zach、Jan-Michael Frahm和Horst Bischof。从运动恢复结构点云到快速位置识别。在IEEE计算机视觉和模式识别会议(CVPR)中,2009年。2[17] Rasmus Jensen、Anders Dahl、George Vogiatzis、EnginTola和Henrik Aanæs。大比例尺多视立体视觉评价。在IEEE计算机视觉和模式识别会议(CVPR),2014。五、六、七[18] 张家凯、刘新航、叶欣怡、赵富强、张延顺、吴敏烨、张英亮、徐澜、于静怡。使用分层神经表示的可编辑自由视点视频。ACMTransactions on Graphics,2021。2[19] James T Kajiya和Brian P Von Herzen。光线跟踪体积密度。ACM Transactions on Graphics,1984。3[20] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE计算机视觉和模式识别会议(CVPR),2019年。2[21] 亚历克斯·肯德尔和罗伯托·西波拉使用深度学习进行相机姿态回归的几何损失函数。在IEEE计算机视觉和模式识别会议(CVPR),2017年。2[22] AlexKendallMatthewGrimes 和 RobertoCipollaPosenet:用于实时6-dof相机重新定位的卷积网络。IEEE/CVF国际计算机视觉会议(ICCV),2015年。2[23] Diederik P Kingma和Jimmy Ba。 Adam:随机最佳化的方法。国际学习代表大会(ICLR),2015年。5[24] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。在国际学习代表会议(ICLR),2013年。5[25] Zakaria Laskar ,Iaroslav Melekhov,Surya Kalia,andJuho Kannala.通过使用卷积神经网络计算成对相对姿态的相机重新定位。在2017年IEEE计算机视觉研讨会国际会议(ICCVW)上2[26] Lingjie Liu , Jiatao Gu , Kyaw Zaw Lin , Tat-SengChua,and Christian Theobalt. 神经稀疏体素场。 在神经信息处理系统(NeurIPS)上,2020年。1[27] Shichen Liu,Shunsuke Saito,Weikai Chen,and Hao Li.学习在没有3d监督的情况下推断隐含
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功