STaR：神经渲染实现自监督动态场景跟踪与重建

22 浏览量更新于2024-01-22 收藏 1.94MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13144STaR：使用神经渲染对运动中的刚性对象进行自监督跟踪和重建华盛顿大学赵阳Lv Tanner Schmidt Steven Lovegrove FacebookReality Labs研究https://wentaoyuan.github.io/star图1：我们的方法概述。给定动态场景的多视图RGB视频，STaR在没有任何人工注释的情况下学习静态和动态场景组件的解耦3D表示，这使得它能够在新的时间以真实感的方式从新的视点合成场景，甚至使用新的轨迹动画场景。摘要我们提出了STaR，一种新的方法，执行自监督跟踪和重建的动态场景与刚性运动从多视图RGB视频没有任何手动注释。最近的工作已经表明，神经网络在将场景的许多视图压缩到学习函数中的任务中是令人惊讶地有效的，该学习函数经由体绘制从观察光线映射到观察到的辐射值。不幸的是，一旦场景中的任何对象移动，这些方法就失去了所有的预测能力。在这项工作中，我们明确建模刚性运动的辐射场的神经表示的背景我们表明，没有任何额外的人指定的监督，我们可以重建一个动态场景与一个单一的刚性物体在运动中，同时分解成它的两个组成部分，并编码每个与自己的神经元。* 作者在FRL Research实习时所做的法定代表人我们通过联合优化两个神经辐射场的参数和一组刚性姿势来实现这一点在合成和真实世界的数据集上，我们证明了我们的方法可以渲染照片级真实感的新颖视图，其中nov-novel在空间和时间轴上测量。我们的因子表示还可以实现看不见的对象运动的动画。1. 介绍近年来，利用多层感知器（MLP）作为隐式表示来编码场景的空间变化属性的新颖场景表示出现了爆炸式增长。虽然这些隐式表示通过随机梯度下降进行了优化，但它们并不是传统意义上的“学习”。相反，他们利用MLP作为场景内容的压缩表示它们可以作为传统表示（例如，显式体积网格）的替代品，但可以13145自适应地在场景上分配其有限的容量，以实现高保真场景表示。代表性示例包括DeepSDF [16]，场景表示网络[20]和神经辐射场（NeRF）[13]。在所有这些表示中，NeRF [13]及其变体[8，24，11]在仅从稀疏图像集逼真地重建场景的能力方面显示出巨大的潜力然而，这些作品假设场景是静态的，或者至少场景的动态内容是无趣的，并且可以像Martin-Brualla等人的作品中那样被丢弃。当场景中的对象移动时，这些方法不再能够正确地渲染新视图。通过每帧指定一个NeRF体积或通过将输入扩展到四维（包括时间），可以表示时变场景前者是不必要的昂贵，并且两者都不能用于以新颖的姿势渲染对象（或完全删除它），因为它们对场景没有对象级别的理解。在这项工作中，我们的目标是学习一个可解释的和可编辑的动态场景的表示，通过简单地从多个角度观察一个运动中的对象。作为应对这一挑战的初步努力，我们从一个简化的设置开始我们通过呈现具有经由静态和动态神经辐射场的组合定义的密度和辐射的组合神经辐射场来在此模型下，可以准确预测视频中的所有观察的唯一方法是通过将场景分割成两个体积并正确估计每个帧中对象的姿态。为了实现这一目标，我们的论文提供了两个主要的技术贡献。首先，我们提出了第一个基于自监督神经渲染的表示，可以同时重建一个刚性的运动场景，以及它的背景，从视频。我们的方法使照片真实感的时空新颖的视图渲染以及新颖的场景动画。其次，我们提出了一种优化方案，可以有效地解决模糊性和局部最优值在训练过程中。我们的实验表明，它是可能的，以恢复分割的静态和动态的内容，以及运动轨迹没有任何监督以外的多视图RGB观察。与NeRF及其扩展相比，我们的方法在复杂的合成场景和真实世界场景中实现了更逼真的重建。此外，我们的因子分解表示可以被编辑以将对象定位在训练期间从未观察到的新位置，这在没有3D地面实况或监督的情况下没有现有方法可以实现。2. 相关工作我们的工作受到启发，并与最近的进展，学习为基础的表示，特别是在新的差异，从图像中进行可参考的渲染，例如NeRF [13]及其变体[11，24]。然而，没有先前的工作已经成功地证明了真实感重建和理解的动态场景，只使用真实世界的自然图像。我们相信，我们是第一个使用神经渲染实现动态场景的自我监督跟踪和重建的神经3D表示最近，使用MLP的深度3D表示已经证明了学习高质量几何和外观表示的有前途的能力。现有的工作使用MLP将场景表示为连续的3D函数，其从场景坐标映射到场景属性，例如符号距离函数（SDF）[16]、占用率[12]、占用流[14]、体积密度和辐射率[13]，或者可以进一步解码为像素外观的隐式特征[20几种方法通过将这种深度3D表示与可微射线行进和一些手动输入（如对象掩模）配对来显示高质量的重建结果[15] [22]。Sitzmann等人[19] Tanciket al. [21]表明神经表示可以压缩视频，但尚未证明其重建动态3D场景的能力。NeRF [13]证明了可以仅从稀疏集学习连续5D体积渲染函数实现了现有技术的新颖视图合成结果，而不依赖于任何手动指定的输入。最近的工作已经将这种表示扩展到在不同光照条件下使用Web图像进行训练[11]，使用分层空间潜在先验[8]，或者使用可以支持生成建模的潜在嵌入[18]。然而，现有的工作都假设输入场景坐标是准时不变的，而我们假设场景是刚性运动的。在所有这些工作中，只有NeRF-W[11]考虑包含动态信息的现实世界。除了场景坐标之外，他们还结合了一个潜在的嵌入来模拟网络图像的光度变化，并将移动场景视为瞬态对象。该方法抛弃了这些目标，只重建背景场景，而我们可以同时重建动态目标并恢复其轨迹。动态场景新颖视图合成最近，一些系统使用多视图视频展示了动态场景中的新颖视图合成，其中具有基于神经图像的渲染表示[2]、神经体渲染[9]或多球形图像表示[3]。然而，这些方法只能支持动态视频回放，它们不能理解场景动态，因此不能用于交互式动画。Yoon等人[23]提出了一种方法，该方法混合了背景区域中的多视图深度估计、前景中的学习的单目深度估计以及卷积网络。他们展示了新颖的视图合成以及动画。然而，该系统需要精确的手动规格-13146θθi=1i=1θii作为训练和渲染的一部分的前景掩模。这是一个明显的缺点，特别是当这是视频输入。相比之下，我们证明了我们的方法可以实现完全自监督的背景和前景的同时重建，并证明它可以使用真实世界的视频实现高质量的重建。其中r（s）= o+sd是从相机原点o开始的射线上的点，深度为s。可以通过沿着下式的累积辐射率的积分来获得pixelC（r）的颜色雷河我们可以使用积分来数值估计积分：中国动态场景中的自监督学习那里使用视频的自我监督学习方法也在激增，特别是在自动驾驶领域，C（r）=i=1Ti αici，（2）Σi−1包括3D对象检测[1]，联合相机姿势和深度估计[6，4]，运动分割[17，10]其中Ti=exp−j=1σj（sj+1−sj）<$（3）[7 ]《易经》云：“道”。由于自动驾驶领域的传感器限制，这些方法集中在单目视频或窄基线立体视频，其中视点变化很小。因此，这些方法使用2D或2.5D表示，这限制了它们以照片级真实感的方式渲染或动画场景的能力。相比之下，我们的方法建立了一个隐式的3D表示，可以photorealistic渲染和动画。我们展示了我们的模型在自然宽基线多视图视频上的应用，这表明了在虚拟现实和增强现实中的应用前景3. 方法我们介绍STaR，一个微分渲染为基础的框架，自我监督的跟踪和重建刚性移动的物体和场景。STaR仅对在新环境中刚性运动的未知物体进行多视角被动视频观测，就可以在没有任何人工注释的情况下，同步重建物体的3D模型（包括几何形状和外观），并跟踪其相对于标准帧的6DoF运动。STaR可以实现原始图像的静态和动态组件的高质量新颖视点渲染，且α i= 1−exp（−σ i（s i+1− s i））。（四）这里，{s i}N是从近边界s n到远边界s f的一组样本，并且σ i= σ（r（s i））、ci= c（r（s i））是沿着射线的样本点r（s i）处的体积密度和颜色的评估。等式（2）只能表示时不变场景。与使用MLP对时间相关函数建模的方法类似[19]，使用NeRF表示动态场景的直接扩展是将时间t∈R连接到隐函数Fθ的输入为Ft：r（s），d，t→σ，c（5）然而，这种时间相关的扩展既不能使用真实世界的图像精确地重建复杂的时变场景，也不能提供动态场景分解来支持动画，正如我们将在第二节中展示的那样。四、相反，我们使用两个时不变的隐式体积模型来表示场景：静态组件的静态NeRFFS和动态NeRFFD在任何时间独立地绘制初始场景，并且还可以利用新颖的对象轨迹进行动画和重新渲染。我们将首先描述STaR的3D表示θ 动态组件。FS：r（si），d→σS，cS（六）它由一个静止的NeRF和一个刚性运动的NeRFFD：r（si），d，n（t）→σD，cD（七）模型接下来，我们将详细介绍如何在多视图RGB视频上优化STaR，具体包括在两个神经辐射场之间的一组3D变换、正则化损失函数以及适用于任意长度视频的顺序训练方案上的优化。3.1. STaR作为动态神经辐射场NeRF [13]使用参数为θ的MLP将场景表示为连续函数Fθθi i这里，Tow（t）∈SE（3）是定义从时间t到时间0的世界坐标中的变换Tow（t）=exp（Tow（t））∈SE（3）的时间依赖性刚性姿态的集合，其将动态体积和静态体积在时间t下对齐。单一时不变标准框架为了计算像素在特定时间t的颜色，我们使用Alpha（t）和Alpha混合将变换后的动态NeRF与静态NeRF组合。具体而言，鉴于Fθ：r（s），d →σ，c（1）13147一组样本{si}N，我们评估静态密度和点r（si）处的颜色σS，cS，以及dy-我我该方法将三维场景坐标r（s）∈R3映射到变换点处的视点动态密度和颜色σD，cD我我方向d∈S2到体积密度σ∈R和颜色c∈Tow（t）r（s i）. 我们推导出组成辐射场13148i=1我我我我我我图2：STaR的架构示意图。为了通过合成的动态体积投射射线，我们在原始射线以及对象的规范参考系中的等效射线上采样点。样本被传递到相应的神经网络，并通过加法将所得的辐射率和密度值（现在无坐标）组合在一起。而精细模型使用重要性采样，其中重要性权重为合成密度σS+σDJ J这两个模型都是粗糙的这确保了相同的采样间隔{si}N对于静态和动态NeRF，(a) t0时的场景（b）t(c)静态体积（d）动态体积图3：显示的体积组成这使得能够进行（8）中所示的场合成虽然我们选择NeRF作为底层3D表示是因为它的简单性和出色的性能，但值得注意的是，STaR作为可微分渲染器通常可以将任何3D静态场景表示子化为共享相同输入和输出映射的Fθ3.2. 优化STaR在培训过程中，我们优化了以下目标两卷。（a）和（b）示出了在两个不同位置观察到的2D场景。Σ输入时间t0和t1从静态的角度来看。为了渲染图像L=<$C<$c（r）−C（r）<$2−<$C<$f（r）−C（r）<$2（十一）在t0和t1观察，我们将投射相同的射线通过静态体积（如（c）所示），但两条不同的射线通过动态卷（如（d）所示），它们是r∈RCIMM+β.ΣH（αS）+ H（αD）+ H（αS，αD）（十二）静态光线基于动态对象我我我i=1根据（2），中国C（r）=i=1Ti（αScS+αDcD）（8）Σi−1（11 ）中的第一项是MSE 损失，其中Cc （r）和Cf（r）分别是由粗略模型和精细模型渲染的像素颜色（RGB），C（r）是地面真值颜色，R是批中的射线集合。注意C（r）是唯一的监督源。给定有限数量的摄像机视图，最小化（11）中的目标可能会受到局部OP的影响其中Ti= exp<$−（σS+σD）（sj+1−sj）<$ （9）J Jj=1蒂玛。我们在（12）中引入正则化项，可以更好地收敛且α S= 1−exp（−σ S（s i+1− s i））。（十）i i熵正则化（12）正则化熵H我们严格组成的NeRF表示从几何和外观上简化了刚性运动，的渲染透明度值，并对所有在一个批次中沿着所有光线采样它由两部分组成第一部分H（αS）+H（αD）鼓励了transaren-来完全控制环境的动态变化我我如SEC所示。4.2，这使得能够实现诸如重新移动动态对象和动画化新轨迹的应用，这些应用不能经由简单的时变模型来实现cies接近0或1，其中H（αS）=αSlogαS+（1−αS）log（1−αS）（13）H（αD）也是如此计算的。这有助于减少架构我们使用与[13]iS D相同的MLPFθ模型静态和动态NeRF。我们还使用位置编码与相同的带宽的输入和立体的体积采样策略。我们使用两个独立的在卷中的future。第二部分H（αi，αi）预-将静态和动态体积从具有大的13149密度，这有助于模型获得较少的纠缠分解。具体地说，用于表示静态和动态的粗略和精细MLP模型NeRFs。粗模型使用沿H（αS，αD）=.ΣαSlogαS+αDlogαD（αS+αD）（14）I I I I I I I I13150θ|1|1θ|R|θt=1我我我我我静态和动态体积。刚性位姿优化我们在SE（3）的李代数上使用流形优化[5]来优化一组位姿参数<$（t）∈SE（3）。在优化过程中，我们将时间t处从动态体积到静态体积的变换表示为迭代更新exp（n+n（t）），其中n∈se（3）是初始化在每次迭代开始时为零。我们可以使用变换点exp（n+n（t））p的梯度和可以在向前传递中从n（t）计算的分析雅可比矩阵来计算n的梯度（参见第补充完整表格的F）。然后，我们更新m（t）如：（t）=a+（t）。直观地，在每次迭代中，我们将SE（3）流形投影到当前姿态估计值ω（t）周围的R6，并在该投影的6D坐标中采取梯度步骤请注意，我们使用不同的学习率a对于姿态参数，aθ对于NeRF参数。外观初始化我们观察到由于几何、外观和姿态的纠缠，在STaR的优化中存在许多局部最优，这需要仔细初始化。为了初始化，我们首先训练一个静态NeRFFS接着（2）仅使用来自第一帧的图像当平均MSE为表1：超参数和训练时间。高级质量（见第4.1），但也动画的一个虚构的轨迹在一个逼真的方式（见节。4.2）。我们在PyTorch中实现STar。我们总结了Tab中使用的超参数集和训练时间/GPU。1，其包括批量大小B、熵正则化权重β、NeRF和姿态参数的学习率αθ、αω、用于外观初始化和顺序训练的MSE阈值m1、m2以及自举帧的数量k0。我们使用ADAM优化目标。在[13]中，我们每250K步以衰减率γ指数衰减αθ，但不衰减αθ。我们创建了两个合成和一个真实世界的多视图RGB视频来评估STaR。这些视频具有高度挑战性，包含复杂的几何形状、大对象运动、显著的视图依赖和时间依赖视觉效果，例如镜面高光和阴影，所有这些都不存在于任何现有的公共数据集中。请参阅补充材料了解更多详情。• 合成数据：我们渲染了两个合成视频-优良的模型1r∈R1 在所有图像上的<$C<$f（r）−C（r）ing搅拌机：灯和桌子，一个15帧的视频显示从第一帧R1开始的时间小于阈值m1。注意在这个阶段，静态体积可以（并且很可能）包含这一初始化可以从动态对象中提取信息，但是我们观察到，该初始化为模型提供了几何形状和外观的良好初始估计，从该初始估计开始解开场景。顺序训练我们以顺序方式训练STaR，可以处理任意长度的视频序列。在外观初始化之后，在视频的前k个帧上联合优化静态NeRFFS、动态NeRFFD和姿态参数{k}kk设置为k0初始时，i增加，当一把椅子从书房的书桌旁拉开，这是一个20帧的视频，显示了一个花瓶滑过厨房里反光的早餐吧。运动是通过修改一个物体在一个photorealistic场景中的姿态来创建的我们保持人类设计师所产生的材料和照明不变。这两个视频有8固定用于培训的摄像机视图和1个用于评估的外展视图，图像分辨率为400 ×400。•真实世界的数据：我们捕获了一个多视图视频，移动-香蕉，在真正的自然室内环境。在在一个场景中，一个移动的香蕉玩具被放在一个机器人吸尘器上，它扫过一个客厅。数据包括精细模型1Kr∈Rk <$C<$f（r）−C（r）在所有的射线上，17个时间同步的视频，共792个项目，多孔框架。为了证明我们的算法相对前k帧Rk低于阈值m2。对于t≤k0，初始化为恒等式，并且对于t> k0，当添加帧k时，将（k）设置为前一帧（k-1）的姿态节中4，我们表明，外观初始化和顺序训练对于STaR的优化至关重要4. 实验我们的实验证明，STaR能够在具有挑战性的合成以及真实世界场景中解耦动态场景的静态和动态分量（参见图5）。因此，STaR不仅能够从新颖的视角和时间合成动态场景，对于大运动，我们将视频均匀地子采样为38个关键帧，并使用16个视图进行训练，1个保留视图进行评估。图像分辨率为676 ×507。4.1. 4D新视图合成评价我们首先评估我们的方法，其能力photorealisticly渲染动态场景从一个新的4D视图（3D相机姿势+时间）。更具体地说，我们从一个新的摄像机视图渲染原始视频的4倍我们将我们的方法与以下基线进行比较（详细架构见附录）：其中αS=αS/（αS+αD）是归一化透明度。序列Bβ aθγ一个m1m2k0 GPU 时间该项由总透明度αS+αD加权，因此台灯和书桌32002e-3 5e-4 0.5 5e-5 4e-4 2e-45212hr一个点可以是空的，但不能在两个点中都被厨房桌子32002e-3 5e-4 0.5 5e-5 5e-4 5e-45224小时移动香蕉 108162e-3 5e-4 0.8 5e-4 2e-3 1e-35855小时13151顺序灯和桌子（合成）厨房桌子（合成）移动香蕉（真实）度量PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓NeRF [13]22.090.8730.18220.390.6570.37424.480.7770.261NeRF时间25.860.8730.10121.950.6860.31924.820.7760.259NeRF-W [11]27.680.9310.04827.990.7490.22027.260.7910.257STaR（我们的）32.950.9570.02329.510.7670.19527.190.8030.209顺序灯和桌子（合成）厨房桌子（合成）移动香蕉（真实）度量PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓NeRF [13]25.820.9210.09221.020.6670.35325.540.7930.235NeRF时间30.000.9250.06422.560.6950.30925.510.7900.244NeRF-W [11]34.120.9710.02529.250.7600.20327.680.8010.243STaR（我们的）34.570.9670.01829.750.7710.19327.440.8120.198顺序灯和桌子（合成）厨房桌子（合成）移动香蕉（真实）度量PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓NeRF [13]14.330.4980.46410.830.3390.31916.870.3360.567NeRF时间18.480.5550.21213.800.4690.24320.680.4770.341NeRF-W [11]19.040.5970.14215.540.4900.23024.710.6870.298STaR（我们的）28.110.9030.02723.970.8370.03625.140.6870.228表2：我们的方法与运动的照片级真实感插值中的基线的定量比较。这些模型的评估基于从固定的新颖视点拍摄的原始视频的4倍慢动作合成数据后面跟着符号（合成），真实世界数据标记为（真实）。我们使用地面实况边界框作为参考，分别评估静态和动态区域• NeRF [13]：最初的NeRF假设场景是PSNR↑SSIM↑LPIPS↓静态. 这个基线不能正确地重建迪-无初始化 *20.780.8200.188namic对象，但仍然可以提供对qual的引用无顺序25.980.9250.079在静态的场景部分。没有熵32.880.9590.032• NeRF时间：这个模型需要位置编码的时间完整模型32.950.9570.023作为额外的输入，从而创建4D表示使用类似于[19，21]的策略。• NeRF-W [11]：该模型采用了Martin-Brualla等人提出的附加潜在代码输入。[11 ]第10段。我们没有像[11]中的NeRF-W那样包括外观嵌入，因为我们的视频数据不包含强烈的外观变化。这是最相关的现有工作，可以处理基于NeRF的动态变化我们根据[13]中的标准指标在照片真实性方面评估了新视图合成质量：所有测试帧的平均PSNR、SSIM和LPIPS [25由于我们的基线不提供单独的静态和动态渲染，我们使用对象边界框将图像划分为静态背景和动态前景（见图1）。4）. 我们计算原始图像，静态背景和动态前景的度量图4：我们的评估协议的可视化说明（从左到右：组合，静态，动态）。表3：第2.2节中讨论的优化策略的消融研究3.2关于台灯和书桌的顺序。无初始化删除外观初始化。没有顺序列车超过整个轮胎视频，而不是顺序。没有熵使用没有熵正则化的MSE损失。* 我们使用更高的MSE阈值m2= 0。001由于模型的收敛困难。结果选项卡。图2显示了与所有未见过的新视图的基线的比较。总的来说，我们的方法在所有基线上，在使用合成和真实世界数据的所有分解区域中提供了显著更好的在实际数据中，NeRF-time无法很好地重建动态区域，并且不能在静态区域中提供与NeRF一样好的重建。相比之下，我们的方法可以很好地处理这两个区域。NeRF-W在像素精度方面可以提供有竞争力的重建质量，但在感知度量LPIPS方面仍然明显优于它这证明了使用因式分解表示的好处。图5分别显示了合成数据和真实世界数据与所有基线相比，我们的方法是唯一的方法，可以重建静态背景和动态对象的细节从新的视图。我们鼓励读者观看演示视频，该视频最好地展示了在新颖的时空视图上渲染的感知质量。动态组合物静态13152关键帧插值帧图5：在合成和真实世界数据上的4D新视图合成的定性比较。我们比较合成的新观点的动态场景的关键帧共享相同的时间戳作为训练图像，并从时间戳不包括在训练（即时空新观点）的内插帧。关键帧内插帧关键帧内插帧NeRF-W [11]明星地面实况NeRF-W[11]NeRF时间地面实况明星NeRF时间13153图6：合成新的轨迹。我们可视化动态对象沿着训练期间看不到的假想轨迹移动的合成新视图（最右列：蓝色的训练轨迹和红色的新轨迹）No apr init No sequential No entropy完整模型图7：我们的完整模型与消融模型相比所学到的分解的视觉比较。消融我们对我们的优化策略进行了消融研究，在第二节中进行了讨论3.2使用台灯和书桌的顺序。见表中的定量结果。图3和图7中的定性结果。结果表明，我们的正则化和顺序训练的完整模型表现最好。从数量上看，我们的模型在没有外观初始化阶段或顺序训练策略的情况下表现出显着更差的性能。通过对体密度的熵进行额外的正则化，我们可以进一步改善结果。图7突出显示了可能未在定量数字中适当反映的显著感知差异。4.2. 动画轨迹上的渲染我们对运动和外观的因子化表示允许STaR合成动画的新颖视图在训练过程中没有看到的动态对象的列图6示出了与合成和真实世界场景中的训练轨迹显著不同的轨迹的合成新颖视图。值得注意的是，我们所知道的现有方法都不能合成与观察到的数据如此不同的运动，并且在没有任何3D地面实况或监督的情况下以光致变色的方式重新渲染它，包括NeRF-time和NeRF-W，其只能从观察到的轨迹内插对象姿态。5. 结论我们的方法展示了一个新的方向重建动态场景，只使用视频观察。这里应当注意，该系统是概念的证明，并且还没有完全解决将动态场景完全分解成它们的组成部分的问题。首先，我们假设只有一个物体在运动。将该模型扩展到多个对象是微不足道的，但在先验未知的情况下估计移动对象的数量是进一步研究的一个有趣方向。其次，我们不能在所提出的模型中表示非刚性运动。这可能可以通过将我们的见解与Niemeyer等人[14]关于变形神经表征的正交工作相最后，我们通过将所有运动分解为显式刚性变换来有效地从两个NeRF体积中去除几何动力学，但是由于每个体积对另一个的照明条件的相互影响，我们不能对外观做同样的事情。这可以通过进一步将外观因素纳入材料和照明条件来解决，但这些探索超出了本文的范围，我们将其留给未来的工作。动态组合物静态13154引用[1] Deniz Beker，Hiroharu Kato ，Mihai Adrian Morariu，Takahiro Ando ， Toru Matsuoka ， Wadim Kehl ， andAdrien Gaidon.单目可微分绘制的自监督三维目标检测。在2020年欧洲计算机视觉会议[2] Mojtaba Bemana ， Karol Myszkowski ， Hans-PeterSeidel，and Tobias Ritschel. X场：隐式神经视图，光和时间图像插值。 ACM Transactions on Graph-ics（TOG），39（6），2020。[3] Michael Broxton，John Flynn，Ryan Overbeck，DanielErickson ， Peter Hedman ， Matthew DuVall ， JasonDourgarian ， Jay Busch ， Matt Whalen ， and PaulDebevec.具有分层网格表示的沉浸式ACM Trans-actionson Graphics（TOG），39（4）：86：1[4] 陈宇华，科迪莉亚·施密德，克里斯蒂安·斯明奇斯-埃斯库.单目视频中具有几何约束的自监督学习：连接流，深度和相机。在IEEE/CVF计算机视觉国际会议上，第7063-7072页[5] 丹尼尔·加贝。微分流形上可微函数的极小化。Journalof Optimization Theory and Applications，37（2）：177[6] Cle mentGodard ， OisinMacAodha ， MichaelFirman 和Gabriel J Brostow。深入研究自我监督的单目深度估计。在IEEE/CVF计算机视觉国际会议上，第3828-3838页[7] 许俊华和斯特凡·罗斯。自监督单目场景流量估计。在IEEE/CVF计算机视觉和模式识别会议上，第7396-7405页[8] Lingjie Liu ， Jiatao Gu ， Kyaw Zaw Lin ， Tat-SengChua，and Christian Theobalt.神经稀疏体素场。神经信息处理系统的进展，33，2020。[9] Stephen Lombardi ， Tomas Simon ， Jason Saragih ，Gabriel Schwartz，Andreas Lehrmann，and Yaser Sheikh.神经卷：从图像中学习动态可渲染卷。 ACMTransactions on Graphics（TOG），38（4）：1[10] Chenxu Luo ， Zhenheng Yang ， Peng Wang ， YangWang，Wei Xu，Ram Nevatia，and Alan Yuille.每一个像素计数++：几何和运动的联合学习与3D整体理解。IEEEtransactionsonpatternanalysisandmachineintelligence，42（10）：2624[11] 里卡多·马丁-布鲁阿拉、诺哈·拉德万、迈赫迪·SM·萨贾迪、乔纳森·T·巴伦、阿列克谢·多索维茨基和丹尼尔·达克沃斯。野外的神经辐射场：用于非受控照片采集的神经辐射场 .arXiv 预印本 arXiv ： 2008.02268 ，2020。[12] 拉尔斯·梅谢德，迈克尔·奥切斯勒，迈克尔·尼迈耶，塞巴斯蒂安 · 诺沃津，安德烈亚斯 · 盖格 .OccupationalNetworks：学习函数空间中的3D重建。在IEEE/CVF计算机视觉和模式识别会议上，第4460-4470页[13] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。第405-421页[14] Michael Niemeyer，Lars Mescheder，Michael Oechsle，and Andreas Geiger.占领流：学习粒子动力学的4d重建。在IEEE/CVF计算机视觉国际会议上，第5379-5389页[15] Michael Niemeyer，Lars Mescheder，Michael Oechsle，and Andreas Geiger.微分体积渲染：学习- ING隐式三维表示没有三维监督。在IEEE/CVF计算机视觉和模式识别会议上，第3504-3515页[16] 朴正俊、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf：学习连续符号距离函数的形状表示。在IEEE/CVF计算机视觉和模式识别会议上，第165-174页[17] Anurag Ranjan，Varun Jampani，Lukas Balles，KihwanKim，Deqing Sun，Jonas Wulff，and Michael J Black.竞争合作：深度、相机运动、光流和运动分割的联合无监督学习。在IEEE/CVF计算机视觉和模式识别会议上，第12240-12249页[18] Katja Schwarz ， Yiyi Liao ， Michael Niemeyer ， andAndreas Geiger. Graf：用于3D感知图像合成的生成辐射场。神经信息处理系统的进展，33，2020。[19] Vincent Sitzmann，Julien Martel，Alexander Bergman，David Lindell，and Gordon Wetzstein.具有周期激活功能的内隐神经表征。神经信息处理系统的进展，33，2020。[20] 西茨曼、迈克尔·佐尔霍·奥菲尔和戈登·韦茨坦。场景表示网络：连续3D结构感知神经场景表示。神经信息处理系统的进展，第1121-1132页，2019年[21] Matthew Tancik，Pratul P. Srinivasan，Ben Mildenhall，SaraFridovich-Keil ， NithinRaghavan ， UtkarshSinghal，Ravi Ra- mamoorthi，Jonathan T.Barron和RenNg。傅立叶特征让网络在低维域中学习高频函数。神经信息处理系统的进展，2020。[22] Lior Yariv、Yoni Kasten、Dror Moran、Meirav Galun、Matan Atzmon、Basri Ronen和Yaron Lipman。多视图神经表面重建的几何与外观分离方法。神经信息处理系统的进展，33，2020。[23] Jae Shin Yoon，Kihwan Kim，Orazio Gallo，Hyun SooPark和Jan Kautz。从单目相机合成具有全局相干深度的动态场景的新视图。在IEEE/CVF计算机视觉和模式识别会议上，第5336-5345页[24] Kai Zhang，Gernot Riegler，Noah Snavely，and VladlenKoltun. Nerf++：分析和改善神经辐射场。arXiv预印本arXiv：2010.07492，2020。[25] Richard Zhang ， Phillip Isola ， Alexei A Efros ， EliShechtman，and Oliver Wang.深度特征作为感知度量的不合理有效性。在IEEE/CVF计算机视觉和模式识别会议上，第586-595页

下载后可阅读完整内容，剩余1页未读，立即下载