连续深度视图合成的MINE方法及其在新颖视图合成中的优势

107 浏览量更新于2023-10-13 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12578MINE：Towards Continuous Depth MPI with NeRF for Novel View Synthesis李嘉欣1*，冯子健1*，佘琦1，丁恒辉1，王长虎1，李金熙21字节跳动2新加坡国立大学摘要在本文中，我们提出了MINE执行新的视图合成和深度估计，通过密集的三维重建，从一个单一的图像。我们的方法是一个连续的-通过引入NERF（Neural radiation fields），对多平面图像给定单个图像作为输入，MINE预测任意深度值处的4通道图像（RGB和体积密度），以联合重建相机截头体并填充oc。源图像编解码器可微渲染3D表示包含的内容。然后可以使用可微分渲染将重建和修复的平截头体容易地渲染成新颖的RGB或深度视图。在RealEstate10K、KITTI和Flowers光场上进行的大量实验表明，我们的MINE在新颖的视图合成方面大大优于最先进的技术我们也取得了有竞争力的结果，在深度估计iBims-1和NYU-v2没有注释的深度监督。我们的源代码可在www.example.com获得https://github.com/vincentfung13/MINE。1. 介绍交互式3D场景是实现类似于增强/虚拟现实的沉浸式用户体验的迷人方式。为了自动化或简化3D场景的创建，在从单个或多个图像的新颖视图合成上投入了越来越多的努力，该新颖视图合成使得能够根据用户的交互以任意相机姿态进行尽管其有用，但新颖的视图合成问题是具有挑战性的，因为它需要精确的几何形状理解，以及被遮挡的几何形状和纹理的修复。为了解决视图合成的问题，大多数现有的方法集中在设计的3D或2.5D表示的场景，和新的视图的绘制技术。一个简单的想法是执行运动恢复结构（SfM）[38，37]或单目/多视图深度估计[11，10，60，52]以恢复3D场景。不幸的是，这种幼稚的方法不足以获取准确的密集3D几何形状并填充场景的遮挡内容。因此，这导致失真和伪影*同等贡献。图1.概述我们提出的方法。在呈现的小说视图中。为了缓解这个问题，包括分层深度图像（LDI）[51，40]，多平面图像（MPI）[50]在内的更复杂的表示与深度网络一起使用，然而，2.5D方法通常遭受有限的分辨率来表示完整的3D场景。近年来，MPI [50]表示引起了人们的广泛关注。具体而言，它是一个深度网络，用同一场景的其他图像视图进行监督，以提升RGB图像。年龄到多个平面的RGB和阿尔法值。然后通过在平面上执行单应性扭曲和积分来渲染新视图。尽管MPI方法取得了成功，但它不能有效地表示连续的3D空间。它的深度分辨率受到离散平面数量的限制，因此MPI无法转换为其他3D表示，如网格，点云等。相比之下，神经辐射场（NeRF）[28]目前被提出使用多层感知器（MLP）从图像中恢复3D信息。MLP将3D位置和2D观看方向作为输入，以预测该查询位置处的RGB和体积占用密度。虽然NeRF产生高质量的3D结构和新颖的视图，但它必须按场景进行训练，即一个MLP仅表示一个场景。鉴于MPI [50]无法表示完整的3D空间，我们提出了MINE，将MPI推广到类似于NeRF [28]的连续3D表示。具体地，输入图像首先被馈送到编码器网络中以获得图像特征。解码器网络将这些源深度目标深度目标图像RGB任意3D位置的体源相机12579∈∈·X图像特征和任意深度作为输入以产生4通道，即RGB和体积密度值，平面正面平行于输入相机。如图所示。3.1中，我们的MINE可以有效地重建摄像机截头在全三维空间，因为平面深度是任意的。我们在SEC证明。3.5MPI [50]表示是我们方法的有限特例。我们的主要贡献是：• 从单个图像执行连续和遮挡修复的3D重建。• 我们的MINE是通过引入NeRF思想的MPI的连续深度概括。• 在室内和室外视图合成和深度估计方面明显优于现有的最先进的方法。2. 相关工作用于视图合成的显式3D表示。光场的早期作品[22，4，12]通过在给定一组输入图像的情况下interploting附近的视图来实现视图合成。最近的一项工作[46]，预测了整个光场从一个单一的图像。体积表示[21，39，47，18，15，43]和具有预测深度图的视图合成[31，55]也被深入研究。最近，分层表示，特别是分层深度图像（LDI）[40，51，41]和多平面图像（MPI）[47，61，27，45，50]，由于它们明确地对被遮挡内容进行建模的吸引人的特性而变得流行。MPI由固定深度的RGB-α图像的多个平面组成，其性能受到稀疏深度离散化的限制。LDI在每个像素网格处存储多个RGBD像素，并且因此自然地处理任意数量的层。在[51]中渲染LDI会导致裂缝等问题。更复杂的LDI方法，如[41]包含迭代深度边缘修复步骤，这对于现实世界的应用是非常慢的。另一种相关的工作是自我监督的深度估计。这些工作的目的是训练深度估计模型，使用图像重建误差作为主要的监督信号，没有地面真实深度。利用epipo-lar几何，[6，56，10]预测每像素的差异，从对中的另一个图像恢复一个图像。[10]另外添加左右一致性项以提高视差图的质量。[60，52，24，53，11]已经提出使用单眼视频进行自我监督。Al-3D坐标到有符号距离函数或占用。然而，它们需要来自地面实况3D几何的监督。其他人[44，30，57]通过可区分的渲染减轻了这一要求，这使得仅RGB超视成为可能。然而，这些方法在具有复杂结构的场景中不能提供最近，NeRF [28]显示了新颖视图合成的惊人结果。NeRF的工作原理是将连续的3D坐标和2D观察方向映射到RGB值和体积密度的4D输出已经提出了将NeRF改进为野外[25]和非刚性场景[33]中的图像的工作。然而， NeRF 需要针对每个场景进行优化。PixelNerf [58]是为了解决泛化问题而提出的，而它没有解决单图像尺度模糊问题。GRF [49]是适用于多视图输入的另一种改进。[58，49]都没有在大规模真实世界数据集上进行实验。我们采取最好的NeRF和MPI的两个世界，并提出了一个新的3D表示，我们称之为MINE。我们的方法预测在任何给定的任意深度的RGB-σ图像的平面，从而允许场景的连续/密集3D重建与在网络权重中编码场景几何的NeRF不同，我们的网络在输入图像上进行调节，因此可以推广到看不见的场景。3. 我们的方法我们的方法的输入是一个单一的图像，输出是我们的3D表示，如图2所示。第3.1条第二节介绍了我们的网络设计和培训流程3.2和3.3。此外，我们讨论了我们的MINE如何与NeRF和MPI在Sec。3.4和3.5。3.1. 3D表示3.1.1平面神经辐射场我们利用透视几何来表示摄像机截头体。让我们将图像平面上的像素坐标表示为R2，针孔摄像机固有的KR3×3。相机平截头体中的3D点表示为[x，y，z]，其中z是该点相对于相机的深度。我们将从透视3D坐标[x，y，z]到笛卡尔坐标[X，Y，Z]的转换C（）定义为：虽然深度估计和视图合成是紧密相关的。然而，良好的深度估计结果并不能保证良好的xX fx−10c−1zx查看合成结果，反之亦然。我们证明了我们方法在两个方面都C（y）=Kyz=0fycyzy。（一）z10 01z合成和深度估计。视图合成的隐式三维表示。最近的工作表明，神经网络可以用作三维形状的隐式表示。为了将3D形状编码到网络权重中，[3，16，9，1，26，32，8，34]映射连续如图2，我们可以在相机平截头体内采样任意数量的具有不同深度值z∈[zn，zf]的平面。每个平面由RGB值组成cz：[x，y]→R3和体密度σz：[x，y]→R+每个点[x，y] 在这个平面上的R2 体积12580···{|Σ。ΣWWNW···{|W--S{|···Sz不不Ti1−exp（−σziδzi）czi，（2）ziziJJzi不不密度σ（x，y，z）表示射线终止于位置[x，y，z]处的无穷小粒子的微分概率。深度范围[z，n，z，f]内的相机平截头体被连续重建，因为任何位置[x，y，z]的RGBc（x，y，z）和σ（x，y，z）是通过在深度z处采样平面并查询cz（x，y）和σz（x，y）来给出的。我们称之为平面神经辐射场，因为它使用平面而不是[28]中的射线表示截头体3.1.2体绘制上面定义的c和σ是连续的二维函数，其表示frustum中的每个可能的位置。在实际应用中，我们从两个方面对平面辐射场进行离散：a）平截头体由N个平面czi，σzi组成i=1，、N. b）每个平面（czi，σzi）被简化为a4-深度zi处的通道图像平面。注意离散化只是为了方便渲染。离散化表示仍然能够在任何3D位置处获取RGB σ值，因为：a）每个平面可以是任意的深度z 我]和b）子像素采样在，zf∈[z n采样策略确保我们的网络在训练期间暴露于截头体中的每个深度值，从而学习连续（czi，σzi）。另外，可以对输入图像的深度图进行与Eq类似。2，即：NZ=Ti1−ex p（−σziδzi）zi。（四）i=1渲染平面视图？It gt.如示于图2.通过三个步骤实现了用摄像机旋转R∈R3×3和平移t∈R3绘制新视图1)施加单应翘曲（. ）到建立源像素坐标[xs，ys]与目标像素坐标[xt，yt]之间的对应关系。我们遵循标准的逆单应性[13，61，50]来定义（。）的情况。像素坐标与像素坐标之间的对应关系目标平面中的像素坐标[xt，yt]由下式给出：Σx，y，1ΣK∫R−tn，K−1Σx，y，1Σ，（5）每个4通道平面。渲染输入图像我们首先用渲染的朴素设置来说明渲染机制is rc. 然后，可以以具有附加的同形描绘的类似方式来渲染新视图。使用来自经典体绘制[17，28]的原理，即：Σ。Σ其中，n=[0，0，1]，是前向的法向量。相对于源相机的平行平面（czi，σzi）。为了简洁起见，我们现在将上述扭曲表示为相对于源相机的深度z i处的平面的[x s，y s]=zi（x t，y t）。然后，我们计算目标坐标系处的平面投影（c′zi，σz′i）为：czi（xs，ys），σz′i（xt，ys）=σzi（xs，ys）.注意，N平面与源摄像机正面平行，因此（c′，σ′）正好是到目标摄像机的投影。i=12)体绘制依赖于每个位置处的密度σ以及沿射线的每个点之间的距离其中Ti=exp∫−Σσzδz，：R2→R+是从第一平面到平面i的累积透射率的映射。具体地，Ti（x，y）表示因此，我们可以计算：δz′i（xt，yt）=<$C（[Wzi+1（xt，yt），zi+1]<$）-C（[Wzi（x t，yt），z i]）2。（六）一条射线从（x，y，z1）到（x，y，zi）没有碰到任何object. 此外，委员会认为，δz（x，y）=C（[x，y，zi+1]）−C（[x，y，zi]）2：R2→R+如示于图在图2中，让我们想象从目标相机原点开始并且在像素坐标[x t，y t]处与目标图像相交的射线，以更好地理解等式2。六、这条射线在-i与（c）相交，σ）平面（x，y）是平面i +1和i之间的距离图。根据等式在图2中，需要（czi，σzi，zi）i=1，…，N的集合来渲染输入图像。如图所示节中3.2，（cz，σz）是我们网络的输出，其中相对于源相机。同样，光线在源摄像机pi x el坐标处与（czi+1，σzi+1）平面相交zi+1（xt，yt）. δz′i（xt，yt）表示两个交点之间的欧氏距离。我我取I src和di= 1/z i作为输入。遵循[28]的分层采样策略，在 [ z n ， z f ] 内对 z ii = 1， …，N进行采样。事实上，我们在透视几何学中对视差di= l/z i进行采样。具体地，[dn，df]被划分为N个均匀间隔的箱，并且抽取样本均匀地从每个箱中，即：3)最后，可以通过应用等式（1）来实现到新视图中的渲染用c′，σ′，δ′代替c，σ，δ后的结果。3.2. 网络与培训设计如上所示，离散化平面辐射场需要一组深度样本|i = l，···，N}，并且i−14通道图像{（czi，σzi）|i=1，··，N}。深度相同我I=j=1zizi12581联系我们diUdn+N（df−dn），dn+N（df− dn）。（三）随机地将多个样本zi或视差样本di=1/zi根据Eq. 3 .第三章。12582----Z--→ZLLLLΣ|∈源图像特征目标图像目标摄影机源相机图2.我们的网络是一个编码器-解码器架构（c. f.秒3.2），其获取输入图像并输出重构的源相机平截头体。然后，我们将重建的源相机平截头体渲染成新视图（参见图10）。秒3.1.2）。编码器-解码器结构。4通道图像（czi，σzi）是来自我们的网络的预测，该网络将单个图像和z i作为输入。我们的网络架构如图所示二、编码器将图像作为输入并产生一系列特征图。我们使用Resnet-50[14]如《易经》。解码器将特征图和单个视差值di=1/zi作为输入，并且产生4通道图像（czi，σzi）。解码器设计类似于Monodepth2 [11]。在训练和推断中，编码器每个图像（或每个小批量图像）仅运行一次，而解码器运行N次以生成对应的图像。为了求解比例因子s，我们在来自视频运动恢复结构（SfM）的稀疏3D点与我们的等式（1）的合成深度图之间执行比例校准。4.第一章具体地，我们在每个视频上使用COLMAP [37，38]运行SfM，以获得每个图像的稀疏点集Ps=（xj，yj，zj）。这里的坐标遵循相同的透视几何学，即 [x，j，y，j]是图像上的pixel坐标，并且z，j是对应的3D点的深度。在将源图像馈送到我们的网络并使用Eq.4，类似于[50]，规模估计为：离散平面集{（czi，σzi）|i=1，··，N}。视差编码。我们发现直接将di馈送到解码器中给出较差的性能，这与[28，35，48]一致。为了解决这个问题，我们应用s=exp1|Ps|（x，yΣ，z）∈Ps. ln（Zrc（x，y）−lnzΣΣ（八）- 在馈送到解码器之前，编码函数γ：R RL到di，即：γ（di）=[sin（20πdi），cos（20πdi），···，sin（2L−1πdi），cos（2L−1πdi）]。3.3. RGB视频多视图图像或RGB视频用于训练类似于[50]的网络。在训练期间，输入图像Isrc被馈送到网络中，然后被渲染为（tgt，tgt），根据新视图相机旋转R和尺度校准的相机平移t’来确定新视图相机旋转R和尺度校准的相机平移t。核心监督是通过将It gt与地面实况进行比较来获得图像It gt。最后，校准平移由t′=t·s给出。3.3.2损失函数损失函数中有四项：RGB L1 loss L1、RGB SSIM lossslim、边缘感知视差图平滑度loss smooth、以及可选的稀疏视差loss d。总损失由下式给出：L=λL1L L1+λ slimL slim+λ smoothL smooth+λdLd，（9）其中λL1、λslim、λsmooth和λd是用于对相应损失项进行加权的超参数。RGB L1和SSIM损失。L1和SSIM [54]损失：LL1 =1ˆI3硬件TGT-Itgt |,L SSIM=1−SSIM（I TGT，Itgt）3.3.1天平校准深度比例是模糊的比例因子sR+，因为我们的系统的输入是一个单一的图像。平截头体重建的范围[zn，zf]被预定义为超参数，我们将其设置为zn=l，zf=1000。我们没有缩放我们的3D表示，而是在训练和推理时将相机平移t缩放为t′（十）是为了鼓励合成的目标图像（It gt）匹配地面实况Itgt。Itgt和Itgt都是大小为H×W的3通道RGB图像。边缘感知视差图平滑度损失。我们在合成的视差图上施加边缘感知的平滑损失，以惩罚位置处视差的剧烈变化编码器解码器Σ（七）12583srctgtDSz我我JD不Σ∫−，其中原始图像是平滑的，并且正确地对准视差图和原始图像中的边缘。注意，这种损失有许多形式[10，11，53，50]，我们采用[10，11]中的一种，其定义为：这与[50]（c.f.当量5在[50]），其中他们直接预测：αzi=1−exp（−σziδzi）（15）L光滑为|∂xD|exp−|塞什岛|+的|伊D|exp−|泽伊岛|、（11）而不是σzi。注意，δzi不是常数，因为di被设置为没有随机采样的区间边缘。其中x和y是图像梯度，D=D/D¯是均值归一化差异y，其中D=1/Z。稀疏视差损失。在采用SfM对输入图像/视频进行预处理以解决尺度模糊的情况下，我们应用稀疏视差损失以促进深度/视差预测。不过，请注意，这是可选的。特别地，SfM不是必需的，并且稀疏视差损失不适用于诸如KITTI的数据集，其中尺度固定为s=1。我们遵循日志显示风格[50，5]。Ld= 0。5L+0. 5L，其中3.6.我们与pixelNeRF和GRF的我们的MINE不同于pixelNeRF [58]和GRF[49]通过：（a）MINE直接对源相机的截头体（b）MINE重建每个平面的源相机的截头体，而pixelNeRF和GRF重建每个射线的整个3D空间（c）pixelNeRF和GRF都没有提供大规模真实世界数据集的实验，而MINE提供了大规模室内 /室外数据集的结果，即RealEstate 10 K，NYUv 2和KITTI。（a）（b）的直接后果是我们的矿山被签署-Dsrc1L=D∑ ∫lnDsrc（x，y）−ln1，，（x，y，z）∈Ps推理效率更高。 pixelNeRF和（十二）GRF逐个像素地渲染输出图像，因此所需的前向传递的数量与tgt1L=|P|（x，y）n=1.S Z（x，y，z）∈Pt输出的空间分辨率、沿每条射线的点的数量以及要渲染的目标视图的数量。相反，由于我们的MINE重建了注意，我们需要缩放视差图，因为平移t用s校准，如第2节所示3.3.1. 平移和深度应一起校准。3.4. 我们与NeRF的我们的MINE拥有类似的基本代表权，即：空间中任意位置的RGB和体积密度。优点：1）我们的MINE可以推广到看不见的场景，而NeRF必须针对每个场景进行优化。 2)渲染一种新颖的观点，我们的MINE需要较少的网络推理（例如，32个网络推理），而NeRF需要数百万个网络推理。局限性：1）我们的MINE只需要一个图像作为输入，因此不可能从所有360◦重建整个对象。2)MINE不将观看方向作为输入，因此，它无法对复杂的视图相关效果进行建模。3.5. 与MPI[50]中的MPI表示是我们在第二节中描述的表示的特殊情况。第3.1条证据代替使用Eq. 3，我们可以简单地设置di如由下式给出的仓边缘：di=dn+（i−1）/N·（df−dn）。另外，我们可以将深度z i处的alpha图定义为每个平面的源摄像机，我们只需要N个平面前向通过全卷积解码器来获得表示。任何新颖视图的渲染仅需要附加的单应性扭曲步骤。详细分析见补充材料。4. 实验对于新视图合成，我们使用RealEstate10K [61]，Flowers Light Field [46]和KITTI [7]数据集上的最新方法进行定量和定性比较。为了衡量生成图像的质量，我们计算了结构相似性指数（SSIM）[62]，PSNR和最近提出的LPIPS感知相似性[59]。在计算LPIPS分数时，我们使用ImageNet训练的VGG16 [42]模型。对于来自单个图像的深度估计，我们对iBims-1 [20]数据集和NYU-Depth V2 [29]数据集进行评估。4.1. 在KITTI根据[51，50]的设置，我们在KITTI Raw数据集[7]的20个城市序列上训练我们的模型，并在另外4个城市序列上进行评估。我们将比例因子固定为1，因为仅利用具有恒定比例的立体声对。在训练期间，运行左或右图像-αzi ：R2-R+，如等式（1）十五岁现在，Eq。2可以作为源图像和目标图像。福尔-下[50]，我们从之前所有图像的所有侧面裁剪5%改写为：Ni−1计算测试中的分数。定量比较I=ΣTiαzcz，其中Ti=Y（1−αz），（14）|Ps|12584i=1j=1[ 50][51][52][53][54][55] 1.一、我们的32和64-平面模型比现有的方法性能好很多12585列车资源N预训练深度光滑LPIPS↓SSIM↑PSNR↑我384x12832NY0.1290.81221.4我384x12832YN0.1230.81621.6我384x12832YY0.1220.81521.6我384x12864YY0.1170.81821.6我384x128256YY0.1120.82821.9图西亚尼等al. [五十一]768x256NANANA-0.57216.5MPI [50]768x25632NANA-0.73319.5我768x25632YY0.1120.82221.4我768x25664YY0.1080.82021.3表1.查看KITTI数据集上的合成请注意，[51]在768×256下训练模型，并在384×128下测试，以避免输出中出现裂缝，[50]采用此设置进行比较。我们遵循此设置，所有模型都以384 ×128的分辨率进行测试。输入目标GT我MPI [50]图3.KITTI的定性比较请注意，这些示例不是精心挑选的，它们与[50]中使用的图像相同裕度值得注意的是，与[50]相比，我们将SSIM从0.733显著提高到0.822。我们还定性地证明了我们优越的视图合成性能图。3.第三章。与[50]相比，我们生成了更逼真的图像，具有更少的伪影和形状失真。可视化验证了我们对复杂场景的几何和纹理建模的能力。RGB非光滑充分图4.边缘感知平滑度损失对KITTI的影响消融研究。如Tab.所示。1，在KITTI数据集上进行消融研究，以验证一些设计选择。我们观察到编码器的ImageNet预训练在所有指标上都有适度的改进。边缘感知的深度平滑度损失仅带来边缘平滑度损失。改进定量，但我们定性显示在图。4，它使模型能够合成更好的视差图。更重要的是，随着N的增加，我们看到了一致的改善。由于模型容量在我们改变N时保持相同，因此改进可以归因于模型在训练时更密集地对深度进行采样时学习更复杂场景几何的能力4.2. RealEstate10K上的视图合成RealEstate10K [61]是包含室内和室外场景的大型漫游视频数据集。该数据集由>70，000个视频序列组成，这些视频序列被预先分割成训练集和测试集。每个序列包含视频帧及其对应的摄像机内在和外在。为了获得用于尺度不变学习和稀疏深度监督的稀疏3D点云，我们使用COLMAP [37，38]对每个视频序列执行SfM。为了测试，我们从官方测试分割中随机抽取600个序列，然后从每个序列中抽取5帧作为源帧。这总共为我们提供了3，000个源帧。在[50]之后，我们为每个参考帧选择相隔5或10帧的目标帧。另外，我们随机抽取另一个12586↑↓×表2. RealEstate10K上的结果[61]。表示越高越好，反之亦然。N是源帧和目标帧之间的帧数。SynSin的结果来自原始论文，其中它们使用与我们相同的测试设置（从源帧的30帧内随机选择目标帧），但测试对不同。它们还使用256x256的较低分辨率方法监督数据集rel↓纽约大学-深度log10↓RMS↓第二版[29]σ1↑σ2↑σ3↑rel↓iBims-1log10↓RMS↓[20个]σ1↑σ2↑ σ3↑DIW [2]深度DIW0.250.10.760.62 0.88 0.96 0.250.110.61 0.86 0.95DIW [2]深度DIW+纽约大学0.190.080.60.73 0.93 0.98 0.190.080.80.72 0.91 0.97[23]第二十三话深度Mega0.240.090.720.63 0.88 0.96 0.230.090.830.67 0.89 0.96[23]第二十三话深度Mega+DIW0.210.080.650.68 0.91 0.970.20.080.780.70.91 0.973DKenBurns [31]深度Mega+NYU+3DKenBurn 0.080.030.30.94 0.9910.10.040.470.90.97 0.99MiDaS v2.1 [36]深度MiDaS 10数据集0.160.060.500.80 0.95 0.99 0.140.060.570.84 0.97 0.99MPI [50]RGBRealEstate10K0.150.060.490.81 0.96 0.99 0.210.080.850.70.91 0.97MINE（N=64）RGBRealEstate10K0.110.050.400.88 0.98 0.99 0.110.050.530.87 0.97 0.99表3.iBims-I和NYU-Depth V2上的深度估计结果我们的性能显着优于MPI [50]，MPI也仅对RGB图像和稀疏深度进行监督，并与使用密集深度监督的最先进方法实现了相当的性能输入目标GT MPI [50] MINE（N=64）图5. RealEstate10K与[50]的定性比较。我们的MINE比[50]生成更多的照片真实感输出，它也更好地修复了非遮挡区域（参见第3行中的突出显示区域）。从与参考帧相隔30帧内的目标帧来创建更具挑战性的设置。在RealEstate10K 实验中， N 设置为32 或64 ， λsmooth=0。01，并且λ d、λ rgb、λ SSIM被设置为1.0。视差范围是[1。0，0。[001]对于32和64平面模型。输入分辨率设置为384 256。我们在48 个NVIDIA V100 SXM2 GPU 上训练模型。我们使用Adam Optimizer [19] ，编码器的初始学习率为0.0002，解码器的初始学习率为0.001，我们训练模型总共1，000，000步，学习率在第600，000步降低一次在训练中我们随机地sam-对源帧进行采样，并对距离源帧30帧内的目标帧进行采样。为了公平比较，我们在我们的测试集上运行MPI [50]开源模型如Tab.所示。2，很明显，MINE在所有3个标准中都大大优于[55，50]。我们再次表明，增加N从32到64得到更好的结果，这是一致的消融研究KITTI。在图5中，我们展示了与[50]的定性比较。MINE生成清晰逼真的目标图像，而[50]则会产生令人不快的伪影和失真。尤其是我们高-方法n=5LPIPS↓n=10n =随机n=5SSIM↑n=10n =随机n=5PSNR↑n=10n =随机SynSin [55]-----0.74--22.31MPI [50]0.09670.14200.17610.86990.81240.785127.0524.4323.52MINE（N=32）0.09340.13460.16740.89700.84640.817228.5125.7324.56MINE（N=64）0.08960.12800.15620.89740.85000.821928.3925.7124.5012587××输入GT MPI [50] MINE（N=64）图6.视差图的定性比较。用黄色的边界框照亮我们的修复能力。4.3. 基于iBims-1和NYU-V2的我们在iBims-1 [20]和NYU-Depth V2 [29]基准上评估我们的深度估计。两个基准包含具有密集地面实况深度的室内场景。我们使用RealEstate10K训练的模型来合成视差图并测量我们的深度估计性能。在[50，31]之后，为了解决来自单个图像的深度的尺度模糊性，我们对深度预测进行缩放和偏置，以在评估之前使L2我们与Depth in the Wild[2]、MegaDepth [23]、3DKenBurns [31]和MiDaS [36]进行了比较，这些是用地面实况深度监督训练的最先进的系统。我们还与[50]进行了比较，[50 ]使用与我们相同的RGB视频监控选项卡. 3给出了定量结果。值得注意的是，即使MINE在训练中不使用任何地面实况深度监督，我们也实现了与3DKenBurns [31]相当的性能，并且显著优于其他方法。我们进一步展示了与图[50]中的定性比较六、我们发现MPI很容易偏向图像纹理，从而在视差图中产生令人不快的伪影，而MINE能够为纹理丰富的表面生成平滑且更准确的视差图。4.4. 花卉光场Flowers光场数据集[46]由Lytro Illum相机捕获的3，343个光场每个光场具有14个角样本和376个空间样本。在[46]和[50]之后，我们在实验中使用中心8 × 8网格，以避免使用孔径外的角度样本。在测试中，8×8网格的中心图像表4.查看花光场的合成是源图像，四个角的是目标图像。为了比较，我们从[50]中获得训练和测试分割。根据他们的实验设置，我们随机调整伽玛从[0。3，0。7]，并在测试期间将其固定为0.5。由于该数据集中的比例是恒定的，因此我们将比例因子设置为1 [50]。如Tab.所示。4.我的[46]和[50]有所改善。正如预期的那样，增加N会带来一致的改进。5. 结论通过引入NeRF，我们提出了MINE，它是MPI的连续深度给定单个图像，我们共同进行相机frus- tum的密集重建和被遮挡内容的修复。我们将重建的平截头体渲染成新颖的视图RGB图像和深度图，并具有可区分的渲染。大量的实验表明，我们的方法显着优于现有的国家的最先进的单图像视图合成方法，并实现了近国家的最先进的性能，深度估计没有密集的地面真相深度致谢本工作部分得到新加坡MoE Tier 2资助MOE-T2EP 20120 -0011的支持。方法LPIPS↓SSIM↑PSNR↑Srinivasan等人，完整[46]-0.82228.1Tucker等[50个]-0.85130.1MINE（N=32）0.16030.86830.2MINE（N=64）0.15590.87230.312588引用[1] Matan Atzmon，Niv Haim，Lior Yariv，Ofer Israelov，Haggai Maron，and Yaron Lipman.控制神经水平集。在神经信息处理系统的进展，第2032-2041页，2019年。2[2] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知In D.李，M。杉山联合勒克斯堡岛Guyon和R. Garnett，编者，《神经信息处理系统进展》，第29卷。 Curran Associates ，Inc.2016. 七、八[3] 陈志勤和张浩。学习生成式形状建模的隐式字段。IEEE计算机视觉与模式识别会议论文集（CVPR），2019年。2[4] 放大图片作者： Michael Cohen Gortler ， RichardSzeliski，Radek Grzeszczuk，and Rick Szeliski.光显仪。计算机协会1996年8月2[5] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度arXiv预印本arXiv：1406.2283，2014。5[6] Ravi Garg，Vijay Kumar B.G.，古斯塔沃·卡内罗和伊恩·里德用于单视图深度估计的无监督CNN：几何学拯救了我们。在Bastian Leibe、Jiri Matas、Nicu Sebe和Max Welling的编辑中，Computer Vision施普林格国际出版社. 2[7] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。 InternationalJournalofRoboticsResearch（IJRR），2013。5[8] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。三维形状的局部深度隐式函数。 IEEE/CVF会议论文集计算机视觉和模式识别（CVPR），2020年6月。2[9] Kyle Genova ， Forrester Cole ， Daniel Vlasic ， AaronSarna，William T. Freeman和Thomas Funkhouser。使用结构化隐函数学习形状模板。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。2[10] C le'mentGodard ， OisinMacAodha ， andGabrielJ. 兄弟 -拖。具有左右一致性的无监督单目深度估计。在CVPR，2017年。一、二、五[11] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J. Brostow.深入研究自我监督的单目深度预测。2019年10月。一、二、四、五[12] Steven Gortler、Chris Buehler、Michael Bosse、LeonardMcmillan和 Michael Cohen。非结构化发光图绘制。SIGGRAPH 2001会议记录，2001年1月。2[13] R. I. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，ISBN：0521540518，第二版，2004。3[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议（CVPR），第770- 778页，2016年。4[15] 作者：Philipp Henzler Mitra和Tobias Ritschel。从2d样本学习神经3d纹理空间进行中-IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。2[16] Chiyu三维场景的局部隐式网格表示。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2020年6月。2[17] James T Kajiya和Brian P Von Herzen。光线跟踪体积密度。ACM SIGGRAPH计算机图形学，18（3）：165-174，1984。3[18] Abhi s hekKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。2017. 2[19] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在Yoshua Bengio和Yann LeCun的编辑，第三届学习表征国际会议，ICLR 2015，美国加利福尼亚州圣地亚哥，2015年5月7日至9日，会议跟踪程序，2015年。7[20] Tobias Koch，Lukas Liebel，Friedrich Fraundorfer，andMarcoK ¨ rne r. 基于cnn的单幅图像深度估计方法的评价Laura Leal-Taixe和Stefan Roth，编辑，欧洲计算机视觉研讨会（ECCV-WS），第331施普林格国际出版社，2018年。五七八[21] 基里亚科斯湾作者：Steven M.塞茨空间雕刻造型理论。技术报告，美国，1998年。2[22] Marc Levoy和Pat Hanrahan。光场渲染。在第23届计算机图形和交互技术中，SIGGRAPH计算机协会2[23] 李正奇和诺亚·斯内弗利。Megadepth：从互联网照片中学习单视图深度预测。在计算机视觉和模式识别（CVPR），2018年。七、八[24] Reza Mahjourian，Martin Wicke，and Anelia Angelova.使用3d几何约束从单目视频进行深度和自我运动的无监督学习。在CVPR，2018年。2

下载后可阅读完整内容，剩余1页未读，立即下载