多平面图像合成

2 浏览量更新于2023-10-23 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

551多平面图像的单视点合成Richard Tucker Noah Snavely谷歌研究richardt@google.comsnavely@google.com摘要视图合成领域最近的一系列工作使用深度学习来生成多平面图像-以相机为中心的分层3D表示-给定已知视点处的两个或多个输入图像我们将这种表示应用于单视图合成，这是一个更具挑战性但具有潜在更广泛应用的问题我们的方法学习直接从单个图像输入预测多平面图像，并且我们引入了用于监督的尺度不变视图合成，使我们能够在在线视频上进行训练。我们表明单一图像输入多平面图像渲染视差呈现新颖的观点这种方法适用于几种不同的数据集，此外，它还生成合理的深度图，并且它学会在背景层中的前景对象的边缘后面填充内容。1. 介绍拍摄照片并能够移动相机是一种令人信服的方式，使照片栩栩如生。它需要理解场景的3D结构，推理遮挡及其背后的原因，并实时渲染高质量，空间一致的新视图。我们提出了一种针对此任务的深度学习方法，该方法可以使用视图合成质量作为目标在在线视频或多相机图像上进行训练，因此，该方法不需要额外的地面实况输入，如深度。在推理时，我们的方法采用单个RGB图像输入并产生局部光场的表示。我们采用了多平面图像（MPI）表示，它可以对非遮挡和非朗伯效应进行建模，产生内在空间一致的视图，非常适合通过卷积网络生成，并且可以实时高效渲染[37]。我们的方法是第一个直接从单个图像输入生成多平面图像的方法，而先前的工作仅从多个输入视图（从立体对[37]到来自相机阵列的12个图像[4]）估计MPI。与多输入视图合成相比，我们的任务更具挑战性。我们希望网络能够学习场景的不同部分在空间中的位置，图1.我们的网络从单个图像输入生成多平面图像（MPI）。MPI可用于从新视点渲染图像，并生成视差图。（这里和其他图中的视频帧是在YouTube用户Sona Visual的知识共享许可下使用的。能够观察到多个视图之间的相关性，并且没有任何机会观察物体的哪怕一点点一个特殊的困难出现时，监督这样一个系统使用视图合成，因为在输入数据中固有的全球规模的模糊性针对这一问题，我们提出了一种利用训练数据生成过程中产生的稀疏点集进行尺度不变视图合成的我们还引入了一个边缘感知平滑损失，这阻止了从我们预测的MPI得到的深度图不自然地模糊，即使在没有深度监督的情况下。我们使用在线视频数据集训练和评估我们的方法，并在iBims-1基准测试中测量衍生深度估计的质量。我们通过将其与使用不同表示的两种先前视图合成方法进行比较来展示我们的方法的多功能性：一个预测完整的4D光场并从窄基线多角度光场数据集学习，另一个预测分层深度图像并从宽基线立体相机图像学习。我们的方法不仅实现了比这些更高质量的视图合成，而且更通用，不需要光场数据或已知规模的输入进行训练。5522. 相关工作我们建立在两个领域的工作-视图合成和深度预测-这本身是高度相关的。基于学习的方法已经应用于这两个领域.单视图深度预测。人们对从单个RGB图像预测深度图或其他合适的几何表示的任务非常感兴趣。然而，单独的深度图不能实现新视图的完全合成，因为它们不捕获在参考视图中被遮挡但在期望的目标视图中可见因此，高质量视图合成也不严格要求精确的深度-例如，无纹理区域中的不精确深度可能是不可感知的，并且与严格的精确度相比，平面性关系可能在感知上更重要同时，深度和视图合成高度交织，并且许多最近的深度预测方法使用视图合成作为隐式监督[7，9，36]。像这些方法一样，我们使用额外的场景视图作为监督，但我们明确关注新视图合成的应用，因此使用比深度图更具表现力的场景表示（MPI）。其他最近的工作，像我们一样，使用野外视频作为几何学习的训练数据来源。例如，Lasingeret al.通过首先提取左帧和右帧之间的光流作为用于监督的伪深度的形式，从3D电影的大数据集学习鲁棒的单视图深度预测器[15]。Chen等人从YouTube视频中产生大量稀疏SfM衍生的深度测量，用于训练深度网络[2]。然而，这些先前的方法专注于深度，而我们的方法是我们所知的第一个从野外视频中学习单视图视图学习视图合成。传统上，用于视图合成的方法在插值机制中操作，其中，提供有场景的多个视图，并且希望在其相机位置的凸包内大部分地插值视图。已经探索了许多解决这个问题的经典方法[10，16]，包括涉及局部几何代理估计的方法[1，11，23，38]。基于学习的方法，这个插值问题也进行了探讨。学习是用于视图合成的有吸引力的工具，因为训练信号可以简单地通过预测来自已知视点的场景的保持视图并与地面实况图像进行比较来一些方法为每个输出视图独立地预测新视图，导致从一个视图到下一个视图的不一致性[5，12]。其他方法预测可以渲染多个输出视图的单个场景表示特别是，分层表示是特别有吸引力的，由于他们的能力，表示闭塞的内容。例如，最初为立体匹配问题设计的多平面图像（MPI）[30]，最近发现，在从多个输入图像学习视图内插和外推方面都取得了成功[37，27，4，21]。然而，这些方法都不能从单个输入图像预测MPI。与我们的工作最相关的是从单个图像预测新视图的方法。这包括从单个视图[28]合成完整光场的工作，预测软视差图[34]，推断分层表示，如分层深度图像（LDI）[31，26]，或分割输入并预测每个片段的3D平面[19]。我们借用了MPI表示引入视图插值和外推，将其应用到单视图的情况下，并表明，这种表示导致更高质量的结果相比，光场和LDIs。深度也可以用作视图合成的起点，如Niklaus等人最近的工作。它从单个视图预测深度图，然后在可见表面后面修补内容，以实现高质量的单图像视图合成[22]。然而，这种方法需要密集、准确的深度监督和多个阶段的后处理。我们的方法学习预测MPI作为一个单一的阶段，只使用多个视图（例如，视频帧）作为监督。3. 方法在推理时，我们的方法采用单个输入图像并生成一个表示，从中可以自由地生成新相机位置处的新视图（图1）。1）。对于训练，我们所需要的是静态场景和移动摄像机的视频，我们处理如下。3.1. 数据我们将SLAM（同时定位和映射）和运动结构算法应用于视频，以识别运动序列，估计视点，并生成稀疏点云。我们遵循周等人的方法。[37]：唯一的区别是，我们保留了稀疏点云和每个帧中跟踪的点（称为可见点）的记录，它们不使用。在训练时，我们从结果序列中采样成对的帧（源和目标）。每一对都给我们一个源图像Is和一个目标图像It，以及它们的视点vs和vt（相机内函数和外函数）。此外，我们提取源帧的可见点集，并将其映射到相机空间，从而得到一组P={（x，y，d），. . . 其中（x，y）是源图像内的位置，d是该点的深度。在我们的实验中，我们将这种处理应用于RealEstate10K数据集的视频[37]，为我们提供了超过70000个序列和超过900万帧。3.2. 表示和渲染我们使用多平面图像（MPI）作为场景表示，它支持可微分渲染[37]。作为553我不多平面图像RGBA层参考摄像机位置图2.多平面图像表示。参见第3.2节。示于图2中，MPI由参考相机的截锥体中的一组D个前平行平面组成，布置在固定深度d1，. -是的-是的，dD，从d1=dfar到dD=dnear，并且在视差上相等地间隔开（逆深度）。每个平面图3.我们的系统在在线视频上训练，学习直接从单个图像输入预测尺度不变的视图合成允许我们应用视图合成损失，尽管在我们的训练数据中存在全局尺度模糊性。这个过程和随后的合成与Zhou等人的方法相同。[37]，除了在方程中引入比例因子σ之外2和Eq。3 .第三章。层深度di乘以σ，相应地放大或缩小整个MPI。如第3.3节所述，选择正确的尺度σ使我们能够克服SfM模型固有的尺度模糊性，并实现尺度不变的合成。合成。翘曲层（c′，α′）被合成或者层有一个RGBA图像：我们将ii和αi写为ii，层i的颜色和alpha通道，每个通道具有分辨率使用over操作[24]给出渲染图像It：W×H=N。MPI也可以被认为是Szeliski和Golland [30]的醋酸盐堆叠模型的实例。t= ΣDYDc′α ′（1−α′）Σ.（四）具有软阿尔法和特定的层深度选择。给定一个源图像Is在视点vs我们的网络fi=1i i jj=i+1输出一个MPI，其参考相机位于vs：{（c1，α1），. - 是的- 是的，（cD，αD）}=f（Is）.（一）我们还可以通过合成层视差（即，反深度）：翘曲。从MPI渲染新图像的第一步是将每个层从源视点扭曲到所需的目标视点vt：D= ΣDi=1d−1αi YDj=i+1（1−αj）Σ.（五）c′=Wv，v（σdi，ci），α′=Wv，v（σdi，αi）.（二）注意，虽然层深度是离散的，但是视差-贴图可以是平滑的，因为αi在层之间柔和地混合我是我是扭曲操作W通过从输入颜色或alpha进行双线性采样来计算其输出中每个像素处的颜色或alpha为此，它将单应性应用于每个目标像素3.3. 尺度不变综合视觉SLAM和运动恢复结构在没有外部信息的情况下无法确定绝对比例：因此，我们的每个训练序列都同样有效如果我们缩放世界（包括稀疏点集和usBaghovsks1.tnTΣR−aut−1vt，（3）1照相机的平移部分以任何恒定因子向上或向下摆姿势。这在处理多图像输入时不是问题，因为输入之间的相对姿态解决了尺度模糊性，但它构成了挑战其中，n是法向量，a是到在深度σdi处与源相机前平行的平面的距离（两者都相对于目标相机），R是旋转，t层1层2层D层深：d1...........................................................dD源图像目标预测SFM点云在线视频边缘感知平滑度损失视差查看合成损耗目标图像尺度不变综合K554是从vt到vs的平移，并且Ks、Kt是源相机和目标相机本征函数。用于从单个输入学习任何类型的3D表示为了解决这种模糊性，关于单视图深度预测的先前工作通常采用尺度不变深度损失[3，32]或最近甚至采用尺度和移位不变深度损失[15]。这些方法可以被看作是寻找555S∇SE−1最小化比例相关损耗的比例因子，并且依赖于存在该比例因子的封闭形式的解。视图合成损失也会遇到同样的问题：每个训练实例的规模是任意的，但没有我们应用这个想法如下。首先，设G是图像梯度的L1范数的所有通道的总和（我们使用Sobel滤波器来计算梯度）：Σ¨ ¨正确的比例，渲染图像无法匹配地面实况。我们可以尝试将视图合成损失最小化G（I）=渠道我1（九）可能的比例因子，但渲染操作（方程。2-我们观察到，虽然规模是未知的，相机我们定义一个源边缘掩模Es，它是1，只要源图像梯度至少是其最大值的一个分数emin。.G（I）= minS姿态vs，vj和点集Ps确实具有一致的尺度对于每个训练示例。因此，我们可以使用点emin ×最大值（x，y）G（I），1（十）设置为计算要在渲染中应用的比例因子我们来-计算比例因子σ，其最小化预测视差D_s和点集P_s之间的对数平方误差：然后，我们的边缘感知平滑损失惩罚预测视差图中高于阈值gmin的梯度，但仅在边缘掩模小于1的地方：σ=exp1Σ（lnD）（x，y）−ln（d−1））（6）Lsmooth=1Σ。Σmax（G（Ds）−gmin，0）<$（1−Es），|Ps|S（x，y，d）∈PsN（x，y）（十一）其中，D*s（x，y）表示来自位置（x，y）处的视差图的双线性采样。由此获得的比例因子σ应用于方程：图2和图3所示，确保渲染图像的缩放不再随输入视图的比例而变化点和点集。因此，它适合于在具有视图合成损失的训练中使用3.4. 损失我们的整体损失组合了视图合成损失、合成视差上的平滑损失和稀疏深度监督损失：L=λpL像素+λsL平滑+λdL深度（7）其中⊙是Hadamard乘积。与我们的合成损失一样，L平滑是所有像素的平均值实际上，我们设置emin=0。1且gmin= 0。05.如前所述，这种损失有许多可能的表述方式我们的L平滑是我们发现在我们的系统中创建质量更好的深度图的一种，通过允许视差的逐渐变化，同时鼓励不连续性与图像边缘准确对齐。稀疏深度监管。点集Ps允许我们应用一种直接但稀疏的深度监督形式我们采用Eigen等人的L2损失. 在对数视差[3]上（如第3.3节所述，σ是使这种损失最小化的比例因子-它相当于Eigen等人中的变量α。s标度不变损失，在lnσ=α下）：我们现在依次描述其中的每一个合成. 以鼓励目标处的渲染图像1L深度=1Σ。|（x，y，d）∈P|(x,y,d)∈PDs（x，y）2ln −ln（d ）σ（十二）为了匹配地面事实，我们使用L损失：每像素S3.5. 执行Σ1L像素=N渠道Σ|ˆI t（x，y）-It|.（八）网络我们使用DispNet风格的网络[20]，如表1所示。我们将输入（单个RGB图像）填充为高度和宽度为128的倍数，然后裁剪输出我们可以选择添加一个图像梯度项，但我们并没有发现它一直有帮助。边缘感知平滑度。对于自然图像，深度不连续性通常伴随着图像本身的不连续性（尽管情况并非相反）[6]。这个想法已被用于经典的计算机视觉，特别是立体对应[25]，以及用于学习深度预测的各种不同的平滑损失[9，17，33]。这些损失的工作原理是，当输入图像平滑时，鼓励深度平滑相应地。输出的第一个D−1通道给出α2，. . .，αD.后面的层总是不透明的，所以α1=1，不需要从网络输出。当初始化我们的网络进行训练时，我们设置偏置权重在最后一个卷积层上，使得初始输出分布的均值对应于层i中的初始alpha值1/i。这种谐波偏置有助于改善训练过程中的一个问题，其中不靠近MPI体积前部的层被严重遮挡，并且相对于我们的损失具有非常5564. 实验我们对RealEstate 10 K数据集上的方法进行了定量和定性评估，使用iBims-1基准进行了深度评估，并与Flowers和KITTI数据集上以前的视图合成方法进行了比较由于视图合成任务非常直观，我们强烈建议读者在我们的补充视频中查看其他示例，包括动画表1.我们的网络架构。每行描述两个卷积层的顺序：k1，k2是内核的大小和c1，c2的输出通道的数量Input显示了第一层的输入，其中MP2表示池大小为2的maxpooling（因此大小减半），Up2表示最近邻放大2倍，+表示级联。每一层之后都是ReLU激活。最后一行显示了单个卷积层，后面是sigmoid激活。有关如何将输出转换为MPI层的详细信息，请参见第3.5节。我们遵循Zhouet al. [37]并将每层的颜色建模为输入图像与预测的全局基本图像的逐像素混合。在该工作中，为每个MPI层中的每个像素预测混合权重相反，我们认为可见的内容（从源视点）应该使用前景图像，而完全被遮挡的内容因此，我们可以从alpha通道导出混合权重wi，如下所示：Ywi=（1−αj），（13）J>Ici=wiIs+（1−wi）<$Ib g。（十四）背景图像由网络输出的其余三个通道确定由于网络很难学习预测αi和αIbg，在训练中，我们将Ibg设置为Is和网络输出之间的线性插值，其中网络的贡献在第一个sbg训练步骤中逐渐增加。训练在我们的实验中，D（MPI平面的数量）是32，sbg= 100，000，我们的损失加权如下：λp=1，λs=0。5，λp=0。1.一、我们使用Adam Optimizer [13]进行训练，学习率为0.0001。4.1. 查看RealEstate10K为了研究我们不同损失和MPI背景预测的影响，我们在RealEstate10K数据集的视频上训练了我们方法的几个版本[37]：• full：我们的完整方法，如第3节所述。• nodepth：完整，但没有深度损失，即λd=0。• noscale：完整，但没有深度损失，也没有尺度不变性，即λd=0，σ= 1。• nosmooth：完全，但没有边缘感知视差平滑损失，即λs= 0。• nobadbackground：完整，但没有背景预测。第相反，所有MPI层的颜色都来自输入，即ci=Is。为了比较这些方法，我们使用LPIPS感知相似性度量[35]以及PSNR和SSIM度量来测量合成图像的准确性，在一组300个测试序列上，选择源帧和目标帧间隔5或10帧。在测试时，我们使用点集来计算比例因子σ，方法与训练时相同-为了公平比较，我们也对noscale模型这样做。结果在表2中（LPIPS全部、PSNR全部和SSIM全部列）。我们观察到nodepth的性能比full稍差，noscale的性能更差。这表明，直接深度监督-虽然稀疏-是一些好处，但我们的尺度不变的合成的改进是更显着的。正如预期的那样，对于所有变体，性能随着相机移动的增加而下降。有些不直观的是，非平滑和无背景模型在PSNR和SSIM指标上优于完整但在更大的距离上，试图测量感知相似性的LPIPS度量显示出平滑损失和允许网络预测背景层的好处，完整模型表现最好。从质量上讲，无背景模型在前景对象的边缘引入了令人不快的伪影，而完整模型能够使用背景层来预测一些未被遮挡的内容的外观，如图所示。4.第一章为了量化这种效果，我们首先通过扭曲和合成完整模型中使用的混合权重wi来计算每个图像的disocclusion maskMt输入K1C1K2C2输出Is732732转换器1MP2（conv1）564564Conv2MP2（conv2）31283118Conv3MP2（conv3）32563256Conv4MP2（conv4）35123512Conv5MP2（conv5）35123512Conv6MP2（conv6）35123512Conv7MP2（conv7）35123512Conv8向上2（conv8）+conv735123512Conv9向上2（conv9）+conv635123512Conv10向上2（conv10）+conv535123512Conv11向上2（conv11）+conv435123512Conv12557is tLPIPSall↓ PSNRall↑ SSIMall↑ PSNRdisocc↑ SSIMdisocc↑方法n=5n=10n=5n=10n=5n=10n=5n=10n=5n=10充分0.1030.15526.423.50.8590.79519.717.90.5130.480无深度0.1200.17826.223.40.8540.79119.218.00.5250.496无鳞0.1490.22125.422.80.8370.77118.517.30.4960.470非光滑0.1040.15926.423.60.8600.79819.618.40.5400.527无背景0.0990.16226.823.70.8670.80218.717.70.5090.499表2.对RealEstate10K视频序列图像的消融研究N表示视频序列中源和目标之间的帧的数目在整个图像上计算“所有”度量（具有5%的裁剪），仅在被遮挡的像素上计算“disocc”度量，即，其中，t>0。六、我们观察到，尺度不变性提供了一个很大的好处，深度监督一个较小的，并预测背景内容并没有明显的帮助，但整体上提高了性能的无遮挡像素和感知相似性。参见第4.1节。(a)（b）（c）（d）（e）图4.使用背景图片。对于每个区域，我们显示(a) 输入图像Is，（b）预测的背景blog，（c）由我们的完整方法从稍微不同的视点生成的渲染，（d）在渲染中使用blog的地方的可视化：突出显示其值来自背景的90%或更多的像素，（e）由我们的无背景模型渲染的相同区域。比较（c）和（e），由我们的完整模型渲染的图像显示出比无背景模型渲染的图像更清晰的边缘和更少的伪影。比较（a）和（b），网络已经学会了侵蚀前景物体的边缘，并预测它们后面的颜色，尽管仍然存在一些伪影。w′=Wv，v（σdi，wi），预测视差输入图像（无平滑度损失）具有平滑度损失图5.平滑度损失对预测视差的影响如这些示例中所示，我们的边缘感知平滑度损失鼓励预测的视差在输入图像平滑的情况下是平滑的，并且因此还鼓励其具有与可见对象边界对齐的尖锐边缘。在这方面：它既缺少深度应该不连续的尖锐边缘，又在深度应该平滑的地方引入不连续性。我们的点集深度数据不足以评估RealEstate10K数据集的深度精度，因此为了进行定量测量，我们转向另一个基准。4.2. 深度评测Mt= 1− ΣDYDw′α ′（1−α′）Σ.（十五）虽然我们的目标是视图合成而不是深度预测，i=1i ijj=i+1因此，我们可以方便地从我们的MPI合成视差图，并使用它们来评估深度性能。这里Mt告诉我们在每个点上像素来自背景图像。我们用它来计算度量仅在dioccluded像素，即。其中Mt大于某个阈值。结果在表2中（PSNRdisocc和SSIMdisocc列）。虽然noback-ground在整个图像上的得分略好于full，但在这些无遮挡区域上的表现更差。非平滑模型实现了合理的视图合成结果，但这不是MPI的唯一潜在应用对于其他任务，例如编辑或对象插入，期望具有准确的深度图。如图5、nosmooth的性能明显比我们的完整模型差我们使用iBims-1基准[14]来测量这一点，该基准具有用于各种室内场景的地面真实深度。就像尼克劳斯等人一样，在评估之前，我们缩放和偏移深度预测以最小化（L2）深度误差[22]。在表3中，我们比较了三种深度预测的方法：MegaDepth [18]，Depth in the Wild [29]和最近的在我们的模型中，完整版本的性能最好，与MegaDepth相当，尽管该方法对显式深度监督的依赖要大得多。正如我们所预期的，移除深度监督和/或尺度不变性会导致更差的性能。我们的nosmooth模型表现最差，con-55828.1 Srinivasan等人，完整我们的预测Srinivasan等人我们的无背景我们的地面实况表3.使用iBims-1基准测量深度预测质量[14]。虽然在深度预测方面不是最先进的，但我们的方法与使用显式深度监督的其他系统相当，即使我们根本不使用深度监督。我们重新运行MegaDepth模型以确保一致性;其他方法的结果如Niklaus等人所报告。[22 ]第20段。参见第4.2节。图7.花光场的比较在不使用预测背景的情况下，通过我们的方法渲染的视图我们的预测改善Srinivasan等人。通过避免偶然的大的参见第4.3节。0.4 0.5 0.6 0.7 0.8 0.9 1.0PSNR↑ SSIM↑方法所有disocc。所有disocc。以384× 128像素进行评估SSIM（越高越好）Tulsiani等人116.515.00.5720.52330.1我们我们的19.317.20.7230.63129.3我们的（忽略背景）Ours（full）319.517.50.7330.63927.8Srinivasan等人，Lambertian无背景在1240×19.3375像素16.9 0.731 0.627我们的（满）19.317.40.6960.651无背景19.116.70.6900.63420 25 30 35 40PSNR（越高越好）图6.在Flowers数据集上运行我们的方法，输入中心视图并从四个角角度合成视图的我们可视化了SSIM和PSNR指标在100个光场的测试集上的分布（图例中的虚线和数字显示了平均值）。参见第4.3节。我们的边缘感知平滑度损失在学习预测对应于良好深度图的MPI方面4.3. 在Flowers光场上查看合成我们现在将我们的方法应用于其他数据集。Srinivasan等人介绍了花的光场照片的数据集，以及从单个图像预测整个光场的方法[28]。这个数据集包括3000多张照片，每一个都捕捉到一个窄基线的14× 14网格的光场角。此数据集没有用于确定的点云数据，采矿规模，所以我们不能应用我们的规模无关的视图合成方法。然而，尺度在整个数据集中是恒定的，因此我们可以简单地设置σ=1并依赖于[1]他们的方法以768 × 256的分辨率预测层，但以384 × 128的分辨率渲染，以避免裂缝。2为了公平比较，我们的[3]我们的完整方法预测的层数为1240 ×375。表4.基于KITTI数据集的城市序列评价。我们计算PSNR和SSIM指标，在所有像素和“无遮挡”的像素。表的上半部分比较了渲染分辨率为384× 128时的结果，Tulsiani等人的模型。下半部分表明，我们的模型在全分辨率下评估时也表现良好。“w/o background”行显示了使用MPI并通过将每个层的颜色替换为输入I s来忽略背景图像的结果。特别是在无遮挡的像素上，使用背景图像导致实质性的改善。参见第4.4节。网络学习的适当规模。对于这个任务，我们在合成损失中添加梯度项我们在Flowers数据集上训练我们的模型，从8× 8的光场角中心正方形中随机挑选源图像和目标图像，并在100个光场的集合上评估结果。0.851我们0.836我们的（忽略背景）0.822Srinivasan等人，完整0.809Srinivasan等人，Lambertian密度方法rel↓log10↓RMS↓σ1↑σ2↑σ3↑DIW0.250.101.000.610.860.95MegaDepth（Mega）0.230.090.830.670.890.96MegaDepth（Mega +DIW）0.200.080.780.700.910.973DKenBurns0.100.040.470.900.970.99我们的：满0.210.080.850.700.910.97nodepth（λdepth=0）0.230.090.900.670.890.96无标度（σ=1）0.230.090.890.650.890.97nosmooth（λsmooth= 0）0.240.090.940.650.870.96无背景（ci=Is）0.220.090.900.670.900.97密度559输入Tulsiani等人（差距）差距（Disparity）Tulsiani等人（产出）我们的（产出）地面实况图8.KITTI城市序列的比较（a）Tulsiani等人的错误亮点的深度图导致令人不快的视觉伪像。(b) 比较深度图显示了我们的方法识别出的结构（汽车，停车标志），但他们的方法却没有（c）在具有挑战性的领域，他们的方法产生尖锐但扭曲的输出，我们的方法往往产生更模糊的输出。参见第4.4节。为了比较，我们重新训练了Srinivasan等人的模型。[28]使用他们的公开代码。如图6，我们的方法改进了Srini-vasan等人的方法。即使我们在测试过程中消除背景图像（即，我们在测试集上实现了更高的PSNR和SSIM测量（以及更低的绝对误差）;使用预测的背景图像，我们看到附加的小改进。我们的方法比他们的方法还有其他优点：我们不需要完整的光场数据来进行训练，并且我们的表示可以在任意新颖的视点处重新呈现，而无需进一步的推理步骤。图7显示了一些定性比较。4.4. 在KITTI代替从序列或光场采样源和目标视点，我们还可以将我们的模型应用于只有左右立体对可用的数据，例如KITTI [8]。Tulsiani等人显示了使用视图合成作为代理任务来从这些数据中学习两层分层深度图像（LDI）表示的可能性[31]。我们使用“原始”KITTI数据集中的22个城市类别序列在相同的数据上训练我们的模型因为相机是固定的，所以相对姿态总是向左或向右平移约0.5米。同样，尺度是恒定的，因此我们设置σ=1，并再次将梯度项添加到合成损耗。我们比较使用alpha时，它不能对软边缘进行建模，并且因为它的基于splat的渲染生成低分辨率输出以避免裂缝。这两种方法在图像边缘处都表现出许多伪影，因此我们在所有侧面裁剪掉图像的5%，然后计算所有像素上的PSNR和SSIM度量，并且还仅计算“未遮挡”像素上的PSNR和SSIM度量（如由多视图立体算法估计的）。为了与Tulsiani等人进行公平的比较，我们的“低分辨率”模型在分辨率上与他们的相匹配;我们还以更高的分辨率训练“完整”模型。这两种模式都比他们的模式有所改进我们预测的背景对整个图像的影响结果如表4所示，定性比较如图4所示。8.5. 结论我们展示了从单个图像输入预测用于视图合成的MPI的能力，而不需要地面真实3D或深度，并且我们引入了一种尺度不变的视图合成方法，该方法允许我们对具有尺度模糊性的数据进行训练，例如来自在线视频的数据我们的系统能够使用预测的背景图像来“内画”位于前景对象边缘后面的内容，即使在我们的系统中没有明确的修补步骤-尽管我们目前通常看不到多于几个一个可能的未来方向是将MPI预测与对抗性损失配对，看看是否可以实现更多、更真实的修复。我们在4个测试中对1079个图像对的合成视图序列与其预训练模型产生的序列进行比较。Tulsianiet al.是不太能够高质量的视图合成比我们的MPI，因为缺乏-鸣谢。这项工作得益于与 Jon Barron 、 Tali Dekel 、 JohnFlynn 、 Graham Fyffe 、 Angjoo Kanazawa 、 Andrew Liu 和Vincent Sitzmann的有益讨论。BB一一CC560引用[1] Gaura vChaurasia，Sylv ainDucheCologne ，Olg aSorkine-Hornung，and George Drettakis.深度合成和局部扭曲用于可信的基于图像的导航。《图形学报》，32：30：1-30：12，2013。2[2] Weifeng Chen，Shengyi Qian，and Jia Deng.使用质量评估网络从视频中学习在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。2[3] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度图预测NeurIPS，2014。三、四[4] John Flynn、Michael Broxton、Paul Debevec、MatthewDuVall、Graham Fyffe、Ryan Overbeck、Noah Snavely和Richard Tucker。Deepview：使用学习的梯度下降进行视图合成。在 IEEE 计算机视觉和模式识别会议（CVPR）上，2019年6月。一、二[5] John Flynn，Ivan Neulander，James Philbin，and NoahSnavely.DeepStereo ：学习从世界图像预测新的观点IEEE计算机视觉和模式识别会议论文集，2016。2[6] 埃德·甘布尔和托马索·波吉奥视觉整合和不连续性检测：强度边缘的关键作用。A.I.备忘录970，人工智能实验室，麻省理工学院，1987年。4[7] Ravi Garg，Vijay Kumar BG，Gustavo Carneiro，and IanReid.用于单视图深度估计的无监督CNN： Geome-尝试拯救。在ECCV，2016年。2[8] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：KITTI数据集。IJRR，2013年。8[9] Cl e´mentGodard，OisinMacAodha，andGabrielJBrost ow.具有左右一致性的无监督单目深度估计在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。二、四[10] Steven J. Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F.科恩光显仪。关于SIG-GRAPH 96，年度会议系列，1996年。2[11] Peter Hedman ，Julien Philip，True Price，Jan-MichaelFrahm，George Drettakis，and Gabriel Brostow.自由视点图像渲染的深度混合。ACMTransactions on Graphics（SIGGRAPH Asia），2018年。2[12] Nima Khademi Kalantari ， Ting-Chun Wang ， and RaviRa-mamoorthi.基于学习的光场相机视图合成。ACM事务处理图表，35（6）：193：1-193：10，2016. 2[13] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。5[14] TobiasKoch，Lukas Liebel，Friedrich Fraundorfer，andMarco K ¨rne r. 基于CNN的单图像深度估计方法的评价Laura Leal-Taixe和Stefan Roth，编辑，欧洲计算机视觉研讨会（ECCV- WS），第331施普林格国际出版社，2018年。六、七[15] Katrin Lasinger 、 Rene 'Ranftl 、 Konrad Schindler 和Vladlen Koltun。走向鲁棒的单眼深度估计：混合数据集的零拍摄交叉数据集传输。arXiv预印本arXiv：1907.01341，2019。二、三[16] Marc Levoy和Pat Hanrahan。光场渲染。在SIGGRAPH96会议录，年度会议系列，1996年。2[17] Zhengqi Li ， Tali Dekel ， Forrester Cole ， RichardTucker ， Noah Snavely ， Ce Liu ， and William T. 弗里曼。通过观察冷冻人来学习感动人的深度。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。4[18] 李正奇和诺亚·斯内弗利。Megadepth：从互联网照片中学习单视图深度预测在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。6[19] Miaomiao Liu，Xuming He，and Mathieu Salzmann.用于单图像新颖视图合成的几何感知深度网络。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。2[20] N. Maye r，E. Ilg，P. Hausser，P. Fische r，D. Cremers，A. Doso-vitskiy和T.布洛克斯用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。IEEE计算机视觉和模式识别会议论文集（CVPR），2016。arXiv：1512.02134。4[21] 作者： Ben Mildenhall ， Srinivasan ， Rodrigo Ortiz-Cayon，Nima Khademi Kalantari，Ravi Ramamoorthi，Ren Ng，and Abhishek Kar. 局部光场融合：具有规定采样指南的实用视图合成ACM Transactions on Graphics（TOG），2019年。2[22] 西蒙·尼克劳斯、龙迈、杨继美、刘峰。3D Ken Burns效果来自单个图像。 ACM Transactions on Graphics（TOG），2019年。二六七[23] Eric Penner和Li Zhang。用于视图合成的软3D重建。ACM Trans. Graph. ，36（6）：235：12[24] 托马斯·波特和汤姆·达夫合成数字图像。SIGGRAPH Comput. Graph. ，18（3）：253-259，1984. 3[25] Daniel Scharstein和Richard Szeliski。密集两帧立体对应算法的分类和评估国际计算机视觉杂志，4

下载后可阅读完整内容，剩余1页未读，立即下载