多平面图像合成与学习梯度下降的方法

153 浏览量更新于2023-10-19 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1DeepView：使用学习的梯度下降进行视图合成John Flynn，Michael Broxton，Paul Debevec，Matthew DuVall，GrahamFyffe，Ryan Overbeck，Noah Snavely，Richard Tucker{jflynn，broxton，debevec，matthewduvall，fyffe，rover，snavely，richardt}@google.com谷歌公司图1：DeepView架构。（a）网络从不同的视角拍摄一组稀疏的输入图像。（b，c）使用学习的梯度下降重建场景，产生多平面图像（一系列前平行的RGBA纹理平面）。（d）多平面图像适合于新颖视点的实时、高质量渲染。上面的结果使用了30cm×20 cm矩形布局中的四个输入视图。新的视图是用位于四个输入视图的质心处的虚拟相机渲染的摘要我们提出了一种新的方法来查看合成使用多平面图像（MPI）。基于最近在学习梯度下降方面的进展，我们的算法从一组稀疏的相机视点生成MPI。所得到的方法结合了遮挡推理，提高了具有挑战性的场景特征，如对象边界，灯光反射，薄结构，和具有高深度复杂性的场景的性能。我们证明了我们的方法在两个数据集上实现了高质量的最先进的结果：Kalantari光场数据集，以及一个新的相机阵列数据集Spaces，我们将其公开。1. 介绍光场提供了一种引人注目的方式，可以从一组连续的动态视点查看场景。最近的介绍-引入的多平面图像（MPI）表示将光场近似为布置在不同深度处的半透明彩色层的堆叠[32，34]，从而允许实时合成真实场景的新视图。MPI是一种功能强大的表示法，可以对复杂的外观效果（如透明度和Alpha抠图）进行建模。从一组稀疏的输入视图重建MPI是一个不适定的逆问题，就像计算机断层扫描（CT）或图像去模糊一样，我们想要估计一个参数数量远远大于有效测量数量的模型。可以使用基于梯度下降的优化方法来解决这样的逆问题，该优化方法通过前向模型（诸如在视图合成的情况然而，对于不适定的问题，这些方法可能过拟合的测量，需要使用先验的设计是困难的，往往依赖于数据。在视图合成的情况下，这样的过拟合导致具有明显视觉伪影的合成视图。23672368在这里，我们提出了DeepView，一种新的方法，用于从稀疏视图中估计多平面图像，使用学习梯度下降（LGD）。我们的方法实现了高质量的视图合成结果，即使在具有挑战性的场景薄的对象或反射。基于优化社区的最新想法[2，3，5]，该方法用生成参数更新的深度网络取代了简单的梯度下降更新规则。学习的最新规则的使用允许通过操纵梯度来学习模型参数的先验，有效地此外，与标准梯度下降相比，网络学习采取更大的参数特定步骤，从而只需几次迭代即可收敛。如图1所示，我们的方法将稀疏视图集作为输入从相机机架（图1（a））。然后，它使用学习的梯度下降来处理输入图像，以产生MPI（图1（b，c））。在内部，该模块使用卷积神经网络从输入视图预测初始MPI，然后通过考虑当前估计的学习更新迭代地改进此MPI。我们表明，对于这个问题的梯度有一个特别直观的形式，因为它们编码的输入视图和MPI层之间通过显式建模的可见性，我们的方法在传统上困难的领域，如边缘和区域的高深度复杂性，表现出更好的性能。所得到的 MPI 然后可以用于实时视图合成（图 1（d））。除了方法本身之外，我们还介绍了一个大型的，具有挑战性的光场捕获数据集，称为Spaces，适用于训练和测试视图合成方法。OnSpaces以及Kalantari等人的标准光场数据集。[16]，我们表明，我们的方法产生高质量的视图合成结果，优于最近的方法。2. 背景和相关工作视图合成和基于图像的渲染是视觉和图形学中的经典问题[8]。给定一组输入视图，姿态视图合成的一种方法是重建光场，这是一种直接表示穿过空间体积的所有光线的4D函数，从中可以生成适当区域内的任何视图[19，13]。然而，测量密集采样的光场很少是实际的相反，场景通常使用稀疏采样光场的有限数量的视点来记录[20]。视图合成研究集中在开发先验，帮助从这样的稀疏测量恢复密集的光场。一些现有的视图合成方法将显式pri- ors放在光场本身上。例如，通过假设朗伯反射率[18]，或者光场在傅立叶[27]或Shearlet变换域[30]中是稀疏的，可以实现某种程度的平滑视图插值。然而，这些没有明确建模场景几何的方法可能难以正确区分场景其他方法显式地重建3D几何结构，诸如全局3D重建[15]或使用多视图立体算法的每输入视图深度图的集合[37，6，20]。然而，基于显式3D重建的这种方法难以重建或表示复杂的外观效果，诸如镜面高光、透明度和半透明相比之下，我们使用称为多平面图像（MPI）的场景表示[34]，它提供了比深度图或三角形网格更灵活从一组输入图像预测MPI的任何方法都需要考虑预测的MPI和输入视图之间的可见性，以便正确表示在某些输入视图中被遮挡的空间区域在这方面，该任务类似于关于体素着色的经典工作[26]，其使用遮挡感知算法计算着色（不透明）体素类似地，Soft3D [21]通过推理其相对遮挡来改进初始深度图生成MPI的一种方法是使用梯度下降迭代优化其参数，以便在渲染MPI时再现输入图像。通过迭代地改进MPI，这种方法本质上对MPI和输入图像之间的可见性进行建模。然而，给定一组有限的输入视图，MPI参数通常是欠定的，因此简单的优化将导致过拟合。因此，特殊先验或正则化必须使用战略[32]，这是很难设计的。另一方面，最近的工作表明，有效的-深度学习对视图合成的重要性。早期的方法，如所谓的DeepStereo方法[12]和Kalantari等人的工作。[16]需要为每个期望输出视图运行深度网络，因此不太适合于实时视图合成。相比之下，Zhouet al.通过学习的前馈网络直接从两个输入图像预测MPI [34]。这些方法通常将输入图像作为平面扫描体积（PSV）[11，29]传递到网络，这消除了明确提供相机姿态的需要，并且还允许网络更有效地确定图像之间的对应性。然而，这样的网络没有内在的能力来理解输入视图和预测的MPI之间的可见性，而是依赖于网络层来学习对这样的几何计算进行由于场景的远距离部分可能彼此遮挡，因此有效地对这种可见性进行建模所需的网络连接的数量可能变得非常大。在这项工作中，我们采用了一种混合方法，结合了上述两个方向-估计和学习：我们将MPI生成建模为要使用学习的梯度下降算法来解决的逆问题[2，3]。在推断时，该算法迭代地计算当前MPI相对于输入图像的梯度，并用CNN处理梯度以生成更新的MPI。这种更新的CNN学习（1）避免过拟合，（2）采取大的步骤，因此在推理时只需要几次迭代，以及（3）通过利用在早期迭代中计算的可见性来推理没有密集连接的遮挡这种优化可以被看作是一系列梯度下降步骤，这些步骤被23691KM其中每个步骤通过合并在先前迭代中计算的视觉来细化MPI。从另一个角度来看，我们的网络是一个循环网络，在每一步都用有用的几何操作来增强（例如将MPI扭曲和合成到不同的相机中其中Lk（M）=L（Ik，O（Wk（M）是一个损失函数，用来度量预测测量值和观测测量值之间的不一致性，Φ是M的先验。这种非线性优化可以通过迭代方法来解决，例如梯度下降，其中更新规则（步长为λ）由下式给出视图），这有助于传播可见性信息。ΣΣK （男）Σ直径Φ（M）3. 方法Mn+1=Mn−λkn+n.（四）我们使用最近的k=1MnMn介绍了多平面图像表示[34]。MPIM由D平面组成，每个平面都有一个相关的H×W×4RGBA图像。这些平面相对于虚拟参考相机定位在固定深度处，等距地间隔开。学习梯度下降（LGD）[2，3]通过用学习组件替换标准梯度下降规则，将经典梯度下降和深度学习相结合：根据逆深度（视差），按照从后到前的顺序，d1，d2，. d D，在参考凸轮的视锥体内-Mn+1= M.（男）+Nn，的。. . 、K.L.K（Mn）、、、时代参考相机nωMnMnn（五）它覆盖了这些摄像机的联合可见的空间区域我们将平面d的图像的RGB颜色通道称为cd，将对应的alpha通道称为αd。为了将MPI渲染成RGB图像，我们首先扭曲MPI图像，然后从后到前过度合成[22]时间复杂度为O（Wk（M））其中，扭曲算子Wk（M）经由单应性将DMPI图像中的每一个扭曲到视图kMPI参考相机的函数、平面的深度和目标视图k[34]。重复算子[22]O有一个紧凑的形式，假设预乘αcd1：其中Nω是由一组参数化的深度网络，权重ω。(In实际上，如3.2节所述，我们不需要显式指定L或计算全梯度。）网络处理梯度以生成对模型参数的更新。注意，λ和Φ已经被折叠成Nω。这使得Nω能够学习M的先验知识以及自适应的、特定于参数的步长。为了训练网络，我们展开N次迭代网络，得到完整的网络，记为Mω.我们通过将最终MPIMN渲染到保持的视图并与相应的地面实况图像进行比较来我gt，在一些训练损失Lf.网络参数ω的优化在许多训练元组（I1，.， IK，Igt），在各种各样的场景中，使用随机梯度下降：O（M）=ΣDCdd=1YDi=d+1（1−αi），（2）在E[Lf（Igt，O（Wgt（Mω（I1，.， IK）]。（六）ω在训练之后，所得到的网络可以应用于新的，其中M是扭曲到视图的MPI我们称之为-括号内的术语是深度平面d处的净透射率，因为它表示在通过d前面的平面衰减之后将保留的颜色的分数。看不见的场景3.2.查看合成梯度LGD要求在每个点处的损失L（I，I）的梯度在本文中，我们试图解决反问题asso-kK与Eq. 1.一、也就是说，我们希望计算一个MPIM，不仅再现输入的意见，但也产生现实的新颖的意见。由于MPI平面的数量通常大于输入图像的数量，因此MPI中的变量数量将远大于输入图像中的测量数量。3.1.用于视图合成的逆问题通常通过最小化来解决，例如：ΣK迭代我们表明，对于我们的问题，对于任何损失L，梯度有一个简单的解释，作为一个小的函数，隐式编码场景可见性的组件集我们可以将这些梯度分量直接传递到更新网络中，避免显式定义损失。第k个渲染图像的梯度是扭曲操作Wk的梯度和覆盖操作O的梯度通过链式法则的组合。扭曲操作符过操作的梯度简化为特别简单的形式：argminMk=1Lk（M）+ Φ（M），（3）（男）YDc=Σ2370（1−αi）;（7）1对于预乘颜色，假设颜色通道已经di=d+1乘以αfront，因此两个图像覆盖操作减少为c覆盖=c front+（1 − α front）cback。2如果扭曲是完全抗锯齿的，则它们完全等效。2371k k kk图2：我们学习的梯度下降网络。（a）初始化CNN基于输入图像的平面扫描体积生成初始MPI。更新CNN的序列基于计算的梯度分量生成对MPI的更新（在（b）中详细描述）。所有CNN共享相同的核心架构（见图1）。3）但是用不同的权重进行训练。（b）代替显式损失梯度，我们计算每视图梯度分量，在3.2节中定义。(The黑色圆圈表示信道级级联。（男）αd捷克共和国-1=−i=1dY−1Cij=i+1ΣΣ（1−αj）YDi=d+1Σ（1 −αi）。（八）因此，不需要明确指定每次迭代的损失。（然而，我们仍然必须定义最终的训练损失Lf，如3.3节所述。相反，为网络提供足够的信息就足够了，我们把第一个括号内的术语称为累积的在深度切片D处。它表示当前深度切片后面的所有深度切片第二个分支项也是净透射率。这些每切片表达式可以堆叠以形成包含梯度w.r.t.的3D张量。所有切片。我们将计算在上的累积的算子表示为A和相应的网。透射算子为T。定义累计超过在视图k中计算为Ak=A（Wk（M）），并且相应计算的净透射率为Tk=T（Wk（M））。任何损失函数的梯度w.r.t.到M将必然是某个函数，其中Ik，Ak和净透射率Tk。因此，在没有明确定义损失函数的情况下，我们可以将其梯度写成这些输入的函数：计算所需的梯度。这种灵活性，如我们在第4.2节中的消融实验所示，允许网络学习如何在LGD迭代期间最好地使用渲染和输入图像。我们注意到，这与[2]中讨论的原始-对偶方法有关，其中对偶算子在测量空间中学习。我们学习的梯度下降网络在图中可视化。2，可以直观地解释如下。我们通过初始化CNN馈送输入图像的平面扫描体积来初始化MPI，类似于Flynn等其他视图合成网络的早期层。[12 ]第10段。然后，我们通过计算并将每个视图的梯度分量馈送到更新的CNN中来迭代地改进MPI。有趣的是，使用输入图像的平面扫描体积进行初始化等效于Lk（M）−1↑˜↑运行一个更新步骤，初始MPI切片设置为M=F（Wk （[Ik，Ik，Ak，Tk]）），（9）其中，方括号之间的张量是逐通道级联的，并且↑表示重复2D图像以生成3D张量的广播操作符。我们定义零颜色和α= 0，进一步激发了立体和视图合成中平面扫描体的传统使用。直观地说，由于梯度分量包含净透射率并且在其上累积，因此它们是更新CNN的有用输入，因为它们使可见光的传播成为梯度分量=W−1（[I↑，I↑，A，T]）MPI和输入视图之间的数据信息。为氮钾KKkkk注意，W-1（I↑）和W-1（I↑）是相应图像的相似平面扫描体积。在LGD中，计算的梯度直接传递到网络Nω中;因此F是冗余的-如果需要，它可以由Nω复制。相反，我们传递梯度分量将n，k直接转换为Nω：Mn+1= Mn+ Nω（n，1，. . . ，n，K，Mn）。（十）2372例如，如果MPI切片中的像素在给定的视图，如净透射率的值所指示的，则更新网络可以学习忽略该像素的该输入视图。类似地，在MPI切片内的特定像素处的视图的累积指示视图已经由该切片后面的内容解释得有多好。我们注意到，通过迭代地提高可见性信息，我们的方法与Soft3D方法有相似之处。237316 3x3M2x2n空间到深度转换为RGBArn，12x2空间深度rn，2rn，K2x2空间深度2x2空间深度Mn图3：DeepView更新CNN。卷积层被标记为滤波器的数量，然后是内核大小。所有卷积都使用Elu [10]激活，除了最后一个不使用激活。类似地，具有虚线轮廓的下采样操作仅在初始化和第一次迭代期间使用。最大k运算计算k个输入张量的元素最大值黑色圆圈表示按通道级联。“Convert to RGBA”块将sigmoid激活应用于其输入的前四个通道，以生成范围[0，1]内的初始化CNN具有相同的架构，但是没有Mn输入，并且代替梯度分量，我们输入输入图像的PSV。3.3. 执行我们现在详细介绍我们如何实现所描述的学习梯度下降方案。每次迭代的网络架构。对于初始化和更新网络，我们采用2D卷积神经网络（CNN）。CNN的输入是当前MPI和计算出的梯度分量（或者，对于第一次迭代，输入图像的PSV）。在一次迭代中，相同的2D CNN（具有相同的参数）在每个深度切片上运行，这意味着CNN在所有三个MPI维度上都是完全卷积的，并且允许在训练后更改MPI深度平面的分辨率和数量。这允许以高分辨率和不同数量的深度平面执行推断。我们调整了最近关于聚合多个输入的想法[23，24，35]来设计我们的核心每次迭代CNN架构，如图所示。3.第三章。我们首先将每个视图梯度分量n，k与当前MPI的RGBA值连接起来，并通过几个卷积对其进行变换。将元素层放入特征空间。然后，通过在交叉视图最大池化和进一步的卷积层之间交替的几个阶段来处理每个视图的特征，因此，视图之间的唯一交互是通过最大池操作，导致网络设计独立于输入视图的顺序此外，该网络设计可以用任何布局中的任何数量的输入视图来训练有趣的是，这也开辟了一个单一网络的可能性，它可以在可变数量的输入视图上运行，并具有可变的布局，尽管我们还没有探索过这一点。我们对更新和初始化CNN使用相同的核心CNN架构，然而，在[2]之后，我们对每次迭代使用不同的参数。如在[2]中，我们包括额外的通道（在我们的实验中为4个），除了RGBA频道。3这些额外的通道从一次迭代传递到下一次迭代，可能允许模型模拟高阶优化方法，如LBFGS[36]。此外，我们发现使用单级U-Net风格的网络[25]（即对CNN输入进行下采样并对其输出进行上采样）进行前两次迭代减少了RAM和执行时间，对性能的影响可以忽略不计我们网络实施的一个主要挑战是RAM的我们通过丢弃[9]中描述的每个每次迭代网络中的激活以及MPI卷中的平铺计算来减少所另外，在训练过程中，我们只能产生足够的以在目标图像中渲染32×32像素裁剪更多细节见补充材料。训练数据。每个训练元组由一组输入视图和目标视图中的裁剪组成。我们在补充材料中提供了如何从Spaces 数据集生成训练元组的详细信息。对于Kalantarietal. [16]我们遵循他们论文中描述的程序我们的网络设计允许我们在训练后改变平面的数量和深度然而，网络可能过拟合到在训练期间使用的特定平面间间距。我们通过在训练期间对MPI平面的深度应用随机抖动来减轻这种过度拟合训练损失函数。我们使用特征相似性[7，33]作为我们的训练损失Lf，特别是预先训练的VGG-16网络的conv 1 2，conv 2 2和conv 3 3层[28]，采用[7]中讨论的每层缩放方法。训练参数。我们在Ten- sorFlow [ 1 ]中实现了我们的模型，并使用ADAM优化器[17]，学习率为0。00015。补充材料和表1进一步描述了我们实验中使用的超参数和训练设置。3请注意，在下面的讨论8个2x2距深64/1664/16最大k961x1 961x1…1281x1 1281x1最大k128 1x1641x1641x164 1x1…961x1961x1最大k96 1x196 1x196 1x196 1x124 3x324 3x324 3x364 3x364 3x3…64 3x364 3x364 3x332 3x364 3x332 3x332 3x316 3x316 3x316 3x3…23744. 评价我们在两个数据集上评估我们的方法：Kalantari等人的 Lytro数据集。[16]和我们自己的空间数据集。Lytro数据集通常用于视图合成研究，但每次捕获的基线受到Lytro Illum镜头孔径的小直径的限制相比之下，由于较大的相机分离和稀疏采样的视点，源于相机阵列捕获的视图因此，我们引入了我们的新数据集，空间，为未来的视图合成研究提供一个更具挑战性的共享数据集。空间由100个室内和室外场景组成，使用16台摄像机拍摄（见图）。4）.对于每个场景，我们在5-10个稍微不同的装备位置（彼此在10 cm以内）捕获图像集。钻机位置的抖动为视图合成提供了灵活的数据集，我们可以在训练期间混合来自不同装备位置的视图用于同一场景。我们使用标准运动结构方法[14]校准了钻机相机的内在和相对姿态，使用标称钻机布局作为先验。我们用一种方法类似于[4]。在我们的主要实验中，我们对图像进行了反失真处理，并将其降采样到800×480的分辨率。在我们的烧蚀实验中，为了方便起见，我们使用了512×300的较低分辨率。我们使用数据集中的90个场景进行训练，并保留10个用于评估。4.1. 定量结果我们将我们的方法与Soft3D和基于Zhou等人的更直接的深度学习方法进行了比较。[34]。我们还进行了消融，以研究模型中不同组件的重要性以及LGD迭代次数输入视图评估视图32 1045 6 7812 11 10 913 14 1512-视图表1：实验配置。U-Net行中的检查表明，核心CNN在前两次LGD迭代中以较低的分辨率运行。除对于一些实验，我们在最后20K次迭代中使用更大的批处理大小进行了微调Kalantari 4-视图 12-查看消融迭代输入视图441244U-Net✗✓✓✓✗#飞机训练2864642020#平面推断2880802020训练迭代300K100K100K60K80K批量（微调）32（64）二十（四十）二十（四十）3232表2：Kalantari Lytro数据的SSIM。（越高越好）。场景Soft3DDeepView场景Soft3DDeepView花卉10.95810.9668岩石0.95950.9669花卉20.96160.9700离开0.95250.9609汽车0.97050.9725（平均）0.96040.9677我们在表1中提供了不同实验设置的详细信息。在所有实验中，我们通过使用SSIM [31]与地面真实图像进行比较来衡量图像质量，SSIM的范围在-1到1之间（越高越好）。对于消融实验，我们包括在消融期间使用的特征损失。训练，这对相对比较很有用（越低越好）。Kalantari et al的数据集上的结果。我们在Kalantari等人的数据上训练DeepView模型。[16]使用他们所描述的列车试验分割和评估程序。如表2所示，我们的方法提高了平均SSIM得分为18%（0.9674 vs.0.9604）优于之前最先进的Soft3D [21]。空间的结果。可以使用不同的输入相机配置来评估Spaces我们使用具有不同基线的输入视图训练了三个4视图网络，以及一个密集的12视图网络（如图所示）4）. 我们发现我们的方法的性能随着输入视图的数量而提高。当训练所有网络时，目标视图是从所有附近抖动的钻机位置中选择的，尽管我们只评估来自与输入视图相同的钻机的视图，如图所示。五、为了提高效率，在我们的一些实验中，我们在比我们在推理过程中使用的平面数量更少的平面上进行训练，如图所示。五、这些实验的近平面深度设定为0.7 m。为了比较，Soft3D的作者在S空间上运行他们的我们在表3中示出了这些结果。我们也小基线中基线四视图大基线将DeepView结果与[34]中描述的网络变体产生的结果进行我们调整他们的网络，通过将3个次要视图的平面扫描体积连接到主要视图上，使用4个更宽的基线输入视图图4：Spaces数据集是使用16的数组捕获的相机摄像机之间的水平和对角线距离约为10厘米。我们尝试了不同的输入和评估视图，如图所示。参见第4更多细节视图（4个视图的左上角），将平面数增加到40，并将内部特征数增加50%。由于密集的跨深度平面连接造成的RAM和速度限制，2375062056063地面实况Soft3DDeepView地面实况Soft3DDeepView地面实况Soft3DDeepView（一）（b）第（1）款（c）第（1）款图5：Spaces数据集上的DeepView结果，12视图配置。（顶行）使用针对评估相机视点7示出的12个输入视图的合成视图（参见图1）。见图4）。左上角的索引表示Spaces场景编号。（中间行）由DeepView MPI生成的深度可视化显示了在精细结构（如电线和树叶）中恢复的深度信息。（底行）每个三元组显示比较地面实况（左）、Soft3D（中）和DeepView（右）的裁剪视图。表3：Spaces数据集上的SSIM。[34]+表示从[34]改编的DeepView配置[21]第二十一话[34]+40平面80平面4-视图（小基线）0.92600.88840.95410.95614-视图（中基线）0.93000.88740.95440.95794-视图（大基线）0.93150.86730.94850.954412-视图0.9402n/a0.96300.9651进一步增加这些参数，或者训练这个模型的12视图版本。在所有实验中，我们的方法产生的SSIM分数显著高于Soft3D和Zhou等人。模型[34]。在Spaces上，我们将Soft3D 的平均 SSIM 分数提高了 39% （ 0.9584 vs.0.9319）。此外，我们的方法在更宽的基线上保持了良好的性能，并且随着输入图像的数量从12视图实验中使用的4个相机增加到12个相机而有所改善基于[34]的模型的性能不如DeepView，即使两种算法配置了相同数量的MPI平面（见表3）。这可能是因为他们的原始模型是为窄基线立体相机对设计的，并且依赖于网络连接来在整个体积中传播可见性。随着基线的增加，需要越来越多的连接来传播可见性和性能，如最大基线配置的结果所示4.2. 消融和迭代研究梯度组件。在这个实验中，我们将一个或多个梯度分量设置为零，以衡量它们对算法的重要性。我们还测试了在LGD迭代过程中传递显式L2损失的梯度而不是梯度分量的效果。结果示于表4中。实验详情见表1。当包括所有梯度分量时，实现了最佳性能（就特征损失而言）当移除所有组件时，完整网络等效于独立地在每个深度切片上操作的残余网络，而没有跨深度切片的交互。正如预期的那样，在这种配置下，模型的性能很差。在这两个极端之间，性能下降，如SSIM和特征损失以及补充材料中提供的示例图像所我们注意到，我们的训练优化了特征损失，并且与SSIM相比，通过这种损失衡量的性能下降要大得多。迭代次数。我们还测量了LGD迭代次数从1到4的变化效果。单次迭代仅对应于初始化网络，并且预期的性能很差。所得结果改进随着迭代次数的增加。我们注意到四次迭代确实比三次迭代有所改进。它2376表4：消融研究。每次运行代表一个实验，包括标记为渲染图像（R）、透射率（T）和3次迭代累积的梯度分量（A）标记为“L2”的运行标记为“N“的实验按SSIM降序排列;还显示了特征损失（Lf）（越低越好）运行 SSIMLf运行SSIMLfNSSIMLfR-A0.94611.1960.9397美元1.27140.9461 1.146RTA0.94461.1790.9389美元1.25030.9445 1.202RT-0.94341.232-0.93201.39020.9417 1.242-TA0.94351.238-0.90751.76510.8968 2.003R--0.94091.243测试更多的迭代会很有趣。然而，由于内存限制，我们无法测试超过四次迭代，即使是四次迭代也需要太多的内存，在更高的分辨率下也不实用。4.3. 定性结果我们在图中直观地将我们的方法与地面实况和Soft3D进行了比较。我们注意到Soft3D结果中的一般柔软度以及边缘周围的伪影。相比之下，DeepView在传统上难以进行视图合成的区域中产生令人信服的结果，包括边缘，反射和高深度复杂性的区域。这一点在补充材料中包含的交互式图像比较工具中可以最好地看到，该工具允许仔细检查DeepView和Soft3D结果之间的差异在图5a中，我们的模型在桌子上产生了合理的反射，并在植物上产生了令人信服的叶子，其中深度复杂度很高。图5b我们的方法重现了楼梯上的图图5C显示了树内复杂树叶的清晰重建有趣的是，DeepView甚至可以渲染漫反射，例如图15b（虚线框）。实现这一点的方式可以在相应的深度图中看到-MPI中的透明alpha值允许查看者图中的作物。图5c示出了我们的方法和Soft3D的困难场景区域。我们注意到，遮挡镜面是特别困难的MPI表示。在此示例中，MPI将检查床表面放置在远平面上，以模拟其反射表面。然而，相同的表面也应该遮挡较近的椅子腿。最终的结果是桌子表面变得部分透明，椅子腿可以透过它看到。5通过用假颜色替换MPI的颜色通道而产生，同时保留原始α值。4该可视化显示了边缘周围MPI的清晰度，即使在复杂的区域，如树枝。[4]这种可视化的交互式版本包含在柔性材料中。5. 讨论我们已经表明，基于用学习梯度下降求解的MPI的视图合成模型产生了最先进的结果。我们的方法可以在P100 GPU上在大约50秒内从一组4个输入图像中推断出MPI该方法是灵活的，并且允许在训练之后改变分辨率以及深度平面的数量和深度。这使得使用中等距离场景对象训练的模型即使在需要更多深度平面来捕获近距离对象的场景中也能表现良好缺点和限制：我们的方法的一个缺点是实现的复杂性和RAM的要求和训练的速度，这需要几天的多个GPU。我们的模型产生的MPI共享与所有基于平面扫描体积的方法相关联的缺点在于深度平面的数量需要随着最大视差而增加。为了对更大的场景建模，使用多个MPI并在它们之间过渡可能是有利的。最后，我们目前的实现只能用固定数量的输入视图来训练模型，尽管我们使用最大池来聚合视图表明未来有可能消除这一限制。今后的工作：虽然我们的模型没有经过训练来解释深度，但我们对模型产生的深度可视化的质量感到惊讶，特别是在对象边缘周围。然而，在平滑场景区域中，可视化似乎不太准确，因为我们的培训目标中没有任何内容一个有趣的方向是在训练期间包括地面实况深度损失。MPI在生成逼真的合成大小的图像方面非常有效，并且已被证明适合深度学习。然而，对于由大面积空白空间组成的真实场景，它是过度参数化的在MPI上实施稀疏性，或者开发具有类似质量的更简约的表示，是未来工作的另一个有趣领域6. 结论我们提出了一种新的方法来推断多平面图像场景表示学习梯度下降。我们证明了所得到的算法具有直观的解释：梯度分量编码视觉信息，使网络能够推理遮挡。由此产生的方法在困难的真实数据集上表现出最先进的性能。我们的方法显示了学习梯度下降解决复杂的非线性逆问题的承诺。致谢我们要感谢Jay Busch和Matt Whalen设计和构建我们的摄像机装备，Eric Pen- ner帮助进行Soft 3D比较，以及OscarBeijbom的一些帮助。好主意。2377引用[1] M. Abadi、A. Agarwal，P. Barham，E. Brevdo，Z. 陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖-马瓦特岛。Goodfellow，A.Harp，G.Irving，M.Isard，Y.贾，R. 约瑟夫奥维奇湖Kaiser，M.Kudlur，J.L evenber g，D.伙计，R. Monga、S. 穆尔，D. 默里角奥拉山舒斯特J. 什伦斯湾施泰纳岛 Sutskever ， K. 塔尔瓦尔山口Tucker，V.范厚凯，维。 Vasud ev an，F. Vi egas，O. Vin yals，P. 华登，M. Wattenberg，M. Wicke，Y. Yu和X.郑张量-流量：异构系统上的大规模机器学习， 2015 年。软件可从tensorflow.org获得。5[2] J. Adler和O.好的。学习原始对偶重建。IEEE医学成像学报，37：1322二三四五[3] Adler和O. ktem。使用迭代深度神经网络解决不适定逆问题。Inverse Problems ，33（12）：124007，2017.二、三[4] R. 安德森，D.J·T·盖洛普Barron，J. Kontkanen，N. 斯内夫利，C.H. Esteban，S.Agarwal和S.M. 塞茨跳转：虚拟现实视频。2016. 6[5] M. Andrychowicz，M.Denil，S.G. Colmenarejo，M.W.Hoff-man，D.Pfau，T.Schaul和N.de Freitas通过梯度下降来在NIPS，2016年。2[6] G. Chaurasia、S. Duch eQuarne，O. Sorkine-Hornung和G.恐怖的。深度合成和局部扭曲的似是而非的图像为基础的导航。《图形学报》，32：30：1-30：12，2013。2[7] Q. Chen和V. Koltun.使用级联细化网络的摄影图像合成。CoRR，abs/1707.09405，2017。5[8] S. E. Chen 和 L. 威廉姆斯图像合成中的视图插值在SIGGRAPH 93会议记录，年度会议系列，1993年。2[9] T.陈湾，澳-地Xu，C. Zhang和C. Guestrin.训练具有次线性内存开销的深度网络。 CoRR ， abs/1604.06174 ，2016。5[10] D. Clevert，T. Unterthiner和S. Hochreiter。通过指数线性单元（elus）进行快速准确的深度网络学习。CoRR，abs/1511.07289，2015年。5[11] R. T.柯林斯一种真正的多图像匹配的空间扫描方法。在CVPR，1996年。2[12] J. 弗林岛Neulander，J.Philbin和N.很聪明DeepStereo：学习从世界图像预测新的观点。在CVPR，2016年。二、四[13] S.戈特勒河格热什丘克河Szeliski和M. F.科恩光显仪。在SIGGRAPH 96会议录，年度会议系列，1996年。2[14] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，纽约，美国纽约，第2版，2003年。6[15] P. Hedman，S.阿尔西桑河Szeliski和J.科普夫休闲3D摄影。ACM Trans. Graph. ，36（6）：234：12[16] N. K. Kalantari，T.-C. Wang和R.Ramamoorthi基于学习的光场相机视图合成。ACM事务处理图表，35（6）：193：1-193：10，2016. 二、五、六2378[17] D. P. Kingma和J. BA. Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。5[18] A. Levin和F.杜兰德使用维度间隙光场先验的线性视图合成CVPR，2010。2[19] M. Levoy和P.汉拉汉光场渲染。在SIGGRAPH 96年会系列会议上，1996年。2[20] R. S. Overbeck，D.Erickson，D.Evangelakos，M.Pharr，以及P. E.德贝维克一种用于获取、处理和绘制用于虚拟现实的全景光场静止图像的系统。 CoRR ，abs/1810.08860，2018。2[21] E. Penner和L.张某用于视图合成的软3D重建。 ACMTrans. Graph. ，36（6）：235：1二六七[22] T. Porter和T.达夫合成数字图像。SIG-图形计算Graph. ，18（3）：253-259，1984. 3[23] C. R. Qi，H. Su，K. Mo和L.吉巴斯PointNet：对点集进行深度学习，用于3D分类和分割。在CVPR，2017年。5[24] C. R.齐湖，加-地Yi，H. Su和L.吉巴斯PointNet++：度量空间中点集的深度层次特征学习。在NIPS，2017年。5[25] O. Ronneberger，P.Fischer，and T.布洛克斯U-网：用于生物医学图像分割的卷积网络。在医学图像计算和计算机辅助干预（MIC-CAI）中，LNCS第9351卷，第234施普林格，2015年。（可在arXiv：1505.04597 [cs.CV]上获得）。5[26] S. M. Seitz和C. R.戴尔基于体素着色的真实感场景重建。IJCV，35：151-173，1997. 2[27] L. Shi，H. Hassanieh，A. Davis、D. Katabi和F.杜兰德利用连续傅立叶域中的稀疏性重建光场。Trans. onGraphics，34（1）：12：1-12：13，Dec. 2014. 2[28] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556，2014。5[29] R. Szeliski 和P. 戈兰具有透明度和抠图的立体匹配IJCV，32（1），1999. 2[30] S.瓦加尔沙基扬河Bregovic和A.戈切夫基于剪切波变换的光场重建。IEEE Trans. PAMI，40（1）：133-147，1月。2018. 2[31] Z. Wang，中国山核桃A. C. Bovik，H. R. Sheikh和E.西蒙切利图像质量评估：从错误可见性到结构相似性。透射图像Proc. ，13（4）：600-612，Apr. 2004. 6[32] G. Wetzstein，D. Lanman，

下载后可阅读完整内容，剩余1页未读，立即下载