DeepViewMorphing:一种新型CNN架构用于视图合成

17 浏览量更新于2023-10-16 收藏 12.69MB PDF 举报

视图合成

计算复杂性

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2I1I2R1R2121550Deep View Morphing0Dinghuang Ji �0北卡罗来纳大学教堂山分校0jdh@cs.unc.edu0Junghyun Kwon †0Ricoh Innovations0junghyunkwon@gmail.com0Max McFarlandRicoh Innovations0max@ric.ricoh.com0Silvio SavareseStanford University0ssilvio@stanford.edu0摘要0最近，卷积神经网络（CNN）已成功应用于视图合成问题。然而，这些基于CNN的方法可能会缺乏纹理细节、形状扭曲或高计算复杂性。在本文中，我们提出了一种名为“DeepViewMorphing”的新型CNN架构，它不受这些问题的困扰。为了合成两个输入图像的中间视图，首先使用矫正网络对两个输入图像进行矫正。然后，编码器-解码器网络生成矫正图像之间的密集对应关系和混合掩模，以预测矫正图像在中间视图中的可见性。最后，视图变形网络使用密集对应关系和混合掩模合成中间视图。我们的实验证明，所提出的方法在CNN-based视图合成方法方面明显优于现有技术。01. 引言0视图合成是基于一组现有可用视图创建未见过的新视图。它在计算机视觉和图形学中有许多吸引人的应用，例如基于2D图像的虚拟3D导览和具有3D对象操作能力的照片编辑。传统上，视图合成问题通过基于图像的渲染[1, 19, 20, 28, 22, 9, 27, 30]和基于3D模型的渲染[15, 25, 33,14, 7, 31,12]来解决。最近，卷积神经网络（CNN）已成功应用于各种视图合成问题，例如从单个视图合成多个视图[32,29]，视图插值[6]或两者兼而有之[36]。尽管它们的结果令人印象深刻且有希望，但它们仍然存在局限性。像[32]和[29]这样的直接像素生成方法具有整体几何形状预测良好的主要优势，但它们的合成结果通常缺乏细节纹理。另一方面，像[6]和[36]这样的像素采样方法可以合成具有详细纹理的新视图，但它们受到高计算复杂性[6]或几何形状扭曲[36]的影响。在本文中，我们提出了一种名为“Deep ViewMorphing”的新型CNN架构，它不受这些问题的困扰。为了合成两个输入图像的中间视图，首先使用矫正网络对两个输入图像进行矫正。然后，编码器-解码器网络生成矫正图像之间的密集对应关系和混合掩模，以预测矫正图像在中间视图中的可见性。最后，视图变形网络使用密集对应关系和混合掩模合成中间视图。我们的实验证明，所提出的方法在CNN-based视图合成方法方面明显优于现有技术。0� 大部分工作是在作者2016年在Ricoh Innovations的暑期实习期间完成的。†该作者目前在SAIC创新中心工作。0矫正网络（图2）0C0! "#$.& R编码器-解码0视图变形网络（图6）0图1. Deep ViewMorphing的整体流程。一个矫正网络（橙色，第3.1节）接收I1和I2，并输出矫正对R1和R2。然后，一个编码器-解码器网络（蓝色，第3.2节）接收R1和R2，并输出密集的对应关系C和混合掩模M1和M2。最后，一个视图变形网络（绿色，第3.3节）使用R1、R2、M1、M2和C合成中间视图Rα=0.5。0例如[6]和[36]可以合成具有详细纹理的新视图，但它们受到高计算复杂性[6]或几何形状扭曲[36]的影响。在本文中，我们提出了一种新颖的CNN架构，可以在视图插值设置下高效合成具有详细纹理和保持几何形状的新视图。我们主要受到Seitz和Dyer的经典工作“ViewMorphing”的启发，该工作通过对矫正图像对应像素进行简单线性插值，展示了合成保持形状的新视图是可能的。遵循ViewMorphing的精神，我们的方法引入了一种新颖的深度CNN架构来推广[27]中的过程，因此我们将其命名为Deep ViewMorphing（DVM）。图1显示了DVM的整体流程。矫正网络（图1中的橙色部分）接收一对输入图像并输出矫正图像对。然后，编码器-解码器网络（图1中的蓝色部分）接收矫正图像对，并输出它们之间的密集对应关系和混合掩模。最后，视图变形网络（图1中的绿色部分）使用密集对应关系和混合掩模合成中间视图。DVM的新颖之处在于：•在视图合成阶段之前添加矫正网络的想法-这是关键的，因为矫正保证了对应关系应该是1D的，这使得编码器可以进行对应关系搜索-21560解码器网络的设计使得DVM可以获得高度准确的对应关系，从而获得高质量的视图合成结果。矫正网络受到[16]的启发，该网络学习如何将输入图像转换为最大化分类准确性。在DVM中，矫正网络学习如何为矫正的输入图像对进行变换。•与[36]相比，DVM不需要除了输入图像对之外的其他信息，后者需要视点变换信息，而[6]需要相机参数和高维度的输入图像表示。•由于DVM的所有层都是可微分的，它可以通过在最后进行单一损失的端到端训练来高效地训练。在第4节中，我们通过实验证明：（i）DVM不仅可以为ShapeNet3D模型渲染的合成图像产生高质量的视图合成结果，还可以为Multi-PIE数据[10]的真实图像产生高质量的视图合成结果；（ii）通过广泛的定性和定量比较，DVM在视图插值设置下明显优于[36]，这是目前最先进的基于CNN的视图合成方法；（iii）DVM在训练中很好地推广到未使用的类别；（iv）可以利用预测的对应关系合成中间视图之外的所有中间视图。01.1. 相关工作0传统方法的视图合成。早期基于图像渲染的视图合成工作包括著名的Beier和Neely的基于特征的变形[1]以及用于生成人脸[30]和人体棒图的新视图的基于学习的方法[19]。对于保持形状的视图合成，已经添加了几何约束，例如每个像素的已知深度值[3]，一对图像之间的极线约束[27]以及链接三个图像之间对应关系的三线性张量[28]。在本文中，DVM使用单个CNN架构推广了[27]中的过程。通过将重建的3D模型渲染到虚拟视图，可以使用运动结构进行视图合成。这通常涉及相机姿态估计[12, 31, 35]和基于图像的3D重建[7,34]的步骤。然而，由于这些方法依赖于视图之间的像素对应关系，它们的结果在无纹理区域可能存在问题。通常需要用户的干预才能获得准确的对象或场景的3D几何形状[15,25, 33,14]。与这些基于3D模型的方法相比，DVM可以预测纹理区域甚至无纹理区域的高度准确的对应关系，而且不需要用户或领域专家的干预。0CNN的视图合成。Hinton等人[13]提出了自动编码器架构，可以学习一组自动编码器，学习如何对输入图像进行几何变换。Doso-0Vitiskiy等人[5]提出了一种生成性CNN架构，可以根据物体的身份和姿态合成图像。Yang等人[32]提出了一种循环卷积编码器-解码器网络，可以学习如何从单个输入图像中解耦姿态和身份潜在因素来合成旋转物体的图像，而Tatarchenko等人[29]则提出了一种类似的CNN架构，没有明确解耦这些因素。[5, 32,29]的一个关键限制是生成的图像通常模糊且缺乏详细的纹理，因为它们从头开始生成像素值。为了解决这个问题，Zhou等人[36]提出通过预测输入和输出之间的外观流来对输入图像进行采样，用于单视图的多视图合成和视图插值。为了解决消失和几何失真，Park等人[26]进一步提出了消失感知流预测，然后是图像完成和细化阶段。Flynn等人[6]还提出了从输入图像创建的平面扫描体中最优采样和混合来进行视图插值。最近，Liu等人[23]采用三线性插值来获得更好的合成具有两个输入图像的新视图的准确性。在这些基于CNN的视图合成方法中，[6]和[36]与DVM密切相关，因为它们可以解决视图插值问题。两者都展示了令人印象深刻的视图插值结果，但仍然存在一些限制。与[6]相关的限制包括：（i）需要创建平面扫描体，（ii）计算复杂度更高，（iii）假设在测试中已知相机参数。虽然[36]在测试中的计算效率比[6]更高，并且不需要已知的相机参数，但它仍然有一些限制。例如，[36]假设视点变换在测试中给定。此外，外观流上缺乏几何约束可能导致形状或纹理失真。相反，DVM可以在仅有两个输入图像的情况下高效地合成新视图，而不需要任何额外的信息。此外，DVM中的两个输入图像的矫正起着关键作用，它施加了导致保持形状的视图合成结果的几何约束。02. View Morphing（视图变形）0我们首先简要总结一下未知相机参数情况下的ViewMorphing[27]。02.1. Recti�cation（矫正）0给定两个输入图像I1和I2，ViewMorphing的第一步是通过对每个图像应用单应性矩阵将它们矫正，使得对应点出现在同一行上。这样的单应性矩阵可以从基础矩阵[11]计算得到。矫正后的图像对可以被视为从两个平行视角摄像机拍摄的。在[27]中，证明了平行视角的线性插值可以产生保持形状的视图合成结果。H1H2I1I2SIR1R2M1M2R1R2SharedWeights215702.2. View synthesis by interpolation（通过插值进行视图合成）0设R1和R2分别表示I1和I2的矫正版本。可以通过线性插值R1和R2的对应像素的位置和颜色来合成新的视图。由于图像对已经被矫正，因此可以按行进行合成。设P1 ={p11，...，pN1}和P2 ={p12，...，pN2}分别表示R1和R2之间的点对应集合，其中pi1，pj2 ∈ �2是当i =j时的对应点。对于0到1之间的α，可以合成一个新的视图Rα，如下所示：0Rα = (1 - α)pi1 + αpi2 = (1 - α)R1(pi1) + αR2(pi2)，(1)0其中i =1，...，N。由于通过特征匹配找到的点对应关系通常是稀疏的，需要通过插值来确定更多的对应关系。通常还会进一步应用额外的步骤来处理由于R1和R2之间的可见性变化引起的折叠或孔洞。02.3. Post-warping（后处理）0由于Rα是在由矫正对R1和R2的图像平面确定的图像平面上合成的，它可能不代表所需的视图。因此，可以选择性地对Rα进行后处理，以获得所需的视图。这样的单应性矩阵可以由用户指定的控制点确定。03. Deep View Morphing（深度视图变形）0DVM是通过单个CNN架构实现的端到端的ViewMorphing的泛化版本，如图1所示。矫正网络（图1中的橙色部分）首先对输入图像I1和I2进行矫正，无需在视图之间具有点对应关系。编码器-解码器网络（图1中的蓝色部分）然后输出矫正对R1和R2之间的密集对应关系C以及混合掩码M1和M2。最后，视图变形网络（图1中的绿色部分）使用R1、R2、M1、M2和C合成新的视图Rα=0.5。DVM的所有层都是可微分的，可以进行高效的端到端训练。尽管DVM专门配置为合成R1和R2的中间视图，但我们仍然可以使用预测的密集对应关系合成所有中间视图，如论文的arXiv版本的附录C所示[17]。矫正网络和编码器-解码器网络之间的共同之处在于它们需要一种机制将两个图像之间的相关性编码为CNN特征的形式。与[4]类似，我们可以考虑两种可能的机制：（i）通过原始输入图像的逐通道连接进行早期融合，以及（ii）通过输入图像的CNN特征的逐通道连接进行晚期融合。我们选择在矫正网络中使用早期融合，在编码器-解码器网络中使用晚期融合（请参阅论文的arXiv版本的附录A[17]）。0几何变换层0几何变换层0卷积层0图2. Deep ViewMorphing的矫正网络。I1和I2堆叠在一起形成6通道输入SI。最后一个卷积层输出两个单应性矩阵H1和H2，分别通过几何变换层应用于I1和I2。矫正网络的最终输出是矫正对R1和R2。红色水平线用于突出显示R1和R2之间的几个对应点，这些点位于水平极线上。0编码器对应解码器0可见性解码器0C0编码器0连接的特征0图 3. Deep View Morphing的编码器-解码器网络。两个共享权重的编码器分别处理矫正的图像对。对应解码器和可见性解码器接收连接的编码器特征，并输出密集对应关系 C 和混合掩模 M 1 和 M 2 。0深入分析）。我们现在介绍每个子网络的详细信息。03.1. 矫正网络0图 2 显示了矫正网络的 CNN架构。我们首先将两个输入图像 I 1 和 I 2堆叠在一起，得到 6 通道的输入 S I 。然后，卷积层连同ReLU 和最大池化层处理堆叠的输入 S I ，生成两个形式为9D 向量的单应性矩阵 H 1 和 H 2。最后，几何变换层通过将 H 1 和 H 2 应用于 I 1 和 I 2，分别生成矫正的图像对 R 1 和 R 2。通过单应性矩阵进行几何变换的微分是直接的，可以在论文的 arXiv 版本的附录 B 中找到 [ 17 ]。03.2. 编码器-解码器网络0编码器。如图 3 所示，编码器的主要作用是将两个输入图像 R 1 和 R 2 的相关性编码为CNN 特征。有两个共享权重的编码器，每个编码器都通过卷积层、ReLU和最大池化层处理矫正的图像对。两个编码器的 CNN特征通过后期融合逐通道地进行连接，并输入到对应解码器和可见性解码器中。R1R2pi1 = pi, pi2 = pi + C(pi), i = 1, . . . , M,(2)pi1 = qi + C(qi), pi2 = qi − C(qi), i = 1, . . . , M.(3)(b)(c) 0.5 ⋅ +0.5 ⋅ = -./.0R+=R1("#)M1R2("%)M2⊙⊙ -./.0R1.00.50.021580图 4. 由对应解码器预测的 R 1 和 R 2之间的密集对应关系的示例。为了更好地可视化，R 2 放置在 R 1的下方，并且只显示了随机选择的前景上的 50 个对应关系。0p i 1 = p i , p i 2 = p i + C ( p i ) , i = 1 , . . . , M, (2)0对应解码器。如图 3所示，对应解码器通过连续的反卷积层处理连接的编码器特征，就像 [ 4 , 5 , 32 , 29 , 36 ]中所做的那样。对应解码器的最后一层是卷积层，输出 R 1和 R 2 之间的密集对应关系 C 。由于 R 1 和 R 2已经通过矫正网络进行了矫正，所以预测的对应关系只是1D的，即沿着相同行的对应关系。假设 C 是相对于 R 1的像素坐标 p 定义的。然后我们可以将点对应集合 P 1 = {p 1 1 , . . . , p M 1 } 和 P 2 = { p 1 2 , . . . , p M 2 }表示为0其中 M 是 R 1 中的像素数。有了这些 P 1 和 P 2，我们现在可以通过公式 ( 1 ) 合成中间视图 R α =0 . 5。在公式 ( 1 ) 中，获取 R 2 ( p i 2 ) 需要插值，因为 p i 2 = pi + C ( p i )通常是非整数值。这种插值可以非常高效地完成，因为它是从规则网格中进行采样。我们还需要从 R α =0 . 5 (0 . 5 p i 1 + 0. 5 p i 2 ) 的规则网格坐标 q 上采样 R α =0 . 5 ( q ) ，因为 0 .5 p i 1 + 0 . 5 p i 2 是非整数值。与 R 2 ( p i 2 ) 不同，从 R α=0 . 5 (0 . 5 p i 1 +0 . 5 p i 2 ) 采样 R α =0 . 5 ( q )可能会比较棘手，因为它是从不规则放置的样本中进行采样。为了解决从不规则放置的样本中进行采样的问题，我们可以以不同的方式定义 C ：C 是相对于 R α =0 . 5 的像素坐标 q定义的。也就是说，点对应集合 P 1 和 P 2可以通过以下方式获得0然后，中间视图 R α =0 . 5 可以很容易地合成为0Rα=0.5(q)=0.5R1(P1)+0.5R2(P2)，(4)0在这里，R1(P1)和R2(P2)都可以被高效地采样。0R1 R2(a)0R1("#) R2("%)0图5. (a)对于常见可见区域，预测的对应关系非常准确（绿色），但对于仅在R1或R2中可见的区域，对应关系不明确，无法正确预测（红色和蓝色）。 (b)使用所有对应关系合成的中间视图（公式4）会产生严重的幽灵伪影。 (c)可见性解码器正确预测了R1(P1)和R2(P2)在中间视图Rα=0.5中的像素可见性，因此我们可以通过公式5获得无幽灵伪影的中间视图。例如，R1(P1)中的汽车左侧在M1中的值非常低，接近0（深蓝色），因为它不应该出现在中间视图中，而R2(P2)中的相应区域是应该出现在中间视图中的背景，因此在M2中的值非常高，接近1（深红色）。0图4显示了由对应解码器预测的R1和R2之间的密集对应关系的示例。值得注意的是，即使对于无纹理区域，预测的对应关系也非常准确。0可见性解码器。R1和R2具有不同的可见性模式并不罕见，如图5(a)所示。在这种情况下，仅在一个视图中可见的像素的对应关系不明确，因此无法正确预测。在这种情况下，使用所有对应关系的公式4会产生严重的幽灵伪影，如图5(b)所示。为了解决这个问题，我们采用了在[36]中提出的使用混合掩模的方法。我们使用图3中显示的可见性解码器来预测合成视图Rα=0.5中每个像素的R1(P1)和R2(P2)的可见性。可见性解码器通过连续的反卷积层处理连接的编码器特征。在可见性解码器的末尾，卷积层输出1通道特征图M，通过sigmoid函数转换为混合掩模M1。混合掩模M2由M2=1−M1确定。M1和M2表示R1(P1)和R2(P2)中每个像素出现在合成视图Rα=0.5中的概率。现在，我们可以使用所有对应关系以及M1和M2合成中间视图Rα=0.5。0Rα=0.5(q)=R1(P1)⊙M1+R2(P2)⊙M2，(5)0其中 ⊙表示逐元素相乘。如图5(c)所示，在M1中不应出现在中间视图中的区域的值非常低，接近0（深蓝色）CR2M1R1M2R1 !"R2 !# %&'.)RL =i=121590采样0混合0采样0图6. Deep ViewMorphing的视图变形网络。采样层根据密集对应关系C从R1和R2中采样，输出R1(P1)和R2(P2)。然后，混合层通过公式5合成中间视图Rα=0.5。0而M1和M2在常见可见区域的值大致相似，约为0.5（绿色和黄色）。因此，我们可以通过公式5得到无幽灵效应的Rα=0.5，如图5(c)所示。03.3. 视图变形网络0图6显示了视图变形网络。采样层接收密集对应关系C和矫正对R1和R2，并通过在P1和P2处采样R1和R2的像素值（由公式3确定）输出R1(P1)和R2(P2)（公式5）。在这里，我们可以使用1D插值进行采样，因为C表示同一行上的1D对应关系。然后，混合层通过使用R1(P1)和R2(P2)及其对应的混合掩模M1和M2（公式5）合成中间视图Rα=0.5。视图变形网络没有可学习的权重，因为采样和混合都是固定操作。03.4. 网络训练0DVM的所有层都是可微分的，因此可以通过在最后比较合成的中间视图和真实的中间视图的单一损失进行端到端训练。训练时，我们使用欧几里德损失定义为0M×01 2 ||R α =0 . 5 ( q i ) − R GT ( q i ) ||2 2 , (6)0其中RGT是期望的真实中间视图图像，M是像素数。请注意，我们不需要像[27]（第2.3节）中那样进行后处理，因为校正网络经过训练可以校正I1和I2，使得R1和R2的中间视图可以直接与期望的真实中间视图R GT 进行匹配。03.5. 实现细节0DVM的CNN架构细节，如层数和卷积核大小以及其他实现细节，详见论文的arXiv版本的附录A [17]。使用Intel XeonE5-2630和一块Nvidia TitanX，DVM在0.269秒内处理一个批次的20个输入对，每个输入对的尺寸为224×224，使用修改版的Caffe [18]。04. 实验0我们现在通过使用两个数据集的实验来展示DVM的视图合成性能：（i）ShapeNet [2]和（ii）Multi-PIE[10]。我们主要将DVM的性能与“View Synthesis byAppearanceFlow”（VSAF）[36]进行比较。我们使用作者提供的代码评估了VSAF。对于两种方法的训练，我们使用Xavier方法[8]初始化所有权重，使用常数0.01初始化所有偏置，并使用Adam求解器[21]，迭代次数为160，初始学习率为0.0001。04.1. 实验1：ShapeNet0训练数据。我们使用ShapeNet的“Car”、“Chair”、“Airplane”和“Vessel”创建训练数据。我们将每个类别的所有3D模型随机分成80%的训练实例和20%的测试实例。我们使用Blender（https://www.blender.org）渲染每个模型，使用方位角为0°到355°，每隔5°的相机。0从0°到355°，每隔5°，仰角从0°到30°，每隔10°0步长和仰角为0°到30°，每隔10°0特定类别的训练。我们首先展示了在每个类别上分别训练的DVM和VSAF的视图合成结果。DVM和VSAF使用完全相同的训练数据进行训练。为了评估视图合成结果，我们随机抽样了每个类别的20万个测试三元组，与训练三元组使用相同的配置创建。作为误差度量，我们使用合成输出与真实值之间的均方误差（MSE），对所有像素求和。图7显示了DVM和VSAF的视图合成结果的定性比较。显然，DVM的视图合成结果在视觉上更加令人满意，幽灵伪影较少，并且与真实视图更接近，而VSAF的结果则相对较差。表1显示了每个类别的DVM和VSAF的MSE均值。DVM的MSE均值明显小于VSAF的。CarChairAirplaneVesselDVM44.7061.0022.3042.74VSAF70.11140.3546.8095.99DVMVSAFDVMVSAF(c) (d)DVMVSAFDVMVSAF(a) (b)I1 GTI2I1 GTI2I1 GTI2I1 GTI2(a) (b) (c) (d) 05010015009018027020304050050100150200250152025303540455055DVMVSAF21600表1. DVM和VSAF针对“Car”、“Chair”、“Airplane”和“Vessel”进行类别特定训练的MSE均值。0图7.DVM和VSAF在ShapeNet的测试样本（a）“Car”（b）“Chair”（c）“Airplane”和（d）“Vessel”上的视图合成结果的比较。左侧和右侧显示了两个输入图像和地面真实图像（“GT”）。更多比较请参见论文的arXiv版本的附录C [17]。0图8.DVM在图7中显示的测试输入图像上获得的矫正结果和密集对应关系的示例。更多示例请参见论文的arXiv版本的附录C [17]。0DVM对于所有四个类别的VSAF的性能进行了比较，与图7中的定性比较相匹配。DVM对于“Car”、“Chair”、“Airplane”和“Vessel”的MSE均值分别为VSAF的63.8%、43.5%、47.6%和44.5%。图8显示了DVM在图7中显示的测试输入图像上获得的矫正结果和密集对应关系的示例。需要注意的是，如果其中一个不正确，那么DVM无法准确地合成中间视图。DVM的矫正准确性的定量分析请参见论文的附录C。0MSE均值0方位角0图9.DVM（实线）和VSAF（虚线）的MSE均值作为“Car”、“Chair”、“Airplane”和“Vessel”的所有测试三元组的I1（方位角）的函数的图表。不同的线颜色表示I1和I2之间的不同方位角差∆φ。0MSE均值0方位角差0图10.DVM（红色）和VSAF（蓝色）的MSE均值作为方位角差∆φ（I1和I2之间的差值）的函数的图表，对于“Car”。这里，方位角差为15°≤∆φ<60°，步长为2.5°。0论文的arXiv版本的附录C中显示了DVM和VSAF在φ1（I1的方位角）的函数上的MSE均值的图表。不同的线颜色表示I1和I2之间的不同方位角差∆φ。如预期的那样，随着∆φ的增加，MSE的均值也增加。需要注意的是，DVM在∆φ =50°时的MSE均值与VSAF在∆φ =30°时的MSE均值相似。还需要注意的是，对于每个∆φ，DVM的MSE均值在φ1 = 90°∙i - ∆φ/2，i = 0, 1, 2,3附近有峰值，其中I1和I2之间的可见性变化较大，例如从右前视图I1到左前视图I2。我们还比较了DVM和VSAF在更大的方位角差异（最高达90°）上的性能。由于空间有限，结果请参见论文的arXiv版本的附录C。0鲁棒性测试。我们现在测试DVM和VSAF对于具有不同方位角和仰角的输入的鲁棒性。我们新创建了20万个“Car”的测试三元组，其方位角和仰角与训练三元组相比偏移了5°，但仍具有∆φ ={20°，30°，40°，50°}。DVM和VSAF对于5°偏移的测试三元组的MSE均值分别为71.75和107.64。与表1中“Car”的原始测试三元组上DVM和VSAF的MSE均值相比，DVM和VSAF的表现都较差：DVM的MSE增加了61%，VSAF的MSE增加了54%。然而，需要注意的是，DVM在5°偏移的测试三元组上的MSE均值（71.75）与VSAF在原始测试三元组上的MSE均值（70.11）相似。DVMVSAFDVMVSAFDVMVSAFDVMVSAF(a) (b)(c) (d)I1 GTI2I1 GTI2I1 GTI2I1 GTI2CarChairAirplaneVesselDVM52.5673.0124.7338.42VSAF83.36161.5951.9588.47MotorcycleLaptopClockBookshelfDVM154.45102.27214.02171.81VSAF469.01262.33491.82520.2221610图11.DVM和VSAF在ShapeNet的未见样本上的视图合成结果比较(a)“Motorcycle”，(b)“Laptop”，(c)“Clock”和(d)“Bookshelf”。更多比较结果请参见论文的arXiv版本的附录C [17]。0我们还测试了DVM和VSAF对于与训练数据不同的方位差异∆φ的输入的鲁棒性。我们新创建了50万个“Car”的测试三元组，其中I1与训练三元组相同，I2和RGT对应于15°≤∆φ<60°，步长为2.5°。我们通过找到与φ1-φGT和φ2-φGT最接近的{±10°，±15°，±20°，±25°}中的元素，为VSAF提供了8D的one-hot向量。图10显示了DVM和VSAF对于新的50万个“Car”的测试三元组的MSE均值的图表。很明显，DVM对于未见过的∆φ比VSAF更加鲁棒。与∆φ的倍数相比，VSAF对于未见过的∆φ的MSE增加要大得多。相反，DVM对于这种未见过的∆φ的MSE增加很小，除了∆φ>50°。这个结果表明，DVM直接考虑两个输入图像进行综合，而不依赖于视点变换输入，具有比VSAF更强的泛化能力。0类别不可知的训练。我们现在展示DVM和VSAF以类别不可知的方式训练的视图合成结果，即我们使用所有四个类别的所有训练三元组来训练DVM和VSAF。对于这种类别不可知的训练，我们将每个类别的最大训练三元组数量限制为100万。对于测试，我们还从ShapeNet中选择了四个未见类别：“Motorcycle”，“Laptop”，“Clock”和“Bookshelf”。未见类别的测试三元组与训练三元组具有相同的配置。图11显示了DVM和VSAF在未见类别上的视图合成结果的定性比较。我们0表2.DVM和VSAF以类别不可知的方式训练的“Car”、“Chair”、“Airplane”和“Vessel”的MSE均值。0可以看出，DVM对于未见类别的视图合成结果仍然非常准确。特别是，DVM甚至可以正确预测混合掩模，如图11(d)所示。相反，VSAF的视图合成结果中存在大量幽灵伪影和严重的形状失真。表2显示了以类别不可知的方式训练的DVM和VSAF的MSE均值。与表1相比，由于相应类别的训练样本较少，DVM和VSAF对于“Car”、“Chair”和“Airplane”的MSE均值略有增加。相反，由于其他类别的训练样本，DVM和VSAF对于“Vessel”的MSE均值主要减小。对于未见类别，DVM和VSAF之间的性能差异要大得多。对于“Motorcycle”、“Laptop”、“Clock”和“Bookshelf”，DVM的MSE均值分别为VSAF的32.9%、39.0%、43.5%和33.0%。这些DVM在未见类别上的有希望的结果表明，DVM可以学习到纠正图像对和建立它们之间对应关系所需的通用特征。有关DVM在未见类别上的矫正准确性的定量分析，请参见论文的arXiv版本的附录C [17]。04.2. 实验2：Multi-PIE0训练数据。Multi-PIE数据集[10]包含337个对象的面部图像，从0°到180°以13个视点捕获。0到180°方位角。我们将337个对象分为270个训练对象和67个测试对象。我们使用从15°到165°的11个视点，因为0°和180°的图像具有截然不同的颜色特征。我们对I1和I2进行采样，使得∆φ = {30°，60°}，并选择RGT满足φGT - φ1 = φ2 - φGT ={15°，30°}。以这种方式构建的训练三元组数量为643,760。我们相应地为VSAF提供了4D独热向量。Multi-PIE提供了详细的面部标记注释，但仅适用于整个图像的子集。使用这些注释，我们使用（i）宽松和（ii）紧密面部区域裁剪创建了两组训练数据。对于宽松裁剪，我们对于同一视点的所有图像使用一个边界框，该边界框包围了这些图像的所有面部标记。对于紧密裁剪，我们首先对每个图像的分割区域进行面部分割，使用FCN[24]训练并使用面部标记的凸包掩码。然后，我们对边界框进行扩展，使其成为正方形并包含所有面部区域，最后将它们调整为224×224。DVMVSAFDVMVSAFDVMVSAFDVMVSAFType equation here.I1 GTI2I1 GTI2I1 GTI2I1 GTI221620图12.DVM和VSAF在Multi-PIE测试样本上的视图合成结果的比较，其中（a）为宽松裁剪，（b）为紧密裁剪。更多比较请参见论文的arXiv版本的附录C [17]。0表3.DVM和VSAF在宽松和紧密面部区域裁剪的Multi-PIE测试三元组上的均方误差的平均值。0宽松面部区域裁剪紧密面部区域裁剪0DVM 162.62 164.77 VSAF 267.83 194.300分割，我们使用FCN[24]训练并使用面部标记的凸包掩码。然后，我们对每个图像的分割区域使用一个边界框。对于这两种情况，我们将边界框扩展为正方形，并包含所有面部区域，最后将它们调整为224×224。0结果。我们分别使用两个训练集对DVM和VSAF进行训练。对于测试，我们从67个测试对象中创建了两组157,120个测试三元组，一组使用宽松的裁剪，另一组使用紧密的裁剪，与训练集的配置相同。图12（a）显示了DVM和VSAF在使用宽松面部区域裁剪的测试三元组上进行视图合成结果的定性比较。由于面部没有很好地对齐并且它们的尺度可能不同，VSAF的视图合成结果存在大量的幽灵伪影和严重的形状失真。相反，由于存在矫正网络，DVM通过成功处理未对齐的面部和尺度差异而产生了非常令人满意的视图合成结果。这些由DVM产生的成功视图合成结果具有重要意义，因为即使相机设置不如ShapeNet渲染精确，并且对象具有不同的尺度，DVM仍然可以很好地合成新的视图。图12（b）显示了使用紧密面部区域裁剪的测试三元组上DVM和VSAF的视图合成结果的定性比较。与宽松面部区域裁剪的情况相比，VSAF的视图合成结果得到了很大的改善，因为面部区域相当好地对齐，并且它们的尺度差异可以忽略。然而，与VSAF相比，DVM的视图合成结果仍然更好，具有更少的幽灵伪影和形状失真。表3显示了DVM和VSAF在宽松和紧密面部区域裁剪的Multi-PIE测试三元组上的均方误差的平均值。0DVM和VSAF在使用紧密面部区域裁剪的测试三元组上的视图合成结果要比使用宽松面部区域裁剪的情况改善很多，因为面部区域相当好地对齐，并且它们的尺度差异可以忽略。然而，与VSAF相比，DVM的视图合成结果仍然更好，具有更少的幽灵伪影和形状失真。表3显示了DVM和VSAF在与图12的定性比较相匹配的Multi-PIE测试三元组上的均方误差的平均值。04.3. 实验3：中间视图合成0我们可以通过线性插值混合掩码M1和M2以及R1和R2来合成所有中间视图。由于DVM预测的密集对应关系非常准确，我们可以合成高度逼真的中间视图。合成中间视图的详细过程和结果请参见论文的arXiv版本的附录C [17]。05. 结论和讨论0在本文中，我们提出了DVM，一种受到视图变形的启发的基于CNN的视图合成方法[27]。首先，两个输入图像通过校正网络自动校正。然后，编码器-解码器网络输出校正图像之间的密集对应关系和混合蒙版，以预测校正图像在中间视图中的像素可见性。最后，视图变形网络使用密集对应关系和混合蒙版合成中间视图。我们通过实验证明，与基于CNN的最先进技术相比，DVM能够合成具有详细纹理和保留几何形状的新视图。Deep ViewMorphing在某些方面仍有待改进。例如，Deep ViewMorphing通常难以处理非常复杂的细结构。此外，当前的混合蒙版无法正确处理输入图像之间的不同照明和颜色特性，因此在某些情况下可能会出现混合接缝可见。附录C中显示了DVM面临的这些具有挑战性的情况的示例。未来的工作将集中在改进这些情况下的性能。0致谢0我们要感谢Tinghui Zhou慷慨分享“View Synthesis byAppearanceFlow”[36]的代码，并对我们提出的有益评论表示感谢。0参考文献0[1] T. Beier and S. Neely.

下载后可阅读完整内容，剩余1页未读，立即下载