基于变换的3D视图生成网络

24 浏览量更新于2023-10-16 收藏 2.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13500基于变换的三维视图生成网络Eunbyung Park1 Jimei Yang2 Ersin Yumer2 Duygu Ceylan2 Alexander C.Berg11北卡罗来纳大学教堂山分校2Adobe Researcheunbyung@cs.unc.edu{jimyang，yumer，ceylan}@aberg@cs.unc.edu adobe.com摘要我们提出了一种基于变换的图像生成网络，用于从单个图像的新颖的3D视图合成。我们的方法首先明确地推断出在输入视图和新视图中可见的几何部分具体来说，我们都预测一个流，将像素从输入移动到新的视图，以及一个新的可见性地图，有助于处理遮挡/disocculsion。接下来，在这些中间结果的条件下，我们幻觉（推断）输入图像中不可见的对象部分。除了新的网络结构之外，使用对抗性和感知损失的组合进行训练导致减少了新颖视图合成的常见伪影，例如失真和孔，同时成功地生成高频细节并保留输入图像的视觉方面。我们评估我们的方法在广泛的合成和真实的例子。定性和定量的结果表明，我们的方法取得了显着更好的结果相比，现有的方法。1. 介绍我们考虑新的3D视图合成的问题-给定一个任意姿势的对象的单个视图，目标是在指定的视点变换后合成对象的图像它在计算机视觉、图形学和机器人技术方面有着广泛的应用作为一种基于图像的渲染技术[21]，它允许将虚拟对象以所需的姿势放置在背景上或在场景中操纵虚拟对象[22]。此外，多个生成的2D视图形成了3D重建的有效表示[37]。在机器人技术中，合成的新视图通过3D重建使机器人更好地理解物体的不可见部分，这将有助于抓取规划[41]。由于未指定的输入视角和3D形状的模糊性，这个问题通常是具有挑战性的。项目页面：http://www.cs.unc.edu/eunbyung/tvsn仅在单个视图中提供。特别是推断出在输入视图中不可见的对象的未观察部分的应用对于新颖的视图合成是必要的我们的方法解决了所有这些挑战，但我们的贡献集中在后一方面，处理新视图中的无遮挡外观并输出高度详细的合成图像。考虑到我们将采用的最终方法，使用精心构建的深度网络，我们可以考虑使用编码器-解码器方法进行密集预测的相关工作，以了解是什么使新颖的3D视图合成问题的结构特别地，在输入视图和输出视图之间缺乏像素到像素的对应关系。这一点，再加上由于阻塞而丢失的大量数据，使得新视图合成与其他密集预测或生成任务有根本的不同，这些任务已经显示出使用深度网络的有希望的结果[31，7，20]。尽管输入视图和期望的输出视图可能具有类似的低级图像统计，但是直接强制执行这样的约束是困难的。例如，跳过或剩余连接不能立即应用，因为输入和输出具有显著不同的全局形状。因此，先前的3D新颖视图合成方法[49，37]还不能匹配利用强对应性的基于几何的方法的视觉质量。基于几何的方法是纯生成的替代方案，并且已经在[17，22，34]中被证明。这样的方法估计对象的底层3D结构，并且将几何变换应用于输入中的像素（例如，像素）。执行深度估计，随后是每个像素的3D变换[13]）。当成功时，几何变换方法可以非常准确地将原始颜色、纹理和局部特征转移到目标视图中相应的新位置然而，这样的方法基本上不能在由于解咬合而显露新部分的地方产生幻觉。此外，即使对于可见几何形状，精确估计3D形状或等效地输入与合成视图之间的精确像素到像素对应性仍然是困难的，并且失败可能导致失真的输出图像。13501图1. 来自3D ShapeNet数据集的测试图像结果[4]。第一输入，第二真实。从第3到第6是具有不同损耗的深度编码器-解码器网络。(3rd-L1范数[37]，第4-预训练VGG 16网络的特征重建损失[20，26，38，25]，第5-特征匹配的对抗损失[14，33，35，6]，第6-组合损失）。第七次出现流网络（AFN）[51]。第八届（TVSN）。为了给基于深度学习的新颖视图的生成带来显式对应的一些力量，最近的外观流网络（AFN）[51]训练卷积编码器-解码器来学习如何移动像素，而不需要显式访问底层3D几何图形。我们的工作更进一步，以整合更多的外显推理的3D转换，幻觉错过的部分，并清理最终生成的图像产生显着改善的现实主义，准确性和细节的合成视图。为了实现这一点，我们提出了一个整体的方法，新的看法合成接地的生成过程中的观点转换。我们的方法首先预测现有的像素从输入视图到要合成的视图的变换，以及可见性图，利用学习到的视图依赖性。我们使用变换结果与预测的可见性图匹配来调节生成过程。图像生成器不仅可以消除丢失的部分，还可以细化由于不完美的变换预测而导致失真或不切实际的细节的区域。这种整体流水线消除了一些困难，在新的视图合成显式地使用转换的部分，有很强的线索。我们提出了一个架构组成的两个consective卷积编码器-解码器网络。首先，我们引入了一个无遮挡感知的外观流网络（DOAFN）来预测可见性图和中间变换结果。我们的第二个编码器-解码器网络是一个图像完成网络，它将matted变换作为输入，并完成和细化新视图，同时合并对抗和特征重建损失。在合成图像和真实图像上的大量实验表明，与现有方法相比，该技术取得了显著的改善。我们的主要贡献是：• 我们提出了一个整体的图像生成管道，明确预测如何从输入像素将变换后的图像，并且在需要填充的输出中存在不遮挡的情况下• 我们设计了一个解遮挡感知的外观流网络，重新定位输入视图中的现有像素，并预测可见性图。• 我们表明，使用损失网络与一个长期考虑如何以及重建风格的功能，结合L1损失的像素值，在训练，提高了合成图像的质量和细节。2. 相关工作基于几何的视图合成。大量的工作受益于隐式或显式几何推理来解决新的视图合成问题。当多个图像可用时，多视图立体算法[12]可用于显式重建3D场景，然后可用于合成新视图。Flynn等人最近提出的一种替代方法。[11]使用深度网络来学习在相邻视图之间直接插值。Ji等人。[19]提出首先通过深度网络用估计的单应性校正两个视图图像，然后用另一个深度网络合成中间视图图像。在单输入视图的情况下，Garg et al.[13]提出首先预测深度图，然后通过变换深度图中的每个重建的3D点来合成新视图。然而，所有这些方法仅利用输入视图中可用的信息，因此在解遮挡的情况下失败。另一方面，我们的方法，13502图2. 变换接地视图合成网络（TVSN）。给定一个输入图像和一个目标变换（3.1），我们的解遮挡感知外观流网络（DOAFN）通过重新定位在内部和外部都可见的像素来变换输入视图。 put和target视图。然后，图像完成网络对该中间结果执行超分辨率和细化（3.2）。对于训练，最终输出也被馈送到两个不同的损失网络中，以测量与地面真实目标视图的相似性（3.2）。该算法不仅利用了隐式几何估计的优点，而且还可以推断出不遮挡的部分。另一种基于几何形状的方法利用3D模型的大量互联网集合，其被示出为覆盖某些真实世界对象类别的广泛种类[22，34]。给定输入图像，这些方法首先识别数据库中最相似的3D模型，并通过3D姿态估计[34]或手动交互式注释[22]拟合图像。然后利用3D信息来合成尺寸新颖的视图。虽然当存在足够相似的3D模型时，这样的方法生成高质量的结果，但是它们通常受到在数据库中找到的3D模型的变化的限制。相比之下，我们的方法只利用3D模型来训练生成网络，直接从图像中合成大小新颖的视图。图像生成网络。在[8]中提出了能够生成对象的真实图像的第一个卷积网络之一，但是该网络需要对象类型、视点和颜色的显式因子表示，因此不能推广到看不见的对象。在[49，23，37]中使用深度卷积编码器-解码器网络解决了从单个图像生成对象的新视图的问题。由于从单视图中解开因素的挑战和使用全局平滑的像素相似性度量（例如，L1或L2范数），则生成结果往往模糊且分辨率低。学习解纠缠或不变因子的替代方法是使用等变表示，即。输入数据的变换，其便于下游决策。变换自动编码器是由Hinton等人创造的。[16]学习简单对象的2D和3D变换。空间Transformer网络[18]进一步引入了可微分图像采样技术，以实现网络内无参数变换。在3D情况下，学习流场以将输入3D网格转换为目标形状[50]或将输入视图转换为所需的输出视图[51]。然而，直接转换的上限显然是由输入本身决定的。为了生成新颖的3D视图，我们的工作基于学习到的变换生成网络，以使被遮挡的像素产生幻觉。最近，许多图像生成方法引入了使用预先训练的深度网络作为损失函数的想法，称为感知损失，以测量来自多个语义级别的特征相似性[20，26，38，25]。从这些作品的生成结果很好地保留了对象的结构，但往往伴随着工件，如锯齿。与此同时，生成对抗网络[14，33]引入了一个反向网络，该网络与生成器网络进行对抗训练，以区分生成的图像与真实图像。判别器将所有阶次的自然图像统计数据封装在真/假标签中，但其最小-最大训练通常导致局部最小值，因此在其生成的图像中通常观察到局部失真或我们的工作使用了一个组合损失函数，该函数既利用了感知损失的结构保持特性①的人。深度网络也已被探索用于图像完成目的。所提出的方法的示例包括使用深度网络进行图像修补[32]和用于图像完成的顺序逐部分生成[24]。这种方法假设给定的部分输入是正确的，并且只关注完成。然而，在我们的情况下，我们无法获得完美的中间结果。相反，我们依靠生成网络来消除缺失区域，并改进由于不准确的每像素变换预测而发生的任何失真。3. 转换-固定视图合成新颖的视图合成可以被视为以下三种场景的组合：1）将输入视图中在目标视图中保持可见的像素移动到它们的相应位置; 2）输入视图中的剩余像素由于遮挡而消失;以及3）在目标视图中显示或解除遮挡先前看不见的像素。我们通过一个如图2所示的神经网络来复制这个过程。具体来说，我们提出了一个消除遮挡感知的外观流网络（3.1）来转换输入视图中保持可见的像素随后的生成完成网络（3.2）在给定这些变换像素的情况下对目标视图的不可见像素进行13503不=Mvis图3.不同旋转的可见性贴图：第一行的第一列是输入图像。其余列显示输出图像和对应的遮罩，用于以20度间隔从20度旋转到340度。第二、第三和第四行分别示出了可见性图Mvis、视觉感知可见性图Ms-vis和背景掩模Mbg。输入图像处于0仰角和20方位角的姿态从160到340的旋转的可见度图显示了Mvis和Ms-vis之间的最大差异。例如，Ms-vis将汽车的相对侧显示为可见，并允许网络基于可见侧填充它。3.1. 可识别遮挡的外观流网络最近提出的外观流网络（AFN）[51]对应于Is中的空间位置（i，j）的目标视图定义如下：学习如何将像素从输入移动到目标视图。（PR（θ）x（i，j））h，（PR（θ）x（i，j））wS.1c<$R（θ）n（i，j）> 0AFN的关键组成部分是一个微分图像在[18]中引入了采样层。准确地说，网络MvisS=s0否则（三）首先预测密集流场，该密集流场映射x（i，j）∈R4是三维物体坐标，n（i，j）∈R4是目标视图It到源图像Is。然后，采样ker-s s应用nel以获得It中每个空间位置的像素值。使用双线性采样内核，空间位置Ii，j处的输出像素值等于：∑I h，wmax（0，1 − |F i，j− h|）max（0，1 − |F i，j− w|），对应于位置（i，j）的表面法线，单位为Is，都用齐次坐标表示既然我们使用3D CAD模型的合成渲染，我们可以访问地面真实物体坐标和表面法线。R（θ）∈R3×4是给定变换的旋转矩阵，Sy（h，w）∈NX（一）θ和P∈R3×3是透视投影矩阵。上标h和w表示目标图像其中，F是由深度卷积预测的流量，编码器-解码器网络（参见图2的前半部分）。Fi，j透视后y轴和x轴的坐标3X和Fi，j表示一个目标位置的x和y投影 c∈ R是3D相机中心。为了y第N表示（Fi，j，Fi，j）的4像素邻域。以Is为单位计算每个像素的目标图像坐标，我们首先获得对应于以下的3D对象坐标：y x我们的解遮挡感知流网络（DOAFN）和AFN之间的关键区别是预测额外的可见性图，该可见性图对由于遮挡而需要移除原始AFN将整个目标视图（包括所公开的部分）与输入视图的像素（例如，AFN结果的第1行见图1。然而，这样的未被遮挡的部分可能会被填充错误的内容，导致令人难以置信的结果，特别是对于在输入视图中看不到输出视图这种不完美的结果将向后续图像生成网络提供误导信息。受此观察的启发，我们建议预测一个可见性图，该图掩盖了变换图像中的此类Idoafn=IafnMvis，（2）然后应用所需的3D变换和透视投影。目标图像坐标的映射值为1，当且仅当观察矢量和表面法线之间的点积为正，即，对应的3D点指向相机。对称感知可见性贴图。许多常见的对象类别表现出反射对称性，例如。汽车、椅子、桌子等。AFN隐式地利用这一特性来简化大视角变化的合成。为了充分利用我们的DOAFN中的对称性优势，我们建议使用一个可感知的可见性地图。假设对象相对于xy平面对称，通过将等式3应用于z翻转的对象坐标和表面法线来计算视觉感知可见性图Msym。目标视图中像素的最终映射对应于空间位置（i，j）定义为：其中M∈[0，1]H×W.为了实现这一点，我们根据3D对象几何定义地面实况可见性图。如下面所描述的。i、 js-visΣi，jsymΣ+Mi，j>0（四）能见度图。设Mvis∈RH×W为目标视图的可见性图，给定源图像Is和所需的变换参数θ。中像素的映射值背景面具。为了处理具有自然背景的真实图像，需要对前景目标进行显式解耦.除了物体的一部分被M13504公司简介在目标视图中不被遮挡的情况下，对象的不同视图遮挡了背景的不同部分，这带来了例如，将侧视图转换为正面视图会暴露出被汽车两端遮挡的部分背景。在我们的方法中，我们定义的前地的区域，覆盖像素的对象在输入视图和输出视图。图像的其余部分属于背景，在两个视图中应保持不变。因此，我们引入统一的背景掩模，损失网络。使用深度网络作为图像生成的损失函数的想法已经在[26，38，20，6]中提出。准确地说，由网络生成的图像作为输入被传递到伴随网络，该伴随网络评估生成结果与地面真实值之间的差异（特征距离）我们使用VGG16网络来计算来自多个层的特征重建损失，这被称为感知损失。我们尝试了预先训练的损失网络和具有如[15，39]中所建议的那样，使用然而，我们得到了Mi，j=Bi，j+Bi，j>0，（5）其中Bs和Bt分别是源图像和目标图像的背景掩模从3D模型中很容易获得地面真实背景背景掩模的示例如图3所示。当与（可感知的）可见性映射集成时，DOAFN的最终输出变为：Idoafn=I sM bg+I afnM s-vis（6）3.2. 查看完井网络传统的图像完成或孔洞填充方法利用局部图像信息[9，2，45]，并显示出令人印象深刻的结果，用于填充小孔或纹理合成。然而，在我们的设置中，有时新颖视图中超过一半的内容在输入图像中不可见，这对基于局部补丁的方法构成了很大的挑战为了解决这一挑战，我们提出了另一种编码器-解码器网络，能够利用本地和全局上下文，以完成转换后的视图中，ferred由DOAFN。我们的视图完成网络由类似于[ 30 ]的“沙漏”架构组成这个网络有三个基本特征。首先，以DOFAN的高级特征为条件，它可以生成与给定输入视图具有一致属性的内容，特别是当大块像素被去除遮挡时。其次，DOAFN的输出已经在期望的视点中，具有在变换下保留的重要的低级信息，例如颜色和局部因此，有可能自动跳过连接以将该低级信息从编码器直接传播到解码器的后面的层第三，视图完成网络不仅可以使被遮挡的区域产生幻觉，还可以修复失真或不真实的细节等伪像。DOAFN的输出质量很大程度上取决于输入视点和期望的变换，在某些情况下会导致不完美的流。图像生成网络的编码器-解码器性质非常适合解决这种情况。准确地说，虽然编码器能够识别DOAFN输出中不需要的部分，但解码器用真实的内容细化这些部分。随机权重的感知结果很差，得出的结论是损失网络的权重确实很重要。另一方面，对抗训练[14]在训练图像生成网络的同时训练损失网络已经非常成功。我们实验了一个类似于[33]的对抗性损失网络，同时采用了[35]中提出的特征匹配思想，使训练过程更加稳定。我们意识到，使用这两种损失网络（感知和对抗）生成的图像的特性是互补的。因此，我们将它们与标准图像重建损失（L1）结合起来，以最大限度地提高性能。最后，我们添加了总变差正则化项[20]，这对细化图像很有用：-logD（G（Is））+αL2（FD（G（Is）），FD（It））+βL2（Fvgg（G（Is）），Fvgg（ It））+γL1（Is，It）+λLTV（G（Is））（7）Is、G（Is）和It分别是输入、生成的输出和对应的目标图像。log（D）是生成的图像G（Is）是真实图像的对数似然，其由被称为判别器D的逆向训练的损失网络估计。在实践中，最小化−logD（G（Is））比最小化logD（ 1−G（Is））表现出更好的梯度行为。FD和Fvgg是从区分中提取的特征，inator和VGG16损耗网络。我们发现从第一到第三卷积层的级联特征是最有效的L1和L2是两个相同大小的输入除以输入的大小得到的L1和L2范数总而言之，生成的图像G（Is）和地面真值图像It被馈送到D和VGG 16损失网络，提取特征并计算这两者之间的平均欧几里德距离。通过[14]中提出的替代优化方案，同时训练CXD和G损失函数为-logD（Is）− log（ 1−D（G（Is）（8）我们根据经验发现α= 100，β= 0。001，γ= 1，且λ=0。0001是很好的超参数，并在整个实验中固定它们。13505图4. ShapeNet合成数据的结果。我们显示输入，地面实况输出（GT），结果AFN和我们的方法（TVSN）以及L1错误。我们还提供了中间输出（可见性图和DOAFN的输出）。4. 实验4.1. 训练设置我们使用ShapeNet [4]中的3D模型渲染图像进行训练和测试。我们使用整个汽车类别（7497个模型）和椅子类别的子集（698个模型），并具有足够的纹理。对于每个模型，我们从总共54个视点渲染图像对应于3个不同的仰角（0，10和20）和18个方位角（在范围[0， 340]中以20度增量采样）。期望的变换被编码为17-D独热向量，其对应于范围[20， 340]中的输入视图和输出视图之间的旋转角度之一。请注意，我们没有编码0度，因为它是相同的映射。对于每个类别，80%的3D模型用于训练，这为汽车类别留下了超过500万个训练对（输入视图所需的转换），为0。500万美元的椅子。我们随机抽取输入视点，从其余20%的3D模型中进行所需的每个类别20，000个测试实例。输入和输出图像的大小为256×256×3。我们首先训练DOAFN，然后在DOAFN固定的情况下训练视图完成网络。在完成网络完全收敛后，我们对两个网络进行端到端的微调。然而，这最后的微调阶段并没有显示出无表的改进。我们分别对DOAFN和完成网络使用大小为25和15的小批量的表1. 我们将我们的方法（TVSN（DOAFN））与几个基线进行比较：（i）用不同损失函数训练的单级编码器-解码器网络：L1（L1），使用VGG 16（VGG 16），对抗（Adv）和后两者的组合（VGG 16 +Adv）的特征重建损失，（ii）我们的方法的一个变体，不使用可见性图（TVSN（AFN））。车椅子L1SSIML1SSIML1[37].168.884.248.895VGG.228.870.283.895Adv.208.865.241.885VGG+高级.194.872.242.888[51]第五十一话.146.906.240.891TVSN（AFN）.132.910.229.895TVSN（DOAFN）.133.910.230.894学习速率初始化为10-4，并在10-5次迭代后降低为了对抗训练，我们调整-日期计划（在一个周期中，发电机两次迭代，发电机一次迭代），以平衡发电机和发电机。4.2. 结果我们将在本节的其余部分讨论我们的主要发现，并请读者参阅补充材料以获得更多结果。我们利用标准的L1平均像素误差和结构相似性指数测度（SSIM）[44，28]进行评估。当计算L1误差时，我们正常-将导致误差在[0， 1]范围内的像素值进行调整，较低的数字对应于较好的结果。SSIM在[-1，1]范围内，其中值越高表示结构相似性越高。比较。我们首先评估我们的方法合成的数据和比较AFN。图4显示了定性结果。1我们注意到，虽然我们的方法完成了与输入视图一致的被遮挡部分，但AFN生成了不切实际的内容（第1和第2行中汽车的前部和后部）。我们的方法还校正了AFN（第3和第4行）引起的几何失真，并更好地捕获了照明（第2行）。对于椅子类别，AFN通常无法生成诸如腿的薄结构，这是由于这些区域中的少量像素对损失函数有贡献。另一方面，感知和对抗性损失都有助于完成缺失的腿，因为它们对整体形状的感知有显著贡献。为了评估可见性图的重要性，我们比较了我们的方法的一个变体，该方法直接将AFN的输出提供给视图完成网络，而不进行掩蔽。(For明确，我们将参考我们的方法1由于图像大小不同，原始AFN [51]论文的结果无法直接比较此外，由于在提交论文时没有完整的源代码，我们通过咨询作者重新实现了这个方法。13506图5. 当不使用可见性图（TVSN（AFN））时，在AFN输出中观察到的严重伪影会集成到最终结果中。通过屏蔽这些工件，我们的方法（TVSN（DOAFN））完全依赖于视图完成网络来生成合理的结果。作为 TVSN （ DOAFN ），并将此基线作为 TVSN（AFN）。）此外，我们还实现了[37]中提出的单级卷积编码器-解码器网络，并使用各种损失函数对其进行训练：L1损失（L1），使用VGG 16的特征我们分别在表1和图1中提供了定量和目视结果。我们注意到，虽然常用，L1和SSIM指标并不完全与人类的记忆力。虽然我们的方法明显优于 L1基线[37]，但两种方法的SSIM评分相当.我们观察到，TVSN（AFN）和TVSN（DOAFN）执行类似的L1和SSIM指标，表明视图完成网络一般成功地细化AFN的输出。然而，在某些情况下，在AFN输出中观察到的严重伪影，特别是在未遮挡的部分中，在完成结果中平滑地集成，如图5所示。相反，可见性图掩盖了这些伪影，因此TVSN（DOAFN）完全依赖于视图完成网络，以逼真和一致的方式对这些部分进行幻觉处理。损失网络的评估。我们利用VGG16的特征重建损失和对抗损失来训练我们的网络。我们通过仅使用它们中的每一个来训练我们的网络来评估每个损失的影响，并在图6中提供可视化结果。众所周知，对抗性损失在生成逼真和清晰的图像方面是有效的，与标准的逐像素损失函数相反。然而，仍然观察到一些伪影，例如与输入视图不一致的对于VGG 16的损失，我们经历了-图6. 我们评估仅使用部分我们的系统，TVSN中的VGG16（VGG16），和TVSN（对抗性）中的对抗性损失，与我们的方法相反，TVSN（VGG16+对抗性）使用两者。用不同的特征选择来进行分析，并且经验地发现，来自前三层的特征与总变差正则化的组合是最有效的。尽管VGG16感知损失能够为诸如超分辨率的低级任务生成高质量图像，但它尚未被完全探索用于如使被遮挡部分产生幻觉所需的纯因此，这种损失仍然受到模糊输出问题的影响，而VGG16和对抗性损失两者的组合导致最有效的配置。4.3. 360度旋转和3D重建从单个图像推断物体的3D几何形状是计算机视觉研究的圣杯。最近使用深度网络的方法通常使用体素化3D重建作为输出[5，46]。然而，在标准编码器-解码器网络中使用这种体素化表示的计算和空间复杂性显著限制了输出分辨率，例如，32 3或64 3。受[37]的启发，我们利用我们的方法生成用于重建目的的新视图的能力具体来说，我们从输入图像中生成多个新颖的视图然后，我们使用地面真实相对相机姿势对这些图像运行多视图重建算法[12]，以获得密集的点云。我们使用开源OpenMVS库[1]从该点云重建纹理网格。图7示出了由AFN和我们的方法生成的多视图图像，而图8展示了从这些图像重建的3D模型通过生成在几何形状和细节方面一致的视图，我们的方法导致质量明显更好的纹理网格。4.4. 真实图像中的三维物体旋转为了将我们的方法推广到处理真实图像，我们通过合成具有随机背景的合成渲染来生成训练数据[36]。我们从SUN397数据集[36]中随机挑选10，000张图像，13507图7. 360度旋转图8. 我们运行一个多视图立体算法，从AFN和TVSN方法生成的一组图像中生成纹理化的3D重建。我们提供从地面实况图像（GT）获得的重建供参考。将它们裁剪成256×256×3的大小。虽然这种简单的方法无法生成逼真的图像，例如，由于光线和视角不一致，该网络能够识别复杂背景中物体的轮廓在图9中，我们显示了几个新的视图合成的例子，从互联网获得的真实图像。虽然我们的初步实验显示了有希望的结果，但需要进一步的研究来提高性能。最重要的是，需要更先进的基于物理的渲染技术来模拟真实世界中的复杂光交互（例如，从环境反射到物体表面上）。此外，有必要对更多的视点（方位角和仰角）进行采样，以处理真实数据中的视点变化。最后，为了提供与原始图像的无缝分离，需要对象分割模块，使得背景中的缺失像素可以通过替代方法单独填充，例如基于块的修补方法[2]或逐像素自回归模型[40]。5. 结论和未来工作提出了一种基于变换的图像生成网络。我们的方法生成逼真的图像，优于现有的技术，新的3D视图合成的标准数据集上的CG渲染地面真相是已知的。我们的合成图像甚至足够精确，可以执行多视图3D重建。我们进一步展示了收集的图9. 我们展示了真实互联网图像上的新颖视图合成结果以及预测的可见性图和背景掩模。从网络上，证明该技术是强大的。我们观察到生成的新视图中的一些结构，例如汽车的前灯和车轮，将一致地类似于常见的基础形状。如果在输入视图中没有观察到这样的结构，则这一点更加我们认为原因在于我们的编码器-解码器架构的固有确定性，这可以通过合并方法（如显式多样化训练[27]或概率生成建模[47，48，29，43]）来缓解我们希望所提出的图像生成流水线可能有助于其他应用，如视频预测。代替由最近的方法[28，42]证明的纯生成，可以应用我们的方法，使得每个帧使用来自前一帧[43，3，10]的像素的变换集，其中缺失的像素通过去除遮挡感知完成网络来完成和细化，其中去除遮挡可以从运动估计[43，10]中学习。确认这项工作是作为Adobe Research的一个实习项目开始的，并在IBM继续进行。我们要感谢孙伟林、刘桂林、 True Price 和季定煌的有益讨论。我们感谢NVIDIA提供GPU，并感谢NSF 1452851、1526367的支持。13508引用[1] openmvs：打开多视图立体重建库。https://github.com/cdcseacave/openMVS网站。查阅时间：2016-11-14。7[2] C. Barnes，E. Shechtman ，A. Finkelstein 和D. B.黄金人。补丁匹配：一种用于结构化图像编辑的随机对应算法。ACMTransactionsonComputerGraphics（TOG），2009年。五、八[3] B. D. Brabandere，X.贾氏T.Tuytelaars和L.诉好极了动态滤波网络。在NIPS，2016年。8[4] A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏肖湖，加-地Yi和F. Yu. ShapeNet：一个信息丰富的3D模型库。arXiv：1512.03012，2015。二、六[5] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese 3d-r2 n2：一种用于单视图和多视图3d对象重建的统一方法在ECCV，2016年。7[6] A. Dosovitskiy和T.布洛克斯基于深度网络生成具有感知相似性度量的图像。在NIPS，2016年。二、五[7] A.多索维茨基山口Fischery，E.伊尔格角哈兹尔巴斯河谷戈尔科夫，P. van der Smagt，D.Cremers，T.Brox等人Flownet：使用卷积网络学习光流在ICCV，2015年。1[8] A.多索维茨基T. Springenberg和T.布洛克斯学习用卷积神经网络生成椅子。CVPR，2015。3[9] A. A. Efros和W. T.弗里曼。图像绗缝纹理合成和转移。2001年第28届计算机图形与交互技术年会。5[10] C.芬恩岛Goodfellow和S.莱文通过视频预测进行物理交互的无监督学习。在NIPS，2016年。8[11] J. Flynn，I. Neulander，J. Philbin和N.很聪明深立体声：学习从世界的图像中预测新的观点。在CVPR，2016年。2[12] Y.古川多视图立体：一个教程。计算机图形与视觉的基础与趋势，2015年。二、七[13] R.加格BG、G. Carneiro和我里德用于单视图深度估计的无监督CNN：把几何图形放回休息室。在ECCV，2016年。一、二[14] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。二三五[15] K.他，Y. Wang和J.霍普克罗夫特一个强大的生成模型，使用随机权重进行深度图像表示。在NIPS，2016年。5[16] G. E. Hinton，A. Krizhevsky和S. D.王.变换- ING自动编码器。2011年国际人工神经网络会议。3[17] D. Hoiem，A. A. Efros，和M。赫伯特自动照片弹出。ACM Transactions on Computer Graphics （ TOG ），2005年。1[18]M. Jaderberg，K. Simonyan、A. 泽瑟曼，K. Kavukcuoglu空间Transformer网络。在NIPS，2015年。三、四13509[19] D. Ji，J. Kwon，M. McFarland和S. Savarese深度视图变形。在CVPR，2017年。2[20] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。在ECCV，2016年。一、二、三、五[21] S. B. Kang和H.- Y.沈基于图像的绘制技术综述。2000.1[22] N.霍尔木兹，T. Simon，A. Efros和Y.酋长使用库存3d模型在单个照片中的3d对象操纵。ACM Transactionson Computer Graphics（TOG），2014年。第1、3条[23] T. D. Kulkarni、W. F. Whitney，P. Kohli，and J. B.特伦鲍姆。深度卷积逆图形网络。2015年，在NIPS中。3[24] H. 郭和B.- T. 张某生成图像部分通过复合生成对抗网络。arXiv：1607.05387，2016年。3[25] A. Lamb，V. Dumoulin，and A.考维尔生成模型的判别正则化。arXiv：1602.03220，2016年。二、三[26] A. B. L. Larsen，S. K. Snderby，H.拉罗谢尔和奥勒温瑟使用学习的相似性度量对像素之外的像素进行自动编码。InICML，2016. 二三五[27] S. 李，S。Purushwalkam，M.科格斯韦尔河谷Ranjan，D.Cran- dall和D.巴特拉训练不同深度集合的随机多项选择学习。在NIPS，2016年。8[28] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺度视频预测。ICLR，2016年。六、八[29] M. Mirza 和 S. 奥辛德罗条件生成对抗网。 arXiv ：1411.1784，2016. 8[30] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。5[31] H. Noh，S. Hong和B.韩用于语义分割的学习反卷积网络。2015. 1[32] D. Pathak，P. Kr aühenbuühl，J. 多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：基于deepak图像修复的特征学习。在CVPR，2016年。3[33] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习ICLR，2016年。二三五[34] K.雷马塔斯角阮氏T. Ritschel，M. Fritz和T. 图特-拉斯。从单个图像获得对象的新颖视图。 arXiv ：1602.00328，2016年。第1、3条[35] T. 萨利曼斯岛Goodfellow，W.扎伦巴河谷Cheung，A.Rad- ford和X.尘改进的gans训练技术。在NIPS，2016年。二、五[36] H.苏C. R. Qi，Y. Li和L.吉巴斯为cnn渲染：使用经渲染3d模型视图训练的cnn进行图像中的视点估计。在ICCV，2015年。7[37] M. Tatarchenko，A.Dosovitskiy和T.布洛克斯利用卷积网络从单个图像中建立多视图在ECCV，2016年。一二三六七[38] D. 乌里扬诺夫河Lebedev，A.Vedaldi和V.Lempitsky 纺织网络：纹理和样式化图像的前馈合成。InICML，2016. 二三五13510[39] I.乌斯秋扎尼诺夫布伦德尔湖Gatys和M.贝丝使用随机滤波器的浅层卷积网络进行纹理合成arXiv：1606.00021，2016. 5[40] A. van den Oord，N.Kalchbrenner和K.Kavukcuoglu像素递归神经网络。InICML，2016. 8[41] J. Varley，C. DeChant，A.理查森，A. Nair，J. Ruales，and P. 艾伦形状完成使机器人能够抓取。 arXiv ：1609.08546，2016年。1[42] C. Vondrick，H. Pirsiavash和A.托拉尔巴生成具有场景动态的视频。在NIPS，2016年。8[43] J. Walker，C.多尔施A. Gupta，和M。赫伯特不确定的未来：使用变分自动编码器从静态图像进行预测。在ECCV，2016年。8[44] Z. Wang，中国山核桃A. C. Bovik，H. R. Sheikh和E.西蒙切利图像质量评估：从错误可见性到结构相似性。IEEE Transactions on Image Processing，13（4）：600-612，2004. 6[45] Y. Wexler，E.Shechtman和M.伊拉尼视频的时空互补TPAMI，2007年。5[46] J.Wu，C. Zhang，T.薛，W. T. Freeman和J. B.特伦鲍姆。通过3d生成对抗建模学习物体形状的概率潜在空间。在NIPS，2016年。7[47] T. Xue，J. Wu，K. L. Bouman和W. T.弗里曼。视觉动力学：通过交叉卷积网络的可能未来框架合成在NIPS，2016年。8[48] X. Yan，J. Y. K. Sohn和H.李你属性2image：从视觉属性生成对比图像。在ECCV，2016年。8[49] J. Yang，S.里德，M.- H. Yang和H.李你用于三维视图合成的递归变换弱监督解缠。2015年，在NIPS中。第1、3条[50] M. E. Yume

下载后可阅读完整内容，剩余1页未读，立即下载