基于编码器-解码器的VI-GAN网络，用于新视图合成

3 浏览量更新于2023-10-12 收藏 2.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7791用于新视图合成的视图独立生成对抗网络徐晓刚1陈颖聪1贾佳雅1，21香港中文大学2腾讯优图实验室{xgxu，ycchen，leojia}@ cse.cuhk.edu.hk摘要从2D图像合成新视图需要转换3D结构并从新的视点将其投影回2D在本文中，我们提出了一个基于编码器-解码器的生成对抗网络VI-GAN来解决这个问题。我们的方法是让网络在不同视图中看到属于同一类别的对象的许多图像后，获得对象的内在属性的基本知识为此，编码器被设计为提取表征输入图像的内在特性的视点无关特征，其包括3D结构、颜色、纹理等。我们还使解码器根据提取的特征和任意用户特定的相机姿势来幻觉新视图的图像。大量的实验表明，我们的模型可以合成高质量的图像在不同的角度与连续的相机姿态，并适用于各种应用程序。1. 介绍我们解决了新的视图合成的问题-给定一个单一的2D图像的对象，我们的目标是合成一个新的捕获从任意视点。这可能有利于计算机视觉和机器人技术中的各种应用。例如，多个合成的2D视图作为图像集合形成有效的3D表示[4]。在机器人技术中，能够从不同的角度看到物体有助于规划[19]。现有的新的视图合成方法分为两类-几何和学习为基础的。给定2D图像，基于几何的方法[16，27]首先估计其3D表示，并基于目标视图将其投影回2D空间通过直接构建3D模型，这些方法允许从任意视点合成2D新图像。然而，从单个2D图像估计3D结构本质上是不适定的。如果不限于特定的场景，例如，面[1]，无法准确生成3D模型。另一方面，使用强大的卷积神经网络（CNN），基于学习的方法[28，34，29，30]直接在目标视图中产生最终图像，而不明确估计其3D结构。因此，视图合成是通过与其相机姿势相关联的源视图和目标视图之间的映射函数来实现的[34]。由于不需要估计3D模型，因此适用于更广泛的场景。其局限性在于，不考虑3D结构而直接为了解决这个问题，[24]的方法结合了额外的3D信息，然而本文中没有考虑这一点，因为我们认为3D信息在实践中并不总是可访问的，而是提出了一种更通用的新视图合成解决方案。最近，生成对抗网络（GAN）[8，26]被应用于多视图合成。当前基于GAN的方法通常将相机参数离散化为固定长度的向量以提高性能[29，30]。然而，包含在相机姿态中的与3D相关的信息不可避免地被这样的设置损坏。在本文中，我们提出了一种方法，既受益于学习和几何为基础的方法，同时改善其缺点。我们的方法本质上是基于学习的，但仍然隐含地推断3D知识。其关键思想是基于这样一个事实，即任何2D图像都是3D世界的投影。如果某个特征是不随视点变化的，那么它描述了3D世界的重要内在属性。通过指定摄像机的姿态，我们重建的2D图像根据视图无关的它遵循一个虚拟相机系统-也就是说，所有的内在信息，如形状，颜色，纹理和照明，首先估计。然后，基于3D信息以及视觉相机来渲染2D图像。我们的系统，这是所谓的视图独立生成对抗网络（VI-GAN），模拟这样的管道。我们首先推断知识的基础上的2D图像的3D世界的特征。然后使用用户指定的相机姿势，我们将这个3D世界投影回图像空间以合成新的视图。这是采取这一战略的第一次尝试值得注意的是，该设置自然地导致编码器-解码器架构，其中编码器将2D图像嵌入到潜在的3D特征，并且解码器基于学习的3D特征和目标相机姿态来渲染新的图像7792从单个2D图像推断3D信息本质上是不适定的，因为存在产生相同2D图像的无限数量的解。为了限制这个问题，我们还结合了2D图像的相机姿态和位置信息，其中相机姿态可以从单个RGB图像准确地推断出来[15]。此外，两个鉴别器被引入，以促进生成的结果的真实感和姿态精度。这些鉴别器分别用两个目标训练，即，对真实图像和生成图像进行分类，并预测输入图像的姿态通过调整这些鉴别器，我们的模型生成一个给定的相机姿态的逼真的结果我们的全部贡献体现在以下几个方面。• 我们提出了一种新的视图合成框架，在任意视图中使用弱超监督的2D训练数据合成新图像• 我们的模型提取了与视点无关的特征来描述三维世界的性质，使得我们的模型能够很好地推广不可见视点。• 大量的实验表明，我们的模型生成高质量的图像，并可用于广泛的任务。2. 相关工作现有的新的视图合成方法可以分为两类几何和学习为基础的。基于几何的方法从输入的2D图像中明确地学习3D结构。这允许合成任意新颖视图的图像基于学习的方法直接将某个视图的图像映射到另一个视图，而不推断3D信息。基于几何的方法Lin et al.[20] Pontes et al.[25]根据以下内容明确估计点云和网格：输入图像。然而，估计的结构通常不够密集，特别是在处理复杂纹理时[25]。Garg等人[7]和Xie et al.[33]而是估计当然，它们只适用于双目情况.Rematas等人[27]和Kholyang et al.[16]提出了基于样本的模型，利用大规模的3D模型集合。给定输入图像，这些方法首先识别数据库中最相似的3D模型，并将其与输入匹配。然后利用3D信息来合成新颖的视图。很明显，这些方法的精度取决于3D模型的变化和复杂性。3D可变形模型（3DMM）[1]及其变体[6]允许通过从精确的3D模型中学习的预计算结果拟合3D结构和纹理图来它们只适用于面孔。基于学习的方法最近，卷积神经网络网络被引入用于新颖的视图合成[5，28，34，24，34，24，34，28，29，30，2]。早期的方法[5，28]使用编码器-解码器架构将输入图像直接映射到另一视图请注意，这些解决方案很难从单个视图中分离出姿态不变因子。为了提高结果质量，Zhou et al.[34]预测外观流，而不是从头开始合成像素。它不处理其像素不包含在输入中的区域[24]。Park等人。[24]在这样的网络后面连接另一个生成器以进行增强。它需要3D注释进行训练，但在我们的设置中没有考虑到这一点。为了提高合成图像的真实感，在[29，30，2]中，使用了生成对抗网络（GAN）[8]基于GAN的方法具有区分真实图像和生成图像的能力使用生成器来测试图像，缺失的像素被幻觉化，输出变得逼真。我们注意到，所有这些方法本质上是学习不同相机姿态的图像之间的映射这阻碍了不可见视点的泛化能力。因此，这些方法只能在几个预设的视图中合成像样的结果。相比之下，我们的方法可以合成新的观点，即使它们从未出现在训练集中。它是一种基于学习的方法，并隐式地推断潜在空间中的3D结构。3. 该方法在本节中，我们将解释动机以及我们网络中的每个组件。总体框架如图所示。1，它是用弱监督的2D图像对训练的。虚拟相机系统旨在控制相机显示3D对象的视图。由于该结构被认为是独立的相机姿势，它可以表示的功能，只涉及到的内在属性的对象。因此，新的视图合成的关键是从摄像机姿态中分离出物体的内在特征。通过实现这一点，我们重新渲染的对象相结合的内在特征与一个新的相机姿势。在我们的模型中，我们使用一个编码器的解开任务和解码器的渲染任务。3.1. 网络架构给定2D图像IA，编码器E负责提取与视图无关的特征FA。理想地，这样的特征应当包括IA中呈现的对象的所有固有属性，并且还与拍摄IA的相机姿态无关乍一看，这似乎是不可能的，因为有些部分在IA中是不可见的。类似于人类通过在内存中搜索相似场景来完成这项任务的能力，我们用来自不同视角的数据训练编码器。7793我是I→B→MDAdain鉴别器（D、D、P）E视野独立特征FAD重建约束不变约束D视野独立特征FBEAdainMD姿势A（PA）IBI→B姿态预测真/假姿势B（PB）姿势B（PB）姿势A（PA）图1. VI-GAN的整体结构。编码器提取与视图无关的特征，这是3D世界的隐式表示。解码器利用提取的特征和新的摄像机姿态参数来合成新颖的视图。设置两个鉴别器分别预测输入和姿态信息的真实性。我们的系统是在没有3D监督数据的情况下训练的。为了降低训练难度，摄像机摆出了也作为额外的信息并入编码器中。该操作是实用的，因为直接从单个RGB视图计算精确的相机姿态是可实现的[15]。具体地，摄像机姿态可以通过以下来参数化一个移动矩阵R∈R3×3和一个移动向量T∈R3×1。我们将R重塑为9×1，并将其与T连接，从而得到12×1的相机姿态特征PA。所以FA是由FA=E（IAPA），（1）其中PA被用作与IA协调的全局特征。是连接操作。该级联操作为每个像素提供相机姿态以帮助3D推断，因为3D坐标可以通过将相机姿态和对应的像素组合来计算。图像平面上的位置。为了基于2D图像推断3D相关知识，编码器E需要将2D图像隐式地配准到潜在3D模型。在这点上，2D图像的位置信息是致命的。然而，由于空间不变性，CNN只感知局部区域而不考虑位置。[22]的工作通过将像素位置作为两个额外通道连接到特征图来解决这个问题，称为CoordConv操作。在我们的模型中，图像生成器中的所有标准卷积层都被CoordConv取代。解码器利用所提取的姿态无关特征FA和目标姿态PB，解码器用作渲染器以将它们转换回图像空间。更具体地说，我们使用嵌入网络MD来适应PB和FA的通道号，然后连接FA和MD（PB）以形成解码器的输入这表示为IA→B=D（FA<$MD（PB）），（2）其中D表示解码器。原则上，解码器的结构与编码器相反. 然而，我们还发现，在解码器的残差块中用自适应实例归一化（AdaIN）[12]替换实例具体地，物体归一化层的均值μ（x）和方差σ（x）由目标姿态PB而不是特征图本身推断。这使得具有相似姿态的对象共享特征统计，使得解码器更容易渲染目标姿态的结果。此外，MD和AdaIN参数的计算都是通过简单的多层感知器网络来实现的，该网络将姿态信息作为输入。3.2. 学习3D相关知识一般来说，我们的模型的训练包括视图无关损失项、一系列图像重建损失项、GAN损失项和姿态预测损失项。视点无关损失视点无关损失的目的是将姿态无关属性强加给潜在特征。令从等式（1）导出的FA是利用相机姿态PA捕获的IA的潜在特征。我们首先随机选择另一个姿势PB，并通过等式IA→B渲染目标视图I（二）、那么另一个潜在特征对应于7794RFPPPPIA→B由FB=E （IA→B<$PB）得到。如果FA与FB相同，则它们可以被认为是视图无关的。因此，这一损失表述为：D和发电机G的损失项，其中包括E和D，写成LGAND=EPf[D（IA→B）]−EPr[D（IB）]+λgpLgp，LVI=E（<$FA −FB<$），（3）LGANG=EPr[D（IB）]−EPf[D（IA→B）]，（七）其中E指的是计算期望值。图像重建损失图像重建损失的第一项源自目标视图IB的生成。为了保证合成视图的精度，我们联合使用像素级和感知损失来促进将潜在特征映射回图像空间。如[14，18，31]所示这被示为L像素=E（IA→B −IB），其中D（X）是D与输入X的输出，Lgp是[10]中定义的梯度惩罚项。λgp是训练期间设置为10的权重。姿态预测损失为了提高在相机姿态方面的合成的准确性，采用了另一种表示为DP的方法。该网络采用了一种姿态预测损失，以保证生成的图像是一致的。摆出他们的目标姿势具体来说，不是区分真实样本和假样本，而是训练该神经网络来预测给定图像的相机姿态。我们Lper=E（（ V（IA→B）− V（IB））2），（四）另一方面，发电机推动发电机输出所述合成样本的所述目标姿态。这一损失项的公式如下：其中，Lpixel是像素级损失，Lper是阈值。损失。V包括从VGG16网络提取的特征。同时，解码器还应具备以下能力：在馈送其相机时重建输入视图的能力LGANDLGANG=EP（（DP（IB）-PB）2），=EP（（DP（IA→B）−PB）2），（八）参数为此，我们将输入重建损失项设置为Lrec=E（IA−IA→A），（5）其中IA→A=D（FA<$MD（PA））是输入视图IA的重建。为了进一步提高合成图像的精度和真实感，还采用了循环限制，这使得生成的图像转换回原始视图[21，13，35]。该周期损失项在像素和感知级别上显式计算为IA→B→A=D（E（IA→B<$PB）<$MD（PA）），其中DP（X）是DP与输入X的输出。LGAND和LGANG分别是损失项和发电机此外，DP使我们的系统能够处理输入相机姿态不可访问的情况，因为用户可以使用DP来估计给定真实图像的相应参数。总之，VI-GAN中的编码器、解码器和鉴别器的总损耗项被定义为：LE，D=λ1LV I+λ 2Lpixel+λ 3Lper+λ 4Lrec+（九）λ5L循环+λ6L循环/ +λ7LGANG +λ8LGANG 、LD =λ9LGAND +λ10LGAND .（十）在我们的实验中，设置从λ1到λ10的值Lcyc=E（IA→B→A −IA），2（六）离对方不远的地方的详细VI-GAN的结构见补充材料。L周期/ =E（（V（IA→B→A）− V（I A）。GAN损失推断的视图无关表示包含其他视图的特征。解码器还需要对可能丢失的部分进行幻觉处理，特别是在输入中未看到的遮挡区域。我们使用一个辅助网络作为一个神经网络来实现这一目标。为了提高合成图像的真实感，该算法的目标是识别输入的这一损失条款是由瓦塞尔执行的斯坦GAN-Gradient Penalty（WGAN-GP）[10]。我们训练一个基本的D，以最大化真实样本和合成样本之间的Wasserstein距离。如果我们将真实图像的分布表示为Pr，将合成图像的分布表示为Pf，PP77954. 实验我们在广泛的数据集上评估了VI-GAN，包括ShapeNet [3] ， Multi-PIE [9] 和 300 W-LP [36] 。ShapeNet [3]包含了大量的3D模型，属于各种类别。采用[4]从该数据集中渲染的图像，其相机姿态是连续的。我们利用这个数据集来分析我们的方法中每个组件的功能，并评估VI-GAN对一般对象的适用性。特别是，对于每个类别，我们使用80%的模型进行训练，20%用于测试。Multi-PIE [9]是一个数据集，其中包含13个摄像机姿势下的人的图像，头部高度为15mm我们使用第一次会议的250名受试者，7796181614121086电话：+86-20 - 8888888传真：+86-20 - 88888888扰动度值(a) 编码器位姿敏感性分析15(a)（b）（c）（d）（e）（f）（g）图2.消融实验的结果。(a)是输入，（g）是地面真值。（b）-（f）分别由VI-GAN（w/o VI）、VI-GAN（w/o Pose）、VI-GAN（w/o Coord）、VI-GAN（w/o AdaIN）和VI-GAN合成。图像大小为128×128。请放大查看详情。设置L1SSIMVI-GAN（w/o VI）16.43 0.82VI-GAN（不带姿势）16.81 0.80VI-GAN（不带坐标）14.35 0.85VI-GAN（不含AdaIN）14.02 0.84VI-GAN表1.消融实验中不同设置生成的真实值和预测值之间的平均像素级L1误差（越低越好）和SSIM（越高越好）。当计算L1误差时，像素值在[0，255]的范围内。数据集，其中前200名受试者用于训练，其余50名用于测试。该数据集用于分析相机姿态的灵敏度，并与现有的基于GAN的方法进行比较，因为这些图像的相机姿态是离散的。300 W-LP [36]具有各种面部图像，具有连续相机姿势和3DMM参数。我们使用80%的识别用于训练，20%用于测试。4.1. 各部分的有效性视点无关损失、姿态预测损失、Coord-Conv操作和AdaIN有助于最终合成的质量在本节中，我们分别禁用它们中的每一个，以显示它们各自的必要性。此外，实验是在ShapeNet数据集的“椅子”类别上进行的在测试过程中，在合成结果和地面真实值之间计算平均像素级L1误差和结构相似性指数度量（SSIM）[32，23独立视图的贡献损失图图2（b）示出了模型输出的样本，没有等式2中定义的损失（3），这是所谓的这是不同的，因为结果是模糊的或缺乏姿态精度。它的L1错误大大增加，而SSIM得分降低，10500 20 40 60 80 100 120 140 160 180差异度值(b) 解码器的位姿敏感性分析图3.编码器和解码器的位姿灵敏度分析很多.这是因为没有这个基本约束，模型就无法推断出准确的3D信息。图2（c）示出了在没有等式2中定义的姿态预测损失的情况下的几个结果（8）并且该模型被命名为“VI-GAN（w/o Pose）"。如该图所示，如果没有这种损失，模型就不能确保准确的姿势。此外，生成的图像往往更模糊。如表1所示，如果没有该项，L1误差会增加很多，而SSIM则从0.87下降到0.80. 这种退化是由这样一个事实造成的，使得生成器能够知道相机姿态和与视图无关的特征之间的关系。CoordConv的贡献我们通过将VI-GAN的生成器设置为传统的卷积来演示CoordConv的功能，称为“VI-GAN（w/o Co-ord）"。我们观察图。图2（d）和（f）显示，在没有CoordConv的情况下，生成的图像的质量和姿态准确性严重受损。表1中的结果也证实了这一结论。这是因为坐标信息对于3D特征学习至关重要。因此，生成器中的CoordConv有利于新视图的合成。AdaIN的贡献我们通过设置另一个称为“VI-GAN（w/oAdaIN）"的模型来解释AdaIN的作用与VI-GAN的比较如图所示。2（e）-（f）其中观察到伪影。表1中的定量误差表明AdaIN可以细化输出。4.2. 摄像机姿态我们还提供了条件姿态信息的分析。我们的实验是在Multi-PIE [9]上进行的，因为该数据集中的相机移动只有一个自由度对齐未对齐对齐未对齐平均L1误差平均L1误差7797姿态A的灵敏度注意，输入相机姿态PA为编码器提供附加信息，其可以通过[15]的方法获得。我们分析了如何qual- ity的结果变化与不同的姿态精度。如图如图3（a）所示，编码器的输入相机位姿对合成有影响，而其效果在一定的扰动范围内是稳定的。该稳定范围超过了现代摄像机位姿估计的误差范围。[15]这是一个很好的方法，大约是±10μ m。因此，正常的姿态扰动并不妨碍我们的方法在实践中。姿态B的灵敏度目标相机姿态PB由用户确定。注意，PA和PB之间的距离也影响合成质量。图3（b）显示了平均L1误差与PA和PB之间的差的关系。误差在90度以内仍然很小，但超过90度就会上升。这证实了我们的直觉-4.3. 潜在特征编码3D信息？值得注意的是，通过施加视图无关的约束，我们的编码器隐式地捕获对象的3D结构。为了证明这一点，我们证明了一个学习过的编码器可以帮助学习3D任务。在同一个网络上采用了两种三维人脸特征点估计方案该网络由两部分组成，其中编码器与VI-GAN中的编码器相同，多层感知器（MLP）具有2层，用于基于编码器提取的特征估计地标的坐标。这两个方案的设计过程如下：（1）整个网络从头开始训练，直接学习3D特征。（2）采用具有视点无关约束的VI-GAN对编码器进行预训练然后，3D监督数据用于训练整个网络。我们使用300 W-LP [36]作为训练数据，其3D地标通过利用其3DMM参数获得。此外，平均归一化平均误差（NME）[36]用于评估。测试数据包括来自AFLW 2,000 -3D [17]的2,000张图像，每张图像包含68个标志。当两种设置的列车损失不再变化时，我们报告了它们的结果，其中设置（1）和（2）的平均NME分别为12.7%和6.8%。这表明由VI-GAN的编码器学习的特征是3D相关的。它为3D学习任务提供了良好的初始化。未来，我们计划使用VI-GAN探索更多的3D任务。5. 应用作为一个通用框架，我们的模型不需要太多任务特定的知识，因此适用于各种应用。在下文中，我们以人脸和物体旋转作为应用来证明该方法的有效性我们的方法。实验中所有的VI-GAN模型都是用Adam优化器在β 1 = 0的条件下训练的。5和β2= 0。999学习率为10-4。批次大小设置为24。在每个训练时期中，我们为生成器训练一个步骤，为鉴别器训练一个步骤每个数据集的图像大小为128×128实验全部在一个TITAN V GPU上进行。5.1. 脸部旋转离散面旋转人脸旋转的目的是合成一个人的脸的另一个视图。如第4节所示，Multi-PIE [9]在头部高度包含13个视点，因此适用于此任务。我们在对齐和未对齐的设置中评估我们的方法。对于对齐设置，所有面都对齐，并且只有面区域用于训练和测试。这减少了图像的变化，并且使得该方法集中于面部部分。未对齐设置意味着所有图像都不会被裁剪，这更具挑战性。我们将我们的方法与CR-GAN [29]和DR-GAN [30]进行比较。CR-GAN利用GAN中的两条学习路径来改进合成; DR-GAN将身份表示从其他人脸变体中分离出来，以合成目标姿态下的身份保留人脸。这些设置的结果示于图1A和1B中。4和5.我们的方法在对齐和未对齐设置中均优于CR-GAN和DR-GANDR-GAN可能在没有正确照明的情况下生成图像虽然CR-GAN生成的结果更好，但合成的图像可能不太自然，如图2的红色边框所示。五、Frechet起始距离（FID）[11]通常用于测量生成图像的质量。FID越低，真实图像和生成图像的域的距离越近。对齐和未对齐设置的FID如表2所示，这表明我们的系统性能良好。此外，计算了L1误差和SSIM，也支持了这一结论.注意，CR-GAN和DR-GAN都只能合成离散视点的人脸图像为了在连续设置中评估我们的方法，我们还对300 W-LP [36]数据集进行了实验，其图像包含连续的相机姿势。在此设置中，PRNet [6]用于比较。PRNet[6]使用3DMM中的UV位置图来记录3D坐标，并训练CNN从单个视图回归它们。图6定性地比较了我们的方法与PRNet [6]。PRNet模型还在300 W-LP上进行了训练，并公开了实施。如图所示，PRNet[6]在某些区域的信息丢失时可能会引入伪像。将轮廓转换为正面时，此问题非常严重相比之下，我们的模型从不同的角度产生更逼真的图像。7798图4.对齐Multi-PIE的比较。对于每个图像，第一行是地面实况，而第二行是由VI-GAN生成的。第三和第四行分别是CR-GAN[29]和DR-GAN [30]的输出。显然，DR-GAN无法处理与姿势无关的因素，例如照明。图5.未对齐多PIE的比较对于每个图像，顶行是地面实况。其他行由VI-GAN，CR-GAN [29]和DR-GAN [30]从上到下合成右边红框中的图像是通过放大左边红框中的正面获得的。虽然CR-GAN可以生成多个视图，但合成的人脸是模糊的。方法对齐未对齐方法椅子沙发长凳FIDL1SSIMFIDL1SSIML1SSIML1SSIML1SSIM公司简介8.7610.170.7613.9215.450.68MV3D 24.250.7620.240.7517.520.73DR-GAN107.531.920.36151.143.110.23AF 18.440.8214.420.8513.260.77VI-GAN6.515.860.889.059.730.80VI-GAN12.560.8711.520.8810.130.83表2.FID、平均像素级L1误差和不同的SSIM关于对齐和未对齐情况的方法对于FID和L1误差，越低越好;对于SSIM，越高越好。我们还建立了一个量化的评价方案时，变成正面的脸。给定一个合成的正面图像，它与其地面实况对齐，然后裁剪成面部区域。它的基础事实也以同样的方式裁剪。计算了两个面元之间的L1对于PRNet，L1误差为 22.65 ， SSIM 为 0.65; 对于 VI-GAN ， L1 误差为15.32，SSIM为0.73。因此，VI-GAN产生更高的精度。表3.地面之间的平均像素级L1误差和SSIM不同方法给出的真理和预测。5.2. 对象旋转对象旋转的目的是合成新的意见，为cer-tain对象。与人脸相比，一般物体的旋转更具挑战性，因为不同的物体可能具有不同的结构和外观。为了显示我们模型的能力，我们使用“椅子”，“长凳”和“沙发”的样本在ShapeNet [3结果示于图1A和1B中。分别为7、8和9。更多类别的结果列入补充材料。7799图6. VI-GAN和PRNet之间的比较[6]。对于每个图像，顶部、第二和第三行分别是地面实况、VI-GAN和PRNet的图像。PRNet不能很好地处理剖面情况，而我们的输出更好地匹配地面实况。(a)投入（b）MV3D（c）AF（d）我们的（e）GT图7.结果在（a）是2D输入视图。(b) [28]和[34]分别由MV3D和AF生成(d)是我们的系统合成的结果，而（e）是基础事实。图像大小为128×128。显然，VI-GAN的性能优于MV 3D和AF。7800MV3D [28]和表观流量（AF）[34]是在该数据集上表现良好的两种方法。它们通过将输入视图和目标视图的3×4变换矩阵之间的差作为姿态向量来处理连续相机姿态。我们将我们的模型与它们进行无论是定性还是定量。如图7，8和9，MV3D [28]和AF[34]错过了小部分，而我们的结果更接近地面真相。表3显示，我们的模型实现了最低的L1误差和最高的SSIM。6. 结论我们提出了一种新的三维视图合成网络，称为VI-GAN，它可以从一个单一的RGB图像与连续的相机参数生成目标视图。我们的系统结合了当前的学习和几何为基础的方法的好处，通过推断视图独立的潜在的representation。我们的实验表明，我们的方法，（a）输入（b）MV3D（c）AF（d）我们的（e）GT图8.结果在每一列的顺序与图1中的顺序相同。7 .第一次会议。(a)投入（b）MV3D（c）AF（d）我们的（e）GT图9.结果在“沙发”类别。每一列的顺序与图1中的顺序相同。7 .第一次会议。在广泛的数据集上优于现有技术VI-GAN使用弱监督的2D数据进行训练，而学习的特征有利于3D相关的学习任务。7801引用[1] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型SIGGRAPH，1999年。一、二[2] 曹杰，胡一波，于冰，何冉，孙振安。用于多视角人脸图像合成的负载平衡gans。arXiv电子印刷品，2018年。2[3] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Mano-lis Savva，Shuran Song，Hao Su，et al.Shapenet：一个信息丰富的3D模型存储库。arXiv电子印刷品，2015年。四、五、七[4] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在ECCV，2016年。1、4[5] Alexey Dosovitskiy ， Jost Tobias Springenberg ， andThomas Brox.学习用卷积神经网络生成椅子。CVPR，2015。2[6] Yao Feng，Fan Wu，Xiaohu Shao，Yafeng Wang，andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐arXiv电子印刷品，2018年。二、六、八[7] Ravi Garg ，Vijay Kumar BG ，Gustavo Carneiro ，andIan Reid. 用于单视图深度估计的无监督CNN几何学拯救了我们。在ECCV，2016年。2[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。一、二[9] Ralph Gross 、 Iain Matthews 、 Jeffrey Cohn 、 TakeoKanade和Simon Baker。多派图像和视觉计算，2010年。四五六[10] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。在NIPS，2017年。4[11] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NIPS，2017年。6[12] Xun Huang和Serge J Belongie.实时任意样式传输，具有自适应实例规范化。InICCV，2017. 3[13] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。arXiv电子印刷品，2018年。4[14] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。4[15] Alex Kendall，Roberto Cipolla，等.使用深度学习进行相机姿态回归的几何损失函数。在CVPR，2017年。二、三、六[16] Natasha Kholgade ， Tomas Simon ， Alexei Efros ， andYaser Sheikh.使用库存3d模型在单个照片中的3d对象操纵ACM Transactions on Graphics，2014。一、二[17] Martin Koestinger，Paul Wohlhart，Peter M Roth，andHorst Bischof.野生动物的面部标志：用于面部标志定位的大规模真实世界数据库。载于ICCVW，2011年。6[18] Anders Boesen Lindbo Larsen ，Søren Kaae Sønderby，Hugo Larochelle，and Ole Winther.使用学习的相似性度量对像素之外的像素进行自动编码。arXiv电子印刷品，2015年。4[19] Jangwon Lee和Michael S Ryoo。使用卷积未来回归从第一人称人类视频中学习机器人在CVPRW，2017年。1[20] Chen-Hsuan Lin，Chen Kong，and Simon Lucey.密集三维物体重建的高效点云生成。arXiv电子印刷品，2017年。2[21] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。在NIPS，2017年。4[22] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败。arXiv电子印刷品，2018年。3[23] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测。arXiv电子印刷品，2015年。5[24] Eunbyung Park ， Jimei Yang ， Ersin Yumer ， DuyguCeylan，and Alexander C Berg.基于变换的新型三维视图合成图像生成网络。在CVPR，2017年。一、二[25] Jhony K Pontes，Chen Kong，Sridha Sridharan，SimonLucey，AndersEriksson和ClintonFookes。Image2mesh：一个用于单幅图像3D重建的学习框架。arXiv电子印刷品，2017年。2[26] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv电子印刷品，2015年。1[27] Konstantinos Rematas ， Chuong H Nguyen ， TobiasRitschel，Mario Fritz，and Tinne Tuytelaars.从单个图像获得对象的新颖视图。IEEE TPAMI，2017年。一、二[28] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。用卷积网络从单幅图像建立多视图3d模型。在ECCV，2016年。一、二、八[29] Yu Tian，Xi Peng，Long Zhao，Shaoting Zhang，andDim- itris N Metaxas. Cr-gan：学习多视图生成的完整表示。arXiv电子印刷品，2018年。一、二、六、七[30] Luan Tran，Xi Yin，and Xiaoming Liu.姿态不变人脸识别的非纠缠表示学习算法在CVPR，2017年。一、二、六、七[31] Dmitry Ulyanov，Vadim Lebedev，Andrea Vedaldi，andVic- tor S Lempitsky.纹理网络：纹理和风格化图像的前馈合成。InICML，2016. 4[32] Zhou Wang，Alan C Bovik，Hamid R Sheikh，and EeroP Simoncelli.图像质量评估：从错误可见性到结构相似性。IEEE TIP，2004年。5[33] 谢俊源、罗斯·吉希克和阿里·法哈迪。Deep3d：使用深度卷积神经网络的全自动2D到3D视频转换。在ECCV，2016年。27802[34] Tinghui Zhou ， Shubham Tulsiani ， Weilun Sun ，Jitendra Malik，and Alexei A Efros.按外观流查看合成在ECCV，2016年。一、二、八7803[35] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。arXiv电子印刷品，2017年。4[36] Xiangyu Zhu，Zhen Lei，Xiaoming Liu，Hailin Shi，and Stan Z Li.跨大姿势的面部对齐：3D解决方案。在CVPR，2016年。四五六

下载后可阅读完整内容，剩余1页未读，立即下载