没有合适的资源?快使用搜索试试~ 我知道了~
1516解开3D:从单目图像学习具有解纠缠几何和外观的三维生成模型Ayush Tewari1,2 Mallikarjun B R1 Xingang Pan1 Ohad Fried3Maneesh Agrawala4 Christian Theobalt11马克斯·普朗克信息学研究所2MIT3跨学科中心,赫兹利亚4斯坦福大学图1.我们的模型可以在合成图像中理清几何形状、外观和姿势。该图显示了FFHQ [15](前5列)和Cats [42](后5列)的结果。每行显示使用相同姿势和几何体渲染但外观不同的图像。每列显示使用不同姿势和几何体渲染但外观相同的图像。摘要从单色图像的数据集学习3D生成模型使得能够进行自我监督的3D推理和可控合成。最先进的3D生成模型是使用神经3D体积表示进行合成的GAN通过从给定相机渲染体积来合成图像这些模型可以在任何生成的图像中将3D场景与相机视点分离。然而,大多数模型并没有解开图像形成的其他因素,如几何形状和外观。在本文中,我们设计了一个3D GAN,它可以从单目观察中学习对象的分离模型。我们的模型可以理清场景中的几何形状和外观变化,即,我们可以独立地从生成模型的几何形状和外观空间进行采样。这是通过使用一种新的非刚性可变形场景公式来实现的。表示对象实例的3D体积被计算为非刚性变形的规范3D体积。我们的方法在训练过程中共同学习规范体积及其变形。该公式还有助于我们改善3D场景和摄像机视点之间使用在3D变形场上定义的新颖的姿态正则化损失此外,我们对逆变形进行建模,从而能够计算由我们的模型生成的图像最后,我们设计了一种方法来嵌入真实图像到我们的模型的潜在空间,使真实图像的编辑。1. 介绍最先进的生成模型使用2D CNN直接在图像空间中操作这些模型,如风格- GAN及其变体[14然而,基于图像的模型不能直接控制底层3D场景参数,如相机和几何形状。虽然一些方法在预训练的基于图像的GAN模型上添加相机视点控制[1,5,17,34],但结果受到预训练模型的3D一致性质量的限制。与基于图像的方法相比,最近的方法直接在3D空间中学习GAN模型[2,8,24,26,31]。在这种情况下,生成器网络将场景的3D表示合成为输出,这可以1517然后从虚拟照相机再现以生成图像。由于3D场景是明确建模的,因此在图像合成过程中相机参数与场景本身无关。然而,其他场景属性,如几何和外观仍然纠缠在一起,不能独立控制。虽然一些3D GAN方法试图从外观中分离几何形状[26,31],但它们的设计选择不是物理动机,这导致不准确的解决方案,其中外观信息可能通过几何组件泄漏。相比之下,我们提出的方法受到最近用于动态场景的新颖视点合成的非刚性公式的这些方法通过将每个帧的3D重建分离成规范3D重建及其变形来对跨时间观察到的场景中的变形进行建模。然而,即使这些方法可以学习合成变形场景的新视点,它们也限于对单个场景建模,并且它们不能控制场景的外观。在这项工作中,我们提出了D3D,这是一种GAN,具有两个单独且独立的几何和外观组件我们扩展的非刚性配方的情况下,一个可变形的对象类别,如人头,猫,或汽车的多个实例建模对象类的每个实例都被建模为规范体积的变形,该变形在对象类别中共享。我们的方法学习规范的体积,以及特定于实例的几何变形联合从单目图像的数据集。正则体积具有固定的几何形状,而其外观可以独立于几何变形而改变。这种设计公式激发了几何变形和表观变化之间的解纠缠,这是一项具有挑战性的任务,特别是因为我们限于单目图像进行训练。除了解开的几何形状和appetraction,我们的配方允许其他优势,国家的最先进的方法。由于我们的几何变形是显式的欧几里德变换,我们可以在模型中实施有用的属性,例如在生成的3D体积上的姿势一致性。现有的3D GAN并不总是能够解开相机视点和生成的3D体积,特别是当手工制作的先验相机分布与训练数据集的真实分布不匹配时。我们设计了一个姿态正则化损失,它可以加强目标的一致性,提高摄像机和场景解纠缠的质量此外,我们学习了一个逆变形网络,使我们能够计算由我们的模型生成的图像之间的密集对应。最后,我们允许使用D3D编辑输入的照片,将给定的图像映射到相应的几何形状和外观潜码,以及相机姿势。总之,本文提出了以下贡献:1. 一个生成模型,它可以在生成的图像中解开几何形状,外观和相机姿势。这是通过将非刚性场景制剂推广到可变形对象类别来实现的。2. 一种用于3D GAN的新型训练框架,能够实现生成体积的姿势一致性,以及生成图像之间密集对应的计算。3. 通过计算它们在我们的GAN空间中的嵌入来编辑真实图像。这使得能够直观地控制图像中的相机姿势、外观和几何形状。2. 相关工作2.1. 3D生成对抗网络2D生成对抗网络(GAN)[7]在合成高保真图像方面取得了巨大成功已经进行了几次尝试来将GAN与3D表示结合以用于3D感知图像合成。一些作品直接在3D数据上训练[3,36],而另一些作品则通过利用可微分的3D-2D投影仅使用2D图像[2,9,11,20,24在这项工作中,我们专注于后一种模式,这是更实际的,因为收集3D扫描是资源密集型的。许多方法[9,20,24-这限制了渲染结果中3D一致性的质量。Henzler等人[11]和Szabo et al.[33]学习分别生成明确的3D体素和网格,但生成的形状和图像质量有限。最近,人们对采用使用MLP定义的基于坐标的神经体积表示[23]这些方法已经实现了具有高质量3D一致性的高质量3D感知然而,几何和外观之间的解开还没有得到充分的探讨。2.2. 退纠缠单目方法:Zhu等人。[43]提出了一种GAN,可以解开图像中的形状,外观和相机最终的外观是使用2D网络合成的,这可能会限制合成图像中的3D一致性。与我们的工作最接近的方法是GRAF [31]。该网络由一个共享的骨干MLP组成,具有单独的颜色和密度头。外观潜码作为输入提供给彩色头,而形状潜码作为输入提供给主干。骨干MLP对应于我们设计中的然而,与我们的变形网络不同,GRAF没有明确地对3D变形进行建模,并且骨干网络的输出存在于1518······∈∈··∈∈高维空间这导致较低质量的解纠缠,其中颜色信息可能泄漏到骨干网络中,并且外观代码可能被忽略。与GRAF不同,我们的框架还可以计算密集的对应关系,这是通过我们对正向和反向变形场的显式建模实现的。GIRAFFE [26]使用与GRAF相同的解纠缠策略,然而,它也依赖于限制3D一致性的2D渲染多视图:其他方法使用多视图图像来解开这些因素。多视图图像提供了有关3D几何形状的更多信息,这使得这项任务更容易。Xiang等[39]提出了NeuTex,它可以通过学习纹理图上的外观信息来区分形状和外观该方法还学习了三维场景坐标与二维纹理坐标之间的映射然而,NeuTex是场景特定的,因此不是生成模型,即,我们不能从他们的模型中随机抽取真实的场景。Liu等[21]提出了一种编辑辐射场的方法。他们的网络是在一类对象上训练的,并且在测试时能够进行可控制的编辑。CodeNeRF [13]还实现了对形状和外观组件的独立控制。这两种方法与GRAF共享类似的设计选择,即,它们的规范形状空间不接收3D输入。相反,它生活在一个更高维的空间,这是不可解释的。相比之下,我们的方法受到物理启发,因为它对不同对象实例之间的显式3D此外,我们的方法是唯一一种能够在合成图像之间实现密集对应的方法2.3. 非刚性NeRF另一类论文[19,28,29,35,38]解决了给定单眼视频的时变新视图合成问题。Xian等人[38]扩展NeRF公式,使网络随时间参数化,以模拟时间相关视图插值。D-NeRF [29],NR- NeRF [35]和Nerfies [28]学习整个场景的规范表示,从中可以通过学习对规范空间的变形来获得其他帧。这些方法还提出了一些正则化器来控制变形空间。Li等[19]通过学习相邻时间样本之间的3D流场采取不同的他们用2D光流和深度预测器来监督他们的方法。与这些方法相比,我们的方法是一种生成模型,并且不限于给定的场景。此外,我们还可以从几何学中分离出表象。3. 方法我们使用神经体积表示来表示对象,即,MLP网络对3D坐标进行编码,并对3D体积的密度和辐射值进行回归[23]。可以使用体积积分从虚拟相机渲染输出体积以产生最终图像。使用单眼图像作为训练数据,以对抗的方式训练网络。3.1. 网络架构我们的方法的流水线如图所示2,其中包括一个发电机和一个稳压器。由于我们希望理清场景中的几何形状和外观,因此我们将这些组件建模为单独的MLP网络,表示为函数NG()和NA()。此外,我们使用另一个MLP网络,表示为函数NC(),来建模规范对象形状。对于任何对象类,由NC()定义的共享规范体积将表示规范几何。NG()将对特定对象实例相对于规范几何的变形进行建模,并且NA()将表示规范体积的颜色。此外,我们可以可选地训练逆变形网络NI(),其对NG()的逆映射进行建模,从而实现密集对应(在第2节中介绍)。第3.4段)。接下来,我们将详细介绍这些组件我们的方法在3D空间对于坐标为x∈R3的点,我们首先将其发送到变形网络 NG ( ·),以获得其在正则空间中的对应点x′∈R3,x′(x,zG)=NG(x,zG)+x,(1)其中zGR256是从高斯分布采样的几何特征向量。因此,zG通过改变变形场来表示不同的对象形状我们可以计算正则空间中的体积密度σR+σ(x,zG)=NC(x′(x,zG)).(二)其中规范网络NC不接收除输入坐标之外的任何条件。接下来,我们表示视图相关颜色,即,辐射,在规范空间中的场景为:c(x,d,zG,zA)= NA(x′(x,zG),d,zA).(三)这里,c(x,d,zG,zA)R3,dS2是观察方向,并且zA是随机采样的256维向量。因此,我们可以通过简单地采样不同的颜色潜向量zA来改变颜色而不改变几何形状。在我们的设计模型中,变形场的显式建模鼓励几何和外观组件之间1519外观潜码观看方向3D坐标变形空间形变网规范空间颜色3D坐标形状潜码外观网络房密度真/假假鉴别器逆变形网络典型形状网络发生器鉴别器图2. 方法概述。我们的发电机由三个主要部件组成:1)变形网络NG,其将坐标从变形空间映射到以形状潜码Z G为条件的规范空间,2)规范形状网络NC,其对规范体积密度进行建模,以及3)外观网络NA,其对以颜色潜码ZA为条件的规范空间的颜色进行建模。我们可以可选地结合对逆变形进行建模的逆变形网络NI,使得可以获得密集对应。通过在变形空间中执行体绘制来生成图像一个可编程逻辑器件用于对抗训练。术语颜色和外观在本文中可互换使用。具体来说,我们的几何变形网络生成三维欧几里得变换,将其添加到输入坐标x以获得正则空间中的变形坐标。这与使用类似网络架构的现有技术方法[26,31]形成对比,但是它们的骨干网络直接产生高维输出而没有任何物理解释。这种设计选择阻碍了良好的解纠缠,因为这种高维空间也可以编码有关对象颜色的信息。相比之下,我们的公式严格限制几何网络的输出到一个三维向量,模型的坐标偏移。这使得我们的方法与以前的方法相比不太可能泄漏颜色信息。虽然我们的公式不鼓励颜色信息泄漏到几何通道中,但这种方法并不能完全解决所有几何外观模糊性。优化。平衡变形和外观网络的深度可确保所有数据集的良好解缠。3.2. 体积积分我们使用体积神经渲染公式,遵循NeRF [23]。与NeRF不同,NeRF具有同一场景的多个视图及其相应的姿势,我们只有未设定姿势的单目图像。因此,在训练期间,首先从先前分布中采样虚拟相机姿态 为了在给定的相机姿态下渲染图像,每个像素颜色C经由沿着其对应的相机光线r(t)= 0 + td的体积积分来计算,其中近边界tn和远边界tf如下:∫tf关系的考虑人类头部的领域,其中嘴巴张开和嘴巴闭合的不同状态可以用两种方式表示:一种是几何组件C(r)=T(t)σ(r(t))c(r(t))dttn∫t另一个是,几何形状保持不变,颜色分量发生变化其中T(t)=exp(−σ(r(s))ds)。(四)tn而不是.虽然只有第一个解决方案是物理正确的,但几何形状和外观的变化都可以合理地产生逼真的图像。请注意,我们没有3D信息来判断物理上正确的3D解决方案-我们只依赖于单眼图像。This ambiguity cannot bere- solved solely by the separation of geometry andappear- ance channels into separate networks.因此,我们还通过使用不同尺寸的网络的几何形状和外观组件来控制解纠缠的水平。具体地,当外观网络太大时,面部表情变化(如嘴巴张开)将倾向于由外观网络表示,因为它更容易这里省略了σ和c对zG和zA的依赖性,清楚起见在实践中,我们使用分层和分级采样实现离散化数值积分,遵循NeRF [23]。对于沿着射线的每个采样离散点,我们通过根据等式查询我们的生成器来获得σ和c(2)和等式(三)、通过这种体积渲染,我们可以使用我们的模型在任何相机姿态下渲染图像Ig 我们把这个过程概括为Ig=Gθ(zG,zA,θ),其中生成元Gθ包括NG、NA和NC其中,θ表示可学习的参数。这个渲染过程是可微分的,因此可以使用反向传播进行训练。1520∈2L2- -23.3. 损失函数对抗性损失我们使用adversar-ial loss训练生成器Gθ以及具有参数λ的EkDλ。我们使用π- GAN [2]中的π -GAN架构。在训练期间,几何潜向量zG、颜色潜向量zA和相机姿态Z从它们对应的先验分布中随机采样以生成假图像,而真实图像I从分布pD的训练数据集中采样。我们的模型是用非饱和GAN损失训练的[22]:L adv(θ,θ)= f.D(Gθ(zG,zA,))+f(−D<$(I))+λ<$$>D<$(I)<$2,(5)其中f(u)=log(1 +exp(u)),λ是R1正则化的系数。在实践中,zG、zA、Z和I作为小批量随机采样,这是对这些变量取期望值的近似。在对抗性损失的情况下,生成器学习合成逼真的图像,当从手动指定的先验相机分布采样的相机姿势渲染时。理想情况下,网络学习在生成的图像中分解姿态和3D场景所生成的体积处于一致的姿态。然而,在许多情况下,网络收敛到一个解决方案,其中生成的体积具有不同姿势的对象。这通常是在相机姿势上的先验分布不准确时的情况。在我们的公式中,变形场的显式建模使得有可能执行所生成的体积的姿势一致性。为了实现这一点,我们首先计算使用SVD正交化的变形场D(x,zG)的全局旋转分量RSO(3)[18]。这里我们只考虑采样点x,权重(积分期间应用于3D点颜色的标量因子)大于指定阈值。然后,我们的姿势正则化损失项计算为L姿态(θ)=R−I,(6)其中I是单位矩阵。我们使用可微SVD实现,允许使用反向传播进行训练。该项与现有非刚性公式[28,35]中引入这不适合我们的情况,因为我们是跨对象实例建模变形,其中可能包括拉伸,压缩和不连续性。另一方面,我们的损失项鼓励变形不包括任何全局旋转,这产生了一个解,其中相机姿态变化占渲染图像中的所有姿态变化。我们首先用两个损失函数的组合来训练我们的网络L(θ,θ)= Ladv(θ,θ)+ λposeLpose(θ)。(7)进一步对逆形变场进行建模。3.4. 逆变形我们的网络允许我们计算渲染图像之间的密集对应。我们通过训练具有参数λ的逆变形网络NI来实现这一点。由于我们使用的是体积表示,因此体积中的多个点负责任何像素处的颜色。密集对应,其中图像中的像素与另一图像中的仅一个像素具有对应,定义起来并不简单因此,我们通过将其域限制在体积的预期表面周围的点来简化逆网络的训练的公式对于任何这样的点x,我们可以通过等式计算正则坐标x′(x,zG)。1,并使用逆网络返回到变形空间为xI=NI(x′(x,zG),zG)+x′(x,zG)。我们可以在逆变形网络上计算以下约束:Li nv(v )=<$xI−x<$+λim g<$R(xI)−R(x)<$。(八)这里,R是在用于训练的分辨率下的体积的渲染图像。x使用期望的深度值从图像中采样。R(x)是一种使用双线性插值计算x投影到的像素处的颜色的运算。第一项在Eq。8惩罚3D几何偏差,而第二项也可以使用颜色信息来细化对应关系。在对我们的网络进行预训练后,损失定义在等式中。在图7中,我们首先使用inv训练逆网络NI,并且最后联合训练我们的架构中的所有组件,损失如下L(θ,λ,λ)= Ladv(θ,λ)+ λposeLpose(θ)+λinvLinv(θ)。这种正向和反向变形网络的联合优化进一步提高了密集对应性。请注意,我们从一开始就不包括逆损耗,因为它可以使变形网络产生非常小的变形,使解纠缠具有挑战性。3.5. 嵌入给定我们的训练模型和真实图像,我们可以以迭代的方式直接优化潜在向量和相机姿势[2,37]。然而,这种策略非常低效,并且可能导致较低质量的结果。我们there-forever学习一个编码器,它将图像作为输入并回归潜向量和相机姿态。我们利用(九)1521L L LLLL×××图3. VoxCeleb2 [4]和CARLA [6]的定性结果。每行显示使用相同姿势和几何体渲染但外观不同的图像。每列显示使用不同姿势和几何体渲染但外观相同的图像。一个预先训练的ResNet [10]作为我们的编码器骨干。编码器在单目图像上训练(FFHQ [15]),使用我们训练的GAN作为解码器,以自我监督的方式,使用以下损失函数:编码器(encoder)=1(encoder)+λperc perc(encoder)+λreg reg(encoder)(十)其中,k表示编码器的可学习参数。1是一个101重建项,而perc是一个使用VGG网络的特征定义的感知项。Lreg鼓励预测的潜在向量保持接近平均值。编码结果是鲁棒的,但仍然可能我们首先使用迭代优化来细化编码器的结果,最后针对给定图像微调生成器网络。我们表明,这种策略导致高质量的结果,而不会降低解纠缠特性(见图11)。(7)发电机。更多详情请参阅补充资料。4. 结果数据集我们在四个数据集上展示了我们的方法D3D的结 果 : [15] , [16] , [17] , [18] , [19] 。 FFHQ 和VoxCeleb2是头部肖像的数据集。FFHQ包括一组不同的静态图像,而VoxCeleb2是一个大规模的视频数据集,具有更大的视角和表情变化。我们从VoxCeleb2的每个视频中随机抽取几帧Cats是一个猫脸数据集,CARLA是一个视角变化很大的合成汽车数据集。虽然汽车是不可变形的,但不同的汽车实例可以被视为共享模板的变形。这些数据集的实例共享具有不同变形的相似几何形状,因此,它们适合我们的任务。由于我们只对建模对象感兴趣,因此我们删除了肖像图像中的背景[41]。然而,由于猫图像的背景很少,我们不分割它们。我们对所有数据集使用相同的网络架构。训练以粗到细的方式进行,类似于π-GAN [2]。我们使用与π-GAN 中 相 同 的 相 机 姿 态 分 布 。 我 们 在 FFHQ 、VoxCeleb2和Cats上以64 64分辨率训练,在CARLA上以128 128所有定量评价均在128 128分辨率(一旦训练好,由于神经场景表示,图像可以以任何分辨率渲染)。请参阅超级参数的补充材料。定性结果我们首先在图中的所有四个数据集上呈现我们的方法的定性结果。图1和图3。由于生成器的3D性质,我们的方法能够以多个姿势合成对象对于所有对象类,我们可以很好地理清几何形状和外观变化。即使在具有挑战性的变形下,例如由于发型和嘴部表情引起的变形,也是如此。我们在图中比较了与GRAF[31]的解纠缠质量。4.我们的方法显着优于形式GRAF的解纠缠。正如在第二节中所解释的。3.1,由于其骨干的高维输出,GRAF还在几何代码中编码外观信息。相比之下,我们的显式变形可以实现更高质量的解纠缠。我们通过可视化图中的密集对应来评估逆变形网络。5.我们首先在D3D生成的一个图像上提供图像级注释。然后,这些注释可以使用密集对应关系转移到模型的任何其他我们的模型在没有任何显式监督的情况下学习对应关系,即使对于具有大变形的对象也是如此。这使得应用程序,如单次分割转移和关键点注释。在图6中,我们进一步可视化了所提出的姿势正则化损失的有效性。如果没有这种损失,几何体组件往往会使几何体与摄像机视点纠缠在一起。这在使用VoxCeleb2 [4]数据集进行训练时最为明显。虽然与FFHQ [15]相比,该数据集具有更大的姿态变化,1522AppearanceGeometry外观一致性↓一致性↓变化↑····π-GAN0.150.960.15格拉夫0.170.080.04我们的(256-dim)0.130.110.07我们的(无逆)0.060.400.15我们的(完整)0.050.390.16图4.在FFHQ和Cats数据集上与GRAF进行比较。每行显示使用固定外观代码和不同几何体代码渲染的图像我们的方法可以更好地保留外观,同时建模大的变形。FFHQVoxCeleb2猫卡拉[31]第三十一话43.3235.2822.6437.53我们28.1816.5116.9631.13表1.使用FID评分指标进行定量比较(数值越低越好)。我们在所有数据集上都优于GRAF。表3.解缠的评价。第一列用于测量使用相同外观代码和不同几何代码渲染的图像的外观一致性。第二列测量使用相同几何代码和不同外观代码渲染的图像的几何一致性第三列测量这些图像的外观变化,越高意味着模型中捕获的变化越多。使用8k图像样本计算。我们的方法在所有数据集上都优于GRAF。我们还使用表2中的几个基线对FFHQ进行了消融研究。“Ours(256-dim)”是在我们的训练框架中实现GRAF设计的基线,即,NG()直接提供256维向量作为输出,该输出被发送到NA()和NC()。其他网络结构和训练细节与我们的方法相当。然而,这种设计使得使用姿势一致性损失和逆变形是不可行的与我们的完整模型相比,该框架实现了较低的FID,但是,它没有实现高质量的解纠缠π-GAN[二]《中国日报》我们(256-dim)我们(无倒数)我们(完成)由于与GRAF相同的原因,参见参考文献。FFHQ13.2213.98 19.99 28.18表2.使用FID评分,不同基线的FFHQ [15]消融结果。我们完整的方法,使解开的几何形状从外观,除了使密集的对应。这会导致质量损失,如图所示。我们使用相同的先验姿态分布,这可能导致几何网络也补偿不准确分布。我们的损失项消除了姿势和3D场景的歧义,减少了估计非常准确的姿势分布的负担我们还在图中显示了真实图像的嵌入[32]。7.使用我们的反转方法,我们可以实现高质量的嵌入,从而实现姿势编辑,形状编辑和外观编辑等多种应用。例如,我们可以将一个肖像图像的外观转移到另一个肖像图像,而不改变几何形状。我们建议读者参考补充材料以获得更多结果。定量结果我们首先在表1中提供了我们的模型生成的图像的常见报告的FID评分[12]以及GRAF [31]。FID分数逆变形。该架构通过限制NG()输出三维坐标变形来约束网络。这导致以略高的FID为代价结合了逆变形网络,这使我们能够计算密集的对应关系。虽然这使得更广泛的有趣的应用成为可能,但由于变形场的更强的正则化,它再次以更高的FID分数为代价。我们还报告了π-GAN的FID评分[2],这与我们的256维基线相当请注意,π-GAN不支持几何和外观组件之间的任何解纠缠。我们在表3中定量评估了解缠的质量。我们描述了两个新的指标来评估这一点。为了评估外观与变化的几何形状的一致性,我们测量了语义定义明确的区域中平均颜色的标准差,这可以通过现成的分割模型获得[41]。我们使用人类头部的头发区域来计算在FFHQ上训练的网络的这个度量[15]。我们从GAN中抽取了100幅具有固定外观代码和不同几何代码的图像。平均发色的标准偏差可用作指标,因为较低的值将意味着在整个1523图5.我们的方法使用逆变形网络实现了生成图像之间的密集对应。我们展示了这些对应关系的应用程序,通过将参考图像(最左边的列,每个对象类)上的手动注释转移到从模型中采样的其他图像。图6.Vox-Celeb 2上姿态正则化丢失的消融分析所有的图像都是用一个固定的前置摄像头渲染的 With- out this loss, thehead pose changes even though the camera is fixed.姿态正则化损失有助于从相机视点更好地解开3D场景。不同的形状。我们计算10个外观代码的标准差,并报告10个值的平均值我们的方法显著优于GRAF [31]和π-GAN [2]。由于π-GAN没有不同的外观和几何代码,我们只是从他们的模型中抽取1000张图像,并将这些数字作为基线。为了评估具有不同外观的固定几何编码的几何一致性,我们使用稀疏面部关键点进行评估。我们测量了使用现成工具[30]在100个样本中计算的66个面部标志的标准偏差,这些样本具有共享的几何代码和不同的随机采样外观代码。我们以相同的姿态渲染所有图像,以消除方差的附加因素。对10个不同的几何结构代码重复该评估,并对这些几何结构代码和66个界标的误差进行平均。具有几何一致性度量的较低数字意味着改变外观代码不太可能导致图像中的几何变化。虽然我们优于π-GAN基线,但GRAF [31]获得了更好的分数。这是由于GRAF的外观变化是有限我们使用这些图像的外观变化度量进一步评估这一点。该度量的定义与外观一致性度量完全相同具体来说,对于图像集,我们计算具有不同外观代码的100个图像上的平均头发颜色的标准差,并对10个图像进行平均。图7.给定真实图像(col 1),我们可以将它们嵌入到GAN空间(col 2)中。这使得能够使用来自GAN的随机样本进行新颖的视图合成(col 3)、来自其他真实图像的颜色转移(col4)或形状编辑。几何代码如表3所示,我们的方法获得了最高值,这意味着我们的外观组件更好地捕获了数据集的外观变化我们还使用这些指标评估两个基线。正如预期的那样,5. 结论讨论我们已经提出了一种从单目图像中学习解纠缠3DGAN的方法除了disentang- glement,我们的配方使密集对应的计算,使令人兴奋的应用。虽然我们已经证明了令人信服的结果,我们的方法有几个限制。与其他3D GAN一样,我们的结果没有达到2D GAN的照片真实感质量和图像分辨率。解纠缠和对应性是以图像质量下降为代价的(见表2)。此外,我们使用现成的背景分割工具,这限制了我们完全无监督。然而,我们的方法实现了高图像质量和解纠缠,显著优于现有技术。我们希望它能激发3D生成模型的自监督学习的进一步工作鸣 谢 : 这 项 工 作 得 到 了 ERC Consolidator Grant 4DReply(770784)、布朗媒体研究所和以色列科学基金会(grant No.1574/21)。1524引用[1] MallikarjunBR , Ayush Tewari , Abdallah Dib , TimWeyrich,Bernd Bickel,Hans-Peter Seidel,HanspeterPfister,Woj-ciech Matusik,Louis Chevallier,MohamedElgharib,et al. Photoapp:头部特征的照片般逼真的外观编辑。ACM Transactions on Graphics,40(4):1[2] Eric Chan , Marco Monteiro , Petr Kellnhofer , JiajunWu,and Gordon Wetzstein.pi-gan:用于3d感知图像合成的周期性隐式生成对抗网络。在arXiv,2020年。[3] Zhiqin Chen,Vladimir G Kim,Matthew Fisher,NoamAigerman,Hao Zhang,and Siddhartha Chaudhuri.通过条件细化实现三维形状细节化。在IEEE/CVF计算机视觉和模式识别会议论文集,第15740-15749页[4] J. S. Chung,A.Nagrani和A.齐瑟曼。Voxceleb2:深度说话人识别。在INTERSPEECH,2018年。[5] 邓宇,杨蛟龙,陈冬,方文,童欣。通过3d模仿对比学习实现分离和可控的人脸图像生成。在IEEE/CVF计算机视觉和模式识别会议论文集,第5154-5163页[6] 阿列克谢·多索维茨基,德国人罗斯,费利佩·科德维拉,安东尼奥·洛佩兹和弗拉德连·科尔通。卡拉:一个开放式的城市驾驶模拟器.在机器人学习会议上,第1PMLR,2017年。[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS,2014。[8] Jiatao Gu , Lingjie Liu , Peng Wang , and ChristianTheobalt. Stylenerf:一个基于样式的3d感知生成器,用于高分辨率图像合成,2021年。[9] Zekun Hao,Arun Mallya,Serge Belongie,and Ming-Yu Liu.GANcraft:Minecraft世界的无监督3D神经渲染ICCV,2021。[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议,CVPR 2016,美国内华达州拉斯维加斯,2016年6月27-30日,第770-778页。IEEE计算机学会,2016年。[11] Philipp Henzler,Niloy J Mitra,and Tobias Ritschel.逃离柏拉图的洞穴:对抗渲染的3D形状。在ICCV,2019年。[12] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展,30,2017。[13] 张元峰和卢尔德·阿加皮托。Codenerf:对象类别的非纠缠 神 经 辐 射 场 。 arXiv 预 印 本 arXiv : 2109.01750 ,2021。[14] 泰罗·卡拉斯、米卡·艾塔拉、萨穆利·莱恩、埃里克·哈克·奥嫩、简·赫尔斯滕、贾科·莱赫蒂宁和蒂莫·艾拉。无别名生成对抗网络。在Proc. NeurIPS,2021年。[15] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2019年6月。[16] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改进了扫描仪的图像质量。在IEEE/CVF计算机视觉和模式识别会议论文集,第8110-8119页[17] 托马斯·勒胡勒和乔治·德雷塔基斯。 自由风格:自由查看可编辑的肖像渲染与相机mani倍。40(6),2021.[18] Jake Levinson 、 Carlos Esteves 、 Kefan Chen 、 NoahSnavely 、 Angjoo Kanazawa 、 Afshin Rostamizadeh 和Ameesh Makadia。深旋转估计的svd分析。arXiv预印本arXiv:2006.14616,2020。[19] Zhengqi Li,Simon Niklaus,Noah Snavely,and OliverWang.神经场景流场用于动态场景的时空视图合成在IEEE/CVF计算机视觉和模式识别会议论文集,第6498-6508页[20] Yiyi Liao , Katja Schwarz , Lars Mescheder , andAndreas Geiger. 三维可控图像合成生成模型的无监督学习在CVPR,2020年。[21] Steven Liu,Xiuming Zhang,Zhoutong Zhang,RichardZhang,Jun-Yan Zhu,and Bryan Russell.编辑条件辐射场,2021年。[22] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。gans 的 哪 些训 练 方 法 实际 上 是 趋 同的 ? 在ICML ,2018。[23] Ben Mildenhall,Pratul P Srinivasan,Matthew Tancik,Jonathan T Barron , Ravi Ramamoorthi , and Ren Ng.Nerf:将场景表示为用于视图合成的神经辐射场。在ECCV,2020年。[24] Thu Nguyen-Phuoc,Chuan Li,Lucas Theis,ChristianRichardt,and Yong-Liang Yang. Hologan:从自然图像中进行3D表示的无监督学习。在IEEE/CVF计算机视觉国际会议论文集,第7588-7597页[25] Thu Nguyen-Phuoc 、 Christian Richardt 、 Long Mai 、Yong-Liang Yang和Niloy Mitra。Blockgan:从未标记的图像中学习3DarXiv预印本arXiv:2002.08988,2020。[26] Michael Niemeyer和Andreas Geiger。Giraffe:将场景表示为合成生成神经特征场。在IEEE/CVF计算机视觉和模式识别集,第11453[27] Xingang Pan,Xudong Xu,Chen Change Loy,ChristianTheobalt,and Bo Dai.用于形状精确3d感知图像合成的阴 影 引 导 生 成 隐 式 模 型 。 在 神 经 信 息 处 理 系 统(NeurIPS)的进步,2021年。[28] 作者:Kunhong Park,Utkarsh Sinha,Jonathan T.放大图片创作者:John W.塞茨和里卡多·马丁-布鲁阿拉。神经:变形神经辐射场。ICCV,2021年。[29] Albert Pumarola,Enric Corona,Gerard Pons-Moll,andFrancesc Moreno-Noguer.D-NeRF:动态场景的神经辐射在IEEE/CVF计算机视觉和模式识别集,2020年。1525[30] Jason M Saragih,Simon Lucey,and Jeffrey F Cohn.基于正则化界标均值漂移的可变形模型拟合。国际计算机视觉杂志,91(2):200-215,2011。[31] Katja Schwarz , Yiyi Liao , Michael Niemeyer , andAndreas Geiger. Graf:用于3D感知图像合成的生成辐射场神经信息处理系统进展(NeurIPS),2020年。[32] 作者:YiChang Shih,Sylvain Paris,Connelly Barnes,William T. 弗里曼和杜兰德神父头部特写的风格转移ACM Trans. on Graph.(Proceedings ofSIGGRAPH),33(4),2014.[33] Atti l aSzab o',G i viMeishvili,andPaoloFavaro.从自然图像学习非监督生成3d形状。arXiv预印本arXiv:1910.00287,2019。[34] Ayush Tewari 、 Mohamed Elghari
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功