没有合适的资源?快使用搜索试试~ 我知道了~
135030StyleSDF:高分辨率3D一致的图像和几何生成0Roy Or-El 1 Xuan Luo 1 Mengyi Shan 1 Eli Shechtman 20Jeong Joon Park 3 Ira Kemelmacher-Shlizerman 101 华盛顿大学 2 Adobe研究 3 斯坦福大学0图1. 我们提出的框架StyleSDF在仅训练单视图RGB图像的情况下,学习联合生成高分辨率、3D一致的图像(顶部行)以及用SDF表示的详细视图一致的几何形状(底部行)。0摘要0我们引入了一种高分辨率、3D一致的图像和形状生成技术,称为StyleSDF。我们的方法仅基于单视图RGB数据进行训练,并借鉴了StyleGAN2的图像生成方法,同时解决了3D感知GAN中的两个主要挑战:1)高分辨率、视图一致的RGB图像生成,以及2)详细的3D形状。我们通过将基于SDF的3D表示与基于样式的2D生成器相结合,实现了这一目标。我们的3D隐式网络渲染低分辨率的特征图,而基于样式的网络从中生成视图一致的1024×1024图像。值得注意的是,我们基于SDF的3D建模定义了详细的3D表面,从而实现了一致的体积渲染。与现有技术相比,我们的方法在视觉和几何质量方面显示出更高的质量结果。0项目页面:https://stylesdf.github.io/01. 引言0StyleGAN架构[35-37]展示了RGB图像生成的前所未有的质量。然而,它们的设计是生成单个RGB视图,而不是3D内容。在本文中,我们介绍了StyleSDF,一种仅基于单视图RGB图像训练的生成3D一致的1024×1024RGB图像和几何的方法。0相关的3D生成模型[9, 48, 53, 57,62]通过基于坐标的多层感知器(MLP)实现形状和外观的合成。然而,这些方法通常需要3D或多视图数据进行监督,这些数据很难收集,或者仅限于低分辨率渲染输出,因为它们依赖于昂贵的体积场采样。在没有多视图监督的情况下,3D感知的GAN [9, 48,57]通常使用不透明度场作为几何代理,放弃了明确定义的表面,这导致深度图在不同视图之间不一致。Two recent seminal breakthroughs are NeRF [44] andSIREN [61]. NeRF introduced the use of volume render-ing [33] for reconstructing a 3D scene as a combination ofneural radiance and density fields to synthesize novel views.SIREN replaced the popular ReLU activation function withsine functions with modulated frequencies, showing greatsingle scene fitting results. We refer readers to [65] formore comprehensive review.135040我们的架构的核心是基于SDF的3D体积渲染器和2DStyleGAN生成器。我们使用基于坐标的MLP来建模有符号距离场(SDF)和辐射场,这些场渲染低分辨率的特征图。然后,使用StyleGAN生成器将这些特征图高效地转换为高分辨率图像。我们的模型使用对抗性损失进行训练,鼓励网络从所有采样视点生成逼真的图像,并使用Eikonal损失确保正确的SDF建模。这些损失自动产生视图一致、详细的3D场景,无需3D或多视图监督。所提出的框架有效地解决了基于体积渲染的现有3D感知GAN方法的分辨率和视图不一致性问题。我们的系统设计为涉及高质量形状和外观的潜在空间的视觉和图形领域的有趣未来研究打开了大门。我们在FFHQ [36]和AFHQ[13]数据集上对我们的方法进行了评估。通过大量实验证明,我们的系统在生成的图像和表面质量以及视图一致性方面优于现有技术的3D感知方法。02. 相关工作0在本节中,我们回顾了2D图像合成、3D生成建模和3D感知图像合成的相关方法。生成对抗网络:最先进的生成对抗网络[21](GAN)可以合成与真实图像几乎无法区分的高分辨率RGB图像[34-37]。为了操纵生成的图像,已经进行了大量工作,通过探索有意义的潜在空间方向[1-3, 14, 26, 29,58, 59, 63,64],引入对比学习[60],逆向图形学[73],示例图像[32]或多个输入视图[38]。虽然2D潜在空间操作可以产生逼真的结果,但这些方法往往缺乏明确的相机控制,没有3D理解,需要来自3DMM模型的形状先验[63,64],或者将表面重构为预处理步骤[38]。基于坐标的3D模型:虽然已经提出了多种3D表示用于生成建模[24, 67,69],但最近的基于坐标的神经隐式模型[10, 42,53]以其高效、表达力和可微分的特性而脱颖而出。神经隐式表示(NIR)已被广泛应用于学习对象的形状和外观[4,11, 15, 22, 43, 49, 51, 55, 56],局部部分[19,20]和完整的3D场景[7, 12, 30,54]。此外,已经证明NIR方法是通过将它们的3D模型与多视图图像使用可微分渲染[44, 50, 62,71]拟合来从多视图2D监督中重建3D结构的强大工具。0单视图监督的3D感知GAN:最近的方法不依赖于3D或多视图监督,而是通过一组无约束的单视图图像学习3D生成模型。这些方法[9, 18, 27, 31, 40, 45-48,57]通常通过对抗损失来优化它们的3D表示,以从所有随机采样的视点渲染出逼真的2D图像。与我们的工作最相符的方法是使用隐式神经辐射场进行3D感知图像和几何生成的方法(GRAF[57]和Pi-GAN[9])。然而,由于体积渲染的计算成本较高,这些方法仅限于低分辨率输出。此外,使用密度场作为几何的代理为网络提供了足够的自由度来生成逼真的图像,同时违反了3D的一致性,导致相机视点的体积渲染不一致(渲染的RGB或深度图像不是3D一致的)。为了改善表面质量,ShadeGAN[52]引入了一个有阴影引导的流程,GOF[68]逐渐缩小每个相机射线的采样区域。然而,图像输出分辨率(128×128)仍受限于体积渲染的计算负担。GIRAFFE[48]提出了一个双阶段渲染过程。一个主干体积渲染器生成低分辨率的特征图(16×16),然后传递给一个2DCNN以生成256×256分辨率的输出。尽管图像质量有所改善,但GIRAFFE的输出缺乏视角一致性。发型、面部表情,有时甚至物体的身份,都与相机视角的输入纠缠在一起,可能是因为16×16的3D输出不足够描述。同时进行的工作[8,17, 25,74]采用了两阶段渲染过程或智能采样策略进行高分辨率图像生成,但这些工作仍然不能很好地建模明确定义的、视角一致的3D几何。03. 算法03.1. 概述0我们的框架由两个主要组件组成。一个主干有条件的SDF体积渲染器,和一个基于2D风格的生成器[37]。每个组件还有一个附带的映射网络[36],将输入的潜在向量映射为每层的调制信号。我们的架构概述如图2所示。为了生成一张图像,我们从中随机采样一个潜在向量zAAAB8XicjVDLSgNBEOyNrxhfUY9eBoPgKexKUI9BL4KXCOaByRJ6J7PJkNnZZWZWCMv+hRcPinj1b7z5N04eBxUFCxqKqm66u4JEcG1c98MpLC2vrK4V10sbm1vbO+XdvZaOU0VZk8YiVp0ANRNcsqbhRrBOohhGgWDtYHw59dv3TGkey1szSZgf4VDykFM0Vrq77mc9FMkI83654lXdGcjfpAILNPrl994gpmnEpKECte56bmL8DJXhVLC81Es1S5COcci6lkqMmPaz2cU5ObLKgISxsiUNmalfJzKMtJ5Ege2M0Iz0T28q/uZ1UxOe+xmXSWqYpPNFYSqIicn0fTLgilEjJpYgVdzeSugIFVJjQyr9L4TWSdU7rdZuapX6xSKOIhzAIRyDB2dQhytoQBMoSHiAJ3h2tPPovDiv89aCs5jZh29w3j4Bq6eQ7g== AAAB9HicbVDLSsNAFL2pr1pfVZduBotQNyWRoi6LblxWsA9oQ5lMJu3QySTOTIol9DvcuFDErR/jzr9x0mahrQcGDufcyz1zvJgzpW372yqsrW9sbhW3Szu7e/sH5cOjtooSSWiLRDySXQ8rypmgLc00p91YUhx6nHa88W3mdyZUKhaJBz2NqRvioWABI1gbyfWr/RDrkRekT7PzQbli1+w50CpxclKBHM1B+avvRyQJqdCEY6V6jh1rN8VSM8LprNRPFI0xGeMh7RkqcEiVm85Dz9CZUXwURNI8odFc/b2R4lCpaeiZySyiWvYy8T+vl+jg2k2ZiBNNBVkcChKOdISyBpDPJCWaTw3BRDKTFZERlpho01PJlOAsf3mVtC9qzmWtfl+vNG7yOopwAqdQBQeuoAF30IQWEHiEZ3iFN2tivVjv1sditGDlO8fwB9bnD4wnkfg= AAACAXicbZDLSsNAFIZP6q3WW9SN4GawCBWkJFLUZdGNywr2Am0ok+mkHTq5MDMpllA3voobF4q49S3c+TZO2gja+sPAx3/OYc753YgzqSzry8gtLa+sruXXCxubW9s75u5eQ4axILROQh6Klosl5SygdcUUp61IUOy7nDbd4XVab46okCwM7tQ4oo6P+wHzGMFKW13zgJQ6PlYD10vuJ6c/OJqcdM2iVbamQotgZ1CETLWu+dnphST2aaAIx1K2bStSToKFYoTTSaETSxphMsR92tYYYJ9KJ5leMEHH2ukhLxT6BQpN3d8TCfalHPuu7kxXlPO11Pyv1o6Vd+kkLIhiRQMy+8iLOVIhSuNAPSYoUXysARPB9K6IDLDAROnQCjoEe/7kRWicle3zcuW2UqxeZXHk4RCOoAQ2XEAVbqAGdSDwAE/wAq/Go/FsvBnvs9ackc3swx8ZH9+VwJb+ AAACAXicbZDLSsNAFIZP6q3WW9SN4GawCBWkJFLUZdGNywr2Am0ok+mkHTq5MDMpllA3voobF4q49S3c+TZO2gja+sPAx3/OYc753YgzqSzry8gtLa+sruXXCxubW9s75u5eQ4axILROQh6Klosl5SygdcUUp61IUOy7nDbd4XVab46okCwM7tQ4oo6P+wHzGMFKW13zwCt1fKwGrpfcT05/cDQ56ZpFq2xNhRbBzqAImWpd87PTC0ns00ARjqVs21aknAQLxQink0InljTCZIj7tK0xwD6VTjK9YIKOtdNDXij0CxSaur8nEuxLOfZd3ZmuKOdrqflfrR0r79JJWBDFigZk9pEXc6RClMaBekxQovhYAyaC6V0RGWCBidKhFXQI9vzJi9A4K9vn5cptpVi9yuLIwyEcQQlsuIAq3EAN6kDgAZ7gBV6NR+PZeDPeZ605I5vZhz8yPr4BmpGXAQ== AAAB+3icbVDLSgMxFM3UV62vsS7dBItQN2VGirosunFZwT6gM5RMmmlDk8yQZKRlmF9x40IRt/6IO//GTDsLbT0QOJxzL/fkBDGjSjvOt1Xa2Nza3invVvb2Dw6P7ONqV0WJxKSDIxbJfoAUYVSQjqaakX4sCeIBI71gepf7vSciFY3Eo57HxOdoLGhIMdJGGtpVT9ExR3WPIz0JwnSWXQztmtNwFoDrxC1IDRRoD+0vbxThhBOhMUNKDVwn1n6KpKaYkaziJYrECE/RmAwMFYgT5aeL7Bk8N8oIhpE0T2i4UH9vpIgrNeeBmcwjqlUvF//zBokOb/yUijjRRODloTBhUEcwLwKOqCRYs7khCEtqskI8QRJhbeqqmBLc1S+vk+5lw71qNB+atdZtUUcZnIIzUAcuuAYtcA/aoAMwmIFn8ArerMx6sd6tj+VoySp2TsAfWJ8/8ZOUZA== AAAB8XicbVDLSgMxFL1TX7W+qi7dBIvgqsyIqMuiG5cV7APbUjLpnTY0kxmSjFiG/oUbF4q49W/c+Tdm2llo64HA4Zx7ybnHjwXXxnW/ncLK6tr6RnGztLW9s7tX3j9o6ihRDBssEpFq+1Sj4BIbhhuB7VghDX2BLX98k/mtR1SaR/LeTGLshXQoecAZNVZ66IbUjPwgfZr2yxW36s5AlomXkwrkqPfLX91BxJIQpWGCat3x3Nj0UqoMZwKnpW6iMaZsTIfYsVTSEHUvnSWekhOrDEgQKfukITP190ZKQ60noW8ns4R60cvE/7xOYoKrXsplnBiUbP5RkAhiIpKdTwZcITNiYgllitushI2ooszYkkq2BG/x5GXSPKt6F9Xzu/NK7TqvowhHcAyn4MEl1OAW6tAABhKe4RXeHO28OO/Ox3y04OQ7h/AHzucPADaRJQ== AAAB8XicbVDLSgMxFL1TX7W+qi7dBIvgqsyIqMuiG5cV7APbUjLpnTY0kxmSTKEM/Qs3LhRx69+482/MtLPQ1gOBwzn3knOPHwuujet+O4W19Y3NreJ2aWd3b/+gfHjU1FGiGDZYJCLV9qlGwSU2DDcC27FCGvoCW/74LvNbE1SaR/LRTGPshXQoecAZNVZ66obUjPwgncz65Ypbdecgq8TLSQVy1Pvlr+4gYkmI0jBBte54bmx6KVWGM4GzUjfRGFM2pkPsWCppiLqXzhPPyJlVBiSIlH3SkLn6eyOlodbT0LeTWUK97GXif14nMcFNL+UyTgxKtvgoSAQxEcnOJwOukBkxtYQyxW1WwkZUUWZsSSVbgrd88ippXlS9q+rlw2WldpvXUYQTOIVz8OAaanAPdWgAAwnP8ApvjnZenHfnYzFacPKdY/gD5/MH/R2RIw== AAACCXicbVDLSgMxFM3UV62vUZdugkWoIGVGirosunElFewDOqVk0kwbmmSGJCPUYbZu/BU3LhRx6x+482/MtLPQ1gOBk3Pu5d57/IhRpR3n2yosLa+srhXXSxubW9s79u5eS4WxxKSJQxbKjo8UYVSQpqaakU4kCeI+I21/fJX57XsiFQ3FnZ5EpMfRUNCAYqSN1Lehx5Ee+UHykEJPUT77Y8SSm7TinLjHfbvsVJ0p4CJxc1IGORp9+8sbhDjmRGjMkFJd14l0L0FSU8xIWvJiRSKEx2hIuoYKxInqJdNLUnhklAEMQmme0HCq/u5IEFdqwn1Tme2p5r1M/M/rxjq46CVURLEmAs8GBTGDOoRZLHBAJcGaTQxBWFKzK8QjJBHWJrySCcGdP3mRtE6r7lm1dlsr1y/zOIrgAByCCnDBOaiDa9AATYDBI3gGr+DNerJerHfrY1ZasPKeffAH1ucPVvyZcw== AAAB+XicbVDLSsNAFL2pr1pfUZduBovgqiQi6rLoxmUF+4A2hMl00g6dTMLMpFJC/sSNC0Xc+ifu/BsnbRbaemDgcM693DMnSDhT2nG+rcra+sbmVnW7trO7t39gHx51VJxKQtsk5rHsBVhRzgRta6Y57SWS4ijgtBtM7gq/O6VSsVg86llCvQiPBAsZwdpIvm0PIqzHQZg95X42jXnu23Wn4cyBVolbkjqUaPn212AYkzSiQhOOleq7TqK9DEvNCKd5bZAqmmAywSPaN1TgiCovmyfP0ZlRhiiMpXlCo7n6eyPDkVKzKDCTRU617BXif14/1eGNlzGRpJoKsjgUphzpGBU1oCGTlGg+MwQTyUxWRMZYYqJNWTVTgrv85VXSuWi4V43Lh8t687asowoncArn4MI1NOEeWtAGAlN4hld4szLrxXq3PhajFavcOYY/sD5/AHszlDk= AAAB8XicbVDLSgMxFL1TX7W+qi7dBIvgqsyIqMuiG5cV7APbUjLpnTY0kxmSjFiG/oUbF4q49W/c+Tdm2llo64HA4Zx7ybnHjwXXxnW/ncLK6tr6RnGztLW9s7tX3j9o6ihRDBssEpFq+1Sj4BIbhhuB7VghDX2BLX98k/mtR1SaR/LeTGLshXQoecAZNVZ66IbUjPwgfZr2yxW36s5AlomXkwrkqPfLX91BxJIQpWGCat3x3Nj0UqoMZwKnpW6iMaZsTIfYsVTSEHUvnSWekhOrDEgQKfukITP190ZKQ60noW8ns4R60cvE/7xOYoKrXsplnBiUbP5RkAhiIpKdTwZcITNiYgllitushI2ooszYkkq2BG/x5GXSPKt6F9Xzu/NK7TqvowhHcAyn4MEl1OAW6tAABhKe4RXeHO28OO/Ox3y04OQ7h/AHzucPADaRJQ== AAAB8XicbVDLSgMxFL1TX7W+qi7dBIvgqsyIqMuiG5cV7APbUjLpnTY0kxmSTKEM/Qs3LhRx69+482/MtLPQ1gOBwzn3knOPHwuujet+O4W19Y3NreJ2aWd3b/+gfHjU1FGiGDZYJCLV9qlGwSU2DDcC27FCGvoCW/74LvNbE1SaR/LRTGPshXQoecAZNVZ66obUjPwgncz65Ypbdecgq8TLSQVy1Pvlr+4gYkmI0jBBte54bmx6KVWGM4GzUjfRGFM2pkPsWCppiLqXzhPPyJlVBiSIlH3SkLn6eyOlodbT0LeTWUK97GXif14nMcFNL+UyTgxKtvgoSAQxEcnOJwOukBkxtYQyxW1WwkZUUWZsSSVbgrd88ippXlS9q+rlw2WldpvXUYQTOIVz8OAaanAPdWgAAwnP8ApvjnZenHfnYzFacPKdY/gD5/MH/R2RIw== AAAB+XicbVDLSsNAFL2pr1pfUZduBovgqiQi6rLoxmUF+4A2hMl00g6dTMLMpFJC/sSNC0Xc+ifu/BsnbRbaemDgcM693DMnSDhT2nG+rcra+sbmVnW7trO7t39gHx51VJxKQtsk5rHsBVhRzgRta6Y57SWS4ijgtBtM7gq/O6VSsVg86llCvQiPBAsZwdpIvm0PIqzHQZg95X42jXnu23Wn4cyBVolbkjqUaPn212AYkzSiQhOOleq7TqK9DEvNCKd5bZAqmmAywSPaN1TgiCovmyfP0ZlRhiiMpXlCo7n6eyPDkVKzKDCTRU617BXif14/1eGNlzGRpJoKsjgUphzpGBU1oCGTlGg+MwQTyUxWRMZYYqJNWTVTgrv85VXSuWi4V43Lh8t687asowoncArn4MI1NOEeWtAGAlN4hld4szLrxXq3PhajFavcOYY/sD5/AHszlDk= Low-Res DiscriminatorC(r) =� tfF(r) =tf(2)135050多层感知机网络0全连接层0全连接层0全连接层0K �0体积聚合02D特征图064x64RGB图像0d ( x )0c ( x , v )0f ( x , v )0σ ( x )0x0v0Marching Cubes03D网格0SDF体积渲染器架构0SDF体积渲染器0风格化的2D生成器0高分辨率鉴别器0渲染器映射网络0生成器映射网络0z � N (0 , 1)0w vol 2D特征图064x64图像01024x1024图像0x0v03D网格0整体架构0w vol0查看方向和位置0! : 特征向量 " :RGB辐射 # :SDF值 σ : 密度值0图2.StyleSDF架构:(左)整体架构:SDF体积渲染器接受潜在编码和相机参数,查询体积中的点和视角方向,并将3D表面特征投影到2D视图中。投影的特征被馈送到Styled2D生成器,生成高分辨率图像。(右)我们的SDF体积渲染器共同建模体积SDF和辐射场,提供了明确定义和视图一致的几何体。0低分辨率鉴别器03.2. 基于SDF的体积渲染0我们的主干体积渲染器接受一个3D查询点x和一个视角方向v。在潜在向量z的条件下,它输出一个SDF值d(x,z),一个视角相关的颜色值c(x, v, z),以及一个特征向量f(x,v,z)。为了清晰起见,我们从此处开始省略z。SDF值表示查询点与表面边界的距离,符号表示点是在封闭表面内部还是外部。如VolSDF[70]所示,SDF可以作为传统体积渲染中用于密度函数的代理。0ing[44]。假设表面不是空心的,我们将SDF值转换为3D密度场σ,0σ(x) = Kα(d(x)) = 10α∙Sigmoid[−d(x)]0α0,(1)0其中α是一个学习参数,用于控制表面边界附近密度的紧密程度。接近0的α值表示固体、锐利的物体边界,而较大的α值表示更“蓬松”的物体边界。一个较大的正SDF值会将sigmoid函数推向0,意味着表面外没有密度,而一个高幅度的负SDF值会将sigmoid推向1,这意味着表面内有最大密度。我们使用体积渲染生成低分辨率的64×64特征图和彩色图像。对于每个像素,我们在从相机位置o起始并指向相机方向r(t) = o +tv的射线上查询点,并计算RGB颜色和特征图如下:0t n T(t)σ(r(t))c(r(t), v)dt,0t n T ( t ) σ ( r ( t )) f ( r ( t ) , v )0其中T(t) = exp[−t]0t n σ ( r ( s ))ds,which we approximate with discrete sampling along rays.Unlike NeRF [44] and other 3D-aware GANs such as Pi-GAN [9] and StyleNeRF [25] we do not use stratified sam-pling. Instead, we split [tn, tf] into N evenly-sized bins,135060N],并均匀采样N个点,0t i = t f - t 0N∙i + δ,其中i∈{0, ..., N - 1}。(3)0此外,我们完全放弃了分层采样,从而将样本数量减少了50%。我们在补充材料中讨论了我们采样策略的优点。通过使用SDF,我们可以清晰地定义表面,从而可以通过Marching Cubes[39]提取网格。此外,使用SDF以及相关的损失(第3.4.1节)可以在表达能力和视图一致性方面提供更高质量的几何体(如第4.4节所示),即使采用了简化的体积采样策略。我们的体积渲染器的架构大部分与Pi-GAN[9]相匹配。映射网络由一个具有LeakyReLU激活的3层MLP组成,将输入的潜在编码z映射到w空间,然后为体积渲染器的每一层生成频率调制γi和相位偏移βi。体积渲染网络包含八个共享的调制FC层,使用SIREN [61]激活函数:0ϕi(x)=sin(γi(Wi∙x+bi)+βi),i∈{0,...,7}(4)0其中Wi和bi是全连接层的权重矩阵和偏置向量。然后,体积渲染器分为两个路径,SDF路径和颜色路径。SDF路径使用一个称为ϕd的单个FC层实现。在颜色路径中,最后一个共享层ϕ7的输出与视角输入连接在一起,经过一个额外的FiLMsiren层[9]ϕf,然后经过一个单个FC层ϕc生成颜色输出。总结一下:0σ(x)=Kα◦ϕd◦ϕ7◦...◦ϕ0(x),f(x,v)=ϕf(ϕ7◦...◦ϕ0(x),v)c(x,v)=ϕc◦ϕf.(5)0ϕf的输出特征传递给2D风格生成器,生成的低分辨率彩色图像被送入判别器进行监督。判别器与Pi-GAN[9]的判别器相同。我们观察到使用视角相关的颜色c(x,v)会使网络过度拟合数据集中的偏差。例如,在FFHQ[36]中,人们在面对相机时往往更容易微笑。这使得面部表情随着视角的变化而改变,尽管几何形状保持一致。然而,当我们去除视角相关的颜色时,模型无法收敛。因此,为了获得视角一致的图像,我们在训练模型时使用视角相关的颜色,但在推理过程中将视角方向v固定为正面视角。03.3.高分辨率图像生成0与NeRF不同[44],其中重建损失是针对每条光线单独计算的,对抗训练需要有完整的图像。因此,将纯体积渲染器扩展到高分辨率很快变得难以处理,因为我们需要对超过1000万个查询进行采样才能渲染出一张1024×1024的图像。因此,我们希望将体积渲染器与StyleGAN2网络融合在一起,后者已经被证明能够合成高分辨率的2D图像。为了将这两种架构结合起来,我们截断StyleGAN2生成器的早期层,直到64×64层,并将64×64的特征图输入到生成器中,这些特征图是由骨干体积渲染器生成的。此外,我们将StyleGAN2的映射网络从8层减少到5层,并将其与体积渲染器的映射网络中的w潜在代码连接起来,而不是原始的潜在向量z。判别器保持不变。这种设计选择使我们能够兼顾两者的优点。体积渲染器学习底层几何结构,明确地将物体的姿态与外观分离,并在推理过程中完全控制相机位置。StyleGAN2生成器对低分辨率的特征图进行上采样,添加高频细节,并模拟复杂的光传输效应,如次表面散射和互反射,这些效应很难用低分辨率的体积渲染器建模。03.4.训练0我们采用两阶段的训练过程。首先,我们只训练基于SDF的体积渲染器,然后我们冻结体积渲染器的权重,并训练StyleGAN生成器。03.4.1体积渲染器训练0我们使用非饱和GAN损失和R1正则化[41]来训练我们的体积渲染器,记为Ladv。除此之外,我们还使用了3个额外的正则化项。姿态对齐损失:这个损失旨在确保所有生成的物体在全局上对齐。除了预测图像是真实的还是伪造的,判别器还试图预测两个输入相机角度(ϕ,θ)。我们使用平滑的L1损失来惩罚预测误差:0Lview=0如果|ˆθ-θ|≤1,则(ˆθ-θ)²,否则为|ˆθ-θ|。(6)0这个损失应用于生成器和判别器的两个视角,然而,由于我们没有原始数据集的地面真实姿态数据,所以这个损失只应用于判别器传递的伪造图像。Eikonal损失:这个项确保学习到的SDF是物理上有效的[23]:0L eik = Ex(∥�d(x)∥2 - 1)2. (7)135070图3.相同视角的生成高分辨率RGB图像(顶部),低分辨率体积渲染图像(插图)和深度图(底部)。64×64的体积渲染输出特征传递给StyleGAN生成器生成高分辨率的RGB图像。请注意,图像对之间保留了物体的身份和结构。此外,正如在美洲豹和猎豹的示例中可以看到的那样,StyleGAN生成器有时会纠正体积渲染器中建模不良的背景信号。0最小曲面损失:我们鼓励3D网络使用最小的零交叉体积来描述场景,以防止形成虚假和非可见的表面。也就是说,我们惩罚接近零的SDF值:0L surf = Ex(exp(-100|d(x)|)). (8)0然后,整体损失函数为:0L vol = L adv + λ view L view + λ eik L eik + λ surf L surf. (9)0其中λ view = 15,λ eik = 0.1,λ surf =0.05。根据数据集设置R1损失的权重。03.4.2 Styled生成器训练0我们使用与原始实现相同的损失和优化器参数来训练我们的Styled生成器,包括非饱和对抗损失、R1正则化和路径正则化。与体积渲染器训练一样,根据数据集设置R1正则化的权重。虽然可以在低分辨率和高分辨率输出图像之间进行重建损失,但我们发现2D卷积架构的归纳偏差和样式代码的共享足以保持图像之间的重要结构和身份(图3)。04. 实验04.1. 数据集和基线0我们在FFHQ[36]和AFHQ[13]数据集上训练和评估我们的模型。FFHQ包含70,000张不同人脸的图像,分辨率为1024×1024。0根据Karras等人介绍的方法,将AFHQ数据集中的图像进行居中和对齐处理。AFHQ数据集包含15,630张猫、狗和野生动物的图像,分辨率为512×512。请注意,AFHQ图像没有对齐,并且包含多样的动物物种,对StyleSDF构成了重大挑战。0我们通过测量生成图像的质量、形状和渲染一致性来将我们的方法与最先进的3D感知GAN基线方法GIRAFFE[48]、PiGAN[9]、GRAF[57]和HoloGAN[45]进行比较。04.2. 定性评估0与基线方法的比较:我们通过从4个不同视点渲染相同的身份(潜在代码)来比较我们图像的视觉质量,结果如图4所示。为了比较底层几何的质量,我们还展示了从StyleSDF、Pi-GAN和GRAF中提取的表面。我们的方法生成了更优质的图像和更详细的3D形状。我们方法的其他生成结果可以在图1和图3中看到。0小说视图合成:由于我们的方法学习了强大的3D形状先验知识,因此它可以从在数据集分布中没有很好表示的视点生成图像。图5展示了超出分布的视图合成的示例。0视频结果:我们建议读者访问我们项目的网站,其中包含更多的结果和视频,以更好地欣赏StyleSDF的多视图能力。135080不适用0不适用0不适用 不适用0不适用 不适用0不适用 不适用0图4. 定性图像和几何比较。我们将我们的样本渲染和相应的3D网格与最先进的3D感知GAN方法([9, 45, 48,57])进行比较。请注意,HoloGAN和GIRAFFE无法从它们的表示中创建3D网格。HoloGAN(a)和GRAF(b)产生的渲染质量较低。从PiGAN的学习的不透明度场中重建的3D网格显示出明显的伪影(c)。虽然GIRAFFE(d)生成了逼真的低分辨率图像,但人物的身份在不同视点下经常发生变化。StyleSDF(d)生成了1024×1024逼真的视角一致的RGB图像,同时生成了高质量的3D。最好在数字设备上查看。04.3. 定量图像评估0我们使用Frechet Inception Distance(FID)[28]和KernelInceptionDistance(KID)[6]评估生成图像的视觉质量和多样性。我们将我们的分数与上述基线模型在FFHQ和AFHQ数据集上进行比较。所有基线模型都是按照给定的流程进行训练,生成256×256的图像,但Pi-GAN是在128×128的图像上进行训练,并在推理时渲染256×256的图像。总结在表1中的结果显示,StyleSDF在视觉质量方面始终优于所有基线模型。它与同时进行的报告分数相当。0例如StyleNerf [25]和CIPS-3D [74]等工作。04.4. 体积渲染一致性0体积渲染已成为从2D图像中不可区分地优化体积场的关键技术,因为其广泛覆盖的点采样在训练期间产生稳定的梯度流。值得注意的是,体积渲染在建模薄表面或透明物体(例如人类头发)方面表现出色,而这些物体很难用显式表面(例如3D网格)建模。然而,我们注意到使用未经正则化的不透明度场的现有3D感知GAN [9,57]的体积渲染由于缺乏多视角一致性而严重不足。135090图5.超出分布的视角合成(视场和相机角度)。尽管StyleSDF是在固定的视场下训练的,但增加和减少视场视野(列1-2)仍然看起来逼真。类似地,使用用于训练的相机角度分布的1.5个标准差(列3-6)也是如此。0数据集:FFHQ AFHQ0FID KID FID KID0HoloGAN 90.9 75.5 95.6 77.5 GRAF 79.2 55.0129.5 85.1 PiGAN 83.0 85.8 52.4 30.7 GIRAFFE31.2 20.1 33.5 15.10Ours 11.5 2.65 12.8 4.470表1.FID和KID评估。所有数据集在256×256的分辨率下进行评估。我们的方法表现最佳。请注意,为了简单起见,我们报告的KID×1000。0数据集:FFHQ AFHQ0PiGAN 11.04 8.66 Ours 0.40 0.630表2.深度一致性结果。我们测量每个数据集的1,000个随机深度图对之间的平均修改Chamfer距离(Eq.(10))。每个对包含一个前景视图深度图和一个侧视深度图。我们的方法在一致性方面表现更强(见图6)。0视角监督。也就是说,从不同视角计算的深度值(作为每个相机射线的预期终止距离[16,44])在全局坐标中不一致重叠。这意味着神经隐式特征在不一致的3D位置进行评估,削弱了隐式3D表示对视角一致渲染的归纳偏差。因此,我们通过比较不同视角的深度图一致性来衡量每个系统的体积渲染质量。我们随机选择1,000个身份,从前景视角和固定的侧视角渲染它
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功