使用Hair-GAN生成对抗网络从单个图像中恢复3D头发结构的研究

102 浏览量更新于2024-01-24 收藏 2.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学3（2019）102Hair-GAN：使用生成对抗网络从单个图像中恢复3D头发结构张梦，郑友义浙江大学CAD/CG国家重点实验室，浙江杭州310058ar t i cl e i nf o文章历史记录：2018年12月28日收到收到修订版2019年5月14日接受2019年6月5日在线预订2019年保留字：单视图头发建模3D体积结构深度学习生成对抗网络a b st ra ct我们引入Hair-GAN，一种生成对抗网络的架构，从单个图像中恢复3D头发结构。我们的网络的目标是建立从2D头发贴图到3D头发结构的参数化转换。3D头发结构被表示为3D体积场，其编码头发束的占用和取向信息。给定一个头发图像，我们首先将其与胸围模型对齐，并提取一组2D映射，编码2D中的头发方向信息，以及胸围深度映射，以馈送到我们的Hair-GAN中。使用我们的生成器网络，我们计算3D体积场作为最终头发合成的结构指导。建模结果不仅与输入图像中的头发相似，而且在其他视图中也具有许多生动的细节。通过使用各种发型并与现有技术进行比较，证明了我们的方法的功效。2019浙江大学出版社版权所有由爱思唯尔公司出版这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍3D化身建模技术在当今新兴的VR和AR应用中变得越来越流行。然而，由于现实世界中发型的复杂性和多样性，作为最关键的任务之一的单视图头发建模的方法（Chai et al. ，2016; Hu etal. ，2015; Chai等人，2015）被认为是一个更用户友好的多视图建模方法相比（Echevarria et al. ，2014; Herrera et al. ，2012;Hu et al. ，2014; Jakob等人，2009; Luo et al. ，2013; Paris etal. ，2008），这通常需要在受控的演播室环境中的专用设备和长的处理周期。由于在远离输入的视图处缺乏信息，单视图头发建模技术通常依赖于包含数百或数千个合成发型的大型数据库，其用作头发形状、分布或复杂结构的先验知识。这些数据驱动的方法（Chai etal. ，2016; Hu et al. 2015年，2017年，出现了一些问题。首先，毛发数据库对大存储量的需求限制了其在移动设备等资源受限平台上的应用。其次，建模结果的质量依赖于从有限数量的数据库中检索到的毛发样本。虽然引入了后细化以提高细节精度，但最终结果的结构*通讯作者。电子邮件地址：youyizheng@zju.edu.cn（Y. Zheng）。同行评议由浙江大学和浙江大学出版社负责。https://doi.org/10.1016/j.visinf.2019.06.001仍然被最初检索到的样本所限制。此外，贪婪搜索过程是缓慢的，难以平衡的局部细节相似性和全局形状相似性之间的选择标准近年来，深度学习在许多研究领域得到了广泛的应用最吸引人的特征之一深度学习方法的最大优势是它们在转换将大数据转换为高维特征表示。这些学习到的特征足以描述新的数据，并建立从输入到目标输出的空间映射，完全独立于这些训练数据。Chai et al. （2016）以及Zhou等人（2018）和Saito等人（2018）的并行工作将深度学习引入单视图头发建模。在Chai et al.（2016）Zhou等人（2018）使用自动编码器直接学习从2D方向图到参数化为低分辨率2D头皮图的发架组件的对应关系，如Wang等人（2009）。Saito等人（2018）通过利用自动编码器的潜在空间在2D图像和3D头发结构之间建立桥梁，努力实现端到端的3D头发推断在本文中，我们介绍了Hair-GAN，这是一种生成对抗网络的架构，可以从单个输入图像中恢复3D头发结构。如在视觉社区中所研究的，生成对抗网络能够比CNN和自动编码器模型更好地捕获模型分布，因为它们的对抗训练性质倾向于自己学习更通用的距离测量，而不是手工编码（Goodfellow et al. ，2014年）。为了建立数据，2468- 502 X/©2019浙江大学和浙江大学出版社。由Elsevier B. V.发布，这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinfM. Zhang和Y.Zheng/视觉信息学3（2019）102103−Fig. 1. 给定各种发型的单视图输入（第一列），我们的生成器网络恢复表示为粗略形状和方向场（第二列）的3D头发结构，以指导头发合成。最终生成完整的股级3D头发模型（最后三列），输入图像中的头发。网络培训，我们使用3D人工合成的头发数据库。就像Zhou等人的深度学习方法一样。（2018）和Saito等人（2018），在网络训练完成后，将大量数据库放在一边。单视图头发建模的一个特殊挑战是输入图像仅提供2D信息，缺乏沿3D空间中的深度方向的线索。因此，直接的2D到3D训练可能会导致不受约束的结果。因此，我们将胸围深度图作为GAN的条件涉及到我们的网络的输入张量中，GAN为人体周围生长的毛发提供深度先验。同时，我们通过维度扩展层将一系列2D特征转换为单个3D特征通道，以聚合来自2D卷积神经网络的3D知识。受GAN对抗结构的启发（Goodfellow et al. ，2014），我们最大限度地减少了真实数据的客观损失，以扩大真实和虚假数据之间的差异，并竞争性地优化生成器，以减少输出和地面真实数据之间的距离，不仅在体素方面，而且在真实数据的潜在空间我们的方法可以生成一个高质量的3D股级的头发模型与一个单一的图像作为输入，由我们的生成器网络生成的体积的我们的Hair-GAN恢复的3D头发结构沿着深度方向处理高感知质量的细节，而不是像Saito等人那样平滑粗糙的头发形状。图1显示了我们的方法对于短发型和长发型、直发和卷发的功效。概括而言，我们的贡献是：我们介绍了单视图头发建模的GAN架构。我们的GAN将2D方向图转换为3D体积场，该体积场编码头发束的占用和方向信息;我们提出了一个维度扩展层到我们的生成器网络的设计，它将一系列的2D特征转换为单个通道的3D特征;我们优化的发生器参数，同时考虑输出和潜在的特征的混沌。2. 相关工作头发是网络游戏、虚拟世界和虚拟现实应用中数字角色的重要组成部分之一。高质量的3D头发建模技术在计算机图形学中得到了广泛的研究，这通常需要专业技能和数天的艰苦手工工作。请参阅调查（Ward et al. ，2007）以详细讨论开创性的毛发建模方法。基于图像的头发建模是一种很有前途的方法，可以从捕获的头发图像中创建基于图像的头发建模方法根据所需图像的数量可大致分为多视图头发建模和单视图头发建模。多视图头发建模方法（Echevarria et al. ，2014; Herrera et al. ，2012; Hu et al. ，2014;Jakob等人，2009; Luo et al. ，2013; Paris et al. ，2008）从多个视图创建高质量的3D头发建模，这通常需要复杂的硬件设置、良好控制的环境和长的处理周期。它们不是消费者友好的，因为这些多视图捕获系统和专业技能对于普通用户来说不容易获得。虽然单视图头发建模方法正变得越来越流行和重要，因为单视图、未校准的图像在互联网上广泛可用。Chai等人（2012，2013）首先介绍了通过利用不同种类的先验知识（包括层边界和遮挡以及阴影线索）进行单视图头发建模的技术（Chai et al. ，2015）。他们的方法的一个主要问题是缺乏对远离输入图像的视图处的几何形状的控制。数据驱动的头发建模方法提供了一个概念上有说服力的整个发型的先验知识，三维合成发型数据库。Hu等人（2015）通过拟合几个用户笔划来组装从数据库中搜索到的不同发型，以重建完整的头发形状。Chai等人（2016）将模型重混步骤提前到预计算阶段。从他们扩大的数据库中找到大约5-40个候选者，然后对这些候选者进行变形，以获得具有细节相似性的模型结果。为了将他们的3D头发数据库丰富到40 K模型，他们将头发束聚类并重新组合这些聚类模型。Zhang等人（2017）仅使用通过轮廓拟合搜索的候选者用于其基于四视图的头发建模以构建平滑的粗糙头发形状，并且通过纹理融合和螺旋拟合引入风格细节。在Zhang et al.（2018）中，他们引入了一种基于局部块的搜索策略，以找到具有足以指导头发合成的局部风格模式的候选者，而不是在全局中找到具有相同风格的候选者。所有这些数据驱动的方法都需要存储成百上千的发型数据库。深度学习最近的成功也为头发建模领域带来了重大改进。Chai等人（2016）提出了一种完全自动化的头发建模方法，通过用深度卷积神经网络代替用户交互来进行头发分割和头发生长方向估计。Hu等人（2017）引入基于深度学习的毛发属性分类器，···104M. Zhang和Y.Zheng/视觉信息学3（2019）102XY××××- -−[客户端]XY[]X提高了数据驱动方法的候选检索性能。为了从2D IM获得端到端的学习，年龄知识的3D头发表示，周等人。（2018）使用编码器-解码器架构来生成表示为2D取向场的3D点序列的发束作为输入。但由于其头发表示被参数化为头皮上的低分辨率网格，导致建模结果质量不高。在同时进行的工作中，Saito et al. （2018）证明了具有高分辨率的3D占用场和相应的流场很容易由神经网络处理，并且与传统的基于股的表示兼容，以进行高保真建模和渲染。然而，在他们的方法中，占用场和流场是从相同的体积潜在空间中单独解码的。他们对ResNet-50的预训练网络进行微调，以将输入图像编码为毛发系数，这些系数通过其训练的嵌入网络与体积潜在空间对齐。由于编码器在处理过程中存在压缩，相比之下，以2D信息图作为输入，我们的方法更直接地训练Hair-GAN来预测编码占用和方向信息的3D体积场，同时考虑输入图像与建模结果之间的细节对应关系生成对抗网络（ GANs ）是由 Goodfellow 等人提出的。（2014）作为一个框架来构建一个可以模拟目标分布的生成模型。GANs的目标是通过依次迭代地训练神经网络和生成器来训练生成器模型。条件GAN（Mirza和Osindero，2014）是一种使用条件信息的GAN，被认为是图像领域的一种有前途的工具条件图像合成（Odenaet al. ，2017），从文本生成图像（Reed etal. ，2016），和图像到图像的翻译（Zhu et al. ，2017年）。我们采用GANs从2D图像信息中恢复3D头发结构，利用GANs的强大功能重新创建复杂数据集的分布。我们利用潜在的空间以加强分布中的地面实况和目标输出的相似性。我们的Hair-GAN旨在学习从2D信息映射到3D体积占用和方向场的参数转换，而没有中间潜在空间。3. 概述我们首先阐明我们的统一模型空间，其中所有合成头发数据库和相同的胸围模型对齐。基于统一的模型空间，我们生成了地面实况3D体积场与相应的2D方向和置信度图耦合（第4节）。接下来，我们介绍我们的Hair-GAN的架构和损失函数（第5节）。与最初的GAN类似，我们的网络也由一个节点和一个生成器组成。给定一个真实的头发图像作为输入，通过使用我们训练的Hair-Generator，我们可以基于2D方向和置信度图以及胸围深度图（所有这些都是从图像中提取的）恢复3D头发结构，并最终合成高质量的3D头发模型（第6节）。4. 数据准备受Zhang et al.启发（2018），我们认为发型是分布在人体周围的局部风格模式的融合，与Chai等人相反。（2016），Hu etal. （2015）和Zhouet al. （2018），不同的发型被视为不同的发型的组合。与之前的研究类似，我们收集了一个原始的头发数据集，大约有 300 个Chai 等人提供的 3D 人造毛发模型。（2016），其已经与相同的胸围模型对齐。我们定义了一个统一的模型空间（第4.1节）来准备我们的训练数据（第4.2节），包括地面实况3D体积场Y以及2D头发信息图X。4.1. 统一模型空间我们定义了一个边界框作为模型空间的边界，在这里我们生成真实的3D头发方向体积，并捕获2D头发方向和置信度图。图2举例说明了我们定义的边界框和2D捕获。边界框。模型空间由一个边界框限定，该边界框是根据胸围模型和所有数据库头发模型定义的，但一些极长的头发（手动选择）除外。然后在边界框（H H D）内细分具有128 128 96分辨率的3D体积。2D捕获。为了得到2D信息图下定义的模型空间，我们把一个相机直接向前半身像模型。图像平面的中心与边界框的中心重合。2D图像通过正交投影以1024/H的比例捕获。因此，捕获图像的大小为1024× 1024。4.2. 训练数据在Hu et al. （2015），我们通过简单地翻转每个模型并删除约束发型（如辫子和束缚）来将数据库的数量增加一倍。在我们的数据库中有303种发型，从短到长，从直到卷。我们随机旋转头发周围的边界框的中心。 X轴的旋转范围为15 o至15 o，到30度 Y轴为20 o，Z轴为20o至20o 由于所有这些数据库模型都是由多条带组成的，因此与Hu等人一样。（2015），我们将条带转换为密集的3D定向体积，将其视为地面实况，然后生长链。然后，我们在第4.1节中定义的相机视图姿势下将头发束渲染到2D图像。然而，在这方面，为了消除真实和合成头发图像的差异，我们使用Chai等人的迭代方法计算捕获图像的2D方向图和置信度图。（2012年）。考虑到真实图像质量的多样性，数据库随机地在3到5的范围内。通常，在方向图中存在方向模糊性，并且Chai等人（2013）已经证实，应该去除方向模糊性以确保毛发生长的正确方向。我们可以将模型链方向投影到图像平面上来更新方向图，以避免模糊。然后，我们扩散的方向与高置信度，以获得最终的像素密集的方向图和编码的方向向量的颜色空间。此外，如前所述，胸围模型也应该被考虑作为我们网络的一个条件，因为头发是从头皮上长出来的，分布在身体周围。我们通过逐像素的光线跟踪计算半身像深度图，以获得从半身像到相机的距离，并将距离除以D以将值范围设置为 0， 1。最后我们的网络输入是由2D方向图、置信度图和胸围深度图。所有2D图的值都在0， 1内，并且3D和2D方向矢量都在颜色空间中编码。对于每个数据库模型，我们计算12对和。因此，我们得到了3636对训练数据。训练数据生成的示例如图所示。3 .第三章。M. Zhang和Y.Zheng/视觉信息学3（2019）102105X×YXG（X）的生成分布和G（X）的目标分布到期望的输出3D张量Y：Y=G（X）。同时，·˜XYY·YY+ −Y[]2我的简介图二. 左：为3D体积定义和2D捕获设置了相机姿势的边界框。右：与边界框对齐的图像平面，图像由定义的相机投影渲染。图三. 训练数据生成。从左到右的第一行来自在定义的边界框中随机放置的条纹模型，以生成地面实况体积场Y并随后生长头发束。然后，第二行的第四行示出了捕获的2D图像。基于所述2D图像和计算由取向、置信度和胸围深度图（在第二行中从左到右）组成的胸围模型X5. Hair-GAN利用从输入图像中提取的2D图和胸围深度图，我们的Hair-GAN的目标是生成对占用和方向信息进行编码的3D方向体积，以指导头发合成。网络的输入尺寸为10241024，由4个在统一模型空间中捕获的特征通道：头发方向图（编码为RG的颜色）、置信度图（置信度值作为灰色的颜色）和胸围深度图（深度值作为等人2017年，为了方便培训。对于我们的例子，目标是训练一个生成器G（X），它映射输入的2D张量，并且最大化两个张量之间的距离。有条件潜在投影P（）。鉴别器。我们的目标是最大限度地减少能源：LD=E[D（Y，P（X））]−E[D（Y，P（X））]+λE[（λD（Y，P（X））λ−1）2]（一灰色）。输出是大小为128× 128× 96的3D张量Y，其中类似于Gulrajani et al. （2017年），在这个功能的第三个任期-头发方向矢量以RGB颜色编码。我们首先描述对抗训练网络的损失函数（第5.1节）。接下来，我们描述Hair-GAN的架构（第5.2节）和训练策略（第5.3节）。5.1. 损失函数GAN（Goodfellow et al. ，2014）在两个网络之间的竞争策略中进行培训：生成器和识别器。我们参考WGAN-GP（Gulrajani）的函数形式tion是随机样本的梯度惩罚，（1 系数λ被设置为10。P（）是CNN（在图中表示）。4）将2D张量映射到3D潜在空间，以便与Reed等人（2016）中介绍的策略相连接或和P（）中的参数与D中的参数一起训练。生成器. 根据原始的WGAN-GP（Gulrajani et al. ，2017），发电机的能量函数定义为LG= −E[D（Y，P（X））]（2）106M. Zhang和Y.Zheng/视觉信息学3（2019）102L+β+[]L（3）黄嘌呤（1024×1024，4）黄嘌呤（128×128×96，4）˜+X××由米尔扎和奥辛德罗（2014年），我们连接//下一页p =P（）的情况下，内容2ikik˜输出（128×128×96，3）双Y风格4N2M2ijY，XijY，X∑∑鉴别器图四、我们的Hair-GAN架构概述。发生器和除颤器一起接受训练然而，在我们的实验中，我们发现这个函数不能很好地优化发电机，因为差异真实和虚假之间的分布不容易通过正负符号来确定。灵感来自以前的工作（Gatys et al. ，2016），他们使用预训练网络VGG的选定层作为特征表示，将纹理风格从源图像转移到目标图像，在这里，我们将风格和内容的损失引入我们的研究，其中特征表示在选定的纹理层的域中。因此，优化发电机的目标是使能量最小化：表1发电机和逆变器的结构。发生器在（1024× 1024， 4）×XC2（4， 16， 2）+[C2（4， 8， 2），C2（8， 16， 1）]C2（16， 64， 2）+[C2（16， 32， 2），C2（32， 64， 1）]C2（64， 256， 1）+[C2（64， 128， 2），C2（128， 256， 1）]I+ [C2（256， 256， 1），C2（256， 256， 1）]外（128×128，256）（128× 128， 256）中的X、Y、Z块I+ [C2（256，256，1），C2（256，256，1）]LG=αL含量+βL风格=αLl含量l型LI C2（256，256，1），C2（256，256，1）C2（256， 128， 1）C2（128， 96， 1）ϖα和β是加权因子。如Gatys et al. （2016），内容损失由特征表示之间的平方误差损失定义：输出（128×128×96，1）Concat.（128× 128× 96， 3）中X-，Y-，Z-块的输出I+[C3（3，3，1），C3（3，3，1）]L1=1∑[f1（Y，P（X））-f1（Y，P（X））]2（4）ikI+[C3（3，3，1），C3（3，3，1）]这里，l是选定的图层，i是第i个特征图，k是索引在特征张量中，f是特征向量（在图中表示）。4）.风格损失由Gram矩阵之间的均方距离定义，其中每个元素由下式计算：矢量化特征图i和j之间的内积：P（·）块Concat. Y/Y与P（X）XC2（4， 32， 2）C3（4， 32， 2）C2（32， 64， 2）C3（32， 64， 2）C2（64， 128， 2）C3（64， 128， 2）Al=∑fl fl。目标是：C2（128，96，1）C3（126，256，2）国际新闻社Ll=1∑[Al（））−Al（ P（（5）LLIJoC3（256，512，2）输出（128×128×96，1）这里Nl是特征图的数量，Ml是特征张量的大小（例如，如果l=0，则N0=3，M0=128× 128× 96）。5.2. 架构图 4和表1详细描述了发生器和CPU的架构。为了清楚地指定我们的Hair-GAN的架构，我们使用以下符号：let in（resolution，fea-ture channels）和out（resolution，feature channels）表示操作块的输入和输出信息; C（input channels，output channels，strides）表示卷积层，随后是ReLU激活;fixed是维度扩展层，fixed是全连接节点。我们使用作为元素-在由C构成的残差块中进行加法，并且I表示输入张量当前层。对于所有2D卷积层C2，滤波器大小为5，对于所有3D卷积层C3，滤波器大小为3。用于X-、Y-、Z-信息的操作块具有相同的方案形式。生成器. 我们将生成器描述为一些块。述第一块作为输入，由4个残差网络组成（Limet al. ，2017年）从早期层中逐元素添加激活为了获得从高到低级别信息的残差校正，将特征映射从1024向下采样到潜在代码1024至128128，随着特征的数量从4增加到256。然后，X-、Y-和Z-块分别将潜码编码为通道数为96的特征，在所得体积中沿Z轴的分辨率。转换将连续的二维特征转换为单个通道的三维特征。然后，我们将X，Y，Z块的输出作为输入连接到以下3D残差卷积网络中。更多详情请参阅图。表4和表1。鉴别器。考虑到2D输入X和3D期望输出Y/Y之间的对应关系，YYX将X编码到3D潜在空间的特征映射，M. Zhang和Y.Zheng/视觉信息学3（2019）102107=-×通过一些过滤器进行卷积，直到最后的层××图五、从左到右：输入图像，与拟合的胸围模型对齐的图像，以及作为生成器网络输入的2D图。见图6。理发师。从通过剪切和粘贴不同发型创建的单视图头发图像建模头发。左边是完全不同发型的输入图像。中间是头发的Barbola图像。右边是我们的Hair-GAN生成的3D头发建模结果，使用Barbola图像作为输入。分辨率为Y/Y。则连接的3D特征张量为ζ辨别真假。5.3. 培训战略在Gulrajani et al. （2017年），发电机更新后，五次训练的机器人，这需要大量的时间。为了提高时间效率，我们采用了两个时间尺度更新规则（TTUR）（Heusel et al. ，2017年）只更新一次而不是五次。我们采用常用的ADAM优化器（Kingma和Ba，2014），其中β10 和β20。9训练学习速率为0.0003，发生器为0.0001一般来说，我们的Hair-GAN被设计为生成一个128 128 96 3D体积编码的占用和方向字段，使用2D地图作为输入的大小为1024 1024。训练的批量大小设置为4。对于生成器目标，样式和内容权重因子设置为：α=1e− 2，β/α=5e+ 2。用于内容损失的所选层是0、 3、 6，并且用于样式损失的l=0、 1、 2、 3、具体地，当l=0时，P（X）可以从L0中移除，并且0限制头发合成，并最终生成我们的股级头发模型（第6.2节）。6.1. 预处理类似于以前的单视图方法（Chai et al. ，2016; Hu et al. ，2015;Chai等人，2012），对于输入图像，我们首先运行面部对准算法（Cao et al. ，2014）以将相同的胸围模型拟合到图像中检测到的面部界标点。此外，我们分割头发区域并生成头发方向预测器以去除方向模糊性，用于之后的方向图计算（Chai et al. ，2016，2013）。具体来说，假设我们有变换：s（缩放）r（旋转）和t（平移）涉及胸围拟合，s和T被应用于图像，而R被应用于相同的半身像模型（用于正确的深度图生成）。在对齐之后，我们通过第4.1节中描述的投影捕获图像和头发掩模，并生成第4.2节中提到的方向图、方向置信度和胸围深度。我们还利用方向预测器从方向图中消除了方向模糊。图 5显示了样式的内容预处理6. 毛发合成给定一个输入图像，我们首先将其与我们的统一模型空间对齐，并生成2D信息图和深度图（第6.1节）作为生成器网络的输入。在生成3D方向体积之后，我们构建一个粗略的形状，6.2. 后处理我们发现，沿着我们的生成器网络计算的3D方向场的直接跟踪可能会导致一些复杂发型的非光滑结果，因为方向在流场中是因此，我们应用行进立方体L108M. Zhang和Y.Zheng/视觉信息学3（2019）102内容图7.第一次会议。体积场的切片。从左到右：基础事实，Hair-GAN输出，使用Eq学习的结果（2）作为生成器目标，CNN生成器输出只有天真的L0损失（没有GAN训练）。见图8。沿着Hair-GAN生成的方向场跟踪的采样链，其中（左）/不（右）置信图作为输入（参见图5）。有在没有置信图输入的情况下生成的跟踪结果中有更多的结构不连续性（右侧蓝色方块）。见图9。第一列中从上到下：具有蓝色头发轮廓的合成图像，头发遮罩的比较（蓝色是输入图像的遮罩，而洋红色是由建模结果投影的掩模）、方向差异图（白色指示输入之间存在大的差异并且建模结果在方向图中）。右边的三列：第一行是我们的头发建模结果，第二行是地面实况。算法（Lorensen和Cline，1987）来计算粗略的形状，并通过泊松方法（Kazh-danet al. ，2006年）。然后，我们平滑与粗糙形状的表面相切的外部方向场。我们还可选地通过将图像方向图扭曲到粗糙形状表面来细化方向场受头皮的法线方向和图像翘曲方向场的约束，来自头皮的发束按照先前的毛发合成方法均匀地分布在粗糙形状内（Chai等人，，2013; Hu et al. ，2015）。之后，为了改进与输入图像的局部细节匹配，我们根据投影图像方向图运行股变形，如Hu等人所述。（2015年）。M. Zhang和Y.Zheng/视觉信息学3（2019）102109图10个。给定一个输入图像（左），建模头发的结果（中间）/没有（右）后处理。见图11。与Chai et al. （2016）（前两行），Zhou et al. （2018）（中间两行）和Saito et al. （2018年）（底部三行）。对于每次比较，从左到右：输入图像，我们的结果（粗略的形状，方向场，3D头发模型），前一种方法的结果7. 结果和讨论我们的头发结构恢复的实施运行在PC上的英特尔酷睿i7-4790CPU，32 G的内存和NVIDIAGeForce GTX 1080Ti。我们花了大约10天的时间使用我们的GPU训练我们的Hair-GAN，使用20万次生成器迭代。我们使用tensorflow框架来建立深度学习网络。使用单视图输入图像作为输入，使用我们未优化的管道，110M. Zhang和Y.Zheng/视觉信息学3（2019）102内容图12个。使用我们的 Hair-GAN以单视图图像作为输入的头发建模结果。通过毛发解析的自动方法进行数据准备所需的时间小于3秒（Chaiet al. ， 2016年），约1 秒生成3D体积场使用我们的网络（tensorflow python调用后），并在30秒内合成最终的头发模型。图12证明了我们的方法对各种发型的有效性。Hair-GAN可以生成我们的发型数据库中不存在的发型的3D模型。与Saito et al.不同（2018）为了在潜在空间中将3D头发结构与2D图像对齐，我们建立了从2D图像到3D结构的参数变换。由卷积的局部各自性质保证的真实性因此，即使对于由两个完全不同的头发创建的夸张发型的图像，我们的方法也可以创建如图1所示的股级3D头发模型。六、评价为了评估我们的发生器目标函数的有效性，我们将我们的体积场输出与图中的地面实况进行了比较。7 .第一次会议。此外，我们还通过使用WGAN-GP的原始函数（等式2）单独训练我们的生成器网络。（2））和幼稚型L2缺失。原始函数在占用和方向两个领域都导致了许多模糊性和噪声（图11）。 7，中右）。生成器的简单培训神经元因为我们认为发型是当地仅仅使用L2损失（L0）会导致模糊的输出（图11）。七，风格模式，如Zhang et al. （2018）而不是不同风格的股线的组合（参见， Chai等人，2016年）。右），就像它通常对超分辨率场的影响一样（Xieet al. ，2018年）。生成器的目标函数考虑M. Zhang和Y.Zheng/视觉信息学3（2019）102111所选择的分层在风格和内容上的分布相似性，这导致更高的感知质量。为了评估置信图对3D体积场结果的影响，我们在没有置信图作为输入的情况下训练另一个GAN没有置信图的Hair-GAN还可以生成3D体积场以编码与输入图像全局拟合的毛发结构。然而，在方向场中存在比用置信图输入计算的结果场更多的局部结构不连续性，这通过沿方向的均匀采样的链追踪揭示，如图1所示。8 .第八条。因此，我们更倾向于在输入图中包含置信度图，其指示可靠的发丝我们还在图9中评估了建模结果的质量。使用合成图像作为输入，我们的Hair-GAN即使在远离输入的视图中也会产生类似于地面实况模型的建模结果我们的结果的投影掩码可以很好地匹配输入掩码。此外，投影的方向图在大部分头发区域中与输入图像相似。此外，我们的生成器网络的直接输出已经能够提供3D体积场的合理重建，以指导头发合成（见图1）。10）。后处理对于结构细节细化是可选的。比较。我们比较我们的方法与国家的最先进的方法柴等人。（2016），Zhou et al. （2018）和Saito等人（2018）在Fig.十一岁Chai et al. （2016）（Fig. 11，顶部两行）依赖于它们的数据库模型，该数据库模型被用作头发建模的先验结构。我们的结果是由深度学习网络生成的。使用我们的Hair-GAN，我们可以生成更忠实的发型建模结果，即使它们不存在于我们的训练数据中。由于Saito等人（2018）的网络是用自然图像训练的，他们的方法倾向于恢复原始图像中感知到的发型，而不是在头发Barbola的情况下修改的发型（图中的最后一行）。11）。我们的结果与Saito等人的结果相当。（2018）在那些典型的发型（图中的第5和第6行）。11）。 Zhou等人（2018）（Fig. 11，中间两行）计算在头皮上参数化的低分辨率的特征图。我们的结果显示了更多的细节头发结构。8. 结论我们已经介绍了我们的Hair-GAN，这是一种从单视图输入图像中学习3D头发结构的网络架构我们使用2D CNN来学习3D线索，并通过维度扩展层将连续的2D特征转换为单个通道的3D特征图。我们的方法的核心是遵循GAN的训练策略，即生成器和训练器之间的竞争为了产生一个高感知质量的体积场，我们设计的发生器的目标函数，考虑到分布相似性在所有选定的图层，风格转移的方法的启发。我们对各种发型的结果类似于输入图像的头发轮廓和头发纹理。网络还可以从远离输入视图的视图中学习更多细节我们的Hair-GAN架构受到许多限制，这可能会激发有趣的未来工作。首先，像几乎所有的单视图头发建模方法一样，我们的训练数据只考虑正面视图图像当毛发部分被遮挡时，我们的方法将第二，虽然我们的网络可以产生一个相当大的体积领域的复杂的发型，头发跟踪方法仍然需要一些改进的最终建模结果的质量目前的努力（Chai et al. ，2016; Huet al. ，2014; Zhang et al. ，2018年）通过使用数据库模型的指导来我们希望在未来，有一种方法可以独立于数据库来综合复杂性发型，例如，即使是高度卷曲的。第三，我们希望动态地扩展我们的训练数据，以覆盖不断变化的发型时尚此外，体积场的分辨率和大小一些复杂的发型可能需要一个更大，更微妙的体积。我们相信，3D-GAN高效数据结构的进步可以利用这个问题。致谢我们感谢匿名评论者提出的建设性建议。这项工作得到了中国国家重点研究发展计划（2018YFE0100900），中国青年千人计划和中央大学基础研究基金的竞合利益没有利益冲突。引用曹，X.，魏，Y.，温，F.，孙，J.，2014.通过显式形状回归进行面部对齐。Int. J.Comput. 目视107（2），177Chai，M.，罗湖，加-地Sunkavalli，K.，卡尔，N.，Hadap，S.，Zhou，K.，（1991年），2015.高品质的头发造型从一个单一的肖像照片。ACM事务处理图表34（6），204：1-204：10。Chai，M.，Shao，T.，吴，H.，翁，Y.，Zhou，K.，（1991年），2016.Autohair：从单个图像进行全自动头发建模。ACM Trans.Graph. 35（4），116：1Chai，M.，Wang，L.，美国，翁，Y.，Jin，X.，Zhou，K.，（1991年），2013. 图像和视频中的动态头发处理。ACM Trans.Graph. 32（4），75：1Chai，M.，Wang，L.，美国，翁，Y.，Yu，Y.，Guo，B.，Zhou，K.，（1991年），2012.用于纵向操作的单视图头发建模。ACM Trans.Graph. 31（4），116：1Echevarria，J.I.，布拉德利，D.，古铁雷斯，D.，Beeler，T.，2014.捕捉和风格化的头发三维制造。ACM Trans.Graph. 33（4），125：1洛杉矶的加蒂斯Ecker，A. S.，Bethge，M.，2016.使用卷积神经网络进行图像风格转换。在：IEEE计算机视觉和模式识别会议论文集，pp。2414-2423古德费洛岛，澳-地J.普盖特-阿巴迪米尔扎，M.，徐，B.，沃德-法利，D.，奥扎尔，S.，库维尔，A.，本焦，Y.，2014.生成性对抗网。在：神经信息处理系统的进展，pp。2672-2680。古拉贾尼岛艾哈迈德，F. Arjovsky，M.，杜穆林，V.，南卡罗来纳州科维尔2017.改进的瓦瑟斯坦甘斯训练。在：神经信息处理系统的进展。pp. 5767-5777Herrera，T.L.，Zinke，A.，韦伯，A.，2012.从内部照亮头发：头发重建的热方法。ACM Trans.Graph. 31（6），146：1Heusel，M.，Ramsauer，H.，翁特锡纳，T.，Nessler，B.，Hochreiter，S.，2017.用双时标更新规则训练的Gans收敛于局部nash均衡。在：神经信息处理系统的进展。pp. 6626-6637。胡，L.，马，C.，罗湖，加-地Li，H.，2014年。使用模拟示例进行健壮的毛发捕获ACMTrans.Graph. 33（4），126：1胡，L.，马，C.，罗湖，加-地Li，H.，2015.使用发型数据库的单视图头发建模。ACM Trans.Graph. 34（4），125：1胡，L.，斋藤，S.，韦湖，加-地Nagano，K.，徐杰Fursund，J.，萨代吉岛孙角，澳-地陈玉- C.的方法，Li，H.，2017.从一个单一的图像进行实时渲染的化身数字化。ACM Trans.Graph. 36（6），195：1Jakob，W.，穆恩，J.T.，Marschner，S.，2009.一根一根纤维地捕捉毛发集合体。ACM Trans.Graph. 28（5），164：1Kazhdan，M.，Bolitho，M.，霍普，H.，2006. Poisson曲面重建在：第四届欧洲图形学几何处理研讨会论文集，pp。61比70金玛，D.P.，巴，J.，2014. Adam：A method for stochastic optimization，arXivpreprintarXiv：1412.6980.林湾，英-地儿子S Kim，H.，不S李，K.M.，2017.增强的深度残差网络用

下载后可阅读完整内容，剩余1页未读，立即下载