深度学习生成2D线条图的阴影

109 浏览量更新于2023-10-25 收藏 12.41MB PDF 举报

生成网络

数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

74367437如果需要更高的质量，则可以用作艺术家修改的起点。值得注意的是，我们的方法不直接生成阴影草图;相反，它生成可以与草图合成的阴影的单独图像。此功能非常重要，因为艺术家可以将草图和阴影加载到单独的图像层中并独立编辑它们。我们的工作使用深度学习方法来学习一个非线性函数，该函数我们神经网络的原始输出是二进制阴影，艺术家可以在独立于线条画的单独层没有额外的后期处理，我们的文件中的图像是原始网络输出和输入线图的简单组合如果需要柔和的阴影，艺术家可以使用我们网络的第二个中间输出（图2s2）。我们的网络还从连续变化的照明方向（第4.3节）产生一致的阴影，即使我们从一组离散的照明方向进行训练。给定一个线条画和一个照明方向，我们的模型自动生成一个图像，其中线条画被增强了详细和准确的硬阴影;不需要广告用户输入。我们专注于2D动画风格的图像（例如，日本漫画，Inker [36]），并且训练数据由动画角色、机甲和机械对象形状的艺术手绘线条图组成我们还证明，我们的模型推广到不同的对象，如建筑物，衣服和动物的线条画。在我们的工作中，术语我们工作的主要贡献：• 我们创建了一个新的数据集，其中包含1,160个手绘线条图和标记有照明方向的阴影。• 我们提出了一个网络，它• 一个端到端的应用程序，可以从给定的2D线条图和指定的照明方向的任意照明方向生成二进制或软阴影在第3节中，我们将描述我们的生成网络和非生成网络的设计，以及我们的损失函数。在第4节中，我们将我们的结果与基线网络架构pix 2 pix [15]和U-net [27]进行了定量和定性比较。我们还比较了应用于阴影生成问题的相关方法Sketch2Normal [31]和DeepNormal[13]。我们的比较包括小用户研究来评估我们的方法的感知准确性。最后，我们通过消融研究和指标分析证明了我们提出的网络的12. 相关工作非真实感绘制在计算机图形学。以前的工作风格化的阴影[25，3]为细胞动画突出显示，阴影在人类感知细胞动画中发挥着重要作用特别地，阴影为人物、前景和背景的各个层提供深度感。Lumo [16]直接从细胞动画的线条图中近似表面法线，以引入微妙的环境照明。Todo等人[34提出了一种在3D场景中生成艺术阴影的方法，该方法模仿了日本2D动画的美学Ink-and-Ray [33]将手绘字符与一小组简单的注释结合起来，以生成风格化阴影的浅浮雕雕塑。最近，Hudonet al. [12]提出了一种半自动的细胞着色方法，该方法基于手绘对象产生二值阴影，而无需进行3D重建。图像翻译和彩色化。近年来，在图像翻译[15]中对生成对抗网络（GANs）[7，23]的研究已经生成了令人印象深刻的合成图像，这些图像被认为与原始图像相同Pix 2 pix [15]在他们的Generator网络中部署了U-net [27]架构，并证明了当包含跳过连接时，对于图像翻译应用程序，U-netCycleGAN[43]介绍了一种在没有配对样本的情况下学习从输入图像到风格化输出图像的映射的关于对现实灰度图像进行彩色化的讨论[2，41，14，42]证明了使用GAN和U-net [27]架构对图像进行彩色化的可行性线画中的深度学习。考虑线条画的研究人员包括线条画彩色化[38，18，40，5，4]，草图简化[30，28]，智能墨水笔[29]，线条提取[20]，线条风格化[21]和从草图计算正常地图[31，13]。Tag2Pix [18]试图使用连接Squeeze和Excitation [11]的GAN来着色线条绘制。草图简化[30，28]通过删除双线和连接断续线等操作清理草图Smart Inker [29]通过包含额外的用户输入来改进草图简化用户可以画出笔画，指示他们想要添加或删除线条的位置，然后神经网络将实时输出简化的草图。线提取[20]从漫画（漫画）中提取纯线，并证明了简单的缩小和放大残差块，1 项目页面位于 https://cal.cs.umbc.edu/Papers/Zheng-2020-Shade/。7438跳过连接具有优越性能。Kalogerakis等人[17]提出了一种机器学习方法来创建阴影样式的插图。Li等[21]提出了一种双分支深度学习模型，用于将线条画和照片转换为铅笔画。重新点亮深度学习也被应用于重新照亮现实场景。Xu等[37]提出了一种从五个不同方向的光源给出图像的任意方向的光重新照明的方法。Sun等人[32] 提出了一种在给定单个输入（例如自拍）的情况下重新照亮肖像的方法。训练数据集由多相机装备捕获。这项工作与我们的不同之处在于，他们专注于重新照亮现实的图像，而我们专注于手绘草图的艺术阴影。线图到法线贴图。Sketch2normal [31] 和DeepNormal [13]使用深度学习从线条图中计算normalmap。训练数据集从具有逼真渲染的3D模型渲染。Sketch2带注释的四足动物线条图的正常训练。DeepNormal将带有对象遮罩的线条图作为输入。他们解决了一个不同的，可以说更难的问题。然而，计算出的法线贴图可用于渲染阴影，我们将这种方法与第4节中的直接阴影计算相给定彩色输入图像，Gao及其同事[6]预测法线映射，然后生成阴影。3. 学习在哪里绘制阴影在本节中，我们将描述我们的数据准备、照明方向的表示、生成器和消隐器网络的设计以及损失函数。3.1. 数据准备我们从艺术家的网站帖子中收集我们的（素描，阴影）对在专业艺术家的帮助下，每个（草图，阴影）对都手动标记了照明方向。在使用阈值和形态学抗锯齿对草图进行预处理后，对线条图进行标准化，以获得cairosvg标准中0.3 px的一致线宽[26]。为了将手绘草图标准化为相同的线宽，我们使用了一个类似于智能墨水笔的小型深度学习模型我们的数据集包含1，160个手绘线条图案例。每个线条图匹配一个特定的手绘阴影作为地面实况和一个照明方向。与包含许多光源和真实光传输的3D计算机动画相比，2D动画倾向于具有单个照明方向，并且在场景中包括一些非物理阴影。我们观察到，艺术家倾向于从一组相对较小的特定照明方向中进行选择，特别是在漫画和2D动画中。因此，我们定义了图1中2×2立方体形成的26个照明方向我们发现直观地允许用户从围绕2D对象顺时针的八个照明方向和三个深度（在前面、在平面内和在后面）中的一个中选择以指定光源。我们还允许用户选择两个特殊位置：正前方和正后方。这导致8×3+ 2= 26个照明方向。用户使用三位数字符串指定灯光位置。第一个数字对应于照明方向（1-8），第二个数字对应于平面（1-3），第三个数字是虽然用户发现这种编号方案很直观，但我们首先将这些字符串从[-1，1]3转换为立方体上的26个整数三元组（（0，0，0）无效，因为这是对象的位置），从而获得了更好的训练结果。例如，映射到（1，1，1），而3.2. 网络架构我们的发电机包含以下模块：残差块[8] [9]、胶片[24]残差块和挤压和激励（SE）块[11]。我们的生成器的总体架构遵循具有跳过连接的U-网架构[27，15]。我们的鉴别器使用残差块。细节如图2所示。3.2.1生成网络我们提出了一种新的非线性模型，它有两个部分-ShapeNet，它从2D草图编码底层3D结构，RenderNet，它根据编码的结构渲染艺术ShapeNet将物体的线条画编码到高维潜在空间中，并表示物体我们将2D坐标通道[22]连接到线条图，以帮助ShapeNet编码3D空间信息。RenderNet执行关于3D阴影的推理从瓶颈开始，我们使用来自电影残差块的归一化方法输入嵌入式照明方向然后，模型开始学习照明方向和各种高维度特征之间的关系。我们在RenderNet的每个阶段重复添加光照方向，以增强解码的推理在RenderNet的每个阶段的底部，Self-attention [39]层补充了整体特征的连接。阴影问题涉及整体视觉推理，因为阴影可以由远处的几何体投射。出于这个原因，我们部署了自我注意层[39]和电影残差块[24]来增强视觉推理;仅由剩余块组成的网络具有有限的接收域，并且不适合于整体视觉推理。SE [11]块过滤掉不必要的导入要素7439图2：我们的GANs架构。在输入到ShapeNet之前，首先对线条图进行标准化（与第3.1节相同）。照明方向在RenderNet的每个阶段中重复添加到Film残差块中。 s1和s2是来自RenderNet中的第二级和第四级的上采样中间输出。在训练过程中，线条画和纯阴影从黑白颠倒到黑白。更多细节见补充材料。从跳过的编码器输出。我们还提取了两个监督中间输出，S1和S2，以促进反向传播。RenderNet的早期阶段生成连续的柔和阴影图像。在最后阶段，网络将这些图像转换为二进制阴影。软阴影的中间输出，S1和S2的质量，如图2所示。我们再次注意到，我们的输出不需要任何后处理生成器G旨在最小化损失值，并且鉴别器D旨在最大化损失值。对于我们的生成器网络的损失值，我们将两个深度监督输出（解码器中第一和第三级的中间输出）的MSE损失添加到生成器的最终输出的损失中发电机网络的三种损耗可以表示为：生成二值阴影;本文中的图像直接来自于将我们的生成器的输出与输入草图合成。L输出（G）=Ex，y，zΣΣ2y−G（x，z）+N·TV（G（x，z）），（二）3.2.2鉴别器网络该算法的基本模块包括降尺度残差块和残差块.由于不同阴影的许多局部特征彼此相似，因此我们部署了自我注意层，以使我们的在图2中，最后一个参数由全局平均池化、dropout和0组成。3个概率，全连接层有256个其中，L输出是生成的阴影和地面真相L输出由全变差（TV）正则化器和MSE损失组成由ξ加权的TV正则化器鼓励阴影边界周围的平滑细节我们将λ设置为2×10−6，比λ小5倍。输入草图中的像素总数我们将展示在消融研究中，ΔR值如何影响最终输出。深度监督输出被上采样，并且它们的损失被计算为通过来自地面真值的MSE损失。filters. 因为生成阴影比区分真假阴影，一个简单的区别，Lsi （G）=Ex，y，zΣΣ2y−Gsi（x，z）<$2，i= 1，2。（三）刑事定罪是足够的，简化了培训。3.3. 损失函数最终目标是L个输出，Ls1，Ls2和LcGAN，我们的生成对抗网络的对抗性损失-G=argmin maxλ1LG D（G、D）（四）功可以表示为LcGAN（G，D）=Ex，y，z[logD（C（x，y），z）]+λ2L输出（G）+ λ3Ls1（G）+ λ4Ls2（G）.在我们的实验中，四个损失通过λ1=+Ex，z（一）[log（1−D（C（x，G（x，z）），z））]，0的情况。4，λ2=0。5，λ3=0。2，λ4 =0。二、其中，x是草图，y是地面实况阴影，z是照明方向。C（·）是将地面实况阴影和输入草图合成为4. 实验与评价在本节中，我们将评估着色模型的性能特别是，我cGAN7440们讨论了实现细节，提供了与基线pix2pix的比较[15]74417442744374447445[3] Christopher DeCoro，Forrester Cole，Adam Finkelstein，Szymon Rusinkiewicz.风格化的阴影。第五届非真实感动画和渲染国际研讨会论文集，第77-83页。ACM，2007年。[4] 凯文·弗兰斯通过串联对抗网络进行轮廓着色。arXiv预印本arXiv：1704.08834，2017.[5] Chie Furusawa ， Kazuyuki Hirosiba ， Keisuke Ogaki ，Yuri Odagiri.漫画化：半自动漫画着色。SIGGRAPHAsia 2017技术简报，第12页。ACM，2017。[6] Zhengyan Gao，Taizan Yonetsuji，Tatsuya Takamura，Toru Matsuoka，and Jason Naradowsky. 2d字符的自动照明效果。2018年，NIPS机器学习创意和设计研讨会[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。在ECCV，2016年。[10] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年[11] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议上，2018。[12] 我是胡东，拉法埃尔帕格，麦雷阿德格罗甘，扬昂德雷杰，和阿尔乔斯特拉斯莫尔。用于细胞动画的2D着色。在计算美学和基于草图的界面和建模以及非真实感动画和渲染的主席，第15页。ACM，2018。[13] 我是胡东，拉法埃尔帕格，梅尔和阿乔萨斯莫利。手绘字符不均匀阴影的深度法线估计在ECCV研讨会，2018年。[14] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.让我们有颜色！：联合端到端学习的全局和局部图像先验，用于自动图像彩色化与同时分类。 ACMTransactions on Graphics（Proc.的SIGGRAPH 2016），35（4）：110：1 -110：11，2016。[15] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros. 使用条件对抗网络进行图像到图像翻译2017年IEEE计算机视觉和模式识别会议（CVPR），第5967-5976页。IEEE，2017年。[16] 斯科特·F·约翰斯顿 Lumo：细胞动画的照明。第二届非真实感动画与渲染国际研讨会论文集，第45页，2002年[17] Evangelos Kalogerakis，Derek Nowrouzezzahrai，SimonBreslav，and Aaron Hertzmann.学习孵化表面的钢笔和墨水插图。ACM Transactions on Graphics（TOG），31（1）：1，2012。[18] Hyunsu Kim，Ho Young Jhoo，Eunhyeok Park，SungjooYoo.Tag2pix：使用带有secat和改变损失的文本标记的线条艺术着色。在IEEE计算机视觉国际会议论文集，第9056-9065页[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[20] Chengze Li，Xueting Liu，Tien-Tsin Wong.漫画结构线的深度提取ACM Transactions on Graph-ics（TOG），36（4）：117，2017。[21] Yijun Li ， Chen Fang ， Aaron Hertzmann ， EliShechtman，and Ming-Hsuan Yang.Im2pencil：可控铅笔插图从照片。在IEEE计算机视觉和模式识别会议论文集，第1525-1534页[22] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败。神经信息处理系统的进展，第9628-9639页，2018年[23] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[24] 伊森·佩雷斯，弗洛里安·斯特鲁布，哈姆·德·弗里斯，文森特·杜莫林，和亚伦·库维尔.影片：具有一般条件层的视觉推理。在第三十二届AAAI人工智能会议上，2018年。[25] 莉娜·彼得·奥维茨，布莱恩·藤藤，兰斯·威廉姆斯和亚当·芬克尔斯坦。细胞动画的阴影。在第27届计算机图形和交互技术年会的会议记录中，第511-516页。ACMPress/Addison- Wesley Publishing Co.，两千[26] Python. Cairosvg ， 2019. https://cairosvg.org/ 网站。[27] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。[28] Edgar Simo-Serra，Satoshi Iizuka，Hiroshi Ishikawa.掌握草图：用于结构化预测的对抗增强。ACM Transactionson Graphics（TOG），37（1）：11，2018。[29] Edgar Simo-Serra，Satoshi Iizuka，Hiroshi Ishikawa.实时数据驱动的交互式草图着墨。ACM Transactions onGraphics（TOG），37（4）：98，2018。[30] Edgar Simo-Serra，Satoshi Iizuka，Kazuma Sasaki，andHi-roshi Ishikawa.学习简化：用于粗略草图清理的全卷积网络。ACM Transactions on Graphics（TOG），35（4）：121，2016。[31] 万超苏、董度、辛阳、施哲周、洪波傅。基于深度神经网络的交互式草图法线贴图生成。Proceedings of theACM on Computer Graphics and Interactive Techniques，1（1）：22，2018。[32] Tiancheng Sun ， Jonathan T Barron ， Yun-Ta Tsai ，Zixiang Xu ， Xueming Yu ， Graham Fyffe ， ChristophRhemann ， Jay Busch ， Paul Debevec ， and Ravi7446Ramamoorthi.单个图像7447肖像重新照明。ACM Transactions on Graphics（TOG），38（4）：79，2019。[33] DanielSy`kora，Ladisla vKav an，Martin吉亚迪克乡Jamris Replika，Alec Jacobson，Brian Whited，MaryannSimmons和Olga Sorkine-Hornung。墨水和光线：浅浮雕网格，用于为手绘人物添加全局照明效果。 ACMTransactions on Graphics （ TOG ）， 33 （ 2 ）： 16 ，2014。[34] 户藤英树，安治雄，横山俊一。用于艺术渲染的发光球体扩展The Visual Computer，29（6-8）：473[35] 东藤秀树、安治健一、威廉·巴克斯特、五十岚武夫。局部可控的风格化着色。 ACM 事务处理图表，26（3）：17，2007.[36] Wikipedia. Inker，2019年。https://en.wikipedia的网站。org/wiki/Inker.[37] Zexiang Xu，Kalyan Sunkavalli，Sunil Hadap，and RaviRamamoorthi.基于深度图像的最佳稀疏样本重光照。ACM Transactions on Graphics（TOG），37（4）：126，2018。[38] 太赞米次Paintschainer2017年。https://paintschainer.preferred.tech/.[39] Han Zhang ， Ian Goodfellow ， Dimitris Metaxas ， andAugus- tus Odena.自我注意生成对抗网络。arXiv预印本arXiv：1805.08318，2018。[40] Lvmin Zhang，Chengze Li，Tien-Tsin Wong，Yi Ji，and Chunping Liu.两阶段草图着色。在SIG-GRAPH Asia2018技术论文中，第261页。ACM，2018。[41] Richard Zhang、Phillip Isola和Alexei A Efros。彩色图像着色。欧洲计算机视觉会议，第649-666页。施普林格，2016年。[42] Richard Zhang ， Jun-Yan Zhu ， Phillip Isola ， XinyangGeng，Angela S Lin，Tianhe Yu，and Alexei A Efros.实时用户引导的图像彩色化与学习的深度先验。ACMTransactions on Graphics（TOG），9（4），2017。[43] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在IEEE计算机视觉国际会议论文集，第2223- 2232页

下载后可阅读完整内容，剩余1页未读，立即下载