没有合适的资源?快使用搜索试试~ 我知道了~
9056Tag2Pix:使用文本标记和SECat以及更改损失的线条艺术着色Hyunsu Kim*、Ho Young Jhoo*、Eunhyeok Park和SungjooYoo首尔国立大学{gustnxodjs,mersshs,eunhyeok.park,sungjoo.yoo}@ gmail.com摘要线艺术着色是昂贵的,并且具有挑战性的自动化。提 出 了 一 种 基 于 GAN 的 线 画 彩 色 化 方 法 , 称 为Tag2Pix,该方法以灰度线画和颜色标签信息作为输入,生成高质量的彩色图像。首先,我们介绍了Tag2Pix线艺术着色数据集。提出了一种生成器网络,该生成器网络由卷积层、预训练的语义提取网络和用于输入颜色信息的编码器组成,卷积层用于转换输入的线条艺术。鉴别器基于辅助分类器GAN来对标签信息以及真实性进行分类。此外,我们提出了一种新的网络结构,称为SECat,这使得发电机正确着色,甚至小的功能,如眼睛,也提出了一种新的两步训练方法,其中发电机和鉴别器首先学习对象和形状的概念,然后,根据学习的概念,学习着色,如在哪里以及如何放置哪种颜色。我们提出了定量和定性的评价,证明了所提出的方法的有效性。1. 介绍在插图行业中,线条艺术着色是一项昂贵、耗时且劳动密集型的任务。这对于学习方法来说也是一个非常具有挑战性的任务,因为输出是完全彩色化的图像,但唯一的输入是单调的线条艺术和少量用于彩色化的附加信息(例如,颜色笔画)。分割和着色的多模态学习是必不可少的。最近,已经对着色进行了各种研究。这些作品中的大多数都是基于生成式对抗网络(GAN)[8],我们专注于使用文本和线条艺术进行着色。在文本提示着色的研究中,一些工作尝试用描述文本颜色的文本语句给出的信息对灰度图像进行着色。平等贡献每个对象[4,19],而其他对象使用句子[6,21]修改图像的特定部分的颜色虽然有几个研究存在基于文本的着色,他们都没有集中在线条艺术着色,这是更困难的,由于相对较低的信息量包含在输入图像。在线条艺术着色的情况下,有两种典型的方式来给出着色的提示在用户引导的着色[18,25,33,36]中,在线艺术上的目标位置上绘制具有所需颜色的短线,并通过自然填充剩余空间来生成输出。在风格转移方法[7,9,18,35]中,现有的样本图像被用作生成网络的提示,并且根据给定样本图像的颜色分布生成输出。这些方法成功地简化了着色过程,但仍然需要通过熟练的专业人员(用户引导的情况)或具有类似图案的图像(风格转移的情况)进行干预,这两者都是昂贵的。图1.基于标签的着色方法的示例。作为一种替代方案,我们定义了一个新的问题,用于实现基于标签数据的线条艺术着色,如图1所示。生成器网络接收输入数据作为单调线条艺术和对应的颜色变化标签(CVT),诸如蓝头发或红眼睛,之后网络使用这两个输入数据基于给定的标签信息对单调线条艺术着色。这种基于标签的方法最小化了提供着色提示的工作;因此,它可以提供高质量的彩色化输出,而不需要熟练的专业人员的干预。在本文中,我们提出了一种GAN方法来基于标签9057线艺术着色以及用于多标签分割和着色的新颖架构我们还提出了一种新的训练方案,提高了GAN训练的稳定性此外,我们还提供源代码以及附带的预训练网络,以便读者可以重现结果。1我们的贡献如下:• Tag2Pix数据集我们提供了一个训练Tag2Pix网络的数据集该数据集由四组数据组成:彩色插图、单调线条艺术、颜色不变标签(CIT)和CVT。• Tag2Pix网络我们提出了一个对抗线艺术着色网络叫Tag2Pix该网络是辅助分类器GAN(ACGAN)[22]的变体,并且被设计为基于单调线条艺术和CVT生成彩色图像• SECat:挤压和激励与级联我们提出了一种新的网络结构,增强了多标签分割和着色。这种方法有助于着色,即使是像眼睛这样的小区域。• 变损失我们提出了一个新的损失组合和课程Tag2Pix网络的学习方法该方法将学习重点分为分割和着色,以便以稳定和快速的方式训练网络。2. 相关工作2.1. 用于着色的与传统的图像生成方法相比,GAN [8]在生成任务中提供了卓越的质量。Pix2pix [13]通过将GAN的对抗性损失添加到通常用于CNN的重建损失中,将灰度图像更改为彩色图像ACGAN [22]和Zhang等人[35]示出辅助解码器网络可以增加生成网络的稳定性和表达能力在本文中,这方面的ACGAN利用我们的网络的设计,因为它是适合学习的CVT和CITS的功能。2.2. 基于草图的线条艺术着色已经对用于线条艺术着色的GAN进行了若干研究线条艺术彩色化的典型方法是为线条艺术提供颜色提示PaintsChainer [33],Ciet al.[5]和Scribbler [25]实现了自动着色1https://github.com/blandocs/Tag2Pix通过使用指定颜色的短线作为用于对目标线条艺术区域着色的提示。在StyleTransfer [35]中,用作输入数据的插图的颜色样式被传输到原始线条艺术图像。Style2Paints [18 , 36] 通 过 添 加 细 化 阶 段 扩 展 了StyleTransfer,这提供了最先进的结果。然而,这两种方法仍然需要来自用户的专业知识,用于在每个线分离的位置处指定颜色,或者用于准备适当样式的插图作为每个原始线艺术的输入数据。由于这些限制,着色仍然昂贵且困难。在这项工作中,我们提出了一个简单的基于标签的colorization-灰计划,提供一个低成本和用户友好的线条艺术着色选项。2.3. 文本相关视觉任务StackGAN [34]接受全 文句子来 合成彩色图 像。SISGAN [6]和Namet al. [21]使用感测来改变彩色图像中特定区域的颜色。Manjunatha等人[19]和Chenet al. [4]使用用颜色描述对象的句子来着色灰度图像同时,Illustration2vec [24]使用VGG [29]网络从彩色插图中提取语义标签。基于Illustration2vec,Jinet al.[14,15]提出了一项研究,通过将给定的标签与随机噪声相结合来创建人工动画风格的面孔在我们的工作中采用了使用CNN提取语义特征的概念,从给定的线条艺术中提取CITS。2.4. 重新平衡要素地图中的权重在styleGAN [16]中,基于样式的生成器用于通过基于自适应实例归一化(AdaIN [12])修改卷积层之后的中间特征来改善输出质量通过将编码的样式信息注入到中间特征图中,生成器可以合成各种目标样式的真实图像。在这项工作中,我们提出了一种新的网络结构,称为SECat,它提高了稳定性和质量的线条艺术着色以最小的努力。3. 问题和数据集3.1. 问题定义我们的问题是一个基于标签的线艺术着色,自动颜色给定的线艺术使用颜色变量的文本标签由用户提供线条艺术是仅包括对象的边缘的灰度图像,并且CVT确定线条艺术中的目标对象的期望颜色。为了解决这个问题,我们提出的网络提取一个功能,如帽子或背包,它提供了信息的颜色不变的标签(CITS)在一个给定的线艺术的图像的形状。因此,如图1所示,我们提出的网络着色一个给定的线艺术与颜色变化的标签和颜色不变的标签功能。注意到用户9058不需要提供颜色不变的标签,而只需提供颜色相关的标签。3.2. Tag2Pix数据集数 据 过 滤 我 们 使 用 大 规 模 动 漫 风 格 图 像 数 据 集Danbooru2017 [1]。Dan-booru 2017的每一幅插图都有非常详细的姿势、服装、头发颜色、眼睛颜色等标签。为了实现我们的目标,我们选择了370个CIT和115个CVT,每个CIT和115个CVT都被用于我们的训练数据集超过200次。我们还选择了在简单背景中只有一个人的图像。使用的每张图像来自Danbooru2017一套尺寸为512×512信箱。通过镜像填充,我们去除了信箱,获得了39031张高清图像。 其他面部图像也通过lbpascade animeface [20]提取,以提供更精致的面部着色。选择分辨率为128×128或更高的图像,共获得16,224张面部图像线条艺术提取我们需要从彩色插图中提取线条艺术进行监督学习,但传统的边缘检测算法,如Canny EdgeDetector [3],未能创建自然的艺术线条艺术。因此,为了获得具有清晰边缘和各种风格的线条艺术,我们使用了多种线条艺术提取方法,如图2所示。图2.艺术线条提取方法示例。左图:Danbooru2017的示例图像。上图:通过(a)使用镜像填充删除信箱,(b)sketchKeras [17],(c)草图简化[27]和(d)XDoG [31]获得的训练数据。下图:使用lbpcascade animeface [20]裁剪的人脸图像。我们主要通过sketchK- eras [17]网络提取草图,该网络 专 门 从 事 动 漫 风 格 的 线 条 艺 术 创 作 然 而 ,sketchKeras图像显示出铅笔素描风格的倾向,存在不必要的描绘或对线条粗细的错误控制。因此,我们使用了基于sketchKeras的简化草图,另外还使用了草图简化[27,28]。这些图像接近数字线艺术,因为它们具有几乎恒定的线条厚度。由于简化结果的线条粗细取 决 于 输 入 图 像 的 分 辨 率 , 因 此 将 输 入 放 大 为768×768。最后,我们使用XDoG [31]从原始彩色图像的灰度中提取算法线条艺术仅使用单一类型的草图(如sketchKeras)训练网络显示出过度拟合草图输入并从草图中回溯RGB值的趋势通过各种风格的草图,我们已经能够避免这种效果。4. Tag2Pix网络和损耗设计4.1. 发生器和鉴别器网络图3显示了生成器网络的体系结构如图3所示,网络由四个主要部分组成:CIT功能提取器,图像发生器,CVT编码器,并指导解码器。用户可以简单地通过提供线条艺术和CVT而不提供CIT来获得彩色线条艺术,如图3所示。CIT倾向于表示形状信息,其可以用作更好着色的指导,为将颜色正确施加到期望位置提供有用的信息。CIT特征提取器被设计为从给定的线条艺术中提取CIT的特征,并利用我们提出的GAN架构中的特征。为了提取CIT的特征,我们基于SE-ResNeXt-50 [11,32]预训练了特征提取网络。训练网络以预测多标记CIT,并且将与ReLU的conv3 4之后的中间特征图提供给图像生成器。CVT编码器被设计成将给定的CVT嵌入到潜在空间中。CVT编码器由用于输出的两组层组成,提供要合并到图像生成器的编码特征图中的空间特征SECat在第4.2节中解释。CVT输入首先被编码为独热向量,并且该向量通过多个全连接(FC)层和卷积层被单独嵌入。即使CVT不具有空间信息,卷积层在较低的计算开销中具有比FC层更好的性能。图像生成器基于U-Net [23],旨在生成高分辨率图像。如图3所示,图像生成器首先通过将卷积层的特征图(32×32×256)与CIT特征提取器输出和U-Net的CVT编码器的空间特征输出连接起来,产生一个中间表示(32×32×576然后运行多个解码器块以产生高质量的彩色插图。具体地,每个解码器块将来自先前解码器块和U-Net结构中相同空间维度的卷积层的特征图作为输入。每个解码器块基于像素混洗操作,这是用于减少棋盘伪影的上采样方法[26]。9059图3.发电机网络的总体结构括号内的数字表示张量维度(宽度×高度×深度)。图像生成器具有深层结构,并且可能导致梯度消失问题。为了便于网络训练,我们采用了引导解码器[35].如图3所示,引导解码器连接到第一解码器块,并且产生彩色图示。引导解码器提供了到中间特征图的新的损失路径,这提高了质量并且有助于减轻消失梯度问题。根据我们的观察,上述方法对于基于标签的艺术线条着色具有缺点。当我们通过将CVT输入编码为空间特征并将其与生成器的解码器块的输入特征合并来采用这种方法时,对于大对象(例如头发),着色执行得很好,但对于详细的小对象(例如眼睛),则不是这样为了克服这一限制,我们提出了一种新的结构命名为SECat(挤压和激发与连接)。SECat受到styleGAN[16]的网络结构的启发,其使用仿射变换调整中间特征图,以便在权重重新平衡方面将样式信息图4.鉴别器网络的总体结构。图4示出了鉴别器的概览。在接收到彩色图像作为输入之后,鉴别器确定输入是否是真实的,并且同时预测使用哪些CVT和CIT。该网络受到ACGAN [22]的启发,因为多标签分类(特别是对于CVT)在目标任务中起关键作用现有ACGAN的生成器和鉴别器被训练成成功地生成单个类别的图像。相反,我们的GAN经过训练,可以使用CVT和CITS生成彩色插图和多标签分类。4.2. SECat压缩与带卷积的激励通常,着色提示被编码成高级特征,该高级特征被提供给生成器网络作为解码器块的输入[2,5,35]。但是,协议-图5. SECat块。图5示出了SECat的总体结构。 在SENet [11]中,挤压是使用2-D空间全局平均池化生成通道维度向量的全局信息提取过程。激励是自适应重新校准过程,其使用具有瓶颈的两个FC层来生成通道重要性权重。对残差块的输出特征图进行缩放由通过挤压和激励过程获得的信道重要性权重来确定。在SECat的情况下,用户给定的CVT由若干FC层编码,并且图像生成器列车合成插图草图(512*512*3)(512*512*1)512*512*16256*256*32卷积层= 2D卷积层(内核大小:3),leakyReLU(0.2),步幅= 1(除非另有说明)128*128*64zCIT特征提取器64*64*128预训练的线条艺术语义网络32*32*256颜色不变标签张量(CIT)(32*32*256)向导解码器CVT编码器的空间特征的对于SECat通用CVT张量(115)生成的CIT张量(370)第1101章真假(一)用于SEcatSECat模块的 CVT编码器间隙残余块高x宽x高规模+第一类-热矢量SE-ResNeXt块(256*256*64)256*256*64 s2真实/生成插图(512*512*3)生 成 的 插 图( 512*512*3)全局平均池(1*512)Conv(512*512*32Conv(512*512*32512*512*(32+16)颜色变体标签集(CVT)简体中Conv(512*512*32)s1 LeakyReLUConv(256*256*64)s2LeakyReLUFC(32*32*32)简体中Conv(32*32*64)ConvConv简体中Conv(32*32*64)简体中128*128*128 s264*64*256 s232*32*512 s232*32*512 X6Conv(32*32*64)FC(1)乙状简体中文乙状简体中文乙状拼接(32*32*576SECat-ResNeXt块 * n(32*32*1024PixelShuffle(64*64*256)简体中文简体中文简体中Concat(64 +C)FC(C/4)ReLUFC(C)指南解码器(64*64*256 ->乙状生成的指南插图(512*512*3)tanh9060编码的矢量被合并到挤压过程的输出特征。该合并的特征被传播到激励过程,使得CVT信息不仅被并入,而且还被用于强调发生器的所有解码块中的重要特征。4.3. 损失设计与两步课程培训与利用包含颜色和位置信息的提示的先前作品不同[5,33],基于标签的提示不包含任何位置和形状的信息来指导着色。因此,由于缺乏空间信息和RGB值提示,用于局部着色的语义分割特别难以执行然而,如果网络在单个阶段中针对两个任务进行训练,则生成的图像通常会遇到颜色混合和渗色的问题,如图6所示。根据我们的观察,当训练网络进行分割和着色时,网络必须学习课程中的两个任务,首先学习语义分割,然后是着色。为了获得基于训练的学习,我们提出了一个两步训练与变化的损失,其中学习的同时顺序应用两个不同的损失。Ladv=Ey[logDadv(y)]+Ex[log(1-Dadv(Gf(x,cv)],(二)其中X和y是线条艺术和真实彩色插图的配对域,cv是CVT值,Gf是来自生成器的合成尺寸的彩色图像,并且Dadv是真实或假的鉴别器输出在等式1中,λrec是重建损耗Lrec的加权因子,其表示如下:Lrec= Ex,y[||y − Gf(x,cv)||1+ β||y − Gg(x,cv)||1]、(3)其中,Gg是引导解码器的输出,并且超参数β是0。9 .第九条。L_rec是真实图像和生成图像之间的逐像素L1损失。我们将λrec设置得足够大(1000),以使网络遵循原始图像分布,而不是相互欺骗该训练阶段引导网络学习关于线条艺术的语义信息,从而产生具有足够明暗的更精确和更清晰的边界步骤2.着色在第二步中,引入标签分类损失Lcls,这使得生成器和鉴别器基于对对象形状和位置的更好理解来学习着色。步骤2损失如下:图6.两步训练效果图。 顶部:单步LD=−Ladv+λclsLcls,L G= L adv+λcls L cls+ λrec Lrec.(四)训练结果,底部:两步训练的结果。在单步情况下,颜色在每个段中混合和渗出。步骤1.分割在第一步中,我们集中在低级别的功能,如边缘和阴影。标签分类损失不被用于生成器和鉴别器两者;因此,生成器和鉴别器仅基于对抗损失Ladv和重建损失Lrec被训练为如下:在等式4中,λcls是指示CIT和CVT的重要性的加权因子。请注意,权重因子在我们提出的具有变化损失的两步训练中起着重要作用。训练鉴别器以评估与输入图像中的标签相关联的信息量的分类损失如下获得:Lcls=Ey,c,c[− logDcls(cv,ci|y)]+低点:E[−logD(五)(c,c|G(x,c))],x,cv,cicls v ifvLD= −Ladv,L G= L adv+ λrec Lrec.(一)其中ci是CIT值,并且Dcls(cv,ci|y)给定y,每个标签的二进制分类。该方法试图以高概率预测CVT和CIT。根据更详细的对抗性损失公式如下:通过我们的实验,两步方法使我们的GAN模型的训练更加稳定和快速。v我9061虽然通过两步训练可以获得良好的着色结果,但问题仍然存在,因为我们的网络倾向于过度拟合我们的人工草图输入(第3.2节)。人工草图变得非常清晰和整齐地绘制,但人工草图是模糊的,并且具有模糊和薄的边缘,如图7所示。由于训练草图和真实世界草图之间的不同特征,来自真实世界线条艺术(图7中的中间图像)的着色结果是模糊和扩散的。图7.真实世界的线条艺术(左),没有(中)和亮度调整(右)的着色结果。为了使所提出的网络适应真实世界的草图,我们使用亮度控制技术训练了另外3个时期[25]。在附加训练阶段期间,输入图像的亮度沿着U(1,7)缩放,有意地弱化黑线的厚度和强度,使得对极其模糊的草图执行适当的分割。5. 实验5.1. 使用各种CVT进行着色图8显示了Tag2Pix生成的彩色图像。图中每行的图像用两个普通CVT和一个不同CVT着色。图像表明,我们的网络着色的线条艺术自然与各种颜色标签的组合。5.2. 通过用户研究与其他网络进行比较由于用户将使用自动着色解决方案,他们对输出的真实判断是至关重要的。为了评估所提出的方法,我们进行了用户研究,将我们的网络与其他网络进行基于草图和基于文本的着色。20人被离线雇用,他们在没有任何先验知识的情况下使用五点李克特量表在四个类别上比较了彩色输出的质量。评价标准如下:• 颜色分割颜色不与其他颜色交叉的程度区域和单个部件涂上一致的颜色。• 色彩自然度颜色与草图的一致性有多自然的颜色应该与绘画的情绪相匹配。• 颜色提示准确度暗示反映得多好输出结果应如果给了红头发的暗示,你就有红头发。• 整体素质着色结果的总体质量。基于草图的网络首先,我们的方法进行了比较,对基于草图的线艺术生成方法。我们选择了Style2Paints(特别是样式传输网络V3)[18]和PaintsChainer [33],它们分别使用参考图像和颜色笔画给出提示。在Style2Paints中,我们使用公开的代码创建了比较图像。在PaintsChainer中,我们使用了通过官方网站提供的服务。我们使用三种着色方法对140个真实世界的线条艺术进行因此,提供了140个测试集,并且每个用户评估从140个测试集中随机选择的30个集表1.以草图为基础的彩色化网路之使用者研究(*)在Tanpopo、Satsuki和美人蕉之间随机选择Col- oring网络版本。绿头发蓝头发银发白发绿色裙子蓝色裙子紫色裙子黑色裙子图8. 着色结果。表1显示Tag2Pix在所有评估指标中表现最好。在风格转移方法中,颜色非常清晰,明暗明显。然而,如图9所示,如果参考图像相对于线条艺术具有不同的姿态 , 则 频 繁 地 发 生 颜 色 失 配 和 颜 色 混 合 。 在PaintsChainer中,渗色问题非常严重。例如,眼睛颜色扩散到蓝眼睛红裙子金发碧眼黑头发红裙子类别PaintsChainer(*)Style2PaintsTag2Pix红眼黄眼睛绿眼紫眼分割2.513.513.94自然度2.443.473.91精度3.283.733.93质量2.433.473.869062类别Manjunatha等人Tag2Pix分割3.164.13自然度3.464.00精度3.273.99质量3.273.86表2.基于文本着色网络的用户研究。尤其是在分割方面。现实世界的线条艺术PaintsChainer Style2Paints Tag2Pix图9.基于草图的网络比较,PaintsChainer(左)[33]和Style2Paints(中)[18],以及我们的(右)。所有一个水眼睛的女孩绿色头发在白色背景水绿色眼睛绿色头发白色背景一个棕色眼睛的女孩银发在白色背景棕色眼睛银色头发白色背景网络描绘了现实世界的线条艺术。每个网络的上图是彩色化的提示,每个网络的下图是彩色化的输出。该图显示我们的分割效果优于PaintsChainer和Style2Paints。由于缺乏对小区域的适当分割,经常会出现人脸。与这些方法相比,即使没有关于RGB值或标签位置的任何信息,Tag2Pix也可以非常准确地分割每个部分,并很好地反映CVT提示。我们还对Tag2Pix与基于文本的着色网络进行了比较。Chen等人[4]是一种概念设计,因此很难进行公平的比较,因为它需要为每个数据集单独实现。此外,SISGAN [6] 完 全 无 法 着 色 , 尽 管 输 入 尺 寸 很 小(74×74),未能保留草图的轮廓,并产生奇怪的结果。Manjunatha等人[19]被选作比较目标,并使用公开可用的代码进行评估。因为[19]使用句子对图像进行着色,所以我们将CVT转换为句子进行训练和测试,匹配语言表达水平以确保公平比较。例如,红头发和蓝裙子标记被转换为红头发穿蓝裙子。表2显示,所提出的网络显著优于基线。如图10所示,be- cause [19]接收到的灰度图像保留了原始图像的阴影和光线,乍一看似乎是合理的然而,它不能产生头发、眼睛等的详细分割。我们提出的网络细分的特殊-图10. 基于文本的网络中的比较,Manjunathaetal. [19](上)和我们的(下)。[19]使用了灰度图像和文本句子,而我们的使用了线条艺术和文本标签。[19]遭受渗色和混色。我们的彩色图像具有与颜色标签相关联的非常清晰的线条和颜色。cific对象区域很好,主要是由于CIT特征提取器SECat的结构和训练改进以及两步训练。基于标签的着色具有不受语法和句子结构限制的优点,这显著简化了输入编码。同时,自然语言句子在泛化方面具有优势。我们计划在未来的工作中扩展所提出的方法来支持自然语言输入。5.3. CVT嵌入方案Fre´ chetIncept ionDistance(FID)[10]是一个众所周知的量化评估生成的输出质量的指标。FID通过使用预训练的Inception-v3 [30]模型来量化生成图像和地面实况图像之间的相似性,以评估输出分布的差异。为了证明SECat比其他多标签嵌入方法更好地工作,我们以不同的方式将CVT特征嵌入到我们的网络中并计算FID。图11显示了生成器中的各种解码块。块(a)和(b)分别是ResNeXt和SE-ResNeXt块。在框(c)和(d)中,来自CVT编码器的CVT向量(64)与SECat(e)相同编码向量被扩展到H×W×64,并连接在9063ResNeXt 块 ( c ) 的 第 一 个 conv 层 , 或 每 个 conv 层( c’ )。(d)使用AdaIN和仿射变换,如styleGAN中所示,并且(e)是我们的SECat块。块FID参数(a) ResNeXt 52.4913.85M(b) SE-ResNeXt45.4815.71M(c) 康 卡 特 锋39.6916.03M(c′)Concat all47.08(d)AdaIN 66.3916.51M(e)SECat(我们的)39.2115.81M表3.每个发电机网络的FID和参数计数。我们给出了FID的最佳结果和最小的附加参数。(一)(b)第(1)款(c)第(1)款(d)其他事项(e)图11.每个网络块的示意图。 (a)ResNeXt块,(b)SE-ResNeXt块,(c)级联编码的CVT,(d)AdaIN,和(e)我们的(SECat)。我们使用真实世界的线条艺术和随机颜色标签生成了6545张我们通过比较测试集中的4127幅真实插图来计算FID。请注意,背景标记固定为白色,以最大限度地减少干扰。线条艺术(b)SE-ResNeXt(c)Concat front(d)AdaIN(e)Ours(SECat)图12.每个网络块的彩色输出多达20个epochs。只有我们的网络适当地着色眼睛从CVT。测试输入是真实世界的线条艺术。上:蓝头发,红眼睛,下:粉色头发黄色眼睛背景扰动,每步使用10个历元类别(b)第(1)款(c)第(1)款(e)SECat的两步训练。当分割2.853.293.51网络在训练期间显示出最低的FID。 输入自然度2.853.403.60将图像大小调整为256×256以进行快速比较。精度2.753.513.60表3示出了我们的SECat块给出了最低的FID,并且还具有比其他嵌入方法(c)和(d)更少的参数。尽管(c)和我们的FID只有轻微的差异,如图12所示,我们的方法更清楚地着色了眼睛等小特征。我们进行了一项额外的用户研究,以更详细地比较嵌入方法。所有设置几乎与5.2节中的设置相同,但我们雇佣了27个新用户,并采用了6,545张用于计算FID的图像如表4所示,(b)将空间特征的CVT特征与最深解码器块合并一次,并且劣于(c)和(e),(c)和(e)在每个解码器块中合并附加的轻CVT特征通过将CVT信息纳入网络并利用该信息来强调特征,(e)SECat主导了所有评价标准。5.4. 连续草图的消融研究和着色我们进行了广泛的研究,分析网络组件和损失项的影响,并使用一致的标签对视频上的连续草图进行着色。详见补充资料。质量2.78 3.303.54表4. CVT嵌入方案的用户研究。(b)、(c)和(e)分别对应于表3中的SE-ResNeXt、Concat front和SECat。6. 结论在本文中,我们提出了一种新的基于GAN的线条艺术着色称为Tag2Pix,它为给定的线条艺术和颜色标签生成高质量的彩色图像,并使用引入的Tag2Pix数据集训练网络。所提出的SECat架构甚至可以适当地着色小特征,并且所提出的两步训练方案表明,预先训练网络进行分割是学习更好的着色的先决条件。各种用户研究和实验表明,Tag2Pix优于现有的方法,在分割,自然度,颜色提示的表示,和整体质量。确认这项工作得到了韩国国家研究基金会(NRF-2016M3 A7 B4909604)和三星电子的支持。CVT编码器(64)(cConv3BNX+ReLUBNConv2ReLUBNConv1ReLUSE模块ReLUReLUBNX+BNConv2BNConv1ReLUSE模块Conv3ReLUReLU+BNConv3BNConv2BNConv1ReLUCVT编码器(64)ReLUReLU+AdainConv3AdainConv2AdainConv1e阿芬ReLUConv3BNX+模块SECatReLUBNConv2ReLUBNConv1CVT编码器(64)ReLU9064引用[1] Anonymous,Danbooru社区,Gwern Branwen和AaronGokaslan。2017年丹博会:一个大规模的众包和标记的动漫插图数据集。https://www.gwern.net/Danbooru2017,2018年。访问日期:2019-03-22.[2] Hyojin Bahng,Seungjoo Yoo,Wonwoong Cho,DavidKee- tae Park,Ziming Wu ,Xiaojuan Ma,and JaegulChoo.用文字标注:通过基于文本的调色板生成指导图像着色。欧洲计算机视觉会议,2018年。[3] 约翰·坎尼。边缘检测的计算方法。IEEE TransactionsonPatternAnalysisandMachineIntelligence(TPAMI),1986.[4] Jianbo Chen , Yelong Shen , Jianfeng Gao , JingjingLiu,and Xiaodong Liu.基于语言的图像编辑与循环注意模型。计算机视觉与模式识别(CVPR),2018年。[5] Yuanzheng Ci,Xinzhu Ma,Zhihui Wang,Haojie Li,and Zhongxuan Luo.用户引导的深度动画线艺术着色与条 件 对 抗 网 络 。 ACM International Conference onMultimedia(MM),2018。[6] 董浩、司淼宇、吴超、郭一珂。通过对抗学习进行语义图像合成。国际计算机视觉会议(ICCV),2017年。[7] Chie Furusawa , Kazuyuki Hirosiba , Keisuke Ogaki ,Yuri Odagiri.漫画着色:半自动漫画着色。SIGGRAPH亚洲技术简报,2017。[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统(NIPS),2014年。[9] Paulina Hensman和Kiyoharu Aizawa使用单个训练图像的基于CGAN的漫画着色。2017年国际文档分析与识别会议(IC-DAR)[10] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统(NIPS),2017。[11] 杰虎,李申,孙刚。挤压-激发网络。计算机视觉与模式识别(CVPR),2018年。[12] Xun Huang和Serge Belongie。实时任意样式传输,具有自适应实例规范化。国际计算机视觉会议(ICCV),2017年。[13] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。计算机视觉与模式识别(CVPR),2017.[14] 金阳华。Make.girls.moe. https://make.girls的网站。MoE,2017年。2019-03-22.[15] Yanghua Jin,Jiakai Zhang,Minjun Li,Yingtao Tian,Huachun Zhu,and Zhihao Fang.面向生成对抗网络的动画角色自动生成。arXiv:1708.05509,2017。[16] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。计算机视觉与模式识别会议(CVPR),2019年。[17] llyasviel素描https://github.com/lllyasviel/sketchKeras,2018. 2019- 03-22.[18] llyasvielstyle2paints.https://github.com/lllyasviel/style2paints,2018. 2019- 03-22.[19] Varun Manjunatha、Mohit Iyyer、Jordan Boyd-Graber和Larry Davis。从语言中学习色彩。北美计算语言学协会(NAACL)分会,2018年。[20] 长 富 lbpcascadeanimeface.https : //github.com/nagadomi/lbpcascade_animeface , 2011.2019-03-22.[21] Seonghyeon Nam,Yunji Kim和Seon Joo Kim。文本自适应生成对抗网络:用自然语言处理图像。神经信息处理系统(NIPS),2018。[22] Augustus Odena,Christopher Olah,and Jonathon Shlens.使用辅助分类器GAN的条件图像合成。国际机器学习会议(ICML),2017年。[23] Olaf Ronneberger,Philipp Fischer,and Thomas Brox.U-网:用于生物医学图像分割的卷积网络医学图像计算和计算机辅助干预(MICCAI),2015年。[24] 斋藤正树和松井雄介。Illustration2vec:插图的语义向量表示。SIGGRAPH亚洲技术简报,2015年。[25] Patsorn Sangkloy,Jingwan Lu,Chen Fang,Fisher Yu,and James Hays. Scribbler:使用草图和颜色控制深度图像合成。计算机视觉与模式识别会议(CVPR),2017年。[26] WenzheShi,JoseCaballero,FerencHusza´r,JohannesTotz , Andrew P Aitken ,Rob Bishop,DanielRueckert,and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。计算机视觉与模式识别(CVPR),2016年。[27] Edgar Simo-Serra,Satoshi Iizuka,Hiroshi Ishikawa.掌握草图:用于结构化预测的对抗增强。ACM Transactionson Graphics(TOG),2018年。[28] Edgar Simo-Serra,Satoshi Iizuka,Kazuma Sasaki,andHi-roshi Ishikawa.学习简化:用于粗略草图清理的全卷积网络。ACMTransactionsonGraphics(SIGGRAPH),2016年。[29] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 深 度 卷 积 网 络 。 2015 年 国 际 学 习 表 征 会 议(ICLR)。[30] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的计算机视觉与模式识别(CVPR),2016年。9065[31] HolgerWinnemoller , JanEricKyprianidis, andSvenCOlsen.Xdog:一个扩展的高斯差分组件,包括高级图像风格化。计算机图形,2012年。[32] 谢赛宁、罗思思·吉希克、彼得·多尔·拉尔、朱
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功