没有合适的资源?快使用搜索试试~ 我知道了~
13482看得更近,更好地监督:基于组件的判别器的一次性字体生成华南理工大学电子与信息工程学院,孔宇新1,罗灿杰1,马晓云1,朱启元2,朱胜高2,袁伟2,靳连文1,312华为云AI。3彭城实验室。{kongyxscut,canjie.luo,scutmaweihong,lianwen.jin,nicholas.jing.yuan} @ gmail.com{zhuqiyuan2,zhushenggao} @ huawei.com摘要由于字符数量庞大,结构复杂,字体自动生成一直是一个具有挑战性的研究课题。通常情况下,只有少数样本可以作为样式/内容参考(称为少数样本学习),这进一步增加了保留本地样式模式或详细的模板结构的难度我们调查了以前的研究的缺点,发现粗粒度的监督字体生成器是不够的。为此,我们提出了一种新的组件感知模块(CAM),它监督生成器在更细粒度的级别上解耦内容和样式,即,组件级别。不同于以往的研究努力增加生成器的复杂性,我们的目标是对一个相对简单的生成器进行更有效的监督,以充分发挥其潜力,这是字体生成的一个全新视角。整个框架通过将组件级监督与对抗学习相结合,取得了显著的效果,因此我们称之为服从引导的GAN,简称CG-GAN。大量的实验表明,我们的方法优于国家的最先进的一次性字体生成方法。此外,它可以应用于手写文字合成和场景文本图像编辑,表明我们的方法的推广1. 介绍为了更好地解决少镜头字体生成问题,我们重新思考了以下两个问题:1)是什么决定了人们对字体样式的判断?2)人们如何学会用正确的结构写一个新的字符/字母?为了直观地回答第一个问题,我们在图1中展示了一个三种不同字体样式的文本字符串。由于它们的整体架构相似,我们自然会更加关注局部细节,包括端点形状,拐角锐度,*通讯作者。图1.以三种不同字体样式显示的同一文本字符串笔画粗细、连接书写模式等。,其出现在更局部的水平上,即,字符的组成部分。虽然组件不能提供某些字体样式属性,如倾斜度和长宽比,但我们认为组件决定了字体样式,比整个字符形状更大的范围。至于第二个问题,一个强有力的假设是,当人们学习一个复杂的字母时,他们首先学习组成字符的组件。直观地说,如果一个函数中的所有组件都写得很好,我们就可以正确地获得函数。从上述观察中获得灵感,用于少镜头字体生成的直观方法是利用与字体样式属性和字体结构在很大程度上相关的组件信息。近年来,由于其关键应用[3,25,26,31,36,38],少镜头字体生成(FFG)受到了相当大的研究兴趣。一个理想的FFG系统可以大大减少耗时和劳动密集型字体设计过程的负担,特别是对于那些具有大量字形的语言系统,有超过25,000个象形文字的汉字。另一个应用是创建跨语言字体库,考虑到Adobe和Google花费数年时间创建Source Han Sans字体,这是一种同时支持中文,韩语和日语的最近,已经进行了几次尝试,以少数拍摄字体生成,但是,他们都有一定的局限性,因此需要进一步的改进。例如,[26]学会了将源字体样式映射到一个固定的13483目标字体样式,因此必须针对另一种新样式进行重新训练。 一种值得注意的方法是EMD [36],它通过分解样式和内容表示来推广到不可见的样式,但由于其损失函数设计的缺陷,结果并不乐观。最近,有几种方法利用了合成的思想。不过,它们也有明显的缺点。例如,CalliGAN [31]生成基于组件标签和样式标签的学习嵌入条件的递归图像,因此不能推广到不可见的样式或不可见的组件。DM-Font [3]采用双存储器体系结构来生成字体。然而,它需要一个包含所有组件的引用集来提取存储的信息,这对于FFG场景是不可接受的。LF-Font [25]可以扩展到基于组件样式功能的不可见样式。然而,其视觉质量显着下降,在一次拍摄生成的情况下。尽管这些基于组件的算法成功地编码了不同的本地风格,但它们显式地依赖于组件类别输入来提取风格特征,因此跨语言字体生成的能力完全超出了它们的范围。同时,上述方法[3,25,26,31,36,38]都有一个共同的局限性,即它们需要大量的成对数据来进行像素级的强监控。虽然DG-Font [32]实现了无监督的字体生成,但生成的字形通常包含特征伪影。总的来说,最先进技术的性能仍然不能令人满意。在本文中,我们提出了一种新的组件引导的生成网络,即CG-GAN,这可能会提供一个新的视角,少镜头字体生成。所提出的方法受到两种人类行为的启发:1)人们在区分字体样式时自然地更关注组件部分,以及2)人们通过首先学习其组件来学习新字体这样一个人类的学习计划是完美地采用我们提出的智能感知模块(CAM),监督生成器在组件级别的风格和内容。具体地说,CAM首先采用注意机制的组件提取,作为一个损失函数,以监督是否每个组件是正确的传输过程中产生。然后,学习的注意力地图,代表相应的组件信息,进行每个组件的风格分类和现实主义的判断。最后,通过多个组件级判别输出,CAM可以通过反向传播向生成器反馈更细粒度的信息,鼓励生成器在组件级同时关注三个关键方面:风格一致性、结构正确性和图像真实性。因此,所生成的视频图像的质量显著提高。由于CAM仅作为训练过程中的组件级监督此外,我们的方法不需要配对的训练数据。一旦模型被训练,我们的生成器就能够泛化到看不见的风格,看不见的内容,甚至其他看不见的语言字形,即。跨语言字体生成。从本质上讲,我们的目标是寻求一种算法,可以有效地提高表示能力的生成器。所提出的CG-GAN允许在更细的粒度级别上采用样式-内容解纠缠,即,分量级,从而能够从甚至单个参考图像中提取高质量 利用组件级监督而不是像素级强监督的方法是一种类似于人类的方法,其在捕获局部风格模式和保留详细的风格结构方面显示出有效性。与现有的基于构件的方法相比,CG-GAN具有两个性能:1)通过为生成器提供更有效的监督而不是通过努力增加生成器的复杂性来获得性能的改善; 2)生成器能够捕获局部样式模式,而不显式依赖于预定义的构件类别,表现出显着的一次性中文字体生成。操作和跨语言字体生成能力。大量的实验表明,我们提出的CG-GAN显着优于国家的最先进的一次性字体生成。此外,通过将组件级指导与新颖的框架设计相结合,CG-GAN可以灵活地扩展到其他两个不同的任务:手写生成和场景文本编辑,产生远远超出我们预期的惊人结果,表明我们提出的方法具有巨大的潜力。2. 相关作品2.1. Image-to-Image Translation图像到图像(I2I)翻译旨在将源域中的输入图像翻译成目标域中的对应Pix2pix [14]是I2I翻译任务的第一个通用框架,它是在监督学习中建立的,并建立在条件对抗网络[24]上。然而,成对的训练数据对于许多场景是不可用的。因此,提出了几种方法来解决不成对的设置。UNIT [19]是CoGAN [21]的扩展,它通过生成对抗网络[8]和变分自编码器[18]的组合来学习跨域的联合分布。一个值得注意的工作是CycleGAN [37],它通过引入循环一致性损失来解决未监督的图像翻译问 题 。 与 CycleGAN [37] 同 时 , Disco-GAN [17] 和DualGAN [34]也利用循环一致约束来实现解对I2 I转换。上述方法限于在图像之间转换图像。13484企业形象图2.所提出方法的概述。两节课。后来,[1,5,13]提出实现多类无监督I2I翻译,能够在多个可见类之间翻译FUNIT [20]通过学习分别对内容图像和类图像进行编码,进一步将其泛化能力扩展到看不见的类2.2. 少量字体生成少镜头字体生成(FFG)的目的是创建一个完整的字体库,在所需的风格,只有几个参考图像。几种方法[4,22,26,38]将FFG任务视为I2I转换问题,因为两个任务都学习从源域到目标域的映射。例如,DC-font [15]通过特征重构网络学习深空中两种字体之间的转换关系。然而,所有这些都不能推广到不可见的风格.在此之后,EMD [36]和SA-VAE [28]被提出来分离样式和内容的表示,因此可以生成不可见的样式。然而,他们未能捕捉到当地的风格模式。后来,提出了一些基于组件的方法[3,12,25,31]例如,RD-GAN[12]可以通过引入部首提取模块在一次性设置中生成不可见的字形[3,25]通过学习组件式风格表示来提高生成质量,其中DM-Font [3]引入了双重存储器结构,LF- Font [25]利用了因子分解策略。然而,它们遭受估计误差,并且由于对组件标签的显式依赖而不能推广到上述所有工作都是在监督学习中进行的,并且需要成对的训练数据来实现强监督。之后,DG-Font [32]通过引入变形跳过连接实现了无监督学习,但结果通常包含特征伪影。相比之下,我们提出的CG-GAN通过采用组件监督机制来解决上述问题。3. 方法我们提出的CG-GAN的整体架构如图2所示,它由生成器G、智 能 感 知 模 块 ( CAM ) 和 一 个 可 编 程 逻 辑 器 件(PLD)。生成器G的目标是在组件级实现样式-内容分离。为此,CAM是employed提供组件级的反馈,以发电机,通过多组件级的歧视输出。还采用基于U-Net的图像识别[27]D来执行每图像和每像素的区分,进一步增强所生成的图像的质量。3.1. 发生器如图2所示,生成器由样式编码器、内容编码器和混合器组成。给定样式图像Is和内容图像Ic,所生成的图像Ig应该呈现Is的字体样式,同时保持Ic的相同底层结构。具体地,内容编码器将输入内容图像编码成风格不变的内容特征图Xc。同时,采用风格编码器从风格参考图像中提取两个不同层次的风格表示:风格特征图XS和风格特征向量FS。这里,从风格参考图像中提取Xs,并且随后通过映射网络f将其映射到风格潜在向量fs,映射网络f使用多层感知(MLP)来实现。最后利用混合器对风格和内容表示进行融合,重构出目标图像。具有相同空间维度的样式特征图Xs和内容特征图Xc在通道方向维度上被级联,并且稍后被馈送到混合器。同时,通过AdaIN [11]操作将风格潜在向量fs注入混合器M的每个上采样块。此外,本文还采用了内容编码器和混合器之间的跳接方式,将内容编码器中每个下采样模块的输出连接到混合器中具有相同分辨率的3.2. 智能感知模块直观地说,字体的样式和结构与组件信息密切相关。然而,大多数执行方法[15,26,36,38]采用像素级强监控,而忽略关键组件信息。因此,我们引入了感知模式,发电机(G)鉴别器(D)Style Encoder生成的图像智能模块CAM视觉特征H注意力地图濷风格形象ǻ智能样式标签智能样式标签出席样式分类器澟特征编码器注意解码器真/假的内容编码器混合器智能判别式续图像监管不力濷13485ΣΣΣ中文(简体)^G×----一·Σ联系我们STRCSS规则(CAM),其主要思想是充分利用组件信息,更好地指导字体生成过程。因此,CAM旨在使用以下策略在组件级别监督生成器:组件提取字体生成器的先决条件通过最小化结构保持损失。注意,F和A仅用真实样本Is优化,表示为:不L=EI∈P−y^tlog(A(F(Is)t,i=1目的是保留目标字形因此,成分提取过程的目的是监督是否正确地转移了非线性结构。由于每一个汉语句子都可以按照深度优先的阅读顺序分解成一个唯一的成分集,因此我们将成分提取过程视为一个序列问题。 为了继续,基于CNN的特征编码器其中yt表示在时间步t处的对应的地面实况分量标签。如图3所示,在每个时间步长t,解码器能够聚焦于对应的分量区域。因此,如果所生成的矩阵的分量预测出错,则生成器G针对不正确的结构转移而被归一化,表示为:F从输入图像x中提取高级视觉特征:H=F(x),其中H的空间维度为C×H×W。因此,编码器输出H是特征向量Lstrc=EIs∈Ps,Ic∈Pc<$−<$y^tlog(A(F(G(Is,Ic)t.(八)的L=H W元素,其中每个元素hi是C-表示其在输入图像中的对应区域的二维向量,由H =h1,h2,. h L.与其他顺序学习方法相比,CTC [9]和Transformer [29],注意力机制是以这种方式,G被监督以生成构造。真正的组件级别,致力于正确地保存每个单个组件不像大多数现有的方法,只提取一个全局内容表示,这往往导致不完整的结构,我们采用LG超级-特别适合我们的目的,因为它的效率虎钳内容编码器STRC组件级的Ec,指导和易于收敛。因此,我们采用基于注意力的解码器来生成分量序列,记为Y=y1,y2,...,y T,其中T是组分序列的长度。注意,分量序列的长度是可变的。解码器预测输出一次一个符号地对序列进行排序,直到预测到序列的结束在每个时间步长t,输出yt为,yt=Softmax ( Wo xt+ bo ) ,(1)其中x t是时间步长t处的输出向量。我们更新xt使用门控递归单元(GRU)与隐藏状态st-起为:(xt,st)=GRU((gt,yprev),st-1),(2)其中(gt,yprev)是所述扫视向量的级联gt和前一个输出yt−1的嵌入向量;gt通过注意力机制计算如下:yprev=Embeddingg(yt−1),(3)et= tanh(st−1Ws+yprev Wy+b),(4)LEc在组件级别主动地从Ic分解内容表示这样的学习方案更能处理庞大的汉语范畴,同时又能保持复杂的结构。多构件级判别我们进一步引入了一个风格分类器CLS()和一个风格分类器CRDcomp来进行构件级判别。直观地说,人们在区分不同字体时,自然会更多地关注局部部分/组件,而不是整个形状。因此,我们利用注意图A=α1,α2,...,α T,α tRH×W作为组件区域的标签。为了有效地指导生成过程,我们同时对每幅输入图像进行多分量级判别3.3. 损失函数生成器G旨在合成与真实样品难以区分的真实图像。因此,我们采用基于U-Net的鉴别器[27],其中编码器部分Denc和解码器部分Ddec分别执行每图像和每像素鉴别αt,i = exp(et我)/(exp(ej=1t,j)),(5)因此,生成器现在必须欺骗Denc和Ddec通过对抗性损失:12月欧洲广播公司不i=113486LENCΣΣAdvSSCCOOSyAdvSSCCDecgt=(αt,ihi),(6)i=1其中W,b,W,W和b是可训练参数;hLadv=Ladv+λdecLadv,(9)L=EI∈P,I∈P[logDenc(Is)+log(1−Denc(G(Is,Ic)],L=EI∈P,I∈P<$log[Ddec(Is)]i.j表示输入特征图H中的第i个特征向量。仅使用组件标签作为弱监督,基于注意力的解码器能够定位每个组件i、j+ log(1− [Ddec(G(Is,Ic))]i,j),i、j(十一)(十)我13487··ΣGCAM CAMstystyLΣΣ其中[Ddec()]i,j表示位置(i,j)处的判别输出。我们在实验中将λdec设置为0.1风格匹配损失除了使用结构保持损失来监督结构的正确性(第二节)。3.2),生成的图像还应保持全局和局部风格的一致性。为此,样式分类器CLS()在整个输入上执行样式分类。把形象,以确保全球风格的一致性,随着每-T=4T=5T=6▲免费WiFi+59$㜌吃ы▲Ս“+59$在每个组件的基础上形成该分类以估计局部风格一致性。因此,在计算风格给定时间步t处的2D注意力图αt和参考样式图像Is的对应样式标签w,样式匹配损失被定义为:LCAM=EI∈P−wlog(CLS( F(Is))图3.不同长度的组件序列上的注意力地图可视化。图像下方的符号是预测的组件。当Is也被提供作为内容输入时,即,、Lidt=EIs∈Ps<$I s−G(I s,I s)<$1。(15)这种身份的丧失使训练过程稳定到一定的程度。stys s不-wlog(CLS(αtt=1F(I s)(十二)因为它避免了过度的风格转换。内容损失我们采用内容损失来保证提取的内容表示Xc是风格不变的,表示为:在这里,乘法是指逐元素乘法。注意Lcnt=EI∈P,I∈P<$Xc−Ec(G(Is,Ic))<$.(十六)CLS(·)仅用真实样本Is优化,因此它可以s s c c1引导生成器合成具有与参考图像IS高度相似的字体样式W的图像。相应地,通过最小化以下各项来优化生成器:完全目标最后,我们提出的CG-GAN中的CXD、感知模块CAM和生成器G分别被优化为:L=E−wlog(CLS(F(I,Ic))LD=−Ladv,LCAM=−Lcomp+L+L,styIs∈Ps,Ic∈Pc不S (十三)STRCGsty (十七)LG=Ladv+Lcomp+LstrcGsty+Lidt+λ cntLcnt. ( 十八)−t=1wlog(CLS(α t <$F(G(Is,I c).整个框架以端到端的方式从头开始训练。我们在实验中将λcnt从本质上讲,G强制样式编码器Es对在组件级别上纠缠样式表示,从而使E能够捕获不同的本地样式,同时保持全局样式的一致性。特别是G产生了更强大的样式编码器Es,它可以从任何参考样式样本Is中准确地编码本地样式模式,而无需访问相应的组件标签。此外,还采用了一个CXDcomp来将每个分量补丁分类为真实或虚假,进一步监督Igen在分量级别的视觉逼真度,表示为:Lcomp=EIs∈Ps,Ic∈PclogDcomp( F(Is))4. 实验4.1. 汉字字形生成数据集为了评估我们的方法与中文字体生成任务,我们收集了一个包含423种字体的数据集。我们随机选取399种字体作为训练集(即所见字体),其中每种字体包含800个汉字(即所见字符),可以由385个部件分解。我们在两个测试集上评估了一次性中文字体生成能力:一个是399个可见字体,每个字体有150个不可见字符。另一个是剩下的24种看不见的字体,每种字体有200个看不见的字符。我们-不+ log(1−Dcomp(αt<$F(G(Is,Ic),i=1(十四)通过使用由24种看不见的字体组成的韩语测试集,每个字体200个韩语字符,来评估对看不见的语言字形与最先进的方法比较,我们com-鼓励生成器更加关注所生成的位图图像的局部身份丢失我们另外采用身份丢失来保证生成器G中的身份映射:生成器G能够重建样式参考图像Is使用六种最先进的方法建立模型,包括四种少镜头中文字体生成方法(zi 2 zi [38],EMD [36],LF-font[25],DG-Font [32]),以及+L13488两种无监督的图像到图像转换方法(Cy- cleGAN[37],FUNIT [20])。 为了进行公平的比较,我们使用13489来源:CycleGAN:EMD:zi2zi:FUNIT:DG-Font:LF-Font-8shot:LF-Font-1shot:我们的:目标:资料来源:EMD:FUNIT:DG字体:LF-Font-8shot:LF-Font-1 shot:我们的:目标:资料来源:EMD:FUNIT:DG字体:Ours:参考样式(a) 看得见的样式和看不见的内容。(b) 看不见的样式和看不见的内容。(c) 跨语言字体生成。图4.与最先进的字体生成方法进行比较。Song的字体作为源字体,这是字体生成任务中的常见设置[25,32,36]。由于Cycle-GAN一次只能学习从一个 域 到 另 一 个 域 的 映 射 , 我 们 总 共 训 练 了 399 个CycleGAN模型。如果仅提供一个参考样本,则LF-Font在推断中表现出较低的视觉质量。因此,我们评估其性能,在八杆设置(其原始设置)和一杆设置分别。所有模型都是使用其官方代码从头开始训练的。评估指标我们使用几个指标进行定量评估。首先,SSIM和RMSE被用来衡量像素级的细节是否可以被保留,和较高的SSIM和较低的RMSE表示较少的图像失真的生成图像。其次,采用LPIPS [35]来量化感知相似性;其中较低的LPIPS表示生成的图像更符合人类视觉感知。第三,FID [10]用于衡量模型是否能够匹配目标数据域分布。较低的FID表示生成的图像的较高质量和种类。最后,用户偏好研究进行量化的主观质量的输出im,13490年龄我们从两个中文字体测试集中随机选择了30个可见字体和20个不可见每次,参与者都会看到参考样式图像以及由n种不同方法生成的n个生成样本,并要求他们选择最佳结果。我们总共收集了48名参与者在两种情景下的2,400个响应,分别是看到的风格和看不见的风格。定量结果示于表1中。除LF-Font-eight-shot外,所有报告的结果均在单次设置中进行测试如表1所示,CG-GAN在可见样式和不可见样式的所有评估指标上都实现了最佳性能。特别地,CG-GAN优于先前的最先进技术,在感知级度量和人类视觉偏好两者中具有显著的差距,例如,与第二好的LF-Font-8-shot相比,在可见样式中的FID降低了8.92,在不可见样式中的FID降低了10.87,并且在两种情况下都获得了超过60%的值得注意的是,只有一个镜头,CG-GAN仍然优于第二好的LF-Font- eight-shot,这进一步证明了我们提出的方法的强大生成能力。13491偏好(%)表1.对整个数据集进行定量评价。我们评价方法的可见风格和不可见内容,不可见风格和不可见内容。粗体数字表示最佳。方法SSIM ↑RMSE ↓LPIPS ↓ FI D ↓用户看得见的样式和看不见的内容表2. 与书写者相关的手写生成质量比较。所有四个设置:词汇表中的单词和可见风格(IV-S),词汇表中的单词和不可见风格(IV-U),词汇表外的单词和可见风格(OOV-S),词汇表外的单词和不可见风格(OOV-U)。IV-S IV-U OOV-S OOV-UcycleGAN [37] 0.7092 2010年12月31日FUNIT [20] 0.7269 0.0244 0.2720 57.72 5.24GAN writing [16] 120.07 124.30 125.87 130.68[38]第38话EMD [36]0.76660.75190.02160.02130.22680.253659.7961.293.430.10HWT [2] 106.97108.84109.45 114.10DG-Font [32]0.76970.02120.207941.568.19CG-GAN(我方)102.18110.07104.81 113.018-LF字体[25]0.75350.02230.222715.4613.811-LF字体[25]0.74270.02320.249919.36-表3.与书写者无关的手写生成质量CG-GAN(我们的)0.7703看不见0.0212款式和0.1919看不见的骗局6.54帐篷64.76对比计算FID时忽略编写器标识。定性比较在图4(a)和(b)中,我们提供了可见样式和不可见样式的视觉比较,这直观地解释了CG-GAN在用户偏好研究中的显著差距。对于这两个具有挑战性的情况下,我们的方法生成的图像质量比最先进的,特别是更好地满足风格一致性和结构正确性。循环- GAN和FUNIT经常在不完整的结构中产生结果。EMD经常产生严重的模糊和不清晰的背景。如果目标函数比较复杂,那么子就失去了一些详细的结构。如果只提供一个参考图像,LF-Font的视觉质量DG-Font生成包含特征伪影的字形,可以在突出显示的区域中观察到。如图4(c)所示,我们进一步测试了对不可见组件的泛化能力,即跨语言字体生成。由于更强的表示能力,我们的模型表现出优越的跨语言FFG性能。4.2. 笔迹生成通过将组件级监控与新的框架设计相结合,CG-GAN可以直接应用于手写生成任务而无需任何调整。为了评估这一点,我们在IAM手写数据集上进行实验[23]。IAM数据集由9,862个文本行和62,857个手写单词组成,由500个不同的作者贡献。在我们的实验中,只有训练集和validate集用于模型训练,测试集被分开用于评估。为了进行公平比较,我们在以下两种情况下使用最先进的手写生成方法对我们的方法进行了评估:根据以前的研究[2,16],我们首先评估了与作者相关的场景,其中FID是为每个作者计算的,方法ScrabbleGAN [6]HIGAN [7]HWT [2] CG-GAN(我们的)FID 23.7817.2819.40 19.03其对应的生成样本和真实样本,最后平均所有写入器的FID之和。因此,最终的FID分数评估生成质量,同时,风格模仿能力。我们使用HWT [2]和GANwriting[16]作为我们的基线,它可以使用引用的样式来合成图像。不久,HWT一种基于transformer的方法,可以合成任意长度的文本。GANwriting可以生成不超过10个字母的短单词图像。我们分别在四种不同的环境中评估竞争方法:IV-S,IV-U,OOV-S,OOV-U。如表2所示,我们提出的CG-GAN显示出与现有技术相当的性能。在IV-S、OOV-S和OOV-U三种设置下,我们特别是对于最具挑战性的一个,其中单词和风格在训练期间从未见过(OOV-U),CG-GAN仍然比第二 好 的 HWT 低 1.0 左 右 的 FID 请 注 意 , HWT 和GANwriting都使用15种风格的参考图像进行训练,并且他们提出的结果是在15次拍摄设置中进行测试的,而我们的方法仅在1次拍摄设置下进行训练和测试。我们进一步评估书写者不相关场景,其中在计算FID分数时忽略书写者身份。在这种情况下,我们使用HWT [2],ScrabbleGAN [6]和HiGAN[7]作为我们的基线。简单地说,ScrabbleGAN可以合成具有随机样式的长文本,但不能模仿引用的样式。HiGAN可以合成任意长度的文本,无论是随机的还是引用的样式。如表3所示,我们的方法实现了与最先进技术相当的性能图5中显示了视觉比较。4.3. 消融研究我们进行了多次消融研究,以评估我们提出的CAM在一次性中文字体生成任务上的有效性。测试结果是在看不见的FUNIT [20]0.7074 2019年12月31日3.90EMD [36]0.7373 2019年12月31日0.19DG-Font [32]0.7553 2019年12月31日13.528-LF字体[25]0.7419 28.81美元8.001-LF字体[25]0.7310 2019年12月31日-CG-GAN(我们的)0.7568 2018年12月31日74.3813492表4.基层监督的有效性图5.用于合成手写单词的视觉比较。样式测试数据集。我们将我们的组件级监督与常用的像素级监督和字符级监督进行了比较。通过移除CAM模块并用L1损失替换组件级目标来请注意,像素级监督是使用配对数据进行训练的,配对数据使用与未配对数据设置相同的参考样式图像。通过将组件标签替换为字符标签来实现更高级别的监督以这种方式,在字符级别进行损失 监 督 。 如 表 4 所 示 , 我 们 可 以 看 到 定 量 结 果 在SSIM、RMSE、LPIPS和FID方面明显改善,这证明了我们提出的组件级监督的有效性我们进一步分析了CAM提供的每个组件级监督的影响。首先,我们建立一个基线,重新移动CAM模块,并将其替换为图像级别的样式接下来,我们依次添加多组件级监督的不同部分,并分析其影响,包括结构保持损失、风格匹配损失和组件真实性损失。结果如表5所示,我们可以观察到,我们提出的所有组件级目标函数都是必不可少的,添加每个目标可以进一步改善视觉质量和定量结果。5. 延伸我 们 的 框 架 可 以 进 一 步 扩 展 到 场 景 文 本 编 辑(STE)任务,这是具有挑战性的,由于字体样式,文本形状和背景的大变化。现有的STE方法[30,33]通常分两个阶段完成此任务:首先渲染目标文本内容以获得文本修改的前景,并擦除原始文本以获得文本擦除的背景,最后融合两者以获得所需的目标图像。然而,这两个阶段的方法并没有很好地推广到现实世界的场景表5.安全意识模块的有效性SSIM↑ RMSE↓LPIPS↓ FID↓基线0.7517 0.02250.2251 49.09+Lstrc0.7487 0.02270.2138 22.33+Lstrc+Lsty0.75320.02160.2084 18.67+Lstrc+Lsty+Ldcomp0.75680.02180.2058 17.94文本图像由于背景和前景的相互干扰很强。相比之下,我们的框架放弃了低效的多阶段渲染,并在组件级监督的帮助下解决如图6所示,我们的框架产生了非常有希望的结果,超出了我们的预期,显示了我们提出的方法令人印象深刻的潜力。实施细节见附录A。(a)原始图像(b)编辑文本图像图6.场景文本编辑结果的可视化。(a)以及(b)是具有不同文本内容和长度的原始文本图像和文本编辑图像。6. 结论在本文中,我们提出了一个简单而有效的CG-GAN一次性字体生成。具体来说,我们引入了一个CAM来监督发电机。CAM在更细粒度的级别上分解样式和内容,即:在构件级,引导生成器实现更有前途的表示能力。此外,据我们所知,CG-GAN是第一个FFG方法,可以潜在地扩展到手写单词生成和场景文本编辑,显示其泛化能力。确认本研究得到国家自然科学基金部分资助(批准号:61936003 ) 和 GD-NSF ( No.2017A030312006 ,No.2021A1515011870)。风格CG-GAN(我们的)彼岸GANWriting方法SSIM↑RMSE↓LPIPS↓FID↓像素级0.74790.02230.229851.44字符级0.75290.02230.214233.21组件级0.75680.02180.205817.9413493引用[1] Asha Anoosheh、Eirikur Agustsson、Radu Timofte和Luc Van Gool。ComboGAN:图像域翻译的无限制扩展能力。在CVPRW,第783-790页,2018年。3[2] Ankan Kumar Bhunia , Salman Khan , HishamCholakkal , RaoMuhammadAnwer , FahadShahbaz Khan , and Mubarak Shah. 手 写 变 形 金刚。在ICCV,第1086-1094页,2021年。7[3] Junbum Cha 、 Sanghyuk Chun 、 Gayoung Lee 、Bado Lee、Seonghyeon Kim和Hwalsuk Lee。用双存储器生成少量合成字体在ECCV,第735-751页,2020中。一、二、三[4] Jie Chang , Yujun Gu , Ya Zhang , Yan-FengWang,and CM Innovation.基于层次生成对抗网络的中文笔迹模仿。在BMVC,2018年。3[5] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-Woo Ha , Sunghun Kim , and Jaegul Choo.StarGAN:用于多域图像到图像翻译的统一生成对抗网络。在CVPR中,第8789-8797页3[6] SharonFogel 、 HadarAverbuch-Elor 、 SarelCohen、Shai Mazor和Roee Litman。半监督变长手写文本生成.在CVPR,第4324-4333页,2020年。7[7] 甘骥和王伟强。 HiGAN:手写模仿条件的长度文本和解 开风格。在AAAI,第 7484-7492页,2021中。7[8] Ian J Goodfellow , Jean Pouget-Abadie , MehdiMirza , Bing Xu , David Warde-Farley , SherjilOzair,Aaron Courville,and Yoshua Bengio.生成性对抗 网。在NeurIPS ,第2672-2680页, 2014中。2[9] AlexGraves , SantiagoFerna´ndez ,FaustinoGomez,andJ ür genSchmidhube r.连接主义时间分类:用递归神经网络标记未分割序列数据。在ICML,第369- 376页,2006中。4[10] Martin Heusel , Hubert Ramsauer , Thomas Un-terthiner,Bernhard Nessler,and Sepp Hochreiter.由两个时间尺度更新规则训练的GANs收敛到局部纳什均衡。在NeurIPS,第6626-6637页,2017年。6[11] Xun Huang和Serge Belongie。具有自适应实例归一化的实时任意样式传输。在ICCV,第1501-1510页,2017年。3[12] Yaoxiong Huang ,Mengchao He,Lianwen Jin,and Yongpan Wang. RD-GAN:通过部首分解和渲染的少/零镜头汉字风格转换。在ECCV,第156-172页,2020年。313494[13] Le Hui,Xiang Li,Jiaxin Chen,HongliangHe,and Jian Yang.使用特定领域编码器/解码器的无监督多领域图像在ICPR,第2044-2049页,2018年。3[14] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A Efros.使用条件对抗网络的图像到图像翻译。在CVPR中,第1125-1134页,2017年。2[15] Yue Jiang,Zhouhui Lian,Yingmin Tang,and Jianguo Xiao.DCFont:一个端到端的深度中文字体生成系统。SIGGRAPH Asia技术简报,第1-4页,2017年。3[16] 雷康,保日巴,王亚星,马尔克萨尔·鲁斯·伊纳索尔,艾丽西亚·F·n·e·s和毛里西奥五世等。GANwriting:Content-Conditioned Generationof Styled Handwriter- ten Word Images. 在ECCV,第273-289页,2020年。7[17] Taeksoo Kim,Moonsu 车 Hyunsoo Kim,Jung Kwon Lee,and Jiwon Kim.学习使用生成对抗网络发现跨域关系。在ICML ,第1857-1865页,2017年。2[18] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。见ICLR,2014年。2[19] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。在NeurIPS,第700-708页,2017年。2[20] Ming-Yu Liu , Xun Huang , Arun Mallya ,Tero Karras,Timo Aila,Jaakko Lehtinen,and Jan Kautz.少镜头无监督图像到图像翻译。在ICCV,第10551-10560页,2019年。三、五、七[21] 刘明宇和昂塞尔·图泽尔。耦合生成对抗网络。在NeurIPS,第4692[22] Pengyuan Lyu,Xiang Bai,Cong Yao,ZhenZhu,Tengteng Huang,and Wenyu Liu.自动编码器引导的中国书法合成。 在IC中-DAR,第1095-1100页,2017年。3[23] U-V玛蒂和霍斯特·邦克 IAM数据库: 一个用于脱机手写识别的英文句子数据库。载于ICDAR,第39-46页,2002年。7[24] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本,2014年。2[25] Song Park,Sanghyuk Chun,Junbum Cha,Bado Lee,and Hyunjung Shim.使用本地化样式表示和因子分解生成少量字体。在AAAI,第2393-2402页,202
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功