多个局部化专家的少镜头字体生成

125 浏览量更新于2023-10-14 收藏 1.14MB PDF 举报

字体生成

泛化能力

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13900≈≈多个头总比一个好：多个局部化专家的少镜头字体生成Song Park1 Sanghyuk Chun2，3 Junbum Cha3 Bado Lee3 Hyunjung Shim1*1延世大学综合技术学院2NAVER AI Lab3NAVERCLOVA摘要一种少镜头字体生成（FFG）方法必须满足两个目标：生成的图像应保持吉益幸侯看不见的风格中的几个参考模型没有很高兴见到你中的源图像看到的语言안 녕 하 세 요目标字符的底层全局结构，并呈现多样化的局部引用风格。现有FFG方法旨在通过提取通用表示样式或提取多个组件样式表示来理清内容和样式。然而，先前的方法要么不能捕获不同的本地风格，要么不能捕获不同的本地风格。额外培训中的源图像不能推广到具有看不见的部件的字符，例如，看不见的语言系统为了缓解这一问题，我们提出了一种新的FFG方法，命名为多个本地化专家少镜头字体生成网络（MX-Font）。MX-Font提取多个样式特征，这些样式特征不明确地以组件标签为条件，而是由多个专家自动地表示不同的局部概念，例如，左侧子字形。由于多个专家，MX-Font可以捕获不同的本地概念，并显示对未知语言的泛化能力。在培训过程中，我们利用组件标签作为弱监督，以指导每个expert专门针对不同的本地概念。将构件分配问题转化为图匹配问题，用Hungar算法求解。我们还使用独立性损失和内容风格对抗性损失来施加内容风格解缠。在我们的实验中，MX-Font在中文生成和跨语言中优于先前最先进的FFG方法，例如，从中国人到韩国人，一代。源代码可以在https：//github上找到。com/clovaai/mxfont。1. 介绍少量字体生成任务（FFG）[35，45，9，34，4，5，31]旨在仅使用少量参考字形生成新的字体库，例如少于10个字形图像，在测试时无需额外的模型微调FFG是espe-*Hyunjung Shim是通讯作者。图1.MX-Font的跨语言少量字体生成结果。本文提出的方法MX-Font仅需4篇参考文献，就能生成高质量的字库。此外，我们首先展示了所提出的方法在零镜头跨语言少镜头生成任务上的有效性，即，使用所述中文字体生成模型来生成看不见的韩语字形。这在设计用于富字形脚本的新字体库时通常是一个理想的任务，例如，中文（>50K字形）、韩语（11K字形）或泰语（11K字形）。这是因为传统的字体设计过程是非常劳动密集型由于字体领域的复杂特性。FFG的另一个现实场景是将现有的字体设计扩展到不同的语言系统。例如，国际多媒体内容（诸如用创造性字体设计的视频游戏或电影）需要针对不同语言重新设计连贯风格的字体。高质量的字体设计必须满足两个目标。首先，生成的字形应该保持目标字符的所有详细结构，特别是重要的字形丰富的脚本具有高度复杂的结构。例如，即使对中文字形的局部组件的非常小的损坏也会损害目标字符的含义。作为另一个目标，生成的字形应该具有参考字形的不同局部风格，衬线、笔画、粗细或大小。为了实现这两个目标，现有方法通过从给定字形中解开内容信息和样式信息来制定FFG [35，45，9，4，31]。它们结合了源字形的内容特征和引用字形的样式特征。用我们的方法在可见语言中生成图像隐形语言用我们的方法在看不见的语言中生成图像13901仕仕仕EsEs吉侯fs吉侯士 fs(士)吉侯fs，1Refs仕源生成FC{亻,士}参考，标签仕{亻,士}来源，标签亻 fs（）fc(士)亻 fc（）生成Refs仕源fs，6fc，1fc，6生成(a) 通用样式表示(b) 成分制约的(c) 多个本地化专家（我们的，k=6）图2. FFG方法的比较。示出了FFG的三个不同组。所有方法通过样式编码器（Es）组合来自几个参考字形（Refs）的样式表示fs和通过内容编码器（Ec）组合来自源字形（Source）的内容表示fc。(a)通用样式表示方法仅为每种字体提取单个样式特征。(b)组件条件的方法提取组件条件的风格特征，以捕获不同的本地风格（c）多本地化专家方法（我们的）生成多个本地特征，没有一个明确的条件，但参加了复杂的输入字形的不同的本地信息。（a），（b）和（c）中生成的图像分别由AGIS-Net [9]，LF-Font [31]和MX-Font合成。使用轮廓生成具有参考样式的轮廓。由于字体域的复杂性，MA- FFG的一个主要挑战是正确地理清全球内容结构和多样化的本地风格。然而，在我们的实验中所示，我们观察到，现有的方法是不够的，以捕捉不同的本地风格或保存全球结构看不见的语言系统。我们将现有的 FFG方法分为通用风格表示方法（USR）[35，45，28，9]和组件条件方法（CC）[4，31]。USR方法仅为每个样式提取单个样式表示由于字形图像是高度复杂的，这些方法往往无法捕捉不同的本地风格。为了解决这个问题，CC方法利用了组合性;一个字符可以分解成许多子字符或组件它们显式地提取组件条件特征，有利于保留局部组件信息。尽管它们有希望的性能，但它们的编码器与目标语言域的特定组件标签紧密耦合，这阻碍了处理具有看不见的组件的字形或进行跨语言字体生成。本文提出了一种新的少镜头字体生成方法，称为多个局部化eX perts少镜头字体生成网络（MX-Font），它可以捕获多个局部风格，但不限于特定的语言系统。MX-Font有一个多头编码器，命名为多个本地化专家。每个本地化专家专门用于来自给定复杂字形图像的不同局部子概念。与组件条件化方法不同，我们的专家没有明确地映射到特定的组件，而是通过弱监督隐式地学习不同的局部概念。组件和样式分类器。为了防止不同的专家学习相同的本地组件，我们将组件标签分配问题表述为匹配问题，通过Hungar算法[23]（图4）进行优化解决。我们还使用独立损失和内容风格对抗损失来强制每个本地化的内容风格解纠缠专家有趣的是，只有弱组件明智的监督（即）。图像级而不是像素级标签），我们观察到每个局部化专家专门用于不同局部区域，例如，注意图像的左侧（图7）。虽然我们通过引入多个局部特征继承了组件条件方法[4，31]的优点，但我们的方法通过在提取特征时去除显式组件依赖性而不限于特定因此，MX-Font在两种情况下优于最先进的FFG：在同一语言上训练和测试的域内迁移场景，以及在不同语言上训练和测试的零触发跨语言迁移场景。我们的消融和模型分析支持，所提出的模块和优化目标是重要的，以捕捉多个不同的本地概念。2. 相关作品风格转换和图像到图像的翻译。FFG可以被看作是一个将参考字体样式转换为目标字形的任务。然而，风格转换方法[11，16，25，29，26，39]将纹理视为风格，而在FFG中，风格通常由局部形状定义，例如，笔划、大小或衬线。另一方面，图像到图像转换（I2I）方法[18，48，6，27，40，7]从数据中学习域之间的映射，而不是定义样式。例如，FUNIT [28]旨在将图像转换为给定的参考样式，同时保留内容。因此，许多FFG方法基于I2I框架。多镜头字体生成方法。早期的字体生成方法，如zi2zi[36]，旨在训练不同字体风格之间的映射。许多字体生成方法[19，10，17，37]首先学习映射函数，并为许多参考字形微调映射函数，例如。775 [19]。尽管它们有着显著的性能，但它们的方案并不实用，因为收集具有连贯风格的数百个字形太昂贵了。在本文中，我们的目标是生成一个看不见的字体库，没有任何昂贵的微调和收集大量的参考字形的新风格。EcEcEcEs士13902f1，1，s~fn，sn，~f1，1，s~fn，sn，~~~∈--∈˜˜˜~~~~fs，1f1FFs，1Fs，kc加入1风格特征样式s ~的样式concatfs，kG图像fk多个本地化本地Ffc，1fc，kfc~，1fc，k~c和k发生器生成的图像具有s~，c~专家特征内容特征字符c ~的内容fs~，kfs~，1杨永E1图3.MX-Font概述。多个本地化专家（绿框）由k个专家组成。Ei（第i个专家）将输入图像编码为局部特征fi。从fi计算样式和内容特征fs，i、fc，i。黄色框显示生成器G如何生成目标图像。当给出表示目标样式s的k个样式特征和表示目标样式c的k个内容特征时，通过将按元素级联的样式和内容特征传递到G.少镜头字体生成方法。现有的FFG方法旨在从给定的字形中解开特定于字体的样式和内容信息[45，34，1，9，35，24]。我们将现有的FFG方法分为两个不同的组。通用样式表示（USR）方法，诸如EMD [45]、AGIS-Net [9]，通过组合从参考集提取的样式向量和从源字形提取的内容向量来合成字形。MX-Font采用多种样式，不依赖于字体特定的损失设计，例如局部纹理细化损失。USR方法在捕获本地化样式和内容结构方面表现出有限的性能。为了解决这个问题，诸如DM-Font [4]、LF-Font [31]的组件调节方法通过采用本地化样式表示来显著提高风格化性能，其中字体样式被描述为多个本地化样式而不是单个通用样式。但是，即使在测试时，这些方法也需要此属性限制了跨语言字体生成等实际用途。我们的方法继承了组件引导的多样式表示的优点，但在测试时不需要显式的标签。3. 方法本文提出了一种新的少镜头字体生成方法--多本地化专家少镜头字体生成网络（MX-Font）。MX-Font有一个多头编码器（多个本地化专家），其中第i个头（或专家E i）将字形图像x编码为本地特征fi= E i（x）（§ 3.1）。我们诱导每个专家E i参与不同的局部概念，由给定字符c的一组组件标签U c引导（§ 3.2）。从fi，我们计算局部内容和风格特征fc，i，fs，i（§3.3）。我们通过组合分别来自源字形和参考字形的专家级特征fc，i和fs，i来生成具有字符标签c和样式标签s的字形x。（§3.5）。3.1. 模型架构我们的方法包括三个模块; 1）k-头编码器或本地化专家E i，2）生成器G，以及3）样式以及分量特征分类器Cls和Clu。我们在图3和图5中说明了我们的方法的概述。我们在附录中提供了构建模块的详细信息图3中的绿色框显示了多个本地化专家的工作方式。本地化专家E i将字形图像x编码为本地特征fi=E i（x）Rd×w×h，其中d是特征维度，w、h是空间维度。通过将两个线性权重Wi，c，Wi，sRd×d乘以fi，计算出局部内容特征fc，i=Wi，cfi和局部风格特征fs，i=Wi，sfi。这里，我们的局部化专家不受分量标签的监督以获得k个局部特征f1，. . . 我们的局部特征不是特定于组件的特征。如果没有指定，我们在我们的实验中将本地化专家的数量k设置为6我们采用两个特征分类器Cls和Cls u来监督fs ，i和fc，i，它们作为fi的弱监督。分类器被训练以预测样式（或组件）标签，从而Ei从Cls，i和Cls，i接收应该保留标签信息的Cls，i和Cls，i的反馈。这些分类器仅在训练期间使用，但独立于模型推理本身。按照前面的方法[4，31]，我们使用字体库标签作为样式标签y s，使用组件标签U c作为内容标签yc。组件标签的示例在图4中示出。采用LF-Font [31]使用的相同分解规则虽然以前的方法只使用样式（或内容）分类器来训练样式（或内容），但我们还通过引入内容样式对抗性损失来利用它们进行内容和样式解纠缠。生成器G通过组合内容和样式特征来合成字形图像x：x=G（（fs ， 1◦f c ， 1），. . . ，（f s ，k◦ f c ，k）），其中◦表示级联。3.2. 学习多个本地化专家与弱本地组件监督我们的直觉是，提取不同的局部特征可以帮助每个局部特征表示复杂字形图像中详细的局部结构和细粒度的局部风格。我们利用字体域的组合性来继承组件条件化的优点13903KΣΣΣΣLΣ1Mij}|i=1c i=1j∈Uu1 亻u2 人u3 一u4口具体而言，我们将组件分配问题表述为加权二分B匹配问题，该问题可以通过匈牙利算法[23]进行最佳求解。从给定的字形图像x，每个专家Ei提取内容特征fc，i。然后，分量特征分类器Clsu将fc，i作为输入，并产生预测概率pi=Clsu（fc ，i），其中pi=[pi，0，. . . ，p_i_m]，并且p_i_j是分量j的置信度标量值。设U c={u c，. . . ，u，c}是所述元素的一组分量标签。pertsk是三（E1，E2，E3），并且目标组件标签的数量m是四（u1，. . . 、u4）。专家Ei和组件uj之间的边缘意味着使用组件分类器Clsu由E i对u j的预测概率。我们的目标是找到最大化预测之和的一组边，其中在该示例中，所选边的数量的上限为max（k，m）=4。红色边缘说明了最佳解决方案。方法[4，31]。同时，我们有意地去除了特征提取器的显式组件依赖，以实现泛化，这是previ的弱点。给定字符c，m是组件的数量我们引入一个分配变量wi j，其中如果组件j被分配给Ei，则w i j = 1，否则wi j=0。我们优化b i n变量wi j以最大化所选择的预测概率上的总和，使得总分配的数量为max（k，m）。现在，我们将组件分配问题公式化为：w∈{0，1max…k，j∈UΣ Σwijpij，CK方法。在这里，我们采用了一个多头特征提取器，命名为多个本地化的专家，其中每个专家可以专门用于不同的本地概念。一个天真的人S.T.wiji=1Kj，wij≥1j∈Uci≥1，（一）解决方案是利用明确的本地监督，即，像素-每个子字形的级别注释，由于昂贵的注释成本而无法获得。作为替代方案，一个强大的wiji=1j∈Uc= max（k，m），机器注释器可以被用来获得局部超视觉[41]，但是训练一个强大的模型，例如具有300M图像的自训练的EfficientNet L2 [38]，对于字体域是另一个超出我们范围的挑战。利用组合性，我们得到了给定字形图像的弱组件级标签，即图像具有什么分量，但不知道它们在哪里，类似于多实例学习SCENARIO [30，47]。然后，我们让每个专家参加不同的局部概念，指导每个专家的组件和风格分类。理想地，当分量的数量m与专家的数量k相同时，我们期望专家的k个当k m时，通过考虑前k个预测，我们期望每个专家的预测是为了可视化每个专家的角色，我们在图4中展示了一个示例。假设有三个多专家，他们可以分别学习不同的局部概念，例如左侧（蓝色）、右下侧（绿色）和右上侧（黄色）。给定由四个组件组成的字形，来自每个专家的特征可以预测一个（E1，E2）或两个（E3）标签，如图所示。因为我们不希望专家被显式地分配给组件标签，例如，strictly mapping其中（1）可以转化为加权二分B匹配（WBM）问题，并且可以用匈牙利算法在多项式时间 O（（m+k）3）内求解。我们在附录中描述了（1）和WBM之间的联系。现在，使用（1）中的估计变量w，j，我们用交叉熵损失（CE）优化辅助分量分类损失cls，c，如下：Lcls，c，i（fc，i，Uc）=wijCE（Clsu（fc，i），j）。（二）j∈Uc在这里，我们希望每个本地化专家都是专门针对特定本地概念的，以便促进内容风格的分解。因为来自（2）的反馈鼓励将局部特征更好地分离为风格和内容特征，所以我们期望每个专家自动地关注局部概念。我们凭经验观察到，每个专家都涉及不同的局部区域，而没有明确的像素级监督（图7）。我们还通过Hilbert-Schmidt Independence Crition [13]制定了每个专家之间的独立性，该标准已在实践中用于统计测试[13，14]，特征相似性测量[22]和模型正则化[32，42，2]。当且仅当两个输入彼此独立时，HSIC为零。由于HSIC是非负的，因此可以通过最小化HSIC来实现独立性准则。在这种情况下，我们使用HSIC和E1E2E3佮 = {亻, 人, 一, 口}图4.本地化专家的示例。前数13904LLLΣLLLsr，i重新发送样式表示，即，fsr，i=nrj=1fsr，i，对于DAdv风格特征fc，1fc，k内容特征ys样式标签均匀（上当了）均匀（上当了）已分配组件c标签mini-batch，其中n个字形共享相同的内容标签（来自随机样式），并且n个字形共享相同的样式标签（来自随机内容）。然后，我们让模型生成一个具有内容标签yc和样式标签ys的字形。在我们的实验中，我们设置n=3，并行合成8个不同的字形，即小批量大小为24。图5. 特征分类器。在训练期间使用两个特征分类器Cls和Clsu。 Cls将样式特征分类到它们的样式标签ys，而Clsu从它们预测均匀概率。类似地，Clsu将内容特征分类到它们的分配的组件标签yu，而Clss被它们愚弄。详情见§ 3.2和§ 3.3。使由Ei提取的局部特征fi独立于其他局部特征fi’如下：K我们采用鉴别器模块D和生成对抗损失[12]来实现高质量的视觉样本。特别是，我们使用铰链生成对抗损失adv[43]，特征匹配损失fm和像素级重建损失recon，遵循先前的高保真GAN，例如， BigGAN [3]和最先进的字体生成方法，例如DM-Font [4]或LF-Font [31]。每个目标函数的详细信息见附录。现在我们描述完整的目标函数。整个模型以端到端的方式进行训练，其中加权Lindp exp，i=ΣHSIC（fi，fi′）.（三）所有损失的总和，包括（3）、（4）、（5）和（6）。i′=1，i′=iLD=LadvK， LG=LG+λreconLrecon+Lfm（七）详细的HSIC公式载于附录。3.3. 内容与风格的分离Lexp =[Li=1年代我+Lc，i+Lindp，i+Lindp exp，i]为了实现内容和风格的完美分离，风格（或内容）特征应该包含风格（或内容）域信息，而不包含内容（或风格）域信息。为此，我们采用了两个目标函数：内容风格的对抗性损失和独立损失。由do-main对抗网络[8]激发的内容风格对抗损失强制提取的风格（或内容）特征对于分类内容（或风格）是无用的因此，样式特征fs，i被训练以满足（1）由样式分类器Cls以交叉熵损失（CE）正确地分类样式标签ys，以及（2）欺骗内容作为常规的GAN训练，我们交替地更新D、G和G。exp.在我们的实验中，控制参数λrecon被设置为0.1。我们使用Adam优化器[21]，并运行优化器进行650k次迭代。我们还提供详细的培训设置见附录。3.5.少激发世代当给定源字形和几个参考字形时，MX-Font从源字形中提取内容特征，从参考字形中提取样式特征。假设我们有n，r个参考字形 . . ，xr具有连贯的风格。首先，我们的多...由分量分类器Cls预测的标签u。专属性最后，我们将预测概率的熵（H）最大化。专家{E1，. . . ，Ek}提取局部化样式特征能够执行统一预测。形式上，我们定义1sr，i ，的。. . ，f nr]，其中i = 1。. . k从参考字形。我们针对风格特征fs，i的目标函数如下：然后，我们对局部特征取平均值以表示-1ΣnrjLs，i（fs，i，ys）= CE（Cls s（fs，i），ys）− H（Cls u（fs，i））. （四）我们通过下式定义内容特征fc，i（Lc，i）的损失：Lcls，c，i（2）代替y，c的CE，如下：Lc，i（f c，i，U c）=Lcls，c，i（f c，i，U c）−H（Cls（f c，i））. （五）我们还在内容和风格局部特征fc，i和fs，i之间使用HSIC来解开内容和风格：Lindp，i= HSIC（fs，i，fc，i）。（六）3.4. 培训我们训练我们的模型，使用中文字体数据集（详见第4.2节）从给定的内容和样式标签合成字形图像。更具体地说，我们构建一个fs，1fs，kCLSSCLSU[fy13905i=1。. . K.最后，将样式表示与从已知源字形提取的内容表示组合以生成未看见的样式字形。4. 实验在本节中，我们描述了评估方案和实验设置。我们将以前的FFG基准扩展到看不见的语言领域，以衡量模型的泛化能力。在扩展的FFG基准上，通过定性和定量评价，将MX-Font与四种FFG方法进行了比较。实验结果表明，MX-Font在大多数评价指标上优于现有方法消融和分析研究有助于理解我们的多位专家和目标函数的作用和效果。13906× ××4.1. 比较方法通用的风格表示方法。EMD [45]采用内容和样式编码器，从一些参考字形中提取通用内容和样式特征。AGIS- Net[9]提出了局部纹理细化损失来处理正负样本数量之间的不平衡。FUNIT[28]没有直接提出用于FFG任务，但我们采用FUNIT的修改版本作为我们之前工作[4，31]的比较方法。组件条件方法。DM-Font [4]学习由显式组件标签调节的两个嵌入码本（或双存储器）。当目标字符包含在训练期间看不见或不在参考集中的组件由于这些缺点是不可能被修复只有轻微的修改，我们不比较DM-Font MX字体。LF-Font[31]通过因子分解模块估计缺失的组件特征来放松DM-Font的限制虽然LF-Font仍然不适用于生成具有不可见组件的字符，但我们对LF-Font进行了轻微修改（如附录中所述），并将修改后的版本与其他方法进行了比较。4.2. 评估协议为了展示对看不见的语言系统的泛化能力，我们提出了一个扩展的FFG场景;在一个语言系统上训练FFG模型，并在另一个在本文中，我们首先在中文字体数据集上训练FFG模型，并在中文生成（域内传输场景）和韩语生成（零次跨语言场景）上对其进行评估。数据集。我们使用Park等人收集的相同的中文字体数据集。[31]训练。该数据集包含310万个汉字图像，467种不同的风格，覆盖了19，514个字符我们还使用了与Park等人相同的分解规则。[31]以提取组件标签。我们从训练集中筛选出28种字体和214个汉字，并将它们用于评估。对于韩国FFG评估，我们使用与Cha等人相同的测试字符。[4]，245个字符。综上所述，我们使用28种字体风格的214个中文和245个韩文字符的方法进行评估评估指标。由于字体域的样式由局部细粒度形状定义，笔画、大小或衬线度，用统一的度量来测量视觉质量是一个具有挑战性的问题。一个典型的挑战是字体样式的多样性;因为字体样式是局部定义的，所以可以有多个合理的字形满足我们的目标。然而，我们在测试数据集中只有一个此外，对于具有中文引用的韩语生成任务，我们甚至没有具有引用样式的“地面实况”韩语字形。因此，我们需要采用不需要地面实况的评估度量，并且可以评估评估结果的合理性给定样本。因此，我们使用四种不同的评价指标来衡量在各种观点的视觉质量根据以前的工作[4，31]，我们训练字符标签（内容感知）和字体标签（风格感知）的评估分类器。请注意，这些分类器仅用于评估，并单独训练FFG模型。我们训练了三个分类器，中文测试字体的风格分类器和内容分类器，韩国测试字符的内容评估分类器的详细信息见附录。我们衡量的分类准确性的风格和内容标签。我们还报告了当两个分类器都被正确预测时的准确性。我们进行了用户研究量化的主观质量。参与者被要求选择三个最好的结果，考虑风格，内容，以及最首选的考虑风格和内容。所有28个测试风格的10个字符显示给参与者。对于每种测试风格，我们分别向用户展示中文和韩文样本即，参与者挑选28 3 2= 168个结果。我们收集了来自57名母语为韩语的人的回答，这些人受过高等教育，懂汉字。用户研究样本见附录。我们还报告了LPIPS [44]，以测量生成的图像与其相应的地面实况图像之间的差异。生成的图像和真实图像之间的频率起始距离（FID）[15]由风格和内容分类器计算，并报告其详情载于附录。4.3. 实验结果定量评价。表1显示了MX-Font和竞争对手的FFG性能。所报告的值是50个不同实验的平均值，其中每个样式的四个参考图像用于每个实验中的字体生成在表中，我们观察到MX-Font在域内传输场景和零次跨语言生成场景中均优于其他方法特别是，MX-Font在跨语言任务中显著优于其他方法在域内传输的情况下，我们的分类精度和用户研究超过别人。我们观察到MX-Font在中国FID中的表现比其他人差，其中FID已知对噪声或模糊图像敏感，而不考虑图像质量本身[33]。我们的方法显示出显着更好的性能，在更可靠的评估，用户学习的所有标准。定性评价。我们在图6中说明了生成的样本。我们显示四个参考图像，以提取顶行中的每个样式，以及第二行中的源图像，其中每个源图像用于提取内容。在图6中的绿色框中，我们观察到AGIS-Net经常无法精确地反映参考样式和生成局部细节。FUNIT通常表现出与13907加速（S）% 累积（C）% 访问（B）%用户（S）% 用户（C）% 用户（B）%LPIPS ↓FID（H）↓EMD（CVPRAGIS-Net（TOGFUNIT（ICCVLF-Font（AAAIMX-Font（拟议）78.9 99.5 78.7 34.531.835.20.120 21.8EMD（CVPRAGIS-Net（TOGFUNIT（ICCV '19）11.3 66.4 6.6 12.0 17.3 9.1 - 176.0LF-Font（AAAIMX-Font（拟议）66.3 75.9 50.0 74.6 81.3 89.2-84.1表1. 在少镜头字体生成场景下的性能比较。五少拍字体生成方法与四个参考图像的性能进行了比较。我们报告了由风格感知（Acc（S））和内容感知（Acc（C））分类器测量的准确性以及考虑风格和内容标签（Acc（B））的准确性还报告了用户研究的总结结果示出了关于考虑风格（用户（S））、内容（用户（C））、它们两者（用户（B））的用户偏好LPIPS示出了地面实况和所生成的字形之间的感知还报告了样式感知和内容感知FID的调和平均值（H）。注意，在两个FFG场景中，FID的计算方式不同所有数字均为使用不同参考字形的50次运行的平均值参考源EMDAGIS-NetFUNITLF字体我们GT图6. 生成的样品。示出了由五个不同模型生成的图像。我们还在顶部两行中提供了用于生成的参考图像可用的地面实况图像（GT）在底行中示出我们用彩色框突出显示了揭示每个模型缺点的示例;绿色为AGIS-Net，红色为FUNIT，黄色为LF-Font。AGIS-Net，而FUNIT经常在目标字形和源字形具有显著不同的结构时产生破碎的字形（红框）。乍一看，LF-Font似乎很好地捕捉了详细的本地样式。但是，它经常会遗漏重要的细节局部组件，如点和笔划，如黄色框所示与其他方法相比，MX-Font在内容和风格上都合成了更好的细节结构，这是因为它具有很强的代表性。图7. 每个本地化的专家参加不同的本地区域。示出了每个专家的类激活图（CAM）的方差。较亮的区域指示较大的值。k累积（S）↑累积（C）↑累积（B）↑LPIPS↓跨语言场景。然而，MX-Font保留了详细的本地风格和内容，并始终生成合理和可识别的图像。视觉质量上如此明显的差距解释了MX-Font在用户研究中的巨大性能飞跃。678.999.578.70.120875.599.575.2表2.专家数量的影响K。在域内汉语迁移基准测试中，对不同头数的模型进行了比较。对于所有实验，我们使用k=6CN−→ CNCN−→ KR当地专业专家的能力。的优点172.298.771.40.133MX-Font在跨语言FFG中突出显示所有前-279.099.378.50.128安装模型通常会生成无法识别的字符478.399.578.00.12513908≈加速度（S）↑加速度（C）↑加速度（B）↑LPIPS↓我们的（Clsu）78.999.578.70.120我们的（Clsc）94.80.040.040.214图8. 生成具有不同头数（k）的模型样本。示出了我们突出显示了出现在由单专家模型生成的图像中的红色虚线圆圈中的缺陷表3. 将构件分类器和字符分类器作为弱监督分类器进行比较。我们比较了两个辅助分类器作为内容监督。Ours（Clsu）表示使用组件分类器的MX字体，Ours（Clsc）表示将组件分类器替换为字符分类器的模型。Lindp，iHc，sLc，sAcc（S）Acc（C）Acc（B）✔59.0 95.9 56.8✓电话： +86-510- 8888888传真：+86-510 - 8888888从不同的专家那里学到了当地的概念。我们通过可视化每个专家参加的地方来显示每个专家学习的本地概念。我们在每个局部特征上使用分量分类器Cls u提取训练样本的类激活图（CAM）[46]。然后，我们在图7中可视化CAM的方差。在图7中，具有比周围明亮的强度的区域指示每个专家更加关注的区域。有趣的是，在没有任何明确的像素级注释的情况下，我们的本地化专家关注图像的不同局部区域这些映射支持MX-Font的每个专家倾向于覆盖输入图像的不同局部区域总之，这些实验研究表明，多个本地化的专家捕捉不同的局部区域的输入图像，因为我们打算，并采用多个本地化的专家，帮助我们提高质量的生成的图像，通过保留局部细节的风格-内容解开。多个专家与单一专家我们比较的perfor- mances的单专家模型（k = 1）与我们的多个专家模型（k=6）在基准域中的传输场景。结果示于表2和图8中。我们观察到多头模型比单头模型表现得更好。我们还观察到单头模型生成的图像不能很好地保留局部结构，例如：重要的笔划丢失，而多头模型很好地捕捉了局部细节。关于不同k的更多分析见附录。角色与件. 我们将组件监督（多个图像级子概念）替换为字符监督（单个图像级标签）。表3显示了利用字符监督会导致模式崩溃。我们推测两个原因导致崩溃，（1）字符的数量（19k）太大而无法学习，而组件的数量却相当小（371），以及(2)我们的最佳分配问题防止专家陷入相同的值，而字符监督模型没有学习不同概念的限制。表4. 损失函数的影响。我们比较模型通过ablat- ing提出的目标函数训练和测试的韩国手写数据集。结果表明，内容型对抗损失Lc，s、最大熵项Hc，s和独立损失Lindp，i都是重要的成分.消融损失。在表4中，我们通过在韩国手写数据集上训练和测试的模型研究了损失函数设计的效果（详见附录）。结果表明，所提出的风格-内容解缠损失函数对解缠效果都是有效的。5. 结论提出了一种新的少镜头字体生成方法，即MX-Font。我们的目标是实现对局部细节的丰富表示和对看不见的组件和语言的概括。为此，MX-Font采用多头编码器，通过弱局部组件监督进行训练，即。风格和内容特征分类器。基于这些特征分类器和本地化专家之间的交互，MX-Font通过开发本地化特征来学习成功地解开风格和内容。最后，该模型生成的似然字体图像既保留了参考图像的局部细节风格，又保留了源图像的精确特征。实验结果表明，MX-Font在域内迁移场景和零镜头跨语言迁移场景中的性能优于现有方法，尤其是在跨语言迁移场景中性能有较大的确认NAVER智能机器学习[20]用于实验。本研究得到了MSIT 资助的 NRF Ko- rea （ NRF-2019 R1 A2C2006123）、MSIT资助的IITP资助（2020-0-01361，YONSEI University，2020-0-01336）和韩国医疗器械开发基金资助（项目编号：202011 D 06）的支持。来源我们的（k=1）我们的（k=6）✘✘✔51.695.549.4✘✘✘27.889.124.74.4. 分析LF-Font [31]38.595.236.513909引用[1] Samaneh Azadi ， Matthew Fisher ， Vladimir G Kim ，Zhaowen Wang，Eli Shechtman，and Trevor Darrell.多内容甘为少数拍摄字体风格转移。在IEEE Conf. Comput.目视模式识别，2018年。三个[2] Hyojin Bahng、Sanghyuk Chun、Sangdoo Yun、JaegulChoo和Seong Joon Oh。用有偏表示学习去偏表示在ICML，2020。四个[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。五个[4] Junbum Cha 、 Sanghyuk Chun 、 Gayoung Lee 、 BadoLee、Seonghyeon Kim和Hwalsuk Lee。少杆合成字体生成与双内存。以Eur. Conf. 计算机。目视，2020年。一、二、三、四、五、六[5] Junbum Cha 、 Sanghyuk Chun 、 Gayoung Lee 、 BadoLee、Seonghyeon Kim和Hwalsuk Lee。使用双内存实现高质量的少量字体生成。IEEE会议Comput. 目视模式识别Worksh. ，2020年。一个[6] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. StarGAN：用于多域图像到图像翻译的统一生成对抗网络在CVPR，2018年。二个[7] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.StarGAN v2：多领域的多样化图像合成在CVPR，2020年。二个[8] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志，17（1）：2096-2030，2016。五个[9] 高月，郭元，连周辉，唐英民，肖建国.经由一阶段少镜头学习的艺术字形图像合成。ACM事务处理图表，2019年。一、二、三、六[10] 高一鸣和吴江琴。基于骨架变换和笔划绘制的gan不成对汉字图像翻译。在AAAI人工智能集，2020。二个[11] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR，2016年。二个[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，2014年。五个[13] ArthurGretton ， Olivier Bousquet ， Alex Smola ， andBernhard Scho¨ l k opf. 用Hilbert-Schmidt范数度量统计相关性算法学习理论国际会议，第63-77页。Springer，2005年。四个[14] Arthur Gretton ， Kenji Fukumizu ， Choon H Teo ， LeSong，BernhardSc ho¨ l k opf，andAl e xJSmola. 独立性的Kernel统计神经信息处理系统的进展，第585-592页，2008年。四个[15] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部Nash方程。13910利玛窦在神经信息处理系统，2017年。六个[16] Xun Huang和Serge J Belongie.实时任意样式传输，具有自适应实例规范化。InICCV，2017. 二个[17] Yaoxiong Huang ， Mengchao He ， Lianwen Jin ， andYongpan Wang.Rd-gan：通过部首分解和渲染实现少量/零次汉字风格转换。在ECCV，2020年。2[18] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA E

下载后可阅读完整内容，剩余1页未读，立即下载