基于形状匹配GAN的艺术文本风格转换方法

13 浏览量更新于2023-10-12 收藏 1.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4442易读性艺术性增加变形程度基于形状匹配GAN的杨帅1，2，王章阳2，王兆文3，徐宁3，刘嘉颖1，郭宗明1，北京大学2德州农工大学3Adobe Research（a）源图像（b）可调风格化程度（c）风格化文本（d）应用(e)液体艺术文本渲染（f）烟雾艺术文本渲染图1：我们提出了一个新的风格转换框架，用于以可控制比例的方式从源风格图像中渲染艺术文本我们的框架允许用户（b）调整广告的风格程度（即，变形程度），并因此（c）选择对于易读性和风格一致性两者都最理想的艺术文本。生成的多样化艺术文本将方便用户设计（d）精美的海报和（e）（f）动态排版。摘要艺术文本风格迁移的任务是迁移样式从源图像到目标文本，以创建艺术排版。最近的风格转换方法考虑了纹理控制，以提高可用性。然而，在形状变形方面控制风格化程度仍然是一个重要的开放性挑战。在本文中，我们提出了第一个文本风格传输网络，允许通过可调参数的关键风格程度的实时控制的广告。我们的主要贡献是一个新的双向形状匹配框架，以建立一个有效的字形风格的映射在各种变形水平没有配对的地面真相。基于这一思想，我们提出了一个规模可控的模块，使一个单一的网络不断表征风格图像的多尺度形状特征，并将这些特征转移到目标文本。所提出的方法证明了其优越性超过以前的国家的最先进的产生不同的，*通讯作者这项工作是在杨帅在天津医科大学做访问生时完成的可控和高质量的程式化文本。1. 介绍艺术文本风格转换是指将文本呈现为参考图像所指定的风格，这在海报和广告设计等视觉创作任务根据参考图像，可以通过类比现有的精心设计的文本效果[28]或通过模仿更一般的自由形式样式图像的视觉特征[30]来风格化文本：后者提供了更多的灵活性和创造性。以一般的风格意象为参照，由于文本与自然意象有着显著的区别，而且比自然意象更具有结构性，因此在文本的风格化过程中，更应关注其笔画形态。例如，人们需要操纵一个火焰的风格程度或形状变形，以类似于图1中的风格主题火焰。第1段（b）分段。同时，需要保持可识别性，以便风格化文本仍然是可识别的。这种微妙的平衡是主观的，很难自动达到。因此4443一个实用的工具，让用户控制的风格程度的广告，是非常有价值的。此外，由于用户倾向于在获得期望的效果之前尝试各种设置，因此对在线调整的实时响应是重要的。在文献中，一些努力已经致力于广告装饰快速规模可控的风格转移。他们训练了快速前馈网络，主要关注纹理的规模，如纹理强度[2]或纹理图案的大小[17]。据我们所知，目前还没有研究讨论对文本样式转换至关重要的文本格式的实时控制鉴于此，本文提出了一个新的问题，即如何从单一风格图像中快速可控地进行艺术文本风格转换。我们的目标是实时调整的风格程度的形状变形方面的广告。它可以让用户浏览不同形式的渲染文本，并选择最需要的一个，如图所示。1（b）（c）。快速可控的艺术文本风格转换的挑战在于两个方面。一方面，与可以由超参数直接建模的诸如纹理强度的明确定义的尺度相比，纹理变形程度是主观的，既不明确定义也不容易参数化。另一方面，不存在一个大规模的成对训练集，源文本图像和相应的结果在不同程度上风格化（变形）。通常，只有一个参考图像可用于特定样式。因此，训练数据驱动模型来学习多尺度风格化也并不简单。在这项工作中，我们提出了一种新的形状匹配GAN来解决这些挑战。我们的核心思想是一个双向的形状匹配策略，通过向后和向前的传输建立源样式和目标字形之间的形状映射。我们首先表明，可变形的风格图像，其中的变形程度是由粗的水平控制的粗到细的形状映射，可以建模基于这一思想，我们设计了一个草图模块，通过向后传递文本到样式图像的形状特征，将样式图像简化为所得到的粗-细图像对为数据驱动学习提供了鲁棒的多尺度形状映射。有了这些获得的数据，我们构建了一个规模可控的模块，Controllable ResBlock，使网络能够学习从映射中在连续规模上表征和最终，我们可以将任何指定比例的特征向前转移到目标字形，以实现比例可控的风格转移。总之，我们的贡献有三个方面：• 我们研究了快速可控的艺术文本风格转移的新问题，在变形方面，并提出了一种新的双向形状匹配，框架来解决它。• 我们开发了一个草图模块来匹配形状，将样式转换为不同尺度的成对训练数据，从而能够学习鲁棒的字形样式映射。• 我们提出了形状匹配GAN来传输文本样式，并设计了一个缩放控制模块来调整文本的风格程度，并实时生成多样化的艺术文本。2. 相关工作图像风格转移。利用神经网络强大的表示能力，Gatys等人开创了神经风格转移[10]，其中风格被有效地公式化为深层特征的Gram矩阵[9]。Johnson等人训练了一个前馈StyleNet [18]，使用神经风格转移的损失[10]进行快速风格转移[26，15，22，21，6]。与此同时，Li等人。 [19，20]通过神经补丁表示风格，这可以更好地保留照片般逼真风格的结构。与此同时，其他研究人员将风格转移视为图像到图像的翻译问题[16，31]，并利用生成对抗网络（GAN）[12]转移专门的风格，如卡通[7]，绘画[25]和化妆[8，5]。与基于Gram-based和patch-based方法相比，GAN直接从数据中学习风格表示，这可能会产生更富有艺术性的结果。艺术文本风格转移。艺术文本风格转换问题最早由杨等人提出[28]。作者使用图像块来表示文本风格，由于块匹配过程，这遭受了沉重的计算负担。在神经网络进步的推动下，Azadi等人[1]训练了一个MC-GAN用于快速文本风格传输，但它只能渲染26个大写字母。Yang等人。 [29]最近收集了一个大型文本效果数据集，以训练网络为任何文本传输文本效果。与上述假设输入样式是精心设计的文本效果的方法不同，基于块的模型UT效果[30]使用任意纹理对文本进行风格化，并通过形状合成实现可伸缩变形[24]，这显示了更多应用场景的前景。与UT效应[30]相比，我们基于GAN的方法进一步通过实时可控参数实现了对变形的连续调整。多比例样式控件。据我们所知，目前对多尺度风格控制的研究主要集中在两种尺度上：纹理的强度和冲程大小。纹理强度决定了结果和风格图像之间的纹理相似性（图10）。第2段（c）分段）。它主要由一个超参数控制，以平衡内容损失和风格损失[10]。因此，必须针对不同的纹理强度重新训练模型。Babaeizadeh等人 [2]有效调整4444ℓ ℓℓ（一）（b）第（1）款（c）第（1）款（一）结构图X略简化X（b）（c）第（1）款略简化的X高度简化的X(a)（b）（c）(a) 输入（b）字体的风格程度（c）力度（d）笔画大小图2：比较文本样式转换中的不同尺度效应。(a)显示引用样式和目标文本。在其余列中，每一列都显示了随着（b）变形程度增加的结果;（c）织构强度;及（d）笔画大小。导致(b) 是由我们提出的方法生成的，而（c）和（d）是由神经风格转换生成的[10]。纹理强度，用辅助网络输入辅助参数来调制风格传递过程。同时，笔画大小描绘了纹理图案的规模（图10）。2（d）），例如大小或空间频率。 Jing等人。[17]提出了一种具有自适应感受野的笔画可控神经风格转换网络（SC-NST），用于笔画大小控制。我们的工作探讨了变形程度（图。2（b）），这是“规模”的一个不同而重要的3. 问题概述我们首先提出新任务的操作要求。例如，考虑到枫树风格，它会看起来很奇怪，有树叶的纹理艺术文本，但没有树叶一样的形状（见图中的例子。9），证明了除了仅仅转移纹理图案之外，还需要形状变形和匹配。同时，对于不同的文体和文本内容，提到人与人之间的主观差异。以图2（b）例如，可以看到具有更复杂笔划的脑卒中更容易发生大的脑卒中变形[27]。因此，用户将享受自由导航通过可能的缩放变形空间，而无需重新训练每个比例的一个模型的麻烦。具体而言，可控的艺术文本风格转换应确保：• 艺术性：风格化的文本应该在任何比例下模仿样式引用的形状特征。• 可控性：可快速、连续地调整模具的变形程度。这两个要求将我们的问题与以前的多尺度风格转换方法所研究的问题区分开来，这些方法要么根本无法调整形状[2，17]图3：双向形状匹配的图示。左二列：一个叶状结构图及其三个反向简化版本。右栏：正向形状映射(a)轻微、（b）中度和（c）重度变形。我们解决这个问题是一个新的双向形状匹配策略。如示于图3.首先将目标结构图（后向）简化为不同的粗层次，然后通过（前向）多层次粗到细的形状映射来表征其时尚的形状特征，实现多尺度转换。如图在图3（a）-（c）中，不同级别的相似水平笔划艺术性得到满足，因为这些映射中的目标是例如参考精细级时尚形状，而控制不稳定性可以通过训练前馈网络来实现综上所述，我们将规模可控的艺术文本风格迁移的新任务表述为学习函数，以快速前馈的方式将风格图像从不同的粗层次映射回自身。但仍有两个技术障碍有待清除。首先，如何简化形状，使得到的映射适用于文本图像。第二，如何学习多对一（多个粗层次到一个细层次）映射而不崩溃模型。秒4将详细介绍我们如何通过我们的网络解决这些挑战工作设计4. 形状匹配GAN假设Y和I分别表示用户提供的样式图像和文本图像本文研究了设计一个前馈风格化模型G，在控制不同变形程度的情况下渲染艺术文本的问题通过参数ε∈[0，1]，其中较大的ε对应于较大的变形。我们进一步分解风格trans-该过程分为两个连续的阶段：结构转移和纹理转移，分别由生成器GS和GT建模。这种分解的优点是，我们可以解开纹理的影响，并首先专注于关键的形状变形问题。我们表示G=GT<$GS，并将风格化过程公式化为：I Y=G T（G S（I，I）），I Yp（I Y|I，Y，Y），（1）其中，风格化图像Iy的目标统计量p（Iy）为ℓ ℓ（例如：，图2（c）（d））或未能有效地这样做[30]。其特征在于文本图像I、样式图像Y和4445X~ℓ{第二训练输入风格文本图像的训练和测试Loss函数ℓℓℓℓ第一阶段：输入预处理（向后结构转移）裁剪ℓ~x~x y输入Y结构X略图结构第二阶段：向前风格（结构和纹理）转移风格不Adv不rec不图4：我们的双向形状匹配框架概述。可控参数法如图所示，3、我们的结构转换解决方案是双向形状匹配。假设结构图X在Y中掩模样式主体的形状，其可以通过图像编辑工具（诸如Photoshop）或现有的图像抠图算法容易地获得。在后向结构转换阶段，我们对X进行预处理， ˜ ˜为GS训练训练对{X，X}，其中X是粗略的（粗）版本的X与形状特征的文本，而“文本”控制粗略级别。在构造正演阶段，GS学习{X_（？），X}，构造不同变形程度的断层。图4总结总体框架建立在两个主要组成部分之上：• GlennNet工作GS：它在训练期间学习将具有变形度的X映射到X在测试中，它将X的形状风格转移到目标文本IM上。年龄I，产生结构转移结果IX。• 纹理网络G T：它在I X上渲染样式图像Y中的纹理，以产生最终的艺术文本I Y。(a) 我们的草图模块概述YXsigmoid（X-）t(b) 转换块的效果图5：草图模块GB高斯尺度空间表示[3，23]为了简化不同尺度的图像，我们的平滑块被设置为具有高斯内核的固定卷积层，其标准发电机配有相应的显示器。犯罪者DS和DT通过对抗性学习来提高结果的质量在下文中，我们介绍了我们的双向形状匹配和所提出的可控模块的细节，该可控模块使GS能够在Sec.4.1.然后在第二节中介绍纹理传递网络GT。四点二。4.1. 双向结构转换后向结构转移。为了在不同的粗糙水平上将图像特征传递到X，我们提出了一个由平滑块和变换块组成的草图模块GB，如图所示第五条（a）款。灵感来自标准偏差σ = f（σ）由σ和一个线性函数f（·）控制。我们的核心思想是使用平滑块来桥接源样式域将文本图像和X映射到平滑域中，其中消除了细节，并且轮廓显示出类似的平滑度。然后通过训练变换块将平滑的文本图像映射回文本域以学习文本特征来实现结构转移。我们的sketch模块有两个优点：1）粗糙水平（以及因此变形程度）可以由σ自然地参数化;以及2）G B的训练过程仅需要容易访问的文本图像。一旦经过训练，它可以应用于任意输入风格。ℓ字形GSDSLadvSDTL记录纹理GTSℓ字形GS纹理GTL甘氨酸S抠图ℓ草图模块GB火车测试变换块Smooth domainℓ草图模块GB源域目标域DB平滑块LLL}4446BSℓℓℓ不不对于训练GB，我们从[29]提供的文本数据集中采样文本图像t，并从[0，1]中采样参数值t。GB的任务是重建t：Lrec= Et，[G B（t，）− t <$1]。（二）此外，我们施加了一个条件对抗损失，以迫使GB生成更像文本的轮廓：Ladv=Et，[logDB（t，，t<$$>）]Conv+BNReluConv+BNReLUConv+BNReluConv+BNConv+BNReluConv+BN×ℓ×（1-1）ReLU(a) ResBlock（b）可控ResBlockB+Et，n[log（1−DB（GB（t，n），n，t<$））]，（三）图6：可控ResBlock其中，DB学习确定输入图像的真实性以及它是否与given平滑图像t和参数t匹配。因此，总损失的形式为minmax λadvLadv+ λrecLrec.（四）对于一些具有大尺寸的样式，文本t可能会严重变形而无法识别。因此，我们提出了一个可选的可识别性损失，以迫使结构转换结果GS（t，t）保持t的主笔划部分：GBDBBBBB最后，通过应用训练有素的GBX与各种Lgly=Et，<$[<$（GS（t，<$）−t）<$M（t）<$1]，（7）在水平方向上，我们可以得到相应的粗略形状X_（？）=G_B（X，？）图中示出了一个示例。 5（b）。简单阈值化的高斯表示 sigmoid（X<$$> ）（通过用sigmoid层替换变换块与文本的形状不匹配。相比之下，我们的素描模块有效地简化了火焰轮廓的形状其中，m是逐元素乘法运算符，M（t）是基于距离场的加权映射，其像素值随着其到最近文本的距离而增加T的轮廓点GS的总体损失如下：min maxλadvLadv+λrecLrec+λglyLgly.（八）在红框区域的笔画，从而提供了一个更多的ro-GSDSS SS s s S半身像形状映射的网络。前向压力传递。得到{X}，4.2. 纹理转移（GT）<$∈[0，1]，我们现在训练网络GS来映射它们给定结构转移结果IX=GS（I，N），则这样GS就可以描述形状fea-纹理渲染任务可以被公式化为标准IM，并将这些特征转移到目标文本中。注意年龄类比问题，使得X：Y：：IX：IY[14]，我们的任务是多对一的映射，单个示例X.网络应仔细设计，以避免只记住地面实况X并陷入模型崩溃，即在测试期间无论参数λ如何为了应对这一挑战性任务，我们采用了两种策略：数据增强和可控ResBlock。第一、X和X轴被随机裁剪成子图像对这可以很好地解决现有的算法，如基于贪婪的图像模拟[14]和基于优化的神经涂鸦[4]。为了构建一个端到端的快速文本风格化模型，我们训练了一个前馈网络GT来进行纹理渲染。与训练GS类似，我们首先使用随机裁剪来获得足够的训练对{x，y}从X和Y。然后我们使用重构损失和条件对抗损失来训练GT{x，x∈N}作为训练集。第二，我们建立GS在StyleNet的架构上[18]，并提出一个非常Lrec=E x为oh[2009年12月27日]（x）−y1]，（9）简单而有效的Controllable ResBlock取代了StyleNet中间层的原始ResBlock [13]。我们的可控ResBlock是两个Ladv=Ex，y[logDT（x，y）]+Ex，y[log（1 − D T（x，GT（x）].（十）4447不SResBlocks加权，如图所示六、对于k=1（0），GS退化为原始的StyleNet，并且只负责最大（最小）的形状变形，以避免多对一问题。同时，对于<$∈（0，1），GS试图在两个极端之间进行折衷.采样文本的整体样式呈现性能通过添加神经风格转移[10]中提出的风格损失L风格，进一步考虑图像t最后，纹理转移的目标可以定义为：min maxλ adv L adv +λ rec L rec +λstyleLstyle.（十一）在亏损方面，GS的目标是接近地面GTDTT TT T T TL1意义上的真理X，并混淆了L1意义上的真理S：Lrec=Ex，[GS（x，）−x1]，（5）Ladv=Ex[logDS（x）]5. 实验结果5.1. 实现细节网络架构。我们的发电机S+Ex，n[lo g（1−DS（GS（x<$N，n）].（六）StyleNet的编码器-解码器架构[18]，4448BS不B T ST(a) 输入样式（b）目标文本（c）图像模拟（d）NST遮罩（e）涂鸦（f）T效果（g）UT效果（h）我们的图7：与各种风格的最先进方法的比较。(a)输入样式及其结构图位于左下角。(b)目标文本。(c)[14]第十四话(d)神经风格转移[10]与空间控制[11]。(e)神经涂鸦[4]。(f)T-Effect [28]. (g)UT效应[30]。（h）我们的风格转换结果。我们手动为UT效果[30]和out方法选择合适的变形程度六个ResBlock，除了GS 使用建议的可控制ResBlock代替。我们的判别器遵循Patch-GAN [16]。由于结构图中含有大量的饱和区域，为了避免二义性问题，我们在GS和GT的输入中加入了高斯噪声。它还赋予- 使我们的网络在测试过程中产生多样化的结果。代码和预训练模型可从以下网址获得：https：//github.com/TAMU-VITA/ShapeMatchingGAN。网络培训。我们将样式图像随机裁剪为256×256个子图像进行训练。采用Adam优化器，固定学习率为0。0002. 为了稳定GS的训练，我们逐渐增加了样本的范围。具体来说，首先用固定的ε=1训练GS，以学习最大的变形。然后我们复制参数-从Controllable ResBlocks中训练的半部分到另一半部分，并使用∈ {0，1}学习两个extreme。最后，GS在<$∈ {i/K}i=0，.，K.我们发现，K = 3是足够的G S推断其余的中间尺度。线性函数控制标准高斯核的标准偏差为f（ω）= 16ω +8。[28]第28话：一个人的命运选择这些方法是因为它们都是单次监督的（或可以适应于监督版本）以进行公平比较，其用单个样式图像及其结构图来转移样式。Image Analogy [14]和T-Effect [28]直接将纹理补丁复制到文本区域，产生刚性和不自然的轮廓。NST [11]和Doodle [4]是基于深度学习的方法，其中样式的形状特征由深度特征隐式表示。因此，这些方法可以修改文本的轮廓，但往往会导致无法识别的文本。在纹理方面，它们受到颜色偏差和棋盘伪像的影响。UT-Effect [30]在补丁级别显式匹配样式。然而，图像块并不总是鲁棒的。例如，在枫叶风格中，叶子形状没有完全转移到垂直笔画中。此外，由于面片混合过程，纹理细节会丢失。相比之下，我们的网络能够通过提出的双向形状匹配策略学习准确的形状特征，并通过对抗学习传输生动的纹理，对于所有实验，我们设置λrec=λrec=λrec=100，一起产生最具视觉吸引力的结果。λadv= λadv= 1，λadv= 0。1，且λstyle= 0。01.5.2. 与现有技术方法的比较艺术文本风格转移。在图7中，我们给出了五种最先进的风格转换方法的定性比较：图像模拟[14]，NST[11]，Doodle [4]，T-规模可控的风格转移。在图8中，我们给出了两种规模可控风格迁移方法的定性比较：[17 ]第17话，一个人，一个人。SC-1对于NST，我们建立在其公共模型的基础上，并实现了[11]中介绍的空间控制功能。同时，其他方法的结果是由公共模型或由作者提供。4449（一）（b）第（1）款（c）第（1）款在不断变化的参数控制下输入艺术文本样式转换结果图8：所提出的方法和其他规模可控的风格转移方法之间的定性比较。对于第一列，从上到下：目标文本、样式图像、样式图像的放大补丁及其对应的结构图。剩余色谱柱：结果如下：（a）笔画可控神经风格转移（SC-NST）[17]，笔画大小从256均匀增加到768;（b）UT效应[30]，分辨率水平从1均匀增加到7;（c）所提出的方法，分辨率从0均匀增加到1。每种方法的所有结果都是由一个模型产生的对于UT效应[30]和我们的方法，红色框区域在底部放大显示，并提供相应的结构图以进行更好的视觉比较。NST [17]由于其无监督设置，无法在正确的区域合成纹理。不考虑这一因素，它可以调整纹理大小，但对控制纹理变形无效UT效应[30]在多个分辨率下匹配绑定补丁以进行结构转移，这有几个缺点：首先，如图所示。8（b），基于贪婪的补丁匹配未能全局一致地阻止该错误。其次，面片混合过程不可避免地消除了许多形状细节。第三，不支持连续变换。相反，所提出的方法实现了具有精细细节的连续变换，随着叶子变得更加茂盛，显示了叶子的平滑生长过程。在效率方面，对于图中256×256图像。8，发布的基于MATLAB的UT效果[30]需要大约100秒每图像与英特尔Core i7- 6500 U CPU（无GPU版本）。在COM中，我们的前馈方法使用Intel Xeon E5-2650 CPU时每张图像仅需约0.43 s，使用GeForce GTX 1080 Ti GPU时每张图像仅需16 ms，这意味着几乎实时的用户交互潜力。5.3. 消融研究网络架构。为了分析我们模型中的每个组件，我们设计了以下具有不同配置的实验：• 基线：我们的基线模型只包含一个经过训练的纹理网络，可以直接将结构图X映射回样式图像Y。• W/o CR：此模型包含一个简单的网络和纹理网络。朴素的递归网络由递归网络通过常用的标签连接而不是使用可控ResRlock（CR）来控制• W/o TN：该模型包含一个没有纹理网络（TN）的单纹理网络，并被训练为直接将s ketch y结构映射X纹理映射到Y。• 完整模型：建议的模型同时具有纹理网络和纹理网络。图9显示这些模型的样式化结果在无结构转换的情况下，基线模型风格化文本的轮廓是刚性的，与参考风格的形状一致性较差。幼稚的神经网络可以创建树叶状的形状，但无法学习具有挑战性的多对一映射。它简单地忽略了条件项，并生成非常相似的结果。这个问题很好地解决了所提出的可控ResBlock。如图4的第四列所示。9，我们的神经网络甚至可以同时学习多尺度结构转移和纹理转移，尽管渲染的纹理是平坦的，并且有棋盘状伪影。通过将纹理传输任务交给一个单独的纹理网络，我们的完整模型可以合成高质量的艺术文本，形状和纹理一致性w.r.t.参考样式。草图模块。在图10中，我们通过对比实验来检查草图模块GB的效果。如在第二节介绍。4.1，我们的草图模块旨在转换-将文本的形状特征传递给样式图像，以提供源域和目标域之间的鲁棒映射。为了做一个比较，我们取代了跨-4450SSS（一）（b）第（1）款（c）第（1）款(a) 样式图像（b）目标文本（c）无Lgly（d）完整模型图11：可读性损失Lgly的影响。基线（无CR）不含TN完整模型图9：可控艺术文本风格迁移中的网络配置分析。对于第一列，从顶部到底部：目标文本，风格图像，放大补丁的结果，没有和与纹理网络，分别。剩余色谱柱：（a）-（c）结果，其中，k= 0。0，0。五一0，分别。（a）样式图像（b）目标文本（c）无TB（d）完整模型图10：建议的草图模块的效果右上角的红框区域被放大，对比度增强，以便更好地进行视觉对比。形成块（TB）在GB与一个简单的S形层。由此产生的朴素草图模块仍然能够简化形状，但无法将其与图形匹配。没有鲁棒的映射，风格化文本的形状不能正确地调整，并且与输入文本一样僵硬，如图所示。10（c）。相比之下，我们的完整模型成功地合成了图中的圆形h形球囊。10（d）.损失函数我们研究了清晰度损失（Eq.（7））中。当将一缕青烟转移到具有高变形度的刚性汉字上时，<$=0。75、这个字的笔画形状不规则，粗细不均匀，图中的裂缝。11（c）。虽然风格非常相似，但性格却无法辨认。如图如图11（d）所示，通过设置λgly=1，我们的易读性损失有效地保留了笔画的主干，同时允许高自由度来变形笔画的轮廓，从而实现易读性和艺术性之间的平衡。5.4. 应用除了海报和动态排版设计图所示。1（d）-（f），我们进一步提出了我们的方法的其他两个应用如下。结构/纹理混搭。结构和纹理的解开使我们能够将不同的风格结合起来，创造出一些全新的文本风格。一些考试-(a) 不同结构/质地混合物(b) 笔画艺术设计图12：我们的方法的应用。图中示出了示例12（a），其中我们分别将枫树，水和烟的纹理应用于具有枫树基于笔画的艺术设计。由于没有使用专门针对文本的步骤，因此我们的方法可以很容易地扩展到更一般的形状（如符号和图标）上的样式转换。图在图12（b）中，我们示出了用于从用户提供的图标合成由枫叶制成的翅膀的示例6. 结论在本文中，我们提出了一个快速的艺术文本风格转移深网络，允许灵活，连续控制的风格程度的广告。我们制定了一个粗到细的映射问题，并提出了一个双向的形状匹配框架的变形任务。提出了一种利用所提出的可控ResBlock，我们的网络能够有效地学习多对一的形状映射，以实现多尺度风格转换。我们通过与最先进的风格转移算法的比较，验证了我们的方法的有效性和鲁棒性。谢谢。本工作得到了国家自然科学基金项目的部分资助。61772043，部分由北京市自然科学基金委承担。L182002和No. 4192025.这项工作得到了中国国家留学基金管理委员会的支持。我们感谢Unsplash 用户（ Aaron Burden ， AndreBenz，Brandon Morgan，Brooke Ca- gle，Florian Klauer，Grant Mccurdy 和 Stephen Hocking ）将他们的照片置于Unsplash许可下供公众使用。4451引用[1] Samaneh Azadi ， Matthew Fisher ， Vladimir Kim ，Zhaowen Wang，Eli Shechtman，and Trevor Darrell.多内容甘为少数拍摄字体风格转移。在Proc. IEEE Int'l Conf.计算机视觉与模式识别，2018。2[2] Mohammad Babaeizadeh和Golnaz Ghiasi可调节的实时风格传输。2018. arXiv：1811.08560。二、三[3] Jean Babaud ，Andrew P Witkin ，Michel Baudin，andRichard O Duda.尺度空间滤波高斯核的唯一性。IEEETransactionsonPatternAnalysisandMachineIntelligence，（1）：26-33，1986. 4[4] 亚历克斯·J·尚潘达语义风格转换与将不起眼的涂鸦变成艺术品。2016年。arXiv：1603.01768。五、六[5] 张惠文，卢静万，余菲，亚当 · 芬克尔 - 斯坦 .Pairedcyclegan：不对称的风格转移适用于应用和卸妆。在Proc. IEEE Int'l Conf.计算机视觉和模式识别，第40-48页，2018年。2[6] 陈冬冬、卢远、廖静、余能海、华刚。Stylebank：神经图像风格传递的显式表示。在proc IEEE 计算机视觉与模式识别，2017。2[7] 杨晨，赖玉坤，刘永进。Cartoongan：用于照片卡通化的生成对抗网络在Proc. IEEE Int'l Conf.计算机视觉和模式识别，第9465-9474页，2018年。2[8] Yunjey Choi，Minje Choi，Munyoung Kim，Jung WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在Proc. IEEEInt'l Conf.计算机视觉与模式识别，2018。2[9] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络进行纹理合成。神经信息处理系统的进展，第262-270页，2015年。2[10] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在Proc. IEEE Int'lConf.计算机视觉和模式识别，第2414-2423页，2016年。二三五六[11] Leon A Gatys，Alexander S Ecker，Matthias Bethge，Aaron Hertzmann，and Eli Shechtman.神经风格迁移中知觉因素的控制。在Proc. IEEE Int'l Conf.计算机视觉和模式识别，第3985-3993页，2017年。6[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，第2672-2680页，2014年。2[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE国际会议计算机视觉和模式识别，第770-778页，2016年。5[14] 放大图片作者：Charles E. Jacobs，Nuria Oliver，BrianCurless，and David H.销售形象类比。在程序会议中计算机图形和交互技术，第327-340页，2001年。五、六[15] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在proc 国际计算机视觉会议，第1510-1519页，2017年。2[16] Phillip Isola，Jun Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在Proc.IEEE Int'l Conf.计算机视觉和模式识别，第5967-5976页，2017年。二、六[17] 永成景、杨柳、叶州杨、迅雷风、益州余、大成涛、明丽宋。具有自适应感受野的可控制的快速风格迁移。在Proc. European Conf.计算机视觉，第238-254页，2018年。二三六七[18] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在Proc. European Conf.计算机视觉，第694-711页，2016年。二、五[19] Chuan Li和Michael Wand。结合马尔可夫随机场和卷积神经网络的图像合成。在Proc. IEEE Int'l Conf.计算机视觉和模式识别，第2479-2486页，2016年。2[20] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时在Proc. European Conf.计算机视觉，第702-716页，2016年。2[21] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.用前馈网络实现多样化纹理合成。在Proc. IEEE Int'l Conf.计算机视觉与模式识别，2017。2[22] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。神经信息处理系统进展，第386-396页，2017年。2[23] 皮埃特罗·佩罗纳和吉坦德拉·马利克。使用各向异性扩散的尺度空间和边缘检测。 IEEE Transactions onPattern Analysis and Machine Intelligence，12（7 ）：629-639，1990。4[24] AmirRosenberger ， DanielCohen-Or ， andDaniLischinski.分层形状合成：自动生成非静态纹理的控制贴图。ACM Transactions on Graphics，28（5）：107，2009。2[25] Artsiom Sanakoyeu、Dmytro Kotovenko、Sabine Lang和Bjorn Ommer。一种实时高清风格传输的风格感知内容丢失。在Proc. European Conf.计算机视觉，第698-714页，2018年。2[26] Xin Wang ， Geoffrey Oxholm ， Da Zhang ， and YuanFang Wang.多式联运：用于快速艺术风格转换的分层深度卷积神经网络。在Proc. IEEE Int'l Conf.计算机视觉和模式识别，2017年。2[27] Zhangyang Wang ， Jianchao Yang ， Hailin Jin ， EliShechtman ， Aseem Agarwala ， Jonathan Brandt ， andThomas S Huang.Deepfont：从图像中识别字体。在ACM国际会议程序中多媒体，第451-459页，2015年。3[28] Shuai Yang，Jiaying Liu，Zhouhui Lian，and ZongmingGuo.令人惊叹的排版：基于统计的文本效果传输。在Proc. IEEE Int'l Conf.计算机视觉和模式识别，第7464-7473页，2017年。一、二、六4452[29] Shuai Yang ， Jiaying Liu ， Wenjing Wang ， andZongming Guo. Tet-gan：文本效果通过风格化和去风格化传递在AAAI人工智能会议上，2019。二、五[30] Shuai Yang，Jiaying Liu，Wenhan Yang，and ZongmingGuo.上下文感知的基于文本的二值图像风格化与合成。IEEE Transactions on Image Processing，2019。一二三六七[31] Jun Yan Zhu，Taesung Park，Phillip Isola，and Alexei A.埃夫罗斯使用循环一致对抗网络的不成对图像到图像翻译。在Proc. Int'l Conf.计算机视觉，第2242-2251页，2017年。2

下载后可阅读完整内容，剩余1页未读，立即下载