没有合适的资源?快使用搜索试试~ 我知道了~
1排版与装饰:智能文本样式转换王文静,刘佳颖,杨帅,郭宗明北京大学计算机科学与技术研究所摘要文字效果的转换可以显著地使文字在视觉上赏心悦目。在本文中,我们提出了一个新的框架,风格化的文本与精美的装饰,这是被忽视的,以前的文本风格化方法。装饰元素对自发处理基本文本效果和装饰构成了挑战,这是两种不同的风格。要解决这个问题,我们的核心思想是要学会分离、转移和重新组合装饰和基础文本效果。提出了一种新的文本效果迁移网络来推断目标文本的风格版本。风格化的文本最后用装饰来修饰,其中装饰的位置由新颖的结构感知策略仔细确定。此外,我们提出了一个领域自适应策略的装饰检测和一个一次性的训练策略的文本效果转移,这大大提高了我们的网络的鲁棒性,以新的风格。我们的实验基于我们收集的拓扑数据集,包括59,000专业风格的文本,并证明了我们的方法优于其他国家的最先进的风格转移方法。1. 介绍艺术文本,或称风格化文本,是一种广泛应用于设计和媒体的艺术。如图1、通过色彩、纹理、明暗等文字效果和额外的装饰元素,艺术化的文字变得更加赏心悦目,能够生动地传达更多的语义信息。传统上,将文本效果迁移到其他原始文本需要复杂的手动操作,这非常耗时,特别是当要处理一堆文本时。在这项工作中,我们提出了一个新的框架,用于将给定的文本效果转换为任意字形。文本风格转换是图像风格转换的一个子课题。虽然图像风格迁移[8,4,12,28,6]的任务已经被广泛研究多年,但文本风格迁移是*通讯作者。本工作得到国家自然科学基金项目的资助。 61772043和北京市自然科学基金会根据合同号L182002和No. 4192025(a)(b)(c)(d)(e)(f)(g)(h)图1:演示我们的文本效果转移方法。(a)输入. (b)神经风格转移[8]。(c)[4]第四章. (d)T-Effect[23].(e)-(h)我们的结果,其中基础文本效果和装饰元素都可以转移到目标文本。直到最近才被探索。Yang等[23,24]首先对这一问题进行了探索,设计了一个基于补丁的文本效果传递模型。由于忽略了许多重要的属性,如装饰元素,方向,规则结构等。,它在许多类型的文本样式上失败。另一方面,Azadiet al. [1]提出了一种基于深度的模型,它能够在几次射击的情况下对大写英文字母进行但是,它只能生成具有有限分辨率为64*64,很难应用于26个字母以外的文本。此外,所有这些方法都假定文本内部或外部的风格是统一的。因此,精美的装饰元素,这是常用的艺术文字设计,被忽视。这些装饰通常与基本的文本效果有很大的不同,可以使文本在视觉上更令人印象深刻,表达更多的信息。将装饰元素和基本文字效果作为一个整体风格来对待,会严重降低风格化结果的视觉质量,如图所示1.一、针对这一问题,本文提出了一种新的文本风格转换框架,并对装饰性元素给予了特别关注。关键的想法是检测,分离和重组这些重要的修饰。58895890首先,我们训练一个分割网络来检测样式文本中的装饰元素。为了训练我们的分割网络,我们使用合成数据,并进一步提出一个域适应方案,使框架在真实数据上工作良好。然后,基于分割结果,我们能够从基本文本效果中分离出装饰元素,并设计一个文本风格转移网络来推断目标文本的基本文本效果。为了使我们的网络适应任意文本效果,提出了一种新颖的一次性微调方案,该方案使我们的网络能够扩展到一种新的风格,只需要一个例子。最后,对空间分布和元素分布的线索进行仔细表征,以共同确定装饰元素的布局,然后将其自适应地集成到目标文本中。此外,为了训练上述模型,我们构建了一个新的数据集,其中包含59k具有各种文本效果和字体的专业设计风格的文本,并从网络上收集了4000个装饰元素和1000个野生艺术文本。总之,这项工作的贡献有三个方面:• 我们定义了一个新的问题的文本风格转移与装饰元素,并提出了一个新的框架来解决这个问题。该方法将基本文本效果和装饰元素分离重组,使其能够适应不同的风格和字形。• 我们训练网络以实现有效的装饰检测和文本效果传输。提出了两种新的训练策略,使网络对任意文本风格具有鲁棒性。提出了一种基于结构感知的装饰布局重构方法,该方法能够生成专业的艺术字体.• 我们引入了一个新的数据集,其中包含数千个样式化的文本和装饰元素,以支持我们模型的训练。2. 相关作品图像到图像翻译。图像到图像转换的任务是将图像从一个域转换到另一个域,例如草图到肖像[5],图像着色[26,27]和雨水去除[25,18]。 Hertzmann等人提出了一个单图像对的非参数框架[11]。近年来,得益于CNN,数据驱动的方法在许多计算机视觉任务上取得了很好的性能.结合生成对抗网络(GANs)[9],Isola等人。开发了一个通用的框架Pix2Pix [12]。这种方法是由配对数据驱动的,有时很难获得。为了摆脱这一限制,Zhuet al.设计了CycleGAN [28],可以学习来翻译没有配对基础事实的图像。传统模型在处理N域平移问题时,需要将域划分成对,并进行N(N-1)/2次重构。Choi等人提出用单个模型StarGAN处理多域翻译 [6]。尽管许多尽管已有大量的研究对意象翻译进行了研究,但很少有针对风格化文本的研究。综合考虑艺术文本的结构和空间分布,我们提出了一个文本效果传递的框架。艺术文本合成。关于字体合成的研究很多[20,3,17,22]。然而,具有艺术风格的生成文本却没有得到广泛的研究。日常生活中的艺术文本大多是由专家精心设计和制作的,很难扩展和迁移。Yang等[23]首次提出了一种基于纹理合成的非参数化文本效果传递方法。但是,此方法需要仔细选择参数,并且无法处理具有明显结构的文本效果,例如“Wooden”和“Stripes”。Azadi等人[1]设计了数据驱动的MC-GAN,可以生成风格化的文本,给出了几个例子,并提出了一个包含20k随机合成的彩色字体的数据集,并从互联网上收集了910个风格化的文本。然而,MC-GAN只能生成26个英文大写字母有限分辨率为64×64。其数据集中的合成彩色字体除了分辨率较低外,还与日常生活中使用的艺术文本有很大的不同。 该数据集不能训练网络产生各种高分辨率的艺术文本。此外,装饰元素在风格化文本中相当常见。然而,在上述方法中从未考虑过它们。我们介绍了一个包含59k艺术文本的高分辨率数据集,并提出了一个能够创建具有精美装饰的艺术排版的框架。3. 字体与装饰的风格转换所提出的文本样式转换框架如图所示。二、本文的研究对象是两种风格混合的艺术文本.为了清楚起见,我们定义了装饰元素,如图中的红色蝴蝶结。二是装饰。不包括装饰的其余基本样式被称为文本效果。我们首先提取装饰元素的分割掩码,其中应用域自适应策略来 实现 模 型对 看 不见 的样 式 的鲁 棒 性( Sec. 第3.1节)。 接下来,我们将文本效果转移到目标文本中,消除装饰元素,在此期间,我们进一步提出了一种一次性训练策略,用于提高看不见的风格的性能(第二节)。3.2)。最后,我们根据文本的结构和装饰元素的空间分布,重新组合了艺术文本和装饰元素(第二节)。3.3)。5891……ℒ���������^netSeg(a) 在源域训练netSeg(合成样式文本)图2:建议的文本样式转换框架。 首先,装饰元素从样式化文本中分离出来。然后,将文本效果转移到目标文本。最后,根据文本的结构和装饰元素的空间分布,对元素和风格化文本进行重组。ℒ���������(b) 在目标域中训练netSeg(真实样式的文本)(a)(b)(c)(d)图3:感知损失和域自适应的影响。(a)输入. (b)结果只有L1损失。(c)没有域适应的结果。(d)结果全部亏损。3.1. 装饰元素分割我们提出了一种用于装饰元素检测的分割网络。该网络是在合成数据上训练的,这将在第二节中介绍。4.第一章为了减少训练数据和真实风格文本之间的差距,我们应用了一个领域自适应策略。分割网络。我们采用U-Net作为分割网络netSeg的基本架构。如图4、给定输入艺术文本D、对应的原始文本C、分割基础事实M和预测M∈=netSeg(D,C),我们的网络任务是在L1和感知意义上接近地面真实M。因此,netSeg的目标可以表示为Lseg=λL1LL1+λPerLP e r,(1)哪里图4:具有域自适应策略的细分网络的框架。训练鉴别器以区分目标的特征图和源的特征图。生成器需要在给出分割预测的同时欺骗机器人。基于不利损失的域适应。在色彩、装饰元素分布等方面,合成数据与真实数据存在差距。因此,仅在合成数据上训练的网络不能很好地适应真实风格的文本,如图所示。3c.为了解决这个问题,我们应用了一个域自适应策略,使网络更强大的风格文本在野外。所提出的域适应策略类似于[21]。在这里,源域是合成的训练数据,目标域是真实的风格化文本。如图4、在AnchNetSegD阶段,训练它区分生成器倒数第二层的特征图P我们利用交叉熵损失来计算:Ld(P)=-((1-z)log(netSegD(P))(4)+z log(netSegD(P),其中,如果样本是从目标域提取的,则z=0,并且对于来自源域的样本,z=1。 在生成器阶段,在源域上,生成器学习如何进行分割预测,而在目标域上,它需要欺骗生成器并重新进行分割预测。LL1 为||M-M||第一条、第二条缩小了两个领域之间的差距。生成器的目标可以表示为LPer=||V GG(M)-V GG(M)||1 .一、(三)如示于图3、感知损失[13]有助于网络更好地感知装饰的结构。哪里掩模提取元素重组风格迁移netSegDnetSeg^w5892L=λsegLseg+λadvLadv,(5)Ladv=-log(netSegD(Pw))(6)5893(a)(b)(c)图5:一次性训练方案。是制作目标特征图的对抗性损失Pw更接近源特征图P。可以看出在图3d中,所提出的域自适应可以有效地改善分割结果。3.2. 文字效果转移遵循Pix 2 pix [12]的网络架构,我们的文本效果传输模型是U-Net [19]和PatchGAN [12]的组合。给定Dy是具有额外装饰元素的样式化文本图像,Cy是Dy的对应原始文本图像,并且Cx是目标原始文本,生成器G学习生成假样式化文本Sx=G(Dy,Cy,Cx),其具有Dy的文本效果和Cx的重复。CNOD需要区分输入是真实的还是生成的,以及它是否匹配Dy,CY和Cx。损失函数是WGAN-GP [10]和L1损失的组合LG=λadvLadv+λL1L1,(7)哪里LL1=||Sx-Sx||、(8)L=E[D(S, D, C, C)](9)图6:一次性训练方案的效果。(a)投入。(b)结果无需一次性微调。(c)微调后的结果。具体来说,我们收集了一堆补丁随机裁剪的样式文本。它们构成了一种训练准备微调然后,由所提出的分割网络生成装饰的掩模(第2节)。第3.1节)。使用分割掩模,如图所示。5.我们通过不计算这些区域的L1损失并在将图像发送到图像处理器之前阻止它们来减少装饰元素的影响。值得注意的是,与预训练过程不同,在我们的单次微调期间,不需要地面真实无装饰图像。我们的网络可以学习既恢复风格的细节和消除装饰,这为用户提供了更多的灵活性。如示于图6c,用一次训练的方法,网络可以生成铁边和红色织物纹理。3.3. 基于结构的装饰重组在本节中,我们建议根据风格化文本的结构将装饰元素和风格化文本相结合。首先,我们生成的指导地图的艺术文本的结构特征。然后,我们根据装饰元素的重要性将其分为两类advSxx y y x用不同的转换策略来对待每个类。-ESx[D(Sx,Dy,Cy,Cx)]+λE<$[(||rD(S, D, C, C)||2-1)2]],最后,将元素和样式化文本组合在一起以生成最终输出。GPSXx y y x其中Sx是地面真值,Sx是沿着Sx和Sx采样之间的直线均匀采样的。一次性培训计划。 基于学习的图像传输方法通常不能很好地执行看不见的数据。此外,不可能收集覆盖用户可以自定义的所有文本效果的数据集。如图6b,通过上述训练策略,我们的网络学习消除装饰元素,并可以生成基本结构的不可见文本效果。但是看不见的细节无法被正确地重建。为了解决这个问题,我们提出了一个一次性的微调方案,看不见的风格,其中只需要一个训练对。导航图。我们设计了四个引导图,表征艺术文本的属性。这些地图在随后的转换中起着重要的作用。• 地平线地图。地平线地图MHor标识像素的位置,灰文本在水平方向。由于人眼对边缘很敏感,我们放大了文本边缘附近的水平线变化我们首先将MHor的梯度定义为GHor,它在任何地方都被初始化为1。然后根据文本的水平长度调整GHor对于每个y,定义xy,最小化行y上原始文本的最左点,发生器5894xy,max是最右边的点,我们通过以下方式生成GH或rGHor(x,y)=GHor(x,y)+(10)(Kw-|x-xy,min|),|x-xy,min|
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功