没有合适的资源?快使用搜索试试~ 我知道了~
1086手写变形金刚Ankan Kumar Bhunia1 Salman Khan1,2 Hisham Cholakkal1 Rao Muhammad Anwer1Fahad Shahbaz Khan1,3 Mubarak Shah41阿联酋穆罕默德·本·扎耶德大学2澳大利亚国立大学3Linko¨ pingUni versity,Sweden4Uni versityofCentralFlorida,USA摘要我们提出了一种新的基于变压器的风格手写-十文本图像生成方法,HWT,努力学习风格内容纠缠以及全球和本地的风格模式。所提出的HWT通过自注意机制捕获风格示例内的长范围和短范围关系,从而对全局和局部风格模式进行编码。此外,所提出的基于变换器的HWT包括编码器-解码器注意,其通过收集每个查询字符的样式特征来据我们所知,我们是第一个引入基于Transformer的网络用于风格化手写文本生成的。我们提出的HWT生成逼真风格的手写文本图像,并通过广泛的定性,定量和基于人的评价表现出优于最先进的。所提出的HWT可以处理任意长度的文本和任何所需的写作风格,在几个镜头设置。此外,我们的HWT很好地概括了具有挑战性的场景,其中单词和写作风格在训练期间都是不可见的,生成逼真的手写文本 图 像 。 代 码 可 在 以 下 网 址 获 得 : 变 形https://github.com/ankanbhunia/Handwriting-金刚1. 介绍生成逼真的合成手写文本图像,从键入的文本,这是通用的两个书面-风格和词汇的研究是一个具有挑战性的问题。自动手写文本生成对于具有残疾或受伤的人可能是有益的,这些残疾或受伤的人通过调整作者的写作风格或收集用于训练基于深度学习的手写文本识别模型的附加数据来防止他们书写、将笔记或备忘录从一种语言翻译成另一种语言在这里,我们调查的问题,现实的手写文本生成的无约束的文本序列与任意长度和不同的书法属性代表的写作风格的作家。图1:HWT(c)与GANwriting的比较 [14](d)和Daviset al. [5](e)在针对给定查询文本(b)模仿期望的看不见的书写风格(a)中。而[14,5]捕获全局书写风格(例如,倾斜),他们努力模仿当地风格模式(例如,字符样式、连字)。HWT(c)模仿全局和局部风格,导致更真实的风格手写文本图像生成。例如,对于包括相同字符“n”的不同单词,出现在(a)中的“n”(红线)的样式类似地,“thought”和“personalities”(蓝色和洋红色线条)中的一组字符此外,HWT保留了单词“also”(绿线)中所有字符的草书模式和连接性已经研究了生成对抗网络(GAN)[8]用于离线手写文本图像生成1087[4、3、14、7、5]。这些方法力求通过在训练期间使用离线手写图像来直接合成-大小的文本图像,从而提取有用的特征,诸如书写外观(例如,油墨宽度、书写倾斜)和线条厚度变化。Alonso等[3]提出了一种以输入内容串为条件的生成体系结构,从而不限于特定的预定义词汇表。然而,他们的方法是在孤立的固定大小的单词图像上训练的,并且难以产生高质量的任意长的文本,同时遭受风格崩溃。Fogel等人[7]引入ScrabbleGAN方法,其中生成的图像宽度与输入文本长度成比例。ScrabbleGAN在内容方面取得了令人印象深刻的结果。然而,这两个[3,7]都不适合特定作者最近,基于GAN的方法[5,14]已经被引入用于样式化手写文本图像生成的问题。这些方法在生成脱机手写文本图像时考虑内容和样式Davis等[5]提出基于StyleGAN的方法[15]并基于样式和输入文本学习所生成手写图像宽度GANwriting框架[14]将手写文本生成过程限制在少量设置中的文本内容和样式特征。在这项工作中,我们区分了两个关键问题,阻碍了现有的基于GAN的方法中的风格手写文本图像生成的质量[5,14]。首先,风格和内容两者松散地连接,因为它们的代表性特征被单独处理,然后被连接。虽然这样的方案使得能够在单词/行级别上实现样式与内容之间的纠缠,但是它没有在字符级别上明确地强制样式-内容纠缠第二,虽然这些方法捕获了全局书写风格(例如,墨水宽度、倾斜度),它们不显式地编码局部样式模式(例如,字符样式、连字)。由于这些问题,他们很难从参考样式示例中准确地模仿当地的cal-ligraphic样式模式(见图11)。①的人。在这里,我们研究了一种替代方法,在一个单一的生成架构中解决这两个问题1.1. 贡献我们介绍了一种新的风格的手写文本生成的方法,建立在变压器,称为手写变压器(HWT),包括一个编码器-解码器网络。编码器网络利用多头自注意机制来生成书写者的自注意风格特征序列。然后,该特征序列被输入到由多头自注意和编码器-解码器注意组成的解码器网络,以在给定一组查询单词串的情况下生成字符特定的样式属性。因此,所得输出被馈送到卷积解码器以生成最终样式化手写文本图像。此外,我们还提高了遗传算法的风格一致性通过经由损失项约束解码器输出来生成已加密文本,损失项的目的是在编码器处重新生成书写者的风格特征序列。我们的HWT通过自我和编码器-解码器的注意力来模仿给定查询内容的作者的风格,该注意力强调与该查询中的每个字符相关这使我们能够在角色层面捕获风格-内容纠缠。此外,由我们的编码器生成的自关注风格特征序列捕获全局(例如,墨水宽度、倾斜度)和局部样式(例如,字符样式、连字)。我们通过进行广泛的定性,定量和以人为基础的评估来验证我们提出的HWT在基于人类的评估中,我们提出的HWT在81%的时间内优于最近的风格化手写文本生成方法[5,14],在书写风格模仿方面实现了人类的合理性在GANwriting [14]之后,我们在IAM手写数据集上的所有四个设置上评估我们的HWT。在词汇表外和不可见风格(OOV-U)的极端设置中,在训练期间从未看到查询词和写作风格,所提出的HWT在Fre`chetInceptionDistance ( FID ) 方 面 的 绝 对 增 益 为16.5,优于GANwriting [14],从而证明了我们的泛化能力。此外,我们的定性分析表明,HWT对现有作品表现良好,生成真实风格的手写文本图像(见图11)。①的人。2. 相关工作基于深度学习的手写文本生成方法可以大致分为基于笔划的在线方法和基于图像的离线方法。在线手写文本生成方法[9,2]通常需要使用数字手写笔从真实手写体示例(矢量形式)的逐笔记录中获取的时间数据。另一方面,最近的生成离线手写文本生成方法[4,3,14,7]旨在通过对离线手写图像执行训练来直接生成文本。Graves [9]提出了一种基于具有长期记忆(LSTM)单元的递归神经网络(RNN)的方法,该方法能够从先前的笔位置和输入文本预测未来的笔画点。Aksan等人[4]提出了一种基于条件变分RNN(VRNN)的方法,其中输入被分成两个单独的潜在变量来表示内容和风格。然而,他们的方法倾向于在不同的作者中平均出特定的风格,从而减少了细节[17]。在随后的工作[1]中,VRNN模块被随机时间CNN取代Kotani等人[17]提出了一种在线手写笔划表示方法,通过对书写者、字符和书写者进行编码来表示潜在的风格信息1088我我j=1我CC∈ AP我--QA{}RNN模型中的字符特定样式更改。除了顺序方法之外,最近的几项工作还研究了使用GAN的离线手写文本图像Haines等人[11]介绍了一种以从源图像推断出不同风格生成新文本他们的模型在字符分割过程中需要一定程度的人工干预,并且仅限于生成源图像中的字符的工作[4]利用CycleGAN [24]合成中文孤立手写字符的图像。Alonso等[3]提出了一种方法,其中手写文本生成是由字符序列调节的。然而,他们的方法遭受风格崩溃,阻碍了合成 图 像 的 多 样 性 Fogel 等 人 [7] 提 出 了 一 种 名 为ScrabbleGAN的方法,该方法使用完全卷积的架构合成手写单词这里,生成的字符具有相似的感受野宽度。[20]介绍了一种转换模型,该模型从离线样本近似在线这种方法依赖于转换模型最近很少有基于GAN的作品[5,14]研究离线风格手写文本图像生成的问题。Davis等[5]提出了一种方法,其中手写文本生成以文本和样式为条件,捕获全局手写 样 式 变 化 。 Kang 等 人 [14] 提 出 了 一 种 名 为GANwriting的方法,该方法将文本生成的条件设定为在几个镜头设置中提取样式特征和预定义固定长度的文本内容。我们的方法:与GANwriting [14]类似,我们还研究了在少数情况下生成样式化手写文本的问题,其中每个作者的样式示例数量有限。不同于GANWRITING,我们的方法具有灵活性,以生成任意长度的样式化文本。此外,现有的作品[5,14]仅在单词/行级别捕获风格-内容纠缠。相比之下,我们基于变压器的方法使在字符级的纠缠。此外,还有用于风格、内容建模的单独组件,随后是用于解码风格化输出的生成器。除了在单词/行级别的风格-内容纠缠之外,期望在字符级别的风格和内容之间的纠缠有助于模仿特定于字符的写作风格以及概括到词汇表外的内容。此外,风格和内容之间的这种紧密结合导致了一个有凝聚力的架构设计。全局和局部样式模仿:虽然前面的要求集中于连接风格和内容,但是第二个期望的特征旨在为给定的书法风格建模全球和本地风格特征。用于风格化手写文本生成的最近生成方法[14,5]典型地捕获全局级的书写风格(例如,油墨宽度、倾斜)。然而,当地风格模式(例如,字符风格、连字)在模仿给定作家的风格时没有被明确我们认为,无论是全局和局部风格模式,都希望被模仿准确的风格文本图像生成。3.1. 方法概述问题表述:我们的目标是学习一个特定作家i ∈W的复杂笔迹风格特征,其中W包括总共M个作家。我们给出了一组P个手写字图像,Xs=xijj=1,作为每个作家的几个书法风格的例子。X s中的上标“s”表示使用该集合作为被转移到目标图像的手写风格的源X~t具有新的实际内容和一致的样式属性。文本内容表示为一组输入查询词字符串为一个j其中每个单词串a,j包括来自允许字符集的任意数量的字符。该集合包括字母、数字和标点符号等。 给定一个查询文本字符串一个 j从一组 无约束 的vocabulary和Xs,我们的模型倾向于生成具有相同文体与内容的纠缠,在文字和文字上都有-水平 而[5,14]则侧重于捕捉写作风格文本我期望的作家i的写作风格中的j。在全局水平上,所提出的方法努力模仿全局和局部书写风格。3. 该方法动机:为了激励我们提出的HWT方法,我们首先区分两个期望的特性,当设计一种用于在几个镜头设置中具有不同长度和任何期望样式的样式化手写文本生成的方法时,需要考虑,而不使用字符级注释。风格-内容纠缠:如前所述,在最近引入的基于GAN的作品[ 14,5 ]中,风格和内容都是松散联系的,它们分别处理风格和内容特征,然后再连接起来。这样的方案不显式地编码样式-内容en-整体架构:图2给出了我们提出的HWT方法的概述,其中条件生成器Gθ合成手写文本图像,鉴别器Dψ确保手写样式的真实生成,识别器R 辅 助文本内容保存,并且样式分类器Sn确保令人满意的手写样式的转移。我们设计的重点是引入一个基于转换器的生成网络,用于无约束风格的手写文本图像生成。我们的生成器Gθ的设计考虑到了前面列出的理想特性,利用了Transformer模型令人印象深刻的学习能力为了精确地模仿手写风格,模型需要学习风格-内容纠缠以及全局和局部风格模式。为此,我们引入了一个基于变压器的手写-1089我我我我我C∈--∈我我我∈ AA →图2:生成样式化手写文本图像X〜t的手写文本变换器(HWT)的总体架构。 HWT包括具有编码器T_E和解码器网络T_D的条件生成器。编码器和解码器网络都构成混合卷积和多头自注意设计,其结合了CNN和基于Transformer的模型的优点,即,高表现力的关系建模,同时处理有限的手写风格示例图像。结果,我们的设计无缝地实现了风格-内容纠缠,编码文本内容之间的关系和作者ing生成模型,该模型使我们能够通过利用自我注意机制来捕获样式示例Xs内的长范围和短范围上下文关系以这种方式,全局和局部样式模式都被编码。此外,我们的基于变换的模型包括一个编码器-解码器的注意,允许通过推断每个查询字符的样式表示的基于变换器的设计的直接适用性是不可行的,在我们的少数拍摄设置,由于其大的数据需求和二次复杂性。为了规避这个问题,我们提出的架构设计利用CNN特征空间内的Transformer的expressivity。提出的HWT方法的主要思想是简单而有效的。首先使用基于变换器的编码器T_E解码器T_D,用于生成特定作者风格的查询文本我们定义可学习的嵌入向量qcR512为每个字符c的允许字符集。例如,我们将查询词“deep”表示为其相应字符嵌入的序列Qdeep=qd。. . qp.我们将它们称为查询嵌入。这种查询词的字符式表示和基于变换器的序列处理有助于我们的模型生成可变长度的手写词,并且还使其更有效地产生词汇表外的词。此外,它避免了平均化单个字符特定的风格以保持整体(全局和局部)写作风格。通过变换器模块中的自注意力和编码器-解码器注意力来确保逐字符样式内插和传递,所述变换器模块基于作为输入提供的一组手写样本来推断每个查询字符的样式表示。我们描述了建议的生成体系结构在二。第3.2节中的损失目标。三点三3.2. 生成网络发电机Gθ包括两个主要部件:编码器网络TE:Xs-Z和解码器网络TD:(Z,)X~t。编码器产生特征嵌入序列ZRN×d(称为样式fea-真实序列)从给定的样式示例集合Xs中生成。解码器将Z作为输入,并将输入单词串aj转换 为具有与作者i的给定示例X s相同风格的真实手写图像X ~ t。编码器和解码器网络两者构成了混合的de.基于卷积和多头自注意网络符号。这种设计选择结合了CNN和Transformer模型的优点,高度表达的关系建模,同时处理有限的手写图像。值得一提的是,仅CNN设计将难以对序列内的长期关系进行建模,而仅基于Transformer网络的架构将需要大量数据和更长的训练时间[16]。1090我∈×个×个∈ ∈∈N×× ××个.Σ∈我JK k=1K k=1编码器TE. 编码器的目标是对全局和局部书法风格属性(即,倾斜、歪斜、字符形状、连字、墨水宽度等)。从样式示例Xs。在将样式图像提供给高度表达的Transformer架构之前,我们需要将样式示例表示为序列。一种直接的方法是将图像像素展平为1D矢量[6]。然而,鉴于Transformer模型的二次复杂性相反,我们使用CNN骨干网络从样式图像中获得卷积特征序列。首先,我们使用ResNet18 [12]模型为每个样式图像x ij生成较低分辨率的激活图hijRh×w×d。然后,我们将hij的空间维度变平以获得大小为n d的特征图序列,其中n=h w。特征序列中的每个向量表示原始图像中的区域,并且可以被认为是该特定区域的图像描述符之后我们将从所有风格图像中提取的特征序列向量连接在一起以获得单个张量Hi∈RN×d,其中N=n×P。图3:在Transformer解码器的最后一层处的编码器-解码器注意力图的可视化。针对查询词(“统计”)中的每个字符计算注意力图这里,示出了对应于四个不同查询字符例如,对应于字符“t”的左上注意力图m,j是取决于单词而可变的),查询em-mj层理Qa={qc}被用作学习的位置en-下一步包括对全局和局部所获得的特征序列Z的所有实体之间的组合。基于变换器的编码器被用于该目的。编码器有L层,其中每层都有一个标准架构,由多头编码到解码器的每个关注层。直观地,每个查询嵌入学习在样式图像中查找感兴趣的区域,以推断所有查询字符的样式属性(参见图1B)。(3)第三章。在多个连续的解码层上,这些输出嵌入积累风格信息。自我注意模块和多层感知器(MLP)步骤,产生最终输出Fa={fc}mj∈Rmj×d。块在每个层l,多头自注意力将来自前一层Hl-1的输入序列映射到由下式给出的中间表示的三元组(键K,查询Q,值V)中,Q=Hl−1WQ,K=Hl−1WK,V=Hl−1WV,其中WQRN×dq,WKRN×dk 关于WVRN×dv分别是查询、键和值的可学习权重矩阵。对于每个头,过程表示为,我们在每个解码器层并行处理整个查询嵌入我们将随机采样的噪声向量(0,1)添加到输出F aj,以便对个体手写的自然变化进行建模。 对于一个m个字符的单词,我们将这些mj个嵌入向量连接起来,并将它们通过一个线性层,得到一个mj8192矩阵。在将其整形为51244mj的维度之后,我们将其通过具有四个残差块的CNN解码器,然后是tanh激活层,以获得最终输出图像(样式化手写文本图像)。0j=softmaxQKTDKV∈R N×d v, j ∈ {1,…J}。(一)3.3. 培训和损失目标我们的训练算法遵循传统的GAN所有J个头输出O=[O1,. . . ,0J]被馈送通过MLP层以获得层1的输出特征序列H1。对总共L个图层重复此更新过程,从而得到最终要素序列ZRN×d.为了保留关于所提供的输入序列的顺序的信息,我们向每个注意层的输入添加固定位置编码[23解码器TD。解码器中的初始阶段使用范例,其中采用鉴别器网络Dψ来区分从生成器Gθ生成的样本与真实样本。由于所生成的单词图像具有变化的宽度,因此所提出的鉴别器DΦ也被设计为本质上是卷积的。我们使用对抗损失的铰链版本[18]定义为:Ladv=E[max(1-Dψ(Xs,0))]+标准架构的Transformer器,包括多头自我和编码器-解码器注意机制我E[max(1 + Dψ(Gθ(Xs,A)),0)].(二)nisms。与自注意不同,编码器-解码器注意从编码器的输出导出键和值向量,而查询向量来自解码器层本身。F或mj特征标wordaj∈A(length虽然Dψ促进了真实的图像,但它并不预服务于内容或书法风格。为了保留生成的样本中的文本内容,我们使用手写识别器网络R,该网络检查生成的样本是否为文本内容。√J1091我∇∇我 我R我我我 我我我 1联系我们实际上,文本是真实的文本。 识别器R 受CRNN的启发[21]。CTC损失[10]用于将识别器输出与作为Gθ输入的查询词进行比较。识别器R仅针对真实的、带标签的手写样本进行优化,但它用于鼓励Gθ生成具有准确内容的可读文本。损失的定义是,表1:HWT与GANwriting [14]和Davis等人的比较。[5]在生成的文本图像和IAM数据集的真实文本图像之间计算的FID分数方面。我们的HWT在所有四种设置中对[14,5]表现良好:词汇中的词和所见的风格(IV-S)、词汇中的词和所见的风格(IV-U)、词汇外的内容和所见的风格(OOV-S)和词汇外的内容和所见的风格(OOV-S)。LR=Ex{Xs,X~t}Σ−Σlog(p(yr|R(x))Σ。(三)词汇内容和看不见的风格(OOV-U)。关于Chal-延长OOV-U的设置,HWT实现绝对增益这里,y是x,Xs,X~t,.为16. 与GANwriting相比,FID评分为5[14]。采用风格分类器网络Sη来指导风格分类。网络Gθ在产生以特定写作风格为条件的样本中的应用。网络Sn试图预测给定手写图像的作者。交叉熵目标被应用为损失函数。Sn仅使用下面给出的损失在真实样本上训练,LS=Ex{Xs,X~t}Σ−Σyilog(Sη(x))Σ。(四)62,857个英语单词,由500个不同的作家写的。为了进行彻底的评估,我们保留了160个作家的独家子集进行测试,而其余340个作家的图像作家是用来训练我们的模特的。 在所有实验中,我们的设计的一个重要特征是利用周期损失,其确保编码的样式特征具有周期一致性。该损失函数强制解码器在解码过程中保留样式信息,使得可以从所生成的图像重建原始风格特征序列。在生成的顺序图像X~t中,我们使用编码器TE来重构风格特征序列Z~。循环损失Lc通过下式最小化样式特征序列Z与其重构Z之间的误差借助于L1距离度量,Lc=ETE(Xs)−TE(X~t)。(五)循环损失向解码器施加正则化,以用于一致地模仿所生成的样式化文本图像中的书写风格。总的来说,我们以端到端的方式训练HWT模型,损失目标如下:L总=Ladv+LS+LR+ Lc。(6)我们观察到平衡网络Sη的梯度和R在我们的损失公式的训练中是有帮助的。在[3]之后,我们对Sη和R进行归一化以具有与对抗性损失梯度相同的标准差(σS ← α. σD。SΣ,σD。RΣ。(七)我们将图像调整为64像素的固定高度,而main-保持原始图像的宽高比。对于训练,我们使用P=15风格的示例图像,如[14]所示。Transformer编码器和变换器解码器都采用3个注意层(L=3),并且每个注意层应用具有8个注意头(J=8)的多头注意。我们将嵌入大小d设置为512。在所有实验中,我们在单个V100GPU上训练了4k epochs的模型,批量大小为8。在训练期间采用Adam优化器,学习率为0.0002。4.1. 样式化手写文本生成我们首先评估(Tab?1)我们的用于风格化手写文本图像生成的方法,其中期望在生成的文本图像中模仿风格和在[14]中,我们使用Fre` chet起始距离(FID)[13]评估度量进行比较。FID度量通过计算从每个写入器的生成样本和真实样本中提取我们使用GANwriting[14]和Davis等人评估我们的HWT。[5]在四个不同的设置:在词汇和看到的风格(IV-S),在词汇和看不见的风格(IV-U),出-ησSησRof-词汇词和所见样式(OOV-S),以及Out-of-Vocabulary words and unseen styles(OOV-U). 之间这里,α是一个超参数,在我们的模型训练期间固定为14. 实验我们在IAM手写数据集[19]上进行了广泛的实验1它由9862个文本行组成,其中1其他实验,包括(i)CVL和RIMES数据集的定量比较和(ii)手写文本识别(HTR)结果,在补充材料中列出。IV-S↓IV-U↓OOV-S ↓OOV-U ↓GANwriting [14]120.07124.30125.87130.68Davis等[五]《中国日报》118.56128.75127.11136.67HWT(我们的) 106.97108.84109.45114.101092在这些设置中,最具挑战性的一个是OOV-U,其中在训练期间从未看到单词和写作风格对于OOV-S和OOV-U设置,我们使用与IAM数据集转录不同的400个单词的集合,如[14]所示。在所有四种设置中,真实样本和生成样本的转录是不同的。选项卡. 1显示HWT相对于两种现有方法[14,5]表现良好。图4呈现了HWT与[14,5]用于风格化手写文本生成的定性比较。我们提出1093图4:我们的HWT(第二列)与GANwriting [14](第三列)和Davis等人的定性比较。[5](第四列)。我们使用相同的文本内容,第一列显示了来自不同作者的样式示例。Davis等[5]捕获全局样式,例如倾斜,但努力模仿特定角色的风格细节。另一方面,由于GANwriting [14]仅限于固定长度的查询词,因此无法完成所提供的文本内容。我们的HWT更好地模仿全局和局部风格模式,生成更真实的手写文本图像。不同作者的结果,其示例样式图像显示在第一列中。对于所有这三种方法,我们使用相同的文本内容。而Daviset al. [5]遵循从顶部开始的最后一个样式示例的向左倾斜,他们的方法努力捕获字符级别的样式和cursive模式(例如,见单词另一方面,GANwriting [14]很难从顶部和字符级别的样式遵循最后一个样式示例的左倾斜。我们的HWT更好地模仿这些生成的示例文本图像中的全局和局部样式4.2. 手写文本生成在这里,我们评估我们的HWT生成的手写文本图像的质量为了与最近引入的ScrabbleGAN [7]和Davis等人进行公平比较。[5],我们在与[7,5]相同的评估设置中报告我们的结果选项卡. 2与[7,5]在FID和几何评分(GS)方面进行了比较。我们的HWT实现了良好的性能,相比这两种方法的FID和GS分数。不同于Tab。1,此处报告的结果见表1。2表示与IAM数据集中的真实示例相比,生成的图像的质量,同时忽略风格模仿能力。4.3. 消融研究我们在IAM数据集上执行多个消融研究,以验证我们 的 框 架 中 不 同 组 件 的 影 响 选 项 卡 . 3 显 示 集 成Transformer的影响表2:我们提出的HWT与ScrabbleGAN [7]和Davis等人的手写文本图像生成质量比较。[5]在IAM数据集上。按照与[7,5]相同的评估设置,我们的HWT在FID和GS方面对这些方法表现良好。最佳结果以粗体显示。FID↓GS↓ScrabbleGAN [7]20.72二、56 ×10−2Davis等[五]《中国日报》20.654.第一章88×10−2HWT(我们的)19.401 .一、01×10−2编码器(Enc)、Transformer解码器(Dec)和周期损耗(CL)到基线(Base)。我们的基准既不使用变压器模块,也不利用循环损失。 它只雇用 CNN编码器以获得风格特征,而内容特征从查询词的独热表示中提取。内容和样式特征都通过CNN解码器来生成样式化的手写文本图像。虽然基线能够生成逼真的文本图像,但它模仿给定作者的风格的能力有限,导致较差的FID分数(行1)。将Transformer编码器引入基线(第2行)导致FID得分方面的绝对增益为5.6,突出了我们的基于变压器的自关注特征序列在发生器编码器中的重要性。我们在这里观察到,生成的示例仍然缺少1094表3:将Transformer编码器(Enc)、变压器解码器(Dec)和循环损耗(CL)集成到基线(Base)对IAM数据集的OOV-U设置结果以FID评分报告。最佳结果以粗体报告。在右边,我们示出了当生成模仿两种给定书写风格的两个示例词“freedom”和“precise”时每个成分的效果FID↓样式示例基地134.45底座+外壳128.80基数+基数124.81基础+ Enc + Dec116.50基础+ Enc + Dec + CL114.10特定字符样式的术语。当将Transformer解码器集成到基线中(第3行)时,我们观察到FID得分方面的9.6的显著增益。值得注意的是,我们观察到一个显着的改善(17.9在FID)时,整合Transformer编码器和解码器的基线(行4)。这表明自我和编码器-解码器的注意力,实现现实风格的手写文本图像生成的重要性。通过将周期损耗引入到我们的最终HWT架构(行4),性能得到如前所述(第二节)3.2),HWT通过将查询字符嵌入馈送到Transformer解码器网络来争取字符级的样式-内容纠缠。在这里,我们评估字符级内容编码(条件反射)的效果,将其替换为单词级条件反射。我们获得字级嵌入,通过使用MLP,旨在获得每个查询词的字符串表示。这些嵌入被用作Transformer解码器的条件输入。表4表明,HWT受益于字符级调节,确保更好地控制文本样式。词级condi- tioning的性能仅限于模仿全球的风格,而我们的字符级的方法,确保本地现实以及全球一致的风格模式。4.4. 人工评价在这里,我们提出了我们的两个用户的研究结果,对100名人类参与者2,以评估所提出的HWT是否首先,用户偏好研究将我们的方法生成的样式化文本图像与GANwriting [14]和Davis等人进行了比较。[5]的文件。第二,用户似然性研究,其评估由我们的方法生成的合成样本与真实样本的接近度在这两项研究中,合成2补充材料中提供了更多细节。表4:IAM数据集上的单词和字符级条件反射之间的比较结果以FID评分报告我们的字符水平的条件反射表现favorably相比,它的单词水平的副本。最佳结果以粗体报告。在右边,我们展示了单词和字符水平条件作用的效果,当生成两个示例词FID↓样式示例词级126.87字符级114.10使用IAM数据集的测试集作者的看不见的书写风格生成样本,并且对于文本内容,我们使用来自StanfordSentiment Treebank [22]数据集的句子。对于用户偏好研究,向每个参与者显示一个人的真实手写段落和使用HWT,Davis等人合成的该人的手写样本。[5]和GANwriting [14],随机组织。要求参与者标出模仿真实笔迹风格的最佳方法我们总共收集了1000份回复。这项研究的结果表明,我们提出的HWT是首选的81%的时间比其他两种方法。对于用户可信性研究,向每个参与者显示一个人参与者被要求通过查看人的真实笔迹的示例来识别给定的手写样本是否是真实的(伪造的/合成的)。因此,每个参与者提供60个响应,从而我们为100个参与者收集6000个响应。对于这项研究,只有48.1%的图像已被正确分类,从而显示出一个相当的,一个随机选择的两类问题的性能5. 结论我们介绍了一种基于变换器的风格手写文本图像生成方法,HWT,其中包括一个条件生成器具有编码器-解码器网络。我们的HWT通过自我注意机制捕获写作风格示例中的长距离和短距离上下文关系,从而编码全局和局部写作风格模式。此外,HWT利用编码器-解码器注意力,通过推断每个查询字符的样式表示,在字符级实现样式-内容纠缠。定性,定量和基于人的评价表明,我们的HWT产生现实风格的手写文本图像具有不同的长度和任何所需的写作风格。1095引用[1] Emre Aksan和Otmar Hilliges。Stcn:随机时间卷积网络。arXiv预印本arXiv:1902.06568,2019。[2] EmreAksan 、 FabrizioPece 和 OtmarHilliges 。Deepwriting- ing:通过深度生成模型使数字墨水可编辑。在CHI,第1-14页[3] 埃洛伊·阿隆索、巴斯蒂安·莫耶塞特和罗纳尔多·梅西纳。以序列为条件的手写文本图像的对抗性生成。见ICDAR,第481-486页。IEEE,2019。[4] Bo Chang,Qiong Zhang,Shenyi Pan,and Lili Meng.用cyclegan生成手写汉字。WACV,第199-207页。IEEE,2018年。[5] 布莱恩·戴维斯,克里斯·坦斯迈尔,布莱恩·普莱斯,柯蒂斯·威金顿,布莱恩·莫尔斯和拉吉夫·杰恩。用于生成脱机手写线的文本和样式BMVC,2020年。[6] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。[7] Sharon Fogel、Hadar Averbuch-Elor、Sarel Cohen、ShaiMa- zor和Roee Litman。Scrabblegan:半监督变长手写文本生成。在CVPR,第4324-4333页[8] Ian J Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu , David Warde-Farley , Sherjil Ozair , AaronCourville,and Yoshua Bengio.生成对抗网络。arXiv预印本arXiv:1406.2661,2014。[9] 亚历克斯·格雷夫斯使用递归神经网络生成序列。arXiv预印本arXiv:1308.0850,2013。[10] Al e xGr av es,SantiagoFer na´ ndez,FaustinoGomez,andJ ür genSchmidhube r. 连接主义时间分类:用递归神经网络标记未分割序列数据。在ICML,第369-376页[11] Tom SF Haines , Oisin Mac Aodha , and Gabriel JBrostow.我的短信是你的笔迹。TOG,35(3):1[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。arXiv预印本arXiv:1706.08500,2017。[14] LeiKang ,PauRiba,YaxingWang,Mar c alRus in ol,Ali- ciaFor n´ s,andMauricioVill eg as. Ganwriting:基于内容的风格化手写单词图像的生成.参见ECCV,第273-289页。Springer,2020年。[15] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在CVPR中,第4401-4410页[16] Salman Khan 、 Muzammal Naseer 、 Munawar Hayat 、Syed Waqas Zamir 、 Fahad Shahbaz Khan 和 MubarakShah。视觉中的变形金刚:一个调查。arXiv预印本arXiv:2101.01169,2021。[17] Atsunobu Kotani,Stefanie Tellex和James Tompkin。通过解耦的样式描述符生成手写体。参见ECCV,第764-780页。Springer,2020年。[18] Jae Hyun Lim 和 Jong Chul Ye 。 几 何 杆 arXiv 预 印 本arXiv:1705.02894,2017。[19] U-V玛蒂和霍斯特·邦克IAM数据库:一个用于脱机手写识别的英文句子数据库。IJ-DAR,5(1):39[20] Martin Mayr 、 Martin Stumpf 、 Anguelos Nikolaou 、Math- ias Seuret、Andreas Maier和Vincent Christlein。时空笔迹模仿。arXiv预印本arXiv:2003.10593,2020。[21] 石宝光、向白、丛瑶。基于图像序列识别的端到端可训练神经网络及其在场景文本识别中的应用。PAMI,39(11):2298[22] Richard Socher 、 Alex Perelygin 、 Jean Wu 、 JasonChuang 、 Christopher D Manning 、 Andrew Y Ng 和Christopher Potts。基于情感树库的语义组合递归深度模型在EMNLP,第1631[23] 作者:Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszko-reit , Llion Jones , Aidan N.Gomez ,undefinedukasz Kaiser,and Illia Polosukhin.注意力是你所需要的在NIPS,第6000-6010页Curran Associates Inc.[24] Jun-Yan Zhu , Taesung Park , Phillip Isola , Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在ICCV,第2223
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功