HWT：基于Transformer的风格化手写文本生成方法

PDF格式 | 1.7MB | 更新于2025-01-16 | 164 浏览量 | 举报

"本文介绍了一种名为‘手写变形金刚’(Handwriting Transformer, HWT)的新型基于Transformer的风格手写文本生成方法，旨在学习风格与内容的交织，并捕捉全局和局部的风格模式。HWT利用自注意力机制来处理长距离和短距离的关系，以编码全局和局部的风格特征。此方法是首次将Transformer架构应用于风格化手写文本生成，能生成逼真的手写文本图像，并在各种评估中表现优越。HWT可处理任意长度的文本和任何风格，即使在训练时未见过的单词和风格也能生成真实感的手写图像。项目代码可在GitHub上找到：https://github.com/ankanbhunia/Handwriting-Transformer" 1. 引言手写文本生成是一个复杂的问题，特别是当涉及到风格和词汇的多样性时。这项技术对那些因身体障碍无法书写的人尤其有用，也可以用于生成额外的数据来训练深度学习的手写文本识别模型，或者将笔记和备忘录从一种语言转换为另一种语言。手写变形金刚关注的是生成具有任意长度和多种书法特征的无约束手写文本，同时模仿特定的写作风格。 2. 方法 HWT模型基于Transformer架构，它包含一个编码器和一个解码器，编码器通过自注意力机制捕获风格样本内的长距离和短距离关系，解码器则根据查询字符收集风格特征。这种设计使得HWT不仅能捕捉全局风格（如整体倾斜），还能模仿局部风格（如字符样式和连字），从而生成更逼真的手写文本图像。 3. 实验与评估通过广泛的定性、定量和基于人类的评价，HWT显示出了优于现有先进方法的表现。在对比实验中，例如与GANwriting和Davis等方法的比较，HWT在模仿看不见的写作风格时，能够更好地同时复制全局和局部风格，生成更接近实际手写的图像。 4. 应用与局限 HWT的应用不仅限于辅助书写，还可以用于个性化字体设计、历史文档复原和手写识别模型的训练增强。然而，尽管HWT在概括未知风格和单词方面表现出色，但可能仍存在对于某些极端或复杂风格的局限性，这需要进一步的研究和优化。 5. 结论手写变形金刚是风格化手写文本生成领域的创新尝试，其基于Transformer的设计使得它能够有效地处理风格与内容的复杂关系。未来的工作可能涉及提高模型的泛化能力，处理更多样化的写作风格，以及探索更多的应用场景。 6. 可视化示例文中提供了HWT生成的手写文本图像与现有方法的对比，直观地展示了HWT在细节和真实性上的优势。 7. 讨论与展望尽管HWT在生成逼真手写文本方面取得了进展，但如何确保生成文本的可读性和一致性，以及如何适应动态变化的书写风格仍然是需要解决的问题。未来的研究可能会探索如何结合其他深度学习技术，如条件随机场或递归神经网络，以进一步提升生成效果。

1086

手写变形金刚

Ankan Kumar Bhunia

Salman Khan

，

Hisham Cholakkal

Rao Muhammad Anwer

Fahad Shahbaz Khan

，

Mubarak Shah

1阿联酋

穆罕默德·本·扎耶德大学

澳大利亚国立大学

Linko¨ pingUni versity，Sweden

Uni versityofCentralFlorida，USA

摘要

我们提出了一种新的基于变压器的风格手写

十文本

图像生成方法，

HWT

，努力学习风格内容纠缠以及全

球和本地的风格模式。所提出的

HWT

通过自注意机制

捕获风格示例内的长范围和短范围关系，从而对全局

和局部风格模式进行编码。此外，所提出的基于变换

器的

HWT

包括编码器

解码器注意，其通过收集每个查

询字符的样式特征来据我们所知，我们是第一个引入

基于

Transformer

的网络用于风格化手写文本生成的。

我们提出的

HWT

生成逼真风格的手写文本图像，并

通过广泛的定性，定量和基于人的评价表现出优于最

先进的。所提出的

HWT

可以处理任意长度的文本和任

何所需的写作风格，在几个镜头设置。此外，我们的

HWT

很好地概括了具有挑战性的场景，其中单词和写

作风格在训练期间都是不可见的，生成逼真的手写文

本图像。代码可在以下网址获得：变形

https://github.com/ankanbhunia/Handwriting-

金刚

介绍

生成逼真的合成手写文本图像，从键入的文本，这

是通用的两个书面- 风格和词汇的研究是一个具有挑

战性的问题。自动手写文本生成对于具有残疾或受伤

的人可能是有益的，这些残疾或受伤的人通过调整作

者的写作风格或收集用于训练基于深度学习的手写文

本识别模型的附加数据来防止他们书写、将笔记或备

忘录从一种语言翻译成另一种语言在这里，我们调查

的问题，现实的手写文本生成的无约束的文本序列与

任意长度和不同的书法属性代表的写作风格的作家。

图1：HWT（c）与GANwriting的比较 [14]

（d）和Daviset al. [5]（e）在针对给定查询文本（b）

模仿期望的看不见的书写风格（a）中。而[14，5]捕

获全局书写风格（

例如

，倾斜），他们努力模仿当地

风格模式（

例如

，字符样式、连字）。HWT（c）模

仿全局和局部风格，导致更真实的风格手写文本图像

生成。例如，对于包括相同字符“n”的不同单词，出现

在（a）中的“n”（红线）的样式类似地，“thought”和

“personalities”（蓝色和洋红色线条）中的一组字符此

外，HWT保留了单词“also”（绿线）中所有字符的草

书模式和连接性

已经研究了生成对抗网络（GAN）[8]用于离线手写

文本图像生成

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

HWT：基于Transformer的风格化手写文本生成方法

Transformer_STR:我的基于Transformer的场景文本识别新方法（STR）的PyTorch实现，配备了Transformer，在CUTE80上，该方法的最佳模型优于上述深层文本识别基准的7.6％

手写文字生成器

HandWritingGenerator:手写生成器

变形金刚：:hugging_face:变形金刚：Pytorch和TensorFlow 2.0的最新自然语言处理

基于Transformer模型的AMR文本生成研究

视觉变形金刚：最近一些基于变形金刚的简历作品

手写字识别-基于Transformer实现手写字文本识别-附项目源码-优质项目实战.zip

"深度解析ChatGPT：基于Transformer的自然语言生成模型

视觉领域变形金刚：最新的Transformer简历作品

ChatGPT详解：基于Transformer的对话生成与NLP应用

最新资源