ScrabbleGAN:半监督手写文本生成模型

15 浏览量更新于2023-10-23 收藏 14.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43240ScrabbleGAN：半监督可变长度手写文本生成0Sharon Fogel † ，Hadar Averbuch-Elor § ，Sarel Cohen ，Shai Mazor † 和 Roee Litman †0† 亚马逊认知，以色列 § 康奈尔科技，康奈尔大学0摘要0在深度学习时代，光学字符识别（OCR）系统的性能得到了显著提高。对于手写文本识别（HTR）来说尤其如此，因为每个作者都有独特的风格，而印刷文本的变化则较小。然而，基于深度学习的HTR受到训练样本数量的限制，就像其他任务一样。收集数据是一项具有挑战性和昂贵的任务，而随后的标注任务更是如此，我们在这里重点关注这一点。减轻数据注释负担的一种可能方法是半监督学习。半监督方法在改善性能方面使用除了标记数据之外的一些未标记样本，相比完全监督方法。因此，这种方法可以在测试时适应未见过的图像。我们提出了ScrabbleGAN，一种半监督方法，用于合成具有多样化风格和词汇的手写文本图像。ScrabbleGAN依赖于一种新颖的生成模型，可以生成任意长度的单词图像。我们展示了如何以半监督的方式操作我们的方法，享受先进的完全监督HTR的性能提升。此外，我们的生成器可以操纵生成文本的风格。这使我们能够改变文本是否是草书风格，或者笔画有多细。01. 引言0使用手写记录知识是人类最大的成就之一：最古老的书面记录标志着从史前时代到历史时代的过渡，事实上，大多数历史事件的证据可以在手写的脚本和标记中找到。即使在15世纪中叶古腾堡的印刷机出现之后，手写仍然是记录事件和数据的主要方式。无论是印刷还是手写，都在数字时代变得有些过时。0通讯作者：shafog@amazon.com §在亚马逊工作期间完成的工作。0图1：使用我们的网络以不同风格书写的电影《雨中曲》中的单词“Supercalifragilisticexpialidocious”（34个字母）。请注意，其中一些风格是草书风格。0数字时代，法庭速记员正被技术所取代[4]，此外，我们输入的大多数文本仍然以数字形式存在，从未见过纸张。然而，手写文本在今天仍然有许多应用，多年来积累了大量手写文本，可以进行处理，而且今天仍然在继续书写。医疗保健和金融机构是手写仍然被使用的两个突出案例。这些机构需要将手写文本提取出来并使其可访问，例如通过现代搜索引擎。虽然现代OCR似乎已经足够成熟以处理印刷文本[18，19]，但手写文本识别（HTR）似乎还不够成熟。我们将这种差距归因于多方面的原因，既缺乏多样化的手写文本注释，也难以获得这些注释。在这项工作中，我们尝试通过创建真实的合成文本来填补这一差距，减少注释的需求，并丰富训练数据的风格和词汇的多样性。0我们的贡献有三个方面；首先，我们提出了一种新颖的全卷积手写文本生成架构，允许任意长度的输出。这与绝大多数与文本相关的解决方案形成了对比，后者只能生成固定长度的文本。GDR43250图2：生成单词“meet”的架构概述。右：ScrabbleGAN整体架构的示意图。四个字符过滤器被连接在一起（fe被使用两次），与噪声向量z相乘，并输入生成器G。生成的图像分别输入鉴别器D和识别器R，分别促进风格和数据的准确性。左：生成器网络G的详细示意图，显示每个连接的过滤器如何分别输入到一个类别条件的生成器中，其结果感受野重叠。这种重叠允许相邻字符相互交互，例如实现草书文本。0依赖于循环神经网络（RNN）。我们的方法能够生成任意长度的单词（例如，参见图1）甚至完整的句子。这种架构的另一个好处是它可以在不需要字符级注释的情况下学习字符嵌入。我们选择了这个方法的名称，是因为它的生成过程类似于Scrabble游戏中单词的创建方式，即通过将一些字母令牌连接成一个单词。其次，我们展示了如何在半监督的方式下训练这个生成器，允许对未标记的数据进行自适应，包括测试时的图像。据我们所知，这是第一个使用未标记数据来训练手写文本合成框架的方法。最后，我们提供了实证证据，表明训练词汇与HTR训练的样式丰富程度一样重要。这一事实强调了我们的方法相对于仅对训练图像进行变形和操作的方法的优势。02. Previous Work0手写文本识别可以看作是光学字符识别（OCR）的一个特定案例。这是一个经过深入研究的主题，在深入调查[31]中，HTR方法被分为在线和离线方法，它们通过所消耗的数据类型而有所不同：在线方法可以访问在文本书写时的笔位置，而0因此可以消除交叉笔画的歧义。相反，离线方法仅能访问最终的文本图像（即光栅化），可能还存在一些背景噪音或杂乱。显然，在线方法在数据质量方面比离线方法具有严格的优势，但需要额外的设备（如触摸屏）来捕捉笔画数据。因此，在自然环境中大量创建在线数据更加困难。此外，这些方法不适用于完全离线的历史手稿和标记。因此，我们选择专注于离线方法，并将在线方法排除在本文范围之外。0现代HTR方法利用深度网络的最新进展，在大多数现代基准测试中取得了最佳性能。其中许多方法受到卷积循环神经网络（CRNN）架构的启发，最初由Shi等人[35]用于场景文本识别。Poznanski等人[32]使用CNN估计图像的n-gram概率，并将其与字典中现有单词的概率进行匹配。Sudholt等人的PHOCNet[36]通过使用字符的金字塔直方图（PHOC）扩展了后者，主要用于单词定位。Suerias等人[37]使用了受到序列到序列[38]启发的架构，其中他们使用了一个注意力解码器，而不是使用CRNN。43260直接输出。Dutta等人[10]将几个最新的文本识别进展编译成一个强大的架构，类似于最近由Baek等人[3]提出的用于场景文本识别的现代网络。0手写文本生成（HTG）是一个相对较新的领域，由Graves[12]提出，他介绍了一种基于循环网络合成在线数据的方法。Ji等人[22]提出了[12]的现代扩展，他们在GAN范式[11]中添加了一个鉴别器。DeepWriting[1]通过将样式生成与内容解耦，提供了对[12]的更好控制。Haines等人[15]提出了一种基于特定作者生成手写的方法，但对于每个新的数据样本，需要耗时的字符级注释过程。虽然所有先前的HTG方法都展示了视觉上令人满意的结果，但与我们接下来讨论的方法不同，它们都没有用于增强HTR训练数据。0使用生成模型进行数据增强。生成模型（特别是GAN）用于基于真实样本合成逼真的数据样本。这些新生成的图像的一个可能用途是将它们添加到原始训练集中，从而以自举的方式增强训练集。Wang等人[39]的低样本学习方法就是最近的一个例子，他们将这个过程以端到端的方式纳入任务损失中。对于这个案例，我们关注使用HTG或类似方法学习手写示例的增强的方法。一个直接的例子是Bhunia等人[5]提出的方法，他们训练了一个GAN来使用参数化函数扭曲训练集。与我们的方法不同，这种方法无法生成给定词汇表之外的单词，这是一个关键的属性，正如我们下面所示（见表3）。Krishanan等人[26]提出了一种利用合成数据进行单词定位的方法，而不依赖于特定的合成数据来源（例如可以使用我们的方法生成的数据）。Alonso等人[2]提出了一种新的HTG模型，类似于[39]中的工作，这又启发了我们的方法。[2]中提出的网络使用LSTM将输入单词嵌入到一个固定长度的表示中，然后可以将其馈入BigGAN[6]架构。与我们的方法相反，这个生成器只能在所有单词长度上输出具有固定宽度的图像。使用完全卷积生成器的另一个巨大优势是不需要使用循环网络学习整个单词的嵌入，我们可以直接学习每个字符的嵌入，而不需要字符级注释。Ingle等人[20]最近提出的一种方法使用了与[12]类似的在线生成器，然后进行渲染。0该方法与一些合成噪声或其他干扰因素的生成方法相结合。由于该方法依赖于在线数据生成器，因此无法适应未见过的离线数据集的多样性和典型噪声，我们认为这是常见的使用情况。0经典的数据增强主要是为了完整性而提到的，包括一些使用较简单方法合成训练样本的方法，例如使用手写字体，如[27]所提出的方法。上面提到的大多数HTR方法都使用某种随机参数空间扭曲来增加数据的视觉变化性。Puigcerver[33]进一步推动了这一概念，并提出如果提供了数据扭曲，较简单的一维循环层可能足够。03.方法0我们的方法遵循GAN范式[11]，除了鉴别器D之外，生成的图像还通过文本识别网络R进行评估。D促进逼真的手写风格，R鼓励结果可读且与输入文本一致。我们的架构的这一部分类似于[2]中提出的架构，并在图2的右侧进行了说明。该架构通过两个网络的联合损失项ℓ来最小化。0ℓ = ℓ D + λ ∙ ℓ R，(1)0其中ℓ D 和ℓ R分别是D和R的损失项。我们方法的主要技术创新在于生成器G，我们在3.1节中进行了描述。对鉴别器D和识别器R进行的其他修改在3.2和3.3节中进行了介绍。我们在3.4节中对参数λ进行了一些优化考虑。03.1.完全卷积生成器0我们设计的主要观察是手写是一个局部过程，即每个字母的书写仅受其前一个字母和后一个字母的影响。这一观察的证据可以在之前的作品中看到，比如[12]，其中合成器的注意力集中在当前字母的直接邻居上。这种现象并不是微不足道的，因为[12]中的架构使用了循环网络，我们认为它对注意力没有施加任何约束，而是‘自由’地学习它。我们的生成器旨在模仿这个过程：不是像[2]中那样将图像生成为整个单词表示，而是逐个生成每个字符，利用CNN的重叠感受野来考虑附近字母的影响。换句话说，我们的生成器可以看作是相同类别的连接。43270有条件的生成器[30]，其中每个类都是一个字符。这些生成器中的每一个都会产生一个包含其输入字符的补丁。每个卷积上采样层都会扩大感受野，以及两个相邻字符之间的重叠。这种重叠允许相邻字符进行交互，并创建平滑的过渡。生成过程在图2的左侧进行了说明，用于单词“meet”。对于每个字符，从与字母表一样大的滤波器库F中选择一个滤波器f*，例如对于小写英语，F = {fa,fb，...，fz}。在图2中，这样的四个滤波器被连接在一起（fe被使用两次），并乘以一个控制文本风格的噪声向量z。可以看到，从每个字符滤波器f*生成的区域具有相同的大小，并且相邻字符的感受野重叠。这为输出的手写字符的实际大小和草书类型提供了灵活性。例如，字母“m”占据了大部分红色补丁，而字母“e”和“t”占据了其指定补丁的较小部分，后者是唯一的非草书字母。此外，学习相邻字符之间的依赖关系使得网络能够根据其相邻字符的不同变化来创建不同的变体。这样的例子可以在图1和图3中看到。每个图像的风格由作为网络输入的噪声向量z控制。为了在生成输入中的所有字符时生成相同的风格，这个噪声向量在整个生成过程中保持不变。03.2. 促进风格的鉴别器0在GAN范式中，鉴别器D的目的是区分由G生成的合成图像和真实图像。在我们提出的架构中，D的作用也是基于手写输出风格来区分这些图像。鉴别器的架构必须考虑到生成图像的长度变化，因此也被设计为卷积的：鉴别器本质上是具有重叠感受野的独立“真/假”分类器的串联。由于我们选择不依赖字符级别的注释，因此我们不能为每个分类器使用类别监督，与类别条件GAN（如[30,6]）不同。这样做的一个好处是我们现在可以使用未标记的图像来训练D，甚至来自其他未见过的数据语料库。一个汇聚层将所有分类器的得分聚合到最终的鉴别器输出中。03.3. 局部文本识别器0虽然鉴别器D促进真实的图像，但识别器R促进可读的文本，本质上区分了胡言乱语和真实文本。通过比较生成图像中的识别文本来“惩罚”生成的图像。0将R的输出与输入到G的输出进行比较。根据[2]，R仅在真实的标记的手写样本上进行训练。大多数识别网络使用循环模块，通常是双向LSTM[17]，它通过利用先前和后续图像块的信息来读取当前图像块中的字符。正如Sabir等人[34]所展示的，该网络学习了一个隐式的语言模型，它可以帮助识别正确的字符，即使字符书写不清晰，通过利用从文本中学习到的先验知识。虽然这种质量通常在手写识别模型中是期望的，但在我们的情况下，它可能导致网络正确识别生成器未清晰书写的字符。因此，我们选择不使用识别网络的循环“头”，只保留卷积主干。详细分析请参见补充材料。03.4. 优化考虑0生成器网络通过识别器损失ℓR和对抗损失ℓD进行优化。每个损失项的梯度可能差异很大。Alonso等人[2]提出了以下规则来平衡这两个损失项：0�IR ← α ∙ σ 0σ (�IR) ∙ [�IR - µ (�IR)] + µ (�ID)，0(2)其中σ(∙)和µ(∙)分别是经验标准差和均值，�IR和�ID分别是ℓR和ℓD相对于图像的梯度。参数α控制ℓR相对于ℓD的相对重要性。在本文中，我们选择仅基于损失的标准差而不是平均值进行平衡。0�IR ← α ∙ σ 0σ (�IR) ∙ �IR，(3)0以避免改变梯度�IR的符号。04. 结果04.1. 实现细节0在不失一般性的情况下，该架构被设计用于生成和处理高度固定为32像素的图像，此外，G的感受野宽度被设置为16像素。如第3.1节中所提到的，生成器网络G具有与字母表一样大的滤波器组F，例如，对于小写英文字母，F = {fa, fb, ...,fz}。每个滤波器的尺寸为32×8192。为了生成一个n个字符的单词，我们选择并连接这些滤波器中的n个（包括重复，如图2中的字母'e'），将它们与一个32维噪声向量z1相乘，得到一个n×8192的矩阵。接下来，将该矩阵重塑为一个512×4×4n的矩阵。43280图3：生成不同的风格。图中的每一行都是由相同的噪声向量生成的，产生相同的手写风格。从左到右每列生成的单词分别是：retrouvailles、´ecriture、les、´etoile、feuilles、soleil、p´eripat´eticien和chaussettes。0图4：Alonso等人[2]的工作结果（左列）与我们的结果（右列）对比olibrius、inventif、bonjour、ionique、malade、golf、ski、Dimanche、r´eparer、famille、gorille、certes、des、le等单词。0张量，即此时每个字符的空间尺寸为4×4。后一个张量被送入三个残差块，这些残差块上采样空间分辨率，创建前述的感受野重叠，并导致最终的图像尺寸为32×16n。使用条件实例归一化层[9]来调节残差块，使用三个额外的32维噪声向量z2、z3和z4。最后，使用具有tanh激活的卷积层来输出最终的图像。鉴别器网络D受到BigGAN[6]的启发：4个残差块，后面跟着一个具有一个输出的线性层。为了应对不同宽度的图像生成，D-0也是完全卷积的，基本上是在水平重叠的图像块上工作。最终的预测是图像块预测的平均值，这些预测被输入到一个GAN hinge-loss [28]中。识别网络R受到CRNN[35]的启发。网络的卷积部分包含六个卷积层和五个池化层，都使用ReLU激活函数。最后，使用线性层输出每个窗口的类别分数，将其与地面实况注释使用连接主义时间分类(CTC)损失[13]进行比较。我们的实验在一台配备了一块V100GPU和16GBRAM的机器上运行。有关架构的更多细节，请参阅补充材料。04.2. 数据集和评估指标0为了评估我们的方法，我们使用了三个标准基准：RIMES[14]，IAM[29]和CVL[25]。RIMES数据集包含来自法语的单词，涵盖了1300个不同作者写的大约60k张图像。IAM数据集包含大约100k张来自英语的单词图像。该数据集被分为由657个不同作者写的单词。训练集、测试集和验证集包含由相互独立的作者写的单词。CVL数据集由七个手写文件组成，我们只使用其中的六个是英语的。这些文档-FIDGSScrabbleGAN23.7823.7823.787.60×10−47.60×10−47.60×10−44.5. Boosting HTR performance43290约310名参与者撰写了大约83k个单词裁剪，分为训练集和测试集。所有图像都被调整为固定高度32像素，同时保持原始图像的纵横比。对于GAN训练的特定情况，仅在使用标签（监督情况）时，我们还将图像水平缩放，使每个字符的宽度与合成字符的宽度大致相同，即每个字符16像素。这样做是为了通过使真实样本更类似于合成样本来挑战鉴别器。我们使用两个常见的金标准指标来评估我们的方法。首先，词错误率（WER）是测试集中错误读取的单词数与单词总数之比。其次，标准化编辑距离（NED）是预测单词与真实单词之间的编辑距离，除以真实单词长度。在可能的情况下，我们重复训练会话五次，并报告其平均值和标准差。04.3. 与Alonso等人[2]的比较0由于没有提供实现，我们专注于使用图像和其中提供的指标与[2]进行定性比较。图4包含了[2]中展示的结果以及我们方法在相同单词上的结果。从图中可以看出，我们的网络产生的图像要清晰得多，特别是对于较短的单词。总的来说，我们的结果包含的伪影较少，例如第五行的字母'm'，第六行多余的字母'i'和倒数第二行缺少的字母's'。表4使用了GAN性能评估的标准指标，即Fr´echet In- ceptionDistance（FID）[16]和几何分数（GS）[23]，对比了两种方法。在与[2]中描述的类似设置1下，我们的方法在这两个指标上显示出稍微更好的性能。然而，请注意，由于我们无法访问[2]的数据，因此该方法的这两个指标都是从论文中复制的，因此不能直接与我们的结果进行比较。04.4.生成不同的风格0我们可以通过改变输入到ScrabbleGAN的噪声向量z来生成不同的手写风格。图3展示了不同手写风格中生成的选定单词的示例。图中的每一行代表一个不同的风格，而每一列包含一个不同的要合成的单词。从图中可以看出，我们的网络能够生成草书和非草书文本，具有粗或细的笔画。这张图片提供了字符交互的一个很好的例子：虽然所有字符的重复都以相同的滤波器fi开始，但每个字符的最终实例化可能会根据相邻字符的不同而不同。01我们只运行了一次这个实验，而不是[2]在多次运行中呈现的最佳结果。0Alonso等人[2] 23.94 8 . 58 × 10 − 40表1：使用Fréchet InceptionDistance和几何分数度量比较我们的方法与Alonso等人[2]。数值越低越好。04.5.提高HTR性能0图5显示了IAM数据集上两种不同风格之间的插值。在每一列中，我们选择了第一行和最后一行的两个随机噪声向量，并在它们之间线性插值以生成中间图像的噪声向量。字母的大小、笔画的宽度和字母之间的连接在两种风格之间逐渐变化。字母周围的灰色背景是IAM数据集的特性，在数据集的大多数图像中都可以找到。因此，生成器还学会了生成背景的变化。0我们生成手写图像的主要动机是为了改善HTR框架相对于“普通”监督设置的性能。在本节的所有实验中，我们使用[3]提供的代码作为我们的HTR框架，因为它包含了[10]中提出的所有改进（没有提供实现），以及一些其他最近的进展，这些进展在印刷文本的场景文本识别问题上实现了最先进的性能。我们展示了在手写数据上训练[3]中的最佳架构，可以获得接近HTR最先进性能的结果，这应该是很难改进的。具体来说，我们选择的HTR架构由薄板样条（TPS）变换模型、用于提取视觉特征的ResNet主干、用于序列建模的双向LSTM模块和用于预测的注意力层组成。在所有实验中，我们使用验证集选择最佳性能模型，并报告其在关联测试集上的性能。0训练集增强可以说是在这种情况下生成模型最直接的应用：通过将生成的图像附加到训练集，我们努力以自举的方式提高HTR性能。表2显示了在RIMES和IAM数据集上使用不同训练数据增强时HTR网络的WER和NED，其中每一行相对于前一行增加了处理过程的灵活性。对于每个数据集，第一行显示了使用原始训练数据时的结果，这是用于比较的基准。接下来，第二行显示了在原始训练数据中增加随机仿射变换时的性能。第三行显示了在原始训练数据中使用由ScrabbleGAN生成的额外的10万个合成手写图像时的结果。最后一行使用原始训练数据对后者模型进行了进一步的微调。从表中可以看出，在训练过程中使用ScrabbleGAN生成的样本相对于仅使用现成的仿射增强方法，可以显著提高性能。original training data, which is the baseline for comparison.Next, the second row shows performance when the datais augmented with a random afﬁne transformations. Thethird row shows results using the original training data andan additional 100k synthetic handwriting image generatedby ScrabbleGAN. The last row further ﬁne-tunes the lat-ter model using the original training data. As can be seen inthe table, using the ScrabbleGAN generated samples duringtraining leads to a signiﬁcant improvement in performancecompared to using only off-the-shelf afﬁne augmentations.SetAugGANReﬁneWER[%]NED[%]43300图5：样式插值。每一列包含由ScrabbleGAN生成的两种不同手写风格之间的插值。请注意，GAN捕捉到了IAM数据集[29]中典型的背景噪声。0RIMES0� × - 12.24±0.2 3.81±0.080× × - 12.29±0.15 3.91±0.080� 100k � 11.32±0.31 3.57±0.130IAM0� 100k × 23.98±0.4 13.57±0.240� × - 24.73±0.53 13.98±0.930表2：RIMES和IAM上的HTR实验。对于每个数据集，我们报告了四个结果，逐渐增加对数据集的适应性。第二列（'Aug'）表示在训练时使用随机仿射增强。第三列（'GAN'）表示是否将合成图像添加到原始训练集中，以及数量。第四列（'Re�ne'）表示是否使用原始数据进行了另一次微调。有关更多详细信息，请参阅正文。0� 100k � 23.61±0.36 13.42±0.270训练数据风格词典 WER[%] NED[%]0IAM+100K CVL IAM 40.24±0.51 19.49±0.76 IAM+100KIAM CVL 35.98±0.38 17.27±0.23 IAM+100K CVL CVL29.75±0.67 14.52±0.51 14.52±0.51 14.52±0.510IAM（天真）N/A IAM 39.95±0.91 19.29±0.950表3：从IAM数据集到CVL数据集的域适应结果。第一行是使用在IAM上训练的网络的天真方法。接下来的三行显示了使用具有CVL风格、CVL词典或两者的100k合成图像的效果。底部一行显示了在CVL训练集上进行有监督训练的oracle性能，仅供参考。除了oracle之外，没有使用CVL标签来训练HTR。0CVL（oracle）N/A CVL 22.90±0.07 22.90±0.0722.90±0.07 15.62±0.1504.6. 梯度平衡消融研究0J. Norman Collie43310GB类型 α WER[%] NED[%]0无GB-12.64±0.20 4.18±0.11 [2] 1 12.83±0.284.21±0.06 我们的0.1 12.28±0.49 3.95±0.26我们的1 11.68±0.29 11.68±0.29 11.68±0.293.74±0.10 3.74±0.10 3.74±0.10 我们的1012.03±0.27 3.80±0.040表4：GB消融研究，比较在不同合成数据集上训练的HTR性能。每个数据集都是由具有不同GB方案的GAN生成的。详见正文。0我们关注两个主要因素：首先，梯度平衡（GB）的影响，如下所示；其次，识别器R的架构的令人惊讶的效果，我们将其留给补充材料。表4比较了在RIMES数据集上使用三种不同的梯度平衡变体进行训练的HTR结果：首先，我们展示了完全不使用梯度平衡的结果。其次，我们应用了[2]中建议的梯度平衡方案，如公式（2）所示。最后，我们展示了我们修改后的版本在参数α的不同值下的表现，如公式（3）所述。对于上述所有选项，我们重复了表2第三行中显示的实验，并报告了WER和NED分数。显然，使用使用我们的梯度平衡方法训练的GAN合成样本可以取得最佳结果，其中α=1。图6进一步说明了在ℓD和ℓR之间平衡的重要性以及参数α的影响。图中的每一列代表一个不同的值，从左边只使用ℓR训练到右边只使用ℓD训练。所有图像中都使用相同的输入文本“ScrabbleGAN”，并使用相同的噪声向量生成每一行。如预期的那样，仅使用识别器损失会导致看起来嘈杂且不包含可读文本的图像。另一方面，仅使用对抗损失会产生看起来真实的手写图像，但不包含所需的文本，而是一些无意义的文字。仔细观察这一列会发现，调整z的值会改变字母本身，而不仅仅是风格。从左到右，中间的三列包含由α值为10、1和0.1训练的GAN生成的图像。α值越高，ℓR的权重越高。使用α=10的结果都是可读的，但在风格上的变异性较小。相反，使用α=0.1会在风格上产生较大的变异性，但以文本可读性为代价，因为一些字母变得无法识别。图6中的图像为表4中显示的定量结果提供了另一个解释。使用使用较大α值训练的GAN生成的图像训练HTR网络会降低不同风格的结果，而使用使用较小α值训练的GAN生成的图像会提高结果。0α=∞ α=10 α=1 α=0.1 α=0图6：ℓD和ℓR之间不同平衡水平的比较，即鉴别器和识别器损失项。将α的值设置为∞或0意味着仅使用R或D进行训练。所有示例都是“ScrabbleGAN”一词的生成，每一行都是使用相同的噪声向量z生成的。0较小的α值可能会导致由于在不清晰的文本图像上进行训练而导致的识别错误。05. 结论和未来工作0我们提出了一种新的离线手写文本图像生成架构，该架构基于一个假设，即书写字符是一个局部任务。我们的生成器架构受到游戏“Scrabble”的启发。与游戏类似，每个单词都是通过组装其字符生成的图像来构建的。生成的图像在笔画宽度和一般风格上都非常灵活。此外，文本中不同字符的感受野之间的重叠使得可以生成草书和非草书的手写体。我们表明，生成的单词和风格的大变异性可以通过丰富训练集来提高给定HTR的性能。此外，我们的方法允许引入一个无标签的语料库，以适应其中的文本风格。我们展示了从新词汇中生成单词与新风格相结合时的益处。未来研究的一个有趣方向是使用生成表示学习框架，如VAE [24]或BiGAN [7,8]，这些框架更适用于作者适应等少样本学习情况。此外，解缠方法可能允许更好地控制文本风格，如草书风格或笔宽。未来，我们还计划解决生成字符具有相同感受野宽度的问题。当然，对于大多数字符集来说，这并不适用，例如‘i’通常比‘w’窄。解决这个问题的一个可能方法是根据数据集中每个字符的平均宽度为每个字符滤波器设置不同的宽度。另一个选择是将STN[21]应用为G的一层，以产生类似的效果。43320参考文献0[1] Emre Aksan，Fabrizio Pece和Otmar Hilliges。Deepwrit-ing：通过深度生成建模使数字墨水可编辑。在2018年人机交互因素计算系统会议论文集上，页1-14，2018年。30[2] Eloi Alonso，Bastien Moysset和RonaldoMessina。基于序列的手写文本图像的对抗生成。arXiv预印本arXiv:1903.00277，2019年。3，4，5，6，80[3] Jeonghun Baek，Geewook Kim，Junyeop Lee，SungraePark，Dongyoon Han，Sangdoo Yun，Seong Joon Oh和Hwal- sukLee。场景文本识别模型比较有什么问题？数据集和模型分析，2019年。3，60[4] BBC，速记是一门垂死的艺术吗？https://www.bbc.com-/news/magazine-13035979，2019-11-01。10[5] Ayan Kumar Bhunia，Abhirup Das，Perla Sai RajKishore，Shuvozit Ghose和Partha PratimRoy。使用对抗学习进行低资源脚本的手写识别。arXiv预印本arXiv:1811.01396，2018年。30[6] Andrew Brock，Jeff Donahue和KarenSimonyan。大规模GAN训练用于高保真度自然图像合成。arXiv预印本arXiv:1809.11096，2018年。3，4，50[7] Jeff Donahue，Philipp Kr¨ahenb¨uhl和TrevorDarrell。对抗性特征学习。在第5届国际学习表示会议上，ICLR2017，2017年。80[8] Vincent Dumoulin，Ishmael Belghazi，BenPoole，Olivier Mastropietro，Alex Lamb，MartinArjovsky和AaronCourville。对抗性学习推理。在第5届国际学习表示会议上，ICLR2017，2017年。80[9] Vincent Dumoulin，Jonathon Shlens和ManjunathKudlur。艺术风格的学习表示。2017年。50[10] Kartik Dutta，Praveen Krishnan，Minesh Mathew和CVJawahar。改进用于手写识别的CNN-RNN混合网络。在2018年第16届国际手写识别前沿会议（ICFHR）上，页80-85。IEEE，2018年。3，60[11] Ian Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，Sherjil Ozair，AaronCourville和YoshuaBengio。生成对抗网络。在神经信息处理系统的进展中，页2672-2680，2014年。3，40[12] AlexGraves。使用递归神经网络生成序列。arXiv预印本arXiv:1308.0850，2013年。30[13] Alex Graves，Santiago Fern´andez，FaustinoGomez和J¨urgenSchmidhuber。连接主义时间分类：使用递归神经网络对未分段的序列数据进行标记。在第23届国际机器学习会议的论文集中，页369-376。ACM，2006年。50[14] Emmanu`ele Grosicki和Haikal El Abed。ICDAR2009手写识别竞赛。在2009年第10届国际文件分析和识别会议上，页1398-1402。IEEE，2009年。50[15] Tom S.F. Haines，Oisin Mac Aodha和Gabriel J.Brostow。我的手写中的文本。在图形交易中，2016年。30[16] Martin Heusel，Hubert Ramsauer，ThomasUnterthiner，Be- rnhard Nessler和SeppHochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。在神经信息处理系统的进展中，页6626-6637，2017年。60[17] Sepp Hochreiter和J¨urgenSchmidhuber。长短期记忆。神经计算，9(8)：1735-1780，1997。40[18] Amazon Inc.，Amazontextract，https://aws.amazon.com- /textract，2019-11-01。10[19] Google Inc.，在图像中检测文本，https://cloud.google.com-/vision/docs/ocr，2019-11-01。10[20] R. Reeve Ingle，Yasuhisa Fujii，Thomas Deselaers，JonathanBaccash和Ashok C.Popat。可扩展的手写文本识别系统。ArXiv，abs/1904.09150，2019年。30[21] Max Jaderberg, Karen Simonyan, Andrew Zisserman, etal. 空间变换网络.在《神经信息处理系统进展》中，第2017-2025页，2015年。 80[22] Bo Ji and Tianyi Chen. 用于手写文本的生成对抗网络.arXiv预印本arXiv:1907.11845 , 2019年。 30[23] Valentin Khrulkov and Ivan Oseledets. 几何分数:一种比较生成对抗网络的方法. arXiv预印本arXiv:1802.02664 ,2018年。 60[24] Diederik P Kingma and Max Welling. 自动编码变分贝叶斯.arXiv预印本arXiv:1312.6114 , 2013年。 80[25] Florian Kleber, Stefan Fiel, Markus Diem, and Robert Sab-latnig. Cvl数据库:一种用于作者检索、作者识别和单词定位的离线数据库.在《2013第12届国际文档分析与识别会议》中，第560-564页。IEEE，2013年。 50[26] Praveen Krishnan, Kartik Dutta, and CV Jawahar.使用深度嵌入进行单词定位和识别.在《2018第13届国际文档分析系统研讨会》中，第1-6页。IEEE，2018年。 30[27] Praveen Krishnan and C. V. Jawahar.生成文本识别的合成数据，2016年。 30[28] Jae Hyun Lim and Jong Chul Ye. 几何生成对抗网络.arXiv预印本arXiv:1705.02894 , 2017年。 50[29] U-V Marti and Horst Bunke. iam数据库:一种用于离线手写识别的英语句子数据库.《国际文档分析与识别杂志》, 5(1):39–46, 2002年。 5 , 70[30] Mehdi Mirza and Simon Osindero. 有条件的生成对抗网络.arXiv预印本arXiv:1411.1784 , 2014年。 40[31] R´ejean Plamondon and Sargur N Srihari.在线和离线手写识别: 一项综合调查.《IEEE模式分析与机器智能交易》, 22(1):63–84, 2000年。 20[32] Arik Poznanski and Lior Wolf.用于手写词语识别的CNN-N-gram.在《计算机视觉与模式识别IEEE会议论文集》中，第2305-2314页，2016年。 20[33] Joan Puigcerver. 多维循环层对手写文本识别真的有必要吗?在《2017第14届国际文档分析与识别会议》中，卷1，第67-72页。IEEE，2017年。 343330[34] Ekraam Sabir, Stephen Rawls, and Prem Natarajan.LSTM中的隐式语言模型用于O

下载后可阅读完整内容，剩余1页未读，立即下载