学习增强：联合数据增强和网络优化用于文本识别

192 浏览量更新于2023-10-25 收藏 12.65MB PDF 举报

文本识别

数据增强

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Canjie Luo1, Yuanzhi Zhu1, Lianwen Jin1∗, Yongpan Wang2{canjie.luo, zzz.yuanzhi, lianwen.jin}@gmail.com, yongpan@taobao.com∗Corresponding author.1https://github.com/Canjie-Luo/Text-Image-Augmentation137460学习增强：联合数据增强和网络优化用于文本识别01 华南理工大学，2 阿里巴巴集团0摘要0手写文本和场景文本受到各种形状和扭曲模式的影响。因此，训练一个鲁棒的识别模型需要大量的数据来尽可能覆盖多样性。与数据收集和注释相比，数据增强是一种低成本的方法。在本文中，我们提出了一种新的文本图像增强方法。与传统的增强方法（如旋转、缩放和透视变换）不同，我们提出的增强方法旨在学习适当且高效的数据增强，以更有效地训练鲁棒的识别器。通过使用一组自定义的标记点，所提出的增强方法具有灵活性和可控性。此外，我们通过联合学习来弥合数据增强和网络优化之间的差距。一个代理网络从识别网络的输出中学习，并控制标记点以生成更合适的训练样本供识别网络使用。在包括常规场景文本、不规则场景文本和手写文本在内的各种基准测试上进行了大量实验，结果显示所提出的增强和联合学习方法显著提升了识别网络的性能。一个通用的几何增强工具包可在1中获得。01. 引言0过去十年间，深度神经网络在计算机视觉领域取得了巨大的进展[3，11，14，21]。有限的数据不足以训练一个鲁棒的深度神经网络，因为网络可能对训练数据过拟合，并在测试集上产生较差的泛化性能[5]。然而，数据收集和注释需要大量的资源。与单一对象分类任务[21]不同，文本字符串的注释工作更加困难，因为其中包含多个字符。0图1. (a) 现有的几何增强，包括旋转、缩放和透视变换；(b)我们提出的灵活增强。此外，联合学习方法弥合了数据增强和网络训练之间的隔阂。0在文本图像中存在许多变体。这也是为什么大多数最先进的场景文本识别方法[23，28，38]只使用合成样本[13，17]进行训练的原因之一。数据限制也影响手写文本识别。存在着各种各样的书写风格。收集大规模的带注释手写文本图像是一项高成本的工作，无法涵盖所有的多样性[47]。对于手写文本来说，生成合成数据也是具有挑战性的，因为很难模仿各种书写风格。为了获得更多的训练样本，可以对现有数据应用随机增强[9]。具有不同书写风格的手写文本和具有透视和弯曲文本等不同形状的场景文本仍然非常具有挑战性[5，28，38]。因此，几何增强是获得识别方法鲁棒性的重要途径。如图1（a）所示，常见的几何变换包括旋转、缩放和透视变换。图像中的多个字符被视为一个实体，并对图像进行全局增强。然而，应考虑到每个字符的多样性。给定一个文本图像，增强的目标是增加其多样性。137470因此，现有的增强方法局限于简单的变换，对于训练来说效率低下。此外，由于长尾分布的存在[31]，有效的训练样本可能仍然很少，这是导致训练效率低下的另一个原因。随机增强策略对于每个训练样本都是相同的，忽略了样本之间的差异和网络的优化过程。在手动控制的静态分布下，增强可能会产生许多对训练无用的“简单”样本。因此，在静态分布下的随机增强很难满足动态优化的要求。同时，通常无法将在一个数据集上手动设计的最佳增强策略如愿地转移到另一个数据集上。我们的目标是研究一种可学习的增强方法，可以在没有任何手动修改的情况下自动适应其他任务。在本文中，我们提出了一种针对文本识别的新的数据增强方法，专门为序列字符[36]的增强而设计。我们的增强方法侧重于图像的空间变换。我们首先在图像上初始化一组参考点，然后移动这些点以生成新的图像。移动状态表示点的移动情况，用于创建“更难”的训练样本，该状态是从代理网络的预测分布中采样得到的。然后，增强模块将移动状态和图像作为输入，并生成新的图像。我们采用基于最小二乘的相似变换[35]来生成图像。此外，还将随机移动状态输入增强模块以生成随机增强图像。最后，代理根据增加识别难度的移动状态进行学习。难度是根据编辑距离度量的，该度量与识别性能高度相关。总之，我们的贡献如下：0•我们提出了一种针对包含多个字符的文本图像的数据增强方法。据我们所知，这可能是专门为序列字符设计的第一种增强方法。 •我们提出了一种同时优化数据增强和识别模型的框架。增强样本是通过自动学习过程生成的，因此对于模型训练更加有效和有用。所提出的框架是端到端可训练的，无需任何微调。 •在包括场景文本和手写文本在内的各种基准测试上进行的大量实验表明，所提出的增强和联合学习方法显著提高了识别器的性能，特别是在小型训练数据集上。02. 相关工作0场景文本识别作为计算机视觉任务中的一个重要过程，场景文本识别引起了广泛的研究兴趣[22, 23, 28,38]。场景文本图像中有多个字符。因此，文本字符串识别任务比单个字符识别更困难。通常，场景文本识别方法可以分为两种类型：基于定位和无分割。前者试图定位字符的位置，识别它们，并将所有字符分组为一个文本字符串[41,42]。后者借鉴了深度神经网络的成功，并将文本识别建模为序列识别问题。例如，He等人[15]和Shi等人[36]在卷积神经网络（CNN）之上应用了循环神经网络（RNN），以处理类似序列的对象的空间依赖性。此外，通过注意机制解决了序列到序列映射问题[38]。在常规文本识别取得巨大进展的同时，研究界开始关注非规则文本识别。Luo等人[28]和Shi等人[38]提出了矫正网络以消除畸变并降低识别难度。Zhan和Lu[46]迭代地消除透视畸变和文本行曲率。Yang等人[43]通过使用更多几何约束和每个字符的监督来准确描述文本形状。尽管上述方法取得了显著进展，但非规则场景文本识别仍然是一个具有挑战性的问题。手写文本识别由于各种书写风格，手写文本识别仍然是一个具有挑战性的领域[5]。早期的方法使用混合隐马尔可夫模型[10]，并将单词图像和文本字符串嵌入到一个共同的向量子空间中，将识别任务转化为最近邻问题[1]。在深度学习时代，Sueiras等人[39]和Sun等人[40]通过使用CNN后跟RNN提取特征，并获得了优越的结果。Zhang等人[47]通过提出序列到序列领域自适应网络来解决手写风格多样性问题。Bhunia等人[5]通过对中间特征空间进行对抗性变形来缓解某些稀疏训练数据集中变化不足的问题。尽管取得了很大进展，由于各种书写风格的存在，手写文本识别仍然是一个开放且具有挑战性的问题。数据增强数据增强对于避免深度神经网络训练中的过拟合非常重要[9,16,31]。然而，很少有研究关注文本图像的增强问题。常见的几何增强包括翻转、旋转、缩放和透视变换，通常对于单个对象识别是有用的[21]。然而，文本图像包含多个字符。现有的简单变换对于文本外观的多样性贡献不大。p∗ =�2(N+1)i=1wipi�2(N+1)i=1wi, q∗ =�2(N+1)i=1wiqi�2(N+1)i=1wi.(2)137480图2.所提出框架的概述。首先，可学习的代理预测移动状态的分布，以创建更困难的训练样本。然后，增强模块分别基于随机和预测的移动状态生成增强样本。样本对的困难程度由识别网络测量。最后，代理根据增加困难的移动状态进行更新。统一的框架是端到端可训练的。0同时，静态增强策略不能满足优化的动态要求。Cubuk等人[9]通过使用强化学习搜索增强策略。Ho等人[16]生成灵活的增强策略计划以加快搜索过程（在CIFAR-10上从5000个GPU小时到5个GPU小时）。Peng等人[31]通过对抗学习和预训练过程增强样本。对于文本识别，识别器的训练需要大量的数据。广泛使用的合成数据集[13，17]提供了超过1000万个样本。然而，Li等人[22]还额外使用了约5万个公共真实数据集进行训练，并显著提高了识别性能，这表明识别模型仍然需要大量数据。对于手写文本，现有的训练数据很难涵盖各种书写风格，生成合成手写数据也具有挑战性。与场景文本合成不同，书写风格上的字体很少。我们的方法是为了自动地增加多个字符。一个代理网络在线搜索困难的训练样本。此外，该框架是端到端可训练的，无需任何微调。03. 方法论03.1. 总体框架0如图2所示，所提出的框架由三个主要模块组成：代理网络、增强模块和识别网络。首先，在图像上初始化一组自定义标志点。代理网络预测的移动状态和随机生成的移动状态被输入到增强模块中。移动状态指示一组自定义标志点的移动。然后，增强模块以图像为输入，并根据移动状态分别应用变换。识别器在增强图像上预测文本字符串。最后，我们通过识别网络测量识别的困难程度。0在编辑距离的度量下，学习从增加困难的移动状态中学习，并探索识别器的弱点。因此，识别器从困难的训练样本中获得了鲁棒性。由于我们仅使用识别网络的预测，并且困难是通过编辑距离而不是其他损失函数来衡量的，因此识别网络可以被最近的先进方法[36，38]所替代，我们将在第4节中进行演示。在本节中，我们描述了增强模块和所提出的框架的联合训练方案。03.2. 文本增强0给定一张文本图像，增强的目标是增加文本字符串中每个字符的多样性。这激励我们使用更多的自定义标志点进行转换。如图3所示，我们将图像均匀地分成N个补丁，并在顶部和底部图像边界上初始化2(N+1)个标志点p。之后，我们按照一定的分布对图像进行增强，并随机将标志点移动到半径R内的q。为了生成增强图像，我们在输入图像上应用基于移动最小二乘[35]的相似变形。给定图像中的点u，u的变换为0T(u) = (u - p*)M + q*, (1)0其中 M ∈ R 2 × 2 是一个线性变换矩阵，其约束条件为M T M = λ 2 I ，其中 λ 是某个标量。这里 p � 和 q �是初始化参考点 p 和移动参考点 q的加权质心，分别为：wi =1|pi − u|2α , u ̸= pi.(3)�2(N+1)i=1wi |Tu (pi) − qi|2 ,(4)deep learning libraries. As the learning of our augmentationis free of backward calculation of recognition loss, and ourgoal is to setup a general augmentation, we choose sim-ilarity deformation based on moving least squares as ourtransformation strategy. Besides, we also compare simi-larity transformation with rigid transformation [35], whichis regarded as the most realistic transformation for generalobject. As illustrated in Figure 4, the rigid transformationretains relative shape (realistic for general object), but thesimilarity transformation is more suitable for text imageaugmentation, because it provides more ﬂexible deforma-tion for every character. Further analysis is given in Section4.4 and Table 2.137490图3. 文本增强。图像被分为三个补丁（ N = 3），移动半径限制为十（ R = 10 ）。红点表示控制点。0点 u 的权重 w i 的形式为0请注意，当 u 接近 p i 时，权重 w i 增加。这意味着 u主要取决于最近参考点的移动。 w i 是有界的。如果 u = p i ，那么 T ( u ) = u 。在这里我们设置 α = 1。通过最小化来获得最佳变换 T ( u ) 。0以得到唯一的最小化器 [ 35 ]。讨论虽然薄板样条变换（TPS）[ 6 ]在形状矫正[ 38]和特征级对抗学习[ 5]方面取得了成功，但据报道，TPS会出现非均匀缩放和剪切，这在许多应用中是不可取的[35]。之前的工作之所以使用TPS的一个可能原因是，TPS中的所有操作符都是可微分的，并且可以在大多数主流深度学习库中找到。由于我们的增强学习不需要计算识别损失的反向传播，而且我们的目标是建立一个通用的增强学习，因此我们选择基于最小二乘法的相似性变形作为我们的变换策略。此外，我们还将相似性变换与刚性变换[ 35]进行了比较，刚性变换被认为是一般对象的最真实的变换。如图4所示，刚性变换保持相对形状（适用于一般对象），但相似性变换更适用于文本图像增强，因为它为每个字符提供了更灵活的变形。详细分析见第4.4节和表2。0图4.弹性（相似性）和刚性变换的比较。所有图像上的参考点的移动是相同的。刚性变换保持相对形状（适用于一般对象），但文本图像增强需要更灵活的变形来适应每个字符。因此，弹性（相似性）变换更适用于文本图像增强。03.3. 可学习的代理0与之前使用强化学习搜索最佳策略的智能增强方法[ 9]不同，我们以更快、更高效的方式解决了学习问题。受启发于启发式算法，我们在所有可能的解中找到解决方案。由于训练过程是动态的，近似解就足够了，而精确解的计算成本很高。在训练过程的每一步中，我们生成预测移动状态的变化。它作为学习目标的候选。如果随机移动状态增加了识别难度，那么代理就从移动状态中学习。相反，如果移动状态降低了识别难度，我们就反转学习目标。我们将寻找更难的扭曲样本的问题形式化为移动学习问题。如图3所示，给定一张图像，我们随机移动参考点来扭曲图像。每个参考点的移动操作（∆ x, ∆ y）与两个因素相关：1）移动的方向，即（∆ x, ∆ y）的符号；2）移动的距离，即（ | ∆ x | , | ∆ y |）。在我们的实践中，学习距离无法收敛。对于代理网络来说，精确学习移动距离是困难的。另一个有趣的观察是，失败的代理网络总是预测最大的移动距离来创建过度扭曲的样本，这降低了识别器训练的稳定性。因此，我们将学习空间限制在移动方向上。基于移动方向，移动距离在半径范围内随机生成。这样可以避免代理网络预测的繁琐移动，因为随机性在增强中引入了不确定性。此外，代理网络可以设计为轻量级架构。如表1所示，代理网络只包含六个卷积层和一个全连接层。代理网络的存储需求小于1.5M。代理网络的学习方案如算法1所示。首先，可学习的代理预测一个移动状态分布，旨在创建一个更难的训练样本。137500算法1 联合学习方案输入图像Iin和Ground truthGT；补丁数量N和移动半径R；初始化的参考点p。01: 从预测的分布中采样移动状态作为S：S =Agent(Iin)。02: 生成随机移动状态S′（随机选择S中的一个点并切换到相反方向）。03: S和S′都包含移动的方向。4:在R的范围内，根据S和S′随机移动p以分别获得q和q′，然后分别得到I Aug = Augment(Iin, p, q)和I ′ Aug =Augment(Iin, p, q′)。05: 识别 I Aug 和 I ′ Aug：Reg =Recognizer(I Aug)，Reg′ = Recognizer(I ′Aug)。06: 使用I Aug更新识别器。7:通过编辑距离ED(∙)来衡量难度：8: 如果ED(Reg, GT)≤ ED(Reg′,GT)，则S′增加了识别的难度。通过最小化以下损失来更新Agent网络：0损失 = -0210i=1 log � P(S′i|Iin) � (5)09: 否则，通过反向移动方向−S′来更新Agent网络。0通过最小化来实现：0损失 = -0210i=1 log � P(−S′i|Iin) � (6)0还向数据增强模块提供了随机移动状态。然后，数据增强模块分别基于这两个移动状态生成增强样本。之后，识别网络将增强样本作为输入，并预测文本字符串。样本对的难度由真实文本字符串与预测文本字符串之间的编辑距离来衡量。最后，代理根据增加难度的移动状态进行更新。该统一框架可以进行端到端的训练。04. 实验0在本节中，我们在各种基准数据集上进行了广泛的实验，包括常规和不规则场景文本以及手写文本。我们首先进行消融研究，分析训练数据的大小、划分的补丁数量N和移动半径R对性能的影响。我们的方法还与现有的仿射变换和0刚性变换。然后，我们将最先进的识别模型与我们的方法集成在一起，以展示我们可学习的数据增强的有效性。最后，我们将我们的方法与特征级对抗学习方法[5]相结合，进一步提升识别性能，这表明我们的方法具有灵活性，可以应用于其他增强系统。04.1. 场景文本数据集0广泛使用的合成数据集[17]和[13]分别包含900万和800万个合成单词。我们随机采样了10k、100k和100万张图像（分别称为Syn-10k、Syn-100k和Syn-1m）进行消融研究。Real-50k是由Li等人[22]从所有公共真实数据集中收集的，包含大约50k个样本。IIIT5K-Words[30]（IIIT5K）包含3000个裁剪的单词图像用于测试。Street ViewText[41]（SVT）包含647个用于测试的单词图像。许多图像严重受到噪声和模糊的干扰。ICDAR2003[27]（IC03）包含丢弃了包含非字母数字字符或字符少于三个的图像后的867个裁剪图像[41]。ICDAR2013[20]（IC13）大部分样本来自IC03。它包含1015个裁剪图像。Street View TextPerspective[33]（SVT-P）包含645个裁剪图像用于测试。其中大部分图像存在透视畸变。CUTE80[34]（CT80）包含80个在自然场景中拍摄的高分辨率图像。它专门用于评估曲线文本识别的性能。它包含288个裁剪的自然图像。ICDAR2015[19]（IC15）通过裁剪使用地面实况字边界框的单词获得，包括200多个不规则文本图像。0表1.代理网络的架构。“AP”表示2×2平均池化。“BN”表示批量归一化。所有卷积层的内核大小、步幅和填充大小均为3、1和1。输出大小表示2（N+1）个点，两个坐标和两个移动方向。0类型大小0输入 1×32×1000卷积-16，ReLU，AP 16×16×500卷积-64，ReLU，AP 64×8×250卷积-128，BN，ReLU 128×8×250卷积-128，ReLU，AP 128×4×120卷积-64，BN，ReLU 64×4×120卷积-16，BN，ReLU，AP 16×2×60FC-8（N+1） 8（N+1）0重塑 2（N+1）×2×21375104.2. 手写文本数据集0IAM[29]包含超过13,000行和115,000个单词，由657个不同的作者编写。RIMES[2]包含超过60,000个法语单词，由1000多个作者编写。04.3. 实现细节0网络代理网络的架构详见表1，它是一个轻量级网络（小于1.5M），由六个卷积层和一个全连接层组成。输出大小表示2（N+1）个点，两个坐标和两个移动方向。由于我们使用编辑距离作为难度的度量，该框架与各种识别损失无关。例如，Shi等人[36]采用了CTC损失[12]用于卷积循环神经网络，而注意力解码器[28,38]则由交叉熵损失引导。因此，我们的框架对不同的识别器友好。我们在以下实验中展示了我们方法的灵活性。优化在消融研究中，我们使用ADADELTA[45]作为优化器，学习率设为默认值。批量大小设置为64。所有图像都调整为（32，100）。当我们的方法与最新的先进识别器集成时，实验设置，包括优化器、学习率、图像大小以及训练和测试数据集，与识别器的设置相同，以便进行公平比较。环境所有实验都在NVIDIA 1080TiGPU上进行。增强模块在2.0GHzCPU上生成一个（32，100）图像所需的时间不到2毫秒。可以利用多线程加速。对于每次迭代，可学习增强的端到端训练所需的时间不到单个识别器训练时间的1.5倍。如果使用随机增强进行训练，几乎没有额外的时间消耗。04.4. 消融研究0在本节中，我们进行了一系列的消融研究。由于已发布的场景文本数据集[13,17]提供了数千万的训练样本，因此可以采样三个数量级的小数据集。因此，我们在场景文本数据集上进行了消融研究。训练数据集包括Real-50k、Syn-10k、Syn-100k和Syn-1m。我们使用ADADELTA[45]作为优化器，学习率设为默认值。批量大小设置为64。所有图像都调整为（32，100）。在表2中，我们将所有的场景文本测试集合并为一个统一的大数据集进行评估。由于注意力识别器是最前沿的方法，我们选择了[38]中配备了ResNet和注意力解码器的网络作为识别器。没有任何数据增强的识别器作为基准。按照广泛使用的评估指标[28,38]，计算每个样本的准确率。0表2.在训练数据大小和转换设置为N=3和R=10的情况下的消融研究。“Aug.”表示我们的增强方法在随机初始化分布下进行方向采样。0方法 Real-50k Syn-10k Syn-100k Syn-1m0基准 54.1 7.7 39.5 60.90Af�ne 58.6 16.9 43.9 61.70Rigid 58.7 17.5 44.9 63.90Aug. 63.4 20.1 48.6 65.90Aug.+Agent 66.5 21.7 51.2 67.40表2-4中的性能以单词准确率衡量。为确保训练充分，我们在达到最高准确率后再训练模型10个时期。训练数据集的大小如表2所示，使用我们可学习的增强方法的识别器在小数据环境中的泛化能力大大优于基线。例如，在Syn-10k数据集上，最大的差距为14.0%。这表明我们提出的方法极大地提高了识别器在小数据环境中的泛化能力。随着数据集大小的增加，差距减小。但在拥有一百万个训练数据Syn-1m时，仍然有6.5%的显著准确率提高。变换在表2中，我们将仿射变换[18]（包括旋转、缩放和平移）与我们的增强方法进行了比较。结果表明，使用仿射增强的识别器优于基线，但仍落后于使用我们的增强方法的识别器，因为仿射变换仅限于设计的几何变形，无法涵盖文本外观的多样性。我们还进行了一个实验来研究刚性变换的有效性。如第3.2节所讨论的，尽管刚性变换对于一般物体[35]是现实的，但相似变换更适合文本图像增强。可学习代理在表2中，代理网络通过联合学习数据增强和识别器训练进一步提升了性能。特别是，它在0图5. Real-50k上的训练损失和大型评估数据集上的测试准确率。123.56.619.622.36.010.410.6229.810.529.329.38.214.614.3329.410.827.229.69.116.314.3426.57.322.625.65.811.511.0526.17.422.626.96.013.511.2010.92.39.013.01.85.23.6213.42.29.814.22.05.24.3520.34.617.020.44.29.07.81029.410.827.229.69.116.314.31528.88.326.127.86.313.212.2137520表3. 补丁数量的消融研究。R设置为10。0N IIIT5K SVT IC03 IC13 SVT-P CT80 IC150表4. 移动半径的消融研究。N设置为3。0R IIIT5K SVT IC03 IC13 SVT-P CT80 IC150当使用Real-50k训练识别器时，准确率提高了3.1%。图5显示了在Real-50k上的训练损失曲线和大型评估数据集上的测试准确率。有趣的观察结果是，具有可学习代理的识别器的损失下降速度比其他方法慢，这表明代理网络探索了识别器的弱点，并生成了更难的样本进行训练。因此，识别器保持学习并获得了鲁棒性。相反，传统的识别器在损失接近零时停止学习。补丁数量和移动半径我们分别研究了两个关键参数N和R。训练数据集是Syn-10k。表3和表4显示了实验结果。我们发现，对于规则文本，为了达到最佳性能，补丁数量N可以设置为2或3。对于不规则文本（SVT-P，CT80和IC15），最好将N设置为3，因为在这种设置下，会生成大量曲线文本图像进行训练，从而使识别器获得鲁棒性。我们进一步在表4中说明了移动半径R的变化的有效性。对于（32，100）图像，最佳设置是R=10。在接下来的实验中，我们使用最佳的N和R设置进行进一步研究。04.5. 与最先进的方法集成0在本节中，我们将我们提出的方法与最先进的识别器进行了集成。不同任务的增强样本如图6所示。我们首先展示了基于注意力的识别器[38]在不规则场景文本基准上的改进。然后，我们通过使用基于CTC的识别器[5]对手写文本进行实验，验证了我们方法的泛化性。值得注意的是，我们的方法在不需要任何手动修改的情况下自动适应于通用文本识别任务。此外，我们还展示了我们的方法的灵活性，可以与其他增强系统集成，进一步提高性能。不规则场景文本识别不规则形状是0图6.（a）场景文本和（b）手写文本的增强样本可视化。0是场景文本识别的挑战之一。Shi等人[38]提出的ASTER是一种基于注意力的识别器，配备了矫正网络。我们通过增加训练样本和增加文本外观的多样性来研究识别器的鲁棒性。实验设置，包括优化器、学习率、图像大小和训练数据集，与ASTER[38]相同。我们将我们的方法改进的性能与最先进的方法进行了比较。尽管使用真实样本[22]和字符级几何约束[43]来训练识别器可以显著提高性能，但为了公平比较，我们遵循大多数方法的设置。由于Zhan和Lu[46]对图像进行了多次矫正，而Shi等人[38]只进行了一次矫正，我们选择了论文中报告的一次矫正迭代的结果。场景文本识别器的性能0表5.不规则文本的单词准确率。“*”表示结果来自一次矫正迭代，以进行公平比较。0方法不规则文本0SVT-P CT80 IC150Shi, Bai和Yao [36] 66.8 54.9 - Shi等人[37] 71.859.2 - Liu等人[25] 73.5 - - Yang等人[44] 75.8 69.3- Cheng等人[7] 71.5 63.9 70.6 Liu, Chen和Wong[24] - - 60.0 Cheng等人[8] 73.0 76.8 68.2Bai等人[4] - - 73.9 Liu等人[26] 73.9 62.5 - Luo,Jin和Sun [28] 76.1 77.4 68.8 Liao等人[23] - 78.1 -Shi等人[38] 78.5 79.5 76.1 Zhan和Lu [46]* 77.378.8 75.80基准（ASTER [38]） 77.7 79.9 75.8 + 我们的方法79.2 84.4 76.1RSueiras et al. [39]15.904.8013.105.70Ptucha et al. [32]--5.682.46Bhunia et al. [5]10.476.446.313.17137530通过单词准确率。如表5所示，我们首先复现了与ASTER[38]相同的识别器，作为基准。重新实现的ASTER的结果与原论文中的结果相当。然后我们将我们的方法与识别器集成。在CT80上获得了显著的准确率提升（4.5%）。值得注意的是，在包含噪声、模糊和低分辨率图像的SVT-P上仍然有明显的改进（1.5%）。虽然丰富的合成样本可以覆盖大量文本外观的变化，但我们的增强方法在不规则文本识别上显示出了合理的改进。结果与最新的最先进方法相竞争。手写文本识别由于手写风格的多样性是手写文本识别的主要挑战[1]，而有限的训练数据很难覆盖所有手写风格，因此我们在两个流行的数据集IAM [29]和RIMES[2]上评估了我们的模型，以验证我们方法的有效性。我们使用字符错误率（CER）和单词错误率（WER）作为手写文本识别的度量标准。CER通过与基本事实的长度归一化的Levenshtein距离来衡量。WER表示基本事实中的错误在所有单词中的比例。我们在表6和表7中将我们的方法与最先进的方法进行了比较。此外，还进行了与Bhunia等人[5]的先前增强方法的比较。为了公平比较，我们的实验设置与[5]相同。我们应用与[5]相同的基于CTC的识别网络。表6和表7中显示的基准是重新生成的结果。此外，我们在识别网络中重新生成了Adversarial Feature DeformationModule（AFDM）[5]。AFDM是Bhunia等人[5]提出的用于智能增强的关键模块。准确率随着0表6. IAM上与先前方法的比较。AFDM是[5]的关键模块。0方法无约束词典0WER CER WER CER0Bosquera等人[10] - - 20.01 11.27 Almaz´an等人[1] -- 15.50 6.90 Sun等人[40] - - 11.51 - Sueiras等人[39]23.80 8.80 19.70 9.50 Ptucha等人[32] - - 8.22 4.70Zhang等人[47] 22.20 8.50 - - Bhunia等人[5] 17.198.41 8.87 5.940基准 19.12 7.39 10.07 5.41 + 我们的方法 14.04 5.347.52 3.82 + AFDM [ 5 ] 16.40 6.40 8.77 4.67 +我们的方法 + AFDM [ 5 ] 13.35 5.13 7.29 3.750表7. 在RIMES上与之前方法的比较. AFDM是[ 5 ]的关键模块.0方法无约束词典0基准 13.83 3.93 4.94 2.02 + 我们的方法 9.23 2.574.41 1.49 + AFDM [ 5 ] 11.81 3.33 4.85 1.92 +我们的方法 + AFDM [ 5 ] 8.67 2.42 3.90 1.370预期.注意，我们复现的结果比原始论文中的大多数结果（8个中的7个）要好，这验证了我们实现和实验的有效性。我们发现我们的数据增强对于识别器的鲁棒性有很大的贡献。它大幅度提高了性能（在IAM上减少了5.08%的无约束WER），并且明显优于AFDM。使用我们的方法训练的识别器也优于所有最先进的方法。最后，我们同时使用AFDM和我们的方法进行训练，并显著提高了识别器的性能。这表明我们的方法是一个元框架，可以应用于其他增强系统。05. 结论0在本文中，我们提出了一种可学习的数据增强方法用于文本识别的训练。我们的方法可能是第一个专门为序列字符设计的几何增强方法。此外，我们的方法通过联合学习将数据增强和网络优化之间的差距。所提出的方法简单而有效。它能够自动适应一般的文本识别任务，无需任何手动修改。大量实验证明我们的方法提高了场景文本和手写文本的识别器性能。此外，我们的方法是一个元框架，潜在地可以融入其他增强系统。未来，我们将扩展我们的方法以应用于多目标检测和识别的更一般应用。0致谢0本研究部分得到了国家自然科学基金委员会的支持（项目编号：61936003），中国国家重点研发计划（编号：2016YFB1001405）和广东省自然科学基金（编号：2017A030312006）的支持。[1] Jon Almaz´an, Albert Gordo, Alicia Forn´es, and ErnestValveny.Word spotting and recognition with embed-ded attributes.IEEE Trans. Pattern Anal. Mach. Intell.,36(12):2552–2566, 2014. 2, 8[2] Emmanuel Augustin, Matthieu Carr´e, Emmanu`ele Grosicki,J-M Brodin, Edouard Geoffrois, and Franc¸oise Prˆeteux.Rimes evaluation campaign for handwritten mail processing.In IWFHR, pages 231–235, 2006. 6, 8[3] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio.Neural machine translation by jointly learning to align andtranslate. In ICLR, 2015. 1[4] Fan Bai, Zhanzhan Cheng, Yi Niu, Shiliang Pu, andShuigeng Zhou. Edit probability for scene text recognition.In CVPR, pages 1508–1516, 2018. 7[5] Ayan Kumar Bhunia, Abhirup Das, Ankan Kumar Bhunia,Perla Sai Raj Kishore, and Partha Pratim Roy. Handwritingrecognition in low-resource scripts using adversarial learn-ing. In CVPR, pages 4767–4776, 2019. 1, 2, 4, 5, 7, 8[6] Fred L. Bookstein. Principal warps: Thin-plate splines andthe decomposition of deformations.IEEE Trans. PatternAnal. Mach. Intell., 11(6):567–585, 1989. 4[7] Zhanzhan Cheng, Fan Bai, Yunlu Xu, Gang Zheng, ShiliangPu, and Shuigeng Zhou. Focusing attention: Towards ac-curate text recognition in natural images. In ICCV, pages5086–5094, 2017. 7[8] Zhanzhan Cheng, Yangliu Xu, Fan Bai, Yi Niu, Shiliang Pu,and Shuigeng Zhou. AON: Towards arbitrarily-oriented textrecognition. In CVPR, pages 5571–5579, 2018. 7137540参考文献0[9] Ekin D. Cubuk，Barret Zoph，Dandelion Mane，VijayVa-sudevan和Quoc V.Le。AutoAugment：从数据中学习增强策略。在CVPR，第113-123页，2019年6月。1, 2, 3, 40[10] Salvador Espana-Boquera，Maria JoseCastro-Bleda，Jorge Gorbe-Moya和FranciscoZamora-Martinez。改进离线手写文本识别的混合HMM/ANN模型。IEEE Trans. Pattern Anal. Mach.Intell.，33（4）：767-779，2010年。2, 80[11] Ian Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，BingXu，David Warde-Farley，Sherjil O

下载后可阅读完整内容，剩余1页未读，立即下载