端到端手写识别模型：深度学习模型联合学习文本检测、分割和识别，可提高历史文档的离线手写识别准确性

46 浏览量更新于2023-10-13 1 收藏 1.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

开始、跟随、阅读：端到端整页手写识别Curtis Wigington1， 2，Chris Tensmeyer1， 2，Brian Davis1，WilliamBarrett1，Brian Price2和Scott Cohen21杨百翰大学2Adobe研究wigingto@adobe.com代码网址：https://github.com/cwig/start_follow_read抽象。尽管经过了几十年的研究，退化历史文档的离线手写识别（HWR）仍然是一个具有挑战性的问题，如果解决了，可以大大提高在线文化遗产档案的可搜索性。HWR模型通常受限于文本检测和分割的先前步骤的准确性。受此启发，我们提出了一个深度学习模型，该模型主要使用未经检测的图像来联合学习文本检测，分割和识别或分段注释。我们的Start，Follow，Read（SFR）模型由一个区域建议网络组成，文本行，一种新型的行跟随器网络，它增量地跟随（可能是弯曲的）文本行并将其预处理成适合CNN-LSTM网络识别的去扭曲图像SFR的性能超过了ICDAR2017手写识别竞赛的获胜者，即使在不使用所提供的竞赛区域注释的情况下。关键词：手写识别，文档分析，历史文档处理，文本检测，文本行分割。1介绍在离线手写识别（HWR）中，手写文档的图像被转换成数字文本。虽然现代印刷文档的识别准确性已经达到了一些语言的可接受性能[28]，但由于手写外观和各种噪声因素的大变化，降级历史文档的HWR仍然是一个具有挑战性的问题。在这一领域实现准确的HWR将有助于促进和保护文化遗产，通过改善努力，创造公开可用的历史文件的翻译世界各地的许多国家档案馆和其他组织都在开展这类工作，但通常使用人工转录，制作成本高，耗时长。虽然这项工作的重点讨论最困难的HWR域之一，即。历史文献[9]，我们提出的方法同样适用于其他HWR域。对于大多数HWR模型，必须在识别发生之前从图像中检测和分割文本行。这对于历史文献来说是具有挑战性的2C. Wigington等人图1：开始，跟随，阅读两个文档片段。红色圆圈和箭头显示了直线的S-tart-of-linefindernet ttwork的检测位置、比例和检测。蓝线显示的路径所采取的线跟随器网络，以产生正常化的 text 线 ;该线是显示在wwitheHWRnetwork' s t r an s crip t i on。因为它们可能包含大量的噪声，例如污点、撕裂、不均匀的照明以及墨水褪色、渗漏和渗色。文本检测或分割中的错误传播到识别阶段，并且如[25]中所述，完整HWR系统中的大多数错误是由于不正确的行分割而不是不正确的字符或单词识别。尽管如此，线检测和分割通常由单独的算法以独立的方式执行，并且许多HWR模型仅在地面实况线分割的上下文中进行设计、训练和评估[18，29]。一些作品试图将检测、分割和识别结合起来。Bluche等人提出了一种使用软注意机制检测和识别文本行的循环模型[3]。但是，这种方法很慢，因为模型会对整个图像进行两次处理，以转录每个文本行。此外，该方法不允许预处理检测到的文本行（例如，归一化文本高度），这被证明可以提高HWR性能[11]。相比之下，我们提出的模型可以在一次通过中有效地检测所有文本行，并在对每行独立应用HWR模型之前使用学习的预处理，从而允许并行识别每行。在这项工作中，我们提出了开始，跟随，阅读（SFR），一个新的端到端的整版手写识别模型，包括 3 个子模型：一个开始的行（SOL）发现者，一个行跟随者（LF），一个行级HWR模型。SOL查找器是一个区域建议网络（RPN），其中建议的区域是给定文档图像中文本行的开始位置和方向。LF模型从每个预测的SOL位置开始，沿着文本开始、跟随、阅读：端到端整页手写识别3线，并产生一个规范化的文本图像。最后，现有技术的HWR模型从归一化的线图像预测转录。图1显示了SOL、LF和HWR网络如何处理文档图像。一个主要的贡献是我们的新型LF网络，它可以分割和规范化弯曲的文本（例如：图1底部），其不能用边界框分割。虽然[19]以前使用SOL网络，但我们提出了一种新的架构和一种新的训练方案，以优化识别性能。另一个贡献是在仅具有转录的大量图像集合上对三个组件进行联合训练，这允许SOL查找器、LF和HWR相互适应并相互监督特别是，我们证明了LF和HWR网络可以用于导出和细化SOL网络的潜在目标;这种方法只需要在少量图像上进行预训练（例如：50）具有附加的分段标签。我们在ICDAR2017 HWR竞争数据集上展示了最先进的性能[25]。这种竞争代表了一种常见的情况，其中集合被手动转录，但分割没有注释。虽然使用所提供的区域注释的最佳先前结果是71.5 BLEU分数（57.3 BLEU没有），但SFR使用区域注释实现了73.0 BLEU，并且使用72.3 BLEU分数没有区域时表现略差。2相关工作虽然分割和识别是HWR的关键组成部分，但大多数现有工作独立地解决了这些问题：文本行在被识别模型转录之前被检测、分割并预处理成矩形图像片段。检测、分割或预处理步骤中的错误通常导致较差的识别。相比之下，SFR在端到端模型中联合执行检测，分割，预处理和识别。文本行检测/分割。通常，垂直投影轮廓中的峰值（沿行求和像素）用于检测从深色文本到较亮行间空间的过渡[13，1，26]。然而，这些方法对具有噪声和弯曲手写体（例如，手写体）的图像敏感图1中的图像）。另外，这样的方法假设不同的文本行不能水平相邻，这是在实践中违反的假设递归XY切割算法还考虑水平投影轮廓，以沿水平投影轮廓进行垂直图像切割。检测到的空白，但需要手动调整阈值[14]。基于接缝雕刻[2]的方法改进了投影轮廓方法，因为接缝可以遵循文本行的曲线Boiangiu等人使用像素信息测量来计算接缝雕刻的能量图 [5] ，而 Saabni 和 El-Sana 使用符号距离变换来计算能量 [24] 。ICDAR2017 手写识别竞赛的获胜者 [25] 通过使用卷积神经网络（CNN）来预测线条是否过度分割或分割不足，从而纠正了接缝雕刻方法的输出。Tian等人。[31]使用区域建议网络（RPN），类似于Faster-RCNN[23]，来预测野生检测中文本的边界框。然而，在这方面，4C. Wigington等人与Faster-RCNN不同，他们的RPN预测沿着文本行的许多小框，以便遵循倾斜或弯曲的行。这些框必须在单独的步骤中聚类，这可能导致过度分割或分割不足。手写识别。一些早期的手写识别模型使用诸如神经网络和支持向量机（SVM）的机器学习模型来使用手工特征学习整个单词、字符和笔画分类器[32，17]。然而，这样的方法需要进一步分割的文本行图像成图元，如字符或笔划，这本身是容易出错的。隐马尔可夫模型（HMM）方法类似于语音识别中使用的方法，然后变得流行，因为它们能够执行对齐以细化分割假设[20]。这些方法通常与语言模型（LM）或词典相结合，以改进预测，使其更接近有效的自然语言[6]。连接主义时间分类（CTC）损失[10]的引入允许递归神经网络（RNN）字符分类器执行类似于HMM的对齐，这导致了RNN方法目前在HWR中的主导地位长短期记忆（LSTM）网络与卷积网络、CTC和LM解码相结合代表了HWR [11]中的当前最新技术水平。还提出了其他改进，例如多维LSTM [12]，神经网络LM [34]和基于扭曲的数据增强[33]对文本行进行预处理以降低倾斜度、增加对比度、规范化文本高度和去除噪声也是许多HWR系统的关键组件[11]。结合分割和识别。 Moysset等人提出用RPN预测SOL位置，然后将HWR网络应用于从SOL开始的轴对齐边界框[19]。然而，这两个模型是独立训练的，边界框分割无法处理弯曲的文本。递归计算用于识别的注意力掩码已应用于行级[3]和字符级[4]，尽管这些方法在计算上是昂贵的，但它们已被证明可以成功地在具有良好分离的文本行的现代手写的干净数据集上遵循斜线相比之下，我们展示了我们的工作更具挑战性的数据集的噪声历史手写文件。3拟定型号：开始、跟随、阅读为了共同学习文本检测、分割和识别，我们提出了具有三个组件的SFR模型：行起始（SOL）网络、行跟随（LF）网络和手写识别（HWR）网络。在预训练每个网络之后（Sec.3.3）单独地，我们只使用地面实况（GT）transanimation（带有换行符）联合训练模型（第3.3节）。3.3）。3.1网络描述行起始网络我们的行起始（SOL）网络是一个RPN，用于检测文本行的起始点我曾以《易经》为题，以《易经》为题。开始、跟随、阅读：端到端整页手写识别5图2：SOL网络密集地预测每个16x16输入补丁的x和y偏移量、比例、旋转角度和发生概率与左右分割方法相反，这允许检测水平相邻的文本行。(a) SOL位置和第一观察窗（b）预测的下一位置(c) 下一个观察窗口（d）产生的LF中心线路径(e)归一化手写线图3：LF从SOL（a）开始，并回归到（b）中第二个蓝点所指示的新位置。下一个输入是新的查看窗口（c）。重复该过程直到其到达图像边缘。中的紫色和绿色线条(d) 示出了产生归一化手写线（e）的分割但我们使用截短的VGG-11架构[27]而不是MDLSTM架构来密集预测SOL位置（图12）。2）的情况。对于图像块，我们回归（x0，y0）坐标、尺度s0、旋转θ0和出现概率p0。对于具有SOL的图像补丁（例如，图中的红框2），网络应该预测p0= 1，否则为0。对于16 x16的预测步幅，我们移除VGG-11的完全连接和最终池化层，并且与Faster R-CNN [23]类似，预测的（x，y）坐标是相对于补丁中心的偏移。缩放和旋转对应于手写的大小和文本行的倾斜行跟随器在识别SOL位置之后，我们的新颖LF网络以递增的步骤跟随手写行，并输出适合于HWR的去扭曲文本行图像（参见图2）。（3）第三章。代替使用边界框（例如，[19]），LF网络分割多边形区域，并且能够跟随和拉直任意弯曲的文本。LF是一个递归网络，给定当前位置和旋转角度（xi，yi，θi），对小观察窗口（图2中的红框）进行重新采样3a），其被馈送到CNN以回归（xi+ l，yi+ l，θi+ l）（图3b）。第3b段）。重复该过程，3c和3d），并且在训练期间，我们使用HWR6C. Wigington等人s0我图4：使用当前变换Wi（a），我们从输入图像重新采样32× 32块CNN回归用于计算下一个变换（e）的变换变化（d）使用LF路径的上点和下点（f，g），我们对60× 60的贴片进行重采样，以成为归一化的分段线的一部分网络来决定文本行结束的位置。初始位置和旋转由预测的SOL确定。观察窗的尺寸由预测的SOL尺度确定并且保持固定。对输入图像进行重采样以获得观察窗口类似于空间变换网络[15]，使用将输入图像坐标映射到观察图像坐标的仿射变换矩阵（见图2）。4）.这允许LF错误通过观察窗口反向传播第一观察窗口矩阵W0=AWSOL是由变换SOL矩阵WSOL（由SOL网络预测的值定义）和前瞻矩阵A定义的映射的合成：1s0 0 0cos（θ0）−sin（θ0）01 0−x00的情况。50−1WSOL=010 sin（θ0）cos（θ0）00 1 −y0，A=0 0的情况。50（1）0 0 10 010 0 10 0 1前瞻矩阵为LF网络提供了足够的上下文以正确地跟随线。对于每个步骤i，我们根据Wi通过重采样提取32× 32观察窗块。重采样时，面片中的（x，y）坐标被归一化为范围（−1，1）。给定第（i-1）个观看窗口块，LF网络回归用于形成预测矩阵Pi的xi、yi和θi。然后我们计算Wi=PiWi−1，其中cos（θi）−sin（θi）01 0−xiPi=sin（θi）cos（θi）00 1−yi（2）0 0 1 0 0 1为了获得HWR的输出图像，我们首先将归一化手写线路径表示为上坐标对和下坐标对的序列，pu，i和p，i（图3d中的绿色线和紫色线），其通过将预测窗口的上中点和下中点乘以它们的逆变换来计算xu，ix，i0 0pu，i，p，i=yu，iy，i =W−1A1 1 1 1开始、跟随、阅读：端到端整页手写识别7我们通过将每个pu，i、p，i、pu，i+1和p，i+1映射到60× 60贴片的角来提取手写线。我们将所有这些补丁连接起来，形成一个大小为60s× 60的完整手写线，其中s是LF步数。LF的架构是7层CNN，具有3x3内核和6个卷积层上的64、128、256、256、512和512个特征图我们在第4层和第5层之后应用批量归一化（BN），并在第1层、第2层、第4层和第6层之后应用 2x2最大池化（MP）使用全连接层来回归X、Y、θ输出，其中X的初始偏置参数被初始化为1，Y和θ的偏置被初始化为0. 该初始化是线是直的并且从左到右读取的先验在LF网络产生归一化的线图像之后，它被馈送到CNN-LSTM网络以产生转录。HWR网络的CNN部分学习垂直折叠的高级特征，以创建馈送到双向LSTM模型的水平1D序列在BLSTM中，学习的上下文特征在字符分类器应用于每个输出时间步之前沿着序列向前和向后传播字符预测的输出序列比GT转录长得多，但包括用于CTC解码步骤[10]的空白字符。通过首先折叠非空白重复字符并且然后移除空白来执行解码，例如输出--hh-e-lll-loo--被解码为你好虽然CTC损失并没有明确地强制预测字符和输入图像之间的对齐，但在实践中，我们能够利用这种对齐来改进SOL预测（参见第二节）。3.3）。我们的HWR网络的架构是在CNN-LSTM HWR网络[33]上，并且类似于我们的LF网络。输入大小为W×60，其中W可以动态变化。有6个卷积层，具有3x3滤波器，分别具有64、128、256、256、512和512个特征图。在层4之后施加BN和5，并且在层1、2之后应用2x2MP（步幅2）。要垂直折叠要素，我们使用2x2 MP，垂直步幅为2，水平步幅为1在层4和6之后。要素垂直连接以形成序列的1024维特征向量，其被馈送到具有512个隐藏节点和0.5的节点丢失概率的2层BLSTM。在每个时间步应用全连接层以产生字符分类。HWR还提供附加功能。LF总是运行到页面的边缘，并且在许多情况下与其他列或SOL位置相交。HWR在训练期间隐式地学习何时停止阅读（类似于[19]），因此我们不需要额外的后处理来确定行何时3.2后处理我们介绍了一种新的非最大抑制方法的SOL和LF网络。给定任何两个LF路径预测，我们考虑前N个步骤（我们使用N= 6）。我们通过连接中心线的起点和终点形成一个多边形。如果生成的多边形的面积低于与其长度成比例的阈值，则我们抑制具有最低SOL概率的线。8C. Wigington等人2图5：我们的网络首先在一个小的训练集上进行预训练，并带有分割和转录注释。在仅具有转录注释的大得多的训练集为了纠正识别错误，我们采用了基于HMM的10-gram字符级语言模型（LM），该模型已使用Kaldi工具包[21]在训练集转录上进行了训练。字符级LM通常比单词级LM更好地纠正词汇表外的单词[16]。3.3培训图5总结了整个训练过程：（1）使用少量具有GT SOL、分割和行级转录的图像对网络进行预训练（第2节）。（2）对中（第3.3节）3.3）在仅具有GT转录的大量训练图像上产生SOL和LF网络的自举目标;（ 3）使用来自对准的SOL和LF目标以及用于 HWR网络的GTtransmittance来训练各个网络;（4）使用每个网络的最佳个体权重在整个验证集上执行验证。重复步骤2-4直到收敛。我们通过将图像大小调整为512像素宽并采样256x256个补丁（其中一半补丁包含SOL）来创建SOL网络的训练集。通过使用缓存的缓存来填充，允许补丁扩展到图像外部。我们使用多框对象检测模型[8]的Losfunctionp〇〇sD，其执行最高概率预测的SOL位置与目标位置之间的对准。ΣNL（l，p;t）=ΣMXnm（αln−tm2−log（pn））−（1−Xnm）log（1−pn）（4）n=0m =0其中t，m是目标位置，p，n是SOL发生的概率，并且1，n是直接预测的（xn，yn，sn，θn）的变换：ln=（− sin（θn）sn+xn，−cos（θn）sn+yn，sin（θn）sn+xn，cos（θn）sn+yn），（5）Xnm是N个预测和M个目标位置之间的二进制比对矩阵，而α对位置损失和置信度损失的相对重要性进行在我们的实验中，α =0。01，并且我们使用如[8]中的二分图匹配来计算使给定（l，p，t）的L最小化的Xnm开始、跟随、阅读：端到端整页手写识别9(a) （b）后退步骤(c)完成前向步骤（d）改进的SOL预测。图6：SOL细化过程。在（b）中，LF不回溯到初始（不正确）SOL。LF通过（c）中的正确SOL，其使用由HWR网络中的CTC解码引起的对准（d）来识别。当LF输出一个标准化的文本行图像时，定义图像变换是分段仿射的，并且由上下坐标点的序列参数化因此，为了监督，我们构建诱导所需的分段仿射变换的目标坐标点对，并使用均方误差（MSE）损失来训练LF。Σ损失=pu，i−tu，i（六）2 2i=0时LF从第一个目标点tu，0和t，0开始，每第4步重置为相应的目标点。这样，如果LF偏离手写，它可以恢复，而不会将大的和无信息的错误引入训练过程。为了帮助LF对先前不正确的预测具有鲁棒性，在重置到目标位置之后，我们通过Δ x，Δ y ∈ [−2，2]像素的平移和Δ θ ∈ [−0]的旋转随机扰动LF位置。1，0。1]弧度。手写识别我们使用CTC损失在具有对齐的GT转录的线图像上训练HWR 网络 [10] 。对于数据增强，我们应用随机扭曲网格失真（RWGD）[33]来模拟手写形状的变化，对比度增强[30]来学习文本/背景对比度的不变性，以及全局色调扰动来处理不同颜色的纸张和墨水。在联合训练有效之前，每个网络都需要达到合理的准确度单个网络在少量具有SOL、分割和行级转录注释的图像上进行预训练这遵循与前三小节中所述相同的过程，但实际GT用于目标。在网络被预训练之后，我们针对仅具有转录注释的图像执行SFR预测的线转录与GT线转录之间的比对，即没有相应的空间GT信息。这种调整的主要目的是创建自举式培训10C. Wigington等人因为图像缺乏用于检测和分割的GT，所以SOL和LF网络的目标是不可见的。对于每个GT文本行，我们跟踪最佳预测的SOL和分割点，其中最佳由HWR网络产生的对应预测行转录的准确性定义。校准和训练交替进行（见图1）。5）更好的对准改善了网络训练，反之亦然。为了执行对齐，我们首先在整个图像上运行SOL查找器并获得密集的SOL预测。在概率高于阈值的预测SOL上，我们然后应用LF和HWR网络来获得预测的分割和转录。对于每个GT行，我们找到最小化字符错误率（CER）的预测转录，其相当于字符串编辑距离。如果CER低于针对该GT线的最佳预测值，则将该GT线的大小SOL和分段点更新为由SOL和LF网络预测的对齐的最后一步是使用从LF和HWR网络提取的空间信息来细化SOL位置为了细化SOL目标，我们从当前最佳SOL向前运行LFs = 5步（图12）。6a），然后向后s+1步（图第6b段）。然后，我们将当前最佳SOL向上或向下移动以与向后路径对齐这是因为即使LF没有在文本行上开始，它也会在向前步骤中快速找到文本行，然后可以使用向后步骤将其返回到其开始接下来，我们从这个新的SOL运行LF和HWR，并在CTC解码之前找到第一个非空白预测字符（图2）。（见第6d段）。然后，我们将SOL左右移动以与该字符的图像位置对齐。为了找到手写行的结束，我们在CTC解码期间找到最后一个非空白字符。一旦我们确定了线的结束，我们就不再运行LF超过线的结束，这有助于加快训练。端到端训练虽然我们的SFR模型是端到端可区分的，因为CTC损失可以通过HWR和LF网络反向传播到SOL网络，但在实践中，我们在本工作中使用的数据集上使用端到端训练时没有观察到性能提高。端到端的训练速度要慢得多，三个网络的训练时间也有很大的不同，其中HWR网络的训练时间最长。我们已经得出结论，我们的SFR模型所产生的大多数错误不太可能通过端到端错误反向传播来修复，因为（1）转录CTC损失不能修复非常差的分割，以及（2）当预测的SOL和分割相当好时，我们的联合训练提供了足够的监督。4结果我们在2017年ICDAR HWR整版比赛数据集[25]上评估了我们的SFR模型，该数据集是19世纪德国笔迹的数据集，其中有两个训练集。第一组有50个完全注释的图像，具有行级分割和transmartation。第二组10，000个图像仅具有转录（包含换行符）。据我们所知，这个数据集是最大和最具挑战性的开始、跟随、阅读：端到端整页手写识别11表1：ICDAR 2017 HWR竞赛结果[25]与我们的方法相比。方法带ROI的无ROI的开始，跟随，阅读（我们的）73.072.3BYU71.557.3ParisTech48.3-诉讼开始37.2-表2：行级数据集结果。*表示非标准的列车/试验分离。方法页级RIMES IAMCERWERCER WER开始、跟随、读取（我们的）X2.1 9.36.4 23.2蓝色[3] X 2.9 12.6 7.9 24.6∗[34]第34话：我的世界∗18.4公共HWR基准，206，161手写线和1，769，195字。测试数据是不公开的，所以我们使用公共评估服务器3报告的BLEU得分指标。竞争测试数据为每个图像提供多个感兴趣区域（ROI）以便于文本行分割，并且评估服务器协议要求将所有预测的文本行分配给ROI。我们还评估了IAM和Rimes线级数据集。4.1定量结果完全注释的50幅图像用于预训练网络（见图1）。（五）。然后，我们通过交替对齐、训练和验证步骤，对9,000张图像（1,000张用于验证）进行联合然后，我们向评估服务器提交了两组预测：一组利用ROI信息，一组不利用ROI信息。为了利用ROI信息，在运行SFR之前，我们使用中值图像颜色掩盖图像的所有其他部分。虽然我们也在没有ROI的情况下进行评估，但评估服务器仍然要求将每行分配给一个ROI。在完整页面上运行SFR（无掩码）后大多数在任何ROI之外的预测被丢弃，尽管有时这些是完全在给定ROI之外的真实的未注释的文本行竞争系统通过首先裁剪到ROI边界框[25]来对每个ROI进行预测。使用与SFR相同的过程，在没有ROI的情况下对BYU系统进行评价，不同之处在于，只有当线与ROI不相交时，才将其丢弃这种差异是必要的，因为它们的分割跨越整个图像，太多好的文本行将被丢弃。表1将SFR与竞争结果进行了比较。我们的SFR模型使用ROI注释实现了最高的BLEU得分73.0，但仅性能3https://scriptnet.iit.demokritos.gr/competitions/~ icdar2017htr/12C. Wigington等人(a) LF在翘曲的IAM线上，上下线作为牵引。提供了SOL职位(b) 抗扭斜线。左上角（c）抗扭斜线。左下图7：来自扭曲的IAM数据集的结果。在没有ROI的情况下略微降低到72.3。这表明SOL和LF网络表现良好，并且没有从文本行位置的先验知识中受益很多。相比之下，使用ROI的获胜竞争系统的得分为71.5，但是其性能在没有ROI的情况下显著下降到57.3。表2显示了IAM（英语）和RIMES（法语）行级数据集的结果。像[3]一样，我们在线级数据集上评估了我们的页面级方法，除了10个预训练图像外，我们在训练或评估期间不使用提供的线分割注释我们在RIMES上取得了最先进的结果，优于[22]，后者使用分割注释进行训练和评估。在IAM上，我们的表现优于之前提出的最好的页面级模型[3]，并且我们注意到[22]使用了非标准的数据分割，因此他们的结果不能直接比较。表2中所示的结果没有LM解码，使得可以公平地比较原始识别模型。4.2定性结果我们制作了一个合成数据集来测试LF在非常弯曲的线上的鲁棒性为了生成数据，我们随机扭曲了IAM数据集[18]中的真实手写线条，并在上面和下面添加了分散注意力的线条我们提供了SOL职位，没有雇用HWR。图7示出了来自验证集的结果。即使文本行有些重叠（图7b），LF也能够停留在正确的行上。虽然合成扭曲被夸大了，但这表明LF可以学习遵循不那么极端的现实世界曲率。图9显示了ICDAR2017 HWR数据集验证集的一些结果。在干净的图像上，SFR通常会产生完美的转录（图1）。9a），只有轻微的错误，嘈杂的笔迹（图。第9b段）。LF在复杂的布局上表现良好，例如水平相邻的线（图11）。9c）。然而，一些噪声线路导致LF在线路之间跳跃。（图9d）。我们还将训练后的SFR模型应用于其他图像数据集，发现SOL和LF网络甚至可以推广到不同语言中的文档开始、跟随、阅读：端到端整页手写识别13(a) 2016年ICFHR HWR竞赛的15世纪文件[29](b) ICDAR基线检测竞赛的英文文件[7]图图8：来自其他集合的图像应用于我们的训练模型语言。图8a示出了SFR正确地分割了用早期现代德语书写的文档，并且我们在英语文档上看到了类似的结果（图8b）。第8b段）。当然，HWR网络需要重新训练以处理其他语言，但由于SFR的模块化，HWR网络可以重新训练，同时保留以前的SOL和LF网络。其他图像可在补充材料中查看。5结论我们已经为整版HWR引入了一种新颖的开始、跟随、读取模型，并在具有挑战性的历史手写数据集上展示了最先进的性能，即使在不利用给定ROI信息的情况下。我们改进了以前的SOL方法，并引入了一种新的LF网络，学习分割和规范化手写线输入到HWR网络。在初始预训练之后，我们的新型训练框架能够仅使用行级转录来联合训练文档这是重要的，因为当人类注释者转录文档时，他们通常不注释任何分割或空间信息。我们相信，除了SOL之外，还可以通过预测生产线结束（EOL）并向后应用LF来进行进一步的改进。然后，SOL和EOL结果可以相互约束，并导致改进的分割。此外，我们没有广泛探索网络架构，因此性能可以通过改进架构（如残差网络）来提高14C. Wigington等人(a) 没有错误(b) 嘈杂的线条，很少的转录错误(c) 布局复杂，抄写错误(d) 线路噪声，LF错误。错误发生后，HWR停止读取图9：ICDAR 2017竞争数据集的结果。彩色线表示不同的检测线。绿色、红色和紫色字符分别表示插入、替换和遗漏错误。开始、跟随、阅读：端到端整页手写识别15引用1. Antonacopoulos，A.，Karatzas，D.：第二次世界大战个人记录的文件图像分析。在：图书馆的文件图像分析研讨会。pp. 336-341. IEEE（2004年）2. 阿维丹美国，沙米尔答：接缝雕刻为内容感知图像调整大小。在：ACMSIGGRAPH2007 论文。 SIGGRAPH'07 ， ACM （ 2007 ） .https://doi.org/10.1145/1275808.12763903. Bluche，T.：用于端到端手写段落识别的联合行分割和转录。神经信息处理系统进展（Advances in Neural Information Processing Systems，NIPS）。pp. 8384. Bluche，T. Louradour，J.，墨西拿河：扫描、出席并阅读：端到端手写段落识别与MDLSTM注意（04 2016）5. Boiangiu，CA，Tanase，M.，Ioanitescu，R.：基于信息能量的手写文档文本行分割International Journal of Computers，Communications and Control（IJCCC）9，86. Bunke，H.，Bengio，S.，Vinciarelli，A.：无约束手的离线识别使用HMM和统计语言模型编写文本。IEEE Transactions on Pattern Analysis andMachine Intelligence（TPAMI）26（6），709 -720（2004）7. Diem ， M.Klebe r ， F. ，图 1 ， S. ， Gru¨ning g ， T.好的 B ： cBA D ：ICDAR2017关于基线检测的竞争。第14届国际文件分析与识别会议（ICDAR）pp.1355-1360年。IEEE（2017）8. Erhan，D.，塞格迪角Toshev，A.安格洛夫，D.：使用深度神经网络的可扩展对象检测CoRRabs/1312.2249（2013），http://arxiv.org/abs/1312.22499. Frinken，V. Fischer，A.，Mart´ınez-Hinarejos，C.D.：使用非常大词汇表的历史文档第二届历史文献成像与处理国际研讨会（HIP）。pp. 67比72 ACM（2013）10. Gr aves，A.， S.， Gomez，F.， Schmidhube r，J. ：综合经济学专业分类：用递归神经网络标记未分割序列数据。第23届机器学习国际会议pp. 369-376. ACM（2006年）11. Gr aves ， A. ， Li w ic k i ， M. ， S. ，比奥拉米， R. ， Bunke ， H. ，Schmidhuber，J.：一种新的无约束手写识别的连接主义系统。IEEE Transactionson Pattern Analysis and Machine Intelligence（TPAMI）31（5），85512. 格雷夫斯，A.，Schmidhuber，J.：基于多维递归神经网络的脱机手写体识别。神经信息处理系统进展（Advances in Neural Information Processing Systems ，NIPS）。pp.第54513. 哈J Haralick，R.M. 菲利普斯 I.T.：文件页面分解通过边界盒项目第三届国际文件分析与识别会议（ICDAR ）第2卷，第 1119-1122. IEEE （1995 ）。https://doi.org/10.1109/ICDAR.1995.60211514. 他，J.，唐顿，AC：用户辅助的数字档案文档图像分析谈图书馆建设。在：国际会议文件分析和识别。pp. 498-502. IEEE（2003年）15. Jaderberg ， M. ，西蒙尼扬， K. ， Zisserman ， A. ， Kavukcuoglu ， K. ：空间Transformer网络。在：神经信息处理系统（NIPS）的进展。201716C. Wigington等人16. Kozielski，M.，Rybach，D.，Hahn，S.，施尔特河Ney，H.：使用组合的单词级和字符级语言模型的开放式词汇手写识别2013 IEEE International Conference onAcoustics ， Speech and Signal Processing. pp. 8257-8261 （ 2013 年 5 月）。https://doi.org/10.1109/ICASSP.2013.663927517. Lorigo ， L.M. ， Govindaraju ， V. ：离线阿拉伯手写识别：调查。 IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI）28（5），71218. 玛蒂紫外线邦克，H.：IAM数据库：一个用于离线手写体识别的英文句子数据库。International Journal on Document Analysis and Recognition5（1），3919. Moysset，B.Kermorvant，C.，Wolf，C.：全页文本识别：学习-从哪里开始，什么时候停止。第14届国际文件分析与识别会议（ICDAR）pp. 871-876. IEEE（2017）. https://doi.org/10.1109/ICDAR.2017.14720. Pl¨otz，T.， Fin k，G. A. ：马克洛夫现代化的电子表格在h和w rittin g c o g nition ： asur vey。 International Journal on Document Analysis and Recognition（IJDAR）12（4），269（2009）21. Povey ， D. ， Ghoshal ， A. ， Boulianne ， G. 伯基特湖格伦贝克岛， Goel ， N.Hannemann ， M. ， Motlicek ， P. ， Qian ， Y. ， Schwarz ， P. Silovsky ， J. ，Stemmer，G.，维斯利K.：Kaldi语音识别工具包。在：IEEE 2011自动语音识别和理解研讨会。 IEEE 信号处理学会（ 2011 年 12 月）， iData Catalog No. ：CFP11SRW-USB22. Puigcerver，J.：手写文本识别真的需要多维递归层吗？第14届国际文档分析与识别会议（ ICDAR ）。 pp.67-72.IEEE （ 2017 年 11 月）。https://doi.org/10.1109/ICDAR.2017.2023. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络进行实时目标检测。 IEEE Transactions on Pattern Analysis and Machine Intelligence39（6），113724. 萨卜尼河El-Sana，J.：基于Seam的与语言无关的文本行提取雕刻第11届国际文件分析与识别会议（ICDAR）pp. 563-568. IEEE（2011）25. Sanchez，J.A.罗梅罗五世Toselli，A.H.，Villegas，M.，维达尔，E.：ICDAR2017关于READ数据集上手写文本识别的竞赛。第14届国际文件分析与识别会议（ICDAR）pp.1383-1388. IEEE（2017年11月）。 https://doi.org/10.1109/ICDAR.2017.226，doi.ieeecomputersociety.org/10.1109/ICDAR.2017.22626. Shapiro，V. Gluhchev，G.，Sgurev，V.：手写文档图像分割与分析。PatternRecognition Letters14（1），7127. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模计算图像识别CoRR abs/1409.1556（2014），http://arxiv.org/abs/1409。 155628. 史密斯，R.：Tesseract融合了新旧OCR技术（2016）29. 桑切斯，J.A.，罗梅罗五世Toselli，A.H.，维达尔，E.：ICFHR2016关于READ数据集上手写文本识别的竞赛。第15届国际手写识别前沿会议（ICFHR）。pp. 630-635. IEEE（2016年10月）。https://doi.org/10.1109/ICFHR.2016.012030. Tensmeyer，C.，桑德斯 D、马丁内斯 T.：卷积神经字体分类. 第14届国际文档分析与识别会议（ICDAR）。pp. 985-990. IEEE（2018年11月）。开始、跟随、阅读：端到端整页手写识

下载后可阅读完整内容，剩余1页未读，立即下载