无分割文本识别的神经网络模块OrigamiNet

179 浏览量更新于2023-10-23 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1OrigamiNet：弱监督，无分割，一步，通过学习展开的穆罕默德·优素福直觉机器公司myb@imachines.com汤姆·E BishopIntuition Machines，Inc.tom@imachines.com摘要文本识别是一项主要的计算机视觉任务，具有一系列相关的挑战。这些传统挑战之一是文本识别和分段的耦合性质在过去的几十年里，这个问题已经逐步得到解决，从基于分割的识别到无分割的方法，这被证明是更准确和更便宜的注释数据。我们从无分割单行识别向无分割多行/整页识别迈出了一步我们提出了一种新颖而简单的神经网络模块，称为OrigamiNet，它可以增强任何CTC训练的，完全卷积的单行文本识别器，通过为模型提供足够的空间容量来将其转换为多行版本，以便能够正确地将2D输入信号折叠为1D而不会丢失信息。这种修改后的网络可以使用完全相同的简单的原始程序，并只使用未分割的图像和文本对进行训练我们进行了一组可解释性实验，表明我们的训练模型学习准确的隐式线分割。我们在IAM ICDAR2017 HTR手写识别基准上实现了最先进的字符错误率，超过了文献中的所有其他方法。在IAM上，我们甚至超越了在训练过程中使用精确定位信息的单线方法。我们的代码可以在https：//github.com/IntuitionMachines/OrigamiNet网站。1. 介绍文本的普遍存在使得其各种视觉形式的处理的自动化成为日益增长的多年来，文本识别系统中降低错误率的主要驱动主题之一是减少显式分割建议，以增加全序列识别。在全序列模型中，识别系统学习同时分割/对齐和识别/分类表示一个序列的图像，要求[4]美国[3]第一章[30个][7、33、19]我们全页图像全页文本GT Seg.行图像分段转录隔离区的预备训练。数据特别课程#迭代次数/图像✓✓✗✗✓✓500✓✓✗✗✓✓10✓✓✗✗✓✗10✓✓✓✓✗✗10✓✓✗✗✗✗1表1：在各种先前的工作和我们提出的方法之间，训练整页识别器所需的数据的比较。我们可以看到，我们的方法是唯一真正在页面级别工作的方法，而不需要在任何阶段使用任何分段数据。#Iterations/image是从IAM数据集转录完整段落图像所需的平均迭代次数;我们可以注意到，虽然所有其他方法都需要对每个图像进行多次迭代（以识别每个分段字符或行），但我们的方法只对输入的完整段落图像执行观察序列（即字符）。这种趋势从尝试单独分割每个字符然后对字符图像进行分类的第一系统[ 6 ]发展今天，最先进的文本识别系统在整个输入行图像上工作，而不需要任何先前的显式字符/单词分割[35，18]。这消除了提供字符本地化注释作为地面实况转录的一部分的要求。识别精度仅依赖于自动行分割，这比自动字符分割容易得多然而，行分割仍然是一个容易出错的过程，并会导致今天的文本识别系统的性能大大恶化。这对于具有难以分割的文本行的文档尤其如此，例如手写文档[10，24]，具有翘曲的行、不均匀的行间距、接触的行和撕裂的页面。1471014711以前试图解决弱监督多线识别问题的主要工作是[3，4，30]。除了这些方法之外，在整页识别上工作的其他方法需要在训练期间文本行我们提出的方法所需的训练数据与文献中的其他方法见表1。在这项工作中，我们提出了一个简单而新颖的神经网络子模块，称为OrigamiNet，它可以添加到任何现有的卷积神经网络（CNN）文本行识别器中，将其转换为完整的页面识别器。它可以以弱监督的方式转录全文页面，而无需在训练期间给出任何本地化地面实况（图像中的视觉或转录中的文本），并且无需执行任何显式分割。与以前的工作相比，这是非常有效地完成只使用前馈连接（没有经常性的连接），基本上，在一个单一的网络前向传递。在这项工作中，我们的主要直觉是，而不是传统的两步框架，第一段，然后再识别提取的段，提出了一种新的综合学习方法，同时隐式分割和识别。这通过学习表示转换来工作，该表示转换将输入转换为分割和识别都很简单的。我们隐式地将输入的多行图像展开为单行图像（即，从字符的2D排列到1D），其中原始图像中的所有行被拼接到一起成为一个长的行，因此实际上不需要文本行分割。分割和识别都是在同一个步骤中完成的（单个网络前向传递），而不是迭代执行（在每行上），因此所有计算都在识别和隐式分割之间共享，整个过程要快得多实现这一目标的主要因素是：使用空间瓶颈之后是上采样的想法，广泛用于逐像素预测任务（例如，[16，23]）;以及使用CTC损失函数[11]，其强烈诱导/鼓励线性1D目标。我们构建了一个简单的神经网络子模块，应用这些新的想法，并证明其有效性和通用性，通过附加到一些国家的最先进的文本识别神经网络架构。我们表明，它可以成功地将它们从单行转换成多行文本翻译器，与完全相同的训练过程（即。而不求助于复杂和脆弱的训练方法，如特殊的训练课程或特殊的预训练策略）。在具有挑战性的ICDAR 2017 HTR [24]全页基准测试中，我们在没有任何本地化数据的情况下实现了最先进的字符错误在IAM [17]数据集的完整段落上，我们能够实现最先进的CER，超越那些在仔细预分割的文本行上工作的模型，而无需使用任何本地化信息。在训练或测试中。总之，我们解决了弱监督整版文本识别的问题我们特别作出以下贡献：• 我们在概念上提出了一种新的弱监督同步对象分割方法，识别，并将其应用于文本。• 我们提出了一个简单而通用的神经网络子模块，可以添加到任何基于CNN的文本行识别器中，将其转换为多行识别器，使用相同的简单训练程序。• 我们进行了一系列广泛的实验，对一些国家的最先进的文本识别器，证明我们的主张。由此产生的架构表明，ICDAR2017 HTR和完整段落IAM数据集的最新性能。2. 相关工作在文献中没有太多关于整页识别的先前工作。文献[3，4]主要考虑了无分段多线识别。两者的思想都是使用选择性注意力只关注输入图像的特定部分，无论是[4]中的字符还是[3]中的线条。这些作品有两个主要缺点。首先，两者都难以训练，并且需要在多行版本上训练之前在单行图像上预训练其编码器其次，虽然[3]比[4]快得多，但与当前处理分段文本行的方法相比，除了这两种无分割方法之外，其他适用于整页识别的方法需要所有[5，7，19]或部分[33]训练数据的文本行的本地化地面实况，以训练单独的网络或（大型多任务网络的）子模块进行文本行本地化。此外，所有这些方法都需要在所有提供的文本地面实况transname（即，文本行必须在图像中可视地和在转录中文本地被分割）。[30]提出了以弱监督的方式适应[33]的想法，而不需要在转录中换行，通过将预测的行转录和地面实况之间的对齐设置为组合优化问题，并快速解决它。然而[30]仍然需要与[33]相同的预训练，表现更差。3. 方法图1展示了我们提出的OrigamiNet模块的核心思想，以及如何将其附加到任何完全卷积的文本识别器上。为了便于比较，显示了版本之前和版本之后。连接主义时间分类（CTC）损失函数允许神经文本识别器的训练14712通过考虑两个1D序列之间的所有可能的比对，将未分段的输入进行比较。由网络产生的预测序列被表示为P，并且标签序列与输入图像L相关联，其中|L|<|.|.严格要求P是一维序列，引入了一个问题，假定原始输入信号(the图像I）是2D信号。该问题通常已经通过使用简单的归约操作（例如，（通常是垂直方向），给出：单线识别器，并且没有应用于网络的任何子模块的任何特殊的预训练或课程（这两者都专门用于文献中）。这里一个自然的问题是如何选择最终的线长度L2（见图中的定义）。1b）？要为整个段落/页面收集空间，L2必须至少与训练集中任何转录中的最大字符数一样长。时间越长越好，因为（一）反恐委员会需要插入空白以分开重复的标签;（ii）字符在空间范围上变化很大，并且将每个字符映射到最终矢量中的多个目标帧比ΣHPi=j=1F（Ii，j）（1）转换成一帧4. 实验其中F是学习的2D表示变换。这是图中所示的范例。1a.如[3，4]中所述，这种从2D到1D的简单盲折叠对2D输入特征图F（I）的所有行给出了相等的重要性/贡献（以及因此的梯度），并且因此防止了对输入图像中的字符的任何2D布置的识别。如果两个字符覆盖了相同的列，则在折叠操作之后可能只能识别出为了解决这个问题，即。满足CTC的1D输入要求，而不牺牲并行处理能力，通过字符的2D排列，我们提出了通过CNN学习适当的2D→1D展开的想法，这是由CNN在像素预测和图像到图像翻译任务中的成功所激励的我们的工作的主要思想（图中提出。1b）是用一系列放大操作来增强传统范例，该放大操作将输入特征图变换成单线的形状，该单线的形状足够长以容纳来自输入图像的所有线（2D字符排列）。放大操作之后是卷积计算块，作为我们学习的调整大小操作（如许多研究人员所做的，例如，[8]）。改变的放大方向促使输入图像的每一行被映射到输出垂直维度的不同部分在这样的变化之后，我们继续传统的范式，执行简单的求和约简（等式10）。1）沿着所得到的线的垂直维度w（其垂直于原始输入多线图像的垂直维度w）尺寸）。该模型使用CTC进行训练。此外，我们认为，阻止所有以前的工作直接学习正确的2D→1D映射的主要瓶颈是空间约束（即空间约束）。而不是总容量或体系结构约束）。为模型提供足够的空间容量使其能够轻松地学习这种trans-time。形成（即使对于简单的有限容量模型，正如我们将在实验部分中展示的那样）。给定CTC诱导的空间容量和强线性先验，该模型能够使用用于训练的相同简单训练过程来学习强2D→1D展开函数我们进行了一系列广泛的实验来回答以下问题：• 模块是否真的如预期的那样工作？• 它是否与特定的CNN架构相关联？• 它是否与特定型号的容量有关？• 最终空间大小如何影响模型性能？4.1. 实现细节所有实验都使用0.01的初始学习率，在9×104批次中指数衰减到0.001我们在PyTorch [20]中实现，使用Adam [15]优化器。4.2. 数据集IAM [17]（现代英语）是一个著名的离线手写基准数据集。它由657位不同作家手写的1539个扫描文本页组成，对应于从LOB语料库中提取的英语文本[14]。IAM在训练集中有747个文档（6，482行），在验证集中有116个文档（976行），在测试集中有336个文档（2，915行）。ICDAR2017全页HTR竞赛[24]由两个训练集组成。第一个包含50个完全注释的图像，具有行级定位和转录地面实况。第二组包含10，000张只有transmittance（带有注释的换行符）的图像。大部分数据集来自阿尔弗雷德·埃塞尔书信集（AEC），该书信集以德语撰写，但也有法语和意大利语页面。在我们对这个数据集的所有实验中，我们4.3. CNN骨干网为了强调我们提出的模块的通用性，我们在一些流行的CNN架构上对其进行了评估，这些架构在文本识别文献中取得了很好的性能。受基准测试工作[2]的启发，我们评估了VGG和ResNet-26（[2]中探索的特定变体），以及更深入和更具表达力的变体（ResNet- 66和ResNet-74）。我们还评估了一个新提出的1471311H H1H8H51216 16小行星512CC池CTC4H2256conv5 xconv6 xconv8H12864conv3 xconv4 xconv2 x(a) 一个通用的四级全卷积单线识别器，输入是单线图像，使用CTC损失函数进行训练骨干CNN可以是表2中呈现的任何一个。输入被逐渐下采样，然后在损失计算之前通过沿垂直维度的平均池化转换为1D。（图来自PlotNeuralNet [13]）11H4H2H256H8512conv5 xH8512conv6 xL1L2L2CTCL264conv2 x128conv3 xconv4 x512conv7 x512内插Cconv8 xC池HC张量池插值(b) 在这里，我们将完全卷积的单线识别器转换为OrigamiNet多线识别器;比较这两个数字可以看出，所引入的主要变化是分两个阶段纵向扩大规模，同时横向缩小规模。我们得到的特征图是高而窄的（一条很长的垂直线的形状，长度为L2）。之后，我们完全按照上面的方法进行，在短维w上平均池化（新的线，而不是原始图像），然后使用CTC损失函数来驱动训练过程。图1：使用我们的OrigamiNet模块将完全卷积的单行识别器转换为多行识别器用于文本识别的门控，完全卷积架构[35]，称为门控文本识别器（GTR）。我们评估我们提出的模型的CNN骨干的详细结构如表2所示。关于这些架构的基本构建块的更多细节可以在他们各自的论文中找到，VGG [25]，ResNet [12]和GTR [35]。4.4. 最终长度，L2对于IAM，最终长度应该至少为625，因为训练集中最长的段落包含624个字符。这里我们有两个问题：什么样的值可以平衡运行时间和识别准确性？那你L1和L2之间的关系是否影响最终CER？表3给出了一些关于这一点的实验首先，我们可以看到，通常情况下，即使是像VGG这样非常简单的模型也可以成功地学习识别各种配置下的多条线（CER= 30%），然而，更深的ResNet-26在任务上实现了更好的性能，其次，很明显，更宽通常会带来更好的性能（但收益递减），这对于VGG来说比ResNet-26更明显。我们看到，对于合理的值（>800），网络对L2的选择相当鲁棒。我们还可以注意到，L1和L2应该彼此相对接近。14714部分图层名称输出大小ResNet-26ResNet-66ResNet-74VGGGTR-8GTR-12编码器输入高×宽LN1高×宽静态层归一化conv1高×宽7×7，6413×13，16conv2_x高×宽2 2Σ Σ3×3，64×13×3，64Σ Σ3×3，64×13×3，64Σ Σ3×3，64×13×3，64Σ Σ3×3，64 ×1[GateBlock（512）]×1[GateBlock（512）]×12×2最大池，步幅2conv3_x高×宽4 4Σ Σ3×3、128×23×3，128Σ Σ3×3、128×23×3，128Σ Σ3×3，128×63×3，128Σ Σ3× 3，128 ×1[GateBlock（512）]×1[GateBlock（512）]×12×2最大池，步幅2conv4_x高×宽8 8Σ Σ3× 3，256×53×3，256Σ Σ3× 3，256×253×3，256Σ Σ3× 3，256×253×3，256Σ Σ3× 3，256×13×3，256[GateBlock（512）]×1[GateBlock（512）]×22×2最大池，步幅2conv5_x高×宽8 16Σ Σ3×3，512×33×3，512Σ Σ3×3，512×33×3，512Σ Σ3×3，512×33×3，512Σ Σ3× 3，512×13×3，512[GateBlock（1024）]×1[GateBlock（1024）]×32×2最大池，步幅1×2conv6_x高×宽8 16Σ Σ3× 3，512×13×3，512Σ Σ3× 3，512×13×3，512Σ Σ3× 3，512×13×3，512Σ Σ3× 3，512×13×3，512[GateBlock（1024）]×3[GateBlock（1024）]×4解码器双线性插值到L_1×Wconv7_x长1×宽32Σ Σ3×3，512×33×3，512Σ Σ3×3，512×33×3，512Σ Σ3×3，512×33×3，512Σ Σ3× 3，512×13×3，512[GateBlock（512）]×1[GateBlock（512）]×1长2×宽L ~2×W双线性插值conv8L2×w1×1，CL2短维上的平均池wLN2L2静态层归一化1CTC#参数×10638.261.963.0510.69.916.4表2：我们评估的CNN骨干（编码器部分）的架构细节，以及我们的模块（解码器部分）如何连接到它们。该表试图将架构抽象为最常见的细节。虽然每个架构的基本构建块（括号[]中）的组件存在细微差异，但网络的整体组织以及我们的模块如何适应是相同的。4.5. 最终宽度最后的形状是否需要有最大可能的长宽比？最后的宽度w（较短的输出维度）会如何影响学习系统？表4给出了在这方面使用VGG和ResNet-26的实验。很明显，像62这样的大值会显著降低ResNet-26的训练效果，但小值和中值（31）在性能上是相当的另一方面，像VGG这样具有有限感受野和复杂性的模型通常可以从增加的宽度中获得很多用途。4.6. 端到端图层规格化在[35]中提出了使用无参数层归一化作为模型的第一层和最后一层的想法，并表明可以提高性能并促进优化。同样的想法对我们的模块非常有效，因为最初一些收敛于单线识别的深度模型在这很可能是由于CTC为我们的案例所做的大量时间步骤。如表5所示，端到端层规范化可以显著提高已经运行良好的模型的准确性;更重要的是，它可以训练之前不断发散的非常深入的模型，从而实现任务的最新性能。4.7. 难以分割文本行由于IAM的收集方式[17]，它的线条通常很容易分割。为了研究我们的模型如何处理更困难的情况，我们进行了两个单独的实验，人工修改IAM以产生具有难以分割的线的新变体。首先，通过接缝雕刻[1]大幅减少行间间距，将其高度降低至50%，从而产生大量接触的文本行，图。第4（b）段。GTR-12在该数据集中获得了6.5%的CER。其次，每个段落都有随机投影（旋转/旋转线），以及随机弹性变换（如[32]，但在页面级别），创建波浪状的非直线，图。第4（c）段。GTR-12在该数据集上实现了6.2%的CER。147154.8. 与最新技术在之前的所有实验中，IAM段落图像在训练前都被缩小到500× 500像素，尽管我们已经取得了最先进的结果，但我们想探索我们是否可以用sin来实现收支平衡。角线识别器。如表6所示，通过增加图像/模型大小，我们首次能够使用无分段整页识别器来超越最先进的单行识别器的性能，该识别器在没有任何视觉或文本本地化地面实况的情况下进行训练。请注意，我们对于ICDAR 2017 HTR数据集，我们遵循[30]并报告[33]中提出的验证集（10，000张图像训练集的最后1000页）的CER，因为评估服务器不提供CER或其他基于字符的结果见表7。请注意，两个[33，30]报告的结果均使用GT长度标准化的CER（表中的nCER我们使用作者发布的预训练模型，[33]在没有语言模型的情况下计算结果。很明显，我们的方法可以使用较弱的训练信号获得更好的4.9. 模型可解释性这里我们考虑一个重要的问题：模型实际上学到了什么我们可以看到，该模型在实践中运行良好，我们对它可能正在做的事情有一个假设，但如果我们能看到我们的模型如何能够做出预测，那将是非常有趣的为了了解输入的哪些部分使模型偏向于特定的预测，我们利用了使用SmoothGrad [26]集成的路径集成函数[29]请注意，与典型的分类任务不同，我们预测每个图像的L2其中，我们丢弃了空白和重复的连续标签（在CTC中，表示同一状态的延续;我们发现它们的属性图是全局的，对于这些目的来说没有信息）。对于积分梯度（IG），我们改变基线，使用空的白色图像来指定无信号，而不是空的黑色图像（在我们的情况下是全信号图像）-因为我们的数据是白色背景上的黑色文本使用白色基线产生比黑色基线更清晰的at-10图，显示IG对基线选择的敏感性（在[28]中进行了更多研究）。在我们的测试中，我们用了50步来近似积分。标准 SmoothGrad 生成的归因图非常嘈杂（参见[27]），但SmoothGrad-Squared变体通常会抑制大部分信号（平方分数的直接结果）。在分析了两者的结果后，最终长度（L2）70080095011001500第一级长度L1= 450VGG43.14 34.32 34.55 34.55 30.34ResNet-268.121 7.675 7.602 7.238 7.449第一级长度L1= 225VGG37.539.637.536.46 34.75表3：VGG和ResNet-26的IAM测试集CER，用于L1和L2的各种值。最终宽度62311583VGG25.98 17.41 37.4 34.55 24.21ResNet-2619.99.128 8.64 7.2388.34表4：VGG和ResNet-26的IAM测试集CER，用于各种最终宽度。这里L1= 450，L2= 1100LN VGG ResNet-26 ResNet-66 ResNet-74 GTR-8W/O51.3710.038.92576.972.4W34.557.2386.3736.1285.639表5：各种模型的IAM测试集CER，有和没有层标准化抑制信号的某些重要部分因此，我们提出了SmoothGrad-Abs，它只是对属性图的绝对值进行平均。 SmoothGrad-Abs 在 SmoothGrad 和 SmoothGrad-Squared之间取得了很好的平衡。在我们的实验中，我们使用了5张嘈杂的图像。图2示出了来自输入图像的每一行的单个随机字符的属性图（根据馈送到CTC的1D预测图中的对应输出神经元的属性我们看到，该模型确实隐式地从输入2D图像到输出1D预测图学习了良好的字符级定位图3提供了将所有地图聚集到一个图像中的整体视图。我们从上一步中获取一个字符的属性图，对其应用Otsu阈值处理（仅保留最重要的部分），然后在所得二进制图像的质心位置标记根据其所属的转录文本行进行着色。可以看出，结果表示原始输入的非常好的隐式线分割4.10. 限制我们认为SmoothGrad问题的根本原因是将正信号和负信号平均在一起。SmoothGrad-Squared中的平方解决了这个问题，但代价是我们还在IAM的一个变体上训练了我们的网络，该变体具有水平翻转的图像和行级翻转的地面实况转录，14716几乎可以肯定，用希腊文写的一个现代文本的戈培尔代表了几代学者的工作，他们比较了许多手册，方法输入比例尺试验CER（%）言论单线法[22日]128 ×W5.8CNN+BLSTM+CTC[18个国家]64 ×W5.24Seq2Seq（CNN+BLSTM编码器）[35]第三十五届32 ×W4.9CNN+CTC多线法[4]美国[3]第一章[3]第一章150 dpi150 dpi300 dpi16.210.17.9需要在分段文本行[五]《中国日报》[七]《中国日报》150 dpi15.68.5需要完全分段的训练数据[33个]6.4需要完整的换行符注释，部分视觉定位ResNet-74OrigameNet500 ×5006.1GTR-8 OrigamiNet500 ×5005.6GTR-8 OrigamiNet750 ×7505.5GTR-12折纸网750 ×7504.7表6：与IAM段落图像的最新技术水平进行比较，突出显示最佳结果约翰的手稿，并制定了版本，这是最有可能已经original措辞。不可能以绝对的精确度建立任何一个文本图2：可解释性实验的结果。对于这8张图像中的每一张（从左到右，从上到下），我们显示了单个字符输出（图像中的每一行）的属性热图，覆盖在原始输入图像的模糊版本上。随机选择的字符在图像下方的转录中以绿色突出显示。几乎相同的CER。这验证了该方法是鲁棒的，可以从数据中学习读取顺序。虽然所提出的方法在段落或整页的文字，学习流程多个栏目不直接处理。然而，考虑到区域/段落分割与文本行分割相比微不足道14717(b)紧凑的线条。⇒图3：第一列和第三列表示两个输入图像。第二列和第四列是相应的颜色编码散点图，其中，对于每个字符，标记了与该字符相关联的属性图的质心位置。属于同一行的字符标记被赋予相同的颜色。我们可以看到，该模型在没有任何定位信号的情况下，将输入图像很好地隐式分割成线条。(a) 原始图像。（c）旋转和扭曲。图4：应用于IAM数据集的合成失真，以研究我们的模型如何处理难以分割的文本行。（一）原始图片。(b)触摸文本行。(c)旋转和波浪形文本行方法CER nCER换行符预训练SFR [30]8.188.68✓50个完全注释的PGSSFR-对齐[33]-11.05✗GTR-12折纸网6.805.87✗-表7：ICDAR2017 HTR的比较，突出显示了最佳结果。nCER是通过GT长度标准化的CER。换行符表示它们存在或从GT中删除。我们认为这不是一个严重的实际限制。5. 结论在本文中，我们解决了没有任何视觉或文本本地化的多行/整页文本识别在训练过程中提供给模型的地面实况我们提出了一个简单的神经网络子模块OrigamiNet，它可以添加到任何现有的完全卷积单线识别器中，并通过为模型提供足够的空间容量将其转换为多线识别器，以便能够在不丢失信息的情况下将2D输入信号正确地展开为1D。我们在IAM手写数据集上进行了大量的实验，以显示我们提出的模块的适用性和通用性我们在ICDAR2017 HTR和IAM数据集上实现了最先进的CER，超越了在训练期间明确使用线分割信息的模型。然后，我们通过一系列可解释性实验来研究模型实际上学习了什么，并展示了其将每行字符本地化的隐含能力。14718引用[1] S. Avidan和A.沙米尔用于内容感知图像大小调整的接缝雕刻。在ACM SIGGRAPH 2007论文中，第102007. 5[2] J. Baek、G. Kim，J. Lee，S.帕克D。汉，S. Yun，S.哦，还有H。李你场景文本识别模型比较有什么问题数据集和模型分析。arXiv预印本arXiv：1904.01906，2019。3[3] T.布鲁彻用于端到端手写段落识别的联合行分割和转录。神经信息处理系统的进展，第838-846页，2016年。一、二、三、七[4] T. Bluche，J. Louradour，and R.墨西拿扫描、出席并阅读：具有mdlstm注意力的端到端手写段落识别。2017年第14届IAPR国际文档分析与识别会议（ICDAR），第1卷，第1050-1055页。IEEE，2017年。一、二、三、七[5] M. Carbonell，J. mas romeu，M. Villegas，A. Fornés，以及J. Llados.端到端的手写文本检测和整页抄写。在2019年国际会议文件分析和识别研讨会（ICDARW），072019。二、七[6] R. G. Casey和E. Lecolinet字符切分方法与策略综述。IEEE模式分析与机器智能学报，18（7）：690-706，1996年。1[7] J. Chung和T.德泰尔一种计算效率高的整页脱机手写文本识别流水线方法。arXiv预印本arXiv：1910.00663，2019。一、二、七[8] C.东角，澳-地C. Loy，K.他，还有X。唐使用深度卷积网络实现图像超分辨率。IEEE Transactions on PatternAnalysis and Machine Intelligence，38（2）：295-307，2015。3[9] K. 杜塔山口克里希南M.Mathew和C.贾瓦哈改进cnn-rnn混合网络用于手写体识别。2018年第16届手写识别前沿国际会议（ICFHR），第80-85页。IEEE，2018年。6[10] B. 加托斯湾Louloudis，T.Causer，K.格林特河罗梅罗，J.A.桑切斯角H. Toselli和E.维达尔转录室项目中的地面实况制作。2014年第11届IAPR文件分析系统国际研讨会，第237-241页IEEE，2014。1[11] A.格雷夫斯S. Fernández，F. Gomez和J.施密特胡伯。连接时态分类：用递归神经网络标记未分割的序列数据。第 23届国际机器学习会议论文集，第 369-376页。ACM，2006年。2[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770-778，2016中。4[13] H.伊克巴尔 Harisiqbal88/plotneuralnet v1.0.0，Dec. 2018.4[14] S.约翰森英国英语文本的LOB语料库：陈述和评论。1980. 3[15] D. P. Kingma和J. BA.亚当：一种随机优化方法。2014年12月3[16] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集，第3431-3440页，2015年。2[17] U.- V. Marti和H.邦克IAM数据库：一个用于脱机手写识别的英文句子数据库。国际文献分析与识别，5（1）：39-46，2002. 二三五[18] J. 迈克尔河Labahn，T.Grüning和J.泽尔纳评估手写文本识别的序列到序列模型。 arXiv 预印本 arXiv ：1903.07377，2019。1、7[19] B. 莫伊塞角Kermorvant和C.狼从少量的例子中学习检测、定位和识别文档图像中的大量文本对象InternationalJournalonDocumentAnalysisandRecognition（IJDAR），21（3）：161-175，2018。一、二[20]A. 帕斯克 S. 真恶心 F. 老爷 A. Lerer，J.Bradbury，G. Chanan，T. Killeen，Z. Lin，N.吉梅尔辛湖安提加A. Desmaison，A. Kopf，E.杨，Z.德维托raisonA. Tejani，S.奇拉姆库尔蒂湾斯坦纳湖方，J.白，和S.钦塔拉Pytorch：命令式的高性能深度学习库。InH. 瓦拉赫 H. 拉罗谢尔A. Beygelzimer ， F.dAlché-Buc ， E.Fox 和 R.Garnett ，editors ， Advances in Neural Information ProcessingSystems 32，pages 8024Curran Associates，Inc. 2019. 3[21] T. Plötz和G. A.芬克脱机手写识别的马尔可夫模型综述。 International Journal on Doc- 数据分析和识别（IJDAR），12（4）：269，2009。1[22] J. Puigcerver。手写文本识别真的需要多维递归层吗？2017 年第 14 届 IAPR 国际文件分析与识别会议（ICDAR），第1卷，第67-72页。IEEE，2017年。7[23] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。2[24] J. A.桑切斯河谷Romero、A. H. Toselli，M.维勒加斯，以及E.维达尔Icdar2017在阅读数据集上的手写文本识别竞赛。2017 年第14 届IAPR 国际文件分析和识别会议（ICDAR），第1卷，第1383-1388页。IEEE，2017年。一、二、三[25] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。4[26] D. Smilkov，N.托拉特湾Kim，F. Viégas和M.瓦滕伯格。Smoothgrad：通过添加噪波来去除噪波。arXiv预印本arXiv：1706.03825，2017。6[27] I. Sturm，S.拉普施金W。Samek和K.-R. 穆勒用于单次试验EEG分类的可解释深度神经网络。神经科学方法杂志，274：141-145，2016。6[28] P. Sturmfels，S. Lundberg和S.- I. 李你可视化功能属性基线的影响。蒸馏，2020年。https://distill.pub/2020/attribution-baselines. 614719[29] M. Sundararajan、A.Taly和Q。燕. 深度网络的公理化第34届机器学习国际会议论文集-第70卷，第3319- 3328页。JMLR。org，2017. 6[30] C. Tensmeyer和C. Wigington训练没有注释换行符的整页手写文本识别模型。2019年国际文件分析与识别会议（ICDAR），第1-8页。IEEE，2019。一、二、六、八[31] P. Voigtlaender，P.Doetsch和H.内伊基于大规模多维长短时记忆递归神经网络的笔迹2016年第15届国际手写识别前沿会议（ICFHR），第228-233页。IEEE，2016. 6[32] C. Wigington，S.斯图尔特湾，澳-地戴维斯湾，澳-地巴雷特湾价格和S.科恩基于cnn-lstm网络的手写文字和线条2017年第14届IAPR国际文件分析与识别会议（ICDAR），第1卷，第639-645页IEEE，2017年。5[33] C. 威金顿角滕斯迈尔湾Davis，W.巴雷特湾Price和S.科恩开始，跟随，阅读：端到端整页手写识别。在欧洲计算机视觉会议（ECCV）的会议记录中，第367-383页一二六七八[34] S.肖湖，加-地彭河，巴西-地Yan和S.王.具有像素级校正和鲁棒训练的深度网络用于手写识别。2019年国际文件分析与识别会议（ICDAR），第9IEEE，2019。6[35] M.优素福，K。F. Hussain和U. S.穆罕默德使用卷积神经网络进行准确、数据高效、无约束的文本识别。arXiv预印本arXiv：1812.11894，2018。一、四、五、七

下载后可阅读完整内容，剩余1页未读，立即下载