无约束文本定位网络

72 浏览量更新于2023-10-16 收藏 3.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4704面向无约束的端到端文本定位Siyang Qin，Alessandro Bissaud，Michalis Raptis，Yasuhisa Fujii，YingXiao Google AI{qinb，bissanya，mraptis，yasuhisaf，yingxiao}@ google.com摘要我们提出了一个端到端的可训练网络，可以同时检测和识别任意形状的文本，在阅读不规则形状的场景文本的开放问题上取得了实质性的进展我们将任意形状的文本检测作为一个实例分割问题;然后使用注意力模型来解码每个不规则形状的文本区域的文本内容而不进行校正。为了从图像尺度特征中提取有用的不规则形状的文本实例特征此外，我们表明，从现有的多步OCR引擎的预测可以利用部分标记的训练数据，这导致显着的改进，在我们的模型的检测和识别精度。我们的方法在ICDAR 15（直）基准上超过了最先进的端到端识别任务4.6%，在Total-Text（弯曲）基准上超过了16%。1. 介绍自动检测和识别图像中的文本可以使大量实际应用受益，例如自动驾驶，监控或视觉搜索，并可以提高视障人士的环境意识[44]。传统的光学字符识别（OCR）流水线方法通常将场景文本阅读任务划分为两个子问题，场景文本检测和裁剪文本行识别。文本检测方法试图在输入图像中发现文本实例（单词或行），而文本识别模型则采用裁剪的文本补丁并对其文本内容进行解码。由于大多数场景文本检测方法无法直接预测正确的文本阅读方向，因此成功的OCR引擎需要额外的方向识别步骤[56]。尽管它们有着悠久的历史和巨大的成功，但在OCR流水线引擎内使用多个模型具有几个缺点：错误可能在这样的级联中积累，这可能导致大部分垃圾预测。图1.我们的端到端模型可以预测任意形状的文本在单个向前传递中的位置和此外，流水线中的每个模型都依赖于前一步的输出，这使得很难共同最大化端到端性能，并使用新数据微调最后，维护这种具有数据和模型依赖性的级联管道需要大量的工程工作。端到端OCR模型克服了这些缺点，因此最近开始在研究界获得关注[42，54，37，24，32]。端到端OCR的基本思想是让检测器和识别器共享相同的CNN特征提取器。在训练过程中，对检测器和识别器进行联合优化;在推理时，该模型可以在单次向前传递中预测位置和传输。虽然这些方法在直文本阅读基准中产生了卓越的准确性，但它们很难在具有弯曲文本的更具挑战性的数据集上推广和产生令人信服的结果，这些数据集在日常环境中自然且频繁地出现处理任意形状的文本是一个关键的开放性问题，以使OCR超越其传统的直文本应用程序。在本文中，我们提出了一种简单灵活的端到端OCR模型，该模型基于Mask R-CNN检测器和序列到序列（seq 2seq）注意解码器[3]。我们不对文本的形状做任何假设：我们的模型可以检测和识别任意形状的文本，而不仅仅是直线的有限情况。我们的模型的关键思想是跳过检测器和识别器之间的特征校正步骤，直接将裁剪和布丹烤店B普努1849以来酸面团杂碎面包店咖啡馆中心访客4705掩码文本实例特征到解码器。我们表明，我们的模型能够识别不同方向的文本，甚至沿着弯曲的路径。我们的模型学习从哪里开始解码，以及如何更新注意力权重以遵循未纠正的文本路径。我们的检测器基于Mask R-CNN：对于每个文本实例，它预测一个轴对齐的矩形边界框和相应的分割掩码。使用这些，我们的模型工程无缝的直线和弯曲的文本路径。通常，识别器需要比检测器多得多的数据来训练。与多步OCR模型的情况不同，在多步OCR模型中，使用裁剪的文本行（更容易收集和合成大小）来训练识别器，以前的端到端模型需要完全标记的图像作为训练数据。这使得端到端训练具有挑战性，因为缺乏完整注释的图像。此外，在再识别器已经收敛时，检测器通常基本上过拟合。在这项工作中，我们通过添加由现有多步OCR引擎1自动标记的大规模部分标记数据来解决这两个问题[4]。如果输入训练样本被部分注释，则仅训练识别器分支。我们发现，这大大提高了我们的模型的性能。我们的方法在直线和曲线OCR基准上都大大超过了以前的最先进的结果。在流行且具有挑战性的ICDAR15（直）数据集上，我们的模型在端到端F分数上比之前的最高值高出4.6%。在Total-Text（弯曲）数据集上，我们将最先进的技术水平显著提高了16%以上。总之，本文的贡献有三个方面：• 我们提出了一个灵活而强大的端到端OCR模型，该模型基于Mask R-CNN和atten。解码器。没有花里胡哨的东西，我们的模型在直线和曲线OCR基准上都取得了最先进的结果。• 我们确定特征校正作为推广到不规则形状文本的关键瓶颈，并介绍了一种简单的技术（ROI掩蔽），使recti-识别器不需要的文件。这允许注意力解码器直接对任意形状的文本实例进行操作。• 据我们所知，这是第一个表明端到端训练可以受益于从现有的多个步骤OCR引擎。1通过Google Cloud Vision API公开提供。2. 相关工作在本节中，我们简要回顾了现有的文本检测和识别方法，并强调了我们的方法与当前端到端模型之间的差异。关于更详细的评论，读者可以参考[40]。场景文本检测：多年来，传统的基于滑动窗口的方法[28，8，62]和连接-基于组件的方法[5，26，46，45，13，47]已经被具有简化管道的深度学习启发的方法所取代。这些较新的方法吸收了一般对象检测[36，50，49]和语义分割[39，7]算法的进步，增加了针对文本检测的精心设计的修改。现代场景文本检测算法可以通过单次拍摄[33，61，22，38]或两阶段模型[29，34，43，48]。最近，检测图像中的弯曲文本已经成为一个新兴的话题：在[11]中引入了包含弯曲文本的新数据集，其提供了紧密的多边形边界框和地面实况transmittance。在[12]中，Daiet al.将文本检测公式化为实例分割问题，并且在[41]中，作者提出将文本实例表示为有序的重叠圆盘序列，其能够覆盖弯曲的情况。尽管在检测弯曲文本方面取得了成功，但阅读弯曲文本是一个未解决的问题。场景文本识别：场景文本识别算法的目标是从裁剪的文本块中解码文本内容。现代场景文本识别方法可以分为两大类，CTC（Con-C），nectionist时间分类[19]）为基础的方法[52，23，14]和注意力为基础的方法[57，9，10，16，31，53]。这两类中的大多数场景文本识别方法都假设输入文本是经过纠正的（直线，从左到右阅读）：输入首先被调整大小以具有恒定的高度，然后被馈送到全卷积网络以提取特征。为了捕获长距离序列上下文，一些基于CTC的架构将RNN堆叠在CNN之上，而其他架构使用具有大感受野的堆叠卷积层。最后，每个特征列预测一个符号，删除重复的符号以产生最终的预测。在注意力模型中，RNN通常用于基于前一步的预测、隐藏状态以及提取的图像特征（上下文）的加权和来预测每一步的一个符号。当预测到序列结束符号或达到最大迭代次数时，该过程停止。端到端OCR：Li et al的工作。[32]是第一个成功的端到端 OCR 模型，它只支持 hor-izmable 文本。 Liuetal.[37]，Heet al.[24]和Sunet al.[五十四]分享一个共同的想法：他们饲料纠正文本区域fea-4706H图2.我们的端到端OCR模型的整体架构。向识别器发送命令以启用端到端训练。在[37]中，该模型在检测阶段输出旋转的矩形，并使用基于CTC的识别器，该识别器不能通用于弯曲的情况。在[54]中，检测器输出quadri-quadri，并且基于注意力的模型用于解码文本内容。相比之下，我们的检测器产生矩形边界框和相应的实例分割掩码，这是一种更通用的方式来表示任意形状的文本。此外，我们删除了针对纯文本的特征校正步骤，让注意力解码器直接对裁剪和掩蔽的文本实例特征进行操作。这使得弯曲文本具有更好的灵活性和性能。Lyu等人[42]提出了一种基于Mask R-CNN的端到端OCR引擎。他们采用了一种简单的检测识别方案：为了识别文本，单独检测所有字符。这种方法是不理想的，因为大量的顺序信息丢失。此外，在许多情况下，检测单个字符可能是困难的，甚至是不可能的而且即使所有的字符都被正确检测到，如何将它们链接成正确的序列也是高度不清楚的。在[42]中，作者简单地将字符从左到右分组，这排除了在非传统阅读方向上正确识别文本另一方面，通过利用顺序信息，我们的方法能够在更具挑战性的情况下和非传统的阅读方向中正确识别文本。3. 模型架构和训练图2显示了我们的端到端OCR模型的设计该模型的检测器部分基于Mask R-CNN，它已广泛用于实例分割和其他相关任务。对于每个文本区域（单词或文本行），Mask R-CNN可以预测轴对齐的矩形。通过将最小面积旋转矩形拟合到每个分割掩模，而对于弯曲文本情况，将一般多边形拟合到每个掩模，来获得结果。通过使用Mask R-CNN作为检测器，我们的模型可以无缝地处理直线和曲线文本路径。我们的体系结构的一个新特点是，我们不rec- tify的识别器的输入。这使得传统的基于CTC的解码器不适合。相反，我们使用seq2seq模型（带注意力）作为识别器。在每一步中，解码器根据前一步的输出和状态以及文本实例特征（上下文）的凸组合进行预测。为了从图像级特征中提取任意形状的文本实例特征，我们引入了RoI掩码，该掩码将裁剪后的特征与文本实例分割掩码相乘。这将删除相邻文本和背景，并确保注意力解码器将仅关注当前文本实例。3.1. 特征提取器我们探索了两种流行的主干架构，ResNet- 50[21]和Inception-ResNet [55];后一模型大得多，因此产生更好的检测和识别结果。场景文本通常具有较大的尺度变化;为了捕获大型和小型文本，主干应该在保持大的接收场的同时提供密集的特征。为了实现这一点，我们遵循[25]的建议：两个主干都被修改为具有8的有效输出步幅。为了保持一个大的感受野，心房卷积被用来补偿减少的步幅。对于ResNet-50，我们修改了conv 4 12层，使其具有步幅1，并对所有后续层使用atrous卷积。我们从第三阶段的输出中提取特征。以类似的方式修改Inception-ResNet，使其输出步幅为8，从第二个重复的最大的边界框和相应的实例段-站台屏蔽对于直接文本的情况，最终检测2我们的命名约定遵循[25]。检测器掩模R-CNN口罩多边形拟合盒CNNconv上采样小时/8H/4W/8W+的W/4×注意事项解码器ROI掩蔽convH/4识别器W/4直接自行车4707block（层Predicted Logits）。3.2. 检测器我们遵循标准的Mask R-CNN实现。在第一阶段中，区域建议网络（RPN）被用来提出一些候选文本感兴趣区域（ROI）。在第二阶段，每个RoI由三个预测头处理：一个类预测头来决定它是否是文本，一个边界框回归头来预测一个轴对齐的矩形框，最后一个掩码预测。图3.我们的seq2seq识别器。−1段头来预测对应的实例段掩码。RPN锚点跨越四个尺度（64，128，256，512）和三个纵横比（0.5，1.0，2.0）;使用更多尺度和纵横比可能会以更长的推理时间为代价来提高模型非最大值抑制（NMS）用于删除高度重叠的建议，并将交集（IoU）阈值设置为0.7。保留前300名提案。在第二阶段，每个RoI被裁剪并调整大小为28×28，然后是2×2最大池化，这导致每个RoI有14×14个特征在训练时，ROI被分组为小批量的大小为64，然后被馈送到类预测头部和边界框细化头部。第二个NMS是在细化的盒子上执行的（IoU设置为0.7）。在推断时间期间，前100个区域被发送到掩码预测头。最终检测输出在最终NMS步骤之后获得，该步骤基于掩码而不是像前两个NMS步骤那样的边界框来计算IoU。3.3. 多尺度特征融合与ROI掩蔽在我们的实验中，我们发现步幅8特征和多尺度锚点对于大文本和小然而，对于文本识别，一个更细粒度的任务，需要更密集的特征受特征金字塔网络[35]的启发，我们逐渐对较低分辨率但上下文丰富的特征进行上采样，并将它们与早期CNN层的较高分辨率特征融合。添加元素。对所有特征应用1×1卷积（具有128个通道）以降低维数-在逐元素添加之前，确保形状一致。这会产生一个密集的特征图，它编码了局部特征和较长范围的上下文信息，这可以提高识别性能，特别是对于小文本。在实践中，我们发现，融合特征与步幅8和4导致最好的结果。更具体地说，对于ResNet-50，我们使用第一阶段（步幅4）、第二阶段（步幅8）和第三阶段（步幅8）之后的特征;相应的感受野大小为35、99和291个单位。对于Inception-ResNet，我们使用层Conv 2d 4a 3x 3（步幅4），Mixed 5 b（步幅8）和Predicted Logits（步幅8）之后的特征，对应的感受野大小分别为23，63和2335。在多步骤OCR引擎中，每个文本实例在被馈送到识别器之前从输入图像中裁剪出来相比之下，在端到端模型中，不是裁剪图像补丁，而是使用更复杂的方法从骨干CNN输出的图像级特征中提取文本实例特征。对于对象检测模型，轴对齐的边界框用于裁剪特征[17]。对于文本，[37]和[54]中的工作提出了RoI旋转和透视RoI变换，以使用旋转的矩形或四边形计算校正的文本实例特征。这对于直文本很有效，但在弯曲文本情况下失败在这项工作中，我们提出了一种简单而更通用的方法来提取适用于任何形状的文本实例特征，称为ROI掩蔽：首先使用预测的轴对齐矩形边界框来裁剪特征，然后乘以相应的实例分割掩码。由于我们不知道文本的阅读方向，在这一点上，从每个区域的功能调整大小，使较短的尺寸等于14，同时保持整体的纵横比。ROI掩蔽过滤掉相邻的文本和背景，确保注意力解码器不会意外地聚焦在当前解码区域之外的区域。我们在4.3节中的消融实验表明，ROI掩蔽大大提高了识别器3.4. 识别器识别器是一个 seq2seq 模型，具有 [3] 中提出的Bahdanau风格的注意力，如图3所示。在第一步，模型采用START符号和零LSTM初始状态;然后，我们产生符号，直到序列结束（EOS）符号被预测。在每个步骤中，可能符号上的最终预测分布由下式给出：p（y i|y1，...，y i−1，h）= softmax（W oo i+ b o）（1）其中y i是预测字符，o i分别是在时间步长i处的LSTM输出，h表示扁平化的提取文本实例特征。在每一步，LSTM采用前一步y i−1的预测，前一个隐藏状态s i−1和图像特征c i（上下文）的加权和来计算输出o i和新的状态向量s i。1ℎ−1×LSTM4708（oi，si）=LSTM（yi−1，si−1，ci）（2）在每一步中，解码器能够关注一些特定的图像区域，并使用相应的图像特征来帮助做出正确的预测。述上下文向量ci是学习的图像特征h和学习的权重向量α i的加权和：ci= j α ij h j。权重向量α i定义为：检测损失与原始Mask R-CNN论文相同[20]。识别器损失L recog是标签平滑设置为0的交叉熵损失。9.如[57]所示在训练过程中，地面实况框和掩码用于RoI裁剪和RoI掩蔽，而预测框和掩码用于推理时。我们还尝试在训练过程中使用预测的边界框和掩码，但没有发现任何改进。3.6.实现细节exp（eij）αij=ΣK exp（eik（三））用于训练我们模型的数据包含来自流行公共数据集的训练部分的图像，包括e ij= V Ttanh（W s s i−1+ W h h j）。（四）每个特征位置的注意力权重由图像特征（h）和先前的LSTM状态（si-1）确定，这些状态对注意力掩码的偏移进行编码。这使识别器能够跟踪任意形状的文本行。通过将预测的符号馈送到下一步骤，模型可以学习隐式语言模型。在推断时间，预测的符号被馈送到下一步骤，而地面实况符号在训练期间被使用（即，教师强迫）。3.5. 联合训练与损失函数我们观察到识别器需要比检测器更多的数据和训练迭代;这使得联合训练变得困难，因为现有的公共数据集不够大，不足以训练高性能注意力解码器，尤其是当输入特征没有被校正时。此外，如果我们训练足够长的时间以实现识别器中的收敛，则存在过度拟合检测器的强烈风险。在这项工作中，我们通过添加额外的大规模部分标记数据来解决这两个问题，这些数据由Google Cloud Vision API中现有的多阶段OCR引擎自动标记。如果输入的训练样本是完全标记的，我们更新检测器和识别器的权重。如果它已经被OCR引擎自动注释（因此可能有未标记的文本），则只训练识别器分支。因此，总的多任务损失被定义为：L= δ（L rpn+ αL rcnn+ βL mask）+ γL recog.（五）这里，如果输入是完全标记的，则δ为1，否则为0。在我们的实现中，α、β和γ都设置为1。0的情况。添加机器标记的、部分标记的数据可以确保识别器对于机器标记的数据，由于不需要检测所有文本，我们可以增加置信度阈值以过滤掉噪声低置信度输出。使用 SynthText 、 ICDAR 15 、 COCO-Text 、 ICDAR-MLT和Total-Text。我们使用的每个数据集的图像数量分别为200k，1k，17k，7k和1255。除了公共数据集之外，我们还从网络上收集了30k张图像，并手动标记每个单词，提供有向矩形边界框和transmittance。完全标记的真实图像的数量太少，无法训练鲁棒的端到端OCR模型。为了解决这个问题，如第3.5节所述，我们在100万张带有文本的图像上运行现有的OCR引擎，并使用预测（有向矩形和透明）作为部分标记的地面实况。我们的实验（见第4.3节）表明，这可以显着提高端到端的性能。为了防止大量的合成和部分标记的数据占主导地位的训练数据，广泛的数据增强被应用于完全标记的真实图像。首先将输入图像的较短维度从480像素调整到800像素，然后使用随机旋转、随机裁剪和宽高比抖动。我们采取一步一步的培训策略。骨干 CNN 在ImageNet上进行预训练;使用完全和部分注释的图像来联合优化检测器和识别器。我们的消融实验（见4.3节）表明，这比两步训练策略实现了更好的准确性，在两步训练策略中，我们首先使用所有完全标记的数据来训练检测器，然后使用完全和部分标记的数据联合微调检测器和识别器。我们用异步SGD训练我们的模型，动量为0.9。初始学习率取决于后向-骨网络，Inception-ResNet为10−3，ResNet-50为3×10−4我们将学习率降低了3倍每2M次迭代，总共8M次迭代。在训练过程中，每个GPU每次迭代都使用一个训练样本，并使用15个TeslaV100 GPU。我们使用TensorFlow [1]实现模型，训练过程大约需要三天时间完成。在识别器中，我们使用具有256个隐藏单元的单层LSTM。经常性的dropout[15]和层归一化[2]用于减少过拟合。符号总数为79个，其中包括数字、英文字母的大小写和若干特殊字符。4709方法检测方法End-to-EndPRFS WGSSTD [22]80.2373.8676.91Stradvision [30]43.70--东[61]83.2778.3380.72TextProposals+DictNet [18，27]56.0 52.349.7[41]第四十一话84.980.482.6[51]第五十二章：一个女人67.86--RRD MS [34]888083.8E2E-MLT [6]- -55.1[42]第四十二话91.681.086.0[42]第四十二话79.3 73.062.4[第54话]89.4285.4187.37[第54话]78.66 74.9060.45He等人[24日]878687He等人[24日]82 7763FOTS [37]91.085.1787.99FOTS [37]81.09 75.9060.80[37]第三十七话91.8587.9289.84[37]第三十七话83.55 79.1165.33我们的（ResNet-50）89.3685.7587.52我们的（ResNet-50）83.38 79.9467.98我们的（Inception-ResNet）91.6787.9689.78我们的（Inception-ResNet）85.51 81.9169.94表1.与ICDAR15比较。“MS”表示多尺度测试。“P”、“R”和“F”代表精确度、召回率和F分数。在端到端评估中，显示了三种词典设置下的F分数。“S”（强）表示每个图像包含100个单词，包括地面实况。对于“W”（弱），提供了包括测试集中出现的所有单词的词典。对于4. 实验我们在IC-DAR 15基准[30]（直文本）和最近引入的Total-Text [11]（弯曲文本）数据集上评估了我们模型的性能。4.1. 连胜文我们使用IC-DAR 2015 Robust Reading Competition的挑战4中介绍的IC-DAR 15基准测试，展示了我们的模型在检测和识别定向直文本方面的卓越性能。该数据集由1000幅训练图像和500幅测试图像组成。该数据集中的图像由可穿戴相机捕获，没有故意聚焦在文本区域上。文本大小、方向、字体和照明条件有很大的差异。运动模糊也很常见。在此数据集中，文本实例在单词级别上进行标记。提供了四边形边界对于检测评估，如果具有最接近地面实况的IoU大于0.5，则预测被计为真阳性。对于端到端评估，预测的转录需要与相应的地面实况相同，以便被认为是真正的阳性。一些无法阅读的单词被标记为“不关心”。感兴趣的评估指标是精确度（真阳性计数超过检测计数）、召回率（真阳性计数超过地面实况计数）和F分数（精确度和召回率的调和平均值）。结果总结于表1中。在推理时，图像的较短维度被调整为900像素。请注意，我们只使用一个单一的规模输入。在仅检测任务中，我们的方法（使用Inception-ResNet主干）超过最佳单尺度模型（FOTS）1.8%。对于端到端性能，我们的方法优于最高的单尺度模型（Heet al.）约7%。与FOTS方法检测E2ePRF没有一基线[11]40.033.036.0-文本框[33]62.145.552.536.3[41]第四十一话82.774.578.4-MSR [60]85.273.078.6-文本字段[59]81.279.980.6-[第12话]84.778.081.3-[42]第四十二话69.055.061.352.9[第54话]68.2159.4563.5354.0我们的（ResNet-50）83.383.483.367.8我们的（Inc-Respublic）86.884.385.563.9我们的（Inc-Res）87.885.086.470.7表2.全文的结果。在端到端评估中不使用词典。Inc-Res是Inception-Resnet的缩写。“Inc-Res public” represents our modelwith Inception-ResNet backbone, trained using only public模型，目前最先进的，我们的方法匹配的检测性能，同时仍然实现了4.6%的高端到端的F分数。4.2. 弯曲文本我们的方法最大的优点是对不规则形状的文本表现出色。我们对最近引入的名为Total-Text的弯曲文本数据集进行了一项实验[11]。Total-Text包含1255张用于训练的图像和另外300张用于测试的图像，其中包含大量的弯曲文本。在每幅图像中，文本在单词级进行注释，每个单词由边界多边形标记。提供了地面实况转播。检测的评估协议基于[58]，端到端识别的评估协议基于ICDAR 154710通风的未来罐头厂行渴熊星巴克咖啡Antione商城通信智慧。巴黎贝甜美食街471W西班牙酿造公司游艇广场约翰Marina链接B1三明治更购物是狄更斯沙拉餐饮&吃饭！相信市场二月地方狄更斯TROM78的咖啡馆营养。FATHE（R）酒和CHARI ESFO便利动咖啡啤酒图4.我们的方法在ICDAR 15（前两列）和Total-Text（后两列）数据集上的定性结果在右下所有跳过的预测都被我们的方法正确预测。在训练过程中，我们在纯文本上对模型进行预训练，并仅使用Total-Text数据集的训练部分中的图像对其进行微调。在推理时，每个图像的较短尺寸被调整为600像素。我们将我们的模型的结果与表2中的大量工作进行了比较。我们还列出了仅使用 Inception-ResNet主干的公开数据集训练的结果。我们的方法在检测和端到端评估方面都比以前的最先进的方法有很大的优势具体来说，对于检测，我们的最佳模型超过了之前的最高值5.1%。在端到端识别任务中，我们的最佳模型将标准显著提高了16.7%。在没有我们的内部完全标记数据和部分机器注释数据的情况下，我们的方法在检测和识别任务中仍然实现了更好的性能，分别增长4.2%和9.9%图4（第三和第四列）显示了几个定性示例我们的方法产生高质量的边界多边形和transmittance。令人惊讶的是，我们发现我们的方法也可以通过利用可见图像特征和从LSTM学习的隐式语言模型在部分遮挡的情况下（右上图，“ANTIONE”）产生合理的预测在右下角的图像中，我们展示了一些失败的情况，其中文本是颠倒的，从右向左阅读。这些情况在训练数据中非常罕见，我们相信更积极的数据增强可能会缓解这些问题。我们可以在每一步将注意力权重向量可视化这为分析和调试模型性能提供了一个很好的工具。在图5中，我们发现seq2seq模型在解码每个符号时专注于正确的区域，并且能够遵循文本的形状在中间一行（最后一张图像），我们显示了注意力掩码对应-在EOS符号上。注意力分散在开始和结束位置。4.3. 消融实验我们进行了一系列的消融实验，以更好地理解我们的端到端OCR模型。在本节中，我们报告平均精度（AP）得分，这通常是比F得分（显示对特定阈值的敏感性）更好的评估指标我们在本节中使用ICDAR15测试集。表3总结了实验结果。基线：我们构建了一个仅检测基线（表3中的第一行）和一个端到端基线（表3中的第三行）。在仅检测基线中，我们只训练一个检测分支的模型。在端到端基线中，我们训练一个同时具有检测和识别分支的模型，但不使用部分标记数据或RoI掩蔽，并采用单步训练策略（在第3.6节中描述）。端到端基线比仅检测基线表现出更强的检测结果（使用ResNet-50骨干，改进为1.6%），尽管是在完全相同的数据上训练的。这表明训练识别器改进了用于检测任务的特征提取器。主干：从表3中我们发现，在检测任务中，更强大的Inception-ResNet主干的性能始终优于ResNet-50。在端到端的任务中，当训练数据有限时（没有大规模的部分标记数据），我们使用ResNet-50主干的模型实际上实现了更好的性能。对于我们完整的端到端模型，Inception-ResNet主干在端到端AP评分上实现了边际改善（59.5%vs. 59.0%）。部分标记数据：部分标记数据的使用在我们模型的所有配置中提供了端到端性能的显着改进（第4行与第5行）。第6行，或第3行vs.第5行）。有趣的是，它也改善了德-4711LibrarY天秤座RYLibrA RYLIBRARYLIBRARYLIBRARY图书馆RISTORAN TERISTOR ANTERIST橙色RISTORANTES版自行车BIKESBIKESBIKESBIKES图5.注意力权重的可视化为了更好的可视化，跳过了一些步骤PD掩模ResNet-50Inc-ResAP检测APE2EAP检测APE2E两步Det-baselineE2E-fullCC85.5-86.9 55.388.2-89.1 57.4单步E2 E-基线+掩模+ PDCC87.186.787.552.853.955.788.288.989.951.753.158.7E2E-fullCC87.259.090.859.5表3.不同模型配置和训练策略下的ICDAR15测试集结果。报告了AP编号。“PD”, “Mask” and “Inc-Res” stand for partiallylabeled data, RoI maskingtector而不直接训练检测分支（第3.5节）。这再次表明，我们可以通过识别分支接收训练信号来改进特征提取器ROI掩蔽：在表3中，我们显示了RoI掩蔽的有效性（第3行vs.第4行，或第5行vs.第6行）。在存在RoI掩蔽的情况下，始终可以获得更高的端到端AP评分（例如，当使用部分标记的数据时，具有ResNet-50骨架的AP为+3.3%）。这说明识别器受益于RoI掩蔽。对于重量较轻、感受野较小的脊椎，这种改善更为显著.对于检测性能，我们观察到混合结果：Inception-ResNet主干的边际改进，以及使用ResNet-50时的一些退化。培训策略：表3的第2行和第6行比较了第3.6节中描述的单步和两步训练策略的效果。在单步训练中，我们联合优化检测器和识别器，完全和部分标记的数据。在两步训练中，我们首先训练仅检测基线，然后将识别器加入联合训练。我们发现，单步训练在检测和端到端评估方面一致优于两步训练。单步训练要简单得多，并且更容易应用自动超参数调整和神经结构搜索，我们将在未来的工作中研究。4.4. 速度对于来自ICDAR 15数据集（分辨率为1280×720）的图像，ResNet-50主干的端到端推理时间为210 ms，Inception-ResNet主干的端到端推理时间为330 ms（在Tesla V100 GPU上）。如果我们只运行检测分支，则相应的推理时间为180 ms和270 ms。因此，对于场景文本图像，识别分支的计算开销相当小。共享相同的CNN特征提取器使得端到端模型比两步方法在计算上更高效。5. 结论在本文中，我们提出了一个端到端的可训练网络，可以同时检测和识别任意形状的文本。使用Mask R-CNN，注意力解码器和简单而有效的RoI掩蔽步骤可以实现灵活和高性能的模型。我们还表明，端到端的训练可以受益于部分机器注释的数据。在ICDAR 15和Total-Text基准测试中，我们的方法大大超过了以前的方法，同时效率相当高。4712引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：A大规模机器学习系统。在第12届{USENIX}操作系统设计和实现研讨会（{OSDI}16）中，第265-283页[2] Jimmy Lei Ba，Jamie Ryan Kiros，and Geoffrey E Hin-吨层归一化。arXiv预印本arXiv：1607.06450，2016。[3] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473，2014。[4] Alessandro Bissacco，Mark Cummins，Yuval Netzer，and Hartmut Neven.Photoocr：在不受控制的条件下阅读文本在Proceedings of the IEEE International Conferenceon Computer Vision，第785-792页[5] Michal Busta，Lukas Neumann，and Jiri Matas.Fastext：高效的无约束场景文本检测器。在IEEE计算机视觉国际会议论文集，第1206-1214页[6] 米哈尔·巴斯·帕特尔，亚什·帕特尔和吉瑞·马塔斯。多语言场景文本的无约束端到端方法。arXiv预印本arXiv：1801.09919，2018。[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[8] Xiangrong Chen and Alan L Yuille.在自然场景中检测和读取文本。2004年IEEE计算机协会计算机视觉和模式识别会议论文集，2004年。CVPR 2004。，第2卷，第II-II页IEEE，2004年。[9] Zhanzhan Cheng，Fan Bai，Yunlu Xu，Gang Zheng，Shiliang Pu，and Shuigeng Zhou.集中注意力：自然图像中的精确文本识别。在IEEE计算机视觉国际会议论文集，第5076-5084页[10] 湛湛成、杨柳絮、樊白、牛一、蒲世良、周水耕。Aon：面向任意性的文本识别。在IEEE计算机视觉和模式识别会议论文集，第5571- 5579页[11] Chee Kheng ChTotal-text：用于场景文本检测和识别的2017 年第 14 届 IAPR 国际文件分析与识别会议（ICDAR），第1卷，第935- 942页。IEEE，2017年。[12] 戴宇晨、黄正、高玉婷、徐佑宣、陈凯、郭杰和邱卫东。用于多方向场景文本检测的融合文本分割网络。2018年第24届国际模式识别会议（ICPR），第3604-3609页。IEEE，2018年。[13] Boris Epshtein Eyal Ofek和Yonatan Wexler。基于笔画宽度变换的自然场景中文字检测。2010年IEEE计算机协会计算机视觉和模式识别会议，第2963-2970页。IEEE，2010。[14] Yasuhisa Fujii，Karel Driesen，Jonathan Baccash，AshHurst，and Ashok C Popat.多语言光学字符识别中的序列到标签脚本识别。2017年第14届IAPR国际文档分析与识别会议（ ICDAR ），第 1 卷，第 161-168 页。IEEE，2017年。[15] 亚林·加尔和祖宾·加赫拉马尼。在递归神经网络中的一个理论上神经信息处理系统的进展，第1019-1027页，2016年[16] SumanKGhosh ， ErnestValveny 和 AndrewDBagdanov。用于场景文本识别的视觉注意模型。2017年第14届IAPR国际文件分析与识别会议（ICDAR），第1卷，第943-948页。IEEE，2017年。[17] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[18] 他是戈麦斯和迪莫塞尼斯·卡拉扎斯。xtproposals：一个文本特定的选择性搜索算法，用于野外单词识别。Pattern Recognition，70：60[19] Al e xGr av es，SantiagoFer na´ ndez，FaustinoGomez，and J ür genSchmidhube r. 连接主义时间分类：用递归神经网络标记未分割序列数据。第23届机器学习国际会议论文集，第369-376页。ACM，2006年。[20] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[21]

下载后可阅读完整内容，剩余1页未读，立即下载