TextDragon：端到端的任意形状文本识别框架

188 浏览量更新于2023-10-12 收藏 2.77MB PDF 举报

任意形状

特征提取

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9076TextDragon：一个端到端的任意形状文本识别框架魏峰1，2何文豪1，2殷飞1，2张旭耀1，2刘成林1，2，31模式识别国家重点实验室（NLPR）中国科学院自动化研究所，北京1001902中国科学院大学人工智能学院，北京100049 3中国科学院脑科学与智能技术示范中心，北京100190邮箱：{wei.feng，wenhao.he，fyin，xyz，liucl}@ nlpr.ia.ac.cn摘要大多数现有的文本定位方法要么集中在hori-zombie/面向文本或执行任意形状的文本定位与字符级注释。在本文中，我们提出了一种新的文本发现框架，以检测和识别任意形状的文本在一个端到端的方式，只使用字/行级的注释进行训练。从TextSnake [32]的名称中得到启发在TextDragon中，设计了一个文本检测器，用一系列四边形来描述文本的形状，可以检测文本的形状。是...O...M...-dle任意形状的文本。为了从特征图中提取任意形状的文本区域，提出了一种新的可微算子RoISlide，它是连接任意形状文本检测和识别的关键。在通过RoISlide提取特征的基础上，引入了基于CNN和CTC的文本识别器，使框架免于标记字符的位置。所提出的方法在两个弯曲文本基准CTW 1500和Total-Text上实现了最先进的性能，并在ICDAR 2015数据集上取得了竞争性结果。1. 介绍场景文本定位的目的是检测和识别文本在图像中。由于其在文档分析和场景理解中的广泛应用，近年来受到了越来越多的关注。尽管先前的方法[29，33，25，3]在文本边界由四边形或矩形标记的数据集上取得了重大进展，但任意形状的文本定位仍然需要检测和识别。大多数现有方法通过两个独立的步骤来执行文本定位：首先使用检测器来检测图像中的所有文本，然后对检测到的区域进行文本识别。这些缺点图1.人类的阅读机制红色框表示注视区域，黄色箭头表示眼球运动方向黑色箭头表示识别结果，其中绿线和蓝线显示文本边界。传统的文本检测和识别方法存在时间开销大和文本检测与识别之间的因此，最近提出了几种方法[29，25，3]，以端到端的方式统一水平/定向文本检测和识别。然而，在现实世界中的场景文本往往出现在任意形状。TextSnake [32]不是用四边形或矩形来描述文本，而是用一系列局部单元来描述文本，其行为类似于蛇。然而，这项工作主要集中在弯曲文本检测。Lyu等人。 [33]提出了Mask Textspotter来检测和识别任意形状的文本，其中使用了基于字符分割的文本识别器，因此在训练过程中需要字符级注释。尽管如此，大多数数据集没有字符级别的注释，这需要更多的人工标记工作。为了实现任意形状的文本识别，我们可以遵循人类的阅读机制[1]，如图1所示。首先，检测文本的局部区域。之后，识别局部区域的内容。最后，眼睛沿着文本的中心线移动，并重复9077图2.拟议框架概述任意形状的文本可以在一次向前传递中被检测和识别以上三个步骤。这个阅读过程有两个好处。一方面，任意形状的文本可以被分割成一系列的局部单元，因此检测局部区域而不是整个文本可以对文本形状的多样性更具鲁棒性。另一方面，一个文本中的字符可以具有不同的大小和取向，如图1所示因此，一次只识别一个局部区域，而不是整个区域，可以克服字符大小和方向的变化。受上述分析和TextSnake名称的启发，我们提出了一种名为TextDragon的新颖场景文本定位器，如图2所示。具体地说，文本检测器是用来描述文本的形状与一系列的本地四边形，这是适应于描述复杂的文本形状。为了连接检测和识别模块，提出了一种名为RoISlide的特征算子，用于从特征图中提取和校正任意文本区域，以减少字符大小和方向变化的影响之后，将校正后的文本特征输入到基于卷积神经网络（CNN）和连接主义时态分类[9]（CTC）的文本识别器中，以生成最终识别结果，使框架不受字符级注释的影响。由于该框架将文本检测（如改进的蛇身）和文本识别（来自蛇的新生长的爪子分支）模块集成到端到端的可训练系统中，因此整个文本识别过程就像龙的形状据我们所知，这是第一个端到端的可训练框架，用于任意形状的场景文本定位，仅使用单词/行级注释进行训练。我们的贡献有三个方面：（1）提出了一种新的端到端场景文本定位器TextDragon，它可以灵活地定位任意形状的文本。（2）设计了一种新的(3)所提出的模型可以以弱监督的方式训练，只有单词/行级注释，提高了模型的实用性。TextDragon对于弯曲和定向文本定位都是有效的，并且在两个弯曲文本基准Total-Text [6]和CTW 1500 [31]上实现了最先进的性能，并且在ICDAR 2015 Dataset [23]上具有竞争力。2. 相关工作在文献中，文本定位是指文本检测和识别的联合过程。因此，在本节中，我们回顾了相关的工作，从文本检测，识别和spotting的角度，分别。调查可以在[47，50]中找到。2.1. 场景文本检测传统的方法[43，13，4]首先本地化字符，然后将它们分组为单词。基于深度学习的方法[27，15，49]直接检测单词，无需冗余的中间步骤。虽然这些方法在标准基准上取得了很大的进步，但它们对文本的形状有严格的限制。最近，提出了几种方法来检测弯曲的文本在野外。Liu等人[31]集成了经常性的横向和纵向偏移连接来检测弯曲的文本，该文本由14个顶点的多边形描述。Wang等人。 [46]提出了一种使用递归神经网络的自适应文本边界表示Long等人 [32]将弯曲的文本描述为一系列以对称轴为中心的有序重叠的圆盘。然而，圆盘的形状不便于与文本识别器连接。该方法将弯曲文本描述为四边形而不是圆盘，更容易将文本检测和识别联系起来。2.2. 场景文本识别传统的方法如[44，21，34]首先检测和识别每个字符，然后将它们集成到组文本辨识器............这是什么？文本检测器边界生成主干网络不......这是什么？-...L...局部箱回归.........中心线分割解码器字符分类器罗伊斯利德9078话基于深度学习的方法通过CNN [12]从整个图像中提取特征，然后采用递归神经网络（RNN）生成顺序标签[42]。然而，这些方法将文本视为一维序列，不适合弯曲文本识别。为了处理弯曲的文本，Shi等人。[39]和Liu等人。 [28]引入了空间注意力机制，将弯曲的文本转换为合适的姿势进行识别。Cheng等人 [5]提出了任意方向网络来处理不规则文本，其中特征被组合成注意力解码器2.3. 场景文本定位大多数现有方法将场景文本定位[19，2，26]视为两个独立的步骤：第一步是检测文本行，第二步是识别它们。然而，大量的步骤可能需要彻底的调优，导致次优的性能和时间消耗。最近，Li et al. [25]提出了一种端到端的文本定位器，它专注于水平文本。Liu等人。 [29]介绍了一种可微分算子RoIRotate，它从特征映射中提取定向文本区域。 Patel et等人[35]提出了一种用于多语言文本识别和脚本识别的端到端方法。然而，这些方法只能处理水平或定向文本。在Mask-RCNN [11]的基础上，Lyu等人。 [33]通过分割文本区域和字符区域来检测和识别任意形状的文本实例。与[33]不同，我们的方法不需要字符级注释。此外，[33]中的锚机制可能无法生成合适的文本建议，因为弯曲文本的形状是高度可变的。3. 方法我们提出的端到端场景文本定位框架如图2所示。首先，使用干网络来提取输入图像上的视觉特征。在特征提取之后，文本检测器被应用于描述每个文本与一系列的四边形，这些四边形位于沿中心线。然后，新提出的RoISlide提取特征沿每个文本中心线从特征图，其中一个局部Transformer网络转换功能，在每个四边形整流。最后，基于CNN的文本识别器预测每个四边形的类别，并使用CTC解码器解码排序结果文本检测和识别模块在没有字符级注释的文本图像上联合训练。在下文中，我们将详细介绍检测器，RoISlide，识别器和推理过程。3.1. 文本检测为了检测具有任意形状的文本，我们在TextSnake[32]中采用类似的想法，通过预测局部几何形状，输入图像转化阶段1六十四，半Conv阶段2一百二十中心线分割上采样128，2Conv 103128，1× 1Conv阶段3第二百五十局部高度上采样128，2Conv 2002128，1× 1Conv阶段4512，1/2局部取向θ上采样128，2转换器1128，1× 1转化阶段5512，1/2图3.文本检测器的体系结构。“卷积阶段”1-5来自VGG-16，“上采样”表示具有步幅2的128个通道的去卷积层。为了更好的可视化，我们只在局部高度分支中显示了部分边界框，但实际上边界框要密集得多。图3中所示的文本的贡品。然而，TextSnake使用圆盘来表示局部几何属性，这对于后续的特征提取是困难的，因此文本在这里被表示为一系列四边形。为了检测宽尺度范围的文本，我们合并不同级别的特征图，并将融合后的特征图放大到输入图像的1/4大小。输出模块包括两个任务：中心线分割和局部框回归。这两个任务的输出地图也是输入图像的1/4大小。本小节的其余部分将介绍这两项任务的详细信息。中心线分割。该任务是从图像中提取文本区域，可以被认为是文本（正面类别）和非文本（负面类别）之间的下采样像素级分类。代替将文本区域内的所有像素分割出来，这里我们仅将原始文本区域的收缩版本的中心线区域视为正。腐蚀文本区域是为了减轻文本彼此接近时的接触效应，并在推理阶段带来更好的局部单元分组结果为了减轻文本和非文本之间类别不平衡的负面影响，在训练阶段采用[40]中介绍的在线硬示例挖掘（OHEM）用于中心线分割任务的损失函数Lseg通过OHEM将所选元素的集合表示为S，Lseg被公式化为：9079SSSCθθθθC我S我Ss21SXX......这是什么？.........这是什么？......这是什么？......这是什么？............这是什么？......这是什么？.........这是什么？...图4. Roislide的插图。绿色箭头表示滑动方向，蓝色箭头表示通过RoISlide的每个四边形的结果。为了更好的可视化，我们在输入图像上显示了RoISlide的过程，但实际上操作是在特征图上。调整为轴对齐特征。由于文本检测分支已经将文本的形状转化为一系列四边形，因此RoISlide提出通过顺序地变换每个局部四边形来间接地将整个文本特征转化为轴向对齐的特征，这是使框架具有端到端可训练性的关键具体地说，RoIS- lide有两个步骤：首先，我们安排的四边形分布在文本中心线的顺序。然后提出一种局部Transformer网络（LTN），以滑动方式将从每个四边形裁剪的特征图变换为校正后的在上述两个步骤之后，任意形状的文本特征被转换成相同维度的有序平方特征图，如图4所示。将第一步之后的有序四边形表示为 R={R1 ，R2，...，RN}。对于每个四边形Rn，LTN将Rn中的特征转换为统一的空间维度H×H，并且在实验中我们将H设置为81L段= |S|1=|S|Σs∈SΣs∈SL（ps，p）（−p logps−（1−p）log（1−ps）），（一）为了实现该目标，LTN首先计算一系列仿射变换矩阵M={M1，M2，...，MN}使用R中的特征，其包含6维参数。LTN由两个卷积+最大池化层组成接着是两个全连接层，用于变换参数的回归值得注意的是所述哪里|·|是一个集合中元素的个数，L（ps，p）是指预测像素之间的交叉熵损失水平文本得分ps和相应的基础事实p*LTN与其他模块联合训练，无需位置监督。之后，网格生成器生成采样网格，（p*∈ {0，1}）。S执行输入特征的扭曲。逐点仿射变换可以写为：局部盒回归这个任务是描绘当地的四-每个文本的范围，以促进进一步弯曲的边界生成和文本识别。在这个任务中，每个局部四边形由两个几何属性第一个属性是本地文本高度，由.你好，C11c=Mnyt=nc1n1213n n2223n nΣtC中国，（4）1如图3所示的正方形盒子，其中盒子边长为其中（xs，ys）和（xt，yt）表示C c cC等于本地文本高度。第二个属性是低-cal text orientation（校准文本方向），它是图3所示的弯曲文本的切线角度给定位于中心线分割任务中的正区域P中的像素i，用于局部框回归任务的损失函数Lreg被公式化为：共享要素地图和转换要素上的点地图分别。最后，利用采样点集从共享特征图中提取RoI特征，插值方法为双线性插值。空间变换器网络（Spatial transformer network，缩写为SPT）[20]也使用仿射Σ ΣLB 为Lθ1|P|Σi∈P平滑L1ΣBi−B*Σθi−θ*、（二）变换，其主要集中于变换整个图像。与STN不同的是，LTN以局部特征图作为输入，变换后的局部特征图构成整个文本的特征，具有更高的识别率Lreg=LB+λθLθ，（3）其中Bi和θi是预测的局部平方框和角度，而B和θ是相应的地特定于域的任意形状的文本定位。3.3.文本识别我我真相λθ是一个超参数，在我们的算法中被设置为10实验我们在这里选择平滑L1损失[36]，因为它对对象形状的变化具有鲁棒性。3.2. 罗伊斯利德现实世界中的文本形状变化很大，因此，很难直接将整个文本的形状转换为特征。Xyθθ9080虽然文本的形状是任意的，但人类与此同时，他们的眼睛并不连续移动，而是进行短暂的快速运动。受[45，48]的启发，我们采用滑动卷积字符模型而不是传统的LSTM [16]来识别任意形状的文本以进行快速识别。与从原始图像中提取特征的[45，48]不同，我们预测9081表1.文本识别器的网络结构。每个卷积层后面是一个批量归一化层和一个ReLU层。W是字符类的数量。输入框输出边界识别结果图5.推理推理的过程红色四边形显示推理阶段的输入框。分组后，具有相同颜色的四边形表示同一组。黄色箭头指示排序方向。在输出边界中，点表示采样后的顶点。分类结果中，“-”表示空白。使用RoISlide转换的要素创建文本标签。文本识别分支由两部分组成：一个字符分类器和一个转录层。字符分类器根据输入的平方特征预测标签分布基本事实的概率。将输入图像中的单词数量表示为M。文本识别的损失L_rec可以写为：并且转录层将每个方块的预测解码当输入要素从共享要素转换为1Lrec= −MΣMm=1logp（y|X）。（七）特征图包含丰富的语义信息，我们用表1所示的更简单的网络替换[48]中的网络。每个卷积层后面都有一个批量归一化[17]（BN）层，用于快速收敛。在每两个卷积层之后，最大池化层用于将特征图的大小减半。最终的卷积输出被平坦化为长度为2048的向量，然后被馈送到下面的两个全连接层。为了避免过拟合，我们在第一个全连接层之后插入一个丢弃层.最后，我们使用softmax层来获得每个方块在转录层中，我们采用CTC解码器[9]，并假设RoISlide之后的每个平方特征表示一个时间步长。CTC解码器旨在将每个方块去-将步骤n的概率分布记为P（k|π是一条CTC路，其序列长度等于平方数N。概率P（π|X）可以写成：ΣNP（π|X）=P（πn|n，X）。（五）n=1然后，使用CTC映射函数B来移除代表并删除空白。地面真值y的条件概率是B的所有路径的概率之和：对于文本检测和识别的端到端训练整个损失函数可以表示为：L=Lseg+λregLreg+λrecLrec，（8）其中λreg和λrec是控制每个任务之间平衡的超参数。3.4. 推理在推理阶段，我们的目标是通过检测器提供文本边界，以及文本内容到识别器。首先对文本中心线分割图进行阈值化处理，然后对局部边界框进行NMS处理以减少冗余。最后，基于NMS产生的四边形进行四个步骤，以得到如图5所示的最终结果。组给定输入框，而不是使用TextSnake [32]中引入的不相交集，我们根据它们的几何关系对边界框进行分组。为了使连接的组件完整，全分辨率TextSnake采用了低阈值和低阈值的输出方式，这会导致更多的噪声和大量的时间消耗，但是我们可以采用更高的阈值和四分之一分辨率的输出来避免这些问题。一个组中的每个盒子都应该满足两个启发式条件，并且至少有一个盒子在同一个组中：(1) 其IoU应高于0.5;（2）它们的绝对角度差应小于π/4。ΣP（y|X）=π∈B−1（y）P（π|（X）、（6）排序。在分组边界框之后，我们对边界生成和文本识别的框进行排序。首先，我们判断整体方向是水平还是垂直。并且目标是最大化符合相同范围内所有盒子的平均角度的对数似然波士顿首页风格餐饮市场组样品解码器排序分类B-O-S--T-OO-NN-家常菜MM-A-RR-K-E-T-类型配置输入N×8×8Conv bn relu3×3，128，步幅1×1Conv bn relu3×3，128，步幅1×1最大池化2×2，步幅2×2Conv bn relu3× 3256，步幅1×1Conv bn relu3× 3256，步幅1×1最大池化2×2，步幅2×2Conv bn relu3× 3512，步幅1×1Conv bn relu3× 3512，步幅1×1完全连接256，下降：0.5完全连接W9082(a)（b）第（1）款(c)（d）其他事项图6.（a，b）表明端到端训练有助于文本检测。（c，d）示出RoIRotate导致弯曲文本的错误识别结果。在第一行中，从左到右：无需识别和TextDragon的指导即可检测。在第二行中，从左到右：与RoIRotate和RoISlide一起使用。绿点显示多边形的顶点。组然后从左到右（水平）或从上到下（垂直）对盒子进行排序。Sample. 对于边界生成，我们只是均匀地采样有序框，以形成多边形的顶点。然后，通过连接顶点的顺序生成文本的边界。认出。对于文本识别，我们首先在具有有序框的共享特征图上执行RoISlide。然后每个变换后的特征被字符分类器分类。最后，CTC解码器用于预测最终的识别结果。4. 实验我们评估了文本定位和检测性能的建议的方法在几个标准的基准。最后，通过对各个模块的分析以及与以往方法的比较，论证了TextDragon的优越性和合理性4.1. 数据集CTW1500。CTW1500数据集包含1000张训练图像和500张测试图像。每个图像具有至少一个弯曲文本。水平和多方向文本也包含在此数据集中。每个文本被标记为在行级中具有14个顶点的多边形。端到端识别的评估协议类似于ICDAR 2015，其中四边形更改为任意多边形。我们报告的端到端的识别结果超过两个词汇：全文本Total-Text数据集有1255个训练图像和300个测试图像，其中包含弯曲文本以及水平和多方向文本。每个文本都是-在字级上被定义为多边形，并且评估原型端到端识别的col遵循CTW 1500的col。ICDAR 2015。ICDAR 2015数据集包含1000张训练图像和500张测试图像。每个文本被标记为一个四边形，在词级有4个顶点。文本识别任务报告了三个词典的结果：“强”、“弱”和“通用”。强大的词汇提供了100个字，可能会出现在每个图像。弱词典提供了整个测试集中的单词，通用词典提供了90K的词汇。4.2. 实现细节我们的实现基于Caffe框架[22]。干网络VGG-16 [41]继承了在ImageNet数据集[24]上训练的参数，然后我们在SynthText [10]上对模型进行60万次迭代的预训练，并在其他参数上进行微调120k迭代的数据集。512×512的输入图像是从随机缩放和旋转后的图像中裁剪出来的。我们首先将损失权重λreg和λrec设置为0.01，然后在分割任务得到很好的优化后将它们分别提高到0.1和0.05在预训练阶段，学习率为0.01。在微调阶段，我们以0.001的学习率训练模型。实验在一个2.9GHz的12核CPU，256G RAM，GTX Titan X和Ubuntu 64位操作系统的工作站上实现。4.3. 消融研究为了更好地理解所提出的方法的优点，我们首先从三个方面提供烧蚀研究。首先，我们展示了端到端培训的好处。其次，我们比较了RoISlide和RoIRotate在不同文本形状下的识别性能。第三，我们将提出的基于CNN的识别器与更流行的基于LSTM的识别器进行比较。9083方法检测End-to-EndPRF没有一充分SegLink [37]42.340.040.8--东[49]78.749.160.4--DMPNet [30]69.956.062.2--[29]第二十九话79.552.062.821.139.7CTD [31]74.365.269.5--CTD+TLOC [31]77.469.873.4--[32]第三十二话67.985.375.6--我们的两阶段79.581.080.237.269.9关于RoiRotate80.783.482.338.670.9关于LSTM84.381.883.039.271.5TextDragon84.582.883.639.772.4方法检测End-to-EndPRF没有一充分SegLink [37]30.323.826.7--Ch'ng等[6]美国40.033.036.0--东[49]50.036.242.0--[29]第二十九话52.338.044.032.235.9Liao等人[27日]62.145.552.536.348.9[33]第三十三话69.055.061.352.971.8[32]第三十二话82.774.578.4--我们的两阶段84.574.279.046.170.6关于RoiRotate86.074.379.747.173.6关于LSTM85.275.780.248.374.7TextDragon85.675.780.348.874.8表2. CTW1500测试集的结果。表3.Total-Text测试集的结果表4.ICDAR 2015测试集的结果方法检测方法End-to-End词语辨识PRFS WGS WGSegLink [37]74.7476.5075.61[23]第二十三话13.84 12.018.0114.65 12.638.43东[49]83.2778.3380.72Stradvision [23]43.7--45.9--He等人[第十五条]82.080.081.0文本建议[8，18]53.3 49.647.256.0 52.349.7[32]第三十二话84.980.482.6HUST MCLAB [37，38]67.9--70.6--PixelLink [7]85.582.083.7深度文本识别器[3]54.0 51.047.058.0 53.051.0Mask TextSpotter* [33]91.681.086.0[33]第三十三话79.3 73.062.479.3 74.564.2He等人[14个]87.086.087.0He等人[14个]82.0 77.063.085.0 80.065.0[29]第二十九话91.8587.9289.84[29]第二十九话83.5579.1165.3387.01 82.3967.97我们的检测84.8281.8283.05我们的两阶段75.23 73.1553.0477.03 75.1154.51关于RoiRotate92.1882.9387.31关于RoiRotate82.5179.2165.3786.20 82.0368.14TextDragon92.4583.7587.88TextDragon82.54 78.3465.1586.22 81.6268.034.3.1发现与无端到端培训识别监督可以为文本检测提供更详细的文本笔划特征。如果没有端到端的训练，文本检测可能会错过一些文本区域或错误分类的文本类似的背景。为了证明端到端训练的重要性，我们评估了我们的方法的一个变体，其中文本检测和识别分别进行训练。如表2、3和4所示，基于端到端训练的方法（包括TextDragon和其他配置）在文本检测和端到端识别方面显著优于我们的两阶段方法。此外，在端到端训练中使用不同的文本识别器结果表明，无论使用哪种文本识别器，文本识别监督都能为文本检测提供一些定性结果如图6所示。在图6（a），通过端到端训练，也可以检测特征不显著的文本。在图6（b）中，当采用识别任务时，具有重复结构化条纹的旗帜被很好地4.3.2RoISlide vs. RoIRotateRoIRotate算子[29]旨在以类似的方式利用仿射变换来变换特征，其中根据检测结果计算变换参数然而，RoISlide算子通过所提出的LTN获得变换参数通过对识别结果的分析，我们认为RoIRotate可能不适合弯曲文本，因为两个四边形交界处的字符会以两个不同的θ旋转，给字符识别带来困难。图6中示出了两个示例。图6（c）中的字符“A”和图6（d）中的字符因此，我们使用LTN预测的变换参数而不是检测结果。为了进一步探索RoIRotate对不同形状的文本的影响，我们使用RoIRotate评估了我们的方法的变体，用于弯曲和定向文本。表2和表3表明，对弯曲文本使用RoIRotate会降低端到端识别性能，这表明从检测结果中获取变换参数不适合弯曲文本9084图7.单词定位结果的示例第一列：CTW 1500;第二列：Total-Text;第三列：ICDAR 2015。文本识别虽然每个字符在定向文本中的方向是一致的，但表4显示RoIS-lide和RoIRotate在定向文本上实现了相似的性能，这验证了RoISlide的泛化能力。4.3.3发现与没有LSTM大多数以前的文本识别方法都是基于LSTM的，它顺序地预测分类结果但是我们的文本识别模型可以并行地对每个局部框进行分类，而不是像LSTM那样进行顺序预测，因此我们的方法比基于LSTM的方法更快。为了验证基于CNN的识别器的有效性，我们评估了我们方法的一个变体，该变体在文本识别分支中的全连接层之前添加了一个双向LSTM，每个方向的D=256个如表2和表3所示，采用LSTM对端到端识别性能的影响很小。然而，基于CNN的文本识别器的速度比基于LSTM的识别器快四倍（3ms vs 12ms），这证明了基于CNN的识别器的优势。4.4. 与最新技术在这一小节中，我们比较了以前的方法在几个基准，以验证我们的工作的优越性。4.4.1弯曲文本实验如表2和表3所示，所提出的方法可以在CTW 1500和Total-Text上实现最先进的性能。在端到端训练的帮助下，TextDragon在文本检测任务中在两个数据集上的表现都优于TextSnake。对于端到端的识别任务，TextDragon在Total-Text上实现了完整词典的最虽然性能不如不带词典的Mask TextSpotter，但值得注意的是，我们的方法不需要任何字符级注释，这具有更大的实用价值。4.4.2面向文本的实验定向文本的结果示于表4中。与其他为弯曲文本设计的方法相比，我们的方法在文本检测和端到端识别方面都有更好的表现。同时，我们的方法取得了竞争的结果，以国家的最先进的方法，特别是设计和适用于水平或定向文本。我们还在CTW 1500和Total-Text上重新实现了FOTS [29]，如表2和表3所示。实验结果表明，该方法在弯曲文本上的性能明显优于FOTS，说明TextDragon算法适用于弯曲文本和定向文本。图7中的一些单词识别结果表明，所提出的方法可以处理任意形状的文本。5. 结论在本文中，我们提出了一种新的端到端的场景文本spotter检测和识别任意形状的文本。文本检测器用一系列四边形来描述文本引入可微算子RoISlide，从特征图中提取任意文本区域。这是将文本检测和识别统一到端到端管道中的关键。提出了一种基于CNN分类器和CTC解码器的标准基准测试的实验证明了该方法的有效性。确认本工作得到了国家自然科学基金（NSFC）基金61733007、61721004、61633021、61836014、北京市科技计划基金Z181100008918010和NVIDIA NVAIL项目的支持。9085引用[1] Wikipedia.阅读中的眼动-维基百科，自由的百科全书。https://en.wikipedia.org/wiki/_movement_in_reading.[2] Alessandro Bissacco，Mark Cummins，Yuval Netzer，and Hartmut Neven.Photoocr：在不受控制的条件下阅读文本在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第785- 792页。IEEE，2013。[3] 米哈尔·布斯塔，卢·卡·诺依曼，还有吉鲁·马塔斯。深度文本分析器：一个端到端可训练的场景文本定位和识别框架。在IEEE国际计算机视觉会议（ICCV）的会议记录中，第2223-2231页。IEEE，2017年。[4] Huizhong Chen，Sam S Tsai，Georg Schroth，David MChen，Radek Grzeszczuk，and Bernd Girod.自然图像中的鲁棒文本检测，具有边缘增强的最大稳定外边界区域。IEEE International Conference on Image Processing（ICIP），第2609-2612页。IEEE，2011年。[5] Zhanzhan Cheng ， Xuyang Liu ， Fan Bai ， Yi Niu ，Shiliang Pu，and Shuigeng Zhou.面向语义的文本识别。在arXiv预印本arXiv：1711.04226，2017。[6] Chee Kheng ChTotal-text：用于场景文本检测和识别的国际文件分析与识别会议论文集，第1卷，第935- 942页。IEEE，2017年。[7] Dan Deng ， Haifeng Liu ， Xuelong Li ， and Deng Cai.Pix- ellink：通过实例分割检测场景文本。2018年AAAI人工智能会议[8] 他是戈麦斯和迪莫塞尼斯·卡拉扎斯。xtproposals：一个文本特定的选择性搜索算法，用于野外单词识别。模式识别，70：60[9] Al e xGr av es，SantiagoFer na´ ndez，FaustinoGomez，andJ ür genSchmidhube r. 连接主义时间分类：用递归神经网络标记未分割序列数据。在国际机器学习会议（ICML）上，第369-376页。ACM，2006年。[10] Ankush Gupta，Andrea Vedaldi，Andrew Zisserman.用于自然图像中的文本定位的合成数据在IEEE计算机视觉和模式识别会议（CVPR）的论文集，第2315-2324页，2016年[11] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。 IEEE InternationalConference on Computer Vision（ICCV），第2980-2988页。IEEE，2017年。[12] 潘和，黄伟林，乔玉，陈昌来，唐晓鸥.读取深度卷积序列中的场景文本。在AAAI人工智能会议，第16卷，第3501-3508页[13] 童禾、黄伟林、乔玉、姚剑。用于场景文本检测的文本注意卷积神经网络。 IEEE Transactions on ImageProcessing（TIP），25（6）：2529[14] 何彤、田智、黄伟林、沈春华、乔宇、孙长明一个端到端的textspotter，具有显式对准和注意。在IEEE计算机视觉和模式识别会议论文集中，第5020-5029页[15] 何文豪，张旭尧，尹飞，刘成林。面向多场景文本检测的深度直接回归。在 IEEE 计算机视觉国际会议（ICCV）的会议记录中，第745-753页[16] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NeuralComputation，9（8）：1735[17] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在arXiv预印本arXiv：1502.03167，2015。[18] 马克斯·贾德伯格，凯伦·西蒙尼安，安德里亚·维达尔迪，和安德鲁·齐瑟曼.自然景物文本识别的合成数据和人工神经网络。在arXiv预印本arXiv ： 1406.2227，2014。[19] 马克斯·贾德伯格，凯伦·西蒙尼安，安德里亚·维达尔迪，和安德鲁·齐瑟曼.使用卷积神经网络在野外阅读文本International Journal of Computer Vision（IJCV），116（1）：1[20] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。在神经信息处理系统（NIPS）的进展中，第2008-2016页[21] Max Jaderberg Andrea Vedaldi和Andrew Zisserman文本定位的深层功能。欧洲计算机视觉会议（ECCV），第512-528页。Springer，2014.[22] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe：用于快速特征嵌入的卷积架构ACM International Conference on Multimedia，第675-678页。ACM，2014年。[23] Dimosthenis Karatzas，Lluis Gomez-Bigorda，AnguelosNicolaou，Suman Ghosh，Andrew Bagdanov，MasakazuIwa- mura ， Jiri Matas ， Lukas Neumann ， VijayRamaseshan Chan- drasekhar，Shijian Lu，et al. ICDAR2015年关于稳健阅读的竞赛。国际文件分析和识别会议论文集（ICDAR），第1156-1160页IEEE，2015年。[24] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展（NIPS），第1097-1105页，2012年[25] Hui Li，Peng Wang，and Chunhua Shen.使用卷积递归神经网络进行端到端的文本识别。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第5238-5246页[26] Minghui Liao，Baogang Shi，and Xiang Bai.文本框++：一种面向单镜头的场景文本检测器。IEEE Transactionson Image Processing，27（8）：3676[27] Minghui Liao ， Baogang Shi ， Xiang Bai ， XinggangWang，and Wenyu Liu. Textboxes：一个带有单一深度神经网络的快速文本检测器。在AAAI人工智能会议上，第4161-4167页[28] Wei Liu ， Chaofeng Chen ， Kwan-Yee K Wong ，Zhizhong Su，and Junyu Han.Star-net：A spatial attentionresidue network for scene text recognition.在BMVC，第2卷，第7页，2016中。9086[29] Xuebo Liu ，Ding Liang ，Shi Yan ， Dagui Chen ，YuQiao，and Junjie Y

下载后可阅读完整内容，剩余1页未读，立即下载