自适应Bezier曲线网络用于实时场景文本识别的ABCNet

200 浏览量更新于2023-10-24 收藏 3.59MB PDF 举报

场景文本识别

实时识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1ABCNet：使用自适应Bezier曲线网络的实时场景文本识别*Yuliang Liu <$<$，Hao Chen< $，Chunhua Shen< $，Tong He<$，Lianwen JinJin，Liangwei Wang澳大利亚阿德莱德大学（University of Adelaide）华为诺亚摘要场景文本的检测与识别受到了越来越多的研究关注.现有方法大致可分为两组：基于字符和基于分段。这些方法要么是昂贵的字符注释或需要维护一个复杂的管道，这往往是不适合实时应用。在这里，我们通过提出自适应Bezier曲线网络（ABCNet）来解决这个问题我们的贡献有三个方面：1）首次采用参数化Bezier曲线自适应拟合有向或弯曲的文本。2)我们设计了一个新的BezierAlign层，用于提取具有任意形状的文本实例的准确卷积特征，与以前的方法相比，显着提高了精度3)与标准的包围盒检测相比，我们的Bezier曲线检测引入了微不足道的计算开销，从而导致我们的方法在效率和准确性方面的优势。在面向或弯曲的基准数据集，即Total-Text和CTW1500上的实验表明，ABCNet实现了最先进的准确性，同时显着提高了速度。特别是，在全文本上，我们的实时版本比最近的最先进的方法快10倍以上，具有竞争力的识别准确性。代码可在git.io/ AdelaiDet上获得。1. 介绍场景文本的检测与识别在计算机视觉中有着广泛的应用，因而受到越来越多的关注。尽管最近取得了巨大的进展[10，42，28，36，27，43，45，41，46，14]，检测-由于文本在大小、纵横比、字体样式、透视变形和形状方面的多样性，在野外对文本进行分析和识别在很大程度上仍然没有解决。尽管深度学习的出现显著提高了场景文本识别任务的性能，但当前用于现实世界的方法仍然存在相当大的差距*YL和HC对这项工作作出了同等贡献。这项工作是在刘玉良访问阿德莱德大学时完成的。CS是相应的作者，电子邮件：chunhua。shen @ adelaide。edu. au(a)基于分段的方法。（b）我们提出的ABCNet。图1. 基于分割的结果很容易受到附近文本的影响。非参数的非结构化分割结果使得它们很难对准特征，t识别分支。基于分割的结果通常需要复杂的后处理，从而影响效率。受益于参数化Bezier曲线表示，我们的ABCNet可以产生结构化的检测区域，因此BezierAlign采样过程可以用于自然连接识别分支。应用，特别是在效率方面最近，许多端到端方法[31，37，34，24，44，21]已经显著提高了定向或弯曲场景文本定位的性能。然而，这些方法要么使用基于分割的方法来维护复杂的管道，要么需要大量昂贵的字符级注释。此外，几乎所有这些方法都是缓慢的推理，阻碍了部署到实时应用程序。因此，我们的动机是设计一个简单而有效的端到端框架，用于在图像中发现定向或弯曲的场景文本[4，27]，这确保了快速的推理时间，同时与最先进的方法相比，实现了同等甚至更98099810(a) （Li等人，ICCV2017）(b) （He等人，CVPR2018）(c) （Liu等人，CVPR2018）(d) （Liao等人，ECCV2018）(e) （Sun等人，ACCV2018）(f) （Qin等人，ICCV2019）(g) （Xing等人，ICCV2019）(h) （Feng等人，ICCV2019）（一）我国图2. 概述一些与我们最相关的端到端场景文本定位方法。在GT（地面实况）框内‘ 'R '：承认;'BBox '：边界框。虚线框表示该方法无法检测的文本的形状。为了实现这一目标，我们提出了自适应贝塞尔曲线网络（ABCNet），一个端到端的可训练的框架，面向或弯曲的场景文本定位。ABCNet支持使用Bezier曲线自适应进行定向或弯曲场景文本检测，与标准矩形边界框检测相比，其计算开销可以忽略不计。此外，我们设计了一种新的特征提取层BezierAlign，用于精确计算弯曲形状文本实例的卷积特征，从而在不引入太多计算成本的情况下实现了高识别精度。本文首次用参数化Bezier曲线表示有向或弯曲的文本，实验结果表明了本文方法的有效性。我们的点样结果示例如图1所示。请注意，以前的方法，如TextAlign [11]和FOTS [25]可以被视为ABCNet的特殊情况，因为四边形边界框可以被视为具有4个直边界的最简单的定向或弯曲边界框。此外，ABCNet可以避免复杂的转换，如2D注意力[20]，使识别分支的设计变得相当简单。我们总结了我们的主要贡献如下。• 为了准确定位图像中有向和弯曲场景文本，本文首次提出了一种新的简洁的弯曲场景参数化表示方法文本使用贝塞尔曲线。它引入了可忽略不计的计算开销相比，标准的绑定框表示。• 我们提出了一种抽样方法，又名。BezierAlign，用于精确的特征对齐，因此识别分支可以自然地连接到整体结构，是的。通过共享主干特征，识别分支可以被设计成具有轻量结构。• 我们的方法的简单性，使它能够实时执行推理。ABCNet在两个具有挑战性的数据集上实现了最先进的性能，和CTW1500，显示出在效果和效率方面的优势。1.1. 相关工作场景文本识别需要同时检测和识别文本，而不是只涉及一个任务。最近，基于深度学习的方法的出现显着提高了文本识别的性能。检测和识别的性能都有了很大的提高。我们将几种代表性的基于深度学习的场景文本发现方法总结为以下两类。图2显示了典型作品的概述。常规的端到端场景文本发现Li等人[19]提出了第一个基于深度学习的端到端可训练场景文本发现方法。该方法成功地使用了RoI Pooling [35]来联合检测和识别特征通过一个两阶段的框架，但它只能发现横向和重点文本。其改进版本[20]显著提高了性能，但速度有限。He et al. [11] and Liu et al.[25]采用无锚机制提高训练和推理速度。他们使用类似的抽样策略，即，分别使用Text-Align-Sampling和RoI-Rotate，以便能够从四边形检测结果中提取特征。请注意，这两种方法都不能定位定向或弯曲的场景文本.图像GT：W，RCNN提案生成RoI合并检测Rec.HQPR图像GT：W，RCNNDet.文本对齐采样Rec.HQPR图像GT：W，RCNNDet.RoI旋转Rec.HQPR图像GT：W，R，CCNN提案生成RoIAlignDet.隔离区&CharRec.分组HQPR图像GT：W，RCNN提案生成ROI掩蔽隔离区Det.Rec.ZHQPR图像GT：W，RCNNDet.贝齐埃Rec.HQPR图像GT：W，RCNNDet.提案生成RoI变换Rec.HQPRP图像GT：W，R，CCNN新闻隔离区隔离区CharRec.ZHQPR图像GT：W，RCNN隔离区Det. 组件分组RoISlide HQPR9811我输入图像贝齐埃骨干网Bezier曲线检测图3. 建议的ABCNet的框架。我们使用三次Bezier曲线和BezierAlign来提取曲线序列特征，使用Bezier曲线检测结果。整个框架是端到端可训练的，具有高效率。紫色点表示三次贝塞尔曲线的控制点。定向或弯曲的端到端场景文本定位为了检测定向或弯曲的场景文本，Liao等人。[31]提出了一个MaskTextSpotter，它巧妙地改进了Mask R-CNN，并使用字符级监督来同时检测和识别字符和实例掩码。该方法显著提高了定位定向或弯曲场景文本的性能。然而，字符级的地面真值是昂贵的，使用免费的合成数据是很难产生字符级的地面真值的实际数据。它的改进版本[21]显著降低了对字符级地面真实值的依赖。该方法依赖于区域建议网络，这在一定程度上限制了速度。Sun等人。[37]提出了TextNet，它预先生成四边形检测边界框，然后使用区域建议网络来提供检测特征以进行识别。虽然该方法可以直接从四边形检测中识别有方向或弯曲的文本，但性能仍然有限。最近，秦等。[34]建议使用RoI Masking来聚焦定向或弯曲的文本区域。然而，结果可能容易受到离群像素的影响。此外，分割分支增加了计算负担，多边形拟合过程也引入了额外的时间消耗;并且分组结果通常是锯齿状的并且不平滑。[24]中的工作是第一个单阶段定向或弯曲场景文本定位方法，需要字符级地面真实数据进行训练。[44]的作者提出了一种新的采样方法RoISlide，该方法使用来自文本实例预测段的融合特征，在检测头的输出特征图上进行密集预测，该特征图由步长为1、填充为1和3×3核的4个堆叠卷积层构成接下来，我们将提出的ABCNet的关键组件分为两部分：1）Bezier曲线检测;和2）BezierAlign和识别分支。2.1. Bezier曲线检测与基于分割的方法[41，46，1，39，47，29]相比，基于回归的方法是定向或弯曲文本检测的更直接的[27、43]。然而，以前的基于回归的方法需要复杂的预测来拟合文本边界，这在实践中对于各种文本形状不是非常为了简化有向或弯曲场景文本的检测，通过回归分析，发现Bezier曲线作为曲线表示的最基本概念，适合于弯曲文本的参数化。贝塞尔曲线表示使用伯恩斯坦多项式[30]作为其基础的参数曲线c（t）。该定义在等式（1）中示出。Σnc（t）=biBi，n（t），0≤t≤1，（1）i=0时其中，n表示次数，bi表示第i个控制点，Bi，n（t）表示Bernstein基多项式，如等式（2）所示：. Σn因此，它对于长的定向或弯曲的文本是鲁棒的。Bi，n（t）=ti（1 − t）n−i，i = 0，.，n，（2）我2. 自适应贝塞尔曲线网络ABCNet是一个端到端的可训练框架，用于定位定向或弯曲的场景文本。在图3中可以看到直观的流水线。受[49，38，12]的启发，我们采用单次无锚卷积神经网络作为检测框架。锚框的移除显著简化了我们任务的检测。这里的检测其中. n是二项式系数。为了用贝塞尔曲线拟合文本的任意形状，我们从现有数据集和真实世界中全面观察定向或弯曲的场景文本，并且我们经验性地表明，三次贝塞尔曲线（即，n为3）在实践中足以适合不同种类的定向或弯曲场景文本。三次贝塞尔曲线的图示如图4所示。汉多夫新闻动态GI轻型识别头FTS9812i=110， 3 1 3， 3100万bxby濖澧濖澥澷濣濢濨濦濣濠濄濣濠濭濛濣濢澶濙濮濝濙濦澷濩濦濪濙濖澨濖澦濖澨濖澥澷濣濢濨濦濣濠濄濣濠濭濛濣濢澶濙濮濝濙濦澷濩濦濪濙濖澧濖澦图4. 三次贝塞尔曲线。bi表示控制点。绿线形成一个控制多边形，黑色曲线是三次贝塞尔曲线。注意，只有两个端点b1和b4，贝塞尔曲线退化为直线。基于三次Bezier曲线，我们可以简化定向或弯曲的场景文本检测到一个包围盒回归与八个控制点。请注意，具有四个控制点（四个顶点）的直文本是定向或弯曲场景文本的典型情况。为了保持一致性，我们在每个长边的三分点内插两个额外的控制点。为了学习控制点的坐标，我们首先生成2.1.1中描述的Bezier曲线地面真值，并遵循与[26]中类似的回归方法来回归目标。对于每个文本实例，我们使用x=bix−xmin，其中xmin和ymin分别表示4个顶点的最小x和y值预测相对距离的优点是与Bezier曲线控制点是否超出图像边界无关。在检测头内部，我们只需要一个具有16个输出通道的卷积层来学习卷积x，这几乎是免费的，而结果仍然可以是准确的，这将在第3节讨论。2.1.1Bezier地面实况生成在本节中，我们简要介绍如何生成Bezi-er曲线地面真理的基础上，原来的注释。定向或弯曲的数据集，例如，Total-text [4]和CTW 1500 [27]，使用多边形注释重新显示文本(a) 原始地面真相。（b）产生成果。图5. Bezier曲线生成的比较。在图（b）中，对于每个曲线边界，红色虚线形成对照多边形，红点表示控制点。翘曲结果如下所示。在图（a）中，我们利用TPS [2]和RISK [15]将原始地面真值扭曲成矩形形状。在图（b）中，我们使用生成的Bezier曲线和BezierAlign来扭曲结果。7，分别。t是通过使用累积长度与管的周长之比来计算的。根据公式（1）和公式（4），我们将原始的Bezier注释转换为参数化的Bezier曲线。请注意，我们直接使用第一个和最后一个注释点分别作为第一个（b0）和最后一个（b4）控制点图5中显示了可视化比较，它表明生成的结果在视觉上甚至比原始的地面实况更好。此外，基于结构化的Bezier曲线边界框，我们可以轻松地使用第2.2节中描述的BezierAlign将弯曲的文本扭曲成水平格式，而不会发生剧烈变形。Bezier曲线生成结果的更多示例如图6所示。我们的方法的简单性，使它在实践中推广到不同类型的文本。2.1.2Bezier曲线合成数据集对于端到端的场景文本定位方法，总是需要大量的免费合成数据，如表2所示。现有的800 k SynTex-测试数据集[7]仅提供四边形边界框，gions。给定注释点{pi}n从弯曲大部分是纯文本。丰富和丰富了我们的传统-边界，其中pi表示第i个注释点，主要目标是获得方程（1）中的三次贝塞尔曲线c（t）的最佳参数。为了实现这一点，我们可以简单地应用标准最小二乘法，如等式（4）所示对于垂直或弯曲的场景文本，我们尝试使用VGG合成方法合成150k合成数据集（94，723幅图像包含大部分直文本，54，327幅图像包含大部分弯曲文本）[7]。特别是，我们从COCO中过滤出40 k无文本背景图像B0，3（t0）···B3，3（t0）普雷普编辑文本[40]，然后准备分割掩码和场景B（t） ··· B（t）1 1x0y0px1py1每个背景图像的深度与[33]和[18]用于以下文本渲染。为了扩大形状多样性，。..=.。. -是的.2000bx2by22000.. 在合成文献的基础上，我们对VGG的合成方法进行了改进，B0，3（tm）· · ·B3，3（tm）bx3by3pxmpym（四）合成具有各种艺术字体和语料库的场景文本并为所有文本生成多边形注释-这里m表示曲线边界的注释点的数量。对于Total-Text和CTW 1500，m为5，姿态注释然后用于通过在图1中描述的生成方法产生Bezier曲线地面实况。9813图6. Bezier曲线生成的示例结果。绿线是最终的贝塞尔曲线结果。红色虚线表示控制多边形，4个红色端点表示控制点。放大以获得更好的可视化。(a) 水平抽样。（b）四边形抽样。（c）BezierAlign。图7. 以前的采样方法和BezierAlign之间的比较。BezierAlign算法能够准确地提取文本区域的特征，这对识别训练至关重要。注意，对齐过程在中间卷积特征中处理。第2.1.1节。我们的合成数据示例如图8所示。图8. 三次贝塞尔曲线合成数据的例子。2.2. 贝齐埃为了实现端到端的训练，大多数以前的方法采用各种采样（特征对齐）方法来连接识别分支。通常，采样方法代表网络内区域裁剪过程，与RoIAlign类似，BezierAlign的采样网格的形状不是矩形。相反，定向网格或弯曲网格的每一列与文本的贝塞尔曲线边界正交。采样点在宽度和高度上分别具有等距间隔，它们相对于坐标是双线性插值的。形式上给定一个输入特征图和贝塞尔曲线控制点，我们并发地处理大小为hout×wout的矩形输出特征图的所有输出像素。获取位置为（giw，gih）的像素gi（来自输出要素map）作为示例，我们通过等式（5）计算tt=giw。（五）wout然后，我们使用t和等式（1）来计算上贝塞尔曲线边界tp和下贝塞尔曲线边界bp的点。使用tp和bp，我们可以通过等式（6）线性地索引采样点op程序换句话说，给定特征图和区域-感兴趣区域（RoI）的特征，使用采样方法来选择RoI的特征，并有效地输出一个op=bp·吉伊赫h输出+tp·（1− 吉伊赫h输出）的情况。（六）固定尺寸然而，先前的基于非分割的方法的采样方法，例如，RoI池化[19]、RoI-旋转[25]、文本对齐采样[11]或RoI变换[37]无法正确对齐定向或弯曲文本的特征（RoISlide[44]众多预测片段）。通过利用紧凑Bezier曲线包围盒的参数化特性，提出了BezierAlign 特征采样算法 .BezierAlign是从RoIAlign [8]扩展而来的。Un-有了op的位置，我们可以很容易地应用双线性互-polation 来计算结果。图 7 显示了连续采样方法和BezierAlign之间的比较。认可分支。受益于共享的骨干功能和BezierAlign，我们设计了一个轻量级的识别分支，如表1所示，用于更快的执行。它由6个卷积层，1个双向9814层(CNN- RNN）参数（内核大小，步幅）输出大小（n，c，h，w）conv层×4conv层×2小时平均池（3，1）（3，（2，1））-（n，256，h，w）（n，256，h，w）（n，256，1，w）佩吕梅特BLSTM足球俱乐部---（w，n，256）（w，n，512）（w，n，n类）表1：识别分支的结构，这是CRNN的简化版本[36]。对于所有卷积层，填充大小被限制为1。n表示批量。c代表发送通道大小。h和w表示输出的特征图的高度和宽度，nclass表示预测类的个数，本文设置为97，包括英文字符、数字、符号的大小写，一个类别代表所有其他符号，最后一个类别的一个LSTM [13]层和1个全连接层。基于输出分类分数，我们使用经典的CTC Loss[6]用于文本字符串（GT）对齐。注意，在训练期间，我们直接使用生成的贝塞尔曲线GT来提取RoI特征。因此，检测分支不影响识别分支。在推断阶段，RoI区域被第2.1节中描述的检测贝塞尔曲线替换。实验部分3中的消融研究表明，提出的BezierAlign可以显着提高识别性能。3. 实验我们在两个最近引入的定向或弯曲场景文本基准上评估我们的方法，Total-Text [3]和CTW 1500 [27]，它们也包含大量的s-straight文本。我们还进行了消融研究的全文，以验证我们所提出的方法的有效性。3.1. 实施细节本文的主干遵循与以前大多数论文相同的设置，即，ResNet-50 [9]和特征金字塔网络（FPN）[23]。对于检测分支，我们在输入图像的分辨率为1/8、1/16、1/32、1/64和1/128的5个特征图上使用RoIAlign，而对于识别分支，在尺寸为1/4、1/8和1/16的三个特征图上进行BezierAlign。预训练数据收集自公开的基于英语单词的数据集，包括第2.1.2节中描述的150 k合成数据，从原始 COCO-Text [40] 过滤的 15 k 图像和 7 kICDAR-MLT数据[32]。然后在目标数据集的训练集上对预训练模型进行微调此外，我们还采用数据扩充策略，例如，随机规模训练，短规模随机选择560至800，长规模小于1333;随机作物，我们使确保裁剪尺寸大于原始尺寸的一半，并且没有任何文字被剪切（对于一些难以满足条件的特殊情况，我们不应用随机裁剪）。我们使用4个Tesla V100 GPU训练我们的模型，图像批量大小为32。最大迭代次数为150 K;并且初始化学习率为0.01，其降低到第70K次迭代时为0.001，第120K次迭代时为0.0001。整个培训过程大约需要3天。3.2. Total Text的实验结果数据集。Total-text dataset [3]是2017年提出的最重要的面向或弯曲场景文本基准之一，它是从各种场景中收集的，包括文本类场景复杂度和低对比度背景。它包含1，555张图像，其中1，255张用于训练，300张用于测试。为了类似于真实世界的场景，该数据集的大多数图像包含大量的规则文本，同时保证每个图像至少有一个弯曲的文本。文本实例采用基于词级的多边形标注。它的扩展版本[4]通过在文本识别序列之后用固定的10个点注释每个文本实例来改进其训练集的注释。数据集仅包含英文文本。为了评估端到端的结果，我们遵循与以前的方法相同的度量标准，即使用F度量来衡量单词准确性。消融研究：BezierAlign. 为了评价所提出的组件的有效性，我们对该数据集进行了消融研究。我们首先对采样点的数量如何影响端到端结果进行灵敏度分析，如表4所示。从实验结果可以看出，采样点的数目对最终的性能和效率有很大的影响。我们发现（7，32）在F-测度和FPS之间实现了最佳折衷，这在以下实验中用作最终设置。我们通过将BezierAlign与图7所示的先前采样方法进行比较来进一步评估BezierAlign。表3所示的结果表明，BezierAlign可以显著改善端到端结果。定性示例如图9所示。消融研究：贝塞尔曲线检测。另一个重要的组成部分是贝塞尔曲线检测，它使定向或弯曲的场景文本检测。因此，我们也进行实验，以评估Bezier曲线检测的时间消耗。表5中的结果表明，与标准边界框检测相比，贝塞尔曲线检测不会引入额外的与最新技术水平的比较。我们进一步比较我们的方法与以前的方法。从表2中，我们可以看到，我们的单尺度结果（短尺寸为800）可以实现有竞争力的性能，同时实现实时推理速度，从而在速度和单词准确性之间实现更好的通过多尺度推断，ABCNet实现了最先进的性能、信号9815濅濩濕濘濦濝濠濕濨濙濦濕濠濫濕濦濤濝濢濛投标人须知澮濈澹激澹濄澼濃濂澹澶濙濮濝濙濦澵濠濝濛濢濫濕濦濤濝濢濛投标人须知澮濄澹濁澹濄濆澹澹濅濩濕濘濦濝濠濕濨濙濦濕濠濫濕濦濤濝濢濛投标人须知澮濄澹澵澷澼濈濆澹澹澶濙濮濝濙濦澵濠濝濛濢濫濕濦濤濝濢濛濅濩濕濘濦濝濠濕濨濙濦濕濠濋濕濦濤濝濢濛投标人须知澮濇澿濃濄濆濂投标人须知澮濇澼濃濄濆澽濈澹澶濙濮濝濙濦澵濠濝濛濢濫濕濦濤濝濢濛投标人须知澮澿濨濍濇方法数据骨干F-measureFPS没有一充分[22]第二十二话SynText800k、IC13、IC15、TTResNet-50-FPN36.348.91.4[ 31 ]第三十一话SynText800k、IC13、IC15、TTResNet-50-FPN52.971.84.8两阶段[37]SynText800k、IC13、IC15、TTResNet-50-SAM45.0--[37]第三十七话SynText800k、IC13、IC15、TTResNet-50-SAM54.0-2.7Li等人[20个]SynText840k、IC13、IC15、TT、MLT、AddF2kResNet-101-FPN57.80-1.4[ 21 ]第二十一话SynText800k、IC13、IC15、TT、AddF2kResNet-50-FPN65.377.42.0Qin等[34个]SynText200k、IC15、COCO-Text、TT、MLT私有：30k（手动标签），1m（部分标签）ResNet-50-MSF67.8-4.8CharNet [24]SynText800k、IC15、MLT、TTResNet-50-沙漏5766.2-1.2[44]第四十四话SynText800k、IC15、TTVGG1648.874.8-ABCNet-FSynText150k、COCO-Text、TT、MLTResNet-50-FPN61.974.122.8ABCNet64.275.717.9ABCNet-MS69.578.46.9表2：Total-Text上的场景文本定位结果。ABCNet-F的速度更快，因为输入图像的短尺寸为600。MS：多尺度测试。“None” 数据集：AddF 2k [48]; IC 13 [17]; IC 15 [16]; TT [5]; MLT [32]; COCO-Text [40]。方法抽样方法F-测量值（%）ABCNet水平采样38.4ABCNet使用四边形采样44.7ABCNet关于BezierAlign61.9表3：BezierAlign的消融研究。水平采样遵循[19]，四边形采样遵循[11]。图9. 四边形采样方法和BezierAlign的定性识别结果。左：原始图像。右上角：使用四边形采样的结果。右下角：成果使用BezierAlign。特别是在运行时间方面，显著优于所有以前的方法。值得一提的是，我们的更快版本可以比以前的最佳方法快11倍以上[21]，具有同等精度。表4：BezierAlign采样点数量的消融研究。方法推理时间无Bezier曲线检测Bezier曲线检测22.8 fps22.5 fps表5：Bezier曲线检测时间消耗的消融研究定性结果。ABC- Net的一些定性结果如图10所示。实验结果表明，该方法可以准确地检测和识别大多数有方向或弯曲的文本。此外，该方法还能很好地处理直线文本，具有近似四边形的紧凑包围盒，识别结果正确。图中还显示了一些错误，这些错误主要是由于错误地识别其中一个字符而引起的。3.3. CTW1500的实验结果数据集。CTW1500 [27]是2017年提出的另一个重要的定向或弯曲场景文本基准。与Total-Text相比，该数据集包含英文和中文文本。此外，注释是基于文本行级别的，它还包括一些类似文档的文本，即，许多小文本可以堆叠在一起。CTW1500包含1k个训练图像和500个测试图像。实验由于中文文本在该数据集中的占有量非常小，我们直接将所有的中文文本都视为方法采样点（nh，nw）F-测量值（%）FPS+ （6，32）59.623.2+ （7，32）61.922.8ABCNet+ （14，64）+ （21，96）58.154.819.918.0+ （28，128）53.415.19816图10. ABCNet对全文的定性结果。检测结果用红色边界框显示。浮点数是预测的置信度。把镜头放大看清楚-化方法数据F-measure没有一强全FOTS [25]SynText800k、CTW150021.139.7两阶段 *[44]SynText800k、CTW150037.269.9[44]第四十四话SynText800k、CTW150038.670.9LSTM*[44]SynText800k、CTW150039.271.5[44]第四十四话SynText800k、CTW150039.772.4ABCNetSynText150k、CTW150045.274.1表6：CTW1500上的端到端场景文本定位结果。* 结果来自[44]。“无”代表无词汇。在测试集。在训练期间将文本设置为“看不见的”类，即，第96课注意，最后一个类，即，第97个类在我们的实现中是我们遵循与[44]相同的评估方法实验结果在表6中报告，其证明在端到端场景纹理定位方面，ABCNet可以显著超过先前的该数据集的示例结果如图11所示。从图中我们可以看到，一些长文本行实例包含许多单词，这使得完全匹配单词精度变得非常困难。换句话说，错误地识别一个字符将导致整个文本的零分。图11. CTW1500的定性端到端点样结果。在屏幕上看得更好。4. 结论我们已经提出了ABCNet-一个实时的端到端的方法，使用贝塞尔曲线定向或弯曲的场景文本定位。通过使用参数化的Bezier曲线重构有向或弯曲的场景文本，ABCNet可以检测具有Bezier曲线的有向或弯曲的场景文本，与标准的包围盒检测相比，其引入的计算成本可以忽略不计。有了这些规则的Bezier-er曲线边界框，我们可以通过一个新的BezierAlign层自然地连接一个轻量级的识别分支。此外，通过使用我们的Bezier曲线合成数据集和公开可用的数据，在两个定向或弯曲场景文本基准测试（Total-Text和CTW 1500）上的实验表明，我们的ABCNet可以达到最先进的性能，这也是显着快于以前的方法。确认L. Jin的参与得到了国家自然科学基金的部分资助（批准号：61936003）、国家重点研究发展计划（No.2016YFB1001405）和GD-NSF（No.2017A030312006）。作者感谢华为技术捐赠GPU云计算资源。9817引用[1] Youngmin Baek、Bado Lee、Dongyoon Han、SangdooYun和Hwalsuk Lee。用于文本检测的字符区域意识在proc IEEE会议Comp. 目视帕特识别，第9365-9374页[2] 弗雷德湖布克斯坦主要经纱：薄板样条与变形分解。IEEE传输模式分析马赫内特尔，11（6）：567[3] C.- K Chng和C.- S海峡Total-text：用于场景文本检测和识别的综合数据集。在IAPR Int.会议文件分析，第935-942页，2017年。[4] Chee-Kheng Chng，Chee Seng Chan，and Cheng-Lin Liu.Total-text：走向场景文本检测中的方向鲁棒性国际文献分析杂志，第1-22页[5] Chee-KhengChng ， Yuliang Liu ， Yipeng Sun ， ChunChet Ng，Canjie Luo，Zihan Ni，ChuanMing Fang，Shuaitao Zhang ， Junyu Han ， Errui Ding ， et al.ICDAR2019 Robust Read-ing Challenge on Corrary-Shaped Text（RRC-ArT）IAPR国际会议会议文件分析，2019年。[6] Al e xGr av es，SantiagoFer na´ ndez，FaustinoGomez，andJ ür genSchmidhube r. 连接主义时间分类：用递归神经网络标记未分割序列数据。在Proc. Int. Conf.马赫学习. 第369-376页。ACM，2006年。[7] Ankush Gupta，Andrea Vedaldi，Andrew Zisserman.用于自然图像中的文本定位的合成数据。正在进行IEEE会议对比可见光帕特识别第2315- 2324页[8] 何凯明，乔治亚·吉克萨里，彼得·多尔，罗斯·吉尔希克.面罩R-CNN。正在进行IEEE国际配置文件目视，2017年。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE Conf.Comp.目视帕特识别，第770-778页[10] 童禾、黄伟林、乔玉、姚剑。用于场景文本检测的文本注意力卷积神经网络IEEE传输图像处理。，25（6）：2529[11] 何彤、田智、黄伟林、沈春华、乔宇、孙长明一个端到端的textspotter，具有明确的对齐和注意力。正在进行IEEE会议对比可见光帕特识别，第5020-5029页[12] 何文豪，张旭尧，尹飞，刘成林。面向多场景文本检测的深度直接回归。正在进行IEEE会议对比可见光帕特识别，2017年。[13] Sepp Hochreiter和Jurgen Schmidhuber。长短期记忆。神经计算，第9卷，第1735- 1780页，1997年[14] Zhida Huang，Zhuoyao Zhong，Lei Sun，Qiang Huo.基于金字塔注意力网络的掩模r-cnn场景文本检测。冬季会议应用对比Vision，第764- 772页。IEEE，2019。[15] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。在Proc.神经信息进展。过程系统2017-2025页[16] D.卡拉察斯湖Gomez-Bigorda等人ICDAR 2015稳健阅读竞赛。在IAPR Int.会议文件分析第1156-1160页[17] D. 卡拉察斯F.Shafait，S.Uchida等人ICDAR 2013年稳健阅读竞赛。在IAPR Int.会议文件分析第1484-1493页[18] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在proc Int. 反F. 3D视觉（3DV），第239-248页。IEEE，2016.[19] Hui Li，Peng Wang，and Chunhua Shen.使用卷积递归神经网络进行在proc IEEE国际Conf. Comp. 目视，第5238[20] Hui Li，Peng Wang，and Chunhua Shen.走向自然场景中的端到端文本定位。arXiv：比较Res. Reposito- ry，2019.[21] Minghui Liao ， Pengyuan Lyu ， Minghang He ， CongYao，Wenhao Wu，and Xiang Bai.掩码文本检测器：一个端到端的可训练神经网络，用于识别任意形状的文本。IEEE传输模式分析马赫内特尔，2019年。[22] Minghui Liao ， Baogang Shi ， Xiang Bai ， XinggangWang，and Wenyu Liu.Textboxes：一个具有单个深度神经网络的快速文本检测器在Proc. AAAI Conf.人工智能，2017年。[23] 林宗义、彼得·多尔、罗斯·格希克、何开明、B-哈拉斯·哈里哈兰和塞尔日·贝隆吉.用于目标检测的特征金字塔网络。正在进行IEEE会议对比可见光帕特识别，第2117-2125页[24] 邢林杰，田志，黄伟林，R.斯科特·马修。卷积字符网络。在proc IEEE国际配置文件可见，2019年。[25] Xuebo Liu ，Ding Liang ， Shi Yan ， Dagui Chen ， YuQiao，and Junjie Yan.Fots：使用统一的网络快速定位文本。在proc IEEE会议Comp. 目视帕特识别，第5676-5685页[26] 刘玉良和金连文深度匹配先验网络：更紧密的多方向文本检测。正在进行IEEE会议对比可见光帕特识别，2017年。[27] Yuliang Liu ， Lianwen Jin ， Shuaitao Zhang ， CanjieLuo，and Sheng Zhang.通过横向和纵向序列连接进行弯曲场景文本检测。模式识别，90：337[28] Yuliang Liu ，Sheng Zhang，Lianwen Jin，Lele Xie，Yaqiang Wu，and Zhepeng Wang.全方位场景文本检测与无顺序框离散化。Proc. Int.联合会议人工智能，2019年。[29] Shangbang Long ， Jiqiang Ruan ， Wenjie Zhang ， XinHe，Wenhao Wu，and Cong Yao. Textsnake：一个灵活的表示，用于检测任意形状的文本在proc EUR.配置文件可见，第20-36页[30] George G.洛伦兹伯恩斯坦多项式美国数学学会，2013年。[31] Pengyuan Lyu ， Minghui Liao ， Cong Yao ， WenhaoWu，and Xiang Bai.掩码文本检测器：一个端到端的可训练神经网络，用于识别任意形状的文本。在proc9818EUR.配置文件可见，第67-83页9819[32] NibalNayef ， Yash Patel ， Michal Busta ， Pinaki NathChowd-hury ， Dimosthenis Karatzas ， Wafa Khlif ， JiriMatas，Uma- pada Pal，Jean-Christophe Burie，Cheng-lin Liu，et al. ICDAR 2019多语言场景文本检测和识别的鲁棒阅读挑战赛-RRC-MLT-2019。IAPR国际会议会议文件分析，2019年。[33] Jordi Pont-Tuset，Pablo Arbelaez，Jonathan T Barron，Fer- ran Ma

下载后可阅读完整内容，剩余1页未读，立即下载