掩码TextSpotter：端到端可训练的场景文本识别神经网络模型

177 浏览量更新于2023-10-13 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

掩码TextSpotter：一种用于识别任意形状文本的端到端可训练神经网络吕鹏远[0000−0003−3153−8519]，廖明辉[0000−0002−2583−4314]，丛瑶2【0000−0001−6564−4796】、吴文浩2、向白1【0000−0002−3449−5940】1华中科技大学2旷视（Face++）科技股份有限公司lvpyuan@gmail.com，mhliao@hust.edu.cn，yaocong2010@gmail.com，网址：wwh@megvii.com，xbai@hust.edu.cn抽象。最近，基于深度神经网络的模型已经主导了场景文本检测和识别的领域在本文中，我们研究的问题，场景的文字发现，它的目的是在自然图像中的文本检测和识别提出了一种用于场景文本识别的端到端可训练神经网络模型该模型被命名为Mask TextSpotter，其设计灵感来自于最新出版的 Mask R-CNN 。与以往的文本识别方法不同， MaskTextSpotter利用简单、平滑的端到端学习过程，通过语义切分实现精确的文本检测和识别。此外，它在处理不规则形状的文本实例（例如，弯曲文本）方面优于传统方法。在ICDAR2013、ICDAR 2015和Total-Text上的实验结果表明，该方法在场景文本检测和端到端文本识别方面均取得了较好的效果。关键词：场景文本识别·神经网络·任意形状1介绍近年来，随着神经网络的兴起和图像数据集的增长，场景文本检测和识别引起了计算机视觉界越来越多的研究兴趣场景文本检测和识别提供了一种自动、快速的方法来访问体现在自然场景中的文本信息，这有利于各种现实世界的应用，例如地理定位[58]、即时翻译和盲人辅助。场景文本定位，其目的是同时定位和识别来自自然场景的文本，先前已经在许多作品中进行了研究[49，作者贡献相等。作者：陈文彬2Pengyuan Lyu，Minghui Liao，Cong Yao，Wenhao Wu，XiangBai进展天体圣徒彼得罗桑21页]。然而，在大多数作品中，除了[27]和[3]，文本检测和随后的识别是分开处理的文本区域首先由经过训练的检测器从原始图像中捕获这个过程似乎简单和自然，但可能导致检测和识别的次优性能，因为这两个任务是高度相关和互补的。一方面，检测结果的质量在很大程度上决定了识别的准确性;另一方面，识别的结果可以提供反馈以帮助在检测阶段拒绝假阳性。最近，已经提出了两种方法[27，3]，它们设计了用于场景文本识别的得益于检测和识别之间的互补性，这些统一模型的性能明显然而，[27]和[3]中有两个主要缺点。首先，它们两者都不能完全以端到端的方式进行训练[27]在训练期间应用了课程学习范式[1]，其中用于文本识别的子网络在早期迭代时被锁定，并且每个阶段的训练数据都是精心选择的。Busta等人 [3]首先分别对网络进行检测和识别的预训练，然后联合训练它们直到收敛。主要有两个原因阻止[27]和[3]以平滑的端到端方式训练模型。一个是文本识别部分需要准确的位置进行训练，而早期迭代中的位置通常是不准确的。另一个是所采用的LSTM [17]或CTC损失[11]比一般CNN难以优化。[27]和[3]的第二个局限性在于这些方法只关注阅读水平或定向文本。然而，现实世界场景中的文本实例的形状可能变化很大，从水平或定向到弯曲形式。在本文中，我们提出了一个名为Mask TextSpotter的文本检测器，它可以检测和识别任意形状的文本实例。这里，任意形状意味着现实世界中的各种形式的文本实例。受Mask R-CNN [13]的启发，它可以生成对象的形状掩码，我们通过分割实例文本区域来检测文本因此，我们的检测器能够检测任意形状的文本。此外，与以前的基于序列的识别方法[45，44，26]不同，这些方法是针对一维序列设计的，我们通过语义来识别文本图1：不同文本定位方法的插图左边是水平文本定位方法[30，27];中间是定向文本定位方法[3];右边是我们提出的方法。绿色边界框：检测结果;绿底红字：识别结果掩码TextSpotter3在二维空间进行文本分割，解决了不规则文本实例的阅读问题另一个优点是它不需要精确的位置来识别。因此，检测任务和识别任务可以完全端到端地训练，并且受益于特征共享和联合优化。我们验证了我们的模型的有效性的数据集，包括hor- izontal，有方向和弯曲的文本。实验结果表明，该算法在文本检测和端到端的文本识别任务的优势。特别是，在ICDAR 2015上，以单一尺度进行评估，我们的方法在检测任务上实现了0.86的F-Measure，并且比以前的顶级表现者高出13。2%-25。在端到端识别任务上，只有3%。本文的主要贡献有四个方面。（1）我们提出了一个端到端的可训练的文本识别模型，它具有简单，平滑的训练方案。(2)所提出的方法可以检测和识别各种形状的文本，包括水平的，有方向的，和弯曲的文本。(3)与以前的方法相比，精确的文本检测和识别在我们的方法是通过语义分割完成。（4）在各种测试中，我们的方法在文本检测和文本定位方面都达到了最先进的性能。2相关工作2.1场景文本检测在场景文本识别系统中，文本检测起着重要的作用[59]。已经提出了大量的方法来检测场景文本[7，36，37，50，19，23，54，21，47，54，56，30，52，55，34，15，48，43，57，16，35，31]。在[21]中Jaderberg等人使用边缘框[60]来生成建议并通过回归来细化候选框。Zhang等人。 [54]通过利用文本的对称性来检测场景文本。改编自更快的R-CNN [40]和SSD [33]，经过精心设计的修改，[56，30]被提出来检测水平单词。面向多个场景的文本检测是近年来的研究热点。Yao等人。 [52]和Zhang等人。 [55]通过语义分割检测多方向场景文本。 Tian等人 [48]和Shi et al. [43]提出了首先检测文本片段，然后通过空间关系或链接预测将它们链接到文本实例的方法。Zhou等人。 [57]和He等人。 [16]直接从密集分割图回归文本框。Lyu等人。 [35]提出检测和分组文本的角点以生成文本框。旋转敏感回归的定向场景文本检测提出了廖等。[31]第30段。与水平或多方向场景文本检测的流行相比，很少有作品关注任意形状的文本实例近年来，由于现实生活中的应用需求，任意形状文本的检测逐渐引起了研究者的关注。在[41]中，Risnumawan等人提出了一种基于文本对称属性的任意文本检测系统。在[4]中，提出了与上述大多数方法不同，我们提出了通过实例分割来检测场景文本，该实例分割可以检测任意形状的文本。4Pengyuan Lyu，Minghui Liao，Cong Yao，Wenhao Wu，XiangBai2.2场景文本识别场景文本识别[53，46]旨在将检测到的或剪切的图像区域解码为字符序列。先前的场景文本识别方法可以大致分为三个分支：基于字符的方法、基于单词的方法和基于序列的方法。基于字符的识别方法[2，22]大多首先定位单个字符，然后识别并将其分组为单词。在[20]中，Jaderberg等人提出了一种基于单词的方法，该方法将文本识别视为常见的英语单词（90k）分类问题。基于序列的方法将文本识别作为序列标记问题来解决。在[44]中，Shi等人使用CNN和RNN对图像特征进行建模，并使用CTC输出识别的序列[11]。在[26，45]中，Lee等人和Shi等人通过基于注意力的序列到序列模型识别场景文本。在我们的框架中，所提出的文本识别组件可以被归类为基于字符的方法。然而，与以前的基于字符的方法相反，我们使用FCN [42]来同时定位和分类字符此外，与基于序列的方法相比，该方法更适合于处理不规则文本（多方向文本、弯曲文本等）。）.2.3场景文本定位大多数以前的文本定位方法[21，30，12，29]将定位过程分为两个阶段。他们首先使用场景文本检测器[21，30，29]来本地化文本实例，然后使用文本识别器[20，44]来获得识别的文本。在[27，3]中，Li etal. 和Busta等人提出端到端的方法来定位和识别统一网络中的文本，但需要相对复杂的训练过程。与这些方法相比，我们提出的文本spotter不仅可以训练端到端完全，而且还具有检测和识别任意形状（水平，定向和弯曲）的场景文本的能力。2.4通用目标检测与语义分割随着深度学习的兴起，通用对象检测和语义分割都取得了很大的发展。已经提出了大量的对象检测和分割方法[9，8，40，6，32，33，39，42，5，28，13]得益于这些方法，场景文本的检测与识别在过去的几年中取得了明显的进展。我们的方法也受到这些方法的启发。具体地，我们的方法是从一般对象实例分割模型Mask R-CNN [13]改编的。然而，我们方法的掩码分支与Mask R-CNN中的掩码分支之间存在关键我们的掩码分支不仅可以分割文本区域，而且还可以预测字符概率图，这意味着我们的方法可以用于识别字符图中的实例序列，而不仅仅是预测对象掩码。掩码TextSpotter5Fast R-CNNROI Align面膜店分词RPN字符实例分割框回归包装盒分类3方法所提出的方法是一个端到端的可训练的文本spotter，它可以处理各种形状的文本。它由基于实例切分的文本检测器和基于字符切分的文本识别器组成3.1框架我们提出的方法的整体架构如图所示。二、在功能上，该框架由四个组件组成：作为骨干的特征金字塔网络（FPN）[32]，用于生成文本提案的区域提案网络（RPN）[40]，用于边界框回归的快速R-CNN[40]，用于文本实例分割和字符分割的掩码在训练阶段，首先通过RPN生成大量的文本提案，然后将提案的RoI特征馈送到Fast R-CNN分支和掩码分支中，以生成准确的文本候选框、文本实例分割图和字符分割图。自然图像中的主干文本大小不一为了在所有尺度上构建高级语义特征图，我们应用了一个特征金字塔结构[32]主干，其中ResNet [14]的深度为50。FPN采用自上而下的结构，融合了单尺度输入的不同分辨率的特征，以边际成本提高了精度。RPN RPN用于为后续的Fast R-CNN和mask分支生成文本提案。在[32]之后，我们根据锚大小在不同阶段分配锚。具体地，锚的面积被设置为{322，642， 1282， 2562， 5122}个像素。不同的纵横比{0。5， 1， 2}也采用在[40]中的每个阶段。通过这种方式，RPN可以处理各种大小和纵横比的文本RoI Align [13]适用于提取提案的区域特征。与RoI Pool-ing [8]相比，RoI Align保留了更准确的位置信息，这对掩码分支中的分割任务非常有益。请注意，没有采用特殊的文本设计，例如文本的锚点的特殊纵横比或方向，如以前的作品[30，15，34]。Fast R-CNN分支包括分类任务和回归任务。这个分支的主要功能是提供更准确的图2：我们的方法的架构的图示。6Pengyuan Lyu，Minghui Liao，Cong Yao，Wenhao Wu，XiangBai……用于检测的边界框Fast R-CNN的输入为7× 7分辨率，由RoI Align根据RPN产生的建议生成。掩码分支掩码分支中有两个任务，包括全局文本实例分割任务和字符分割任务。如图3，给定一个大小固定为16*64的输入RoI，通过四个卷积层和一个去卷积层，掩码分支预测38个映射（大小为32* 128），包括一个全局文本实例映射，36个字符映射和一个字符背景映射。全局文本实例映射可以给出文本区域的准确定位，而不管文本实例的形状如何。字符映射是36个字符的映射，包括26个字母和10个阿拉伯数字。字符的背景图，其不包括字符区域，也需要用于后处理。3.2标签生成对于具有输入图像I和相应的地面真值的训练样本，我们为RPN，Fast R-CNN和掩码分支生成目标通常，该粗图包括P={pi，p2…p，m}且C={cl=（cc1，cl1），c2=（cc2，cl2），…Cn=（ccn，cln）}，其中pi是一个多边形，它分别表示一个矩形的局部顶点，ccj和clj是矩形的局部顶点和局部顶点. 注意，在我们的方法中，C对于所有训练样本都不是必需的我们首先将多边形转换成水平矩形，以最小的面积覆盖多边形。然后我们生成RPN和Fast R-CNN的目标[8，40，32]。有两种类型的目标映射将被生成的掩码分支与地面真值P，C（可能不存在），以及由RPN产生的建议：一个全球地图的文本实例分割和字符的字符映射的字符语义分割。给定一个肯定的建议r，我们首先使用[8，40，32]的匹配机制来获得最佳匹配的水平矩形。可以进一步获得对应的多边形以及字符（如果有的话接下来，匹配的多边形和字符框被移动和调整大小，以将建议和H×W的目标地图对齐，以下公式：全局词图01一字符映射Z背景地图32*128图3：遮罩分支的图示随后，存在四个卷积层、一个去卷积层和预测38个通道的映射的最终卷积层（1个用于全局文本实例映射; 36个用于字符映射; 1用于字符的背景图）。ROI16*64*25616*64*25616*64*25616 *64*25632*128*256……掩码TextSpotter7……Bx=（Bx0−min（rx））×W/（max（rx）−min（rx））（1）By=（By0−min（ry））×H/（max（ry）−min（ry））（2）其中（Bx，By）和（Bx0，By0）是多边形和所有字符框的更新顶点和原始顶点;（rx，ry）是建议r的顶点。之后，可以通过仅在零初始化的掩模上绘制归一化的多边形并且用值1填充多边形区域来生成目标全局地图。字符映射生成在图中可视化4a. 我们首先通过固定它们的中心点并将边缩短到原始边的四分之一来缩小所有字符边界框。然后，将缩小的字符边界框中的像素的值设置为其对应的类别索引，并且将缩小的字符边界框外部的像素的值设置为0。如果没有字符边界框注释，则所有值均设置为-1。3.3优化如第3.1，我们的模型包括多个任务。我们自然地定义了一个多任务损失函数：L=Lrpn+α1Lrcnn+α2Lmask，（3）其中Lrpn和Lrcnn是RPN和Fast R-CNN的损失函数，与[40]和[8]中的损失函数相同。掩码损失L掩码由全局文本实例分割损失Lglobal和字符分割损失Lchar组成：L_mask=L_global+βL_ char，（4）其中Lglobal是平均二进制交叉熵损失，Lchar是加权空间软最大损失。在这项工作中，α1、α2、β根据经验设置为1。0.背景地图（一）01字符映射一Z（b）第（1）款合并平均值1.000图4：（a）掩码分支的标签生成。左：蓝色框是RPN产生的建议，红色多边形和黄色框是地面实况多边形和字符框，绿色框是以最小面积覆盖多边形的水平矩形。右：全局映射（顶部）和字符映射（底部）。(b)像素投票算法概述。左：预测的字符映射;右：对于每个连接区域，我们通过对相应区域中的概率值进行平均来计算每个字符的分数。L一LYBS…8Pengyuan Lyu，Minghui Liao，Cong Yao，Wenhao Wu，XiangBai文本实例分割丢失文本实例分割任务的输出是单个映射。设N是全局图中的像素数，yn是像素标签（yn∈0，1），并且xn是输出像素，我们如下定义L全局1Lglobal=−NΣNn=1[yn×log（S（xn））+（1−yn）×log（1−S（xn））]（5）其中S（x）是S形函数。字符分割损失字符分割的输出由37个映射组成，其对应于37个类（36个字符类和背景类）。设T是类的数量，N是每个图中的像素的数量输出映射X可以被视为N×T矩阵。以这种方式，加权空间软最大损失可以定义如下：1ΣNTΣ−1eXn，tLchar=−WnNn=1t=0Yn，tlog（ΣT−1k=0eX 氮钾）、（6）其中Y是X的对应的基础真值。权重W用于平衡正片（字符类）和背景类的损失值。令背景像素的数量为N个负，并且背景像素的数量为N个负。如果类索引为0，则权重可以计算为：.Wi=IifYi，0=1，N阴性/（N-N阴性），否则（七）注意，在推断中，应用sigmoid函数和soft-max函数来分别生成全局映射和字符分割映射。3.4推理与掩码分支的输入ROI来自RPN的训练过程不同，在推理阶段，我们使用Fast R-CNN的输出作为建议来生成预测的全局映射和字符映射，因为Fast R-CNN的输出更准确。特别地，推理过程如下：首先，输入测试图像，我们获得Fast R-CNN的输出[40]，并通过NMS过滤掉冗余候选框;然后将保留的建议输入到掩码分支中，生成全局映射和字符映射，最后通过计算全局映射上文本区域的轮廓直接得到预测多边形，字符序列由我们提出的字符映射上的像素投票算法生成。像素投票我们解码的预测字符映射到字符序列，我们提出的像素投票算法。我们首先将背景图二值化，其中值从0到255，阈值为192。然后我们得到掩码TextSpotter9指数指数删除：abcd-> abc成本：1插入：abd -> ab c d费用：1更换：ab c-> ab d费用：1删除：abcd-> abc成本：p'd'4插入：abd -> abc d成本：（p'B''d'2 4p）/2替换：abc-> abdcost：max（1p 33'd''C'/p，0）根据二值化图中的连接区域的所有字符区域。我们计算所有字符映射的每个区域的平均值。这些值可以被视为区域的字符类概率。具有最大平均值的字符类将被分配给该区域。然后，我们根据英语的书写习惯，从左到右对所有的字符进行分组。加权编辑距离编辑距离可用于找到预测序列与给定词典的最佳匹配单词。然而，在最小编辑距离下可能同时产生上述问题的主要原因是原始编辑距离算法中的所有操作（删除、插入、替换）具有相同的成本，这实际上是没有意义的。受[51]的启发，我们提出了一种加权编辑距离算法。如图5，不同于编辑距离，它为不同的操作分配相同的成本，我们建议的加权编辑距离的成本取决于字符。角色概率其由像素投票产生。数学上，The两个字符串a和b之间的加权编辑距离，其长度为|一|和|B|2）A、B、C、D、E（|一|、|B|），而maxDa，b（i，j）=简体中文甲乙丙（i−1，j）+Cd林明 Da，b（i，j−1）+CiDa，b（i−1，j−1）+Cr×1（ai/=bj）否则，请执行以下操作。（八）wh er e 1（ai=/ b，j）是i = b，j的i个或f个等式，否则为1; Da，b（i，j）是a的前i个字符与b的前j个字符之间的距离; Cd、Ci和Cr分别是删除、插入和替换成本。相反，这些成本在标准编辑距离中设置为14实验为了验证所提出的方法的有效性，我们在三个公共数据集上进行了实验并与其他最先进的方法进行了比较：水平文本集ICDAR 2013 [25]、定向文本集ICDAR 2015 [24]和弯曲文本集Total-Text [4]。(a)编辑距离（b）加权编辑距离图5：编辑距离和我们提出的加权编辑距离的图示。红色字符是将要删除、插入和替换的字符绿色字符表示候选字符。pc是一个很有可能bility，index是字符索引，c是当前字符。10Pengyuan Lyu，Minghui Liao，Cong Yao，Wenhao Wu，XiangBai4.1数据集SynthText是由[12]提出的合成数据集，包括约800000个图像。此数据集中的大多数文本实例都是多方向的，并使用单词和字符级别的旋转边界框以及文本序列进行注释。ICDAR 2013是ICDAR 2013Robust Reading Competition [25]挑战2中提出的数据集，其重点是自然图像中的水平文本检测和识别训练集中有229张图像，测试集中有233张图像此外，还为每个单词级和字符级文本实例提供边界框和转录ICDAR2015 在 ICDAR2015 稳健阅读指南的挑战 4 中提出 [24] 。与ICDAR2013相比，ICDAR 2015更关注的是附带场景文本的检测和识别。它包含1000个训练样本和500个测试图像。所有训练图像都用单词级四边形以及相应的转录进行注释请注意，在我们的训练阶段中只使用单词的本地化注释。Total-Text是由[4]提出的综合场景文本数据集。Total-Text除了包含水平文本和定向文本外，还包含大量的弯曲文本。Total-Text包含1255张训练图像和300张测试图像。所有的图像都用多边形和文字标注请注意，我们只在训练阶段使用本地化注释。4.2实现细节与使用两个独立模型[22，30]（检测器和识别器）或交替训练策略[27]的先前文本识别方法不同，我们模型的所有子网都可以同步和端到端地进行训练整个培训过程包括两个阶段：在SynthText上进行预训练，并在真实世界的数据上进行微调。在预训练阶段，我们将minibatch设置为8，并将输入图像的所有较短边缘调整为800像素，同时保持图像的纵横比。 RPN和Fast R-CNN的批量大小分别设置为每图像256和512，1：3阳性与阴性的样本比率。掩码分支的批处理大小为16。在微调阶段，由于缺乏真实样本，数据增强和多尺度训练技术被应用。具体来说，对于数据增强，我们以[−15◦，15◦]的特定角度范围随机旋转输入图片。在[ 33]之后，还使用了一些其他的随机调整，例如随机调整色调、亮度、对比度。对于多尺度训练，输入图像的短边被随机调整大小为三个尺度（ 600 、 800、1000）。此外，在[27]之后，来自[56]的用于字符检测的额外1162个图像也用作训练样本。图像的小批量保持为8，并且在每个小批量中，不同数据集的样本比被设置为4：一比一比一：1分别用于SynthText、ICDAR 2013、ICDAR 2015、Total-Text和额外图像。RPN和Fast R-CNN的批量大小被保留为预训练阶段，而掩码分支的批量大小在微调时被设置为64掩码TextSpotter11我们使用SGD优化我们的模型，权重衰减为0.0001，动量为0.9。在预训练阶段，我们训练我们的模型进行170k次迭代，初始学习率为0.005。然后，在120k次迭代时，学习率衰减到十分之一在微调阶段，初始学习率设置为0.001，然后在40k迭代时降低到0.0001。微调过程在80k迭代处终止。推理在推理阶段，输入图像的尺度取决于不同的数据集。在NMS之后，1000个建议被输入Fast R-CNN。分别通过Fast R-CNN和NMS过滤掉假警报和冗余候选框保留的候选框被输入到掩码分支以生成全局文本实例映射和字符映射。最后，从预测的地图生成文本实例边界框和序列。我们在Caffe2中实现了我们的方法，并使用Nvidia Titan Xp GPU在常规工作站上进行了所有实验该模型在单个GPU上并行训练和评估。4.3水平文本我们在ICDAR2013数据集上评估了我们的模型，以验证其在检测和识别水平文本方面的有效性。我们将所有输入图像的短边调整为1000，并在线评估结果。表1和表3列出了我们模型的结果，并与其他最先进的方法进行了比较。如图所示，我们的方法在检测，单词定位和端到端识别之间取得了最先进的结果。具体而言，对于检测，尽管在单个尺度下进行评估，但我们的方法优于在多尺度设置下评估的一些先前方法[18，16]（F-Measure：91. 7% v.s. 九十3%）;对于单词识别，我们的方法与以前的最佳方法相当;对于端到端识别，尽管[ 30，27]已经取得了惊人的结果，但我们的方法仍然超出他们1。1%-1。百分之九。4.4定向文本通过在ICDAR2015上进行实验，验证了该方法在检测和识别定向文本方面的优越性我们输入了三种不同比例的图像：原始比例（720×1280）和两个更大的比例，由于ICDAR 2015中有很多小文本实例，输入图像的短边为1000和1600我们在线评估我们的方法，并将其与表2和表3中的其他方法进行比较。我们的方法优于以前的方法在检测和识别的大幅度提高。对于检测，当在原始尺度下进行评估时，我们的方法实现了84%的F-Measure，比当前最好的方法[16]高3。0%，其在多个尺度下评估。当在更大规模上进行评估时，可以获得更令人印象深刻的结果（F-测量：86岁。0%），超过竞争对手至少5. 0%的百分比。此外，我们的方法也取得了显着的效果，词发现和端到端的识别。与现有技术相比，我们的方法的性能有显着的提高了13。2%-25。3%，用于所有评估情况。12Pengyuan Lyu，Minghui Liao，Cong Yao，Wenhao Wu，XiangBai卡纳比艾默里奇议会佐丹奴信息研究地铁表1：ICDAR2013的结果。“S ” 、 “ W ” 和 “ G ” 分别表示强、弱和类属词汇的识别。方法词语辨识End-to-EndFPSSWGSWGJaderberg等人 [21]90.5-7686.4---FCRNall+多过滤器[12]--84.7----文本框[30]93.9 92.0 85.9 91.6 89.7 83.9-深度文本识别器[3]9289818986779Li等人[27日]94.2 92.4 88.2 91.1 89.8 84.6 1.1我们92.5 92.0 88.2 92.2 91.1 86.5 4.8表2：ICDAR 2015的结果。“S ” 、 “ W ” 和 “ G ” 分别表示强、弱和类属词汇的识别。方法词语辨识End-to-EndFPSSWGSWG[24]第二十四话14.7 12.6 8.413.8 12.0 8.0-[第38话]37.0 21.0 16.0 35.0 20.0 16.01[24]第二十四话45.9--43.7---TextProposals + DictNet [10，20] 56.0 52.3 49.7 53.3 49.6 47.2 0.2HUST MCLAB [43，44]70.6--67.9---深度文本识别器[3]58.0 53.0 51.0 54.0 51.0 47.0 9.0我们的（720）71.6 63.9 51.6 71.3 62.5 50.0 6.9我们的（1000）77.7 71.3 58.6 77.3 69.9 60.3 4.8我们的（1600）79.3 74.5 64.2 79.3 73.0 62.4 2.6图图6：ICDAR 2013（左）、ICDAR 2015（中）和Total-Text（右）的可视化结果4.5弯曲文本检测和识别任意文本（例如，弯曲文本）是我们的方法超越其他方法的巨大优势。我们在全文本上进行实验掩码TextSpotter13SYF格卢阿克思恩韦肯soidQMT休息新朱尔斯3ry普尔默PRT里多斯特德Lot7百佳咖啡馆奥克河keluar咖啡馆堤防完美淘气护士家咖啡餐厅烤药剂直接百佳咖啡馆表3：ICDAR2013和ICDAR2015的检测结果对于ICDAR 2013，所有方法均根据“DetEval评价方案”进行评价在“Our s（detonly）”和“Our s”中输入的信息的短长度为1000。方法ICDAR2013FPSICDAR2015FPS精度召回 F-measure精度召回 F-measureZhang等人 [55]88.078.083.00.571.043.054.00.5Yao等人 [五十二]88.980.284.31.672.358.764.81.6CTPN [48]93.083.088.07.174.052.061.0-赛格林克[43]87.783.085.320.673.176.875.0-东[57]----83.378.380.7-SSTD [15]89.086.088.07.780.073.077.07.7中文（简体）[18]93.387.590.3279.377.078.22He等人 [16个]92.081.086.01.182.080.081.01.1我们的（仅限DET）94.188.191.04.685.881.283.44.8我们95.088.691.74.691.681.086.04.8图7：不含词典的全文本的定性比较。顶部：TextBoxes的结果[30];底部：我们的结果。以验证我们的方法在检测和识别弯曲文本的鲁棒性类似地，我们输入短边大小调整为1000的测试图像。检测的评价方案由[4]提供。端到端识别的评估协议遵循ICDAR 2015，同时将多边形的表示从四个顶点改变为任意数量的顶点，以处理任意形状的多边形。为了与其他方法进行比较，我们还使用[30]3中的代码使用相同的训练数据训练了模型[30]如图7、该方法在弯曲文本的检测和识别上都有很大的优势。表4中的结果表明，我们的方法超过[30] 8。8个检测点和至少16个。6%的端到端识别。检测的重大改进3https://github.com/MhLiao/TextBoxes14Pengyuan Lyu，Minghui Liao，Cong Yao，Wenhao Wu，XiangBai表4：在Total-TeXt上的R e s u l t s。“Non e”m e an s rec o n i t i n ion with t h ou t a ny l e x i c on. “F u ll”l e x i c on c o n t a n so方法检测End-to-End精度召回 F-measure 没有一充分Ch，ng等人[4]美国40.033.036.0--Liao等人 [30个]62.145.552.536.348.9我们69.055.061.352.9 71.8主要来自用多边形而不是水平矩形包围文本区域的更精确的定位输出此外，我们的方法更适合于处理2-D空间中的序列（如曲线），而[30，27，3]中使用的序列识别网络是针对1-D序列设计的4.6速度与以前的方法相比，我们提出的方法表现出良好的速度-精度权衡。它可以运行在6.9 FPS与输入规模为720× 1280。虽然比最快的方法[3]慢一点，但它在精度上超过[3]此外，我们的速度大约是ICDAR2013上当前最先进的[27]的4.4倍4.7消融实验烧蚀实验，包括5结论在本文中，我们提出了一个文本spotter，它检测和识别场景中的文本在一个统一的网络，可以完全端到端的训练与以前的方法相比，我们提出的网络是非常容易训练，并有能力检测和识别不规则文本（例如。弯曲文本）。所有的数据集，其中包括横向文本，有方向的文本和弯曲的文本上的令人印象深刻的表现，证明了我们的方法的文本检测和端到端的文本识别的有效性和鲁棒性。确认本课题得到了国家重点研发&计划（2003）的资助。2018YFB1 004600、NSFC 61733007和NSFC 61573160，授予Dr.国家拔尖青年人才支持计划和华中科技大学学术前沿青年团队计划。掩码TextSpotter15引用1. Bengio，Y.，Louradour，J.，科洛伯特河Weston，J.：课程学习。在：Proc.ICML.pp. 第四十一2. Bissacco，A.，Cummins，M.，Netzer，Y.，Neven，H.：Photoocr：以不连续的方式阅读文本.In：Proc.ICCV. pp. 7853. Busta，M.，诺伊曼湖Matas，J.：深度文本分析器：一种端到端可训练的场景存储器和框架工作记录。 In：Pr oc. ICCV. pp. 22234. Chng，C.K.，Chan，C.S.：Total-text：用于场景文本检测和检索的综合数据集。 In：Pr oc. ICDAR. pp. 9355. Dai，J.，他，K.，李，Y.，Ren，S.，孙杰：实例敏感的全卷积网络工作。In：Proc.ECCV. pp. 5346. Dai，J.，李，Y.，他，K.，孙杰：R-FCN：经由基于区域的完全卷积网络的对象检测。 In：Pr oc. NIPS. pp. 3797. Epshtein，B.，Ofek，E.，Wexler，Y.：在自然场景中检测具有笔划宽度的文本。In：Proc.CVPR. pp. 29638. G irs hi ck，R. B. ：FastR-CNN。 In：Pr oc. ICCV. pp. 14409. Girshick，R.B.，Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，适用于特定的数据块和语义段。 In：Pr oc. CVPR. pp. 第58010. G'omez，L.， Karatzas，D. ：Textposals：Atext-pecicelectiver chal git h e l the t e l e t h e t e l e t h e t e lethet el e te PatternRecognition70，6011. G r aves，A.， Fernandez，S.， G omez，F. J.S chmid h u ber，J. C〇nnectistemp〇ralclassification：用递归神经网络标记未分段的序列数据。In：Pr oc. ICML. pp. 36912. Gupta，A.，Vedaldi，A.，齐瑟曼，A.：自然语言中文本定位的合成数据。 In：Pr oc. CVPR. pp. 231513. He，K.， G.，G.，做吧，P Girshi ck，R. B. ：MaskR-CNN。 In：Pr oc.ICCV. pp. 298014. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。In：Proc. CVPR. pp. 77015. 他，P.，黄伟，他T朱庆国，Qiao，Y.，李X：单镜头文本检测器与regionalatentio n.In：Proc.ICCV. pp. 306616. 他W张，X.，Yin，F.，Liu，C.：面向多场景的深度直接回归。In：Proc.ICCV. pp. 74517. Hochreiter，S.，Schmidhuber，J.：长短期记忆。神经计算9（8），173518. Hu，H.，张，C.，Luo，Y.，（1996年），美国，王玉，汉，J.，Ding，E.：Wordsup：Exploitingwordannotationsforcharacterbasedtextetection.在：Pr oc. ICCV. pp. 495019. 黄伟，Qiao，Y.，唐X：鲁棒的场景文本检测与卷积神经网络的工作流inducedMSERtrees。 In：Pr oc. ECCV. pp. 49720. Jaderberg，M.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：用于自然场景文本识别的合成数据和人工神经网络。CoRR abs/1406.2227（2014）21. Jaderberg，M.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：中读取文本卷积神经网络的疯狂。International Journal of Computer Vision116（1），116Pengyuan Lyu，Minghui Liao，Cong Yao，Wenhao Wu，XiangBai22. Jaderberg，M.，Vedaldi，A.，齐瑟曼，A.：文本定位的深层功能。在：Proc. ECCV. pp. 第51223. 康湖，加-地李，Y.，Doermann，D.S.：自然图像中的方向鲁棒文本行检测。 In：Pr oc. CVPR. pp. 403424. Karatzas，D.戈麦斯-比戈达湖Nicolaou，A.，戈什，S.K.，Bagdanov，A.D.，Iwamura，M. Matas，J.，诺

下载后可阅读完整内容，剩余1页未读，立即下载