没有合适的资源?快使用搜索试试~ 我知道了~
LOMO: 一种精确的任意形状文本检测器
1不止看一次:一种精确的任意形状文本检测器张成全1张伯荣梁2黄祖明1张孟义恩1韩俊宇1丁二瑞1丁星浩2 <$百度公司计算机视觉技术部(VIS)1厦门大学福建省智慧城市感知与计算重点实验室{zhangchengquan,huangzuming,enmengyi,hanjunyu,dingerrui}@baidu.comliangborong@stu.xmu.edu.cndxh@xmu.edu.cn摘要在过去的几年里,以前的场景文本检测方法已经取得了很大的进展。然而,受CNN的感受野和用于描述文本的矩形边界框或四边形等简单表示的限制,以前的方法在处理更具挑战性的文本实例时可能会有所不足,例如超长文本和任意形状的文本。为了解决这两个 问 题 , 我 们 提 出 了 一 种 新 的 文 本 检 测 器 , 即LOMO,它逐步本地化的文本多次(或换句话说,LOOK 不 止 一 次 ) 。 LOMO 由 一 个 直 接 回 归 器(DR),一个迭代细化模块(RESIDENCE)和一个形状表达模块(SEM)。首先,由DR分支生成四边形形式的文本建议。接下来,通过基于初步建议的提取的特征块的迭代细化,ESTA逐步感知整个长文本。最后,引入扫描电子显微镜,通过考虑文本实例的几何特性,包括:(一)(b)第(1)款图1.文本检测的两个挑战:(a)CNN的感受野大小的限制;(b)文本实例的不同表示的比较。随着CNN的复兴,一般的对象检测算法已经取得了良好的然而,场景文本的特定属性,如颜色、比例、方向、长宽比和形状的显著变化大多数现有的文本检测方法[14,15,24,42,8]在文本实例具有规则形状和纵横比的受控环境中实现了良好的性能,例如,的设置文本区域、文本中心线和边框偏移。 的在ICDAR 2017-RCTW、SCUT-CTW 1500、Total-Text、ICDAR 2015和ICDAR 17-MLT等多个公共基准上的最新结果证实了LOMO的显著稳健性和有效性。1. 介绍场景文本检测因其在场景理解、产品搜索、自动驾驶等领域的广泛应用而受到学术界和工业界的广泛关注。文本区域的定位是任何文本阅读系统的前提,其质量的好坏将极大地影响文本识别的性能最近*同等缴款。梁博荣在百度公司实习时做了这项工作†通讯作者。ICDAR 2015 [12]。然而,由于CNN的感受野大小和文本表示形式有限,这些方法无法检测更复杂的场景文本 , 特 别 是 ICDAR 2017-RCTW [31] , SCUT-CTW1500 [39],Total-Text [2]和ICDAR 2017-MLT [26]等数据集中的超长文本和任意形状的文本。当检测极长的文本时,以前的文本检测方法,如EAST [42]和深度回归[8],无法提供完整的边界框建议,如图中所示1(a),因为整个文本实例的大小远远超出文本检测器的感受野大小CNN无法编码足够的信息来捕获长距离依赖性。在图1(a)中,网格中的区域主要代表具有相应颜色的中心点的感受野图中的蓝色四边形。1(a)表示主流一次性文本检测器的预测框[42,8]。主流方法迫使检测器仅用一次感知就定位不同长度的文本,1055210553这与人类视觉系统中通常需要LOMO(LOok Morethan Once)相反。如[11]中所述,对于长文本实例,人 类 只 能 在 第 一 眼 看 到 一 部 分 , 然 后 LOMO(LOMO),直到他们看到整行文本。此外,大多数现有方法采用相对简单的表示(例如,轴对齐的矩形,旋转的矩形或四边形)的文本实例,这可能会下降时,处理弯曲或波浪形的文本,如图所示。第1段(b)分段。简单的表示会覆盖大量的非文本区域,这对于整个OCR引擎后续的文本识别是不利的。一个更灵活的表示如右图所示的图。1(b)对于不规则文本可以显著提高文本检测的质量。为了解决上述两个问题,我们引入了两个模块,即迭代细化模块(refinement module,缩写为ERF)和形状 表 达 模 块 ( shape expression module , 缩 写 为SEM),基于一种改进的一次性文本检测器,即直接回归器(direct regressor,缩写为DR),采用直接回归的方式[8]。集成了XML和SEM后,可以以端到端的方式训练对于长文本实例,DR首先生成文本建议,然后通过一次或多次回归坐标偏移来精确地细化四边形建议以接近地面实况。如图中所示。图1(a)中,黄色点和粉色点的感受野分别覆盖文本实例的左右角点。依靠位置注意力机制,P2P可以意识到这些位置,并将输入的建议细化到更接近整个注释的位置,如图3的右图所示。第1(a)段。的细节是彻底的解释,在第二节。三点三对于不规则文本,具有四个角坐标的表示难以给出几何属性的精确估计,并且可能包括大的背景区域。受Mask R-CNN [5]和TextSnake [21]的启发,SEM回归了文本实例的几何属性,即,文本区域、文本中心线和相应的边框偏移。使用这些属性,SEM可以重建一个更精确的多边形表达,如右图所示。第1段(b)分段。SEM描述见第3.4可以有效地适合任意形状的文本,即,水平、多向、弯曲、波浪形等。本工作的贡献总结如下:(1)提出了一种迭代细化模块,提高了长场景文本检测的性能;(2)引入实例级形状表示模块,解决了任意形状场景文本的检测问题;(3)具有迭代细化和形状表达模块的LOMO可以以端到端的方式进行训练,并且在包括不同形式(定向的、长的、多语言的和弯曲的)的文本实例的若干基准上实现最先进的性能。2. 相关工作随着深度学习的普及,大部分的最近场景文本检测器都是基于深度神经网络的。根据它们在自然场景图像中处理的文本的基本元素,这些检测器可以大致分为三类:基于组件的方法、基于检测的方法和基于分割的方法。基于语义的方法[38,34,29,30,10,33,19]首先检测单个文本部分或字符,然后通过一组后处理步骤将它们分组为单词。CTPN [34]采用了Faster R-CNN的框架[29]以生成密集和紧凑的文本组件。在[30]中,场景文本被分解为两个可检测的元素,即文本片段和链接,其中链接可以指示两个相邻片段是否属于同一个词并且应该连接在一起。WordSup [10]和We- text [33]提出了两种不同的字符检测器弱监督学习方法,大大缓解了字符级注释不足的训练难度。Liu等人[19]将文本图像转换为随机流图,然后对其执行马尔可夫聚类以预测实例级边界框。然而,由于分阶段字/线生成的限制,基于检测的方法[14,15,24,42,8]通常在单词或行级注释的监督下采用一些流行的对象检测框架和模型。 [14]和RRD [15]调整了一个SSD的chor ratios [17]来处理文本的不同纵横比。RRPN[24]提出了旋转区域建议,以覆盖多方向场景文本。然而,EAST [42]和Deep Regression [8]直接以每像素的方式检测单词的四边形,而不使用锚点和建议。由于它们的端到端设计,这些方法可以最大化单词级注释,并轻松实现标准基准测试的高性能。由于文本纵横比的巨大变化(特别是对于非拉丁文本),以及CNN的有限接受领域,这些方法不能有效地处理长文本。基于分割的方法[40,35,21,13]主要从语义分割方法中汲取灵感,并将文本边界框内的所有像素视为正区域。这些方法的最大好处是能够-提取任意形状的文本。Zhang等人[40]首先使用FCN[20]提取文本块,然后使用MSER的统计信息搜索文本行[27]。为了更好地分离相邻的文本实例,[35]将每个像素分为三类:非文本、文本边框和文本。TextSnake[21]和PSENet [13]进一步提供了一种新颖的热图,即文本中心线图,以分离不同的文本实例。这些方法都是基于无命题的实例分割,其性能受到分割结果的鲁棒性的强烈影响。10554(1) 输入图像(2)DR输出(3)DR输出(4)SEM输出(2)直接回归ResNet5 0 +FPN(4)形状表达式模块(3)迭代细化模块(1) 图像输出图2.建议的架构。我们的方法集成了基于检测和基于分割的方法的优点我们提出了LOMO,它主要由一个迭代细化模块(REFINING)和一个形状表达模块(SEM)。该方法可以插入到任何单次文本检测器中,以解决长文本检测的困难受Mask R-CNN [5]的启发SEM是一种基于区域的方法,比上述基于区域的方法更有效和3. 方法在本节中,我们将详细描述LOMO的框架。首先,我们简要介绍了我们的方法的管道,给出了一个有形的概念看不止一次。接下来,我们详细阐述了LOMO的所有核心模块,包括直接回归器(DR),迭代精化模块(ESTA)和形状表达模块(SEM)。最后,给出了训练和推理的细节3.1. 概述我们的方法的网络架构如图所示二、该体系结构可以分为四个部分。首先,我们通过将输入图像馈送到骨干网络来提取包括DR,ESTA和SEM在内的三个分支的共享特征图。我们的骨干网络是ResNet 50 [6]和FPN [16],其中ResNet 50中的stage-2,stage- 3,stage-4和stage-5的特征图被有效地合并。因此,共享特征图的大小为输入图像的1/4,通道号为128。然后,我们采用类似于EAST [42]和Deep Regression [8]的直接回归网络作为我们的直接回归器(DR)分支,以通常,DR分支无法检测到图中蓝色四边形所示的超长文本。2(2),由于感受野的限制。为此,引入了下一个分支-莱姆DR可以迭代地从DR或其自身的输出中细化输入建议在SEC中描述的。3.3可以根据不同场景的需要进行一次或多次细化操作 在Google的帮助下,初步的文本建议被细化,以更完整地覆盖文本实例,如图11所示的绿色四边形。2(3).最后,为了获得紧密的文本表示,特别是对于四边形容易覆盖大量背景区域的不规则文本,SEM通过学习文本实例的几何属性,包括文本区域、文本中心线和边界偏移量(中心线与上/下边界线的距离),重建文本实例的形状表达。SEM的详细信息见第3.4,和图中所示的红色多边形2(4)是直观的视觉结果。3.2. 直接回归受[42]的启发,采用完全卷积子网络作为文本直接回归器。基于共享的特征图,计算文本/非文本的密集预测通道以指示是文本的像素级置信度。与[42]类似,原始文本区域的收缩版本中的像素被认为是正的。对于每个正样本,8个通道将其偏移值预测到包含该像素的四边形的4个角。DR分支的损失函数由两项组成:文本/非文本分类项和位置回归项。我们将文本/非文本分类术语视为1/4下采样得分图上的二元分割任务我们没有直接使用骰子系数损失[25],而是提出了一个尺度不变的版本,用于改进DR在接收域大小下检测文本实例的尺度尺度不变的骰子系数函数被定义为:2个月(年·月·月)Lcls=1−sum(y·w)+sum(y·w),(1)10555C一KCk图像区域Top–LeftBottom–LeftBottom–Right其中fi表示形状为1×1×1×128的第i个角点回归特征,mi是第i个学习的角点注意力图。最后,应用4个报头(每个报头由两个1×1卷积层组成)来预测偏移共享特征图文本四边形ROI变换注意力地图组减少基于角点回归特征fc,在输入四边形和地面实况文本框之间的4个角点的位置。在训练阶段,我们保留来自DR的K个初步检测到的1x8x64x128点积4x{1x 1x 1x 128} 4x 2偏移怨恨:图3.的可视化。Lirm=1 克朗8光滑L.j ˆjΣc−c、 (四)其中y是0/1标记图,y是预测得分图,sum是二维空间上的累积函数另外wK-8k=1j =11k k由方程式1是2D权重贴图。正位置的值通过归一化常数l除以它们所属的四边形的短边来计算,而负位置的值被设置为1。0的情况。我们在实验中把l设为64此外,我们采用平滑L1损失[29]来优化位置回归项Lloc。将这两项结合在一起,DR的总损失函数可以写成:其中Cj表示第k对检测到的四边形和地面实况四边形之间的第j个坐标偏移,吉尔杰和是对应的预测值。如图所示图3,四个角点注意力图上的强响应表示对相应角点回归的高支持。顺便说一句,在测试过程中,如果可以连续带来好处,那么可以进行一次或多次细化Ldr=λLcls+Lloc,(2)其中超参数λ平衡两个损失项,其被设置为0。01在我们的实验中3.3. 迭代细化模块RISK的设计继承自基于区域的对象检测器[29],仅具有边界框回归任务。然而,我们使用RoI变换层[32]来提取输入文本四边形的特征块,而不是RoI池化[29]层或RoI对齐[5]层。与后两种方法相比,前一种方法可以在保持长宽比不变的情况下提取四边形方案的特征块。此外,正如SEC所分析的那样。1,在同一感受野内,靠近角点的位置能感知到更准确的边界信息。因此,引入角点注意机制来回归每个角点的坐标偏移。详细结构示于图1中。3.第三章。对于一个文本四边形,我们将其与共享特征映射一起馈送到RoI变换层,然后将1×8×64×128的特征块得到了 然后,三个3×3卷积层被随后进一步提取丰富的上下文,即FR。接下来,我们使用1×1卷积层和sigmoid层来自动学习4个名为ma的角点注意力图。每个角点注意力图上的值表示贡献权重以支持对应角的偏移回归利用fr和ma,通过组点产生和求和运算,可以提取4个fi= reduce sum(fr·mi,axis =[1,2])|i = 1,…第四条 (3)款3.4. 形状表达模块四边形的文本表达不能精确地描述不规则形状的文本实例,特别是如图所示的弯曲或波浪形状。第1段(b)分段。 启发通过Mask R-CNN [5],我们提出了一个基于建议的形状表达模块(SEM)来解决这个问题。 SEM是一个完全卷积的网络,后面是RoI转换层。SEM中回归了文本区域、文本中心线和边界偏移量(文本中心线与上下边界线之间的偏移量)三种文本几何属性,以重构文本实例的精确形状表达。文本区域是二进制掩码,其中前景像素(即,多边形内的那些像素(符号)被标记为1,而背景像素被标记为0。文本中心线也是基于文本多边形注释的侧面收缩版本的二进制掩码。边界偏移是4通道图,其在文本行图的相应位置上的正响应区域内具有有效值。如图中的中心线样本(红点)所示。4(a),我们画一条垂直于其切线的法线,这条法线与上下边界线相交得到两个边界点(即,粉红色和橙色)。对于每个红点,通过计算从其自身到其两个相关边界点的距离来获得SEM的结构如图所示。4、两个卷积级(每个卷积级由一个上采样层和两个3×3卷积层组成),然后是由RoI变换层提取的特征块,然后我们使用一个具有6个输出通道的1 × 1卷积层,回归所有文本属性映射。的目标函数C a105561x8x64x1281x32x256x128:上采样边界偏移(一)文本多边形生成共享特征图文本四边形文本区域文本中心线多边形评分边界点生成文本中心线采样SEM定义如下:1ΣK图4. SEM的可视化在三个模块中关闭,并且都设置为1。0.训练分为两个阶段:热身和Lsem=K(λ1Ltr+λ2Ltcl+λ3Lborder),(5)微调在预热步骤中,我们仅使用合成数据集[4]训练DR分支10个epoch。这样一来其中,K表示从Ltr 和 Ltcl 分 别 是 文 本 区 域 和 文 本 中 心 线 的 dic-coefficient loss,Lborder通过平滑L1loss计算[29]。权重λ1、λ2和λ3被设置为0。010 01和1。0在我们的实验中文本多边形生成:我们提出一个灵活的案文多边形生成策略,以重建文本实例ex-任意形状的压力,如图所示。4.第一章该策略包括三个步骤:文本中心线采样、边界点生成和多边形评分。首先,在中心线采样过程中,我们在预测文本中心线图上从左到右以等间距采样n个点根据SCUT-CTW 1500 [39]中的标签定义,我们在弯曲文本检测实验4.5中将n设置为7,并且在考虑到数据集复杂性的四边形标记的此类基准[12,26,31]中处理文本检测时将n设置为2然后,我们可以确定相应的边界点的基础上采样的中心线点,考虑在同一位置的4个如示于图4(边界点生成),获得7个上边界点(粉红色)和7个下边界点(橙色)。通过顺时针连接所有的边界点,我们可以获得一个完整的文本多边形表示。最后,我们计算多边形内的文本区域响应的平均值作为新的置信度分数。3.5. 训练和推理我们使用以下损失函数以端到端的方式训练所提出的网络:L=γ1Ldr+γ2Lirm+γ3Lsem,(6)其中,Ldr、Lirm和Lsem分别表示DR、SEM和SEM的损失。 权重γ1、γ2和γ3交换DR可以生成高召回率的建议,以覆盖真实数据中的大多数在微调步骤中,我们在真实数据集上微调了所有三 个 分 支 , 包 括 ICDAR 2015 [12] , ICDAR 2017-RCTW [31],SCUT-CTW 1500 [39],Total-文本[2]和ICDAR 2017-MLT [26]关于另外10个时期。SEM和SEM分支都使用DR分支生成的相同非最大支持压力(NMS)用于保持前K个建议。由于DR在开始时表现不佳,这将影响到搜索引擎分支和SEM分支的收敛,因此在实践中,我们用随机干扰的GT文本四边形替换了50%的前K个提案注意,在训练过程中,SVM只执行一次细化在推理阶段,DR首先生成分数图和四边形几何图,NMS随后生成初步建议。接下来,建议和共享的特征图都被输入到XML中进行多次细化。细化的四边形和共享特征图被馈送到SEM中以生成精确的文本多边形和置信度分数。最后,阈值s用于去除低置信度多边形。我们在实验中将s设为0.1。4. 实验为了将LOMO与现有的最先进的方法进行比较,我们在五个公共场景文本检测数据集上进行了彻底的实验 ICDAR 2015 、 ICDAR 2017- MLT 、 ICDAR 2017-RCTW、SCUT-CTW1500和Total-短信了评价方案分别基于[12,26,31,39,2]。4.1. 数据集本文中用于实验的数据集简要介绍如下:RoI变换10557ICDAR 2015。ICDAR 2015数据集[12]是为ICDAR2015 Robust Reading Competition收集的,其中1000张自然图像用于训练,500张用于测试。这些图像是使用谷歌眼镜获取的,文本意外地出现在场景中使用单词级四边形注释地面真值ICDAR 2017-MLT。ICDAR 2017-MLT [26]是一个大规模多语种文本数据集,包括7200幅训练图像、1800幅验证图像和9000幅测试图像。该数据集由来自9种语言的场景文本图像组成ICDAR 2017-MLT中的文本区域也由四边形的4ICDAR 2017-RCTW。的ICDAR2017-RCTW [31]包括8034幅训练图像和4229幅测试图像,场景文本以中文或英文打印那个...年龄是从不同的来源,包括街景,海报,屏幕截图等捕捉。多方向的单词和文本行使用四边形进行注释。SCUT-CTW1500。 [39 ]第39话,你是我的女人!用于弯曲文本检测的数据集它由1000张训练图像和500张测试图像组成不同于传统的数据集(例如,ICDAR2015、ICDAR 2017-MLT),SCUT-CTW 1500中的文本实例由具有14个顶点的多边形标记全文本Total-Text [2]是另一个弯曲文本基准,由1255个训练图像和300个测试图像组成与SCUT-CTW1500不同,在单词级别标记站。4.2. 实现细节培训过程分为两个步骤,如第三点五在预热步骤中,我们应用adam优化器以10−4的学习率训练我们的模型,学习率衰减因子为0.94。在微调步骤中,学习速率重新初始化为10- 4。对于所有数据集,我们随机裁剪文本区域并将其大小调整为512×512。裁剪的图像区域将在4个方向上随机旋转,包括0°、90°、180°和270°。所有实验均在标准工作站上进行,以下配置,CPU:Intel(R)Xeon(R)CPU E5- 2620v2@2.10 GHz x16; GPU:Tesla K40m;内存:160GB.在训练期间,我们将4个GPU上的批处理大小设置为8,并将DR分支生成的检测到的建议的数量K设置为每GPU24在推理阶段,批处理大小在1个GPU上设置为1全职成本在保持原始宽高比的情况下,预测将较长尺寸调整为512的图像的最大值为224毫秒。4.3. 消融研究我们进行了几个烧蚀实验来分析LOMO。结果见表。1,Tab. 2,图6和Tab. 3 .第三章。细节讨论如下。关于的讨论:对《新世纪》的评价表1.消融的精细化时间(RT)的方法RT召回精度HmeanFPS博士049.0973.8058.964.5公司简介151.2579.4262.303.8公司简介251.4280.0762.623.4公司简介351.4880.2962.733.0表2.Corner Attention Map(CAM)的消融该研究基于DR+DR,RT设置为2。议定书IoU@0. 5IoU@0. 7方法RPHRPHW.O. 凸轮 51.09 79.85 62.31 42.34 66.17 51.64与凸轮51.42 80.07 62.62 43.64 67.95 53.14ICDAR 2017-RCTW [31]见表1。1.一、我们使用Resnet50-FPN作为主干,并将文本图像的长边固定为1024,同时保持纵横比。可以在Tab中看到。1时,连续增益为3。34%,3. 66%,3。RT分别设置为1、2和3时,Hmean为77%,与无DR的DR分支相比。这显示了改进的长文本检测的巨大有效性。通过这种方式,可以用更多的细化时间为了保持快速的推理时间,我们在剩下的实验中将RT设置为2角落注意地图:LOMO利用角atten- tion地图在地图上。为了进行公平比较,我们基于DR+ RCTW生成了一个没有角落注意力图的模型,并在ICDAR 2017-RCTW上评估了其性能[31]。结果见表1。二、我们可以看到,DR+无角注意力地图导致损失0。3%和1.IoU@0协议中的Hmean为5%。5和IoU@0。7、分别。这表明,角注意力地图增强的角特征有助于检测长文本实例。SEM的优点:我们评估了SEM在SCUT-CTW 1500[ 39 ]上的受益,见表1。3 .第三章。方法(a)和(b)是基于无分支的DR分支我们将文本图像的长边调整为512,并保持长宽比不变.如表中所示。3、SEM显著提高了Hmean值7. 百分之十七我们还用(c)和(d)方法进行了基于DR的SEM实验。选项卡. 3表明SEM大幅提高了Hmean(6. 34%)。扫描电镜在很大程度上解决了弯曲文本检测的长期挑战中心线上的采样点数量:LOMO执行文本多边形生成步骤以输出最终检测结果,该检测结果由中心线上的样本点数目n决定。我们在SCUT-CTW 1500上评估了具有几个不同n的LOMO的性能[39]。如示于图6时,LOMO的Hmean从62%显著增加到78%,然后当n从2到6选择时收敛。十六岁在剩下的实验中,我们将n设为710558(f)第(1)款(g)(h)(一)(j)图5.检测结果的可视化(a)(b)来自ICDAR 2017-RCTW,(c)(d)来自SCUT-CTW 1500,(e)(f)来自Total-Text,(g)(h)来自ICDAR 2015,(i)(j)来自ICDAR 2017-MLT。黄色多边形是地面实况注释。蓝色和绿色的定位四边形分别表示DR和DR的检测结果。红色的轮廓是SEM的检测结果。80787674727068666462602345678 9 10111213141516182022中心线图中的样本点数n图6.中心线上样本点数量的消融表3. SEM消融研究方法IRM SEM召回精度Hmean FPS(一)63.1080.0770.5811.9(b)第(1)款C69.2088.7277.756.4(c)第(1)款C64.2482.1372.096.3(d)其他事项CC69.6289.7978.434.44.4. 长文本基准评测我们评估了LOMO在ICDAR 2017-RCTW上检测长文本案例在训练过程中,我们在微调步骤中使用该数据集的所有训练图像。对于单尺度测试,如果输入图像的长边大于1024,我们将图像的长边调整为1024并保持纵横比。对于多尺度测试,调整大小的图像的较长侧尺度包括512、768、1024、1536和2048。定量结果见表1。4.第一章LOMO达到62。3%,超过最佳单尺度方法RRD 6。百分之六。 由于多尺度测试,LOMOMS进一步将Hmean提高到68。4%,在这个基准上是最先进的LOMO的部分检测结果见图5(a)和(b)。LOMO在检测超长文本方面取得了令人满意的结果。在图5(a)和(b)中,我们比较了DR和DR的检测结果DR显示出有限的检测长文本的能力,而定位四边形(一)(b)第(1)款(c)第(1)款(d)其他事项(e)Hmean10559表4.ICDAR 2017- RCTW不同方法的定量结果MS表示多尺度测试。方法召回精度Hmean官方基线[31]40.476.052.8东[42]47.859.753.1RRD [15]45.372.455.7RRD MS [15]59.177.567.0边境MS [36]58.878.267.1LOMO50.880.462.3LOMO MS60.279.168.4可以感知更完整的文本区域。4.5. 曲线文本基准评测我们在SCUT-CTW 1500和Total-Text(包含许多任意形状的文本实例)上评估LOMO的性能,以验证LOMO检测任意形状文本的能力。在训练过程中,我们在大约10个时期停止微调步骤,只使用训练图像。为了测试,中心线上的样本点数量设置为7,因此我们可以生成14个顶点的文本多边形。所有定量结果均显 示 在 表 1 中 。 五 、 在 SEM 的 帮 助 下 , LOMO 在SCUT-CTW 1500和Total-Text上都取得了最先进的结果 , 并 且 优 于 现 有 的 方 法 ( 例 如 ,[21 ][22][23][24][25]][26][27][28]][29][29]][29]][29] 此外,多尺度测试可以进一步将Hmean提高2. 4%和1.SCUT-CTW 1500和Total-Text上分别为7%。弯曲文本检测的可视化如图所示。5(c)(d)(e)(f)。LOMO在检测任意弯曲的文本实例时表现出很强的鲁棒性。值得注意的是,SEM生成的多边形可以更精确地覆盖弯曲的文本实例,相比于DR和DRE的四边形。4.6. 面向文本基准测试的评价我们将LOMO与ICDAR 2015数据集(一个标准的面向文本的数据集)上的最新结果进行了比较。我们10560表5.不同方法在SCUT-CTW 1500和Total-Text上的定量结果。 请注意,EAST在这两个数据集中没有进行微调,其结果仅供参考。数据集SCUT-CTW1500全文方法RPHRPHDeconvNet [2]---40.0 33.0 36.0CTPN [34]53.8 60.456.9---东[42]49.1 78.760.436.2 50.0 42.0[22]第二十二话---55.0 69.0 61.3CTD [39]65.2 74.369.5---[39]第三十九话69.8 74.373.4---斯洛伐克人民共和国[43]70.1 80.174.8---[21]第二十一话85.3 67.975.674.5 82.7 78.4LOMO69.6 89.278.475.7 88.6 81.6LOMO MS76.5 85.780.879.3 87.6 83.3表6.ICDAR 2015不同方法的定量结果方法召回精度HmeanSegLink [30]76.574.775.6[19]第十九话80.072.076.0SSTD [7]73.980.276.9[第10话]77.079.378.2东[42]78.383.380.7He等人[八]《中国日报》80.082.081.0[21]第二十一话80.484.982.6PixelLink [3]82.085.583.7RRD [15]80.088.083.8Lyu等人[23日]79.789.584.3IncepText [37]84.389.486.8[22]第二十二话81.091.686.0端到端TextSpotter [1]86.087.087.0[32]第三十二话85.489.487.4[18]第十八话87.991.989.8LOMO83.591.387.2LOMO MS87.687.887.7将长边的刻度设置为1536,用于单刻度测试。多尺度测试中的长边设置为1024、1536和2048。所有结果都列在选项卡中。6,LOMO优于之前在没有识别任务帮助下训练的文本检测方法,而与端到端方法相当[22,1,32,18]。对于单尺度测试,LOMO达到87。2%H均值,超过了所有仅使用检测训练数据的竞争对手。此外,多尺度测试增加约0。5%H平均值。一些检测结果如图所示。5(g)(h)。可以看出,只有当检测长文本时,才能显著提高系统性能。值得注意的是,如果未来LOMO配备识别分支,检测性能将进一步提高4.7. 多语种文本基准评测为了验证LOMO在多语种场景文本检测中的泛化能力,我们对LOMO进行了评估。表7.ICDAR 2017- MLT上不同方法的定量结果方法召回精度HmeanE2E-MLT [28]53.864.658.7He等人[9]第一章57.976.766.0Lyu等人[23日]56.683.866.8FOTS [18]57.581.067.3边境[36]62.177.769.0AF-RPN [41]66.075.070.0[18]第十八话62.381.970.8Lyu等人MS [23]70.674.372.4LOMO60.678.868.5LOMO MS67.280.273.1ICDAR 2017-MLT。该检测器基于SynthText预训练模型进行了10次微调。在推理阶段,单尺度测试的长边为1536,多尺度测试的长边为512、768、1536和2048。如表7所示,与大多数现有方法[9,23,36,41]相比 ,LOMO 在 单 尺度 测 试 中 具有 领 先 的 性 能, 但Border [36]和AFN-RPN [41]除外,这两种方法未指明使用哪种测试尺度。此外,LOMO实现了最先进的性能(73. 1%)。特别地,所提出的方法优于现有的端到端方法(即,[ 28 ]第28话:不好意思,我不知道。百分之三。多语言文本检测的可视化如图所示。如图5(i)(j)所示,与DR相比,DR的定位四边形可以显著改善检测。5. 结论和未来工作本文提出了一种新的文本检测方法(LOMO)来解决超长文本和弯曲文本的检测问题。LOMO由DR、EQUIPMENT和SEM三个模块组成。DR将文本的初步建议本地化。ESPRIT迭代地改进这些建议,以解决检测长文本的问题SEM提出了一种灵活的形状表示方法,用于描述具有任意形状的场景文本的几何特性。LOMO的整体架构可以以端到端的方式进行训练我们的方法的鲁棒性和有效性已经在几个公共基准测试中得到了证明,包括长,弯曲或波浪形,定向和多语言文本案例。在未来,我们有兴趣开发一个端到端的文本阅读系统的任意形状的文本。致 谢 本 工 作 得 到 了 国 家 自 然 科 学 基 金 61571382 ,81671766,61571005,81671674,61671309和U1605252,部分由中央大学基础研究基金资助20720160075和20720180059。10561引用[1] M.布斯科莱塔湖Neumann和J.马塔斯深度文本分析器:一个端到端可训练的场景文本定位和识别框架。见ICCV,第2223-2231页。IEEE,2017年。8[2] C. K. Chng和C. S.陈Total-text:用于场景文本检测和识别的综合数据集。载于《国际荒漠化公约》,第1卷,第935-942页。IEEE,2017年。一、五、六、八[3] D. Deng, H. Liu,X. Li和D.菜 Pixellink:通过实例分割检测场景文本。arXiv预印本arXiv:1801.01315,2018。8[4] A.古普塔A。Vedaldi和A.齐瑟曼。用于自然图像中的文本定位的合成数据。在CVPR中,第2315- 2324页,2016年。5[5] K. 他,G. Gkioxari,P. Doll a'r 和R. 娘娘腔。 面具r-cnn。ICCV,第2980-2988页。IEEE,2017年。二、三、四[6] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。3[7] P. He,W. Huang,T.他,Q。Zhu,Y.乔和X.李具有区域注意力的单次文本检测器InICCV,volume 6,2017.8[8] W.他,X。- Y. Zhang,F. Yin和C.- L.刘某用于多方向场景文本检测的深度直接回归。arXiv预印本arXiv:1703.08289,2017。一二三八[9] W.他,X。- Y. Zhang,F. Yin和C.- L.刘某直接回归多方向多语言场景文本检测IEEE Transactions on ImageProcessing,27(11):54068[10] H. Hu,C. Zhang, Y. Luo,Y. Wang,J. Han,and E.丁Wordsup:利用单词注释进行基于字符的文本检测。InICCV,2017. 二、八[11] W. Huang,黄氏拟谷盗D.他,X。杨,Z. Zhou,等,中国藓类D. Kifer和C. L.贾尔斯用视觉注意力模型检测任意方向的文本。在ACM MM中,第551-555页。ACM,2016。2[12] D. 卡拉察斯湖 Gomez-Bigorda,A. Nicolaou,S. 高希A. Bagdanov,M. Iwamura,J. Matas,L.诺伊曼,V.R.Chandrasekhar,S. Lu,et al. Icdar 2015 competition onro-bust reading.见ICDAR,第1156-1160页。IEEE,2015年。一、五、六[13] X. Li,W. Wang,W.侯河Z. Liu,T. Lu和J. Yang。基于渐进尺度扩展网络的形状鲁棒文本检测arXiv预印本arXiv:1806.02559,2018。2[14] M. 廖 湾 , 澳 - 地 Shi , X.Bai , X.Wang 和 W. 刘 某Textboxes:一个具有单个深度神经网络的快速文本检测器在AAAI,第4161-4167页一、二[15] M.廖,Z. Zhu,B.施,G.- S. Xia和X.柏面向场景文本检测的旋转敏感回归。在CVPR中,第5909-5918页,2018年。一、二、七、八[16] T.- Y. Lin,P.多尔河B. 格希克角他,B.Hariharan和S. J· 贝 隆 吉 用 于 目 标 检 测 的 特 征 金 字 塔 网 络 。 在CVPR,第1卷,第4页,2017年。3[17] W. Liu,L.安格洛夫,D。埃尔汉角塞格迪,S。E.里德角,澳-地Y. Fu和A. C.伯格。 Ssd:单发多盒探测器。在ECCV,2016年。2[18] X. Liu,L.Liang,S.Yan,杨氏D.Chen,Y.Qiao和J.燕.Fots:通过统一的网络快速定位文本。在CVPR中,第5676-5685页810562[19] Z. Liu,G. Lin,S.杨建峰,王伟。Lin和W. L.天啊学习马尔可夫聚类网络用于场景文本检测。arXiv预印本arXiv:1805.08365,20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功