没有合适的资源?快使用搜索试试~ 我知道了~
自适应数量边界点预测及性能评估
Arbitrary Shape Scene Text Detection with Adaptive Text Region RepresentationXiaobing Wang1, Yingying Jiang1, Zhenbo Luo1, Cheng-Lin Liu2, 3, Hyunsoo Choi4, Sungjin Kim41Samsung Research China - Beijing, Beijing 100028, China2National Laboratory of Pattern RecognitionInstitute of Automation of Chinese Academy of Sciences, Beijing 100190, China3University of Chinese Academy of Sciences, Beijing 100049, China4Samsung Research, Seoul 06765, Korea{x0106.wang, yy.jiang, zb.luo, hsu.choi, sj9373.kim}@samsung.com, liucl@nlpr.ia.ac.cnAbstractScene text detection attracts much attention in comput-er vision, because it can be widely used in many applica-tions such as real-time text translation, automatic informa-tion entry, blind person assistance, robot sensing and so on.Though many methods have been proposed for horizontaland oriented texts, detecting irregular shape texts such ascurved texts is still a challenging problem. To solve theproblem, we propose a robust scene text detection methodwith adaptive text region representation. Given an input im-age, a text region proposal network is first used for extract-ing text proposals. Then, these proposals are verified andrefined with a refinement network. Here, recurrent neuralnetwork based adaptive text region representation is pro-posed for text region refinement, where a pair of bound-ary points are predicted each time step until no new pointsare found. In this way, text regions of arbitrary shapes aredetected and represented with adaptive number of bound-ary points.This gives more accurate description of textregions. Experimental results on five benchmarks, namely,CTW1500, TotalText, ICDAR2013, ICDAR2015 and MSRA-TD500, show that the proposed method achieves state-of-the-art in scene text detection.1. IntroductionText is the most fundamental medium for communicat-ing semantic information. It appears everywhere in dailylife: on street nameplates, store signs, product packages,restaurant menus and so on.Such texts in natural envi-ronment are known as scene texts. Automatically detectingand recognizing scene texts can be very rewarding with nu-merous applications, such as real-time text translation, blindperson assistance, shopping, robots, smart cars and educa-tion. An end-to-end text recognition system usually consist-s of two steps: text detection and text recognition. In textdetection, text regions are detected and labeled with theirbounding boxes. And in text recognition, text informationis retrieved from the detected text regions. Text detectionis an important step for end-to-end text recognition, with-out which texts can not be recognized from scene images.Therefore, scene text detection attracts much attention theseyears.While traditional optical character reader (OCR) tech-niques can only deal with texts on printed documents orbusiness cards, scene text detection tries to detect varioustexts in complex scenes. Due to complex backgrounds andvariations of font, size, color, language, illumination con-dition and orientation, scene text detection becomes a verychallenging task. And its performance was poor when handdesigned features and traditional classifiers were used be-fore deep learning methods become popular. However, theperformance has been much improved in recent years, sig-nificantly benefitted from the development of deep learning.Meanwhile, the research focus of text detection has shift-ed from horizontal scene texts [10] to multi-oriented scenetexts [9] and more challenging curved or arbitrary shapescene texts [19]. Therefore, arbitrary shape scene text de-tection is focused on in this paper.In this paper, we propose an arbitrary shape scene textdetection method using adaptive text region representation,as shown in Figure 1. Given an input image, a text regionproposal network (Text-RPN) is first used for obtaining textproposals. The Convolutional Neural Network (CNN) fea-ture maps of the input image are also obtained in this step.Then, text proposals are verified and refined with a refine-ment network, whose input are the text proposal featuresobtained by using region of interest (ROI) pooling to the C-NN feature maps. Here, three branches including text/non-text classification, bounding box refinement and recurrentneural network (RNN) based adaptive text region represen-tation exist in the refinement network. In the RNN, a pair644964500每次时间步长预测边界点的数量,直到预测到停止标签。通过这种方式,可以用自适应数量的边界点表示任意形状的文本区域。为了性能评估,将提出的方法在五个基准测试集上进行了测试,分别是CTW1500、TotalText、ICDAR2013、ICDAR2015和MSRA-TD500。实验结果表明,该方法不仅可以处理多方向场景文本,还可以处理包括曲线文本在内的任意形状场景文本。此外,它在这五个数据集上取得了最先进的性能。02. 相关工作0在深度学习成为最有前途的机器学习工具之前,基于传统滑动窗口和连通组件(CC)的场景文本检测方法被广泛使用。基于滑动窗口的方法[27,32]在图像上移动一个多尺度窗口,并将当前补丁分类为文本或非文本。基于连通组件的方法,特别是基于最大稳定极值区域(MSER)的方法[26,30],通过提取连通组件获取字符候选区域。然后,将这些候选连通组件分类为文本或非文本。这些方法通常采用自下而上的策略,通常需要几个步骤来检测文本(例如,字符检测、文本行构建和文本行分类)。由于每个步骤可能导致错误分类,这些传统文本检测方法的性能较差。最近,基于深度学习的方法在场景文本检测中变得流行起来。这些方法可以分为三组,包括基于边界框回归的方法、基于分割的方法和组合方法。基于边界框回归的方法[5, 8, 11, 12, 13,16]受到通用目标检测方法(如SSD [14]和Faster R-CNN[23])的启发,将文本视为一种对象,并直接估计其边界框作为检测结果。基于分割的方法[3, 19,33]试图通过从背景中分割文本区域来解决该问题,并需要额外的步骤来获取最终的边界框。组合方法[20]使用与Mask R-CNN[4]类似的策略,同时使用分割和边界框回归以获得更好的性能。然而,与之前的方法相比,它的处理时间增加了,因为需要更多的步骤。在这三种方法中,基于边界框回归的方法在场景文本检测中最受欢迎,得益于通用目标检测的发展。对于基于边界框回归的方法,它们可以分为一阶段方法和两阶段方法。一阶段方法包括Deep Direct Regression[5],TextBox [12],TextBoxes++ [11],DMPNet[16],SegLink [24]和EAST[34],它们在一步中直接估计文本区域的边界框。两阶段方法中-0包括R2CNN [8],RRD [13],RRPN [22],IncepText[28]和FEN[31]。它们由文本提议生成阶段和边界框细化阶段组成,在文本提议生成阶段中生成候选文本区域,在边界框细化阶段中验证和细化候选文本区域以生成最终的检测结果。两阶段方法通常比一阶段方法具有更高的性能。因此,本文采用了两阶段检测的思想。0尽管大多数提出的场景文本检测方法只能处理水平或倾斜的文本,但最近对检测曲线文本等任意形状的文本越来越受关注。在CTD[17]中,使用一个固定的14个点的多边形来表示文本区域。同时,提出了递归横向和纵向偏移连接(TLOC)以实现准确的曲线文本检测。虽然一个固定的14个点的多边形对于大多数文本区域来说已经足够了,但对于一些长曲线文本行来说还不够。此外,对于大多数水平和倾斜文本来说,14个点太多了,而4个点已经足够了。在TextSnake[19]中,文本实例被描述为以文本区域对称轴为中心的有序、重叠的圆盘序列。每个圆盘与可能可变的半径和方向相关联,这些半径和方向是通过完全卷积网络(FCN)模型估计得到的。此外,受到Mask R-CNN的启发,MaskTextSpotter[20]可以通过语义分割处理不规则形状的文本实例。尽管TextSnake和MaskTextSpotter都可以处理任意形状的文本,但它们都需要像素级的预测,这需要大量的计算。0考虑到固定点数的多边形不适合表示不同形状的文本区域,本文提出了一种自适应文本区域表示方法,使用不同数量的点来表示不同形状的文本。同时,使用RNN来学习每个文本区域的自适应表示,从而不需要直接标记文本区域和像素级分割。03. 方法论0图1显示了用于任意形状文本检测的提议方法的流程图,这是一种两阶段的检测方法。它包括两个步骤:文本提议和提议细化。在文本提议中,使用Text-RPN生成输入图像的文本提议。同时,在这里获取输入图像的CNN特征图,可以在后续中使用。然后,通过细化网络对文本提议进行验证和优化。在这一步中,包括文本/非文本分类、边界框回归和基于RNN的自适应文本区域表示。最后,使用自适应点数的多边形标记的文本区域作为检测结果输出。64510图1. 用于任意形状场景文本检测的提议方法的流程图。使用自适应文本区域表示,检测到的文本区域可以用自适应数量的成对点进行标记。03.1. 自适应文本区域表示0现有的场景文本检测方法使用固定点数的多边形来表示文本区域。对于水平文本,使用2个点(左上角点和右下角点)来表示文本区域。对于多方向文本,使用其边界框的4个点来表示这些区域。此外,对于曲线文本,CTW1500[17]中采用了14个点来表示文本区域。然而,对于一些非常复杂的场景文本,例如曲线长文本,即使使用14个点可能也无法很好地表示它们。而对于大多数场景文本,如水平文本和定向文本,少于14个点就足够了,使用14个点来表示这些文本区域是一种浪费。0因此,考虑使用自适应点数的多边形来表示文本区域是合理的。很容易想象,文本区域边界上的角点可以用于区域表示,如图2(a)所示。这与注释一般对象的方法类似[1]。然而,这种方法中的点没有按方向排列,可能难以学习表示。在注释一般对象的方法中,可能需要人工校正以获得准确的分割。考虑到文本区域通常具有近似对称的顶部边界和底部边界,如图3所示,使用来自两个边界的成对点来表示文本区域可能更合适。从文本区域的一端到另一端学习成对边界点要容易得多,如图2(b)所示。这样,不同的场景文本区域可以通过不同数量的点精确表示,如图3所示。此外,据我们所知,我们是第一个使用自适应数量的成对点来表示文本的。0区域表示。0图2. 自适应文本区域表示的两种方法。 (a) 由角点表示的文本区域;(b) 由其顶部和底部边界上的成对点表示的文本区域。0图3. 具有自适应表示的文本区域示例。 (a)由4个点表示的文本区域; (b) 由6个点表示的文本区域; (c)由12个点表示的文本区域。645203.2. 文本提议0给定输入图像时,所提出方法的第一步是文本提议,其中通过Text-RPN生成称为文本提议的文本区域候选。Text-RPN类似于Faster R-CNN[23]中的RPN,除了不同的主干网络和锚点尺寸。在所提出的方法中,主干网络是SE-VGG16,如表1所示,它是通过将Squeeze-and-Excitation (SE)块[7]添加到VGG16[25]中获得的。如图4所示,SE块通过明确建模通道之间的相互依赖关系,自适应地重新校准通道特征响应,可以产生显著的性能改进。这里,FC表示全连接层,ReLU表示修正线性单元函数。此外,由于场景文本通常具有不同的尺寸,锚点尺寸设置为{32, 64, 128, 256,512},以覆盖更多的文本,而纵横比{0.5, 1, 2}保持不变。0层 内核0Conv1 [3 × 3, 64] × 20Pool1 2 × 2,步长20SE1 4, 640Conv2 [3 × 3, 128] × 20Pool2 2 × 2,步长20SE2 8, 1280Conv3 [3 × 3, 256] × 30Pool3 2 × 2,步长20SE3 16, 2560Conv4 [3 × 3, 512] × 30Pool4 2 × 2,步长20SE4 32, 5120Conv5 [3 × 3, 512] × 30Pool5 2 × 2,步长20SE5 32, 5120表1. SE-VGG16网络的架构。对于SE块,其内部的两个FC层的通道数是指其内核。0图4. SE块的架构。03.3. 提议细化0在文本提议之后,输入图像中的文本区域候选项被生成,这些候选项将在此步骤中进行验证和细化。如图1所示,使用了一个细化网络进行提议细化,该网络由几个部分组成。0分支:文本/非文本分类、边界框回归和基于RNN的自适应文本区域表示。在这里,文本/非文本分类和边界框回归与其他两阶段文本检测方法类似,而最后一个分支是为任意形状的文本表示提出的。对于提出的分支,输入是每个文本提议的特征,这些特征是使用ROI池化从生成的SE-VGG16的CNN特征图中获得的。该分支的输出目标是每个文本区域的自适应边界点的数量。由于不同的文本区域的输出长度不同,因此使用RNN来预测这些点是合理的。因此,这里使用了长短期记忆(LSTM)[6],它是一种RNN,在处理序列学习问题(如机器翻译、语音识别、图像字幕和文本识别)方面很受欢迎。虽然提出了使用成对边界点来表示文本区域,但可以使用不同的方式来表示成对点。容易想象的是,使用两个成对点的坐标(xi,yi,xi+1,yi+1)来表示它们。这样,成对点的坐标被用作回归目标,如图5所示。然而,成对点可以用不同的方式表示,使用它们的中心点坐标(xci,yci),从中心点到它们的距离hi,以及它们的方向θi。然而,在某些特殊情况下,角度目标不稳定。例如,接近90°的角度在空间上与接近-90°的角度非常相似,但它们的角度差异很大。这使得网络难以很好地学习角度目标。此外,方向可以由sinθi和cosθi表示,这可以稳定地预测。然而,需要更多的参数。因此,在提出的方法中,使用点(xi,yi,xi+1,yi+1)的坐标作为回归目标。0图5.用于学习文本区域表示的LSTM。LSTM中每个时间步骤的输入都是对应文本提议的ROI池化特征。0在这里使用的LSTM的所有时间步骤的输入都是相同的,即对应文本提议的ROI池化特征。每个时间步骤的输出是文本区域边界上成对点的坐标。同时,由于不同的文本区域使用了自适应数量的点,因此需要一个停止标签。Lsum =Lcls(p, t) + λ1t�i∈{x,y,w,h} Lreg(vi, v∗i )+ λ2t�i∈{x1,y1,x2,y2,...,xn,yn} Lreg(ui, u∗i )+ λ3t�i∈{l1,l2,...,xn/2} Lcls(li, l∗i )(1)u∗xi = (x∗i − xa)/wa, u∗yi = (y∗i − ya)/ha,(2)64530用于表示预测网络停止的时间。因为停止标签预测是一个分类问题,而坐标预测是一个回归问题,所以将它们放在同一个分支中是不合适的。因此,在LSTM的每个时间步骤中有两个分支:一个用于点坐标回归,一个用于停止标签预测。在每个时间步骤中,预测文本区域的两个成对边界点的坐标和标签停止/继续。如果标签是继续,则在下一个时间步骤中预测另外两个点的坐标和一个新的标签。否则,预测停止,文本区域用之前预测的点表示。通过这种方式,可以使用由预测的成对点组成的不同多边形来检测和表示输入图像中的文本区域。虽然非极大值抑制(NMS)广泛用于一般对象检测方法的后处理检测候选项,但在提出的方法中也需要使用。由于检测到的文本区域是用多边形表示的,因此水平边界框的常规NMS不适用于这里。相反,使用多边形NMS,它是基于文本区域的多边形的面积计算的。经过NMS后,剩余的文本区域作为检测结果输出。03.4. 训练目标0由于提出方法中的Text-RPN与Faster R-CNN[23]中的RPN相似,因此Text-RPN的训练损失也是以类似的方式计算的。因此,在本节中,我们只关注提案细化网络中的损失函数。每个提案上定义的损失是文本/非文本分类损失、边界框回归损失、边界点回归损失和停止/继续标签分类损失的总和。每个提案上的多任务损失函数定义如下:0λ 1 , λ 2 和 λ 3是平衡参数,控制这些项之间的权衡,并在该方法中设置为1。对于文本/非文本分类损失项,t是类别标签的指示器。文本标记为1 ( t = 1),背景标记为0( t = 0)。参数 p = ( p 0 , p 1 )是经过softmax计算的文本和背景类别的概率。然后,L cls( p, t ) = − log p t 是真实类别 t的对数损失。对于边界框回归损失项,v = ( v x , v y , v w ,v h ) 是真实边界框回归的元组。0目标包括中心点的坐标以及宽度和高度,v � = ( v � x , v � y , v� w , v � h ) 是每个文本提案的预测元组。我们使用FasterR-CNN [23]中给出的参数化方式对v和v �进行参数化,其中v和v �指定了相对于对象提案的尺度不变平移和对数空间高度/宽度偏移。对于边界点回归损失项,u = ( u x 1 , u y 1 , . . . ,u x n , u y n ) 是真实边界点的坐标元组,u � = ( u � x 1 , u �y 1 , . . . , u � x n , u � y n )是文本标签的预测元组。为了使学习到的点适用于不同尺度的文本,还应对学习目标进行处理,使其具有尺度不变性。参数 ( u � x i , u � y i ) 的处理如下:0其中x � i和y � i表示边界点的坐标,x a和ya表示相应文本提案的中心点的坐标,w a和ha表示该提案的宽度和高度。令 ( w, w � ) 表示 ( v i , v � i ) 或( u i , u � i ),L reg ( w, w � ) 定义为Faster R-CNN[23]中的平滑L1损失:0L reg ( w, w � ) = 平滑L1 ( w − w � ) , (3)0平滑L1 ( x ) = � 0 . 5 x 2 if | x | < 1 | x | − 0 . 5otherwise (4)0对于停止/继续标签分类损失项,它也是一个二元分类,其损失格式与文本/非文本分类损失类似。04. 实验04.1. 基准0本文使用了五个基准进行性能评估,分别介绍如下:0•CTW1500:CTW1500数据集[17]包含500张测试图像和1000张训练图像,其中包含多方向文本、弯曲文本和不规则形状文本。该数据集中的文本区域使用14个场景文本边界点进行标记。0•TotalText:TotalText数据集[2]包含300张测试图像和1255张训练图像,具有水平、多方向和弯曲等3种不同的文本方向。这些图像中的文本以自适应数量的角点进行单词级别的标记。0•ICDAR2013:ICDAR2013数据集[10]包含了用于ICDARRobust ReadingCompetition的聚焦场景文本。它包括233张测试图像和229张训练图像。这些场景文本是水平的,并且用由2个单词级别的点组成的水平边界框进行标记。CTW1500VGG1679.179.779.4SE-VGG1680.280.180.1ICDAR2015VGG1683.390.486.8SE-VGG1686.089.287.664540•ICDAR2015:ICDAR2015数据集[9]专注于ICDAR鲁棒阅读竞赛中的偶发场景文本。它包括500个测试图像和1000个训练图像。场景文本具有不同的方向,用由4个点组成的倾斜框在单词级别上进行标记。0•MSRA-TD500:MSRA-TD500数据集[29]包含200个测试图像和300个训练图像,其中包含中文和英文的任意方向的文本。文本以由4个点组成的倾斜框标记为句子级别。数据集中存在一些长直线文本行。0文本检测的评估遵循ICDAR评估协议,评估指标包括召回率、精确率和F1值。召回率表示正确检测到的文本区域数与数据集中总文本区域数的比率,精确率表示正确检测到的文本区域数与检测到的文本区域总数的比率。F1值是综合召回率和精确率的单一质量度量。如果检测到的文本区域与真实文本区域的重叠大于给定阈值,则认为检测到的文本区域是正确的。对于不同的数据集,这三个评估指标的计算方法通常是不同的。虽然ICDAR 2013和ICDAR2015的结果可以通过ICDAR鲁棒阅读竞赛平台进行评估,但其他三个数据集的结果可以使用相应的评估方法进行评估。04.2. 实现细节0我们的场景文本检测网络使用预训练的VGG16模型进行初始化,用于ImageNet分类。当在五个数据集上测试所提出的方法时,使用不同的模型,这些模型是使用每个数据集的训练图像进行数据增强训练得到的。所有模型总共进行10×10^4次迭代训练。学习率从10^-3开始,在2×10^4、6×10^4和8×10^4次迭代后乘以1/10。我们使用0.0005的权重衰减和0.9的动量。我们使用多尺度训练,将训练图像的短边设置为{400, 600, 720, 1000,1200},同时保持长边为2000。由于所提出的方法使用自适应文本区域表示,因此可以简单地用于这些具有不同点数标记的数据集。由于ICDAR 2013、ICDAR2015和MSRA-TD500使用四边形框进行标记,它们可以很容易地转换为成对的点。然而,对于CTW1500数据集和TotalText数据集,需要一些操作将真实标注转换为我们需要的形式。CTW1500中的文本区域使用14个点进行标记,需要将其转换为自适应数量的成对点。首先,将这14个点分组为7个0点对。然后,我们计算每个点的交叉角度,即从当前点到其附近两个点的两个向量的角度。对于每个点对,角度是两个点中较小的一个。接下来,根据角度的降序对点对进行排序,并尝试按顺序删除每个点对。如果删除操作后的多边形面积与原始面积的比值大于0.93,则可以删除该点对。否则,操作停止,并使用剩余点进行文本区域表示的训练。此外,TotalText中的文本区域使用自适应数量的点进行标记,但这些点不是成对的。对于标记为偶数个点的文本区域,可以将它们分组成对。对于标记为奇数个点的文本区域,首先找到起始两个点和结束两个点,然后根据它们到边界上起始点的距离找到剩余点的对应点。所提出的方法的结果是在单尺度输入图像上使用一个训练模型获得的。因为测试图像的尺度对检测结果有很大影响,例如FOTS[15]对不同数据集使用不同的尺度,我们也对不同的数据集使用不同的测试尺度以获得最佳性能。在我们的实验中,ICDAR 2013的尺度为960×1400,ICDAR2015的尺度为1200×2000,其他数据集的尺度都为720×1280。所提出的方法是使用Caffe实现的,实验是在NvidiaP40 GPU上完成的。04.3. 消融研究0在所提出的方法中,主干网络是SE-VGG16,而其他最新方法通常使用VGG16。为了验证主干网络的有效性,我们在CTW1500数据集和ICDAR2015数据集上使用不同的主干网络(SE-VGG16 vsVGG16)测试了所提出的方法,如表2所示。结果表明,SE-VGG16优于VGG16,在这两个数据集上取得了更好的性能。0主干网络 召回率 精确率 Hmean0表2. 关于主干网络的消融研究。0同时,本文提出了一种适应任意形状文本的自适应文本区域表示。为了验证其在场景文本检测中的有效性,我们在CTW1500上添加了一个关于文本区域表示的消融研究。SegLink [24]40.042.340.8EAST [34]49.178.760.4DMPNet [16]56.069.962.2CTD [17]65.274.369.5CTD+TLOC [17]69.877.473.4TextSnake [19]85.367.975.6SegLink [24]23.830.326.7EAST [34]36.250.042.0DeconvNet [2]44.033.036.0Mask Textspotter [20]55.069.061.3TextSnake [19]74.582.778.4TextBoxes [12]83.088.085.0SegLink [24]83.087.785.3He et al. [5]81.092.086.0Lyu et al. [21]84.492.088.0FOTS [15]--88.2RRPN [22]87.994.991.3FEN [31]89.193.691.3Mask Textspotter [20]88.695.091.7SegLink [24]76.873.175.0RRPN [22]77.084.080.0He et al. [5]81.092.086.0R2CNN [8]79.785.682.5TextSnake [19]80.484.982.6PixelLink [3]82.085.583.7InceptText [28]80.690.585.3Mask Textspotter [20]81.091.686.0FOTS [15]--88.064550数据集。为了比较,固定文本区域表示直接使用固定的14个点作为回归目标。表3显示了在CTW1500数据集上不同文本区域表示方法的实验结果。自适应表示方法的召回率比固定表示方法高得多(80.2% vs76.4%)。这证明了自适应文本区域表示更适合任意形状的文本。0表示方法 召回率 精确率 Hmean0固定 76.4 80.0 78.20自适应 80.2 80.1 80.10表3. 关于文本区域表示的消融研究。04.4. 与最新方法的比较0为了展示所提出的方法对不同形状文本的性能,我们在几个基准测试上进行了测试。首先,我们将其与CTW1500和TotalText上的最新方法进行性能比较,这两个数据集都包含具有挑战性的多方向和弯曲的文本。然后,我们在两个最广泛使用的基准测试ICDAR2013和ICDAR2015上比较方法。最后,我们在包含长直线文本和多语言文本(中文+英文)的MSRA-TD500上进行比较。表4和表5分别比较了所提出的方法与CTW1500和TotalText上的最新方法。所提出的方法在CTW1500上比所有其他方法都要好,包括为弯曲文本设计的方法,如CTD,CTD+TLOC和TextSnake(Hmean:80.1% vs69.5%,73.4%和75.6%)。同时,它在TotalText上也取得了更好的性能(Hmean:78.5%)。在这两个包含具有挑战性的多方向和弯曲文本的数据集上的性能表明,所提出的方法可以检测任意形状的场景文本。0方法 召回率 精确率 Hmean0提出的方法 80.2 80.1 80.10表4. CTW1500上的结果。0表6显示了在ICDAR2013数据集上的实验结果。所提出的方法达到了最佳性能,与MaskTextspotter相同,两者的Hmean都为91.7%。因为所提出的方法是在单个模型上进行测试的。0方法 召回率 精确率 Hmean0提出的方法 76.2 80.9 78.50表5. TotalText上的结果。0在单个模型上缩放输入图像,只使用在这种情况下生成的结果。结果表明,所提出的方法也可以很好地处理水平文本。0方法 召回率 精确率 Hmean0提出的方法 89.7 93.7 91.70表6. ICDAR2013上的结果。0表7显示了在ICDAR2015数据集上的实验结果,提出的方法取得了第二好的性能,仅略低于FOTS(H-mean: 87.6% vs88.0%)。而FOTS是通过结合文本检测和识别进行端到端训练的,提出的方法仅针对文本检测进行训练,训练比FOTS简单得多。这里使用了单尺度输入图像和单模式进行测试。结果表明,提出的方法与现有技术具有可比较的性能,这意味着它也可以很好地处理多方向文本。0方法 召回率 精确率 Hmean0提出的方法 86.0 89.2 87.60表7. ICDAR2015上的结果。0表8显示了在MSRA-TD500数据集上的结果和EAST [34]67.487.376.1SegLink [24]70.086.077.0PixelLink [3]73.283.077.8TextSnake [19]73.983.278.3InceptText [28]79.087.583.0MCN [18]79.088.083.0TextSnake [19]7681.1 fpsMask Textspotter [20]7206.9 fpsFigure 6. Results on different datasets. (a) results on CTW1500;(b) results on TotalText; (c) results on ICDAR2013; (d) results onICDAR2015; (e) results on MSRA-TD500.which are typical of curved texts and multi-oriented texts,respectively.In the future, the proposed method can be improved inseveral aspects. First, arbitrary shape scene text detectionmay can be improved by using corner point detection. Thiswill require easier annotations for training images. Second,to fulfill the final goal of text recognition end-to-end textrecognition for arbitrary shape scene text will
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功