没有合适的资源?快使用搜索试试~ 我知道了~
Towards Robust Curve Text Detection with Conditional Spatial ExpansionZichuan Liu1, Guosheng Lin1, Sheng Yang1, Fayao Liu2, Weisi Lin1 and Wang Ling Goh11Nanyang Technological University, Singapore2University of Adelaide, Australia{zliu016, syang014}@e.ntu.edu.sg, {gslin, wslin, ewlgoh}@ntu.edu.sg, fayaoliu@gmail.comAbstractIt is challenging to detect curve texts due to theirirregular shapes and varying sizes. In this paper, we firstinvestigate the deficiency of the existing curve detectionmethods and then propose a novel Conditional SpatialExpansion (CSE) mechanism to improve the performanceof curve text detection.Instead of regarding the curvetext detection as a polygon regression or a segmentationproblem, we treat it as a region expansion process. OurCSE starts with a seed arbitrarily initialized within atext region and progressively merges neighborhood regionsbased on the extracted local features by a CNN andcontextual information of merged regions.The CSE ishighly parameterized and can be seamlessly integrated intoexisting object detection frameworks.Enhanced by thedata-dependent CSE mechanism, our curve text detectionsystem provides robust instance-level text region extractionwith minimal post-processing.The analysis experimentshows that our CSE can handle texts with various shapes,sizes, and orientations, and can effectively suppress thefalse-positives coming from text-like textures or unexpectedtexts included in the same RoI. Compared with the existingcurve text detection algorithms, our method is more robustand enjoys a simpler processing flow. It also creates a newstate-of-art performance on curve text benchmarks with F-score of up to 78.4%.1. IntroductionIn recent years, great progress has been made in textdetection.The performance has been enhanced by theadvanced object detection and segmentation frameworksbased on Neural Networks. Although detecting words ortext lines with different sizes and orientations has been welltackled by recently proposed methods [28, 24, 34, 32, 23],detecting curve texts remains a challenging problem.The main challenges of curve text detection come fromirregular shapes and highly varying orientations.Thetraditional bounding box representation does not scale well(a) Proposed Box(b) Mask RCNN(c) Our CSE (d) Proposed Box(e) Polygon Regression(f) Our CSE Figure 1. Problems of existing curve text detection methods:Two region proposals shown in (a) and (d) inevitably includeunexpected texts since they are closed to each other.Thus,it causes failures for Mask RCNN based methods and polygonregression methods demonstrated in (b) and (e).Our CSEmethod demonstrated in (c) and (f) shows strong robustness to thissituation and brings significant performance gain.in the curve scenario since one box may cover multipletext objects. Therefore, the recently proposed curve textdetection algorithms [39, 27, 40] follow a two-stage detect-and-refine approach to generate elaborated polygons orboundaries. In these methods, a CNN based text detectoris applied to locate the regions containing texts, andthen a segmentation or polygon regression algorithm isperformed on these regions to produce a tight polygon orboundary.Both methods highly depend on the accurateregion proposal provided by the text detector. They prefera proposed region with only one targeted object includedwhich reduces the ambiguity of the sampled features.Although an oriented box regression is preferable, it oftenfails in the curve text scenario [29, 14].The recentlyproposed curve text detection methods turn to predicthorizontal rectangles in the first stage, which is inevitablyaffected non-targeted texts in the sampled regions.Specifically, both segmentation and regression based726972700在同一框区域中包含意外文本可能会干扰基于回归的方法。基于分割的方法可能无法区分目标文本和其他文本,并将意外文本或类似文本的模式错误地分类为正面,如图1(b)所示。基于回归的方法可能会通过将所有文本视为一个对象而产生不正确的边界。此外,如图1(e)所示,回归结果(通过预测建议框区域的偏移量产生)与先前阶段的框提议高度耦合。一个糟糕的框提议会严重影响最终的多边形,从而降低性能。为了解决上述问题,我们提出了一种新颖的条件空间扩展(CSE)机制,它作为广泛采用的两阶段检测工作流程中的第二阶段组件应用。我们的方法源于对内部点(称为种子)与文本实例的其余部分之间依赖关系的条件建模。CSE可以看作是一种条件预测过程,通过种子和扩展来检索实例级文本区域。从文本区域的任意内部点(种子)开始,CSE根据图像块的位置观察和合并区域推断的上下文,选择性地扩展其领土。与基于分割的方法相比,我们的CSE在文本彼此靠近时特别具有辨别性,如图1(c)所示。它提供了一种可控的方法来提取预期的文本区域,减少了后处理的工作量。另一方面,我们的CSE非常灵活,因为种子可以在目标文本区域内的任何位置指定。与多边形回归方法相比,种子和扩展范式与先前的文本检测器的耦合较少。基于粗略的区域提议,我们的CSE直接应用于由主干网络产生的空间特征,保留了所有的空间信息,并不会受到不完美的区域提议的影响,如图1(f)所示。实验证明,我们的方法在公共基准上优于现有的曲线文本检测方法。本文的贡献总结如下:0•曲线文本检测被形式化为一种条件区域扩展问题,它在文本区域内初始化一个种子,然后通过区域扩展逐步检索目标对象;0•通过参数化的条件空间扩展机制对种子和对象的其余部分之间的空间依赖性进行建模,使我们能够选择性地提取由种子指示的具有高面积精度的文本区域;0•我们的CSE作为第二阶段的文本提取器,可以无缝集成到现有的目标检测工作流程中;0•我们的方法种子位置的任意性和高空间选择性减少了与先前检测器的耦合,从而提供了灵活和稳健的边界预测;0•我们的方法在公共曲线文本数据集上的F测量值为80.2%(Total-Text [5])和78.4%(CTW-1500[39]),优于现有的曲线文本检测方法。02. 相关工作02.1. 四边形文本检测0在四边形文本检测中,地面实况被限制在矩形或四边形内。根据要检索的目标类型,文本检测方法可以分为基于检测的方法和基于分割的方法。基于检测的方法遵循由卷积神经网络(CNNs)[17]驱动的目标检测框架[9, 31, 20, 30, 21,10]。TextBoxes[18]采用SSD作为基础检测器,并通过精心设计的参考框来处理文本实例的宽高比变化。作为更快的RCNN[30]的变体,旋转区域建议网络(RRPN)[29]和旋转区域CNN(R2CNN)[14]以两阶段的方式设计,用于检测任意方向的文本。此外,EAST [43]和DeepReg[11]被提出用于直接回归文本实例的几何形状。基于分割的方法主要用于提取图像中的长文本行。它们将文本检测解释为语义分割问题,该问题已经被完全卷积神经网络(FCNs)[25, 7, 8, 41]很好地解决。张等人[42]将FCN和MSER[13]结合起来识别文本块,然后提取相应的字符。姚等人[38]应用FCN来预测文本的多个属性,如文本区域和方向,以提取目标文本区域。为了区分相邻的文本实例,提出了组件分割方法[24, 23, 35, 6,36],其中文本区域被分解为几个组件,这些组件将通过数据驱动的聚类、节点间通信或后处理组合成不同的实例。02.2. 曲线文本检测0虽然上述方法在四边形文本检测方面取得了成功,但大部分方法在任意文本形状的情况下无法很好地扩展。为此,本文提出了新的表示和检测框架。Liu等人[39]提出了基于FasterRCNN和循环神经网络(RNNs)的横向和纵向偏移连接(TLOC)方法,直接回归文本区域的多边形形状。P0P1P2P3ˆYk = argmaxYkPr(Yk|Yk−1, · · · , Y0; Xk, · · · , X0),(1)72710Mask Text-Spotter[27]将曲线文本检测视为实例分割问题,并应用Mask-RCNN生成文本实例的边界。TextSnake[26]采用FCN作为基础检测器,并通过检测和组装局部组件来提取文本实例。大部分现有的曲线文本检测方法潜在地对观察到的图像块与真实前景标签之间的后验概率进行建模。相反,我们的方法捕捉了任意图像块与其余文本区域之间的依赖关系。所提出的建模方法在一个RoI中包含多个文本实例时具有天然的鲁棒性。此外,我们的CSE考虑了更多的局部细节,因此可以产生更精细的文本边界。03. 方法03.1. 概述0我们的方法通过种子和扩展来检索实例级文本区域。种子唯一地指示一个对象,并且可以在对象区域的内部任意初始化。种子是从对象内部选择一个位置,通过扩展提取相应的对象区域。如将在第3节中说明的那样。0在3.4中,种子由一个目标检测器初始化,其预测的框中心。从一个种子开始,通过选择性地合并相邻的子区域来进行扩展,形成一个目标对象区域。如图2所示,子区域被抽象为特征点或节点,它们在输入图像上的离散位置进行采样。它们被组织成一个网格,并局部分配一个扩展指标y∈R5来表示到邻近节点的合并方向。y的五个条目表示所有可能的合并方向的概率(向下、向右、向左、向上和无)。如果一个节点的主要合并方向指向已经属于目标对象区域的邻居节点,它将被合并到一个现有的对象区域中。通过将所有正节点映射回原始图像并提取轮廓,可以轻松地生成实例级对象边界。03.2. 建模0种子和扩展的范式提供了一种灵活且可控的方式来提取具有最小后处理的对象区域。它还通过允许种子节点的任意初始化来减少了与第一阶段检测器的性能耦合。然而,不同的种子位置会导致区域扩展的动态不同。对于一个特定的节点,扩展指标的状态随种子的位置变化而变化,并且还依赖于其邻居节点的扩展指标。因此,获取扩展指标应被视为0与种子相关的特征点0合并方向0种子0扩展方向0一个带有扩展指标的节点0合并后的区域0一个部分0图2.我们的CSE从内到外探索每个节点的扩展指标,并合并指向已在对象区域中的节点的节点。0条件预测问题。在图2中以一个种子为中心,我们使用一组轮廓将该区域划分为若干部分(定义为到达种子的最小步数相同的节点)。我们假设第k个部分内节点Pk的扩展指标相互独立,它们的状态仅依赖于当前的空间特征Xk和之前部分内节点Pk-1、Pk-2、...、P0的状态。Yk的最优估计可以表示为0当观察到空间特征 X ( ∙ ) := { x ( p ) | p ∈ P ( ∙ ) }和前一个节点的指示器 Y ( ∙ ) := { y ( p ) | p ∈ P ( ∙ ) }时,我们开发了一个高度参数化的条件空间扩展(CSE)机制,它最大化了 Y k的后验概率。这种条件建模使得区域扩展能够适应任意初始化的种子位置。此外,它通过考虑从种子中得出的上下文,有效地区分预期的对象和其他对象。而且,在同一部分中节点之间的独立性假设导致了具有高级并行性的树突状条件空间扩展过程。03.3. 条件空间扩展0为了估计等式中所示的条件概率0为了估计等式中所示的条件概率1324567821346578ci = [cbi, cri , cli, cti]T ,(2)hi = [hci, hbi, hri , hli, hti]T ,(3)yi = [ybi , yri , yli, yti]T ,(4)where c(·)i∈ Rd, h(·)i∈ Rd and y(·)i∈ R5 denotes thelocal states, transition vectors and the expanding indicatorsof neighborhood nodes 1. Here, only parts of ci, hi and yi72720种子定位和采样0提取的特征0条件空间扩展0与种子相关的文本区域点0种子位置0CSE的计算图0与种子不相关的节点0双线性插值0(b)0(c)0输入数据0输出数据0图3. 给定位于文本区域内部的种子,我们扩展一个 S × S的网格,并使用双线性插值在这些位置上对骨干网络产生的特征进行采样。CSE计算从种子开始并传播到相邻的特征节点。每个节点将前一个节点的输出和隐藏状态作为输入,并产生新的隐藏状态和输出。0和转移向量 h b i , h r i , h l i , h t i ∈ R d来自相邻的特征点。转移向量编码了位置敏感信息,有助于CSE了解当前节点相对于种子的相对位置。根据相对于种子的相对位置,节点的输入和输出如图3(c)所示。对于 P k中的一个节点,我们的CSE只从 P k − 1 中接收 c 和 h作为输入,并输出新的 h 到 P k +1。这构建了一个源自种子的推理过程,以树突状方式在网格中传播上下文信息。同一部分中节点的计算是独立的,因此可以在GPU上完全并行化。计算复杂度与网格的边长成线性关系,计算效率高。在特定节点内部,计算过程如图4所示的计算图所示。为了简化问题,我们用 c i ∈ R 4 d , h i∈ R 5 d 和 y i ∈ R 20表示来自邻域节点的所有可能输入,它们由01 上标表示相对于当前节点的位置,b-底部,r-右侧,l-左侧,t-顶部和c-当前。0根据相对于种子节点2的位置,可以确定非零输入,其余将设为零。特别地,hci被定义为唯一指示种子节点的变量。除了通过反向传播学习的种子的hci之外,我们明确将其他节点的hci设置为零。根据当前观察到的特征x,转移向量hi和邻域的预测扩展指示器yi,我们通过以下方式计算候选局部状态�c0�c = tanh(Wc × s + bc), (5)0s = [x, yi, hi]T, (6)0其中×表示矩阵乘法,Wc∈Rd×(dx+5d+20)和bc∈Rd表示tanh激活函数之前的线性变换的权重和偏置。我们应用门控机制[12]将邻域的局部状态cb,cr,cl和ct与当前候选状态�c组合起来,得到当前节点的局部状态c,其公式为0c = δ(cb ∙ gbc + cr ∙ grc + cl ∙ glc + ct ∙ gtc + �c ∙ g�c),(7)0其中δ表示层归一化运算符[4],∙表示逐元素乘法,gb,gr,gl,gt,gc表示门控函数的输出,可以进一步说明如下0gc = [gbc i, grc i, glc i, gtc i]T = σ(Wgci × s + bgci), (8)0g � c = σ(Wg � c × s + bg � c). (9)02非零输入在图3(c)中指示。SLayer NormSigmoidTanhSoftmaxPoint ProductMat MulAdd0.70.20.50.10.60.10.70.80.30.50.50.10.372730concat0S0图4.节点内的计算图。0在这里,Wgci,bgci和Wg�c,bg�c被定义为将s映射到相应的门控向量gci和g�c的权重矩阵和偏置。由于局部状态c本质上是前一节点状态值的加权和,在我们的二维场景中,c的值随k呈指数增长。这在训练和测试阶段都会严重影响数值稳定性。因此,层归一化技术对于CSE来确保训练的收敛性并防止溢出是必不可少的。最后,从局部状态c中导出扩展指示器y和输出转移向量ho,如下所示0go = σ(Wgo × s + bgo), (10)0ho = [hbo, hro, hlo, hto]T = tanh(c) ∙ go + bo,(11), y = softmax(Wy × c + by), (12)0其中Wgo和bgo表示用于产生相应门控信号的权重矩阵和偏置,Wy和by将c转换为logits,然后输入到softmax激活函数中。03.4. 种子定位0在我们的CSE方法中,假设种子位于对象区域内。这个先决条件可以通过使用现成的对象检测器的输出来轻松保证。在这里,我们采用Faster RCNN[31]检测到的框的中心和形状来确定种子位置和形状,并使用双线性插值从由边界框指示的区域均匀采样S×S特征。实际上,我们的CSE方法只需要种子位于对象区域内,采样网格粗略覆盖目标对象。此外,给定一个采样网格,对象区域内的任何节点都可以被指定为种子。如第4.2节所示,随机初始化种子位置和相应的网格大小不会对性能产生显著影响。因此,一个较弱的检测器,0种子 正节点0正方向 候选方向0负节点0P 00P 1 P 2 P 30真实区域0图5.真实标注:所有箭头表示节点的候选合并方向,CSE预测的相应得分标记在箭头上。得分最高的候选方向被标记为正方向,用实线箭头表示。0易于优化,对于CSE来说可能足够产生令人满意的结果。03.5. 优化0标记在训练阶段,使用图5中所示的策略标记目标地面真实合并方向。对于CSE中的每个网格,我们首先将目标地面真实对象区域内的节点标记为正向,其余节点标记为负向。对于每个正向节点,我们在前一节中搜索其邻域的正向节点,并将相应的合并方向标记为候选方向3。在同一节点的候选方向中,我们只将得分最高的方向标记为最终的正向合并方向。对于种子节点,我们始终将其ys标记为正向。0损失函数我们对每个节点应用交叉熵损失来优化我们的CSE模型,可以表示为0L cse = 10N0p ∈ P - ln(y�(p)), (13)0其中N = S ×S表示网格中的节点数,P表示所有节点的集合,y�表示正向合并方向的值。我们的优化策略根据当前的CSE预测计算损失。直观地说,它旨在增强已经强大的正向候选者,从而减少标记的歧义并加快收敛速度。03最多会将两个合并方向标记为正向。727404. 实验04.1. 实验细节0实验是在Tensorflow 1.5.0[3]上进行的。我们采用由ResNet-34驱动的FasterRCNN来初始化所有实验中的种子位置和相应的网格。CSE是用C++实现和优化的,并通过CUDA进行加速。根据现有的场景文本检测训练策略[43, 27,21],我们在一个组合数据集上预训练我们的模型。预训练数据集包括ICDAR-17MLT的全套图像[1]以及MSRA-TD500[37]、Total-Text[5]和CTW-1500[39]的训练集。在预训练之后,我们在两个曲线文本数据集Total-Text(包含1255个训练图像和300个测试图像)和CTW-1500(包含1000个训练图像和500个测试图像)上进行微调和评估我们的方法。模型在组合数据集上进行了50k次迭代的训练,并在要评估的数据集上进行了微调。我们采用Adam优化器[16]来训练网络。在预训练阶段,学习率固定为0.01,前30k次迭代,然后缩小到0.002,用于其余的迭代。在微调中,初始学习率设置为0.001,每5000次迭代指数衰减0.9。所有实验都在DellAlienware上进行,配备Inteli7处理器、64GB内存和两个NVIDIA GTX 1080 TiGPU。每个GPU的批量大小设置为1,在训练中使用两个GPU,评估时只使用一个GPU。04.2. 灵活性和鲁棒性0在这个实验中,我们定性和定量地验证了我们的CSE方法的灵活性和鲁棒性。在定性实验中,我们通过随机操作地面真实框来生成一组具有不同位置和大小的采样网格(黄色),如图6的第一行所示。我们将CSE应用于相应的RoIs,如图6的第二行所示,并通过热图在图6的第三行可视化提取的文本区域。图6(a)展示了我们方法的灵活性。我们的CSE方法可以有效地检索具有不同种子位置的文本区域。即使对于具有大曲率和细长形状的文本对象,我们的方法也可以捕获所有相关的子区域,并具有高面积精度。另一方面,对于包含许多意外文本或甚至被另一个文本实例主导的建议区域(如图6(b)和(c)所示),我们的方法只提取由种子指示的相关对象区域。这表明我们的CSE对于由意外对象引起的歧义是鲁棒的,并且即使对于先前的目标检测器生成的贫采样网格,也可以产生令人满意的结果。除了对我们的CSE进行视觉研究外,我们还通过调整建议采样网格的大小来定量验证其灵活性和鲁棒性,并0将种子在网格中重新定位。网格缩放将建议的区域建议的高度和宽度按照δs≥1.0的因子进行调整。种子重定位应用于采样网格,将其种子更改为仍在目标对象区域内但与原始种子节点在欧几里得空间中有δc偏差的新节点。δc通过原始网格面积的平方根进行归一化。我们通过在Total-Text和CTW-1500上分析精确度、召回率和F-得分来研究缩放和重定位的效果,结果如图7所示。在两个数据集上,与缩放因子δs相关的性能变化分别在图7(a)和(b)中进行了分析。当δs在1.0到1.5之间变化时,性能在Total-Text上保持在80%左右,在CTW-1500上保持在78%左右。当δs大于1.5时,性能略有下降,F-得分仍然保持在77%以上和73%以上。至于种子重定位,Total-Text和CTW-1500上相应的性能变化如图7(c)和(d)所示。种子重定位对性能影响不大。F-得分仍然为80%和78%,当δc从0.0变化到1.0时,仅下降3%和4%。总之,我们的CSE对于随机初始化的种子位置和扭曲的采样网格具有鲁棒性。04.3. 与Mask RCNN的比较0基线MaskRCNN方法是基于[27]中提出的方法实现的。我们删除了文本识别分支,只保留了检测和分割分支。为了公平比较,两种方法共享相同的文本检测器,该检测器基于FasterRCNN架构。数量结果在表4.3中报告。我们的方法总体上优于基线方法。基线方法在两个数据集上的F-得分分别为67.5%到67.8%。相比之下,我们的CSE方法比基于MaskRCNN的方法好得多,Total-Text上的F-得分为80.2%,CTW-1500上为77.4%。0为了探索性能提升的原因,我们在CTW-1500上对两种方法产生的输出置信度图进行了可视化比较,如图8所示。图8(a)展示了基线方法产生的失败示例。在这些情况下,分割被相邻文本实例扭曲。在一个框中包含的意外文本实例会在置信度图中引起高激活,并破坏边界预测。相比之下,我们的CSE在这种情况下非常稳健,因为CSE捕捉到的上下文信息有助于消除意外对象引起的歧义。此外,条件建模使得我们的CSE能够以高精度检索到长曲线文本行,这在实际应用中具有灵活性和前景。1.001.251.501.752.00s50607080901.001.251.501.752.00s50607080900.000.250.500.751.00c50607080900.000.250.500.751.00c506070809072750(a)(b)0图6.鲁棒性和灵活性分析:每个案例的第一行用黄色的边界框表示采样区域,种子位置用十字线表示。第二行显示了感兴趣区域的放大图。第三行显示了相关区域的热图。如图(a)所示,我们的方法在种子位置上非常灵活。(b)和(c)证明了我们的方法从密集文本区域提取文本的鲁棒性。0(a)0召回率精确率F-得分0100(b)0召回率精确率F-得分0100(c)0召回率精确率F-得分0(d)0召回率精确率F-得分0图7.性能与尺度因子δs在Total-Text(a)和CTW-1500(b)上的关系;性能与重定位因子δc在Total-Text(c)和CTW-1500(d)上的关系。0数据集 Total-Text CTW15000模型 P R F P R F0MRCNN 69.2 65.8 67.5 65.1 70.8 67.80CSE 81.4 79.1 80.2 78.7 76.1 77.40表1. 基于Mask RCNN的方法与我们的CSE方法之间的性能比较。04.4. 与多边形回归的比较0在这个实验中,我们将我们的方法与基于多边形回归的另一个基准方法进行比较,该方法在[39]中提出。基准方法是基于[39]提供的公开可用源代码实现的,并且使用我们的训练策略进行了预训练和微调。与前面的实验类似,骨干网络和RPN在两种方法之间共享,其余部分根据各自的工作流程实现。结果如表4.4所示。我们的0(b)0(a)0(a)0图8. (a) 基准方法输出的示例;(b)我们的CSE方法输出的示例。与基准的MaskRCNN方法相比,我们的方法对于相邻文本引起的歧义具有令人印象深刻的鲁棒性,并对目标实例具有令人印象深刻的选择性。0我们的方法在Total-Text上的F-score相对于基准方法提高了5%,精度为80.9%,召回率为80.3%,F-score为80.6%。在CTW-1500上,我们的CSE的F-score为77.6%,比基准方法提高了4.4%。我们还通过可视化两种方法的检测结果来研究性能提升的原因。如图9所示,在与图9(a)中显示的相同RoI提议的情况下,多边形回归可能会受到其他偶然包含的文本对象的破坏。如图9(b)所示,基准模型可能会将提议区域中包含的所有文本视为单个对象并回归相应的边界。尽管可以通过训练更准确的文本检测器来减少意外文本以减轻此问题,但由于文本的形状和方向变化很大,所提议的边界框不可避免地覆盖了额外的文本。SegLink [32]30.323.826.7-EAST [43]50.036.242.0-Mask TextSpotter [27]69.055.061.3-TextSnake et al. [26]82.774.578.4-CSE81.479.180.20.42SegLink [32]42.340.040.8-EAST [43]78.749.160.4-DMPNet [22]69.956.062.2-CTD [39]74.365.269.5-CTD+TLOC [39]77.469.873.4-TextSnake et al. [26]67.985.375.6-CSE81.176.078.40.3872760数据集 Total-Text CTW15000方法 P R F P R F0Poly-Reg 73.8 77.4 75.6 77.1 69.7 73.20CSE 80.9 80.3 80.6 79.2 76.0 77.60表2. 基于多边形回归的方法与我们的CSE方法之间的性能比较。0(a) (b) (c)0图9. (a) 带有RoI的图像;(b) 基准方法输出的文本边界;(c)我们的CSE方法产生的文本边界。基准方法很容易受到相同框中包含的意外文本的影响,而我们的方法对这种情况表现出很强的鲁棒性。0如图9(c)所示,条件扩展机制仅合并与种子指示的区域相似的子区域。通过探索空间依赖性和局部信息,我们的CSE方法比多边形回归方法更加稳健,并且可以产生更加详细的边界。04.5. 与同行的比较0我们将我们的方法与最近提出的曲线文本检测方法在曲线文本基准数据集Total-Text和CTW-1500上进行比较。结果如表4.5和表4.5所示。我们的方法在Total-Text上的精度为81.4%,召回率为79.1%,F-score为80.2%,创造了新的最先进性能。在包含曲线文本和长文本行的CTW-1500上,我们的方法也实现了最先进的性能,精度为81.1%,召回率为76.0%,F-score为78.4%。推理时间分别为每张图像0.42毫秒和0.38毫秒。检测结果如图10所示。可以看出,我们的方法可以有效处理具有不规则形状、大小变化大和任意方向的曲线文本。0方法 P R F 时间(秒)0表3. Total-Text上的检测性能0方法 P R F 时间 (s)0表4. CTW-1500上的检测性能0图10. Total-Text和CTW-1500上的检测结果05. 结论0在这项工作中,我们分析了现有曲线文本检测方法的不足,并通过开发一种新的参数化条件空间扩展(CSE)机制来提高性能。我们的方法对于由任意形状和方向的相邻文本引起的歧义具有很强的鲁棒性。它是灵活的,并且可以以可控的方式提取文本区域。我们的CSE方法优于现有的曲线文本检测方法。0致谢0林国栋的参与部分得到了新加坡国家研究基金会在其AI新加坡计划[AISG-RP-2018-003]和教育部一级研究基金[RG126/17(S)]的支持。[1] Icdar 2017 robust reading competition. http://u-pat.org/ICDAR2017/index.php. 6[2] Resnet-34.https://www.kaggle.com/pytorch/resnet34.[3] Mart´ın Abadi, Ashish Agarwal, Paul Barham, EugeneBrevdo, Zhifeng Chen, Craig Citro, Greg S Corrado, AndyDavis, Jeffrey Dean, Matthieu Devin, et al.Tensorflow:Large-scale machine learning on heterogeneous distributedsystems. arXiv preprint arXiv:1603.04467, 2016. 6[4] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton.Layer normalization.arXiv preprint arXiv:1607.06450,2016. 4[5] Chee Kheng Ch’ng and Chee Seng Chan.Total-text:A comprehensive dataset for scene text detection andrecognition.In Document Analysis and Recognition(ICDAR), 2017 14th IAPR International Conference on,volume 1, pages 935–942. IEEE, 2017. 2, 6[6] Dan Deng, Haifeng Liu, Xuelong Li, and Deng Cai.Pixellink: Detecting scene text via instance segmentation.In Thirty-Second AAAI Conference on Artificial Intelligence,2018. 2[7] Henghui Ding, Xudong Jiang, Bing Shuai, Ai Qun Liu, andGang Wang.Context contrasted feature and gated multi-scale aggregation for scene segmentation.In The IEEEConference on Computer Vision and Pattern Recognition(CVPR), June 2018. 2[8] Henghu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功