基于渐进尺度扩展网络的形状鲁棒文本检测

46 浏览量更新于2023-10-18 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9336基于渐进尺度扩展网络的形状鲁棒文本检测王文海1、4、谢恩泽2、5、李翔3、4、侯文博1、佟璐1、俞刚5、邵帅51南京大学软件新技术国家重点实验室2同济大学3南京理工大学计算机与工程学院第四章动量5旷视（Face++）科技有限公司{wangwenhai362，Johnny ez，lysucuo}@ 163.com，xiang.li. qq.comlutong@nju.edu.cn，{yugang，张帅}@ megvii.com摘要近年来，随着卷积神经网络的发展，场景文本检测技术得到了迅速的发展.然而，该算法在实际应用中还存在两个问题。一方面，现有的文本定位算法大多需要四边形包围盒，这对于定位任意形状的文本是不准确的另一方面，彼此接近的两个文本实例可能导致覆盖两个实例的错误检测。传统上，基于分割的方法可以缓解第一个问题，但通常无法解决第二个挑战。为了解决这两个挑战，在本文中，我们提出了一种新的渐进规模扩展网络（PSENet），它可以精确地检测任意形状的文本实例。更具体地说，PSENet为每个文本实例生成不同尺度的因为有很大的几何余量-在最小尺度核函数中，该方法能有效地分割文本实例，从而使基于分割的方法更易于检测任意形状的文本实例。在CTW 1500、Total-Text、ICDAR 2015和ICDAR 2017MLT上进行的大量实验验证了PSENet的有效性。值得注意的是，在CTW 1500上，一个充满长曲线文本的数据集，PSENet在27 FPS时达到了74.3%的F-测量，我们最好的F-测量（82.2%）优于状态-*作者贡献均等。†李翔就职于教育部高维信息智能感知与系统重点实验室PCA实验室，南京理工大学计算机科学与工程学院，社会保障图像与视频理解江苏省重点实验室，南京，210094。李翔也是Momenta的访问学者。‡通讯作者。图1.不同方法的结果，最好用彩色观看(a)是原始图像。(b)是指基于回归的方法的结果，其显示令人失望的检测，因为红框覆盖了绿框中几乎一半以上的上下文。(c)是朴素语义分割的结果，朴素语义分割将3个文本实例误认为1个实例，因为它们的边界像素部分连接。(d)是我们提出的PSENet的结果，它成功地区分和检测4个独特的文本实例。最先进的算法6.6%。代码将在未来发布。1. 介绍野外场景文本检测是场景理解、产品识别和自动驾驶等众多应用中的一个基本问题。近年来，随着卷积神经网络（CNN）的快速发展，已经取得了许多进展我们可以将现有的基于CNN的算法大致分为两类：基于回归的方法，9337基于分割的方法。对于基于回归的方法[36，42，32，16，41，23，11，13，27]，文本目标通常以具有某些取向的矩形或四边形的形式表示然而，基于回归的方法无法处理具有任意形状的文本实例，例如，曲线文本如图所示。第1段（b）分段。另一方面，基于分割的方法基于像素级分类来定位文本实例。然而，很难将彼此接近的文本实例分开。通常，基于分割的方法可以预测覆盖彼此接近的一个例子如图所示。第1段（c）分段。为了解决这些问题，在本文中，我们提出了一种新的基于内核的框架，即渐进规模扩展网络（PSENet）。我们的PSENet有以下两个好处。首先，作为一种基于分割的方法，PSENet执行像素级分割，能够精确定位具有任意形状的文本实例。其次，我们提出了一种渐进的尺度扩展算法，利用该算法可以成功地识别出相邻的文本实例，如图1所示。第1段（d）分段。更具体地说，我们为每个文本实例分配多个预测分割区域，为简单起见，将其表示为“内核”。每个核具有与原始文本实例相似的形状，但不同的尺度。为了获得最终的检测结果，我们采用了基于广度优先搜索（BFS）的渐进规模扩展算法。通常有3个步骤：1）从最小尺度的核开始（这一步可以区分实例）; 2）通过逐渐在较大的核中涉及更多的像素来扩展它们的区域; 3）结束，直到探索完完整的文本实例（最大的核）。设计渐进规模扩展算法有三个潜在原因。首先，具有最小尺度的核很容易被分离，因为它们的边界彼此远离。第二，最小尺度的内核不能覆盖文本实例的全部区域（见图1）。第2段（b）分段）。因此，有必要从最小规模核中重新覆盖完整的文本实例.第三，渐进式规模扩展算法是一种简单有效的扩展小核以完成文本实例的方法，保证了文本实例的准确定位。为了证明我们提出的PSENet的有效性，我们对四个具有竞争力的基准数据集进行了广泛的实验，包括ICDAR 2015 [17]，ICDAR 2017MLT [1]、CTW 1500 [24]和Total-Text [2]。在这些数据集中，CTW 1500和Total-Text被明确设计用于曲线文本检测。具体来说，在CTW1500（一个具有长曲线文本的数据集）上，我们的性能绝对优于最先进的结果6.6%，而我们的实时模型在27 FPS下实现了相当的性能（74.3%）此外，委员会认为，图2.完整文本实例和文本实例内核的可视化可以看出，CRNN [33]正确识别了完整的tex-t实例，但无法识别内核，因为内核无法覆盖文本实例的完整区域。所提出的PSENet还在多方向和多语言文本数据集上实现了有希望的性能： ICDAR 2015 和 ICDAR 2017MLT。2. 相关工作基于深度学习方法的场景文本检测在过去几年中取得了显著的成果。现代文本检测器主要基于CNN框架，其中场景文本检测大致分为两类：基于回归的方法和基于分割的方法。基于回归的方法通常基于通用对象检测框架，例如Faster R-CNN [31]和SSD [22]。TextBoxes [19]修改了卷积核的锚标度和形状，以适应文本的各种纵横比。EAST [42]使用FCN [25]直接预测每个像素的得分图、旋转角度和文本框RRPN [28]采用了更快的R-CNN，并开发了RPN部分的旋转建议，以检测任意方向的文本。R- RD [20]从两个单独的分支中提取了用于文本分类和回归的特征图，以更好地检测长文本。然而，大多数基于回归的方法通常需要复杂的锚设计和繁琐的多个阶段，这可能需要彻底的调整，并导致次优性能。此外，上述工作是专门为多方向文本检测而设计的，在处理曲线文本时可能会有所不足，而曲线文本实际上在现实世界中广泛分布。基于分割的方法主要受到全卷积网络（FCN）的启发[25]。Zhang等人[40]首先采用FCN来提取文本块，并通过MSER从这些文本块中检测候选字符。姚等人[39]将一个文本区域公式化为各种属性，例如文本区域和方向，然后利用FCN来预测相应的热图。 Lyu等人[27]利用角定位为文本实例找到合适的不规则四边形PixelLink [4]通过预测不同文本之间的像素连接来分离彼此靠近的文本。9338图3.我们的整体管道的图示。管道的左部分从FPN [21]实现。右侧部分表示特征融合和渐进尺度扩展算法。输入文本实例。最近，TextSnake [26]使用有序磁盘来表示曲线文本以进行曲线文本检测。SPC-Net [38]使用实例分割框架并利用上下文信息来检测任意形状的文本，同时抑制误报。上述工作在多个横向和多方向的文本基准测试中取得了优异的成绩-S.类似地，除了TextSnake [26]之外，上述大多数方法都没有特别关注曲线文本。然而，TextSnake在推理过程中仍然需要耗时和复杂的后处理步骤（集中，跨步和滑动），而我们提出的渐进尺度扩展只需要一个干净有效的步骤。3. 该方法在本节中，我们首先介绍所提出的渐进式规模扩展网络（PSENet）的整体流水线。接下来，我们介绍渐进式S的细节-超参数将在第二节中讨论三点四分。在这些掩码中，S1给出了具有最小尺度的文本实例的分割结果（即，最小k- 内核）并且 Sn 表示原始分割掩码（即，最大内核）。在得到这些分割模板后，我们使用渐进尺度扩展算法将S1中所有实例的核逐步扩展到Sn中的完整形状，得到最终的检测结果R.3.2.网络设计PSENet的基本框架是从FPN [21]实现的。我们首先得到四个256通道的特征图（即P2，P3，P4，P5）从骨干。为了进一步将语义特征从低到高进行组合，我们将四个特征图进行融合，得到具有1024个通道的特征图F通过函数C（·）为：F=C（P2、P3、P4、P5）规模扩张算法，并显示它如何有效地=P向上（P）向上（P）向上（一）（P），区分紧密排列的文本实例此外，2×23×44×85介绍了标签的生成方法和损失函数的设计最后，我们描述了PSENet的实现细节。3.1.整体管道我们提出的PSENet的高级概述如图所示。3. 我们使用ResNet [10]作为PSENet的主干。我们将底层纹理特征与高层语义特征相结合。这些图在F中进一步融合以编码具有各种接受视图的信息。直觉上，这种融合很可能促进具有各种尺度的内核的生成。然后将特征图F投影到n个分支中以产生多个分割结果S1，S2，.， S n.每个Si将是在一定比例下的所有文本实例的一个分段掩码。不同分割模板的尺度由其中，随后，F被馈送到Conv（3，3）-BN-ReLU层中并且被减少到256个通道。接下来，它通过n个Conv（1，1）-Up-Sigmoid层，并产生n个分割结果 S1，S2，.， S n. 这里，Conv，BN，ReLU上指卷积[18]，批量归一化[15]，校正线性单元[6]和上采样。3.3. 渐进尺度扩展算法如图1（c），基于分割的方法很难分离彼此接近的文本实例。为了解决这个问题，我们提出了一个渐进的规模扩张算法。这是一个生动的例子（见图。4）阐述了渐进尺度扩展算法的实现过程，其核心是9339图4.程序中的逐步缩放算法。CC指的是寻找连通组件的功能。EX表示尺度扩展算法。(a)、（e）和（f）分别指S1、S2和S3(b)是初始连接的组件。(c)和（d）是膨胀的结果。(g)是扩张的例证。蓝色和橙色区域表示不同文本实例的内核。灰色网格表示需要涉及的像素。（g）中的红色框指冲突像素。本文从广度优先搜索（BFS）算法中引入了一种新的思想在该示例中，我们具有3个分割结果S={S1，S2，S3}（参见图4（a），（e），（f））。首先，基于在最小内核的地图S1（见图1）。4（a）），4个不同的连通分量C={c1，c2，c3，c4}可以作为初始化。图中具有不同颜色的区域4(b) 分别表示这些不同的连通现在我们已经有了所有文本实例的中心部分（即，最小内核）检测到。然后，我们通过合并S2中的像素，然后在S3中，逐步扩展检测到的内核。两个尺度展开的结果如图所示。4（c）和图4（d）。最后，我们提取图中用不同颜色标记的连通分量。4（d）作为文本实例的最终预测。规模扩张的过程如图所示。4（g）。扩展算法基于广度优先搜索算法，从多个核的像素开始，迭代合并相邻的文本像素。注意，在扩展期间可能存在冲突像素，如图1中的红色框所示。4（g）。处理原则在我们的实践中的冲突在于，混淆像素只能由一个单个内核在先到先服务的基础上合并。由于在算法1中总结了尺度扩展算法的细节。在伪码中，T、P是中间结果。 Q是一个队列。Neighbor r （ · ）表示 p 的相邻像素（ 4- 路）。GroupByLabel（·）是对中间体进行分组的函数算法1规模扩展算法要求：内核：C，分割结果：Si确保：扩展扩展内核：E1：函数 EXPANSION （ C ，Si ） 2 ： T<$;P<$;Q<$3 ：对于每个ci∈C，4：T ← T {（p，label）|（p，label）∈ ci}5：P ← P {p|（p，label）∈ ci}6：Enqueue（Q，ci）//将ci中的所有元素推入Q7：结束8：当Q= 0时，9：（p，label）←Dequeue（Q）//弹出Q的第一个元素10：如果nq∈Neighborr（p）且q∈/P且Si[q]=True，则11：T<$T <${（q，label）};P<$P <${q}12：Enqueue（Q，（q，label））//将元素（q，label）推入Q13：如果结束14：结束while15：E=GroupByLabel（T）16：返回E17：结束功能按标签检查结果 C和E分别用于保持膨胀前后的核;3.4. 标签生成如示于图3、PSENet产生分割结果（例如，S1、S2、…Sn）具有不同的核尺度。因此，在训练过程中需要具有不同核尺度在我们的实践中，通过缩小原始文本实例，可以简单有效地进行这些地面实况标签图中蓝色边框的多边形。5（b）表示原始文本实例，它对应于最大的分割标签掩码9340图5.标签生成的说明。(a)包含d、pi和pn的符号。(b)显示了原始文本实例。(c) 显示了具有不同内核尺度的分割掩码(see图中最右边的地图。5（c））。为了在图1中顺序地5（c），我们利用Vatti裁剪算法[37]将原始多边形pn缩小dipix-els，得到缩小的多边形pi（见图5（a））。随后，每个收缩的多边形pi被转换为0/1二进制其中Si，x，y和Gi，x，y分别指分割结果Si和基础真值Gi中的像素（x，y）的值此外，还有许多类似于tex- t笔画的图案，如栅栏、格子等。因此，我们在训练过程中采用在线硬示例挖掘（OHEM）[34]来更好地区分这些模式。Lc算法主要用于文本和非文本区域的分割。让我们考虑OHEM给出的训练掩码为M，因此Lc可以用公式表示为Eqn。（六）、Lc=1−D（Sn·M，Gn·M），（6）Ls是收缩文本实例的损失由于它们是由完整文本实例的原始区域包围的，我们忽略了分割结果Sn中的非文本区域的像素，以避免一定的冗余。因此，Ls可以用公式表示如下：用于分割标签地面实况的掩模。我们表示这些∑n−1D（S· W、G· W）地面实况地图为G1，G2，...，Gn分别马特Ls=1−i=1i i，n−1实际上，如果我们将比例尺视为ri，则裕度dipn和pi之间的关系可以计算为：面积（pn）×（1−r2）{Wx，y=1、如果Sn，x，y≥ 0. 5个;0，否则。（七）di=i，（2）周长（pn）其中Are a（·）是计算多边形面积的函数，Perimeter（·）是计算多边形周长的函数。此外，我们定义了地面的比例尺ri，真值映射Gi为：（1−m）×（n−i）这里，W是忽略Sn中的非文本区域的像素的掩码，并且Sn，x，y是指Sn中的像素（x，y）的值。4. 实验在本节中，我们首先对PSENet进行消融研究。然后，我们在四个方面评估所提出的PSENetri=1−、（3）n−1最近具有挑战性的公共基准：CTW 1500，Total- Text，ICDAR 2015和ICDAR 2017 MLT，并进行比较其中，m是最小缩放比，它是（0，1]。基于等式中的定义。(3)比例比率的值（即，r1，r2，…r n）由两个超参数n和m决定，并且它们从m到1线性增加。3.5. 损失函数为了学习PSENet，可以用公式表示损失函数如：L=λLc+（1−λ）Ls，（4）其中Lc和Ls分别表示完整文本实例和缩减文本实例的损失，λ平衡Lc和Ls之间的重要性。在自然图像中，文本实例通常只占据极小的区域，这使得当使用二进制交叉熵[3]时，网络的预测偏向于非文本区域受[29]的启发，我们在实验中采用了骰子系数.骰子系数D（Si，Gi）被公式化为等式11。（五）：∑2x，y（Si，x，y×Gi，x，y）PSENet与国家的最先进的方法。4.1. 数据集CTW1500 [24]是一个具有挑战性的长曲线文本检测数据集，由Yuliang等人构建。[24]第10段。它包括1000个训练图像和500个测试图像。不同于传统的文本数据集（例如，ICDAR 2015、ICDAR 2017 MLT），CTW 1500中的文本实例由具有14个点的多边形标记，该多边形可以描述任意曲线文本的形状。Total-Text[2]是一个新发布的用于曲线tex- t检测的数据集。水平、多方向和曲线文本实例包含在Total-Text中。基准控制器-1255张训练图像和300张测试图像。ICDAR 2015（IC15）[17]是文本检测的常用数据集。它总共包含1500张图片，其中1000张用于训练，其余用于测试。文本区域由四边形的4个顶点注释。ICDAR 2017 MLT（IC 17-MLT）[1]是一个大规模的多语言文本数据集，其中包括7200训练im-9341D（Si，Gi）=∑x为oh2i，x，y∑+x，y2i，x，y、（五）年龄，1800验证图像和9000测试图像。的SG9342数据集由来自9种语言的完整场景图像组成。4.2. 实现细节我们使用在ImageNet [5]上预训练的ResNet [10]作为我们的骨干。所有的网络都是用随机梯度下降法（SGD）优化的。我们使用7200个IC 17-MLT训练图像和1800个IC 17-MLT验证图像来训练模型，并在IC17-MLT上报告结果。请注意，没有额外的数据，例如采用SynthText [7]对IC 17-MLT进行训练。我们在IC17-MLT上训练PSENet，16对4 GPU，180K迭代。初始学习率设置为1 ×10−3，并在60K和120K迭代时除以10。其余数据集采用两种训练策略：（1）从头开始训练（2）对IC 17- MLT模型进行微调当从头开始训练时，我们在4个GPU上训练批量大小为16的PSENet，进行36K迭代，初始学习速率设置为1×10−3，并在12K和24K迭代时除以10。在IC 17-MLT上微调时模型，迭代次数为24K，初始学习速率为1×10−4，在12K次迭代时除以10我们使用5×10−4的重量衰减和0.99的Nesterov动量[35]，没有阻尼。我们采用由[8]引入的权重初始化。在训练过程中，我们忽略所有数据集中标记为“不关心”的模糊文本区域。损失余额的λ被设置为0。7 .第一次会议。O-HEM的正负比设置为3。训练数据的数据增强如下：1）图像按比例重新缩放{0。五一0，2。0，3。2）图像被水平翻转并在范围[-10，10]内随机旋转;3)640×640个随机样本从trans-形成的图像。对于四边形文本，我们计算最小面积矩形提取边界框。对于曲线文本数据集，PSE的输出将应用于生成最终结果。4.3. 消融研究核函数可以作为最终结果吗？核函数的目的是粗略地定位文本实例，并将彼此靠近的文本实例分离。然而，最小尺度核不能覆盖文本实例的全部区域，这对文本检测和识别造成了不利影响。在图6（a）中，仅使用最小尺度核的检测器的F测量（虚线）在ICDAR2015和CTW 1500数据集上是可怕的。此外，我们使用现代文本识别器CRNN [33]来识别完整文本实例和内核中的文本，发现CRNN未能识别内核中的文本（见图1）。2）的情况。因此，核不能用作最终检测结果。最小核尺度的影响。我们通过设置核的数目来研究最小尺度mn到2，并且让最小尺度m从1到0变化。1.一、在ICDAR 2015和CTW1500两个数据集上对模型进行了评估。我们可以从图中找到6（a）当m太大或太小时，测试集上的F-测度注意，当设置内核尺度为1时，我们只使用文本分割图作为最终结果，而没有渐进尺度扩展算法。显然，如果没有PSE，基线当m太大时，PSENet很难分离彼此靠近的文本实例。当m太小时，PSENet经常错误地将整个文本行分割成不同的部分，并且训练不能很好地收敛。核数的影响。我们研究了核数n对性能的影响，PSENet。具体来说，我们保持最小规模m不变，并使用不同数量的内核n训练PSENet。具体来说，我们设置m从0开始。ICDAR 2015为4，0。对于CTW1500，假设n从2增加到10。在ICDAR 2015和CTW 1500数据集上对模型进行了评估。图图6（b）显示了实验结果，从中我们可以发现，随着n的增大，测试集上的F-测度不断上升，当n≥5时，F-测度开始趋于平稳。多核的优点是它可以准确地重构两个文本实例，其中它们彼此紧密地躺在一起。骨干的影响。深度神经网络已被证明可以提高大规模图像分类和对象检测的性能。为了更好地分析所提出的PSENet的能力，我们采用ResNet作为我们的骨干，具有三种不同的深度{50，101，152}，并在大规模数据集IC 17-MLT上进行测试。如Ta所示-表1，在相同的设置下，将脊柱深度从50提高到152，可以明显地提高性能，从70.8%提高到72.2%，绝对提高1.4%。4.4. 与现有技术方法的比较检测曲线文本。为了测试曲线文本检测的能力，我们在CTW1500上评估了我们的方法，图6.最小核尺度（m）和核数（n ）的烧蚀研究（Eqn.（三））。这些结果是基于从头开始训练的 PSENet-1（Resnet 50）。“1s” means the shape of output map is9343方法PRFPSENet（ResNet50）73.768.270.8PSENet（ResNet101）74.868.971.7PSENet（ResNet152）75.369.272.2表1.性能随着IC 17-MLT上更深的骨干而增长“P”、“R”和“F”分别表示查准率、查全率和F-度量。方法Ext公司简介PRFFPSCTPN [36]-60.4*53.8*56.9*7.14SegLink [32]-42.3*40.0*40.8*10.7东[42]-78.7*49.1*60.4*21.2[24]第二十四话-77.469.873.413.3[26]第二十六话J67.985.375.6-PSENet-1s-80.5775.5578.03.9PSENet-1sJ84.8479.7382.23.9PSENet-4sJ82.0977.8479.98.4表2. CTW1500上的单标度结果。“P”、“R”和“F”分别表示查准率、查全率和F-度量。“1s” and “4s” means the width andheight of output map is * 表示来自[24]的结果Total-Text，主要包含曲线文本。在测试阶段，我们将图像的长边缩放到1280并使用与[24]相同的评价方法评价结果。我们分别在表2和表3中报告了PSENet在CTW 1500和Total-Text上的单尺度性能。请注意，我们只使用ResNet50作为主干。在CTW 1500上，PSENet超越了所有的同行-即使没有外部数据。值得注意的是，我们可以发现PSENet实现的F-测量值（82.2%）比CTD+ Tensor高8.8%，比TextSnake高6.6%。据我们所知，这是文献中报道的最佳结果。在Total-Text上，PSENet的准确率、召回率和F-测度分别达到84.02%、77.96%和80.87%，优于现有方法2.47%以上。请注意，我们的PSENet在F-measure中远远超过了Total- Text的基线40%以上。在CTW 1500和Total-Text上的性能表明了PSENet在处理曲线文本和任意形状文本时的优越性我们还举例说明了几个具有挑战性的结果，并与图24中最先进的CTD+ TREF [24]进行了一些视觉比较。第7（d）段。比较清楚地表明，PSENet可以很好地区分非常复杂的曲线文本实例，并以令人信服的方式将它们分开。检测定向文本。我们在IC15上评估了所提出的PSENet，以测试其面向文本检测的能力只有ResNet50被采用作为PSENet的主干在推理过程中，我们将输入图像的长边缩放到2240。我们在表4中将我们的方法与其他最先进的方法进行了比较。仅用单一尺度设置，我们的方法实现了85.69%的F-措施，超过了3个百分点以上的艺术结果的另外我们表3. Total-Text上的单尺度结果。“P”、“R”和“F”分别表示查准率、查全率和F-度量。“1s” and“Ext”表示外部数据。请注意，EAST和SegLink没有在Total-Text上进行微调。因此，其结果仅供参考。方法ExtIC15PRFFPSCTPN [36]-74.2251.5660.857.1SegLink [32]J73.176.875.0-SSTD [11]J80.2373.8676.917.7[第13话]J79.3377.0378.16-东[42]-83.5773.4778.213.2[第28话]-82.073.077.0-2R CNN [16]-85.6279.6882.54-DeepReg [12]-82.080.081.0-PixelLink [4]-82.981.782.37.3Lyu等人[27日]J94.170.780.73.6RRD [20]J85.679.082.26.5[26]第二十六话J84.980.482.61.1PSENet-1s-81.4979.6880.571.6PSENet-1sJ86.9284.585.691.6PSENet-4sJ86.183.7784.923.8表4. IC15上的单标度结果。“P”、“R”和“F”分别代表查准率、查全率和F-测度。 “1s” and “4s” means the width andheight of output map is “Ext”表示外部数据。在图中演示一些测试示例。7（a），PSENet可以准确定位具有各种方向的文本实例。检测多语言文本。为了测试PSENet对多种语言的鲁棒性，我们在IC 17-MLT基准上对PSENet进行了评估。由于数据集规模庞大我们将原始图像放大2倍，所提出的PSENet实现了72.13%的F-度量，比现有技术的方法绝对高出5.3%。此外，我们在图中展示了一些测试示例。7（b），PSENet可以准确定位多种语言的文本实例。这证明了PSENet对于多语言和多方向检测是鲁棒的，并且确实可以部署在复杂的自然场景中。结果示于表5中。请注意，我们使用高分辨率来测试IC 15和IC 17-MLT，因为这两个数据集中有很多小文本。4.5. 速度分析如表6所示，PSENet可以快速检测曲线文本实例。采用ResNet50和ResNet18作为后台，方法Ext全文PRFFPSSegLink [32]-30.323.826.7-东[42]-50.036.242.0-DeconvNet [2]-33.040.036.0-[26]第二十六话J82.774.578.4-PSENet-1s-81.7775.1178.33.9PSENet-1sJ84.0277.9680.873.9PSENet-4sJ84.5475.2379.618.49344图7. CTW1500上三个基准点的检测结果和几个代表性曲线文本的比较。补充材料中提供了更多示例。方法ResF时间消费FPS主干（ms）头部（ms）PSE（ms）PSENet-1s（ResNet50）128082.250681453.9PSENet-4s（ResNet50）128079.95060108.4PSENet-4s（ResNet50）96078.333335913PSENet-4s（ResNet50）64075.61820821.65PSENet-4s†（ResNet18）96074.3010171026.75表5. IC 17-MLT的单尺度结果。“P”、“R”和“F”分别表示查准率、查全率和F-度量。“Ext” indicates external来权衡速度和准确性我们特别分析了PSENet在不同阶段的时间消耗。当输出特征图为输入图像的1/1时，PSENet的推理性能最好，而PSE由于特征图较大，推理时间占总推理时间的一半以上。如果输出特征图的大小为输入图像的1/4，则PSENet的FPS可以从3.9提升到8.4，而性能s-从84.84%略微下降到82.09%，如表2所示我们可以看到PSE的时间消耗不到总推理时间的1/10。此外，当我们缩放640的长边缘时，FPS进一步推到22，检测器仍然具有良好的性能（75.6%）。当我们使用ResNet 18作为主干时，PSENet的速度接近实时（27 FPS），同时性能仍然具有竞争力。请注意，PSENet（ResNet18）不使用外部数据进行预训练。结合表2，我们可以发现PSENet在速度和性能上都超过了EAST和CTD+ THEAD。上述实验均在CTW 1500测试仪上进行。我们评估所有的测试图像，并计算平均速度。我们缩放{1280，960，640}的长边作为输入来测试速度。表6中的所有结果都是通过PyTorch [30]和一个1080Ti GPU测试的。表6. PSENet在CTW-1500上的时间消耗。总时间由主干、分段头和PSE部分组成†表明是从零开始训练的“Res” represents the resolution输入图像。“F” represent the5. 结论和未来工作本文提出了一种新的渐进尺度扩展网络（PSENet）来成功地检测自然场景图像中任意形状的文本实例该方法通过多个语义分割图将检测区域从小核逐步扩展到大的完整实例在场景文本检测基准测试上的实验证明了该方法的优越性能。未来有多个方向需要探索。首先，我们将研究扩展算法是否可以与网络端到端一起训练其次，渐进尺度扩展算法可以被引入到一般的实例级分割任务中，特别是在那些具有许多拥挤对象实例的基准测试中。我们正在清理我们的代码，并将很快释放它们。6. 确认本文的研究工作得到了国家自然科学基金项目61672273和61832008、江苏省杰出青年科学基金项目BK 20160021和国家电网公司科学基金项目“输电线路冰风灾特征识别与预测的少样本机器学习方法研究”的资助。方法ExtIC17-MLTPRF[1]第一章44.4825.5932.49[1]67.7534.7845.97TDN SJTU2017 [1]64.2747.1354.38SARI FDU RRPN v1 [1]71.1755.5062.37SCUT DLVClab 1 [1]80.2854.5464.96Lyu等人[27日]J83.855.666.8PSENet（ResNet50）-73.7768.2170.88PSENet（ResNet152）-75.3569.1872.139345引用[1] Icdar2017 多语言场景文本检测和脚本识别竞赛。http://rrc.cvc.uab.es/？ch=8& com=introduction.[2] Chee Kheng ChTotal-text：用于场景文本检测和识别的在ICDAR，2017年。[3] Pieter-Tjerk De Boer，Dirk P Kroese，Shie Mannor，andReuven Y Rubinstein.关于交叉熵方法的教程。《运筹学年鉴》，2005年。[4] Dan Deng ， Haifeng Liu ， Xuelong Li ， and Deng Cai.Pix- ellink：通过实例分割检测场景文本。在AAAI，2018。[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[6] 泽维尔·格洛罗特安托万·博德斯和约舒亚·本吉奥。深度稀疏整流神经网络。InICAIS，2011.[7] Ankush Gupta，Andrea Vedaldi，Andrew Zisserman.用于自然图像中的文本定位的合成数据。在CVPR，2016年。[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在ICCV，2015年。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射在ECCV，2016年。[11] 潘和，黄伟林，何通，朱启乐，乔玉，李晓林。具有区域注意力的单次文本检测器。InICCV，2017.[12] 何文豪，张旭尧，尹飞，刘成林。面向多场景文本检测的深度直接回归。ICCV，2017年。[13] Han Hu ， Chengquan Zhang ， Yuxuan Luo ， YuzhuoWang ， Junyu Han ， and Errui Ding. Wordsup ：Exploiting word an- notations for character based textdetection. InICCV，2017.[14] Gao Huang ， Zhuang Liu ， Kilian Q Weinberger ， andLaurens van der Maaten. 密集连接的卷积网络。在CVPR，2017年。[15] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[16] Yingying Jiang，Xiangyu Zhu，Xiaobing Wang，ShuliYang ， Wei Li ， Hua Wang ， Pei Fu ， and ZhenboLuo.R2cnn：旋转区域cnn用于方向鲁棒场景文本检测。arXiv预印本arXiv：1706.09579，2017。[17] Dimosthenis Karatzas，Lluis Gomez-Bigorda，AnguelosNicolaou，Suman Ghosh，Andrew Bagdanov，MasakazuIwa- mura ， Jiri Matas ， Lukas Neumann ， VijayRamaseshan Chan- drasekhar ， Shijian Lu ， et al.Icdar2015稳健阅读竞赛ICDAR，2015年。[18] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。IEEE会议录，1998。9346[19] Minghui Liao ， Baogang Shi ， Xiang Bai ， XinggangWang，and Wenyu Liu.Textboxes：一个具有单个深度神经网络的快速文本检测器InAAAI，2017.[20] Minghui Liao ， Zhen Zhu ， Baogang Shi ， Gui-songXia，and Xiang Bai.面向场景文本检测的旋转敏感回归。在CVPR，2018年。[21] 林宗义、彼得·多尔、罗斯·格希克、何开明、B-哈拉斯·哈里哈兰和塞尔日·贝隆吉.用于目标检测的特征金字塔网络。在CVPR，2017年。[22] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy，Scott Reed，Cheng-Yang Fu，andAlexander C Berg. Ssd：单发多盒探测器。在ECCV，2016年。[23] Xuebo Liu，Ding Liang，Shi Yan，Dagui Chen，YuQiao，and Junjie Yan.Fots：通过统一的网络快速定位文本。arXiv预印本arXiv：1801.01671，2018。[24] Yuliang Liu，Lianwen Jin，Shuaitao Zhang，and ShengZhang.检测野外曲线文本：新数据集和新解决方案。2017年。[25] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分割的全

下载后可阅读完整内容，剩余1页未读，立即下载