文本检测：TextSnake方法的灵活场景文本表示及性能提升

92 浏览量更新于2023-10-13 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

TextSnake：一种检测任意形状龙尚邦1、 2[0000− 0002− 4089− 5369]，阮家强1、 2，张文杰1、 2，、何新2、吴文浩 2、姚聪 21 2北京大学，旷视科技股份有限公司{longlongsb，阮家强，张文杰}@ pku.edu.cn，{hexin，wwh}@ megvii.com，yaocong2010@gmail.com抽象。在深度神经网络和大规模数据集的驱动下，场景文本检测方法在过去几年中取得了实质性进展，不断刷新各种标准基准的性能记录然而，受用于描述文本的表示（轴对齐矩形、旋转矩形或四边形）的限制，现有的方法在处理更自由形式的文本实例（诸如弯曲文本）时可能不足为了解决这个问题，我们提出了一个更灵活的表示场景文本，称为TextSnake，这是能够有效地表示文本实例在水平，定向和弯曲的形式。在TextSnake中，文本实例被描述为以对称轴为中心的有序重叠盘的序列，每个盘与潜在可变的半径和方向相关联。此类几何属性经由全卷积网络（FCN）模型来估计。在实验中，基于TextSnake的文本检测器在Total-Text和SCUT-CTW 1500上实现了最先进或相当的性能，Total-Text和SCUT-CTW 1500是两个新发布的基准，特别强调自然图像中的弯曲文本，以及广泛使用的数据集IC-DAR 2015和MSRA-TD 500。具体来说，TextSnake在Total-Text上的F-测量值比基线高出40%以上。关键词：场景文本检测，深度神经网络，弯曲文本1介绍近年来，社会已经见证了一个研究的兴趣和努力，从自然场景中提取文本信息，又名。场景文本检测和识别[48]。其驱动因素既有应用前景，也有研究价值。一方面，场景文本检测和识别在场景理解、产品搜索和自动驾驶等广泛的实际系统中发挥着越来越重要的作用。另一方面，场景文本的独特性，如颜色、比例、方位、长宽比和图案的显著变化，使其明显不同于一般对象。因此，提出了特别的挑战，需要进行特别调查。2Shangbang Long等.（b）第（1）款（c）第（1）款(a)（d）其他事项图1.一、文本实例的不同表示形式的比较（a）轴对齐的直角。（b）旋转矩形。（c）四合院。（d）TextSnake。显然，所提出的TextSnake表示能够有效且精确地描述具有透视畸变的弯曲文本的几何属性，诸如位置、比例和弯曲，而其他表示（轴对齐矩形、旋转矩形或四边形）在这种情况下难以给出准确的预测。文本检测作为文本信息提取流程中的先决步骤，最近随着深度神经网络和大型图像数据集的发展而取得了实质性进展。提出了许多创新工作[39，29，47，17，10，46，30，36，6，9，34，22，28，40，31]，在标准基准上实现了优异的然而，大多数现有的文本检测方法都有一个强烈的假设，即文本实例大致呈线性形状，因此采用相对简单的表示（轴对齐矩形，旋转矩形或四边形）来描述它们。尽管这些方法在标准基准上取得了进展，但在处理不规则形状的文本实例（例如弯曲文本）时可能会有所不足。如图所示1，对于具有透视变形的弯曲文本，常规表示难以给出几何属性的精确事实上，弯曲文本的实例在现实生活中很常见[15，43]。在本文中，我们提出了一种更灵活的表示，可以很好地适应任意形状的文本，即，水平、多向、曲线形等。这种表示用一系列有序的、重叠的圆盘来描述文本，每个圆盘位于文本区域的中心轴，并与潜在的可变半径和方向相关联。由于其出色的能力，在适应复杂的文本结构的多样性，就像蛇改变其形状，以适应外部环境，所提出的表示被命名为TextSnake。文本实例的几何属性，即，中心轴点、半径和方向用单个全卷积网络（FCN）模型来估计。除了ICDAR 2015和MSRA-TD 500之外，TextSnake的有效性还在Total-Text和SCUT-CTW 1500上进行了验证，这两个新发布的基准主要针对弯曲文本。该算法在两个弯曲文本数据集上实现了最先进的性能，同时在水平和多方向文本上优于以前的方法，即使在单尺度测试模式下。具体来说，TextSnake在Total-Text的基线上实现了40的显着改进。0%的F值。TextSnake3总之，本文的主要贡献有三个方面：（1）提出了一种灵活通用的任意形状场景文本表示方法;(2)在此基础上，提出了一种有效的场景文本检测方法;（3）本文提出的文本检测算法在多个基准测试中取得了最佳的性能，包括不同形式的文本实例（水平、定向和弯曲）。2相关工作在过去的几年中，场景文本检测领域最突出的趋势是从传统方法[3，24]转移到基于深度学习的方法[13，12，17，47，29]。在本节中，我们回顾了之前的相关工作。有关全面调查，请参阅[41，48]。在深度学习时代之前，SWT [3]和MSER [24]是两种代表性算法，影响了各种后续方法[42，11]。现代方法大多基于深度神经网络，其可以粗略地分为两类：基于回归和分段。基于回归的文本检测方法[17]主要从一般的对象检测框架中汲取灵感TextBoxes [17]采用了SSD [19]，并添加了基于Faster-RCNN [26]，Ma等人。 [23]设计了旋转区域建议网络（RRPN）来检测自然图像中的任意方向文本。EAST [47]和Deep Regression [8]都以逐像素的方式直接生成旋转的文本框或四边形。基于分割的文本检测方法将文本检测视为语义分割问题，并且FCN [21]通常被视为参考框架。Yao等人[39]修改FCN以产生对应于文本的各种属性的多个热图，例如文本区域和方向。Zhang等人。 [46]首先使用FCN提取文本块，然后使用MSER [24]从这些块中搜索字符候选者。为了更好地分离相邻文本实例，[36]的方法将每个像素区分为三个类别：非文本、文本边框和文本。这些方法主要在将文本像素分离为不同实例的方式上有所不同。上述方法在该领域的各种基准上取得了优异的性能然而，大多数作品，除了[39，6，15]，没有特别注意弯曲的文本。相比之下，本文提出的表示适合于任意形状的文本（水平，多方向和弯曲）。它主要受到[39，6]的启发，并且文本的几何属性也通过基于FCN的模型的多通道输出来估计与[39]不同，我们的算法不需要字符级注释。此外，它还与SegLink [29]共享类似的想法，通过连续将文本分解为本地组件，然后将它们组合回文本实例。类似于[45]，我们还检测文本实例的线性对称轴以进行文本定位。4Shangbang Long等.CθR磁盘所提出的方法的另一个优点在于其能够重建文本实例的精确形状和区域轮廓，这可以很大程度上促进随后的文本识别过程，因为所有检测到的文本实例可以方便地转换成具有最小失真和背景的规范形式（参见图9中的示例）。3方法在本节中，我们首先介绍任意形状文本的新表示。然后我们描述我们的方法和训练细节。3.1表示文本区域文本中心线图二、所提出的TextSnake表示的图示文本区域（黄色）表示为一系列有序的圆盘（蓝色），每个圆盘位于中心线（绿色，也称为对称轴或骨架），并与半径r和方向θ相关联。与常规表示（例如，TextSnake是一个非常灵活的工具（例如，轴对齐的矩形、旋转的矩形和四边形），TextSnake更灵活和通用，因为它可以精确地描述不同形式的文本，而不管形状和长度。如图1、场景文本的常规表示（例如，轴对齐的矩形、旋转的矩形和四边形）不能精确地描述不规则形状的文本实例的几何属性，因为它们通常假设文本实例大致为线性形式，这对于弯曲文本不成立。为了解决这个问题，我们提出了一个灵活的通用表示：短信蛇如图所示2、TextSnake表示一个文本TextSnake5例如，重叠盘的序列，每个重叠盘位于中心线处并且与半径和取向相直观地说，TextSnake能够改变其形状以适应文本实例的变化，例如旋转，缩放和弯曲。在数学上，由几个字符组成的文本实例t可以被视为有序列表S（t）。S（t）={D0，D1，· · ·，Di，· · ·，Dn}，其中Di表示第i个盘，n是盘的数目。每个盘D与一组几何属性相关联，即D=（c，r，θ），其中c，r和θ分别是圆盘D半径r被定义为t的局部宽度的一半，而取向θ是围绕中心c的中心线的切线方向。在这个意义上，可以通过计算S（t）中的盘的并集来容易地重构文本区域t请注意，磁盘不对应于属于t的字符。然而，S（t）中的几何属性可以用于校正不规则形状的文本实例，并将它们转换成矩形、直的图像区域，这对文本识别器更友好。3.2管道TR TCL Masked TCL分离集半径余弦θsinθFCN+FPN文本实例重构跨步算法实例分割图3.第三章。方法框架：网络输出和后处理为了检测任意形状的文本，我们采用FCN模型来预测文本实例的几何属性。所提出的方法的流水线在图3中示出基于FCN的网络预测以下各项的得分图：6Shangbang Long等.文本中心线（TCL）和文本区域（TR），以及几何属性，包括r、cosθ和sinθ。TCL图被TR图进一步掩蔽，因为TCL自然是TR的一部分。为了执行实例分割，利用不相交集，给定TCL彼此不重叠的事实。采用跨越算法提取中心轴点列表，最后重构文本实例。3.3网络架构1 2 3 4 5/1输入conv stage 1 conv stage 2convstage3conv stage 4convstage5图像32、/2 64、/2128、/2256、/2512、/2Pℎ5ℎ4ℎ3ℎ2预测器concatconv 1x1，32conv 3x3，32deconv，x2图4.第一章网络架构。蓝色块是VGG-16的卷积级整个网络如图所示。4.受FPN[18]和U-net[27]的启发，我们采用了一种逐渐合并来自干网络不同级别的特征的方案。干网络可以是为图像分类提出的卷积网络，例如，VGG-16/19[33]和ResNet[7]。这些网络可以分为5个卷积阶段和一些额外的全连接（FC）层。我们移除FC层，并在每个阶段之后将特征图馈送到特征合并网络。我们选择VGG-16作为我们的干网络，以便与其他方法进行直接和公平的比较。对于特征合并网络，几个阶段依次堆叠，每个阶段由合并单元组成，合并单元从最后一个阶段和相应的主干网络层获取特征图。合并单元由以下等式定义h1=f5（1）hi=conv3×3（conv1×1[f6−i;UpSampling×2（hi−1）]），f或i=2，3，4，5（2）其中fi表示干网络中第i阶段的特征图，并且是对应合并单元的特征图。在我们的实验中上采样被实现为如[44]中提出的去卷积层TextSnake72合并后，我们得到一个大小为1的特征图输入图像.我们应用额外的上采样层和2个卷积层来产生密集的预测：hfinal=UpSampling×2（h5）（3）P=conv1×1（conv3×3（hfinal））（4）其中P∈ Rh×w×7，TR/TCL的logits有4个通道，最后3个通道分别为文本实例的r、cosθ和sinθ由于增加了上采样层，P的大小与输入图像相同。最终的预测结果是通过对TR/TCL取softmax并正则化cosθ和sinθ以使平方和等于1来获得的。3.4推理在前馈之后，网络产生TCL、TR和几何图。对于TCL和TR，我们分别应用具有值Ttcl和Ttr的阈值化。然后，TR和TCL的交集给出TCL的最终预测。使用不相交集，我们可以有效地分离TCL像素到不同的文本实例。最后，设计了一个跨越算法来提取一个有序的点列表，指示的形状和路线的文本实例，并重建文本实例区域。应用两个简单的启发式算法来过滤掉误报文本实例：1）TCL像素的数量应至少为0。2）重建的文本区域中的至少一半像素应被归类为TR。输入：分段TCL输出：预测展开到端点法案法案法案法案第一步第二步第三步第四步图五、后处理算法框架Act（a）Centralizing：将给定点重新定位到中心轴;Act（b）Striding：向文本实例的末端进行定向搜索;Act（c）Sliding：通过沿中心轴滑动圆进行重建8Shangbang Long等.图5中示出了用于跨步算法的过程它具有3个主要动作，表示为Act（a），Act（b）和Act（c），如图6所示。首先，我们随机选择一个像素作为起点，并集中它。然后，搜索过程分成两个相反的方向，大步前进和集中，直到它到达终点。这个过程将在两个相反的方向上生成2个有序的点列表，它们可以组合以产生遵循文本的过程并精确描述形状的最终中心轴3项行动的详情如下所示。行为（a）：集中行为（b）：跨越行为（c）：滑动图六、集中、跨越和滑动机制如图6所示，给定TCL上的一点，我们可以画出切线和法线，分别表示为虚线和实线。使用几何贴图可以轻松完成此步骤法线与TCL区域的交点的中点为中心点。Act（b）Striding算法跨一步到下一个要搜索的点使用几何图，计算并表示每个步幅的位移为（1r×cosθ，1r×sinθ）和（−1r×cosθ，−1r×sinθ），分别为两个2 2 2 2方向如果下一步在TCL区域之外，则递减步长Gr ad uuu nti t sin s i d e，or it it t s the e n d s.动作（c）滑动算法迭代通过中心轴并沿着它画圆。圆的半径从r映射获得。由圆圈覆盖的区域指示预测的文本实例。总之，利用几何图和TCL，精确地描述了文本实例的过程中，我们可以超越检测的文本，也预测他们的形状和过程。此外，跨越算法节省了我们的方法遍历所有相关的像素。3.5标签生成对于三角形和三角形，直接用代数方法计算TCL是可行的，因为在这种情况下，TCL是一个三角形。对于4个以上的多项式，它不像一般代数方法那样简单。TextSnake9ABB BBBDddCc CHGHGrHGFEFEFE(a)（b）（c）25相反，我们提出了一种方法，该方法是基于假设，文本实例是蛇形的，即。它不会分叉成多个分支。对于蛇形文本实例，它有两条边，分别是头部和尾部。靠近头部或尾部的两个边缘平行但方向相反。见图7。标签生成。(a)确定文本头和尾;（b）提取文本中心线并计算几何形状;（c）扩大文本中心线。对于由一组顶点{v0，v1，v2，… v n}在clockwise或counterclockwise或der中，将efineame作为urementforea chedgei ，i+1作为M（ei ，i+1）=cosei+1 ，i+2，ei−1，i。但是，这两个字与M的关系是-1，例如图7中的AH和DE，是头和尾。之后，在两个边线上采样相等数量的锚点，例如图7中的ABCD和HGFE。TCL点被计算为对应锚点的中点。我们将TCL的两端缩小1r端像素，使得TCL位于TR内部，并且使得网络易于学习分离相邻的文本实例。r_end表示两端TCL点的半径。最后，我们将TCL区域扩展1r，因为单点线容易产生噪声。计算TCL上每个点的r和θ：（1）r被计算为到边线上的对应点的距离;（2）θ通过在邻域中的TCL点上拟合直线来计算。对于非TCL像素，为方便起见，将其3.6培养目标所提出的模型是端到端训练的，目标是以下损失函数：L=Lcls+Lreg（5）Lcls=λ1Ltr+λ2Ltcl（6）Lreg=λ3Lr+λ4Lsin+λ5Lcos（7）10Shangbang Long等.联系我等式5中的Lcls表示TR和TCL的分类损失，Lreg表示r、cosθ和sinθ的回归损失。在等式6中，Ltr和Ltcl是TR和TCL的交叉熵损失。TR损失采用在线硬负挖掘[32]，负和正之间的比例最多保持在3：1。对于TCL，我们只考虑TR内部的像素，不采用平衡方法。在等式7中，回归损失，即Lr、Lsin和Lcos计算为平滑L1损失[4]：Lrr^−rrLcosLsinnθ−nθ其中r、cosθ和sinθ是预测值，而r、cosθ和sinθ相应地是它们的基础真值。TCL外的几何损失设置为0，因为这些属性对于非TCL点没有意义在我们的实验中，权重常数λ1、λ2、λ3、λ4和λ5都被设置为14实验在本节中，我们将在场景文本检测的标准基准上评估所提出的算法，并将其与以前的方法进行比较。对算法进行了分析和讨论。4.1数据集本文中用于实验的数据集简要介绍如下：SynthText [5]是一个包含约800K合成图像的大型数据集。这些图像是通过将自然图像与用随机字体、大小、颜色和方向呈现的文本混合来创建的，因此这些图像相当现实我们使用这个数据集来预训练我们的模型。TotalText [15]是一个新发布的文本检测基准除了水平和多方向文本实例之外，该数据集还特别具有弯曲文本，这在其他基准数据集中很少出现，但实际上在现实环境中非常常见。该数据集分为训练集和测试集，分别有1255和300张图像。CTW1500 [43]是另一个主要由弯曲文本组成的数据集。它由1000张训练图像和500张测试图像组成。文本实例使用具有14个顶点的多边形进行注释。ICDAR 2015被提议作为2015年Robust Reading Competition [14]的挑战4，用于偶然场景文本检测。有1000张图像用于训练，500张图像用于测试。来自该数据集的文本实例被标记为单词级四边形。MSRA-TD 500 [38]是一个具有多语言，任意方向和长文本行的数据集。它包括300个训练图像和200个测试图像，具有文本行级别注释。继以前的作品[47，22]，我们还包括图像TextSnake11在对该数据集进行微调时，将来自HUST-TR 400 [37]的数据作为训练数据，因为其训练集相当小。对于ICDAR 2015和MSRA-TD 500上的实验，我们根据我们方法的输出文本区域拟合最小边框4.2数据增强图像被随机旋转，并裁剪为0。24比1 69和纵横比范围为0. 33比3之后，随机调整噪波、模糊和我们确保增强图像上的文本仍然是清晰的，如果它们在增强之前是清晰的。见图8。所提出的方法的定性结果。顶部：检测到的文本轮廓（黄色）和地面实况注释（绿色）。底部：TR（红色）和TCL（黄色）的组合评分图。列中从左到右：图像来自ICDAR 2015、TotalText、CTW 1500和MSRA-TD 500。最好用彩色观看。4.3实现细节我们的方法在Tensorflow 1.3.0 [1]中实现该网络在SynthText上预先训练一个epoch，并在其他数据集上进行微调。我们采用Adam optimazer [16]作为我们的学习率方案。在预训练阶段，学习率固定为10-3。在微调阶段，学习率最初被设置为10 −3，并以0的速率指数衰减。每5000次迭代8次。在微调期间，迭代次数由数据集的大小决定。所有实验均在常规工作站（CPU：Intel（R）Xeon（R）CPU E5-2650 v3@2.30GHz;GPU：Titan X; RAM：384GB）。我们在2个GPU上并行训练我们的模型，批量大小为32，并在1个GPU上评估我们的模型，批量大小设置为1。超参数通过训练集上的网格搜索来调整。12Shangbang Long等.4.4实验结果弯曲文本（Total-Text和CTW 1500）上的实验在这两个数据集上的微调在大约5k次迭代时停止阈值T tr、T tcl被设置为（0. 四，零。6）和（0. 四，零。5）分别在Total-Text和CTW 1500上实现。在测试中，Total-Text的所有图像都被重新调整为512× 512，而CTW1500的图像没有调整大小，因为CTW 1500中的图像相当小（最大的图像只有400× 600）。为了进行比较，我们还在Total-Text和CTW1500上评估了EAST [47]和SegLink [29]的模型不同方法对这两个数据集的定量结果如表1所示1.一、表1.在Total-Text和CTW 1500上评估不同方法的定量结果。请注意，EAST和SegLink没有在Total-Text上进行微调。因此，仅供参考。CTW1500的比较结果来自[43]。数据集全文公司简介方法精度召回 F-measure精度召回 F-measureSegLink [29]三十323岁8 二十六岁7四十二3四十0四十8东[47]50块0三十六2四十二078岁7四十九1六十岁。4DeconvNet[25]三十三岁。0四十0三十六0---DMPNet [20]---69岁。9 五十六062. 2CTD[43]---74岁3六十五269岁。5[43]第四十三话---77.469岁。8七十三。4TextSnake82.774.578.467.985.375.6我们的方法在Total-Text和CTW 1500上的优越性能验证了所提出的表示方法可以很好地处理自然图像中的弯曲文本。Experiments on Incidental Scene Text（ICDAR 2015）ICDAR 2015上的微调在大约30k次迭代时停止在测试中，所有图像的大小都调整为1280× 768。 T tr、T tcl被设置为（0. 四，零。第9段）。考虑到ICDAR 2015中的图像包含许多未标记的小文本，过滤掉短边小于10像素或面积小于300的预测矩形表2显示了ICDAR 2015上不同方法的定量结果。只有单尺度测试，我们的方法优于大多数竞争对手（包括那些在多尺度评估）。这表明，所提出的表示TextSnake是通用的，可以很容易地应用到复杂场景中的多方向文本。长直文本行（MSRA-TD 500）上的实验MSRA-TD 500上的微调在大约10k次迭代时停止。T tr、T tcl的阈值是（0. 四，零。（六）。在测试中，所有图像的大小都调整为1280× 768。结果见表2。78.第78章我的世界3%），高于其他方法。TextSnake13表2.ICDAR 2015和MSRA-TD 500上不同方法的定量结果*表示多尺度，†表示模型的基本网络不是VGG16。数据集ICDAR 2015MSRA-TD500方法精度召回 F-measure精度召回 F-measure FPSZhang等人[ 46个]70.843.053.683.067.074.00.48Yao等人[39]第三十九届72.358.764.876.575.375.91.61SegLink [29]73.176.875.086.070.077.0-东[47]80.572.876.481.761.670.26.52WordSup* [9]79.377.078.2---2东*†[47]83.378.380.787.367.476.113.2Heet al.† [8]82.080.081.077.070.074.01.1PixelLink [2]85.582.083.783.073.277.83.0TextSnake84.980.482.683.273.978.31.14.5分析和讨论文本实例的精确描述我们的方法与其他方法的区别在于它能够预测文本实例的形状和过程的精确描述（见图8）。我们将这种能力归功于TCL机制。文本中心线可以看作是支撑文本实例的骨架，而地理属性则提供了更多的细节。文本作为书面语言的一种形式，可以被视为映射到2D表面上的信号当然，它应该遵循一个扩展的过程因此，我们建议预测TCL，这是比整个文本实例窄得多它有两个优点：（1）一个纤薄的TCL可以更好地描述课程和形状;（2）TCL，直观上，彼此不重叠，因此实例分割可以以非常简单和直接的方式完成，从而简化了我们的流水线。此外，如图9所示，我们可以利用局部几何形状来勾画文本实例的结构，并将预测的弯曲文本实例转换为规范形式，这可以在很大程度上促进识别阶段。图9.第九条。使用预测的几何图形将文本实例转换为规范形式14Shangbang Long等.泛化能力为了进一步验证我们方法的泛化能力，我们在没有弯曲文本的数据集上训练和微调我们的模型，并在两个具有弯曲文本的基准测试上对其进行评估。具体来说，我们在ICDAR 2015上微调了我们的模型，并在目标数据集上对它们进行了评估。EAST [47]，SegLink [29]和PixelLink [2]的模型被用作基线，因为这两种方法也在ICDAR 2015上进行了培训。表3.不同方法的跨数据集结果比较以下模型在ICDAR 2015上进行了微调，并在Total-Text和CTW 1500上进行了评估。对SegLink、EAST和PixelLink的实验是用开放源代码完成的评价方案为DetEval [35]，与Total-Text相同。数据集全文公司简介方法精度召回 F-measure精度召回 F-measureSegLink[29]35.633.234.433.02.430.5东[47]49.043.145.946.737.241.4PixelLink [2]53.552.753.150.642.846.4TextSnake61.567.964.665.463.464.4如表3所示，我们的方法在弯曲文本上仍然表现良好，并且显著优于三个强大的竞争对手SegLink，EAST和PixelLink，而无需对弯曲文本进行微调。我们把这种优秀的泛化能力，建议灵活的表示。该表示不是将文本作为一个局部属性在形成整体时被保留。此外，它们是相互独立的。因此，我们的方法的最终预测可以保留大部分的形状和过程的文本的信息。我们认为，这是所提出的文本检测算法在狩猎文本实例与各种形状的能力的主要原因。5结论和未来工作在本文中，我们提出了一种新的，灵活的描述场景文本的属性与任意形状，包括水平，多方向和弯曲的文本实例。提出的文本检测方法基于该表示在两个新发布的弯曲文本基准（Total-Text和SCUT-CTW1500）以及该领域中两个广泛使用的数据集（ICDAR 2015和MSRA-TD 500）上获得了最先进或相当的性能，证明了所提出的方法的有效性。至于未来的工作，我们将探索发展一个端到端的识别系统的任意形状的文本的方向。TextSnake15引用1. Abadi，M.，Barham，P.，陈杰，陈志，戴维斯，A.，迪恩J Devin，M.，Ghe-mawat，S.，Irving，G.Isard，M.，等：Tensorflow：一个大规模机器学习系统。 In：OSDI. vol. 第16页。2652. Deng，D.，刘洪，Li，X.，Cai，D.：Pixellink：通过实例分割检测场景文本。AAAI会议记录（2018）3. Epshtein，B.，Ofek，E.，Wexler，Y.：基于笔画宽度变换的自然场景中文字检测。在：IEEE计算机视觉和图像处理会议论文集（CVPR）中。pp.2963- 2970年。IEEE（2010）4. Girshick，R.：快速R-CNN。在：IEEE计算机视觉国际会议（ICCV）会议录（2015年12月）5. Gupta，A.，Vedaldi，A.，齐瑟曼，A.：用于自然图像中的文本定位的合成数据。在：IEEE计算机视觉和图像处理会议论文集（CVPR）中。pp. 23156. 他D杨，X.，Liang，C.，周志，Ororbia，A.G.，Kifer，D.，Giles，C.L.：多尺度fcn与级联的实例意识的分割任意定向词发现在野外。在：IEEE计算机视觉和图像处理会议论文集（CVPR）中。pp. 474IEEE（2017）7. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习IEEE计算机视觉与模式识别会议（CVPR）（2016）8. 他WZhang，X.Y.，Yin，F.，Liu，C.L.：用于多方向场景文本检测的深度直接回归在：IEEE计算机视觉国际会议（ICCV）会议录（2017年10月）9. Hu，H.，张，C.，Luo，Y.，（1996年），美国，王玉，汉，J.，Ding，E.：Wordsup：利用单词注释进行基于字符的文本检测。在：IEEE计算机视觉国际会议（ICCV）会议录（2017年10月）10. 黄湖，加-地杨，Y.，邓，Y.，Yu，Y.：Densebox：将地标定位与端到端对象检测统一起来。arXiv预印本arXiv：1509.04874（2015）11. 黄伟，Qiao，Y.，唐X：基于卷积神经网络诱导mser树的鲁棒场景文本检测。在：欧洲计算机会议论文集（ECCV）中。pp.49751102TheDog（2014）12. Jaderberg，M.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：中读取文本卷积神经网络的疯狂。International Journal of Computer Vision116（1），113. Jaderberg，M.，Vedaldi，A.，齐瑟曼，A.：文本定位的深层功能。在：ProceedingofEuropeanConferenceonComuterVision（ ECCV）中。 pp.512-528Spuringer（2014）14. Karatzas，D.戈麦斯-比戈达湖Nicolaou，A.，Ghosh，S.，Bagdanov，A.，岩村，M.，Matas，J.，诺伊曼湖钱德拉塞卡V.R.Lu，S.，等：Icdar2015稳健阅读竞赛。第13届文献检索与检索国际会议（ICDAR）。pp.1156IEEE（2015）15. Kheng Chng，C.，Chan，C.S.：Total-text：用于场景文本检测和识别的综合数据集。第 14 届 IAPR 文件分析与识别国际会议（ ICDAR ）（2017）16. Kingma，D.Ba，J.：Adam：随机最佳化的方法In：Proceedings of ICLR（2015）17. Liao，M.，施，B.，Bai，X.，王，X.，刘伟：Textboxes：一个快速的文本检测器，具有简单的设计。 In：请提供AAAI的产品。pp. 416116Shangbang Long等.18. Lin，T.Y.，Dollar，P.，格尔希克河他，K.，Hariharan，B.，Belongie，S.：用于对象检测的特征金字塔网络。在：IEEE计算机视觉和模式识别会议（CVPR）会议记录（2017年7月）19. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：SSD ：单次触发多盒探测器。在：欧洲会议上的 ComputerVision（ECCV）。pp. 21-37 02TheDog（2016）20. Liu，Y.，Jin，L.：深度匹配先验网络：面向更紧密的多方向文本电影Detection（2017）21. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。在：IEEE计算机视觉和图像处理会议论文集（CVPR）中。pp. 343122. Lyu，P.，Yao，C.，吴伟，Yan，S.，白X：多方向场景文本检测角点定位和区域分割。在：IEEE计算机视觉和模式识别会议论文集（CVPR）（2018）23. 妈，杰，邵伟，叶，H.，Wang，L.，美国，王，H.，郑宇，Xue，X.：通过旋转建议的任意定向场景文本检测。arXiv预印本arXiv：1703.01086（2017）24. 诺伊曼湖Matas，J.：提出了一种实时文本定位与识别的方法我是一个很好的朋友。 In：AsianConferenceonComuterVis ison（ACCV）. pp.770-783 03 The Sunday（2010）25. 诺H Hong，S.，汉，B.：语义段第100页152026. Ren，S.，他，K.，格尔希克河孙杰：Faster r-cnn：Towards real-timeobject detec- tion with region proposal networks.神经信息处理系统进展。pp.9127. Ronneberger，O.，Fischer，P.，Brox，T.：U-Net：生物医学卷积网络标准图像分割Springer International Publishing（2015）28. 盛志，字军，玉良湖Lianwen，J.，Canjie，L.：Feature EnhancementNetwork：A Refined Scene Text Detector.在：AAAI会议记录（2018）29. 施，B.，Bai，X.，Belongie，S.：基于链接的自然图像中有向文本检测ing段。在：IEEE计算机视觉和模式识别会议（CVPR）会议记录（2017年7月）30. 施，B.，Bai，X.，Yao，C.：一种端到端的可训练神经网络用于基于图像的序列识别及其在场景文本识别中的应用。IEEETransac-tionsonpaternanalysisandmachineintelligence39（11），229 831. 施，B.，杨，M.，王，X.，Lyu，P.，Yao，C.，白X：Aster：引人注目的场景具有灵活校正文本识别器。IEEE transactions on pattern analysis andmachine intelligence（2018）32. Shrivastava，A.，Gupta，A.，Girshick，R.：训练基于区域的对象检测器其中h〇nl in e hade xampl e mingpp. 76133. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv：1409.1556（2014）34. Tian，S.，Lu，S.，Li，C.：Wetext：弱监督下的场景文本检测IEEE计算机视觉国际会议（ICCV）（2017）35. Wolf，C. Jolion，J.M.：用于评估目标识别的检测和分割算法。International Journal of Document AnalysisandRecognition（IJDAR）8⑷，28036. 吴，Y.，Natarajan，P.：具有最少后处理的自组织文本检测通过边界学习。在：IEEE计算机视觉和图像处理会议论文集（CVPR）中。pp. 5000TextSnake1737. Yao，C.，Bai，X.，刘伟：一个统一的多方向文本检测与识别框架。IEEETransacti onsonImageProcessing23（11），473738. Yao，C.，Bai，X.，刘伟，妈妈，Y.，图，Z.：在自然图像中检测任意方向的文本。在：IEEE计算机视觉和图像处理会议论文集（CVPR）中。pp. 1083- 1090年。IEEE（2012）39. Yao，C.，Bai，X.，Sang，N.，Zhou，X.，中国科学院，Zhou，S.，Cao，Z.：通过整体、多通道预测进行场景文本检测。arXiv预印本arXiv：1606.09002（2016）40. Yao，C.，Bai，X.，施，B.，刘伟：笔划集：用于场景文本识别的学习多尺度在： Proceedings of the IEEE Conference on ComputerVisionandPattern Recognit ion中。pp. 404241. Ye ， Q. ， Doermann ， D. ：图像中的文本检测和识别：一个调查。IEEETransactionpater nanalysisandmachineintelligence37（7），148042. 尹旭春，Yin，X.，Huang，K.，Hao，H.W.：自然场景图像中的鲁棒文本检测。IEEE transactions on pattern analysis and machine intelligence 36（5），97043. 玉良湖Lianwen，J.，帅涛，Z.，Sheng，Z.：检测野外曲线文本：新数据集和新解决方案。arXiv预印本arXiv：1712.02170（2

下载后可阅读完整内容，剩余1页未读，立即下载