SwinTextSpotter：改进文本检测和识别的协同作用进行场景文本定位

73 浏览量更新于2023-10-25 收藏 14.01MB PDF 举报

文本检测

文本识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

45930SwinTextSpotter：通过改进文本检测和文本识别之间的协同作用进行场景文本定位0Mingxin Huang 1 † Yuliang Liu 2 † Zhenghao Peng 2 Chongyu Liu 1 Dahua Lin 20Shenggao Zhu 3 Nicholas Yuan 3 Kai Ding 4 Lianwen Jin 1,5 �01华南理工大学2香港中文大学3华为云AI4英特信信息有限公司5彭城实验室0eelwjin@scut.edu.cn0摘要0最近几年，端到端场景文本定位引起了极大的关注，因为挖掘场景文本检测和识别之间的内在协同作用取得了成功。然而，最近的最先进方法通常通过共享骨干网络来整合检测和识别，而不直接利用两个任务之间的特征交互。在本文中，我们提出了一种新的端到端场景文本定位框架，称为SwinTextSpotter。我们使用具有动态头部的Transformer编码器作为检测器，通过一种新颖的RecognitionConversion机制将这两个任务统一起来，以显式地通过识别损失引导文本定位。直接的设计结果是一个简洁的框架，既不需要额外的校正模块，也不需要针对任意形状的文本进行字符级注释。对RoIC13和ICDAR2015的多方向数据集、Total-Text和CTW1500的任意形状数据集以及ReCTS（中文）和VinText（越南文）的多语言数据集进行的定性和定量实验表明，SwinTextSpotter明显优于现有方法。代码可在https://github.com/mxin262/SwinTextSpotter获得。01. 引言0场景文本定位旨在检测和识别自然图像中的整个单词或句子，由于其在自动驾驶[64]、智能导航[42,50]和关键实体识别[51,65]等领域的广泛应用，引起了很多关注。传统的场景文本定位方法将检测和识别视为两个独立的任务，并采用一种流水线，首先在输入图像上定位和裁剪文本区域，然后预测0† 平等贡献。�通讯作者。0（a）不使用Recognition Conversion0（b）使用Recognition Conversion0（c）使用Recognition Conversion的识别损失。0图1. Recognition Conversion的有效性。提出的RecognitionConversion明确地引导检测，从而提高文本定位的性能。0通过将裁剪的区域输入到文本识别器中，将文本序列转换为文本识别器[9, 14, 16, 23,35]。这样的流水线可能存在一些限制，例如（1）这两个任务之间的误差累积，例如，不精确的检测结果可能严重影响文本识别的性能；（2）两个任务的分别优化可能无法最大化文本定位的最终性能；（3）内存消耗大，推理效率低。0因此，许多方法[12, 20, 27,32]尝试在端到端系统中解决文本定位问题，即在统一的架构中联合优化检测和识别。识别器可以通过消除误报检测结果[20,21]来提高检测器的性能。反过来，即使检测不精确，识别器仍然可以通过大的感受野正确预测文本序列。RC, SwinTextSpotter has a concise framework without thecharacter-level annotation and rectiﬁcation module used inprevious works to improve the recognizer. SwinTextSpot-ter has superior performance in both the detection and therecognition. As illustrated in Figure 1(b), the detector ofSwinTextSpotter can accurately localize difﬁcult samples.On the other hand, more accurate detection features can im-prove the recognizer and result in faster convergence andbetter performance, as shown in Figure 1(c).We conduct extensive experiments on six benchmarks,including multi-oriented dataset RoIC13 [22] and ICDAR2015 [18], arbitrarily-shaped dataset Total-Text [6] andSCUT-CTW1500 [29], and multilingual dataset ReCTS(Chinese) [66] and VinText (Vietnamese) [36]. The resultsdemonstrate the superior performance of the SwinTextSpot-ter: (1) SwinTextSpotter achieves 88.0% F-measure for thedetection task on SCUT-CTW1500 and Total-Text, exceed-ing previous methods by a large margin; (2) SwinTextSpot-ter signiﬁcantly outperforms ABCNet v2 [30] by 9.8% interms of 1-NED for the text spotting task in ReCTs dataset.Additionally, without using character-level annotation onReCTs, SwinTextSpotter outperforms previous state-of-the-art methods MaskTextSpotter [21] and AE TextSpotter [54]that use such annotation; (3) SwinTextSpotter shows betterrobustness for the extremely rotated instances on RoIC13dataset compared to MaskTextSpotter v3 [21]. The maincontributions of this work are summarized as follows.45940特征图的有效领域[21,27]。另一个优点是，与级联流水线相比，端到端系统更容易维护和转移到新的领域，因为模型与数据耦合在一起，因此需要大量的工程工作[30, 55]。0然而，大多数现有的端到端场景文本定位系统存在两个限制[8, 22, 28, 32, 38, 39,49]。首先，如果检测仅基于输入特征中的视觉信息，检测器容易被背景噪声分散注意力并提出不一致的检测结果，如图1（a）所示。同一图像中的文本之间的相互作用是消除背景噪声影响的关键因素，因为同一个单词的不同字符可能包含强烈的相似性，例如背景和文本样式。使用Transformer[48]可以学习文本实例之间的丰富交互。例如，Yu等人[62]使用Transformer使文本在语义层面上相互作用。Fang等人[7]和Wang等人[57]进一步采用Transformer来建模文本之间的视觉关系。其次，通过共享骨干网络来实现检测和识别之间的交互还不够，因为识别损失既没有优化检测器，也没有利用检测特征。MaskTextSpotter[21]通过设计字符分割图来同时优化检测和识别结果；ABC-Netv2[30]提出了自适应端到端训练（AET）策略，使用检测结果提取识别特征，而不仅仅使用基准值；ARTS[67]通过使用可微分的空间变换网络（STN）[15]将识别分支的损失反向传播到检测分支，改进了端到端文本定位的性能。然而，这三种方法都假设检测器以结构化方式提出文本特征，例如按阅读顺序。因此，文本定位的整体性能受到检测器的限制。0我们提出了SwinTextSpotter，这是一个端到端可训练的基于Transformer的框架，旨在改善文本检测和识别之间的协同效应。为了更好地区分拥挤场景中密集分布的文本实例，我们在SwinTextSpotter中使用了Transformer和两级自注意机制，促进了文本实例之间的交互。针对任意形状场景文本识别中的挑战，受到[13,45]的启发，我们将文本检测任务视为一个集合预测问题，因此采用了基于查询的文本检测器。我们进一步提出了RecognitionConversion（RC），通过将检测特征纳入识别头部，隐式地指导识别过程。RC可以将识别信息反向传播到检测器，并抑制特征中的背景噪声，从而实现检测器和识别器的联合优化。借助所提出的RC，SwinTextSpotter具有简洁的框架，无需字符级注释和矫正模块，以改善识别器。SwinTextSpotter在检测和识别方面表现出优越的性能。如图1（b）所示，SwinTextSpotter的检测器可以准确地定位困难样本。另一方面，更准确的检测特征可以改善识别器，加快收敛速度并提高性能，如图1（c）所示。我们在六个基准测试中进行了大量实验，包括多方向数据集RoIC13 [22]和ICDAR 2015[18]，任意形状数据集Total-Text [6]和SCUT-CTW1500[29]，以及多语言数据集ReCTS（中文）[66]和VinText（越南文）[36]。实验结果表明SwinTextSpotter的优越性能：（1）SwinTextSpotter在SCUT-CTW1500和Total-Text上的检测任务中实现了88.0％的F-measure，大幅超过以前的方法；（2）SwinTextSpotter在ReCTs数据集上的文本识别任务中，1-NED方面的性能比ABCNet v2[30]提高了9.8％。此外，在ReCTs上不使用字符级注释的情况下，SwinTextSpotter的性能超过了使用此类注释的先进方法MaskTextSpotter [21]和AE TextSpotter[54]；（3）与MaskTextSpotter v3[21]相比，SwinTextSpotter在RoIC13数据集上对极端旋转实例具有更好的鲁棒性。本文的主要贡献总结如下。0•SwinTextSpotter突破性地展示了Transformer和集合预测方案在端到端场景文本识别中的有效性。0• SwinTextSpotter采用RecognitionConversion来利用文本检测和识别的协同效应。0•SwinTextSpotter是一个简洁的框架，不需要字符级注释，也没有专门设计的矫正模块，可以识别任意形状的文本。0•SwinTextSpotter在多个公共场景文本基准测试中实现了最先进的性能。02. 相关工作0分离的场景文本识别。在过去的几十年中，深度学习方法的出现极大地推动了场景文本识别的发展。Wang等人[52]使用基于滑动窗口的检测器检测字符，然后对每个字符进行分类。Bissacco等人[2]结合了DNN和HOG特征，并通过字符分类构建了一个文本提取系统。Liao等人[24]提出了TextBoxes，它以两阶段方式结合了单次检测器和文本识别器[43]。然而，上述方法将检测和识别视为Detection Head𝑏𝑏𝑜𝑥𝑘𝑝𝑟𝑜𝑝DetectionFeatures 𝑓𝑑𝑒𝑡𝑀𝑎𝑠k𝐾𝑎3𝑎2𝑎345950细化阶段×K0带有动态头的Transformer编码器0识别器0perrier RoI特性0� � , i= 1,2,3。0下采样0融合特征0识别转换0扩张SwinTransformer0RoI对齐0检测器0图2.提出的SwinTextSpotter的框架。灰色箭头表示从图像中提取特征。绿色箭头和橙色箭头分别表示检测阶段和识别阶段。检测头的输出在K个阶段中进行了改进。第K个阶段的检测输出作为识别阶段的输入。0两个任务之间没有信息交换的独立任务。0端到端文本定位。最近，研究人员尝试将检测和识别结合到一个系统中。Li等人[20]将检测和识别统一到一个可训练的端到端场景文本定位框架中。FOTS[27]使用一阶段检测器生成旋转框，并采用RoIRotate将定向文本特征采样到水平网格中以连接检测和识别。He等人[12]提出了一个类似的框架，使用基于注意力的识别器。0对于任意形状的场景文本定位任务，MaskTextSpotter系列[21, 22,32]通过使用字符分割分支来解决问题，提高了识别器的性能，而无需明确的矫正。TextDragon[8]通过RoISlide将文本实例的预测段转换为水平特征，将这两个任务结合起来。Wang等人[49]采用Thin-Plate-Spline[3]变换来矫正特征。ABCNet[28]及其改进版本ABCNetv2[30]使用BezierAlign将任意形状的文本转换为规则形状。这些方法通过使用矫正模块将检测和识别统一到可训练的端到端系统中取得了巨大进展。Qin等人[39]提出了RoIMasking来提取任意形状文本识别的特征。与[39]类似，PAN++[55]基于更快的检测器[56]。AETextSpotter[54]通过语言模型使用识别结果来指导检测。尽管通过共享骨干网络在文本定位的性能上取得了显著的改进，但上述方法既不将识别损失反向传播到检测器，也不在识别器中使用检测特征。因此，检测器和识别器仍然相对独立，没有进行联合优化。最近，钟等人[67]提出了ARTS，使用空间变换网络（STN）[15]将识别损失的梯度传递给检测器，展示了检测和识别在文本定位中的协同作用。03. 方法论0SwinTextSpotter的整体架构如图2所示，包括四个组件：（1）基于Swin-Transformer的骨干网络；（2）基于查询的文本检测器；（3）识别转换模块，用于连接文本检测器和识别器；（4）基于注意力的识别器。0如图2中的绿色箭头所示，在检测的第一阶段中，我们首先随机初始化可训练参数为bbox0和提议特征fprop0。为了使提议特征包含全局信息，我们使用全局平均池化提取图像特征并将其添加到fprop0中。然后使用bbox0提取RoI特征。RoI特征和fprop0被送入具有动态头的Transformer编码器。Transformer编码器的输出被展平并形成提议特征fprop1，将被送入检测头以输出检测结果。盒子bboxk-1和提议特征fpropk-1将作为后续第k个检测阶段的输入。提议特征fpropk通过将RoI特征与先前的fpropk-1融合来递归地更新自身，使得提议特征保留来自先前阶段的信息。我们重复这样的改进共计K个阶段，类似于基于查询的检测器中的迭代结构。这种设计允许更强大的尺寸和长宽比的检测。有关检测器的更多详细信息，请参见第3.2节。0由于识别阶段（橙色箭头）需要比检测阶段更高的分辨率，我们使用最终的检测阶段输出框bboxK来获取分辨率是检测阶段的四倍的RoI特征。为了保持特征的分辨率与提议特征融合时的检测器一致，我们对RoI特征进行下采样，得到三个尺寸递减的特征图，分别表示为{a1，a2，a3}。然后，通过融合最小的a3和提议特征f prop K，我们得到检测特征f det0在识别阶段包含所有先前的检测信息。最后，{a1，a2，a3}和检测特征f detDCMeansDCDCDCDC𝑀𝑆𝐴𝑘𝑚𝑎𝑠𝑘𝑘𝑏𝑏𝑜𝑥𝑘𝑓𝑘𝑝𝑟𝑜𝑝𝑓𝑘−1𝑝𝑟𝑜𝑝45960SwinTransformer+ FPN0图像0图3.设计的膨胀Swin-Transformer示意图。DC表示两个膨胀卷积层，一个Vanilla卷积层和一个残差结构。0发送到RecognitionConversion和识别器以生成识别结果。关于RecognitionConversion和识别器的更多细节将在第3.3节和第3.4节中解释。03.1. 膨胀Swin-Transformer0Vanilla卷积在固定大小（例如3×3）上局部操作，导致连接远程特征的效果低下。然而，对于文本识别来说，建模不同文本之间的关系至关重要，因为同一图像中的场景文本具有强烈的相似性，如它们的背景和文本样式。考虑到全局建模能力和计算效率，我们选择了Swin-Transformer[31]与特征金字塔网络（FPN）[25]来构建我们的主干网络。在一行文本中的单词之间存在空白时，感受野应该足够大，以帮助区分相邻的文本是否属于同一行文本。为了实现这样的感受野，如图3所示，我们将两个膨胀卷积层[63]、一个Vanilla卷积层和一个残差结构引入原始的Swin-Transformer，同时也将CNN的特性引入Transformer [59]。03.2. 基于查询的检测器0我们使用基于查询的检测器来检测文本。基于SparseR-CNN [45]，基于查询的检测器建立在ISTR[13]上，将检测视为一个集合预测问题。我们的检测器使用一组可学习的提议框，替代了来自RPN[40]的大量候选框，以及一组可学习的提议特征，表示对象的高级语义向量。检测器经验性地设计为具有六个查询阶段。通过具有动态头部的变压器编码器，后续阶段可以访问存储在提议特征中的前一阶段的信息[17, 45,47]。通过多个细化阶段，检测器可以应用于任何尺度的文本。第k阶段检测头部的架构如图4所示。第k-1阶段的提议特征由f prop k-1 ∈ R N,d表示。在第k阶段，提议0线性ConV参数0展平0线性0具有动态头部的线性cls�变压器编码器0线性0加和规范化0卷积0规范化和激活0卷积0规范化和激活0RoI特征0检测头部0图4.检测中的第k阶段示意图。f propk-1是前一阶段输出的提议特征。MSAk表示第k阶段的多头注意力。f prop k将作为下一阶段的输入。0将前一阶段生成的特征f prop k-1输入到自注意力模块[48]MSAk中，以建模关系并生成两组卷积参数。因此，前几个阶段的检测信息被嵌入到卷积中。以前的提议特征为条件的卷积用于编码RoI特征。使用RoIAlign[11]从前一阶段的检测结果bboxk-1中提取RoI特征。卷积的输出特征被输入到线性投影层，以生成下一阶段的f prop k。然后，f propk被输入到预测头部，生成bbox k和maskk。为了减少计算量，2D掩码通过主成分分析[58]转换为1D掩码向量，因此mask k是一个一维向量。当k = 1时，bbox0和f prop0是随机初始化的参数，它们是第一阶段的输入。在训练过程中，这些参数通过反向传播进行更新，并学习文本的高级语义特征的归纳偏差。我们将文本检测任务视为一个集合预测问题。形式上，我们使用二分图匹配来匹配预测和真实值[4, 13, 44, 45]。匹配成本为：0L_match = λ_cls ∙ L_cls + λ_L1 ∙ L_L1 + λ_giou ∙ L_giou +λ_mask ∙L_mask，(1)其中λ是用于平衡损失的超参数。L_cls是焦点损失[26]。用于回归边界框的损失是L1损失L_L1和广义IoU损失L_giou[41]。我们按照[13]计算掩码损失L_mask，该损失计算预测掩码与真实值之间的余弦相似度。检测损失类似于匹配成本，但我们使用L2损失和Dice损失[33]替代余弦相似度，如[13]中所示。03.3. Recognition Conversion0为了更好地协调检测和识别，我们提出了RecognitionConversion (RC)来在空间上注入a2a1a3a1a2d1d2d3r1r2Lreg = − 1TT�k=1log p(yi),(9)45970从检测头将特征传递到识别阶段，如图5所示。RC由Transformer编码器[48]和四个上采样结构组成。RC的输入是检测特征f_det和三个下采样特征{a1, a2,a3}。检测特征被发送到Transformer编码器TrE()，使得前一阶段的检测信息进一步与a3融合。然后通过一系列的上采样操作Eu()和Sigmoid函数φ()，生成三个文本区域的掩码{M1, M2, M3}：0d1 = TrE(f_det)，(2)0d2 = (Eu(d1) + a2)，(3)0d3 = (Eu(d2) + a1)，(4)0Mi = φ(di)，i = 1, 2, 3，(5)0利用掩码{M1, M2, M3}和输入特征{a1, a2,a3}，我们在以下流程中进一步有效地集成这些特征：0r1 = M1 ∙ a3，(6)0r2 = M2 ∙ (Eu(r1) + a2)，(7)0r3 = M3 ∙ (Eu(r2) + a1)，(8)0其中{r1, r2,r3}表示识别特征。r3是图5中融合的特征，最终发送到最高分辨率的识别器。如图5中的蓝色虚线所示，识别损失L_reg的梯度可以反向传播到检测特征，使得RC通过识别监督隐式改进检测头。通常，为了抑制背景，融合特征将与检测头预测的掩码K相乘（在L_mask的监督下）。然而，由于检测框不够紧密，背景噪声仍然存在于特征图中。通过提出的RC，可以缓解这个问题，因为RC使用检测特征生成紧密的掩码来抑制背景噪声，该过程受到识别损失的监督，而不仅仅是检测损失。如图5右上角所示，M3抑制的背景噪声比掩码K更多，其中M3在文本区域中的激活较高，在背景中较低。因此，RC生成的掩码{M1, M2, M3}将应用于识别特征{r1, r2,r3}，使得识别器更容易集中在文本区域上。通过RC，识别损失的梯度不仅会回传到主干网络，还会回传到提议特征。在检测监督和识别监督的共同优化下，提议特征可以更好地编码文本的高级语义信息。因此，提出的RC可以促进检测和识别之间的协调。0Transformer编码器0空空0空0融合特征（r3）0检测特征0� ��0Sigmoid函数0元素相加元素相乘0检测特征前向传播识别特征前向传播识别损失反向传播0�� 30图5. Recognition Conversion的详细结构。03.4. 识别器0在对特征图应用RC之后，背景噪声被有效地抑制，因此文本区域可以更精确地被界定。这使得我们仅需使用一个顺序识别网络就能获得有希望的识别结果，而无需像TPS [ 3]，RoISlide [ 8 ]，Bezier-Align [ 28 ]或MaskTextSpotter[ 21]中使用的字符级分割分支那样的矫正模块。为了增强细粒度特征提取和序列建模，我们采用了双层自注意机制，受到[61]的启发，作为识别编码器。双层自注意机制（TLSAM）包含了细粒度和粗粒度的自注意机制，分别用于局部邻域区域和全局区域。因此，它可以在保持全局建模能力的同时有效地提取细粒度特征。至于解码器，我们简单地采用了MaskTextSpotter中的空间注意模块（SAM）[ 22]。识别损失如下所示：0其中 T 是序列的最大长度， p ( y i ) 是序列的概率。04. 实验0我们在各种场景文本基准测试上进行实验，包括多方向场景文本基准测试RoIC13 [ 22 ]和ICDAR 2015 [ 18]，多语言数据集ReCTS [ 66 ]和Vintext [ 36]，以及两个任意形状的场景文本基准测试Total-Text [ 6]和SCUT-CTW 1500 [ 29]。消融研究在Total-Text上进行，以验证我们提出的方法的每个组成部分。FOTS [27]81.175.960.8Mask TextSpotter [21]83.077.773.5CharNet [60]83.179.269.1TextDragon [8]82.578.365.2Mask TextSpotter v3 [22]83.378.174.2MANGO [37]81.878.967.3PAN++ [55]82.778.269.2ABCNet v2 [30]82.778.573.0SwinTextSpotter83.977.370.5FOTS [27]82.578.380.3150.8MaskTextSpotter [21]88.889.389.067.8AE TextSpotter [54]91.092.691.871.8ABCNet v2 [30]87.593.690.462.7SwinTextSpotter87.194.190.472.5We use the following datasets: Curved SynthText [28]is a synthesized dataset for arbitrarily-shaped scene text. Itcontains 94,723 images with multi-oriented text and 54,327images with curved text. ICDAR 2013 [19] is a scene text45980方法 ICDAR 2015 端到端0表1. ICDAR2015上的端到端识别结果。“S”，“W”和“G”分别表示使用“Strong”，“Weak”和“Generic”词典进行识别。0方法检测 1-NED R P H0表2. ReCTS上的端到端文本定位结果和检测结果。04.1. 实现细节0我们遵循[ 37 ]中的训练策略。首先，模型在CurvedSynthText [ 28 ]，ICDAR-MLT [ 34]和相应的数据集上进行预训练，共进行450K次迭代。初始学习率为2.5×10−5，在第380K次迭代时降低到2.5×10−6，在第420K次迭代时降低到2.5×10−7。然后，我们在Total-Text、ICDAR2013和ICDAR-MLT上共同训练预训练模型80K次迭代，其中在第60K次迭代时降低到十分之一。最后，我们在相应的数据集上对共同训练的模型进行微调。我们还遵循[ 30 ]和[36]中的训练策略，在中文和越南语上训练模型。我们从输入图像中提取了4个特征图，分辨率分别为输入图像的1/4、1/8、1/16、1/32。我们使用图像批量大小为8来训练模型。训练过程中采用了以下数据增强策略：（1）随机缩放；（2）随机旋转；（3）随机裁剪。训练过程中还应用了随机亮度、对比度和饱和度等其他策略。04.2. 数据集02013年提出的数据集。它包含229张训练图像和233张测试图像。ICDAR 2015[18]是2015年建立的。它包含1,000张训练图像和500张测试图像。ICDAR 2017[34]是一个多语言文本数据集。它包含7,200张训练图像和1,800张验证图像。我们只选择包含英文文本的图像进行训练。ICDAR19 ArT[5]是一个任意形状文本的数据集。它包含5,603张训练图像。ICDAR19 LSVT[46]是一个包含30,000张中文数据集的大型数据集。Total-Text[6]是任意形状场景文本的基准。它包含1,255张训练图像和300张测试图像。提供了单词级别的多边形框注释。SCUT-CTW1500[29]是一个文本行级任意形状场景文本数据集。它包含1,000张训练图像和500张测试图像。与Total-Text相比，该数据集包含更密集和更长的文本。ReCTS[66]包含20,000张训练图像和5,000张测试图像。它还提供字符级别的边界框，但我们的方法没有使用。VinText[36]是一个最近提出的越南文本数据集。它包含1,200张训04.3. 与最先进方法的比较0除特殊情况外，表中的所有值均为百分比。多方向和多语言数据集。我们首先在ICDAR2015上进行实验，展示了SwinTextSpotter在定向场景文本上的优越性。表1显示，SwinTextSpotter在ICDAR2015上取得了最佳的强词典结果，而不使用字符级别的注释，这些注释是由ABCNet v2和Mask-TextSpotterv3使用的。我们还在RoIC13数据集上进行实验，该数据集在[22]中提出，以验证SwinTextSpotter的旋转鲁棒性。端到端的识别结果如表3所示。无论是在旋转角度45°还是在旋转角度60°的数据集中，SwinTextSpotter都可以在H-mean指标上达到最先进的水平。我们的方法在旋转角度45°上的H-mean比Mask TextSpotterv3高1.5％，在旋转角度60°上高1.3％。除了英语，我们还在中文数据集ReCTS和越南数据集VinText上进行了实验，以验证SwinTextSpotter的普适性。如表2所示，对于ReCTS，我们的方法在1-NED上比只能处理词级注释的ABCNetv2高出9.8％。SwinTextSpotter的1-NED比AE-TextSpotter高出0.7％，后者是需要额外字符级别注释的SOTA方法。对于VinText，端到端的结果如表4所示，“D”表示在识别器的训练中使用字典。SwinTextSpotter在VinText上也可以超越以前的方法，显示了我们方法的泛化性。值得注意的是，对于上述任务，我们不像ABCNet+D和MaskTextSpotter v3+D那样在识别器的训练中使用字典。CharNet [60]85.666.6-ABCNet [28]-64.275.7PGNet [53]86.163.1-Mask TextSpotter [21]85.265.377.4Qin et al. [39]-67.8-Mask TextSpotter v3 [22]-71.278.4MANGO [37]-72.983.6ABCNet v2 [30]87.070.478.1PAN++ [55]-68.678.6SwinTextSpotter-Res87.272.483.0SwinTextSpotter88.074.384.1TextDragon [8]83.639.772.4-ABCNet [28]81.445.274.1-MANGO [37]-58.978.7-ABCNet v2 [30]84.757.577.246.9SwinTextSpotter88.051.877.045.745990方法旋转角度45° 旋转角度60°0R P H R P H0CharNet [60] 35.5 34.2 33.9 8.4 10.3 9.3 Mask TextSpotter [21] 45.8 66.4 54.2 48.3 68.2 56.6 MaskTextSpotter v3 [22] 66.8 88.5 76.1 67.6 88.5 76.6 SwinTextSpotter 72.5 83.4 77.6 72.1 84.6 77.90表3. RoIC13上的端到端识别结果。P，R，H分别代表精确率，召回率和Hmean。0方法 H-mean0ABCNet [ 28 ] 54.20ABCNet+D [36] 57.40Mask Textspotter v3 [ 36 ] 53.40Mask Textspotter v3+D [36] 68.50SwinTextSpotter 71.10表4.VinText上的端到端文本定位结果。ABCNet+D表示将[36]中提出的方法添加到ABCNet中。Mask Textspotter v3+D同理。0方法检测端到端0H-mean 无全部0表5.Total-Text上的端到端文本识别结果和检测结果。SwinTextSpotter-Res表示使用ResNet50和FPN作为骨干网络。“None”表示无词典。 “Full”表示我们使用测试集中出现的所有单词。0方法检测端到端 1-NED 平均值无有0表6.SCUT-CTW1500上的端到端文本识别结果和检测结果。“None”表示无词典。 “Full”表示我们使用测试集中出现的所有单词。0这三个基准测试的定性结果如图6（c）（d）（e）（f）所示。0不规则文本。我们在两个任意形状的场景文本数据集（Total-Text和SCUT-CTW1500）上进行了检测和端到端场景文本识别任务的实验。在文本检测任务中，表5和表6的结果表明，SwinTextSpotter在这两个数据集上都可以达到88%的H-mean，分别比之前的最先进方法高出1.0%和3.3%。至于端到端场景文本识别任务，根据表5，SwinTextSpotter在Total-Text上明显优于之前的方法，F-measure达到74.3%，比ABCNetv2高出3.9%，比MANGO高出1.4%。此外，为了与之前的方法进行公平比较，我们将我们的扩张Swin-Transformer骨干网络替换为ResNet-50，性能仍然可以与最佳结果相媲美（我们的方法为72.4%，MANGO为72.9%）。然而，在SCUT-CTW1500上，如表6所示，虽然我们的方法在文本检测方面表现最佳，但端到端文本识别结果仍存在差距。我们在第4.5节中讨论和分析了这种现象。一些定性结果如图6（a）（b）所示。04.4. 消融研究0为了评估所提出组件的有效性，我们在Total-Text上进行了消融研究。ResNet-50被用作基准骨干网络。在消融研究中，我们只训练SwinTextSpotter的不同变体，使用CurvedSynthText、ICDAR-MLT和相应的数据集作为第一阶段，如第4.1节所述。识别转换。如表7所示，使用RC，检测结果和端到端场景文本识别结果分别提高了3.0%和6.9%。RC极大地提高了检测器和识别器的性能。这主要是因为RC可以为文本区域生成更具区分性的特征，从而提升文本识别的性能，从而使文本检测器受益。扩张的Swin-Transformer。我们还比较了不同骨干网络的性能。使用Swin-Transformer的模型在端到端结果上比ResNet-50提高了2.9%，但在检测方面没有改进。将扩张卷积融入Swin-Transformer可以进一步提高检测结果0.7%和端到端结果0.5%。两级自注意机制。在表7中，我们S(a) Total-Text(b) CTW1500(c) VinText(d) ReCTS(e) ICDAR2015(f) RoIC1346000方法识别转换 Swin-Transformer TLSAM 扩张卷积 Total-Text0检测平均值端到端平均值0基准线 78.9 55.70基准线 + � 81.9 62.60基准线 + � � 81.7 65.50基准线 + � � 81.7 62.50基准线 + � � � 82.4 66.00表7. 在没有微调的Total-Text上的消融研究。基线骨干网络使用ResNet-50。TLSAM代表两级自注意机制。0图6. 我们方法的可视化结果。白色文本表示正确结果；红色文本表示错误结果；蓝色文本表示文本实例的GT标记为“不关心”。在屏幕上查看最佳。0进一步进行实验，探索细粒度特征的影响。扩张的Swin-Transformer在捕捉细粒度特征方面表现不佳，而两级自注意机制可以有效弥补这个缺点。两级自注意机制对细粒度特征的增强可以分别在文本检测和端到端文本识别结果上提高0.8%和0.9%。04.5. 限制和讨论0长任意形状文本。我们知道，长任意形状文本需要一个高分辨率的特征图来进行识别。当特征图变大时，识别器中的注意力图也会扩展。大的注意力图可能导致识别器的不匹配，从而导致在SCUT-CTW1500上的端到端文本识别性能较低。长任意形状数据的数量有限。我们的识别解码器需要比1D-Attention [1]和CTC[10]更多的训练数据，因此尚未训练得很好。然而，表6中显示的1-NED结果和“Full”结果缩小了我们的方法与ABCNet v2之间的差距，这表明错误主要发生在单个字符上。05. 结论0在本文中，我们提出了Swin

下载后可阅读完整内容，剩余1页未读，立即下载