多任务Transformer弱监督文本定位方法

85 浏览量更新于2023-10-25 收藏 14.47MB PDF 举报

AI实验室

文本定位

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

the recognition head is usually trained using the detectionground-truth and thus it is not optimized for the predictionsof the detection head. Furthermore, the detection head istrained as a standard object detection model, without re-gard to the additional supervision given by the text tran-scription or to the downstream recognition task. Other than46040使用多任务Transformer进行弱监督文本定位0Yair Kittenplon Inbal Lavi Sharon Fogel Yarin Bar R.Manmatha Pietro Perona0AWS AI实验室0{ yairk, ilavi, shafog, yarinbar, manmatha, peronapp } @amazon.com0摘要0由于同时优化文本检测和识别组件的好处，端到端的文本定位方法最近在文献中引起了关注。现有的方法通常在检测和识别分支之间有明显的分离，需要两个任务的精确注释。我们引入了TextTranSpotter（TTS），这是一种基于Transformer的文本定位方法，也是第一个可以在完全监督和弱监督设置下进行训练的文本定位框架。通过学习每个单词检测的单一潜在表示，并使用基于匈牙利损失的新型损失函数，我们的方法减轻了昂贵的定位注释的需求。在真实数据上仅使用文本转录注释进行训练，我们的弱监督方法在性能上与之前最先进的完全监督方法相媲美。当以完全监督的方式进行训练时，TextTranSpotter在多个基准测试中展示了最先进的结果。01. 引言0文本定位，即在图像中检测和阅读文本，是机器在现实世界中运作的关键能力。应用包括建筑和城市中的车辆导航、图像集合和视频的索引、包裹的自动处理以及盲人和视觉障碍人士的假肢。这个挑战在计算机视觉文献中早已被认识到[6,19, 40]，目前正在经历深度学习的复兴[14,20]，大多数研究人员关注两个问题：架构和数据。早期系统[3,13]使用单独的架构进行文本检测和识别，没有共享任何组件。最近的方法通过共享卷积特征骨干[5,20]和使用特征裁剪机制来提取识别头的相关兴趣区域，向统一的端到端架构迈进了一步。这样的架构仍然不理想，因为识别头通常使用检测的真值进行训练，因此它对检测头的预测没有进行优化。此外，检测头是作为标准的目标检测模型进行训练的，而不考虑文本转录的附加监督或下游的识别任务。除了0图1.弱监督文本定位。上：完全监督（左）和弱监督（右）的地面真值（GT）注释可视化。下：在用于训练的数据集上，文本定位方法在Total-Text数据集上的结果（越高越好）与每个单词注释的时间成本（第4.5节，越低越好）。即使仅使用较弱的注释，我们的方法也超过了最先进的完全监督方法。46050相互优化骨干，任务是分开的，识别头需要转录注释，检测头需要多边形或边界框注释。最近，更复杂的方法放弃了两阶段的方法，直接定位和分类文本中的字符[1,30]，这进一步需要字符级注释。文本定位领域的数据集包括合成数据和真实数据。真实数据的注释是一项昂贵的任务，但仅依赖合成数据会导致结果不佳。大部分注释时间都用于检测的真值，而仅转录注释所需的时间不到一半，如第4.5节所讨论的。最先进的方法明确地分割文本区域，使识别器能够处理旋转、弯曲或密集的文本，并忽略背景噪声[5,22]。这种方法的一个缺点是需要昂贵的多边形注释[7,16]。在这项工作中，我们提出了一种新的文本定位方法，TextTranSpotter（TTS），它可以放弃昂贵的空间注释，只使用真实数据的转录注释。这种设置是弱监督的，只使用图像中文本的部分信息进行训练。在推理时，模型同时输出图像中文本的检测和转录结果。弱监督设置在许多用例中都有用，特别是在注释资源有限或只有文本转录注释的现有数据集的情况下。此外，TTS可以以完全或弱监督的方式进行训练，从而在模型性能和注释成本之间进行权衡（图1）。为了实现弱监督设置，我们与现有的文本定位方法不同，它们将文本检测和识别视为相关但独立的任务。我们的方法包括一种新颖的架构和损失函数，更好地纠缠了这两个任务，迈向了统一的端到端系统。TextTranSpotter利用了transformers的最新发展[4, 10,38]，创建了一个多任务网络（见图2），为检测和识别头学习一个单一的对象查询嵌入。任务头非常简单和精简；检测头是一个线性前馈网络，识别头是一个循环神经网络（RNN）[34]。这表明大部分计算是在共享的transformer中进行的，而不像大多数方法使用更复杂的识别和检测网络（请参见补充材料进行方法比较）。识别头的输入是transformer的输出，这使它能够学习给定查询的感兴趣区域，而不是将该区域明确地作为输入。因此，它在挑战性场景中的表现不需要准确的文本分割，如旋转文本、任意形状的文本或重叠边界的文本。0如果需要分割输出，则可以类似于检测和识别头部添加一个掩码头部，使用简单的反卷积解码器.我们的弱监督训练方案通过引入一种基于匈牙利匹配损失[4]的新损失函数来获得，该损失函数同时优化检测和识别任务.匈牙利损失在目标检测领域[4, 9, 29,44]中表现出了潜力，在我们的设置中是有意义的，其中匹配明确使用文本内容进行检测优化.我们的匈牙利损失，我们称之为文本匈牙利损失，用识别成本替换匹配标准中的检测成本.通过这种方式优化的共享嵌入与仅在合成数据上训练而不使用任何关于真实数据的空间信息相比，具有显著的优势.我们的弱监督模型达到了与现有的全监督方法相当的结果.我们的主要贡献是：01.一种仅使用文本注释而没有任何真实数据的空间基准的弱监督训练方案，利用一种新颖的基于匈牙利匹配损失的文本匹配损失.02.第一个基于多任务transformer的文本定位方法，其中为检测和识别预测学习了每个单词的单一表示.03.广泛的定量基准测试显示，我们的全监督方法在常见的文本定位基准测试上取得了最先进的结果，我们的弱监督方法在与之前的全监督方法相比具有竞争力的结果.04.第一个为同一架构提供全监督训练方案和弱监督训练方案的文本定位框架，提供了模型准确性和注释成本之间的权衡.02. 相关工作0文本定位.Li等人[20]可能是第一个将深度检测和识别模块集成到统一的端到端系统中的人，通过使用共享的骨干编码器和RoIPooling[33]将检测到的特征馈送到识别头部.Liu等人[25]建议使用RoIRotate来从旋转矩形检测结果中提取特征. Liao等人[28]引入了MaskTextSpotter，利用字符级注释来检测和识别字符和实例掩码，以处理任意形状的场景文本.Xing等人[41]检测和识别单个字符，使用文本实例检测结果对它们进行分组.Liu等人[26]将参数化的贝塞尔曲线拟合到文本轮廓，并设计了一个用于曲线文本特征提取的贝塞尔对齐层. Qin等人[31]提出了RoiMask，专注于任意形状的文本区域.Feng等人[11]建议使用RoISlide，一种从文本的预测段中融合特征的采样方法，可以对长的任意形状的文本具有鲁棒性. Liao等人[22]通过添加一个分割提议网络（SPN）来改进MaskTextSpotter[28]，以生成由准确多边形表示的提议.Qiao等人[30]去除了RoI操作，并设计了一个位置感知注意模块来粗略地定位文本序列.然而，需要字符级和多边形注释. Baek等人[1]也学习字符级掩码，将其馈入基于注意力的识别器.recognize individual characters, using the text instance de-tection results to group them. Liu et al. [26] fit parameter-ized Bezier curves to the text contour, and design a Bezier-Align layer for curved text feature extraction. Qin et al. [31]propose RoiMask, focusing on the arbitrary-shaped text re-gion. Feng et al. [11] suggest using RoISlide, a samplingmethod which fuses features from the predicted segments ofthe text, allowing robustness to long arbitrary-shaped text.Liao et al. [22] improve Mask TextSpotter [28] by adding aSegmentation Proposal Network (SPN) to generate propos-als represented by accurate polygons. Qiao et al. [30] re-move the RoI operations and design a position-aware atten-tion module to coarsely localize the text sequences. How-ever, character-level and polygon annotations are required.Baek et al. [1] also learn character-level masks, which arefed into an attention-based recognizer.46060图2. TextTranSpotter. 我们端到端架构的概述.与之前的方法不同，只共享骨干网络，TextTranSpotter的transformer编码器-解码器为每个检测（彩色方块）计算一个联合查询嵌入.这个嵌入被共享用于识别、检测和分割头部，分别由循环神经网络（RNN）、线性前馈网络（FFN）和反卷积解码器（Deconv）组成.我们的弱监督设置是通过仅在真实数据上训练识别和分类头部，使用检测头部进行盒子预测的推理时间来工作的.可以在补充材料中找到将我们的架构与之前的文本定位方法进行比较的插图.0我们采用了端到端系统的思想，并进一步提出了一种基于多任务Transformer的统一编码-解码机制。学习每个查询的相互特征嵌入使我们不再需要设计手工特征汇聚操作。此外，我们方法的多任务性质减轻了对精确注释（如多边形或字符级注释）的需求。0弱监督方法。Zhao等人[42]提出了一种用于任意文本检测的弱监督方法，通过使用基于期望最大化的方法，并在不同监督级别下进行了广泛的注释时间研究。Janouskova等人[15]通过使用预训练的定位模块作为注释器，从弱注释的现有数据中生成了一个大型的文本识别数据集。为了创建伪地面真实标签，他们使用Levenshtein距离将预测的转录与弱注释的真实标签集匹配。Bartz等人[2]建议使用固定分辨率网格作为可微分的定位汇聚机制，以弱监督方式训练实际的端到端文本定位系统。Qiao等人[30]朝着弱监督方向迈出了一步。0通过训练边界框而不是多边形，我们建议了一种监督式文本定位方法，但这会导致性能显著降低。受到Zhao等人的研究[42]的启发，该研究显示了多边形或分割掩码注释的高成本，我们建议一种端到端的识别方法，其中边界框对于任务已经足够。此外，我们引入了一种弱监督框架，其中文本转录是训练所需的唯一真实数据注释，并提供了对检测和文本转录的注释时间的研究。匈牙利匹配。在过去的十年中，基于学习的目标检测方法[24, 32, 33,37]已被用于学习工程密集预测，并使用手工规则过滤近似预测。最近，Carion等人[4]提出了一种新的目标检测方法DETR，将问题形式化为直接集合预测问题。它使用基于匈牙利算法[18]的二分匹配损失来执行真实检测和预测检测之间的一对一匹配，而不是密集方法中的一对多匹配。这种稀疏检测范式在目标检测文献中变得流行[35, 36,44]并推动了该领域的发展。Zhu等人[44]通过引入可变形注意力和多尺度架构来缓解DETR中的一些问题，即收敛速度慢和小目标性能低下。在这一研究方向的基础上，我们发现稀疏检测方法适用于多任务损失公式化，其中给定的目标查询可以针对除了检测之外的其他任务进行优化。我们使用基于匈牙利匹配的损失，通过将识别成本项添加到匹配标准中。03. 方法0我们提出了一种端到端的文本定位方法，名为TextTranSpotter（TTS）。其架构的描述如下：ˆσ = argminσ∈θNN�i=1C(yi, ˆyσ(i)),(1)LHungarian(y, ˆy) =N�i=1L(yi, ˆyˆσ(i)).(2)46070在第3.1节中介绍了一种新颖的匈牙利匹配损失变体，用于文本定位；在第3.2节中描述了将该方法调整为弱监督设置的方法。03.1. 架构0TTS由基于Transformer的编码器-解码器组成，后面跟着并行的检测、识别和分割头部，如图2所示。联合查询嵌入。我们的编码-解码模块在检测和识别分支之间共享。按照Carion等人[4]的方法，我们的架构使用一定数量的学习位置嵌入作为解码器的输入，称为目标查询。解码器学习每个目标查询的潜在表示，q emb ∈ Rd emb，并将其用作模型中所有任务特定头部的输入。检测和识别头部都以轻量级的方式设计，这意味着大部分计算由Transformer完成，同时为两个任务进行联合优化。这种设置不仅通过检测损失改进了检测任务的嵌入，还通过识别损失优化改进了嵌入，如我们在第4.6节的消融研究中所示。如果需要多边形输出，优化后的查询嵌入可以用作分割头部的输入，如下所述。网络基于用于目标检测的Deformable-DETR架构[44]。它由一个传统的CNN主干网络生成多尺度特征图，然后是一个可变形的Transformer编码器-解码器，其中除了学习注意力图本身外，还学习注意力头的偏移量。这种注意力机制的动态结构使得网络能够识别旋转、弯曲甚至倒置的文本，而无需任何特殊处理，如第4.4节所述。事实上，我们的网络能够实现这一点，即使它只使用轴对齐的框注释进行训练，这比多边形注释要便宜得多。检测头部。我们遵循最近的目标检测方法[4,44]，使用一个3层前馈网络（FFN）来回归查询单词框相对于输入图像的归一化参数，并使用线性投影层来预测查询分数，即分类查询是否包含单词。识别头部。据我们所知，所有先前的识别模型，包括文本定位方法中使用的模型，都使用空间信号作为识别头部的输入（例如，图像或主干网络的裁剪输出）。在我们的方法中，只使用一维联合查询嵌入，由Transformer编码器-解码器计算得到。为了提取文本转录，我们使用一个顺序的基于LSTM的解码器，其中输入是联合查询嵌入q emb ，输出是0图3。匹配操作。上：训练期间的GT和模型预测。下：使用原始DETR标准[4]（左）和使用我们建议的标准（右）进行匹配操作。与GT匹配的预测用蓝色标记。可以看到，TTS将预测与最佳预测的转录匹配，即使其框IOU得分较低。0对于每个时间步k，字符概率tk ∈ Rl0其中 l是字母表的长度。分割头。TTS在完全监督的设置下使用文本边界框和识别转录进行训练，没有任何多边形注释。然而，如果需要多边形输出，可以基于冻结的TTS模型权重单独训练一个分割头。给定预训练的查询嵌入，可以使用由4个线性层和3个反卷积层构建的轻量级分割头提取二进制掩码，描述检测到的边界框中的文本。然后，可以从二进制掩码计算多边形输出。03.2. 文本匈牙利损失0受最近的目标检测方法[4, 35,44]的启发，我们采用了二分图匹配损失方法，使用匈牙利算法[18]在真实检测和预测检测之间找到一对一的匹配 ˆ σ：0其中 C 是用于执行匹配的标准，y 是真实集合，ˆ y是预测集合，N 是预测或对象查询的数量，θ N是可能匹配的集合。匈牙利损失函数基于匹配 ˆ σ进行构建：C(y, ˆyσ(i)) = −αcˆpσ(i)(ci)+1{ci̸=∅}αboxCbox(bi,ˆbσ(i))+ 1{ci̸=∅}αrecCrec(ti, ˆtσ(i)),(3)L(yi, ˆyˆσ(i)) = −βclogˆpˆσ(i)(ci)+1{ci̸=∅}βboxLbox(bi,ˆbˆσ(i))+1{ci̸=∅}βrecLrec(ti, ˆtˆσ(i)).(4)Crec(ti, ˆtσ(i)) = Lrec(ti, ˆtσ(i)) =�j−logˆpσ(i)(tji)(5)̸̸46080图4。弱监督匹配交换。左侧显示GT实例。右侧显示TTS weak训练期间的预测，其中每个预测与相同颜色的GT匹配。尽管两个“as”单词的匹配被交换，但弱监督损失保持不变（公式7），因此匹配是正确的。0为了更好地利用转录注释，我们不仅考虑了检测和分类标准（如[4]中所述），还引入了基于识别的标准 C rec 和损失 Lrec 到匹配成本 C 和损失 L中，从而引入了一种新的文本匈牙利损失。完全监督的匹配标准为：0其中 c i 、 b i 和 t i 是真实类别、边界框和转录，ˆ p σ ( i )( c i ) 是类别 c i 的预测概率，α c 、α box 和 α rec是分类、边界框和转录标准的权重。完全监督的损失项为：0其中 L box 是边界框损失，与DETR [4]中定义的相同，而 βc 、 β box 和 β rec是分类、边界框和转录损失的权重。我们对识别标准和损失项都使用交叉熵损失：0其中 j 是单词 t i中的字符索引。图3显示了使用不同标准进行的GT和模型预测之间的匹配示例。仅使用检测和分类分数进行匹配，如DETR[4]中所述，可能会导致模型将一个框查询与具有更高的交并比（IOU）但识别结果较差的匹配。我们在新的损失和不同的匹配项设置下进行了实验，如第4节所述，并展示了识别项的添加对最终的端到端结果有所贡献。03.3. 弱监督文本定位0我们的Text HungarianLoss不仅基于检测到的框，还基于识别输出来找到地面真值和预测之间的匹配。这使得根据识别和分类标准仅基于识别和分类标准匹配地面真值和预测的单词成为可能。因此，在训练过程中，模型可以仅使用转录注释进行优化，即图像中出现的单词列表，而不需要任何空间注释。在推理时，模型仍然输出预测单词的边界框，类似于完全监督的模型。我们在这种设置下使用完全监督的合成数据和弱监督的真实（非合成）数据来训练模型。因此，弱监督训练中使用的标准是：0C weak ( y, ˆ y σ ( i ) ) = − α c ˆ p σ ( i )( c i )0+ 1 { c i � = �} α rec C rec ( t i , ˆ t σ ( i )) (6)0损失项为：0L weak ( y i , ˆ y ˆ σ ( i ) ) =0− β c log ˆ p ˆ σ ( i ) ( c i ) + 1 { c i � = �} β rec L rec ( t i ,ˆ t ˆ σ ( i ) ) . (7)0需要注意的是，在这种设置下，如果有多个具有相同转录的单词，可能存在多个正确匹配。图4中展示了这种情况的示例，图像中的单词“as”重复出现两次，导致查询不匹配。由于训练仅针对识别头部而不是边界框回归进行，因此每个转录的监督保持不变，不会影响训练过程。04. 实验0我们在常见的基准数据集上使用完全监督和弱监督设置评估TextTranSpotter的性能。我们还测试了模型在旋转和弯曲文本上的性能，并进行了关于其架构和匹配标准的消融研究。04.1. 实现细节0根据Liao等人[22]的方法，首先在SynthText[12]上训练模型，SynthText是一个大型的合成数据集，包含超过85万张图像，用于图像中文本的检测和识别，以获得TTS合成。然后，我们使用SynthText与真实数据集进行混合训练，包括Total-Text[7]，约1k张主要包含弯曲文本的图像，ICDAR2015[16]，1k张主要包含小文本实例的图像，ICDAR2013[17]，229张主要包含近似水平文本的训练图像，CO-COText[39]，43k张来自MS-COCO的训练图像ICDAR 2015Total-TextSWGSWGNoneFullNoneFullMANGObox [30]✓✓------69.780.6--MTS-V3 † [22]✓✓✓82.778.574.782.577.473.574.881.270.577.746090方法0端到端词识别端到端词识别0MTS-V1 [28] 79.3 74.5 64.2 79.3 73.0 62.4 - - 52.9 71.8 MTS-V2 [21] 82.4 78.1 73.6 83.077.7 73.5 - - 65.3 77.4 TextDragon [11] 86.2 81.6 68.0 82.5 78.3 65.2 - - 48.8 74.8ABCNet-V1 [26] - - - - - - 67.2 76.4 63.7 76.6 MTS-V3 [22] 83.1 79.1 75.1 83.3 78.1 74.275.1 81.8 71.2 78.4 ABCNet-V2 [27] - - - 82.7 78.5 73.0 70.4 78.1 - - CRAFTS [1] - - - 83.182.1 74.9 - - 78.7 - MANGO* [30] 85.2 81.1 74.6 85.4 80.1 73.9 72.9 83.6 68.9 78.90TTS多边形 85.0 81.5 77.3 85.2 81.7 77.4 78.2 86.3 75.6 84.40表1. 在ICDAR 2015和Total-Text数据集上的评估结果。使用强（S）、弱（W）、通用（G）、无和完整词典的词识别和端到端F分数。*MANGO [30]使用IOU 0.1进行评估。我们的方法使用通用词典获得了最佳结果。0方法注释（真实） ICDAR 2015 Total-Text0端到端词识别端到端词识别0文本框多边形 S W G S W G None Full None Full0TTS合成 53.1 46.9 42.9 53.2 47.0 43.0 45.4 60.9 46.3 58.8 TTS弱 � � � 78.6 75.1 70.2 78.7 75.2 70.1 75.1 83.5 71.580.1 TTS框 � � 84.9 81.3 77.1 85.0 81.5 77.1 78.4 86.6 75.8 84.50表2. 在有限的训练数据注释下的结果。使用强（S），弱（W），通用（G），无和完整词典的单词定位和端到端f-score。“Text”，“Box”和“Poly”分别表示在真实数据上使用文本，边界框和多边形进行训练的模型。使用了轴对齐评估。当仅使用文本注释（TTS weak）进行真实数据训练时，结果显著改善，与仅使用完全监督的合成数据（TTS synthetic）进行训练相比。使用边界框注释（TTSbox）进一步改善了结果。†我们展示了MTS-V3 [ 22 ]使用轴对齐评估作为参考点的结果。0数据集[ 23 ]和SCUT [ 43]，包含1k个包含不同文本的训练图像。我们的弱监督（TTSweak）和完全监督（TTSbox）模型都是使用这个设置获得的，其中对于TTSweak，我们使用完全注释的合成数据和弱注释的真实数据。为了产生多边形输出，我们冻结TTSbox的权重，仅训练一个分割头，使用相同的真实数据集混合和SynthText数据集的子集，带有多边形注释。我们称这个模型为TTS poly。我们使用Total-Text和ICDAR2015测试数据来评估我们的完全监督和弱监督模型。为了测试我们的方法对旋转的鲁棒性，我们使用了与Liao等人类似的旋转ICDAR 2013数据集。04.2. 与先前方法的比较0与Total-Text和ICDAR2015上的先前方法相比，TextTranSpotter的评估结果如表1所示。评估使用IOU阈值为0.5的标准多边形评估协议进行。同时呈现了单词定位和端到端结果。对于ICDAR2015，我们使用“强”，“弱”和“通用”0字典，对于Total-Text，我们展示了在不使用词典和使用“完整”词典的情况下的结果。在Total-Text数据集上，我们的方法在单词定位设置中使用和不使用词典时均优于先前的方法，并在端到端设置中使用“完整”词典。在ICDAR2015上，我们的方法在使用“通用”词典时展示了最佳结果，这是最常见和最具挑战性的用例。04.3. 弱监督结果0在表2中，我们展示了使用不同监督类型的结果。与大多数先前的方法不同，TTS box，TTS synthetic和TTSweak输出轴对齐的边界框而不是多边形，因此通过将地面真实多边形的边界框与我们方法的边界框进行匹配来进行评估，使用轴对齐IOU的匹配阈值为0.5。我们通过展示先前的方法（MTS-V3 [ 22]）上的结果来证明这种改变对评估只有很小的影响。使用已发布的模型，我们为多边形输出计算边界框，并使用我们的轴对齐评估进行评估（表2）。我们比较了结果Method45◦60◦Det.E2EDet.E2ECharNet R-50 [41]57.233.958.89.3MTS-V2 [28]62.254.265.556.6MTS-V3 [22]84.276.184.776.6TTSpoly88.880.487.680.1MTS-V3† [22]82.975.481.275.3TTSbox†89.980.189.781.046100图5. 质量结果。我们的弱监督（TTS weak）和完全监督（TTS poly）模型在Total-Text和ICDAR2015样本上的预测示例。TTS可以处理旋转的，弯曲的，甚至颠倒的文本实例，通过仅从边界框中提取相关文本来有效区分重叠的框。预期TTS weak的性能低于TTS poly，这是由于监督减少，但它仍然能够输出高质量的结果。右侧是失败的案例。0表3. 旋转的ICDAR2013数据集上的结果。检测（Det.）和端到端（E2E）识别的F-度量，不同旋转角度下的结果。†表示使用轴对齐评估。TTS优于现有方法。0将方法的官方多边形评估结果（表1）与轴对齐评估进行比较（表2）。轴对齐评估稍微降低了结果，因此可以将表2中的结果与表1中的多边形评估结果进行比较。仅使用合成数据进行训练（TTSsynthetic）的性能非常低。相比之下，使用我们的弱监督训练方案（TTSweak）显著提高了结果，达到了与完全监督的最先进方法相竞争的结果，而只使用转录监督。0使用边界框监督（TTSbox）进一步提高了结果，并达到了最先进的结果。当直接比较TTS box和TTSpoly（表1）时，我们发现多边形标注并没有改善结果，有时甚至会降低结果。这是因为模型是在没有多边形的情况下进行训练的，分割头在之后进行训练，其余模型权重被冻结。我们相信进一步优化这个头部可以改善结果，但这不是本文的重点。04.4. 对旋转和曲率的鲁棒性0我们通过在旋转的ICDAR2013数据集上进行测试，评估了TextTranSpotter对旋转的鲁棒性。表30与先前的方法相比，我们的模型在这个数据集上的性能有所提高，即使我们的模型只使用边界框进行训练（分割头是单独训练的，如第3.1节所述）。使用边界框会导致更多的背景文本和噪声进入识别头部，并且没有关于文本方向的明确信息。然而，由于TextTranSpotter将Transformer的输出作为识别和检测头部的输入，它能够忽略无关信息并生成正确的转录。图5显示了TTS weak和TTSpoly在具有挑战性的情况下的性能46110TTS架构检测0P R F0编码器-解码器+检测 88.4 82.8 85.5编码器-解码器+检测+识别 90.9 84.4 87.60表4.检测消融实验。TTS在TotalText数据集上进行检测的精确度、召回率和F-度量，包括识别头和不包括识别头的情况。可以看出，为识别任务优化查询嵌入可以改善检测任务。0匹配标准识别头（参数）端到端0无完全0检测+分类线性（3.4M） 73.6 83.6 检测+分类RNN（2.8M） 74.0 84.5 检测+分类+识别 RNN（2.8M）75.8 84.50表5.识别头和匹配消融实验。在TotalText数据集上，使用线性和RNN识别头，以及包括和不包括识别标准的全监督训练方式下的模型的端到端结果。可以看出，使用识别匹配标准可以提高性能，而RNN识别头优于线性头。0我们的方法能够处理旋转和字体缩放的大幅变化，以及边界框之间存在大量重叠的情况。04.5. 注释成本研究0为了估计每种标注方法所需的注释时间，我们对TotalText数据集[7]中的100张图像进行了用户研究，共有9位注释者参与。每个用户被要求使用多边形和转录、边界框和转录，或仅转录来注释不同的图像。结果如图1所示，每个实例的平均注释时间分别为14.3秒、10.6秒和4.6秒，对应于多边形、边界框和仅转录的注释。这与Zhao等人的研究结果[42]一致，他们发现在ICDAR-ArT数据集[8]上，使用多边形和边界框进行注释时，每张图像的平均注释时间分别为60秒和39秒（不包括转录）。04.6. 消融研究0我们测试了原始的Deformable DETR[44]与完全监督的TextTranSpotter在检测性能上的对比，如表4所示。我们以相同的方式训练这两个模型，主要区别在于TTS的TextHungarian损失和识别头部。我们使用标准的文本检测指标在Total-Text数据集上评估这些模型。TTS框的性能优于原始的DeformableDETR模型，提高了模型的召回率和精确度。这个实验突出了相互优化检测和识别任务相对于为每个任务训练独立的模型的好处。0与使用单独的模型训练每个任务相比，我们研究了TextHungarianLoss在第3.2节中提出的匈牙利匹配算法的影响。我们使用两种不同的匹配标准来训练我们的完全监督模型：检测和分类，如DETR[4]中所示，以及检测、分类和识别，如我们的TextHungarian Loss (Sec.3.2)中所示。我们在Total-Text上对这些模型进行了端到端和检测的评估，并在表5中展示了我们的结果。文本匹配标准改善了结果，主要是对于识别任务。因此，在没有词典的情况下，使用它可以提高端到端设置的性能。当使用词典时，对识别性能的改进不太显著，端到端结果保持不变。我们在完全监督训练中使用完整的匹配标准。进入TTS中的查询嵌入在识别头部中是一维的，没有空间或顺序结构，与以前的识别架构不同。此外，识别头部在前向传递过程中不使用地面真实转录，因为匹配只在前向传递的最后执行。考虑到这两个重要的变化，我们旨在研究使用RNN与使用线性层的贡献。使用两种不同的识别头部的结果如表5所示。使用线性头部降低了结果，而使用RNN头部则显示出循环输出公式对于识别任务是有益的，同时减少了识别头部的参数数量。05. 结论0我们提出了第一个可以在完全监督和弱监督设置下训练的文本定位框架。通过使用Transformer编码器-解码器来学习识别和检测任务的联合表示，我们可以避免其他方法中需要的大量注释，并在模型准确性与注释时间之间进行权衡。Transformer的注意力机制有助于在曲线、旋转、密集甚至倒置的文本等困难情况下获得准确的结果。我们的新型TextHungarianLoss将识别信息包含在检测优化中，并允许在没有检测监督的情况下进行训练。我们的方法在完全监督方法中取得了最先进的结果，在弱监督设置中取得了竞争性的结果。我们希望这项工作能为文本定位领域打开新的研究方向，并对于这个任务真正需要哪些注释提供新的观点，考虑弱监督和完全监督数据的权衡和组合。[1] Youngmin Baek, Seung Shin, Jeonghun Baek, Sungrae Park,Junyeop Lee, Daehyun Nam, and Hwalsuk Lee. Characterregion attention for text spotting. ArXiv, abs/2007.09629,2020.[2] Christian Bartz, Haojin Yang, and Christoph Meinel. See:towards semi-supervised end-to-end scene text recognition.In Thirty-second aaai conference on artificial intelligence,2018.[3] Michal Busta, Lukas Neumann, and Jiri Matas.Deeptextspotter: An end-to-end trainable scene text localizationand recognition framework.In Proceedings of the IEEEinternational conference on computer vision, pages 2204–2212, 2017.46120参考文献0[4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, 和 Sergey Zagoruyko.基于Transformer的端到端目标检测. 《欧洲计算机视觉会议》,页码213–229. Springer, 2020.0[5] Xiaoxue Chen, Lianwen Jin, Yuanzhi Zhu, Canjie Luo, 和Tianwei Wang. 野外文本识别综述. 《ACM计算调查》,54(2):1–35, 2021.0[6] Xiangrong Chen 和 A.L. Yuille.自然场景中的文本检测和识别.《2004年IEEE计算机学会计算机视觉与模式识别会议》, 卷2,页码II–II, 2004.0[7] Chee Kheng Ch’ng 和 Chee Seng Chan. Total-text:一份全面的场景文本检测和识别数据集.《2017年第14届国际文档分析与识别会议》, 卷1, 页码935–942.IEEE, 2017.0[8] Chee Kheng Chng, Yuliang Liu, Yipeng Sun, Chun ChetNg, Canjie Luo, Zihan Ni, ChuanMing Fang, Shuaitao Zhang,Junyu Han, Errui Ding, 等.ICDAR2019任意形状文本鲁棒阅读挑战.《2019年国际文档分析与识别会议》, 页码1571–1576. IEEE,2019.0[9] Zhigang Dai, Bolun Cai, Yugeng Lin, 和 Junying Chen.Up-detr: 基于Transformer的无监督目标检测预训练.《IEEE/CVF计算机视觉与模式识别会议论文集》,页码1601–1610, 2021.0[10] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Di

下载后可阅读完整内容，剩余1页未读，立即下载