提升场景文本检测器性能的视觉语言预训练方法

59 浏览量更新于2023-10-25 收藏 14.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

156810用于提升场景文本检测器的视觉语言预训练0宋思博 1 � 万建强 1 � 杨志波 1 唐军 1 程文青 2 白翔 2 姚聪 101 阿里巴巴达摩院 2 华中科技大学0{ sibosongzju,hustwjq,yangzhibo450,yaocong2010 } @gmail.com0xixing.tj@alibaba-inc.com { xbai,chengwq } @hust.edu.cn0摘要0最近，视觉语言联合表示学习在各种场景中被证明非常有效。在本文中，我们特别针对场景文本检测进行了视觉语言联合学习的调整，这是一项本质上涉及两种模态之间的跨模态交互的任务：视觉和语言，因为文本是语言的书面形式。具体而言，我们提出通过视觉语言预训练学习上下文化的联合表示，以增强场景文本检测器的性能。为此，我们设计了一个包含图像编码器、文本编码器和跨模态编码器的预训练架构，以及三个预训练任务：图像-文本对比学习（ITC）、掩码语言建模（MLM）和图像中的词预测（WIP）。预训练模型能够产生更丰富语义的更具信息量的表示，这可以直接有益于下游的文本检测任务（如EAST和PSENet）。在标准基准测试上进行的大量实验证明了所提范式可以显著提高各种代表性文本检测器的性能，优于先前的预训练方法。代码和预训练模型将公开发布。01. 引言场景文本检测是计算机视觉中一项基础而具有挑战性的任务，要求模型对图像中的每个文本实例预测边界框或多边形。多年来，基于深度学习的场景文本检测方法在学术界和工业界得到了广泛研究和应用，因其高的研究价值和广泛的实际应用而受到了广泛的关注。最近，取得了实质性的进展，但仍存在一些挑战[32]。0* 两位作者对本文贡献相同。0图像编码器0回归/掩码头0图像编码器0解码器0文本0编码器0图像文本0文本0区域：EAST，PSENet，…0文本：STKM0ITC MLM0跨模态：VLPT-STD0WIP0图像编码器0跨模态交互0预训练微调0图像0编码器0图像0回归/掩码头0边界框/掩码0图像0编码器0回归/掩码头0图像0编码器0回归/掩码头0图像0边界框/掩码0边界框/掩码0图像0图像图像0(a)0(b)0(c)0监督0边界框/掩码0图1. 场景文本检测的预训练范式比较。 (a)传统的SynthText预训练：使用区域监督（例如，边界框注释，真值掩码）来训练图像骨干和检测器头。微调流程与预训练流程相同。 (b)使用文本监督的预训练：通过编码器-解码器框架利用文本注释作为监督。 (c)我们的预训练模型通过三个预训练任务学习图像编码器、文本编码器和跨模态编码器。0已经提出了不同的预训练策略来学习自然语言处理[8]和计算机视觉[14]中更好的表示，通常依赖于各种预训练任务。为了加速训练过程并增强泛化能力，预训练技术也广泛应用于场景文本检测方法。早期的大多数尝试都采用了ImageNet[7]预训练156820与一般的目标检测训练相比，文本检测的训练存在明显的领域差距。自然图像和场景文本图像之间存在领域差异，这可能导致微调后的性能提升有限。因此，研究人员提出了一些方法[16, 28]，对在合成文本数据集（例如SynthText[12]，曲线SynthText [31]和UnrealText[34]）上预训练的模型进行微调。大多数最近的文本检测模型在合成数据集上的预训练效果优于在ImageNet上的预训练模型，但它们仍然存在合成数据和真实世界数据之间的领域差距，通常会导致对类似文本的纹理进行错误检测。为了解决这个问题，万等人[51]提出了一种通过挖掘文本知识进行预训练的STKM方法，而不使用区域监督。通过采用类似文本识别的流程，STKM在不同的方法和数据集上已被证明对下游文本检测任务有效。然而，STKM采用了字符级解码过程，这使得有效利用词汇中的上下文信息变得困难。此外，单流水线本质上是一种单向映射（从视觉模态到语言模态），因此无法充分利用视觉和文本之间的相互作用来学习信息丰富的表示。我们通过引入一种名为VLPT-STD的用于提升场景文本检测器的新型视觉-语言预训练范式，以及三个新的预训练目标来解决这些主要挑战，从而使编码更丰富的信息并学习判别性表示。重要的是，通过在两种模态之间进行相互对齐，我们的方法可以更好地利用文本知识并获得改进的视觉表示。如图1所示，我们比较了不同的场景文本检测预训练范式。请注意，尽管我们的方法只需要像STKM一样的图像级别文本注释，但它是从一个非常不同的角度设计的，采用了细粒度的跨模态交互来对齐单模态嵌入以学习更好的表示。受到视觉-语言预训练方法的启发[4，020-22]，我们利用自注意力和交叉注意力模块构建了一个统一的架构，结合了三个精心设计的预训练目标。首先通过对比学习将图像和文本单模态表示进行对齐，然后通过掩码语言模型和图像中的词预测等预训练任务关注细粒度的文本区域。因此，预训练的主干可以被微调用于各种文本检测器，以显著提高检测性能。具体而言，图像（或文本）嵌入首先从图像（或文本）编码器中提取出来，然后通过各种预训练任务通过交叉注意力块进行细粒度的跨模态交互。通过设计不同的预训练任务，我们的方法可以更好地利用文本知识并学习到更好的视觉表示。如图1所示，我们比较了不同的场景文本检测预训练范式。请注意，尽管我们的方法只需要像STKM一样的图像级别文本注释，但它是从一个非常不同的角度设计的，采用了细粒度的跨模态交互来对齐单模态嵌入以学习更好的表示。受到视觉-语言预训练方法的启发[4，0在我们的预训练目标中，我们鼓励编码器通过跨模态线索关注图像数据中的文本区域。整个模型可以端到端地进行训练，并且可以将视觉主干传递给不同的文本检测器。此外，所提出的范式仅需要图像级别的文本注释，其标注成本比传统的区域注释要便宜得多，特别是对于曲线文本标注而言。我们在各种文本检测器和数据集上进行了大量实验证明了预训练主干的有效性。总之，本文的主要贡献有三个方面：0•我们提出了一种新颖的视觉-语言联合学习框架，用于预训练场景文本检测器的视觉主干，这是一个概念简单且灵活的框架，可以实现视觉和文本表示之间的相互对齐。0•我们设计了三个预训练任务来促进细粒度的视觉-语言交互。特别地，我们设计了一种新颖的图像中的词预测（WIP）任务，采用了难例采样策略来学习判别性表示。0•大量实验证明了我们方法的有效性。特别是，对于三种经典的场景文本检测方法：EAST、PSENet和DB，我们的方法在五个文本检测数据集上相对于传统和STKM预训练技术都取得了一致且显著的改进。02. 相关工作0场景文本检测。现有的场景文本检测方法可以大致分为两类：自底向上方法和自顶向下方法。一般而言，自底向上方法首先检测基本组件（例如像素或分割），然后通过各种后处理算法聚合这些组件以产生最终的检测结果。PixelLink[6]首先通过链接像素来分割文本实例，然后从分割结果生成边界框。PSENet[24]首先为每个文本实例生成多尺度的核，然后逐步扩展最小尺度的核以覆盖整个文本实例。SegLink及其变种SegLink++ [46,49]检测小的文本片段，然后将它们链接在一起形成完整的文本实例。CRAFT[1]首先检测字符区域，然后通过学习字符之间的关联性来链接区域。DB[28]为分割网络提出了一种可微分的二值化模块。自顶向下方法的早期尝试将场景文本视为一般对象，应用目标检测方法[30,43]通过预测与锚点或像素的偏移量来定位文本区域。像TextBoxes系列[26, 27]、EAST [61]、MOST[16]这样的一阶段文本检测器直接回归…………………156830跨模态0编码器0ITC MLM0文本编码器0ResNet0和0最后0被0这个0[MASK]0为什么0最后0[MASK]0这个0方式0正负（OHEM）0x0� ! � " � # … � $0� !0� "0� #0� $0场景文本检测0预训练目标0文本0图像0她……0丢失0% � !0� !0� !0� !0WIP0为什么0� " � # "0! � # "0" … � # "0� # � # # ! � # # " … � # # %0� & � # &0! � # &0" … � # &0[CLS]0[CLS]0图像编码器0FPN注意力池化0对于$� ! ,� " ,… , � $0图2. 我们提出的跨模态预训练框架的示意图。请注意，只有正文本被输入文本编码器进行MLM任务的学习。0文本框在特征表示上的几何参数，并应用非最大抑制（NMS）算法产生最终的预测结果。另一方面，像MaskTextSpotter系列[25,36]这样的两阶段文本检测方法通常遵循MaskR-CNN风格的框架，通过利用区域建议网络（RPN）首先生成文本建议，然后回归到真实边界框的偏移量。0视觉表示的预训练。尽管先前的工作中存在有效的网络设计，但对于场景文本检测的预训练技术研究还不够充分。大多数现有的工作直接在ImageNet或SynthText上使用区域监督对网络进行预训练，没有特别关注预训练技术的重要性。0现代预训练方法可以显著提高大多数深度学习应用的下游任务性能，这已经在自然语言处理[8]、计算机视觉[14]和跨领域[4,57]中观察到。视觉表示的预训练具有悠久的历史，基于监督训练（来自其他数据源）[14, 43]、自监督/无监督训练[2,3, 13, 42]和多模态训练[4, 41,57]的方法。对比学习在自监督和多模态预训练中越来越成功。像MoCo [13]和SimCLR[2]这样的方法遵循实例鉴别的预训练任务，其中每个图像的多个视图的特征被拉开与其他实例的特征。最近的CLIP[41]、ALIGN [18]和ALBEF[21]在大规模图像上进行预训练。0使用对比损失通过对齐视觉和文本表示来预训练文本数据。预训练模型在下游任务（如图像检索、图像字幕）上的性能得到了极大的改善。对于OCR相关方法的预训练技术的研究越来越受到关注。TrOCR[23]引入了一种基于Transformer的端到端文本识别方法，使用预训练模型对ResNet骨干进行预训练，使用自注意力解码器进行高级文本知识的学习。与STKM不同的是，我们提出了一种新颖的跨模态预训练范式，受到了视觉-语言预训练技术的最新趋势的启发。我们证明，通过精心设计的预训练目标，通过相互对齐和跨模态交互来学习改进的视觉表示，可以提升场景文本检测器的性能。03. 方法论0在本节中，我们首先介绍了所提出的VLPT-STD的总体范式，然后描述了专门设计用于学习文本检测的跨模态表示的视觉-语言预训练任务。03.1. 模型架构0如图2所示，VLPT-STD包含一个图像编码器、一个文本编码器和一个跨模态编码器。首先从单一的图像和文本中提取出图像和文本嵌入。LI2T = −�jlogexp (Ij · Tj/τ)Nk=1 exp (Ij · Tk/τ)(2)156840模态编码器，然后输入到由多个交叉注意力层组成的交叉模态编码器中，实现图像区域和子词标记之间的细粒度交互。图像编码器。图像编码器包括ResNet[15]骨干网络，特征金字塔网络（FPN）和注意力池化层。首先，为了与现有的预训练模型在下游文本检测任务上进行公平比较，使用ResNet-50作为特征提取器的基础架构，并使用在ImageNet [7]上预训练的权重进行初始化。受到FPN[29]在目标检测、语义分割等方面的成功启发，我们通过将C2、C3、C4和C5层的特征进行融合来利用特征融合。首先，四个卷积特征图通过一个1×1卷积层转换为通道数减少到256。然后，P5只是C5的转换特征图，P2、P3、P4是通过上采样转换特征图与前一层相加构建的。接下来，对连接的特征图应用一个步长为2的1×1卷积层，将通道数从1024减少到384。因此，特征图是原始图像大小的1/16。形式上，最终的特征图Fc定义为，0F c = Conv 1 × 1 ,s 2 ([ DS × 2 ( P 2 ); P 3 ; US × 2 ( P 4 ); US × 4 (0(1) 其中 DS × x ( ∙ ) 表示 x 倍下采样，US × x ( ∙ ) 表示 x倍上采样，使用双线性插值。此外，我们采用了类似于 [ 41 ]中的注意力池化机制，以提取基于图像的全局平均池化表示的视觉嵌入。注意力池化块实现为Transformer的多头注意力模块的一层。总体而言，输入图像 x I 被编码为嵌入序列 V = { V[CLS] , V 1 , ..., V S } ∈ R d ，其中 V [CLS] 表示 [CLS]标记的嵌入，S 表示视觉标记的数量，d表示视觉嵌入的维度。文本编码器。文本编码器由三个多头自注意力模块组成，将输入文本转换为嵌入序列。给定一个文本样本作为输入，我们首先将其分割为一个单词序列，然后使用WordPiece [ 45 ]将每个单词标记为子词标记。然后，采用嵌入矩阵将子词标记嵌入为嵌入向量。这里我们使用 W = { W [CLS] , W 1 , W 2 ,..., W K } ∈ R d 表示嵌入序列，其中 K 表示序列长度，d是单词嵌入的维度。接下来，根据其他基于BERT的语言模型，添加可训练的位置嵌入。与大多数现有的视觉-语言预训练模型不同，我们范式中的文本编码器是从头开始训练的，不是由任何预训练的BERT模型初始化。跨模态编码器。我们构建了四个相同的Transformer解码器层作为跨模态编码器，以实现视觉和文本嵌入之间的交互。每个解码器层包括一个多头自注意力模块、一个多头交叉注意力模块（MHCA）和一个前馈网络（FFN）。根据 [ 9]，在每个注意力模块之前应用LayerNorm（LN），在每个注意力模块之后使用残差连接。FFN包含两个MLP层，使用GELU[ 17]非线性激活函数。最后一个解码器层还有一个额外的MLM任务的预测头，详见第3.2节。0从头开始训练，不使用任何预训练的BERT模型进行初始化。跨模态编码器。我们构建了四个相同的Transformer解码器层作为跨模态编码器，以实现视觉和文本嵌入之间的交互。每个解码器层包括一个多头自注意力模块、一个多头交叉注意力模块（MHCA）和一个前馈网络（FFN）。根据 [ 9]，在每个注意力模块之前应用LayerNorm（LN），在每个注意力模块之后使用残差连接。FFN包含两个MLP层，使用GELU [ 17]非线性激活函数。最后一个解码器层还有一个额外的MLM任务的预测头，详见第3.2节。03.2. 预训练任务0我们在预训练过程中采用了三个预训练任务：图像-文本对比学习（ITC）和图像中的词语预测（WIP）在单模态编码器上进行，交叉模态编码器上进行掩码语言建模（MLM）。图像-文本对比学习（ITC）。我们的目标是学习可以用于下游场景文本检测任务的视觉单模态表示。因此，关键挑战是学习具有区分性的表示，可以从图像编码器中关注文本区域。为了实现这一目标，我们采用对比学习的思想，将全局文本和视觉表示相互对齐到语义空间中。ITC旨在在给定文本嵌入的情况下，从一批文本嵌入中找到最佳图像嵌入。类似地，对于给定的图像嵌入，目标是从一批文本嵌入中找到最佳的文本嵌入。简而言之，对比目标鼓励模型通过联合训练图像和文本编码器来最大化成对图像-文本嵌入的余弦相似度，从而定位图像中的文本。形式上，我们将Synth-Text数据集中的每个图像-文本对表示为 ( x I i , x T i )，其中包含图像 x I i 和图像中的渲染文本 x T i。如前所述，每个图像被编码为图像嵌入 V [CLS]。类似地，对于每个文本，文本嵌入 W [CLS]由文本编码器编码。为简化表示，我们使用 I 和 T 分别表示V [CLS] 和 W [CLS]。每个数据批次的损失函数构造如下：对于每个图像查询 xI j ，我们在其图像嵌入 I j 和批次中的所有文本嵌入 T k之间获得一个InfoNCE [ 40 ]损失，0其中N表示批量大小，τ表示温度的超参数。这里使用点积来衡量相似性。类似地，对于每个文本查询x Tj，InfoNCE损失被定义为：LT2I = −�jlogexp (Tj · Ij/τ)Nk=1 exp (Tj · Ik/τ)(3)LITC = λ1LI2T + λ2LT2I(4)WIP =k=1 logkexp(I Wk/τ)+Lexp I W l/τLMLM = −E(W,V ) log Pθ(Wmasked|Wunmasked, V)(6)L = LITC + LWIP + LMLM(7)156850ITC的总损失函数定义如下：0经验上，我们发现λ 1 = λ 2 =0.5在实践中效果良好。图像中的单词预测（WIP）。除了ITC，我们提出了一种新颖的图像中的单词预测（WIP）方法，以实现细粒度的跨模态交互。在这个任务中，我们利用图像嵌入和单词级嵌入之间的对比学习来区分图像中呈现的正面单词和一些不在图像中的负面单词，从而预测它在图像中的存在。受到在线难例挖掘策略（OHEM）[47]的启发，我们在训练过程中根据文本嵌入的相似性进一步采样难例负样本，以捕捉更细粒度的单词形状视觉线索。如图2所示，对于一个正面单词“lost”，采样的负例可以是“last”，“lose”，“post”等。通过OHEM和单词级对比学习，视觉表示将通过预训练迭代地改进，以建模相似形状的单词之间的微妙差异。如表7所示，我们模型学习到的文本嵌入确实通过跨模态对齐揭示了单词外观的视觉相似性。形式上，我们将正面子单词标记表示为W = {W [CLS]，W 1，W2，...，W K} ∈Rd，并简化其对应的图像嵌入为I。对于每个标记Wi，我们以在线方式测量它们的词嵌入相似性，从而将其前L个最近邻{� W 1 i，� W 2 i，...，� W Li}作为负例示例。然后，对于每个图像-文本对{I，{W 1，W2，...，W K}}，WIP目标函数构建如下：0(5)掩码语言建模（MLM）。这个目标是预测掩码文本标记Wmasked的真实标签，从其上下文化向量z masked |W出发。遵循BERT[8]的做法，我们以0.15的概率随机屏蔽W，其中10%是随机标记，10%保持不变，80%是[MASK]。具体来说，MLM任务是基于其周围单词Wunmasked和所有视觉嵌入V的观察，通过最小化负对数似然来恢复被屏蔽的单词标记。0请注意，SynthText图像上的渲染文本通常不包含与语义相关的内容，不像0与图像字幕[4，20]或文档理解[54，56]等现有任务不同，我们范式中的MLM任务高度依赖于图像内容而不是语言上下文来恢复被屏蔽的标记。因此，模型可以通过预训练文本检测任务在视觉方面学习到更强的表示。总体而言，完整的预训练目标函数如下：04. 实验0在本节中，我们首先简要介绍了用于预训练的SynthText数据集以及用于场景文本检测任务的其他公开数据集。然后，我们介绍了预训练和微调的技术细节。接下来，我们将VLPT-STD中的ResNet主干网络迁移到了三种经典的文本检测方法：EAST、PSENet和DB，并将它们与各种具有最先进预训练方法的具有挑战性的基准进行了比较。最后，我们进行了消融研究，并展示了我们方法的有效性和泛化能力的定性结果。04.1. 实验设置0数据集。预训练实验在SynthText [ 12]上进行，该数据集包含约800K个合成图像。我们保留了其中的20K个图像用于后续实验的验证。SynthText具有多种标注形式，我们仅在预训练中使用文本标签，没有使用任何边界框注释。对于下游实验，我们紧密遵循STKM [ 51]并使用以下数据集进行评估。Total-Text [ 5]主要关注曲线文本，包含1,255个训练图像和300个测试图像。该数据集使用多边形形状的边界框进行标注。CTW1500 [ 60]也主要由曲线文本组成。它有1,000个训练图像和500个测试图像。文本实例使用由14个顶点注释的多边形进行标记。ICDAR2015 [ 19]由1,000个训练图像和500个测试图像组成。文本注释以矩形边界框的形式给出。ICDAR2017 [ 39]是一个包含9种不同语言的多语言数据集，包含7,200个训练图像，1,800个验证图像和9,000个测试图像。在微调过程中，同时使用训练集和验证集。MSRA-TD500 [ 59]包括300个训练图像和200个测试图像，带有线级别的注释。根据以前的工作，使用HUST-TR400 [ 58]的400个训练图像作为额外的训练数据。TextOCR [ 48]是一个大型且多样化的OCR数据集，包含28,134个图像和903K个标注的单词，每个图像平均密度为32个单词。预训练设置。在预训练过程中，首先将SynthText图像调整为512×512，然后随机旋转。PRFPRFPRFSegLink [46]73.176.875.030.323.826.742.340.040.8TextSnake [33]84.980.482.682.774.578.467.985.375.6TextDragon [10]84.881.883.179.581.080.284.574.279.0SAE [50]84.585.184.8---82.777.880.1PSENet + ST 184.378.481.389.279.283.983.679.781.6PSENet + STKM 185.781.883.789.279.984.385.380.682.9PSENet + Ours86.082.884.390.882.086.186.380.783.3∆3.0 , 0.62.2↑, 1.8↑1.7↑, 0.4↑PRFPRFPRFSegLink [46]73.176.875.0---867077TextField [55]84.380.182.4---87.475.981.3CRAFT [1]89.884.386.980.668.273.988.278.282.9GNNets [53]90.486.788.579.670.174.5---EAST + ST 189.681.585.375.161.967.986.977.682.0EAST + STKM 190.284.687.376.964.370.085.275.380.0EAST + Ours91.585.488.377.764.670.588.576.782.2∆3.0 , 1.02.6↑, 0.5↑0.2↑, 2.2↑PRFPRFPRFDB + ST 188.282.785.487.182.584.791.579.284.9DB + STKM 191.481.486.187.783.485.590.282.085.9DB + Ours92.081.686.588.784.086.392.384.988.5∆1.1 , 0.41.6↑, 0.8↑3.6↑, 2.6↑81.383.981.685.367.982.0156860表1.PSENet的实验结果。ST表示SynthText预训练。∆上的数字表示相对于SynthText和STKM的F-measure改进，绿色和蓝色分别表示。0方法 ICDAR2015 Total-Text CTW150001 我们使用我们的重新实现报告结果。0表2.EAST的实验结果。ST表示SynthText预训练。∆上的数字表示相对于SynthText和STKM的F-measure改进，绿色和蓝色分别表示。0方法 ICDAR2015 ICDAR2017 MSRA-TD50001 我们使用我们的重新实现报告结果。0表3.DB的实验结果。ST表示SynthText预训练。∆上的数字表示相对于SynthText和STKM的F-measure改进，绿色和蓝色分别表示。0方法 ICDAR2015 Total-Text MSRA-TD50001我们使用我们的重新实现报告结果。0随机在-20°到20°范围内，由于缺乏区域监督，其他数据增强策略未包括在内。我们采用AdamW优化器[35]，权重衰减为0.01，前2.5K步采用热身学习率计划，然后学习率从1×10-4线性衰减到0。该模型在8个Tesla V100GPU上进行了120K次迭代训练，批量大小为800。为了节省内存并加速预训练过程，我们采用了混合精度[38]和梯度检查点[11]技术。方程（2）、（3）和（5）中的可学习温度参数τ初始化为0.07，并进行剪裁以防止将logits缩放大于100以提高训练稳定性。我们将视觉和文本嵌入的维度d设置为384。视觉标记S和文本标记K的数量分别设置为1025和30。我们选择L=63个最相似的单词标记作为难例负样本。评估协议。我们通过在五个常用场景文本检测数据集上对EAST、PSENet和DB方法进行微调来评估预训练模型。对于EAST方法，ICDAR2015、ICDAR2017和0表4.架构设计。†表示来自[29]的原始FPN实现。MHCA表示多头交叉注意力。只呈现F-measure。0图像编码器跨模态编码器 PSENet EAST0FPN†我们的FPN w/o MHCA w/ MHCA CTW IC150√ √ 82.7 88.0 √ √ 83.1 87.4 √ √ 83.3 88.30表5. VLPT-STD预训练任务的消融研究。只呈现F-measure。0PSENet EAST ITC MLM WIP IC15 TT CTW IC15 IC17 TD5000√ 82.2 84.3 82.2 86.0 69.4 79.3 √ 84.5 85.9 83.1 87.7 70.2 81.5 √83.1 85.3 82.2 86.9 70.2 82.10√ √ 84.3 85.6 83.2 87.5 70.3 81.7 √ √ 83.3 85.3 82.5 87.3 70.2 81.5√ √ 84.7 85.8 82.9 87.6 70.4 81.90√ √ √ 84.3 86.1 83.3 88.3 70.5 82.20表6.使用PSENet进行预训练数据集的消融研究。ST表示SynthText，TO表示TextOCR。只呈现F-measure。0监督预训练数据集IC15 TT CTW0区域ST+TO（1个epoch）82.24 84.52 81.75文本（我们的方法）ST（1个epoch）84.33 86.14 83.30文本（我们的方法）ST+TO（1个epoch）85.07 86.18 83.500由于不适合检测曲线文本，因此MSRA-TD500被用作基准数据集。我们遵循[44]，采用各种数据增强方法，包括水平翻转、旋转、调整大小、随机裁剪和颜色抖动。训练过程中，ICDAR2015、ICDAR2017和MSRA-TD500的图像分别调整为512×512、640×640、640×640，并且批量大小分别为32、22和22。我们在ICDAR2015和MSRA-TD500数据集上使用Adam优化器对预训练的骨干网络进行了600个epoch的微调，基础学习率为1×10-4。0每200个epoch衰减0.1。对于ICDAR2017，EAST训练300个epoch，初始学习率为1×10-4，然后每50个epoch衰减0.1。对于PSENet，我们使用官方代码[52]在ICDAR2015、Total-Text和CTW1500上进行实验。实验设置遵循原论文[24]。对于DB，我们采用官方实现[37]重新生成基线并评估我们的预训练方法。该模型使用官方代码进行了1200个epoch的训练。我们采用Adam优化器，权重衰减为0.0001，初始学习率为1×10-4，在第800个epoch后衰减0.1。对于其他参数，我们直接使用[37]中的默认设置。1https://github.com/CVI-SZU/STKMMLM and WIP, pre-trained model with single ITC taskachieves higher performance than SynthText pre-trainingexcept for MSRA-TD500 dataset, suggesting that the globalcontrastive learning between image and text modalities isalso effective in learning visual representations. While ITC+ MLM already sets a strong baseline, integrating WIPbrings extra performance boost. Moreover, if all three pre-text tasks are utilized, our approach consistently improvesover the baseline by a nontrivial margin on all five datasets.Evaluation on pre-training datasets. Our method is com-patible with both synthetic and real image datasets. There-fore, we ablate pre-training datasets and experiment withTextOCR (∼20k) and SynthText (∼800k) in Tab. 6. Whencombining SynthText and TextOCR as the pre-trainingdataset, it can outperform classical pre-training method us-ing region supervision. Furthermore, it achieves a notice-able boost over SynthText-only pre-training on ICDAR15which contains many small scene text instances and thus ismore challenging.156870表7. 从我们的文本编码器和ViLT的文本编码器中抽样查询词的前5个最近邻的比较。0从VLPT-STD中查询前5个最近邻居从ViLT [ 20 ]中查询前5个最近邻居0生态 850 800 630 RCA 600生态学的奶制品有机的国际的复古的投票注意声音工作角色写投票有资格选举评论竞争销售安全规模租赁显示采纳拍卖雇佣北部价值凯斯马斯诺顿南部东部西部东北东南河流肝脏层蝰蛇驱动器计量湖泊溪流运河河流水路右侧光夜间权利可能更高左舷背面侧向底部特殊特定典型串行社交光学私人重要美好新的显著受影响的附属受损的受威胁的造成的涉及的杀害的04.2. 与现有技术的比较0在表1、表2和表3中，我们将提出的VLPT-STD与传统的SynthText预训练和最先进的STKM方法进行了比较。我们使用PSENet、EAST和DB方法在五个场景文本检测数据集上进行了大量实验。P、R和F分别表示精度、召回率和F-measure。对于STKM的报告结果，我们使用了[51]作者发布的预训练模型1。请注意，STKM或我们的模型中都没有可变形卷积层。因此，当使用STKM或我们的预训练骨干进行DB的微调时，可变形卷积层的权重是随机初始化的。我们的方法在所有基准数据集上都显示出对传统的SynthText预训练和STKM的持续改进，包括两个弯曲文本数据集、一个多方向场景文本数据集和两个多语言数据集的长文本行。04.3. 消融实验0架构设计评估。我们在表4中比较了图像编码器和跨模态编码器的不同架构设计。对于FPN，我们比较了原始FPN实现[29]和[24]中使用的FPN变体。我们的FPN变体减少了训练计算量，并在CTW1500和ICDAR2015上提高了0.6%和0.3%的微调精度。此外，我们还研究了跨模态编码器设计中的交叉注意机制。只使用自注意模块实现的跨模态编码器导致微调性能下降，这表明交叉注意模块的优越性。预训练任务评估。为了研究不同预训练目标的有效性，我们使用PSENet和EAST进行了消融实验，并在表5中报告了结果。我们发现，使用MLM或WIP任务进行预训练可以显著提高准确性。我们推测，MLM和WIP的设计理念在利用词级标记进行细粒度的跨模态对齐方面具有概念优势。除了MSRA-TD500数据集外，单一ITC任务的预训练模型的性能也比SynthText预训练更高，这表明图像和文本模态之间的全局对比学习在学习视觉表示方面也是有效的。虽然ITC +MLM已经建立了一个强大的基准线，但整合WIP可以带来额外的性能提升。此外，如果使用了所有三个预文本任务，我们的方法在所有五个数据集上都能显著改进基准线。预训练数据集评估。我们的方法与合成图像和真实图像数据集兼容。因此，我们在表6中对预训练数据集进行了消融实验，并使用TextOCR（�20k）和SynthText（�800k）进行了实验。当将SynthText和TextOCR组合作为预训练数据集时，它可以胜过使用区域监督的经典预训练方法。此外，它在包含许多小场景文本实例的ICDAR15上也比仅使用SynthText预训练的方法获得了显著提升，因此更具挑战性。04.4. 定性结果0注意力图的可视化。我们在图3中提供了来自交叉模态编码器的逐词注意力图可视化。如图所示，在第1个训练时期的可视化结果中，模型已经具备了定位一般文本区域的能力。然而，在预训练开始时，它无法捕捉到细粒度的视觉线索来区分不同的单词。随着训练的进行，模型逐渐学会为不同的单词在图像中的相应文本区域进行关注。如最后一行所示，预训练模型通过交叉模态编码器成功学习了准确的注意力。更有趣的是，对于两个相同的“the”输入标记，注意力机制使模型能够协作并关注不同的文本区域。检测结果的可视化。图4比较了STKM和我们的方法在使用PSENet进行微调后的检测结果。如图所示，与STKM相比，我们的模型可以进一步抑制文本区域上的误检测，因为我们应用了MLM和WIP来通过多模态线索增强细粒度表示。此外，通过使用具有WordPiece标记化的文本编码器，我们的VLPT-STD模型可以从多模态表示的整合中受益。(0.647)(0.861)156880“角色（发送者有>组。”0“the” “send” “##er” “the” “>” “group”0输入0第1个时期，（0.301）0第10个时期，0第120个时期，0图3.对应于各个子词标记的交叉注意力图的可视化。我们展示了交叉模态编码器第2个块中第1个头部的可视化结果。选定的子词标记用红色突出显示。括号中的数字表示验证集上的MLM准确率。（最佳观看效果为彩色图像。）0图4.在使用PSENet进行微调后，STKM（左）和VLPT-STD（右）在Total-Text测试图像上的文本检测结果的可视化。（最佳观看效果为彩色图像。）0词汇信息在提高分割质量方面具有重要作用，包括第一行的“OFAMERICA”和第三行的“Farm”。词嵌入的最近邻。如表7所示，我们根据我们预训练的文本编码器和ViLT[20]的文本编码器的嵌入向量的余弦相似度，展示了对抽样查询词的前5个最近邻。如预期的那样，ViLT文本编码器生成的最近邻在语义上非常相似。而我们的最近邻在视觉上更相似。这一观察结果表明了我们交叉模态预训练范式中实现的多模态表示之间的相互对齐。0多模态表示之间的对齐进一步验证了我们交叉模态预训练范式的有效性。5. 限制0与经典的文本检测预训练方法相比，我们提出的方法使用额外的模块，如文本编码器和交叉模态编码器，对文本检测骨干进行预训练。因此，整个流程消耗更多的GPU内存，并且预训练时间更长。此外，如果我们的方法应用于其他数据集，例如包含大量单词的文档图像，文本标记的数量将大大增加。这将带来更高的

下载后可阅读完整内容，剩余1页未读，立即下载