没有合适的资源?快使用搜索试试~ 我知道了~
45630少数胜于多数:场景文本检测的特征采样和分组0唐静群1,张文青2,刘宏业1,杨明坤2,姜波1,胡广龙1,白翔2*01 网易,2 华中科技大学 {jingquntang, liuhongye1998, bjiang002,guanglong.hu}@163.com, {wenqingzhang, yangmingkun,xbai}@hust.edu.cn0摘要0最近,基于transformer的方法在目标检测方面取得了有希望的进展,因为它们可以消除NMS等后处理操作,并丰富深度表示。然而,由于场景文本的尺度和长宽比的极端变化,这些方法无法很好地处理场景文本。在本文中,我们提出了一种简单而有效的基于transformer的场景文本检测架构。与以前的方法不同,我们的方法基于少数代表性特征进行场景文本检测,避免了背景的干扰并降低了计算成本。具体而言,我们首先在所有尺度上选择与前景文本高度相关的少数代表性特征。然后,我们采用transformer来建模采样特征之间的关系,将它们有效地分成合理的组。由于每个特征组对应一个文本实例,其边界框可以很容易地获得,无需任何后处理操作。使用基本特征金字塔网络进行特征提取,我们的方法在几个流行的场景文本检测数据集上始终取得了最先进的结果。01. 引言0由于其广泛的实际应用,如场景理解,自动驾驶和照片翻译,场景文本检测一直是一个活跃的研究领域。作为场景文本阅读的关键先决条件,场景文本检测旨在精确地定位场景图像中的文本。尽管现有方法[10, 40, 41,49]取得了显著的改进,但由于场景文本的多样性,例如不同的尺度,复杂的照明,透视畸变,它仍然是一项具有挑战性的任务。0*通讯作者0(a)(b)0图1. 特征采样和分组的示意图。(a)文本区域的置信度分数图表示文本检测的像素重要性。(b)红点处的文本特征包含前景文本的几何和上下文信息,通过分数进行选择。(c)通过transformer,从同一文本实例中采样的特征在特征级别上被隐式分组。 (d)可以从分组的特征中轻松获得边界框。0多方向和复杂形状。此外,大多数场景文本检测方法依赖于复杂的处理来生成或优化预测结果,例如锚点生成,非极大值抑制(NMS)[31],二值化[17]或轮廓提取[36]。0受transformer在自然语言处理(NLP)中的优势[39]的启发,许多工作[2, 5, 23, 28, 35,53]将其引入视觉任务中,以提取全局范围的特征并建模图像中的长距离依赖关系,同时显示出有希望的性能。特别是在目标45640检测,基于DETR的方法[2, 28,53]成功地使用transformer从以前的目标检测框架[8, 20,33]中消除了复杂的手工设计过程(例如NMS和锚点生成)。尽管transformer在DETR-based框架[2]中在全局范围特征建模方面具有优势,但它们可能在处理小物体和高计算复杂性方面遇到困难。例如,最近的基于DETR的场景文本检测器[32]在ICDAR2015数据集[12]和ICDAR2017-MLT数据集[30]上无法达到令人满意的检测精度,因为这两个数据集中的文本实例具有更大的尺度和长宽比的差异。对于transformer来说,在小尺度的特征图上捕捉小文本往往是不充分的,而具有多尺度特征图的基于DETR的方法的时间成本是不可预测的。实质上,更高分辨率特征图中的意外背景噪声将显著增加计算成本并干扰transformer建模。尽管一些最近的工作[28,53]通过优化注意力操作提高了基于transformer的目标检测器的效率,但它们在场景文本检测方面未能取得竞争性的结果(参见表5中报告的结果)。在本文中,我们提出了一种简单而有效的基于transformer的场景文本检测架构。我们认为,学习所有像素之间的关系对于前景文本实例只占据场景图像中的少数小而窄的区域来说是不必要的。直观地说,我们首先采样和收集与场景文本高度相关的特征,如图1(a)(b)所示。然后,我们采用transformer来建模采样特征之间的关系,以便它们可以被适当地分组。如图1(c)(d)所示,由于transformer强大的注意力机制,每个特征组将对应一个文本实例,这对于预测其边界框非常方便。与通常使用CNN以整体方式学习场景文本图像的先前场景文本检测方法[1, 15, 17, 40, 49,51]不同,我们的检测方法仅基于少数代表性特征,具有三个显著优势:1)它可以显著消除冗余的背景信息,有利于提高检测过程的有效性和效率;2)使用transformer对采样特征进行分组,我们可以获得更准确的分组结果和边界框,无需任何后处理操作;3)由于特征采样和分组是以端到端的方式实现的,两个阶段可以共同提高最终的检测性能。为了验证所提出的特征采样和分组方案的有效性,我们在几个流行的场景文本检测数据集[3, 11, 12, 30, 47,48]上进行了大量实验,始终取得了最先进的结果。0与最新的基于Transformer的检测器[2, 28, 32,53]进行比较也证明了我们方法的有效性。02. 相关工作0之前已经提出了许多关于场景文本检测的方法,可以大致分为两类:自下而上的方法和自上而下的方法。自下而上的方法首先检测/分割场景文本的基本组件或像素,然后通过一些启发式操作将它们形成边界框。在早期的方法中,CTPN[38]开发了一种垂直锚机制来预测顺序提案,并通过循环神经网络将它们自然地连接成边界框。为了更好地检测长文本和密集文本,SegLink [34, 37]检测每个文本实例的组件和链接,并将它们组合在一起生成最终的检测结果。此外,基本组件可以定义为具有亲和框的字符(例如CRAFT[1])或具有半径的中心点(例如TextSnake[24])。只要能够检测到组件并将其分组成最终结果,这些方法就更灵活地检测各种形状的文本。然而,它们容易遗漏组件和背景噪声,并且最终的检测结果容易受到分组后处理的影响。我们提出的方法也是一种自下而上的方法,可以通过在特征级别进行采样和分组来预测边界框,而不依赖于任何后处理。自上而下的方法直接在词或行级别预测场景文本的边界框。受到流行的目标检测器[20, 33]的启发,一些方法[15, 16, 27]将默认锚点调整为四边形或旋转边界框,以适应场景文本的多方向和各种长宽比。EAST [51]直接在整个特征图上回归多方向边界框的坐标。为了直接检测野外的曲线文本,最近的方法[21, 54]采用贝塞尔曲线或傅里叶签名来定位场景文本,并应用额外的处理过程(例如贝塞尔对齐、逆傅里叶变换和非极大值抑制)生成最终的检测结果。这些自上而下的方法通常比自下而上的方法更直接,但仍然需要一些手工设计的过程,例如锚点生成、非极大值抑制和二值化。受到Transformer在自然语言处理中的强大能力的启发,先驱性工作DETR [2]提出了一种新颖的基于Transformer的目标检测架构。它舍弃了[8, 20, 33]中采用的几个手工设计的过程,同时取得了令人满意的性能。尽管最近的一种方法[32]尝试将基于DETR的架构应用于场景文本检测,但在ICDAR2015 [12] 和ICDAR2017-MLT [30]上无法达到令人满意的检测性能。由于场景文本的尺度变化极大,因此它比普通物体更具挑战性。45650输入图像0骨干网络0多尺度0文本0提取器0选择点0具有前N个分数0∙∙∙0预测头部0位置嵌入0+ 文本点特征0特征分组0∙∙∙0多尺度0特征图0检测结果0(a) 代表性文本区域0(b) 选定的文本点0图2.我们提出的基于Transformer的架构概述。它由骨干网络、多尺度特征采样网络和特征分组网络组成。具体而言,首先从骨干网络生成多尺度特征图。接下来,使用多尺度文本提取器在像素级别预测代表性文本区域的置信度分数。然后,我们选择具有前N个分数的文本点特征,并将它们与位置嵌入进行连接。然后,我们采用Transformer来建模采样特征之间的关系,并通过注意机制将它们隐式地分组成精细的表示。最后,检测结果从预测头部获得。0由于文本检测中存在极端的尺度和长宽比变化,变换器无法从单一尺度的特征图中获得足够的信息。多尺度方案可以在一定程度上应对这个问题,但对于变换器来说,这会带来巨大的计算开销。与那些专注于改进注意力单元的基于DETR的方法[28,53]不同,我们提出直接消除冗余的背景信息,并从多尺度特征图中选择少量重要特征[52]。因此,可以同时考虑计算开销和采样特征的质量,从而更好地利用变换器进行文本检测。03. 方法论0在本节中,我们首先介绍所提出的场景文本检测方法的整体架构。然后,我们详细阐述了所提出的特征采样和分组方案,并进一步分析了特征采样在变换器建模中的优势。最后,我们描述了我们提出的方法的训练细节。03.1. 网络架构0如图2所示,我们提出的基于变换器的架构由骨干网络、特征采样网络和特征分组网络组成。骨干网络是基本的特征金字塔网络(FPN)[18],配备了ResNet-50[9]。产生的三个不同尺度(即1/4、1/8、1/16)的特征图 F用于特征采样。在我们的特征采样网络中,首先通过Coord-Convolution层[19]和约束可变形池化层将这三个特征图下采样到较小的尺度(即1/8、1/16、1/32)。然后,使用几个卷积层0用于生成置信度分数图以区分代表性文本区域。然后,我们只选择每个尺度层 k 中得分前 N k的特征,并将它们以序列形式聚集起来,形状为( �0k N k , C ),其中 C是通道数。在我们的特征分组网络中,首先将采样的特征与位置嵌入进行连接。然后,我们采用变换器编码器层来建模它们之间的关系,并隐式地聚合来自同一文本实例的特征。最后,通过文本/非文本分类头和文本检测头分别获得边界框(或多边形)的得分和坐标。03.2. 特征采样0尽管基于变换器的方法在目标检测中具有新颖的结构和有希望的性能,但由于尺度和长宽比的极端变化,它们在场景文本检测上表现不佳。遵循之前的文本检测器[14, 17, 18,40],我们使用FPN的多尺度特征来提升检测性能。然而,这样的方案会导致变换器的计算成本过高,收敛时间更长。我们观察到前景文本实例仅占据小而窄的区域,用于定位文本的有用信息相对稀疏。因此,我们提出了一个特征采样网络,通过减少多尺度特征中涉及的冗余背景噪声,降低计算复杂度,并为变换器的特征学习提供便利。多尺度文本提取器为了从前景文本中采样代表性特征,我们应用一个简单的多尺度文本提取器来预测像素级别的文本区域的置信度分数。根据CoordConv[19],我们F = {fk ∈ RHk×Wk×C|k = 0, 1, 2}.(1)fk = Conv(fk ⊕ Ck),(2)S = {Sk ∈ RH′k×W ′k|Sk = S( ˜fk), k = 0, 1, 2}.(3)¯F = [ ¯fn ∈ RC|n = 0, 1, ..., N],(4)Attn(�F) = softmax(Q(�F)K(�F)T√C′)V (�F),(5)where �F ∈ RN×C′ denotes the sampled features with posi-tion embeddings, and C′ is the channel number. Q, K andV denote the different linear layers.For previous methods [2,28], the core issue of applyingthe attention operation on a feature map xH×W ×C′L = λcLclass + λdLdet + λfLfs,(6)45660首先将每个特征图与两个额外的归一化坐标通道连接起来,以引入位置信息。设 F为不同尺度(即1/4、1/8、1/16)的FPN中的特征图,0然后通过位置信息注入0其中 ⊕ 表示连接操作,C k ∈ R H k × W k × 2表示归一化的坐标。受可变形ROI池化[4]的启发,我们专门设计了一个约束性的ROI池化来对多尺度特征图进行下采样。由于文本区域相对集中,可变形池化中的预测偏移量在进一步距离上会引入无关信息到池化特征中。因此,我们添加了一个可学习的缩放参数来约束预测的偏移量,并将 � f k池化到具有较小尺度的 ˜ f k (即 1 / 8 , 1 / 16 , 1 / 32)。最后,我们构建了一个由卷积层和Sigmoid函数组成的简单评分网络S,用于生成所有尺度上代表性文本区域的置信度分数图。为了更好地区分每个文本实例中不同位置的像素的重要性,我们使用不同位置上的分数进行监督。为了生成分数图,我们调整了一般目标检测中的高斯热图生成[6,13],用于单词级别的文本实例。具体而言,我们实现了一个二维高斯分布来生成地面真值 S t = { S t k | k = 0 , 1 ,2 } 用于S,确保每个文本实例的中心部分具有最高的重要性分数,并且分数从中心逐渐降低到轮廓。特征采样为了减少冗余的背景噪声,我们设计了一种策略来选择与前景文本高度相关的代表性特征。这些特征包含了前景文本丰富的几何和上下文信息,足以进行文本定位。设 S表示预测的分数图,且0然后,我们对 S k中的分数进行排序,并分别选择每个尺度的 ˜ f k 中前 N k个分数的特征。所选特征被聚集到 ¯ F ∈ R N × C中,用于传入的变换器建模:0其中 N = 20k =0 N k ,其中 N k 是所选特征的数量0不同尺度上的特征。因此,所有尺度上的庞大特征数量可以显著减少。主要选择的特征是0可能来自前景文本区域,其中包含了足够的几何和上下文信息以进行文本检测。03.3. 特征分组0通过特征选择,只有少数与前景文本高度相关的代表性特征被连接起来,用于传入的变换器建模。为了保留采样特征的位置信息,我们将位置嵌入添加到 ¯ F中。然后,我们采用变换器结构通过注意机制隐式地聚合来自同一文本实例的特征。基本形式是一个堆叠的网络,包含四个变换器编码器层,它们由自注意模块、前馈层和层归一化组成。根据[39],我们构建了自注意模块如下:0是所有空间位置的计算复杂度。在原始的DETR[2]编码器中,注意力操作的复杂度是 O (( HW ) 2 C ′),与空间尺寸的平方成正比。然而,在我们的方法中,它只与所选特征的数量 N 相关,复杂度变为 O ( N 2 C ′)。在我们的实现中,所选数量 N 2 � ( HW )2,因此我们的变换器的复杂度可以显著降低。最后,输出的文本特征被送入两个预测头进行分类和文本检测。文本检测头由全连接层和Sigmoid函数组成。它可以回归旋转边界框的坐标,形式为 B ( x, y, h, w, θ )或贝塞尔曲线的8个控制点[21],用于任意形状的文本。其中 x、y、h、w 和 θ分别是中心点的坐标、高度、宽度和角度。03.4. 优化0所提出的模型以端到端的方式进行训练,目标函数包含以下三个部分:0其中 � L class 是分类的损失, � L det 是文本检测的损失,L fs 是特征选择的损失。 λ c , λ d 和 λ f 是缩放因子。与DETR [ 2 ] 一样,我们在计算 � L class 和 � L det的损失之前采用匈牙利算法进行配对匹配。Lclass = 1N�x−[gx·log(px)+(1−gx)·log(1−px)], (7)�Ldet = 1Nr�x(1 −1τ + f(d2( �ux|tx|, �tx|tx|))),(8)Lfs =1Nf45670图3. 我们提出的方法在不同情况下的定性结果,包括多方向文本、长文本、多语言文本、低分辨率文本、弯曲文本、密集文本。对于弯曲文本检测,贝塞尔曲线的控制点用红色绘制。0分类的损失我们在匈牙利算法配对匹配后采用交叉熵损失进行文本/非文本分类。可以表示为0其中 N 是所选特征的总数, � g x 表示样本 x 的标签, � p x表示预测的概率。带有 �的元素表示配对匹配后的样本的概率或标签。文本检测的损失对于多方向文本检测,我们将高斯瓦砂距离(GWD)损失 [45 ]转换为一个尺度不变的形式,以更好地平衡不同尺度文本的损失权重。由于尺度的极端变化,小文本的损失对梯度反向传播的影响与大文本的损失相比可以忽略不计。因此,我们调整了 GWD 损失如下:0其中 � u x 表示预测的旋转边界框, � t x 表示目标边界框,| � | 表示其面积。 N r 是配对匹配后的边界框数量。带有 �的元素表示配对匹配后的匹配边界框或目标边界框。 f ( ∙ )表示非线性函数, τ是一个超参数用于调节损失。附录中将解释 d 2 。根据GWD 损失 [ 45 ],我们设置 f ( d 2 ) = log ( d 2 + 1) 和 τ= 3 。通过将 � u x 和 � t x 标准化为 � t x的面积,可以减小尺度不平衡的负面影响。对于任意形状的文本检测,我们采用 ABC-Net [ 21 ] 中的 Bezier-Curve损失。因此,预测0文本检测的头部由预测边界框和贝塞尔曲线的控制点的两个头部改变。在边界框预测头部中,为每个边界框 ¯ B ( x, y,h, w )预测中心点坐标、框宽和框高。在贝塞尔曲线预测头部中,为每个文本实例预测 8 个控制点的坐标。特征选择的损失我们在特征选择中应用平滑 L1损失来优化重要性分数图,如下所示:0k L 1 平滑 { S k , S t k } , k = 0 , 1 , 2, (9)0其中 N f 是所有分数图的总大小。 S k 和 S t k分别表示预测的分数图和目标图。04. 实验0在本节中,我们首先介绍数据集和实验细节。然后,我们展示了在公共基准测试中的评估结果以及对特征采样的一项消融研究。最后,我们将我们提出的方法与一些流行的基于Transformer 的检测方法进行了比较。04.1. 数据集0SynthText[7]是一个包含80万张图像的大型合成数据集。它仅用于我们的模型的预训练。ICDAR 2015 (IC15)[12]包含1000个训练图像和500个测试图像,大部分图像都严重扭曲或模糊。所有图像都以单词级别的四边形框进行了注释。MLT-2017 (MLT17)[30]是用于多语言场景文本检测的数据集。它包含7200个训练图像,1800个测试图像。45680方法 ICDAR 2015 MSRA-TD500 Total-Text CTW1500 P R F P R F P R F P R F0TextSnake [24] 84.9 80.4 82.6 83.2 73.9 78.3 82.7 74.5 78.4 67.9 85.3 75.6 TextField [44] 84.3 83.9 84.1 87.475.9 81.3 81.2 79.9 80.6 83.0 79.8 81.4 PSE-Net [40] 86.9 84.5 85.7 - - - 84.0 78.0 80.9 84.8 79.7 82.2 CRAFT[1] 89.8 84.3 86.9 88.2 78.2 82.9 87.6 79.9 83.6 86.0 81.1 83.5 PAN [41] 84.0 81.9 82.9 84.4 83.8 84.1 89.3 81.085.0 86.4 81.2 83.7 DB [17] 91.8 83.2 87.3 91.5 79.2 84.9 87.1 82.5 84.7 86.9 80.2 83.4 ContourNet [42] 87.686.1 86.9 - - - 86.9 83.9 85.4 84.1 83.7 83.9 DRRG [49] 88.5 84.7 86.6 88.1 82.3 85.1 86.5 84.9 85.7 85.9 83.084.5 MOST [10] 89.1 87.3 88.2 90.4 82.7 86.4 - - - - - - Raisi et al. [32] 89.8 78.3 83.7 90.9 83.8 87.2 - - - - - -TextBPN [50] - - - 86.6 84.5 85.6 90.7 85.2 87.9 86.5 83.6 85.00Ours (RBox) 90.9 87.3 89.1 91.6 84.8 88.1 - - - - - - Ours (Bezier) 91.1 86.7 88.8 91.4 84.7 87.9 90.7 85.7 88.188.1 82.4 85.20表1. 在ICDAR2015、MSRA-TD500、Total-Text和CTW1500上的检测结果。“P”、“R”和“F”分别表示精确率、召回率和F-度量。0验证图像和9000个测试图像。所有图像都以单词级别的四边形框进行了注释。MSRA-TD500[47]是一个包含中英文的多语言文本数据集。它包括300个训练图像和200个包含多方向长文本的测试图像。根据之前的工作[10, 17, 24],我们在微调阶段包括HUST-TR400[46]作为额外的训练数据。MTWI[11]是一个用于中英文网络文本阅读的大规模数据集。它包含一些具有挑战性的情况,如复杂布局、小文本和水印。共有10000个训练图像和10000个测试图像,所有文本实例都以行级别进行了标注。Total-Text[3]是一个包含各种形状文本的数据集,包括水平、多方向和曲线文本。它包含1255个训练图像和300个测试图像,文本实例以单词级别进行标注。CTW1500[48]是一个曲线文本数据集,包含1000个训练图像和500个测试图像。文本实例以文本行级别进行了注释。04.2. 实现细节0我们用Ours (RBox)表示我们的有向文本检测模型,用Ours(Bezier)表示我们的任意形状文本检测模型。Ours(RBox)首先在SynthText上进行了150个epoch的预训练,然后在每个相应的真实数据集上进行了100个epoch的微调。Ours (Bezier)遵循了ABC-Net[21]的实验设置,并添加了Bezier曲线合成数据集进行预训练。我们使用AdamW[25]进行模型优化,权重衰减为1e-4,动量为0.9。预训练和微调的初始学习率分别为1e-3和5e-4。在第40个验证图像之后,两者都会衰减到1e-4。0epoch。更多细节请参考附录。04.3. 在基准测试上的评估0为了与之前的场景文本检测器进行比较,我们在几个流行的场景文本检测基准上评估了我们提出的方法。我们采用Tab.4中的第5个模型配置来评估所有基准。如图3所示,我们提供了不同情况下的一些定性结果,包括多方向文本、长文本、多语言文本、小文本、低分辨率文本和曲线文本。多方向文本检测我们在IC15数据集和MSRA-TD500数据集上评估了我们的多方向文本方法,这两个数据集包含大量的小文本、低分辨率文本和长文本实例。如表1所示,我们的模型在IC15和MSRA-TD500上的性能比之前的最先进方法提高了0.9%。与之前基于DETR的方法[32]相比,我们提出的模型在IC15上的小而模糊文本检测性能(89.1% vs.83.7%)要好得多。与MSRA-TD500上的先前基于CNN的方法相比,我们的方法在f-measure方面至少提高了1.7%,这要归功于transformer在提取全局范围特征和长距离依赖性方面的优势。在Swin-transformer[23]的帮助下,我们的模型在检测性能上进一步提升,如表7所示。曲线文本检测为了证明我们的方法在曲线文本上的有效性,我们在两个流行的曲线文本基准上进行了评估,即Total-Text数据集和CTW1500数据集。如表1所示,与最先进的方法TextBPN[50]相比,我们的方法在f-measure方面提高了0.2%。在Bezier-Curve[21]的帮助下,我们的方法可以为曲线文本生成多边形Ours (RBox)87.373.279.613.1F45690方法 P R F FPS0Corner [26] 83.8 55.6 66.8 - CRAFT [1] 80.6 68.273.9 8.6 PSE-Net [40] 73.8 68.2 70.7 - DB [17] 83.167.9 74.7 19.0 DRRG [49] 75.0 61.0 67.3 - Xiao et al.[43] 84.2 72.8 78.1 - MOST [10] 82.0 72.0 76.7 10.1Raisi et al. [32] 84.8 63.2 72.4 -0表2. MLT-2017测试数据集上的检测结果。0我们的(RBox) 87.3 73.2 79.6 13.10SegLink * [34] 70.0 65.4 67.6 - TextBoxes++ * [15]66.8 56.3 61.1 - Seglink++ [37] 74.7 69.7 72.1 - BDN† [22] 77.3 70.0 73.4 2.7 PAN † [41] 78.9 68.9 73.516.9 MOST [10] 78.8 71.1 74.7 23.50方法 P R F FPS0表3. MTWI数据集上的检测结果。*和†表示结果由SegLink++[37]和MOST [10]报告。0我们的(RBox) 78.4 72.3 75.2 21.504.4. 特征采样实验0为了证明我们提出的特征采样方案的有效性,我们在IC15数据集和MLT17验证数据集上进行了几个不同采样配置的实验。如表4的#1,#2和#5所示,我们的方法可以显著提高性能,借助于更高分辨率的特征图。对于IC15,采样所有尺度的特征优于文本,前者无法精确检测到[32]。此外,我们的Bezier-Curve方法在IC15和MSRA-TD500数据集上也能达到最先进的性能。多语言文本检测为了证明我们的模型对不同语言的鲁棒性,我们在两个大规模场景文本数据集(即MLT17测试数据集和MTWI数据集)上进行了评估。如表2所示,与最先进的模型[43]相比,我们的模型在精确度、召回率和F-measure方面分别提高了3.1%、0.4%和1.5%。我们还在MTWI数据集上评估了我们的模型,该数据集包含来自网络图像的多语言文本。我们的方法在F-measure方面以75.2%的最佳性能取得了竞争性的推理速度(21.5 FPS)。0ID 采样特征 IC15 MLT17验证0#1 64 - - 75.2 60.4 67.0 79.9 53.2 63.9 #2 64 128 - 86.578.3 82.2 82.7 65.9 73.4 #3 16 32 64 82.4 73.7 77.8 78.961.1 68.9 #4 32 64 128 88.1 84.0 86.0 84.1 72.8 78.0 #5 64128 256 90.9 87.3 89.1 86.8 73.4 79.5 #6 128 256 51290.2 87.9 89.0 85.9 73.8 79.4 #7 自适应采样 90.7 87.2 88.9 -- -0表4.在IC15测试数据集和MLT17验证数据集上的特征采样数量实验。L0,L1和L2表示不同尺度(即1/32,1/16,1/8)的特征图。0其他两种配置分别比其他配置提高了22.1%和6.9%的性能。一致地,在MLT17上与其他方法相比,它在性能上提高了15.6%和6.1%。此外,我们进行了四种配置来探索从#3到#6的采样数量的影响。我们观察到性能随着更多的采样特征而增加,但在最后停滞。采样特征较少的模型表现不佳,因为这些特征不包含所有文本实例的足够几何和上下文信息。从#5和#6中,我们发现性能略微下降,随着采样数量的增加,这可能引入更多冗余特征并产生负面效果。为了进一步评估采样点的影响,我们在#7中采用自适应采样方案进行训练。对于每个训练图像,我们根据预测分数对所有前景文本区域的特征进行排序,并采样其中得分最高的固定百分比(25%)。通过这种方式,采样数量根据前景特征数量自适应,并且自适应采样的性能接近于#5和#6。因此,当采样数量大于#5时,我们的方法对此不敏感。此外,我们尝试使用不同尺度的所有特征进行变换建模,但在训练过程中遇到“内存不足”的问题。假设输入图像的尺寸为1024×1024,L0,L1和L2的尺寸分别为32×32,64×64和128×128。整个与背景混合的特征很难建模,并且导致计算成本巨大,几乎比#5的计算成本高出1400倍。因此,我们的特征采样对于多尺度特征图的复杂性降低和场景文本检测的重要信息保留是有效的。04.5. 与基于Transformer的检测方法的比较0在这部分中,我们将我们的模型与一些流行的基于Transformer的方法(即DETR [2],可变形DETR [53]和条件DETR[29])进行比较。我们使用它们的官方代码,并按照我们的训练设置进行公平比较。值得注意的是,我们调整了它们的代码05010015020025030035040050556065707580859045700Epochs0F-measure0我们的DETR可变形DETR条件DETR0图4.DETR、可变形DETR、条件DETR和我们的(RBox)在SynthText上的收敛曲线。训练和验证集是从SynthText中按比例8:2划分的。我们通过调整它们的官方代码进行多方向文本检测,并遵循与我们相同的设置。0为了多方向文本检测,我们通过添加角度回归和使用我们的损失函数进行了微调。由于在之前的方法中,预训练SynthText是必要的步骤[10, 17, 42,49],我们首先比较了在SynthText上的收敛速度。我们使用与我们相同的训练设置训练大多数模型,但是由于DETR的收敛速度较慢,我们将其训练了350个epoch。如图4所示,我们的方法的收敛速度比DETR快得多,因为我们可以显著减少冗余信息并简化Transformer建模。与其他两种专注于提高注意力单元效率的方法[29,53]相比,我们的特征采样和分组方案具有更简单的流程,但在收敛速度和检测性能方面表现出竞争力。经过微调后,我们提出的模型在IC15和MLT17上以f-measure为指标获得了最佳的检测性能,如表5所示。此外,我们还与之前基于Transformer的方法进行了FLOPs、模型参数数量和推理速度的比较。为了公平比较,我们将输入图像的两边都调整为640,以计算FLOPs,并使用IC15测试数据集中的相同图像通过FPS来测量推理速度。先前的方法中,对象查询的数量设置为100,我们采用表4中的#5配置。如表6所示,我们提出的基于Transformer的架构在FLOPs方面具有较低的计算成本和更快的推理速度。04.6. 限制0对于我们的特征采样和分组方案,很难处理“文本重叠”情况,这意味着两个0方法 IC15 MLT17验证集0P R F P R F0DETR* [2] 87.9 75.4 81.2 84.6 63.4 72.5 可变形DETR* [53] 88.384.7 86.5 86.5 69.3 77.0 条件DETR* [29] 87.5 81.8 84.6 85.967.8 75.8 Raisi等[32] 89.8 78.3 83.7 - - -0我们的(RBox) 90.9 87.3 89.1 86.8 73.4 79.50表5.与基于Transformer的方法在IC15测试数据集和MLT17验证数据集上的比较。*表示这些方法是通过调整它们的官方代码进行多方向文本检测训练的。0方法 FLOPs 参数 FPS0DETR [2] 38.9G 41.3M 9.7 可变形DETR [53]36.8G 39.8M 7.6 条件DETR [29] 42.2G 43.2M9.10我们的(RBox) 35.9G 38.3M 12.90表6.与基于Transformer的方法在FLOPs、模型参数数量和推理速度方面的比较。0Transformer层 IC15 MLT17验证集0P R F P R F0基础层 90.8 87.3 89.1 86.8 73.4 79.5 Swin Transformer层 90.988.1 89.5 87.2 73.4 79.70表7.我们特征分组网络中Transformer层的实验。详细信息可参考附录。0文本实例彼此重叠。尽管我们的特征分组网络可以建模采样特征之间的关系,但是重叠文本的特征非常复杂和纠缠。因此,我们提出的方法在这些情况下有时会失败,附录中展示了这些情况。05. 结论0在本文中,我们提出了一种简单而有效的基于Transformer的场景文本检测架构。与以往的场景文本检测方法不同,我们的方法仅利用包含足够几何和上下文信息的少量代表性特征来检测前景文本。它能够有效地减少冗余的背景噪声,并克服自注意模块的复杂性限制。借助Transformer的强大功能,我们可以在不进行任何后处理的情况下获得更准确的边界框。通过大量实验证明,我们的方法在多方向文本数据集和任意形状文本数据集上始终取得了最先进的结果。致谢:本工作得到了中国国家重点研发计划的支持(编号2018YFB1004600)。45710参考文献0[1] Youngmin Baek,Bado Lee,Dongyoon Han,SangdooYun和Hwalsuk Lee. 用于文本检测的字符区域意识.在CVPR,2019年。 2 , 6 , 70[2] Nicolas Carion,Francisco Massa,GabrielSynnaeve,Nicolas Usunier,Alexander Kirillov和SergeyZagoruyko. 基于Transformer的端到端对象检测.在ECCV,2020年。 1 , 2 , 3 , 4 , 7 , 80[3] Chee Kheng Ch’ng和Chee Seng Chan.Total-text:用于场景文本检测和识别的综合数据集.在ICDAR,2017年。 2 , 60[4] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu和Yichen Wei. 可变形卷积网络.在ICCV,2017年。 40[5] Xiyang Dai,Yinpeng Chen,Jianwei Yang,PengchuanZhang,Lu Yuan和Lei Zhang.动态DETR:具有动态注意力的端到端对象检测.在ICCV,2021年。 10[6] Kaiwen Duan,Song Bai,Lingxi Xie,Honggang Qi,Qing-ming Huang和Qi Tian. Centernet:用于对象检测的关键点三元组.在ICCV,2019年。 40[7] Ankush Gupta,Andrea Vedaldi和Andrew Zisserman.用于自然图像中文本定位的合成数据. 在CVPR,2016年。 50[8] Kaiming He,Georgia Gkioxari,Piotr Doll´ar和Ross Gir-shick. Mask R-CNN. 在ICCV,2017年。 20[9] Kaiming He,Xiangyu Zhang,Shaoqing Ren和Jian Sun.深度残差学习用于图像识别. 在CVPR,2016年。 30[10] Minghang He,Minghui Liao,Zhibo Yang,Humen Zhong,JunTang,Wenqing Cheng,Cong Yao,Yongpan Wang和Xiang Bai.MOST:一种具有定位细化的多方向场景文本检测器. 在CVPR,2021年。 1, 6 , 7 ,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功