自举与边界语义感知的场景文本检测技术

19 浏览量更新于2024-06-20 收藏 2.21MB PDF 举报

"本文主要研究了基于边界语义感知和自举的场景文本检测技术，旨在提高场景文本的准确性和鲁棒性。作者提出了一种新的Bootstrapping技术，解决了训练数据有限的问题，并通过复制文本子框改进了预测特征图的结构。此外，他们还设计了语义感知的文本边界检测技术，以更精确地定位长单词或文本行。实验结果在多个公共数据集上显示出优秀的表现。" 场景文本检测是计算机视觉领域的一个重要课题，尤其是在多语言翻译和自动驾驶等应用中具有广泛需求。尽管已有多年的研究，但由于场景文本的复杂性和多样性，准确且鲁棒的检测仍然是一个挑战。近年来，随着深度学习技术，尤其是卷积神经网络(CNN)的发展，研究者开始将通用对象检测方法应用到场景文本检测上，将单词或文本行视为独立的对象进行处理。本文提出的检测技术主要由两部分构成：边界语义感知和自举机制。首先，通过Bootstrapping技术，论文解决了训练数据不足的问题。这是一种迭代学习策略，能够从有限的训练数据中选择子序列，从而逐步提升模型的性能。其次，为了更精确地定位文本，特别是长单词或文本行，研究人员引入了语义感知的文本边界检测。这种方法关注文本边缘的语义信息，生成四种类型的文本边界段，使得模型可以回归到单词或文本行的末端像素，而不是所有文本像素，从而避免了因长文本导致的定位不准确问题。为了实现这一技术，文章中使用了一种多通道全卷积网络(FCN)，该网络能够处理增强的图像和语义感知的文本边界信息。在训练过程中，从每个图像中提取增强图像和文本边界，然后输入到网络中进行训练。在测试阶段，网络会预测出文本特征图和四种文本边界，这些信息用于精确的场景文本检测。实验部分，该技术在多个公共数据集上进行了验证，包括ICDAR2017-RCTW和MSRA-TD500，取得了优秀的F评分，表明了所提方法的有效性。这些成果不仅为场景文本检测提供了一个有力的解决方案，也为后续的文本识别和理解任务奠定了基础。关键词中的“数据增强”指的是通过各种手段增加训练数据的多样性和数量，以提升模型的泛化能力；“深度网络模型”特指使用深度学习架构，如CNN，来处理复杂的视觉任务；“语义感知检测”强调的是模型能够理解和利用文本的语义信息来提高检测精度。这些技术的应用为场景文本检测带来了显著的提升，使得在实际应用中能更好地处理各种复杂场景下的文本检测问题。

薛楚辉，石建路，方能展

使用语义图像分割方法[50，45，9]。此外，已经开发了不同的技术，

通过使用TextFlow [39]，长短期记忆（LSTM）[50]等[16，45，26]将检

测到的字符连接到单词或文本行

第二类将单词视为一种特定类型的对象，并通过采用各种通用对

象检测技术来直接检测它们该类别下的方法可以进一步分为两类。第

一类利用Faster-RCNN [34]、YOLO [33]和SSD [24]，并设计用于场景文

本检测的文本特定建议或默认框[25，23，7，17，5，38]。第二类采

用直接回归方法[11，52]，首先检测感兴趣区域（ROI），然后在像

素级回归ROI周围的文本框。

第三类通过利用已成功应用于语义图像分割的全卷积网络

（FCN）[27]直接检测文本行。例如，He

等人。

[8]提出了一种由粗到

细的FCN，通过提取文本区域和文本中心线来检测场景文本。在[42，

32]中，FCN被用来学习文本边界图，其中通过查找具有文本标签的连

接组件来检测文本行。

我们提出的技术采用直接回归方法[11，52]，直接从文本像素回归

单词和文本行框。另一方面，我们检测具有特定语义的多个文本边界

段（而不是如[42，32]中的整个文本边界），这有助于大大提高场景

文本定位精度，更多细节将在第二节3.2.

数据增强在深度网络训练中被广泛采用，作为一种避免过度拟合的正

则化。对于各种计算机视觉任务，例如图像分类和对象检测，它通过

平移、旋转、裁剪和翻转图像或感兴趣的注释对象来广泛实现，以创

建更大量的训练数据[22，37，6]。近年来提出了一些更复杂的增强方

案G.使用遮罩来隐藏对象的某些部分，以模拟各种遮挡实例[51]。数

据增强已经成为深度学习中的一种常规操作，这是由于其在训练更准

确和更鲁棒的深度网络模型方面的有效性。

我们的基于自举的场景文本采样属于数据增强的范畴它类似于图

像裁剪，但涉及通过迎合文本特定形状和结构的创新设计通过解耦长

单词或文本行中的图像变化，它有助于产生更一致的场景文本特征，

这在预测单词或文本行的单个完整框而不是多个破框中是至关重要的

第3.1条

方法

我们提出了一种新的场景文本检测技术，利用自举数据增强和语义感

知的文本边界段准确

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

自举与边界语义感知的场景文本检测技术

基于图像分割方式的文本检测

基于yolov3实现文本检测和基于CRNN实现文本识别的算法

基于yolov3的文本检测

动态场景下的车辆检测和跟踪方法研究 csdn

是什么。下列哪个场景主要应用目标检测技术a.文本分类b.车流量分析c.图像分割

语义分割和目标检测区别

请详细描述一下目前主流的文本检测算法

语义分割和目标检测的模型

基于感知机的中文分词

最新资源